在 Language Studio 中标记语句
为项目生成架构之后,应向项目添加训练言语。 这些言语应类似于用户在与项目交互时将使用的言语。 添加语句时,必须指定该言语所属的意图。 添加语句后,标记语句中要提取为实体的字词。
标记数据是开发生命周期中的关键步骤;训练模型时,此数据将在下一步骤中使用,以便模型可以从标记的数据中学习。 如果已标记了语句,可以直接将其导入项目,但需要确保数据遵循接受的数据格式。 请参阅创建项目,了解有关如何将标记的数据导入项目。 标记的数据可告知模型如何解释文本,并且会用于训练和评估。
先决条件
标记数据之前,需要:
- 已成功创建的项目。
有关详细信息,请参阅项目开发生命周期。
数据标记指南
在生成架构和创建项目之后,需要标记数据。 标记数据非常重要,这样模型就会知道哪些字词和句子可与项目中的意向和实体关联。 你需要花时间标记语句 - 引入和优化将用于训练模型的数据。
添加语句并标记它们时,请记住:
机器学习模型根据提供的标记示例通用化;提供的示例越多,模型就有越多的数据点来更好地通用化。
标记数据的精度、一致性和完整性是确定模型性能的关键因素。
- 精确标记:始终将每个意向和实体标记为正确的类型。 仅包含要分类和提取的内容,避免标签中出现不必要的数据。
- 一致标记:同一实体在所有语句中都应具有相同的标记。
- 完全标记:为每个意向提供不同的语句。 标记所有语句中实体的所有实例。
清楚地标记语句
确保实体引用的概念定义清晰且可分离。 检查是否可以轻松可靠地确定差异。 否则,不区分大小写可能表明习得的组件也会遇到问题。
如果实体之间存在相似性,请确保数据的某些方面提供了它们之间的差异标志。
例如,如果你生成了一个模型来预订航班,用户可能会使用此类语句:“我想要预订从波士顿飞往西雅图的航班。”此类语句的“出发地城市”和“目的地城市”应该类似。 区分“出发地城市”的一个信号可能是,它的前面经常出现“从”一词。
确保在训练数据和测试数据中标记每个实体的所有实例。 一种方法是使用搜索函数查找数据中某个字词或短语的所有实例,以检查是否正确标记。
为没有习得组件的实体标记测试数据,同时也为具有习得组件的实体标记测试数据。 这种做法有助于确保评估指标准确。
对于多语言项目,添加其他语言的语句可以提高模型在这些语言中的性能,但要避免跨你要支持的所有语言复制数据。 例如,为了提高日历机器人在用户中的性能,开发人员可能会添加主要使用英语的示例,以及一些使用西班牙语或法语的示例。 他们可能会添加以下言语:
- “安排明天中午 12 点与 Matt 和 Kevin 会面。”(英语)
- “采用暂定方式答复每周更新会议。”(英语)
- “Cancelar mi próxima reunión。”(西班牙语)
如何标记语句
使用以下步骤标记语句:
转到 Language Studio 中的项目页面。
在左侧菜单中,选择“数据标记”。 在此页中,可以开始添加语句并标记它们。 还可以通过单击顶部菜单中的“上传语句文件”直接上传语句,请确保它遵循可接受的格式。
从顶部透视中,可以将视图更改为“训练集”或“测试集”。 详细了解训练集和测试集以及它们如何用于模型训练和评估。
提示
如果计划使用“从训练数据中自动拆分测试集”拆分,请将所有语句添加到训练集中。
在“选择意向”下拉菜单中,选择其中一个意向、语句的语言(对于多语言项目),以及语句本身。 在语句的文本框中按 Enter 键以添加语句。
有两个选项来标记语句中的实体:
选项 说明 使用画笔标记 选择右侧窗格中实体旁边的画笔图标,然后突出显示语句中你想要标记的文本。 使用内联菜单标记 突出显示要标记为实体的字词,随后将显示一个菜单。 选择要标记这些字词的实体。 在“标记”透视下方的右侧窗格中,可以找到项目中的所有实体类型以及每个实体类型的已标记实例数。
在“分布”透视下,可以查看训练集和测试集中的分布。 有两种查看方式:
- 每个标记实体的实例总数,即可以在其中查看特定实体类型的所有已标记实例的计数。
- 每个标记实体的唯一语句,如果每个语句包含此实体的至少一个标记实例,那么就要把每个语句都计算进去。
- 每个意向的语句,可在其中查看每个意向的语句数量。
注意
列表和预生成组件不会显示在数据标记页中,此处的所有标签仅适用于已学习的组件。
删除标签:
- 从语句中,选择要从中删除标记的实体。
- 滚动显示的菜单,然后选择“删除标签”。
删除实体:
- 在右侧窗格中选择要编辑的实体。
- 选择实体旁边的三个点,然后从下拉菜单中选择所需的选项。