在 Language Studio 中标记语句

为项目生成架构之后，应向项目添加训练言语。这些言语应类似于用户在与项目交互时将使用的言语。添加语句时，必须指定该言语所属的意图。添加语句后，标记语句中要提取为实体的字词。

标记数据是开发生命周期中的关键步骤；训练模型时，此数据将在下一步骤中使用，以便模型可以从标记的数据中学习。如果已标记了语句，可以直接将其导入项目，但需要确保数据遵循接受的数据格式。请参阅创建项目，了解有关如何将标记的数据导入项目。标记的数据可告知模型如何解释文本，并且会用于训练和评估。

先决条件

标记数据之前，需要：

有关详细信息，请参阅项目开发生命周期。

在生成架构和创建项目之后，需要标记数据。标记数据非常重要，这样模型就会知道哪些字词和句子可与项目中的意向和实体关联。你需要花时间标记语句 - 引入和优化将用于训练模型的数据。

添加语句并标记它们时，请记住：

机器学习模型根据提供的标记示例通用化；提供的示例越多，模型就有越多的数据点来更好地通用化。
标记数据的精度、一致性和完整性是确定模型性能的关键因素。
- 精确标记：始终将每个意向和实体标记为正确的类型。仅包含要分类和提取的内容，避免标签中出现不必要的数据。
- 一致标记：同一实体在所有语句中都应具有相同的标记。
- 完全标记：为每个意向提供不同的语句。标记所有语句中实体的所有实例。

确保实体引用的概念定义清晰且可分离。检查是否可以轻松可靠地确定差异。否则，不区分大小写可能表明习得的组件也会遇到问题。
如果实体之间存在相似性，请确保数据的某些方面提供了它们之间的差异标志。

例如，如果你生成了一个模型来预订航班，用户可能会使用此类语句：“我想要预订从波士顿飞往西雅图的航班。”此类语句的“出发地城市”和“目的地城市”应该类似。区分“出发地城市”的一个信号可能是，它的前面经常出现“从”一词。
确保在训练数据和测试数据中标记每个实体的所有实例。一种方法是使用搜索函数查找数据中某个字词或短语的所有实例，以检查是否正确标记。
为没有习得组件的实体标记测试数据，同时也为具有习得组件的实体标记测试数据。这种做法有助于确保评估指标准确。

对于多语言项目，添加其他语言的语句可以提高模型在这些语言中的性能，但要避免跨你要支持的所有语言复制数据。例如，为了提高日历机器人在用户中的性能，开发人员可能会添加主要使用英语的示例，以及一些使用西班牙语或法语的示例。他们可能会添加以下言语：
- “安排明天中午 12 点与 Matt 和 Kevin 会面。”（英语）
- “采用暂定方式答复每周更新会议。”（英语）
- “Cancelar mi próxima reunión。”（西班牙语）

使用以下步骤标记语句：

转到 Language Studio 中的项目页面。
在左侧菜单中，选择“数据标记”。在此页中，可以开始添加语句并标记它们。还可以通过单击顶部菜单中的“上传语句文件”直接上传语句，请确保它遵循可接受的格式。
从顶部透视中，可以将视图更改为“训练集”或“测试集”。详细了解训练集和测试集以及它们如何用于模型训练和评估。

提示

如果计划使用“从训练数据中自动拆分测试集”拆分，请将所有语句添加到训练集中。
在“选择意向”下拉菜单中，选择其中一个意向、语句的语言（对于多语言项目），以及语句本身。在语句的文本框中按 Enter 键以添加语句。

有两个选项来标记语句中的实体：

选项	说明
使用画笔标记	选择右侧窗格中实体旁边的画笔图标，然后突出显示语句中你想要标记的文本。
使用内联菜单标记	突出显示要标记为实体的字词，随后将显示一个菜单。选择要标记这些字词的实体。

在“标记”透视下方的右侧窗格中，可以找到项目中的所有实体类型以及每个实体类型的已标记实例数。
在“分布”透视下，可以查看训练集和测试集中的分布。有两种查看方式：
- 每个标记实体的实例总数，即可以在其中查看特定实体类型的所有已标记实例的计数。
- 每个标记实体的唯一语句，如果每个语句包含此实体的至少一个标记实例，那么就要把每个语句都计算进去。
- 每个意向的语句，可在其中查看每个意向的语句数量。

注意

列表和预生成组件不会显示在数据标记页中，此处的所有标签仅适用于已学习的组件。

删除标签：

删除实体：