标记图像和文本文档

项目管理员创建了 Azure 机器学习图像数据标签项目或 Azure 机器学习文本数据标签项目后,你可以使用标签工具为机器学习项目快速准备数据。 本文介绍:

  • 如何访问标签项目
  • 标记工具
  • 如何使用工具执行特定的标签任务

先决条件

  • 组织和项目的 Microsoft 帐户或 Microsoft Entra 帐户。
  • 对包含标签项目的工作区具有参与者级别访问权限。

登录到工作室

  1. 登录到 Azure 机器学习工作室

  2. 选择包含标签项目的订阅和工作区。 你的项目管理员具有此信息

  3. 你可能会在左侧看到多个部分,具体取决于你的访问级别。 如果你确实看到了多个部分,请选择左侧的“数据标签”来查找项目。

了解标记任务

在数据标签项目表中,选择项目的“标记数据”链接。

你可以获得针对项目的特定说明。 这些说明解释了涉及的数据类型、如何做出决策以及其他相关信息。 阅读信息,然后选择页面顶部的“任务”。 也可以选择页面底部的“开始标记”。

选择标签

在所有数据标签任务中,均需从项目管理员指定的集中选择一个或多个适当的标签。 可以使用键盘数字键选择前九个标签。

辅助机器学习

标记过程可能会触发机器学习算法。 如果项目启用了这些算法,你可能会看到:

  • 映像

    • 在标记了部分数据后,你可能会在屏幕顶部的项目名称旁边注意到“群集任务”。 图像被分组到一起,在同一页面上呈现相似的图像。 出现群集任务后,请切换到多个图像视图中的一个来利用分组。

    • 稍后,你可能会在项目名称旁边看到“预标记的任务”。 将显示带有建议标签的项,这类标签由机器学习分类模型生成。 任何机器学习模型都达不到 100% 的准确度。 虽然我们只使用模型有信心识别的数据,这些数据值仍可能存在错误的预标签。 查看标签时,请先更正所有错误的标签,然后再提交页面。

    • 在对象标识模型中,你可能已经注意到边界框和标签。 在提交页面之前,请更正所有错误。

    • 在分段模型中,你可能已经注意到多边形和标签。 在提交页面之前,请更正所有错误。

  • 文本

    • 稍后,你可能会在项目名称旁边看到“预标记的任务”。 将显示带有建议标签的项,这类标签由机器学习分类模型生成。 任何机器学习模型都达不到 100% 的准确度。 虽然我们只使用模型有信心识别的数据,这些数据值仍可能存在错误的预标签。 查看标签时,请先更正所有错误的标签,然后再提交页面。

在标签项目的早期,机器学习模型的准确度可能只够预标记较小的图像子集。 在标记了这些图像后,标签项目将返回到手动标记,为下一轮模型训练收集更多数据。 随着时间的推移,模型将对更高比例的图像更有信心。 在项目的后期,它的置信度会使得预标记任务数量增多。

当没有更多预标记的任务时,标签确认或更正过程将停止,并返回到手动项目标记。

图像任务

对于图像分类任务,可选择同时查看多个图像。 若要选择布局,请使用图像区域上方的图标。

若要同时选择所有显示的图像,请使用“全选”。 若要选择单个图像,请使用图像右上角的循环选择按钮。 必须至少选择一个图像才能应用标记。 如果选择多个图像,则选择的任何标记都将应用到所有选定的图像。

例如,我们可以选择一个二乘二的布局,并将标记“哺乳动物”应用于熊和虎鲸的图像,如以下屏幕截图所示:

显示选择多个图像的屏幕截图。

此屏幕截图展示了多个图像布局和选择 鲨鱼图像已经被标记为“软骨鱼”,而鬣蜥还没有标记。

重要

只在你有包含未标记数据的新页面时切换布局。 切换布局会清除页面正在进行的标记工作。

标记了页面上的所有图像后,Azure 将启用“提交”按钮。 选择“提交”以保存工作。

提交手头数据的标记后,Azure 将使用工作队列中的一组新图像刷新页面。

医学图像任务

重要

为 DICOM 或类似图像类型设置标签的功能不应用于或不可供用于医疗设备、临床支持、诊断工具或者其他旨在用于诊断、治愈、缓解、治疗或预防疾病或其他健康问题的技术,Microsoft 不授予将此功能用于此类目的的任何许可或权利。 此功能不旨在代替专业人员医疗建议或保健意见、诊断、治疗或医疗保健专业人员临床判断而实施或部署,并且不应用作此用途。 客户只负责对 DICOM 或类似图像类型使用数据标签。

图像项目支持用于 X 光文件图像的 DICOM 图像格式,如以下屏幕截图所示:

显示要标记的 X 光 DICOM 图像的屏幕截图。

虽然你在标记医学图像时使用的工具与其他图像相同,你也可以使用另一个工具来处理 DICOM 图像,如以下屏幕截图所示:

显示用于 DICOM 图像的“窗口和级别”工具的屏幕截图。

选择“窗口和级别”工具,以更改图像的强度。 此工具只可用于 DICOM 图像。

标记图像以进行多类分类

为“图像分类多类”项目类型的整个图像分配单个标记。 若要随时查看指导,请转到“说明”页,然后选择“查看详细说明”。

如果在向图像分配标记后发现有误,可以修复标记。 选择图像下面显示的标签上的“X”可以清除标记。 还可以选择图像并选择另一个类。 新选择的值会替换以前应用的标记。

标记图像以进行多标签分类

如果你的项目类型为“图像分类多标签”,则会将一个或多个标记应用到图像。 若要查看特定于项目的说明,请选择“说明”,然后转到“查看详细说明”。

选择要标记的图像,然后选择标记。 该标记将应用到所有选定的图像,然后会取消选择这些图像。 若要应用多个标记,必须重新选择图像。 此动画显示了多标签标记过程:

显示多标签标记的动画。

动画显示了:

  1. “全部选择”用于应用“海洋”标记
  2. 选择单个图像并将其标记为“特写”
  3. 选择了三个图像,并将其标记为“广角”

若要更正错误,请选择“X”以清除单个标记,或选择图像后选择标记,从所有选定的图像中清除该标记。 此处演示了上述场景。 选择“陆地”后会从两个选定的图像中清除该标记。 此屏幕截图显示了这一场景:

显示从多个选定的图像中清除标签的屏幕截图。

仅当将至少一个标记应用于每个图像后,Azure 才会启用“提交”按钮。 选择“提交”以保存工作。

标记图像并指定边界框以进行对象检测

如果项目的类型为“对象标识(边界框)”,请在图像中指定一个或多个边界框,并将标记应用到每个框。 图像都可以有多个边界框,每个框具有单个标记。 使用“查看详细说明”来确定你的项目是否使用了多个边界框。

  1. 选择要创建的边界框的标记

  2. 选择“R”,或者选择“矩形框”工具,如以下屏幕截图所示:

    显示选择“矩形框”工具的屏幕截图。

  3. 若要创建大致的边界框,请选择你的目标,并沿对角线拖动。 拖动边或角来调整边界框,如以下屏幕截图所示:

    显示创建边界框的屏幕截图。

若要删除边界框,请在创建后选择边界框旁边显示的 X 形目标。

无法更改现有边界框的标记。 若要修复标记分配错误,则必须删除边界框,并使用正确的标记创建新的边界框。

默认情况下,可以编辑现有的边界框。 选择“L”或使用“锁定/解锁区域”工具可切换该行为,如以下屏幕截图所示:

显示选择“锁定/解锁区域”工具的屏幕截图。

如果区域已锁定,则只能更改新边界框的形状或位置。

“区域操作”工具是四个箭头,从中心开始,向上、向下、向右、向左指向外,如本屏幕截图所示:

显示选择“区域”操作工具的屏幕截图。

使用“区域操作”工具或“M”调整现有边界框。 拖动边或角来调整形状。 若要拖动整个边界框,请在内部进行选择。 如果无法编辑某个区域,则你很可能切换了“锁定/解锁区域”工具。

“基于模板的框”工具会创建多个相同大小的边界框,如以下屏幕截图所示:

显示选择“基于模板的框”工具的屏幕截图。

使用“基于模板的框”工具或“T”来创建大小相同的多个边界框。 如果图像没有边界框,并且你激活了基于模板的框,则该工具将生成 50x50 像素框。 如果你创建了边界框,然后激活了基于模板的框,则任何新边界框将匹配上次创建的框的大小。 放置后,可以调整基于模板的框的大小。 调整基于模板的框的大小只会调整该特定框的大小。

若要删除当前图像中的所有边界框,请选择“删除所有区域”工具,如以下屏幕截图所示:

显示选择“删除所有区域”工具的屏幕截图。

创建图像的边界框后,请选择“提交”以保存工作,否则正在进行的工作不会保存。

标记图像并为图像分段指定多边形

如果你的项目的类型为“实例分段(多边形)”,请将在图像中指定一个或多个多边形,并对每个多边形应用标记。 图像都可以有多个边界多边形,每个多边形都具有一个标记。 使用“查看详细说明”来确定你的项目是否使用了多个边界多边形。

  1. 选择要创建的多边形的标记
  2. 选择“P”或选择“绘制多边形区域”工具,如以下屏幕截图所示:

显示选择“绘制多边形区域”工具的屏幕截图。

  1. 选择多边形中的每个点。 完成形状绘制后,选择两次即可完成,如以下动画所示:

    为猫和狗创建多边形。

若要删除多边形,请在创建后选择多边形旁边显示的 X 形目标。

若要更改多边形的标记,请选择“移动区域”工具,选择多边形,然后选择正确的标记。

你可以编辑现有多边形。 选择“锁定/解锁区域”工具或“L”可切换该行为,如以下屏幕截图所示:

显示选择“锁定/解锁区域”工具的屏幕截图。

如果区域已锁定,则只能更改新多边形的形状或位置。

使用“添加或删除多边形点”工具或“U”调整现有多边形,如以下屏幕截图所示:

显示选择“锁定/解锁区域”工具的屏幕截图。

选择多边形以添加或删除点。 如果无法编辑某个区域,则你很可能切换了“锁定/解锁区域”工具。

若要删除当前图像中的所有边界框,请选择“删除所有区域”工具,如以下屏幕截图所示:

显示删除所有区域的屏幕截图。

为图像创建多边形后,请选择“提交”以保存工作,否则正在进行的工作不会保存。

对语义分段标记图像并绘制蒙版

如果项目的类型为“语义分段(预览)”,请使用画笔在要标记的区域上绘制蒙版。

  1. 对要绘制的区域选择一个标记

  2. 选择“画笔”工具,如以下屏幕截图所示:

    显示选择“画笔”工具的屏幕截图。

  3. 选择“调整大小”工具以选取画笔的大小,如以下屏幕截图所示:

    显示选择画笔大小的屏幕截图。

  4. 在要标记的区域上绘制。 与标记对应的颜色将应用于所绘制的区域

    用于语义分割的猫和狗面部的绘制区域的屏幕截图。

若要删除该区域的某些部分,请选择“橡皮擦”工具

若要更改区域的标记,请选择新标记并重新绘制区域。

还可以使用 Polygon 工具指定区域。

为图像创建区域后,请选择“提交”以保存工作,否则正在进行的工作不会保存。 如果使用了“多边形”工具,则提交时,所有多边形都会转换为蒙版。

标签文本

标记文本时,请使用工具栏执行以下操作:

  • 增加或缩减文本大小
  • 更改字体
  • 跳过标记此项并移至下一项

如果分配标签后发现出错,可以进行修正。 选择图像下面显示的标签上的“X”可以清除标记。

有三种文本项目类型:

项目类型 描述
分类多类 向整个文本条目分配一个标签。 只能为每个文本项选择一个标签。 选择一个标签,然后选择“提交”移动到下一个条目。
分类多标签 向每个文本条目分配一个或多个标签。 可以为每个文本项选择多个标签。 选择应用的所有标签,然后选择“提交”移动到下一个条目。
命名实体识别 在每个文本条目中标记不同的字词或短语。 查看下一部分中的说明。

若要查看特定于项目的说明,请选择“说明”,然后转到“查看详细说明”。

标记字词和短语

如果你的项目已设置命名实体识别,需要在每个文本项中标记不同的字词或短语。 若要标记文本,请执行以下操作:

  1. 选择标签或键入与相应标签对应的编号
  2. 双击某个字词,或使用鼠标选择多个字词。

屏幕截图:命名实体识别。

若要更改标签,可以执行以下操作:

  • 删除标签并重新启动。
  • 更改当前项中部分或所有特定标签的值:
    • 选择标签本身,这将选择该标签的所有实例。
    • 若要取消选择需要保留的任何实例,请再次选中此标签的实例。
    • 最后,选择新标签以更改所有仍处于选中状态的标签。

标记条目中的所有项后,选择“提交”移动到下一个条目。

完成

当你提交已标记数据的页时,Azure 会从工作队列为你分配新的未标记数据。 如果没有其他未标记的数据,会有一条新消息提示你,其中包含门户主页的链接。

完成标记后,选择工作室右上角圆圈内的图像,然后选择“退出登录”。如果未退出登录,Azure 会“超时”并将数据分配给另一个做标签的人。

后续步骤