标记图像和文本文档
项目管理员创建了 Azure 机器学习图像数据标签项目或 Azure 机器学习文本数据标签项目后,你可以使用标签工具为机器学习项目快速准备数据。 本文介绍:
- 如何访问标签项目
- 标记工具
- 如何使用工具执行特定的标签任务
先决条件
- 组织和项目的 Microsoft 帐户或 Microsoft Entra 帐户。
- 对包含标签项目的工作区具有参与者级别访问权限。
登录到工作室
登录到 Azure 机器学习工作室
选择包含标签项目的订阅和工作区。 你的项目管理员具有此信息
你可能会在左侧看到多个部分,具体取决于你的访问级别。 如果你确实看到了多个部分,请选择左侧的“数据标签”来查找项目。
了解标记任务
在数据标签项目表中,选择项目的“标记数据”链接。
你可以获得针对项目的特定说明。 这些说明解释了涉及的数据类型、如何做出决策以及其他相关信息。 阅读信息,然后选择页面顶部的“任务”。 也可以选择页面底部的“开始标记”。
选择标签
在所有数据标签任务中,均需从项目管理员指定的集中选择一个或多个适当的标签。 可以使用键盘数字键选择前九个标签。
辅助机器学习
标记过程可能会触发机器学习算法。 如果项目启用了这些算法,你可能会看到:
映像
在标记了部分数据后,你可能会在屏幕顶部的项目名称旁边注意到“群集任务”。 图像被分组到一起,在同一页面上呈现相似的图像。 出现群集任务后,请切换到多个图像视图中的一个来利用分组。
稍后,你可能会在项目名称旁边看到“预标记的任务”。 将显示带有建议标签的项,这类标签由机器学习分类模型生成。 任何机器学习模型都达不到 100% 的准确度。 虽然我们只使用模型有信心识别的数据,这些数据值仍可能存在错误的预标签。 查看标签时,请先更正所有错误的标签,然后再提交页面。
在对象标识模型中,你可能已经注意到边界框和标签。 在提交页面之前,请更正所有错误。
在分段模型中,你可能已经注意到多边形和标签。 在提交页面之前,请更正所有错误。
文本
- 稍后,你可能会在项目名称旁边看到“预标记的任务”。 将显示带有建议标签的项,这类标签由机器学习分类模型生成。 任何机器学习模型都达不到 100% 的准确度。 虽然我们只使用模型有信心识别的数据,这些数据值仍可能存在错误的预标签。 查看标签时,请先更正所有错误的标签,然后再提交页面。
在标签项目的早期,机器学习模型的准确度可能只够预标记较小的图像子集。 在标记了这些图像后,标签项目将返回到手动标记,为下一轮模型训练收集更多数据。 随着时间的推移,模型将对更高比例的图像更有信心。 在项目的后期,它的置信度会使得预标记任务数量增多。
当没有更多预标记的任务时,标签确认或更正过程将停止,并返回到手动项目标记。
图像任务
对于图像分类任务,可选择同时查看多个图像。 若要选择布局,请使用图像区域上方的图标。
若要同时选择所有显示的图像,请使用“全选”。 若要选择单个图像,请使用图像右上角的循环选择按钮。 必须至少选择一个图像才能应用标记。 如果选择多个图像,则选择的任何标记都将应用到所有选定的图像。
例如,我们可以选择一个二乘二的布局,并将标记“哺乳动物”应用于熊和虎鲸的图像,如以下屏幕截图所示:
此屏幕截图展示了多个图像布局和选择 鲨鱼图像已经被标记为“软骨鱼”,而鬣蜥还没有标记。
重要
只在你有包含未标记数据的新页面时切换布局。 切换布局会清除页面正在进行的标记工作。
标记了页面上的所有图像后,Azure 将启用“提交”按钮。 选择“提交”以保存工作。
提交手头数据的标记后,Azure 将使用工作队列中的一组新图像刷新页面。
医学图像任务
重要
为 DICOM 或类似图像类型设置标签的功能不应用于或不可供用于医疗设备、临床支持、诊断工具或者其他旨在用于诊断、治愈、缓解、治疗或预防疾病或其他健康问题的技术,Microsoft 不授予将此功能用于此类目的的任何许可或权利。 此功能不旨在代替专业人员医疗建议或保健意见、诊断、治疗或医疗保健专业人员临床判断而实施或部署,并且不应用作此用途。 客户只负责对 DICOM 或类似图像类型使用数据标签。
图像项目支持用于 X 光文件图像的 DICOM 图像格式,如以下屏幕截图所示:
虽然你在标记医学图像时使用的工具与其他图像相同,你也可以使用另一个工具来处理 DICOM 图像,如以下屏幕截图所示:
选择“窗口和级别”工具,以更改图像的强度。 此工具只可用于 DICOM 图像。
标记图像以进行多类分类
为“图像分类多类”项目类型的整个图像分配单个标记。 若要随时查看指导,请转到“说明”页,然后选择“查看详细说明”。
如果在向图像分配标记后发现有误,可以修复标记。 选择图像下面显示的标签上的“X”可以清除标记。 还可以选择图像并选择另一个类。 新选择的值会替换以前应用的标记。
标记图像以进行多标签分类
如果你的项目类型为“图像分类多标签”,则会将一个或多个标记应用到图像。 若要查看特定于项目的说明,请选择“说明”,然后转到“查看详细说明”。
选择要标记的图像,然后选择标记。 该标记将应用到所有选定的图像,然后会取消选择这些图像。 若要应用多个标记,必须重新选择图像。 此动画显示了多标签标记过程:
动画显示了:
- “全部选择”用于应用“海洋”标记
- 选择单个图像并将其标记为“特写”
- 选择了三个图像,并将其标记为“广角”
若要更正错误,请选择“X”以清除单个标记,或选择图像后选择标记,从所有选定的图像中清除该标记。 此处演示了上述场景。 选择“陆地”后会从两个选定的图像中清除该标记。 此屏幕截图显示了这一场景:
仅当将至少一个标记应用于每个图像后,Azure 才会启用“提交”按钮。 选择“提交”以保存工作。
标记图像并指定边界框以进行对象检测
如果项目的类型为“对象标识(边界框)”,请在图像中指定一个或多个边界框,并将标记应用到每个框。 图像都可以有多个边界框,每个框具有单个标记。 使用“查看详细说明”来确定你的项目是否使用了多个边界框。
若要删除边界框,请在创建后选择边界框旁边显示的 X 形目标。
无法更改现有边界框的标记。 若要修复标记分配错误,则必须删除边界框,并使用正确的标记创建新的边界框。
默认情况下,可以编辑现有的边界框。 选择“L”或使用“锁定/解锁区域”工具可切换该行为,如以下屏幕截图所示:
如果区域已锁定,则只能更改新边界框的形状或位置。
“区域操作”工具是四个箭头,从中心开始,向上、向下、向右、向左指向外,如本屏幕截图所示:
使用“区域操作”工具或“M”调整现有边界框。 拖动边或角来调整形状。 若要拖动整个边界框,请在内部进行选择。 如果无法编辑某个区域,则你很可能切换了“锁定/解锁区域”工具。
“基于模板的框”工具会创建多个相同大小的边界框,如以下屏幕截图所示:
使用“基于模板的框”工具或“T”来创建大小相同的多个边界框。 如果图像没有边界框,并且你激活了基于模板的框,则该工具将生成 50x50 像素框。 如果你创建了边界框,然后激活了基于模板的框,则任何新边界框将匹配上次创建的框的大小。 放置后,可以调整基于模板的框的大小。 调整基于模板的框的大小只会调整该特定框的大小。
若要删除当前图像中的所有边界框,请选择“删除所有区域”工具,如以下屏幕截图所示:
创建图像的边界框后,请选择“提交”以保存工作,否则正在进行的工作不会保存。
标记图像并为图像分段指定多边形
如果你的项目的类型为“实例分段(多边形)”,请将在图像中指定一个或多个多边形,并对每个多边形应用标记。 图像都可以有多个边界多边形,每个多边形都具有一个标记。 使用“查看详细说明”来确定你的项目是否使用了多个边界多边形。
- 选择要创建的多边形的标记
- 选择“P”或选择“绘制多边形区域”工具,如以下屏幕截图所示:
若要删除多边形,请在创建后选择多边形旁边显示的 X 形目标。
若要更改多边形的标记,请选择“移动区域”工具,选择多边形,然后选择正确的标记。
你可以编辑现有多边形。 选择“锁定/解锁区域”工具或“L”可切换该行为,如以下屏幕截图所示:
如果区域已锁定,则只能更改新多边形的形状或位置。
使用“添加或删除多边形点”工具或“U”调整现有多边形,如以下屏幕截图所示:
选择多边形以添加或删除点。 如果无法编辑某个区域,则你很可能切换了“锁定/解锁区域”工具。
若要删除当前图像中的所有边界框,请选择“删除所有区域”工具,如以下屏幕截图所示:
为图像创建多边形后,请选择“提交”以保存工作,否则正在进行的工作不会保存。
对语义分段标记图像并绘制蒙版
如果项目的类型为“语义分段(预览)”,请使用画笔在要标记的区域上绘制蒙版。
若要删除该区域的某些部分,请选择“橡皮擦”工具。
若要更改区域的标记,请选择新标记并重新绘制区域。
还可以使用 Polygon 工具指定区域。
为图像创建区域后,请选择“提交”以保存工作,否则正在进行的工作不会保存。 如果使用了“多边形”工具,则提交时,所有多边形都会转换为蒙版。
标签文本
标记文本时,请使用工具栏执行以下操作:
- 增加或缩减文本大小
- 更改字体
- 跳过标记此项并移至下一项
如果分配标签后发现出错,可以进行修正。 选择图像下面显示的标签上的“X”可以清除标记。
有三种文本项目类型:
项目类型 | 描述 |
---|---|
分类多类 | 向整个文本条目分配一个标签。 只能为每个文本项选择一个标签。 选择一个标签,然后选择“提交”移动到下一个条目。 |
分类多标签 | 向每个文本条目分配一个或多个标签。 可以为每个文本项选择多个标签。 选择应用的所有标签,然后选择“提交”移动到下一个条目。 |
命名实体识别 | 在每个文本条目中标记不同的字词或短语。 查看下一部分中的说明。 |
若要查看特定于项目的说明,请选择“说明”,然后转到“查看详细说明”。
标记字词和短语
如果你的项目已设置命名实体识别,需要在每个文本项中标记不同的字词或短语。 若要标记文本,请执行以下操作:
- 选择标签或键入与相应标签对应的编号
- 双击某个字词,或使用鼠标选择多个字词。
若要更改标签,可以执行以下操作:
- 删除标签并重新启动。
- 更改当前项中部分或所有特定标签的值:
- 选择标签本身,这将选择该标签的所有实例。
- 若要取消选择需要保留的任何实例,请再次选中此标签的实例。
- 最后,选择新标签以更改所有仍处于选中状态的标签。
标记条目中的所有项后,选择“提交”移动到下一个条目。
完成
当你提交已标记数据的页时,Azure 会从工作队列为你分配新的未标记数据。 如果没有其他未标记的数据,会有一条新消息提示你,其中包含门户主页的链接。
完成标记后,选择工作室右上角圆圈内的图像,然后选择“退出登录”。如果未退出登录,Azure 会“超时”并将数据分配给另一个做标签的人。