转换为图像目录
本文介绍如何使用“转换为图像目录”组件将图像数据集转换为“图像目录”数据类型,这是 Azure 机器学习设计器的图像相关任务(例如图像分类)中的标准化数据格式。
如何使用“转换为图像目录”模块
首先准备好图像数据集。
对于监督式学习,你需要指定训练数据集的标签。 图像数据集文件应采用以下结构:
Your_image_folder_name/Category_1/xxx.png Your_image_folder_name/Category_1/xxy.jpg Your_image_folder_name/Category_1/xxz.jpeg Your_image_folder_name/Category_2/123.png Your_image_folder_name/Category_2/nsdf3.png Your_image_folder_name/Category_2/asd932_.png
图像数据集文件夹中有多个子文件夹。 每个子文件夹分别包含一个类别的图像。 子文件夹的名称视为图像分类等任务的标签。 有关详细信息,请参阅 torchvision 数据集。
警告
设计器目前不支持从数据标签中导出的带标签的数据集。
支持具有以下扩展名(小写)的图像:“.jpg”、“.jpeg”、“.png”、“.ppm”、“.bmp”、“.pgm”、“.tif”、“.tiff”、“.webp”。 你也可以在一个文件夹中包含多种类型的图像。 每个类别的文件夹中不必包含相同数量的图像。
可以使用文件夹或扩展名为“.zip”、“.tar”、“.gz”和“.bz2”的压缩文件。 建议使用压缩文件以获得较好的性能。
注意
对于推理,图像数据集文件夹仅需要包含未分类的图像。
在工作区中将图像数据集注册为文件数据集,因为“转换为图像目录”组件的输入必须是“文件数据集”。
将已注册的图像数据集添加到画布。 可以在画布左侧的组件列表的“数据集”类别中找到已注册的数据集。 设计器目前不支持可视化图像数据集。
警告
不能使用“导入数据” 组件导入图像数据集,因为“导入数据”组件的输出类型是“数据帧目录”,它仅包含文件路径字符串。
将“转换为图像目录”组件添加到画布。 可以在组件列表的“计算机视觉/图像数据转换”类别中找到此组件。 将其连接到图像数据集。
提交管道。 此组件可以在 GPU 或 CPU 上运行。
结果
“转换为图像目录”组件的输出采用“图像目录”格式,可以连接到其输入端口格式也是“图像目录”的其他图像相关组件。
技术说明
预期输入
名称 | Type | 说明 |
---|---|---|
输入数据集 | AnyDirectory、ZipFile | 输入数据集 |
输出
名称 | Type | 说明 |
---|---|---|
输出图像目录 | ImageDirectory | 输出图像目录 |
后续步骤
请参阅 Azure 机器学习可用的组件集。