转换为图像目录

本文介绍如何使用“转换为图像目录”组件将图像数据集转换为“图像目录”数据类型,这是 Azure 机器学习设计器的图像相关任务(例如图像分类)中的标准化数据格式。

如何使用“转换为图像目录”模块

  1. 首先准备好图像数据集。

    对于监督式学习,你需要指定训练数据集的标签。 图像数据集文件应采用以下结构:

    Your_image_folder_name/Category_1/xxx.png
    Your_image_folder_name/Category_1/xxy.jpg
    Your_image_folder_name/Category_1/xxz.jpeg
    
    Your_image_folder_name/Category_2/123.png
    Your_image_folder_name/Category_2/nsdf3.png
    Your_image_folder_name/Category_2/asd932_.png
    

    图像数据集文件夹中有多个子文件夹。 每个子文件夹分别包含一个类别的图像。 子文件夹的名称视为图像分类等任务的标签。 有关详细信息,请参阅 torchvision 数据集

    警告

    设计器目前不支持从数据标签中导出的带标签的数据集。

    支持具有以下扩展名(小写)的图像:“.jpg”、“.jpeg”、“.png”、“.ppm”、“.bmp”、“.pgm”、“.tif”、“.tiff”、“.webp”。 你也可以在一个文件夹中包含多种类型的图像。 每个类别的文件夹中不必包含相同数量的图像。

    可以使用文件夹或扩展名为“.zip”、“.tar”、“.gz”和“.bz2”的压缩文件。 建议使用压缩文件以获得较好的性能。

    Image sample dataset

    注意

    对于推理,图像数据集文件夹仅需要包含未分类的图像。

  2. 在工作区中将图像数据集注册为文件数据集,因为“转换为图像目录”组件的输入必须是“文件数据集”。

  3. 将已注册的图像数据集添加到画布。 可以在画布左侧的组件列表的“数据集”类别中找到已注册的数据集。 设计器目前不支持可视化图像数据集。

    警告

    不能使用“导入数据” 组件导入图像数据集,因为“导入数据”组件的输出类型是“数据帧目录”,它仅包含文件路径字符串。

  4. 将“转换为图像目录”组件添加到画布。 可以在组件列表的“计算机视觉/图像数据转换”类别中找到此组件。 将其连接到图像数据集。

  5. 提交管道。 此组件可以在 GPU 或 CPU 上运行。

结果

“转换为图像目录”组件的输出采用“图像目录”格式,可以连接到其输入端口格式也是“图像目录”的其他图像相关组件。

Convert to Image Directory output

技术说明

预期输入

名称 Type 说明
输入数据集 AnyDirectory、ZipFile 输入数据集

输出

名称 Type 说明
输出图像目录 ImageDirectory 输出图像目录

后续步骤

请参阅 Azure 机器学习可用的组件集