将数据导入到 Azure 机器学习设计器
在本文中,你将了解如何在设计器中导入自己的数据,以创建自定义解决方案。 可以通过两种方式将数据导入到设计器中:
重要
如果看不到本文档中提到的图形元素(例如工作室或设计器中的按钮),则你可能没有适当级别的工作区权限。 请与 Azure 订阅管理员联系,验证是否已向你授予正确级别的访问权限。 有关详细信息,请参阅管理用户和角色。
使用 Azure 机器学习数据集
建议使用数据集将数据导入到设计器中。 注册数据集时,可以充分利用高级数据功能,例如版本控制和跟踪以及数据监视。
注册数据集
你可以使用 SDK 以编程方式注册现有数据集,也可以直观地在 Azure 机器学习工作室中注册现有数据集。
还可以将任何设计器组件的输出注册为数据集。
选择输出要注册的数据的组件。
在“属性”窗格中,选择“输出 + 日志”>“注册数据集” 。
如果组件输出数据采用表格格式,则必须选择将输出注册为“文件数据集”或“表格数据集”。
文件数据集将组件的输出文件夹注册为文件数据集。 输出文件夹包含设计器在内部使用的数据文件和元文件。 如果要继续在设计器中使用已注册的数据集,请选择此选项。
表格数据集仅将组件的输出数据文件注册为表格数据集。 自动机器学习或 Python SDK 等其他工具可轻松使用此格式。 如果计划在设计器之外使用已注册的数据集,请选择此选项。
使用数据集
可以在组件面板中的“数据集”下找到注册的数据集。 若要使用某个数据集,请将其拖放到管道画布上。 然后,将该数据集的输出端口连接到画布中的其他组件。
如果注册文件数据集,则数据集的输出端口类型为“AnyDirectory”。 如果注册表格数据集,则数据集的输出端口类型为“DataFrameDirectory”。 请注意,如果将数据集的输出端口连接到设计器中的其他组件,则需要对齐数据集和组件的端口类型。
注意
设计器支持数据集版本控制。 在数据集组件的属性面板中指定数据集版本。
限制
- 目前只能可视化设计器中的表格数据集。 如果在设计器外注册文件数据集,则无法在设计器画布中对其进行可视化。
- 目前,设计器仅支持存储在“Azure Blob 存储”中的预览输出。 可以在组件右侧面板的“参数”选项卡下的“输出设置”中检查和更改输出数据存储 。
- 如果数据存储在虚拟网络 (VNet) 中,并且你希望可以预览,则需要启用数据存储的工作区托管标识。
- 转到相关数据存储,然后单击“更新身份验证”
- 选择“确定”,启用工作区托管标识。
使用“导入数据”组件导入数据
尽管我们建议使用数据集导入数据,但你也可以使用导入数据组件。 “导入数据”组件会跳过在 Azure 机器学习中注册数据集,并直接从数据存储或 HTTP URL 导入数据。
有关如何使用“导入数据”组件的详细信息,请参阅导入数据参考页。
注意
如果数据集包含的列过多,你可能会遇到以下错误:“由于大小限制,验证失败”。 若要避免这种情况,请在数据集接口中注册数据集。
受支持的源
本部分列出了设计器支持的数据源。 数据通过数据存储或表格数据集进入设计器。
数据存储源
有关支持的数据存储源的列表,请参阅访问 Azure 存储服务中的数据。
表格数据集源
设计器支持通过以下源创建的表格数据集:
- 带分隔符的文件
- JSON 文件
- Parquet 文件
- SQL 查询
数据类型
设计器在内部可以识别以下数据类型:
- 字符串
- 整数
- 小数
- Boolean
- 日期
设计器使用内部数据类型在组件之间传递数据。 可使用转换为数据集组件将数据显式转换为数据表格式。 任何接受除内部格式以外的其他格式的组件都会在不提示的情况转换数据,然后再将其传递到下一个组件。
数据约束
设计器中的模块受计算目标的大小限制。 对于较大的数据集,应使用较大的 Azure 机器学习计算资源。 有关 Azure 机器学习计算的详细信息,请参阅什么是 Azure 机器学习中的计算目标?
访问虚拟网络中的数据
如果工作区位于虚拟网络中,则必须执行其他配置步骤,以便在设计器中实现数据的可视化。 有关如何在虚拟网络中使用数据存储和数据集的详细信息,请参阅在 Azure 虚拟网络中使用 Azure 机器学习工作室。
后续步骤
请通过教程:使用设计器预测汽车价格了解设计器的基础知识。