“在数据集中选择列”组件
本文介绍 Azure 机器学习设计器中的一个组件。
使用此组件可以选择要在下游操作中使用的列的子集。 组件不是从物理上删除源数据集中的列,而是创建列的子集,这与数据库视图或投影非常类似。
如果需要限制可用于下游操作的列,或者想要通过删除不需要的列来缩小数据集,则此组件非常有用。
数据集中的列的输出顺序和原始数据中的相同,即使你以不同的顺序指定它们,也是如此。
如何使用
此组件没有参数。 可使用列选择器选择要包含或排除的列。
按名称选择列
组件中有多个选项可用于按名称选择列:
筛选和搜索
单击“按名称”选项 。
如果连接的数据集已填充,则应显示可用列的列表。 如果未显示任何列,则可能需要运行上游组件来查看列列表。
请在搜索框中键入内容以筛选列表。 例如,如果在搜索框中键入字母
w
,则会对列表进行筛选,以显示包含字母w
的列名称。选择这些列,然后单击右箭头按钮,将选中的列移到右窗格中的列表中。
- 若要选择列名称的连续范围,请按住 Shift 并单击 。
- 若要将单独的列添加到所选内容,请按住 Ctrl 并单击 。
单击复选标记按钮,保存并关闭。
结合其他规则使用名称
单击“按规则”选项 。
选择一种规则,如显示特定数据类型的列。
然后,单击该类型的单个列的名称,将其添加到所选内容列表。
键入或粘贴用逗号分隔的列名称列表
如果数据集范围宽,则使用索引或生成的名称列表可能更简单,而不是单独选择列。 假设你提前准备好了列表:
- 单击“按规则”选项 。
- 选择“没有列”,再选择“包括”,然后在文本框中单击红色感叹号。
- 粘贴或键入之前确认的以逗号分隔的列名称列表。 如果有任何列的名称无效,则无法保存该组件,因此请务必事先检查名称。
你也可以使用此方法来指定使用其索引值的列的列表。
按类型选择
如果使用“按规则”选项,则可以对列所选内容应用多个条件 。 例如,你可能只需要获取数值数据类型的功能列。
可通过“开头为”选项确定你的起点,该选项对于了解结果来说很重要 。
如果选择“所有列”选项,则所有列都将添加到列表中 。 然后,必须使用“排除”选项删除满足特定条件的列 。
例如,可以从所有列开始,然后按名称或按类型删除列。
如果选择“没有列”选择,则列的列表为空 。 然后指定条件以向列表添加列 。
如果应用多个规则,则每个条件都是累加的 。 例如,假设从没有列开始,然后添加一个规则来获取所有数字列。 在汽车价格数据集中生成 16 列。 然后,单击 + 符号以添加新条件,再选择“包含所有功能”。 生成的数据集包括所有数字列以及所有功能列,并包含一些字符串功能列。
按列索引选择
列索引是指原始数据集中的列顺序。
- 列从 1 开始按顺序编号。
- 若要获取列的范围,请使用连字符。
- 不允许使用开放式的规范,如
1-
或-3
。 - 不允许使用重复的索引值(或列名称),否则可能导致错误。
例如,假设你的数据集至少有八列,则可以粘贴以下任意示例以返回多个非相邻的列:
8,1-4,6
1,3-8
1,3-6,4
最后的示例不会导致错误;但是它将返回列的单个实例 4
。
更改列的顺序
选项“允许重复项并在所选内容中保留列顺序”从空列表开始,然后添加按名称或索引指定的列 。 与其他选项不同,它们始终按“自然顺序”返回列,而此选项按你指定或列出的列顺序输出列。
例如,在包含列 Col1、Col2、Col3 和 Col4 的数据集中,可以通过指定以下列表之一来反转列的顺序并排除列 2:
Col4, Col3, Col1
4,3,1
后续步骤
请参阅 Azure 机器学习可用的组件集。