选择列转换

本文介绍如何在 Azure 机器学习设计器中使用“选择列转换”组件。 “选择列转换”组件的用途是确保在下游机器学习操作中使用一组可预测的、一致的列。

此组件对于需要特定列的任务(例如评分)很有用处。 可用列中的更改可能会破坏管道或改变结果。

你将使用“选择列转换”来创建并保存一个列集。 然后,使用“应用转换”组件将这些选择应用于新数据。

如何使用“选择列转换”

此方案假设你要使用特征选择来生成将用于训练模型的一个动态列集。 为确保评分过程选择的列相同,使用“选择列转换”组件来捕获列选择并应用于管道中的其他位置。

  1. 在设计器中将输入数据集添加到管道。

  2. 添加基于筛选器的特征选择的一个实例。

  3. 连接组件并配置特征选择组件以自动在输入数据集中查找多个最佳特征。

  4. 添加训练模型的一个实例,并使用基于筛选器的特征选择的输出作为用于训练的输入。

    重要

    由于特征重要性基于列中的值,因此你无法提前知道哪些列可能可用于训练模型的输入。

  5. 附加“选择列转换”组件的一个实例。

    此步骤会将列选择生成为一个转换,可以保存该转换并将其应用于其他数据集。 此步骤可确保保存在功能选择中标识的列以供其他组件重复使用。

  6. 添加“评分模型”组件。

    请勿连接输入数据集。 相反,添加“应用转换”组件,并连接特征选择转换的输出。

    管道结构应如下所示:

    Sample pipeline

    重要

    不能期望将基于筛选器的特征选择应用于评分数据集并获得相同的结果。 由于特征选择基于值,因此它可能会选择一个不同的列集,这将导致评分操作失败。

  7. 提交管道。

保存然后应用列选择的这一过程可以确保使用相同的数据架构进行训练和评分。

后续步骤

请参阅 Azure 机器学习可用的组件集