联接数据

本文介绍了如何通过 Azure 机器学习设计器中的“联接数据”组件使用数据库样式的联接操作来合并两个数据集。

如何配置“联接数据”

若要对两个数据集执行联接,它们应通过键列进行关联。 还支持使用多个列的组合键。

  1. 添加要合并的数据集,然后将“联接数据”组件拖到管道中。

    可以在“操作”下的“数据转换”类别中找到该组件。

  2. 将数据集连接到“联接数据”组件。

  3. 选择“启动列选择器”来选择键列。 请记得同时为左侧输入和右侧输入选择列。

    对于单一键:

    为两个输入选择单个键列。

    对于组合键:

    按相同顺序从左输入和右输入中选择所有键列。 “联接数据”组件将在所有键列都匹配时联接表。 如果列顺序与原始表不同,请选中选项“允许重复项并保留选定内容中的列顺序”。

    column-selector

  4. 如果要在文本列联接上保留区分大小写,请选择“匹配大小写”选项。

  5. 使用“联接类型”下拉列表指定应当如何组合数据集。

    • 内部联接:“内部联接”是最常见的联接操作。 仅当键列的值匹配时,它才会返回组合的行。

    • 左外部联接:“左外部联接”为左表中的所有行返回联接的行。 如果左表中的某行在右表中没有匹配的行,则对于来自右表的所有列,返回的行将包含缺失值。 你还可以为缺失值指定替换值。

    • 完全外部联接:“完全外部联接”返回来自左表 (table1) 和来自右表 (table2) 的所有行。

      对于任一表中在另一表中没有匹配行的每个行,结果中将包括含缺失值的一个行。

    • 左半联接:当键列的值匹配时,“左半联接”只返回左表中的值。

  6. 对于选项“在联接的表中保留右侧的键列”:

    • 选择此选项可以查看两个输入表中的键。
    • 取消选择此选项将只返回左侧输入中的键列。
  7. 提交管道。

  8. 若要查看结果,请右键单击“联接数据”,然后选择“可视化”。

后续步骤

请参阅 Azure 机器学习可用的组件集