“双类支持向量机”组件

本文介绍 Azure 机器学习设计器中的一个组件。

使用此组件可创建基于支持向量机算法的模型。

支持向量机 (SVM) 是一种研究深入的监督式学习方法。 此特定实现适合于基于连续或分类变量预测两个可能结果。

定义模型参数后,通过使用训练组件并提供包含标签或结果列的标记数据集来训练模型。

关于支持向量机

支持向量机是最早的机器学习算法之一,并且 SVM 模型在信息检索、文本和图像分类等领域有着广泛的应用。 SVM 可用于分类和回归任务。

此 SVM 模型是一种监督式学习模型,它需要带标签的数据。 在训练过程中,算法会分析输入数据并在称为“超平面”的多维特性空间中识别模式。 所有输入示例都表示为该空间中的点,并映射到输出类别,以便通过尽可能宽和清晰的间隔来分割类别。

对于预测,SVM 算法会将新示例分配到一个或另一个类别中,并将它们映射到该同一空间。

配置方式

对于此模型类型,建议在使用数据集来训练分类器之前对数据集进行标准化。

  1. 将“双类支持向量机”组件添加到你的管道中。

  2. 通过设置“创建训练程序模式”选项,指定要如何对模型进行训练。

    • “单个参数”:如果你知道自己想要如何配置模型,可以提供一组特定的值作为参数。

    • 参数范围:如果不确定最佳参数,可以使用优化模型超参数组件找到最佳参数。 你提供一定的值范围,然后训练程序会循环访问设置的多个组合,以确定可产生最佳结果的值组合。

  3. 对于“迭代数”,请键入一个数字来指定在构建模型时使用的迭代数目。

    此参数可用来控制训练速度与准确度之间的权衡。

  4. 对于“Lambda”,请键入一个值来用作 L1 正则化的权重。

    可以使用此正则化系数来优化模型。 值越大,对越复杂的模型越不利。

  5. 如果要在训练之前对特性进行标准化,请选择“标准化特性”选项。

    如果在训练之前应用了标准化,则数据点将以平均值为中心,并缩放为有一个单位的标准偏差。

  6. 选择“投影到单位球体”选项可以对系数进行标准化。

    将值投影到单位空间意味着,在训练之前,数据点将以 0 为中心,并缩放为有一个单位的标准偏差。

  7. 如果希望确保在各次运行之间的可再现性,请在“随机数种子”中键入一个整数值来用作种子。 否则,将使用系统时钟值作为种子,这可能会导致结果在各次运行之间稍有不同。

  8. 连接标记的数据集,并训练模型:

    • 如果将“创建训练器模式”设置为“单个参数”,请连接标记的数据集和训练模型组件。

    • 如果将“创建训练程序模式”设置为“参数范围”,请连接带标记的数据集并使用优化模型超参数来训练模型

    注意

    如果将参数范围传递给训练模型,则它只使用单个参数列表中的默认值。

    如果将一组参数值传递给优化模型超参数组件,则当它期望每个参数有一系列设置时,它会忽略这些值,对学习器使用默认值。

    如果选择“参数范围”选项并为任何参数输入单个值,则整个整理过程中都会使用你指定的单个值,即使其他参数的值发生一系列更改

  9. 提交管道。

结果

在训练完成后:

  • 若要保存已训练模型的快照,请选择“训练模型”组件右侧面板中的“输出”选项卡。 选择“注册数据集”图标以将模型保存为可重用组件。

  • 若要使用模型进行评分,请将“为模型评分”组件添加到管道中。

后续步骤

请参阅 Azure 机器学习可用的组件集