“提升决策树回归”组件

项目
08/17/2023

本文介绍 Azure 机器学习设计器中的一个组件。

使用此组件通过提升来创建回归树的系综。 “提升”表示每个树依赖于前面的树。该算法通过拟合每个树前面剩余的树来进行学习。因此，决策树系综中的提升往往会提高准确度，但在某种程度上也会带来降低覆盖面的小风险。

此组件基于 LightGBM 算法。

此回归方法是一种监督式学习方法，因此需要带标签的数据集。标签列必须包含数字值。

注意

此组件只能与使用数字变量的数据集配合使用。

定义模型后，使用训练模型来训练该模型。

有关提升回归树的详细信息

提升是用于创建系综模型以及装袋、随机林等的多种经典方法中的一种。在 Azure 机器学习中，提升决策树使用 MART 梯度提升算法的有效实现。梯度提升是解决回归问题的一种机器学习技术。它使用预定义的损失函数测量每个步骤中的误差并在下一个步骤中纠正误差，以步进的方式生成每个回归树。因此，预测模型实际上是较弱预测模型的系综。

在回归问题中，提升可采用步进方式生成一系列树，然后选择使用任意可微分损失函数的最佳树。

有关更多信息，请参阅以下文章：

https://wikipedia.org/wiki/Gradient_boosting#Gradient_tree_boosting

这篇有关梯度提升的维基百科文章提供了一些有关提升树的背景知识。

https://research.microsoft.com/apps/pubs/default.aspx?id=132652

Microsoft Research：从 RankNet 到 LambdaRank 再到 LambdaMART：概述。 J.C. Burges 撰写。

此外，梯度提升法可以使用适当的损失函数将分类问题化简为回归来解决此类问题。有关分类任务的提升树实现的详细信息，请参阅双类提升决策树。

如何配置“提升决策树回归”

将“提升决策树”组件添加到你的管道。可以在“机器学习 - 初始化”下的“回归”类别中找到此组件。
通过设置“创建训练器模式”选项来指定如何训练模型。
- 单个参数：如果知道自己想要如何配置模型，请选择此选项并提供一组特定的值作为参数。
- 参数范围：如果不确定最佳参数并想要运行参数整理，请选择此选项。选择要循环访问的值范围，优化模型超参数将循环访问所提供设置的所有可能组合，以确定产生最佳结果的超参数。
每个树的最大叶数：指示可在任何树中创建的终端节点（叶）的最大数目。

如果增大此值，则可能会增加树的大小并获得更好的精度，但风险是过度拟合和更长的训练时间。
每个叶节点的最小样本数：指示在树中创建任何终端节点（叶）所需的最小案例数。

通过增加此值，可以增加创建新规则的阈值。例如，使用默认值 1 时，即使是单个案例也可以导致创建新规则。如果将值增加到 5，则训练数据将必须包含至少 5 个满足相同条件的案例。
学习速率：键入一个介于 0 和 1 之间的数字，用以定义学习时的步幅。学习速率决定了学习器收敛于最优解的速度。如果步幅太大，则可能会越过最优解。如果步幅太小，则训练将花费更长的时间来收敛于最优解。
构造的树数：指示要在系综中创建的决策树总数。通过创建更多决策树，你可能会获得更好的覆盖范围，但训练时间将会增加。

但是，如果将该值设置为 1，则只会生成一个树（该树具有初始的参数集），而不会执行进一步的迭代。
随机数种子：键入用作随机种子值的可选非负整数。指定种子可以确保具有相同数据和参数的运行之间的可再现性。

随机种子默认设置为 0，这意味着将从系统时钟获取初始种子值。
训练模型：
- 如果将“创建训练器模式”设置为“单个参数”，请连接标记的数据集和训练模型组件。
- 如果将“创建训练程序模式”设置为“参数范围”，请连接带标记的数据集并使用优化模型超参数来训练模型。
注意

如果将参数范围传递给训练模型，则它只使用单个参数列表中的默认值。

如果将一组参数值传递给优化模型超参数组件，则当它期望每个参数有一系列设置时，它会忽略这些值，对学习器使用默认值。

如果选择“参数范围”选项并为任何参数输入单个值，则整个整理过程中都会使用你指定的单个值，即使其他参数的值发生一系列更改。
提交管道。

结果

在训练完成后：

若要使用模型进行评分，请将训练模型连接到评分模型，以预测新输入示例的值。
若要保存已训练模型的快照，请在已训练模型的右侧面板中选择“输出”选项卡，然后单击“注册数据集”图标。已训练模型的副本将保存为组件树中的组件，在管道连续运行时不会进行更新。

后续步骤

请参阅 Azure 机器学习可用的组件集。

通过

“提升决策树回归”组件

有关提升回归树的详细信息

如何配置“提升决策树回归”

结果

后续步骤

其他资源