多类提升决策树
本文介绍 Azure 机器学习设计器中的一个组件。
使用此组件可创建基于提升决策树算法的机器学习模型。
提升决策树是一种集成学习方法,在此方法中,第二个树将针对第一个树的误差进行纠正,第三个树将针对第一个和第二个树的误差进行纠正,依此类推。 预测基于树的集合。
配置方式
此组件会创建一个未训练的分类模型。 由于分类是一种监督式学习方法,所以,你需要一个标记的数据集,其中包含一个标签列,该列在所有行中都有一个值。
可以使用训练模型来训练这种类型的模型。
将“多类提升决策树”组件添加到管道。
通过设置“创建训练程序模式”选项,指定所希望的模型训练方式。
单个参数:如果你知道自己想要如何配置模型,可以提供一组特定的值作为参数。
参数范围:如果不确定最佳参数并想要运行参数整理,请选择此选项。 选择要循环访问的值范围,优化模型超参数将循环访问所提供设置的所有可能组合,以确定产生最佳结果的超参数。
“每个树的最大叶数”限制可在任何树中创建的终端节点(叶)的最大数目。
如果增大此值,则可能会增加树的大小并达到更高的精度,但会有过度拟合和训练时间较长的风险。
“每个叶节点的最少样本数”指示在树中创建任何终端节点(叶)所需的事例数。
通过增加此值,可以增加用于创建新规则的阈值。 例如,使用默认值 1 时,即使是单个事例也可以导致创建新规则。 如果将值增加到 5,则训练数据将必须包含至少五个满足相同条件的案例。
“学习速率”定义学习时的步幅。 请输入介于 0 到 1 之间的数字。
学习速率决定了学习器向最佳解决方案趋近的速度。 如果步幅太大,则可能超出最佳解决方案。 如果步幅太小,训练将花费更长的时间来趋近最佳解决方案。
“构造的树数”指示要在集成中创建的决策树的总数。 通过创建更多决策树,你可能会获得更好的覆盖范围,但训练时间将会增加。
“随机数种子”可以选择性地设置非负整数作为随机种子值。 指定种子可以确保具有相同数据和参数的运行之间的可再现性。
默认情况下,随机种子设置为 42。 使用不同随机种子的后续运行会产生不同的结果。
训练模型:
后续步骤
请参阅 Azure 机器学习可用的组件集。