汇总数据
本文介绍 Azure 机器学习设计器的一个组件。
使用“汇总数据”组件创建一组标准的统计度量值,用于描述输入表中的每一列。
想要了解完整数据集的特征时,可以参阅汇总统计信息。 例如,你可能需要知道:
- 每个列中的缺失值有多少?
- 特征列中有多少唯一值?
- 每个列的平均值和标准偏差是多少?
此组件计算每列的重要分数,并返回一行针对每个变量(数据列)的摘要统计信息(作为输入提供)。
如何配置“汇总数据”
将“汇总数据”组件添加到管道。 可以在设计器的“统计函数”类别中找到此组件。
连接要为其生成报表的数据集。
如果只想报告某些列,请使用选择数据集中的列组件来投影要处理的列子集。
无需指定其他参数。 默认情况下,组件会分析作为输入提供的所有列,并根据列中的值的类型输出一组相关的统计信息,如结果部分所述。
提交管道。
结果
组件中的报表可能包含以下统计信息。
列名称 | 说明 |
---|---|
功能 | 列的名称 |
计数 | 所有行的计数 |
唯一值计数 | 列中的唯一值数 |
缺失值计数 | 列中的唯一值数 |
最小值 | 列中的最低值 |
最大值 | 列中的最高值 |
平均值 | 所有列值的平均 |
平均偏差 | 列值的平均偏差 |
第 1 个四分位数 | 第 1 个四分位点的值 |
中值 | 中值列值 |
第 3 个四分位数 | 第 3 个四分位点的值 |
模式 | 列值的模式 |
范围 | 一个整数,表示最大值和最小值之间的值的数目 |
样本方差 | 列的方差;请参阅“说明” |
样本标准差 | 列的标准差;请参阅“说明” |
样本偏度 | 列的偏度;请参阅“说明” |
样本峰度 | 列的峰度;请参阅“说明” |
P0.5 | 0.5% 百分位数 |
P1 | 1% 百分位数 |
P5 | 5% 百分位数 |
P95 | 95% 百分位数 |
P99.5 | 99.5% 百分位数 |
技术说明
对于非数字列,只计算计数、唯一值计数和缺失值计数的值。 对于其他统计信息,返回 null 值。
使用以下规则处理包含布尔值的列:
计算最小值时,应用逻辑 AND。
计算最大值时,应用逻辑 OR
在计算“范围”时,该组件首先检查列中的唯一值数是否等于 2。
在计算需要浮点计算的任何统计量时,True 值将视为 1.0,False 值将视为 0.0。
后续步骤
请参阅 Azure 机器学习可用的组件集。