评估机器学习模型中的错误

在当前的模型调试实践中,最大的难点之一在于使用聚合指标根据基准数据集对模型进行评分。 模型准确度在数据子组之间可能不一致,并且可能存在模型失败频率更高的输入队列。 这些失败导致的直接后果是缺乏可靠性和安全性、出现公平性问题,以及完全失去对机器学习的信任。

Diagram that shows an example of accuracy rate and failures for a benchmark and machine learning model.

错误分析不使用聚合准确度指标。 它以透明方式向开发人员公开错误分布,让开发人员能够有效地识别和诊断错误。

负责任 AI 仪表板的错误分析组件让机器学习从业者更深入地了解模型故障分布,并帮助他们快速识别错误的数据队列。 此组件会识别错误率比总体基准错误率高的数据队列。 它通过以下方式为模型生命周期工作流的识别阶段提供帮助:

  • 显示错误率较高的队列的决策树。
  • 直观显示输入特征如何影响各个队列的错误率的热度地图。

当系统对训练数据中的特定人口群体或不经常观察到的输入队列表现不佳时,可能会出现误差。

此组件的功能来自生成模型错误配置文件的错误分析包。

以下情况下需要使用错误分析:

  • 深入了解模型故障在数据集以及多个输入和特征维度中的分布方式。
  • 细分聚合性能指标,自动发现错误的队列,以指导你采取针对性的缓解步骤。

错误树

通常,错误模式比较复杂,涉及两个或更多特征。 开发人员可能很难通过探索所有可能的特征组合来发现存在严重故障的隐藏数据包。

为了减轻负担,二进制树可视化会自动将基准数据分区为可解释的子组,这些子组具有出乎意料的高或低错误率。 换句话说,此树使用输入功能尽可能地将模型错误与成功区分开来。 对于定义数据子组的每个节点,用户可以调查以下信息:

  • 错误率:模型不正确节点中的部分实例。 此信息以红色的深浅显示。
  • 错误覆盖率:属于节点的所有错误的一部分。 此信息以节点的填充率显示。
  • 数据表示形式:错误树的每个节点中的实例数。 此信息以节点的传入边缘的厚度以及节点中的实例总数显示。

Screenshot of an error analysis tree that shows cohorts with higher or lower error rates and coverage.

错误热度地图

视图根据输入特征的一维或二维网格对数据进行切片。 用户可以选择感兴趣的输入功能进行分析。

热度地图用深红色来可视化错误率较高的单元格,让用户注意这些区域。 当不同分区中的错误主题不同时(在实践中经常出现此类情况),此功能特别有用。 要分析此类错误识别视图,需要用户本身了解或能推导出哪些特征可能对理解故障最重要。

Screenshot of an error analysis heatmap that shows model errors partitioned by one or two features.

后续步骤