从生产环境中的模型收集数据
适用范围:Azure CLI ml 扩展 v2(最新版)Python SDK azure-ai-ml v2(最新版)
本文介绍如何从部署到 Azure 机器学习联机终结点的模型收集数据。
使用 Azure 机器学习数据收集器,可以对部署到托管联机终结点或 Kubernetes 联机终结点的模型中的输入和输出数据进行实时日志记录。 Azure 机器学习将记录的推理数据存储在 Azure Blob 存储中。 然后,可以将此数据无缝用于模型监视、调试或审核,从而实现已部署模型性能的可观测性。
数据收集器提供:
- 将推理数据记录到中心位置(Azure Blob 存储)
- 支持托管联机终结点和 Kubernetes 联机终结点
- 部署级别的定义,允许对其配置进行最大更改
- 支持有效负载和自定义日志记录
日志记录模式
数据收集器提供两种日志记录模式:有效负载日志记录和自定义日志记录。 有效负载日志记录允许从部署的模型收集 HTTP 请求和响应有效负载数据。 通过自定义日志记录,Azure 机器学习提供了一个 Python SDK,用于直接从评分脚本中记录 Pandas 数据帧。 使用自定义日志记录 Python SDK,除了记录数据转换(或预处理)之前、期间和之后的数据外,还可以记录模型输入和输出数据。
数据收集器配置
可以在部署级别配置数据收集器,并在部署时指定配置。 可以配置将接收收集的数据的 Azure Blob 存储目标。 还可以为要收集的数据配置采样率(范围从 0 到 100%)。
限制
数据收集器具有以下限制:
- 数据收集器仅支持对联机(或实时)Azure 机器学习终结点(托管终结点或 Kubernetes 终结点)进行日志记录。
- 数据收集器 Python SDK 仅支持通过 pandas 数据帧记录表格数据。