将记录从 SDK v1 迁移到 SDK v2

项目
2025-01-14

Azure 机器学习将 MLflow 跟踪用于试验的指标日志记录和项目存储，无论试验是通过 Azure 机器学习 Python SDK、Azure 机器学习 CLI 还是 Azure 机器学习工作室创建的。建议使用 MLflow 来跟踪试验。

如果要从 SDK v1 迁移到 SDK v2，请使用本部分中的信息来了解 SDK v1 记录 API 的 MLflow 等效项。

为什么使用 MLflow？

MLflow 每月下载量超过 1300 万次，已成为端到端 MLOps 的标准平台，各种规模的团队通过它都能够跟踪、共享、打包和部署任何模型以进行批量或实时推理。 Azure 机器学习与 MLflow 集成，可支持训练代码实现真正的可移植性，并与其他平台无缝集成，因为它不包含任何特定于 Azure 机器学习的指令。

准备迁移到 MLflow

要使用 MLflow 跟踪，需要安装 Mlflow SDK 包 mlflow 和适用于 MLflow azureml-mlflow 的 Azure 机器学习插件。所有 Azure 机器学习环境已提供这些包，但如果创建自己的环境，则需包含这些包。

pip install mlflow azureml-mlflow

连接到工作区

用户使用 Azure 机器学习可在工作区上运行或远程运行的训练作业中执行跟踪（跟踪在 Azure 机器学习外部运行的试验）。如果执行远程跟踪，则需指示要将 MLflow 连接到的工作区。

Azure 机器学习计算
远程计算

在 Azure 机器学习计算中运行时，已连接到工作区。

配置跟踪 URI

获取工作区的跟踪 URI：
- Azure CLI
- Python SDK
- 工作室
- 手动
适用于：Azure CLI ml 扩展 v2（当前）
1. 登录并配置工作区：
```
az account set --subscription <subscription-ID>
az configure --defaults workspace=<workspace-name> group=<resource-group-name> location=<location> 
```
2. 使用 az ml workspace 命令获取跟踪 URI：
```
az ml workspace show --query mlflow_tracking_uri
```
适用范围：Python SDK azure-ai-ml v2（最新版）

可以使用适用于 Python 的 Azure 机器学习 SDK v2 获取 Azure 机器学习 MLflow 跟踪 URI。确保计算实例中安装了 azure-ai-ml 库。然后使用以下代码获取与工作区关联的唯一 MLFLow 跟踪 URI。
1. 使用 MLClient 实例登录到工作区。可使用两个选项进行登录：
  - 最简单的方法是使用工作区配置文件：
    
    from azure.ai.ml import MLClient from azure.identity import DefaultAzureCredential ml_client = MLClient.from_config(credential=DefaultAzureCredential())
    
    提示
    
    可以通过以下步骤下载工作区配置文件：
    
    转到 Azure 机器学习工作室。
    
    在右上角选择工作区的名称。
    
    在“目录 + 订阅 + 工作区”窗口中，选择“下载配置文件”。
    
    将 config.json 文件保存到正在使用的目录中。
  - 也可使用订阅 ID、资源组名称和工作区名称来登录：
    
    from azure.ai.ml import MLClient from azure.identity import DefaultAzureCredential # Enter information about your Azure Machine Learning workspace. subscription_id = "<subscription-ID>" resource_group = "<resource-group-name>" workspace_name = "<workspace-name>" ml_client = MLClient(credential=DefaultAzureCredential(), subscription_id=subscription_id, resource_group_name=resource_group, workspace_name=workspace_name)
    
    重要
    
    DefaultAzureCredential 方法尝试从可用上下文中拉取凭据。但你可能希望以其他方式指定凭据，例如以交互方式使用 Web 浏览器。在这些情况下，可以使用 InteractiveBrowserCredential，也可以使用 azure.identity 包中提供的任何其他方法。
2. 获取 Azure 机器学习跟踪 URI：
```
mlflow_tracking_uri = ml_client.workspaces.get(ml_client.workspace_name).mlflow_tracking_uri
```
使用 Azure 机器学习工作室获取跟踪 URI：
1. 打开 Azure 机器学习工作室，并使用凭据登录。
2. 在右上角选择工作区的名称。
3. 在“目录 + 订阅 + 工作区”窗口中，选择“在 Azure 门户中查看所有属性”。此时会在 Azure 门户中打开你所在工作区的资源页。
4. 在“概要”下，复制“MLflow 跟踪 URI”值。
可以手动构造 Azure 机器学习跟踪 URI。需要订阅 ID、部署工作区的区域、资源组名称和工作区名称。若要获取 URI，请在以下代码中输入这些值：

警告

如果使用启用了专用链接的工作区，MLflow 终结点还会使用专用链接与 Azure 机器学习通信。因此，跟踪 URI 使用的格式会与本文中的格式不同。在这种情况下，需要使用适用于 Python 的 Azure 机器学习 SDK 或 Azure 机器学习 CLI v2 获取跟踪 URI。
```
region = "<region>"
subscription_id = "<subscription-ID>"
resource_group = "<resource-group-name>"
workspace_name = "<workspace-name>"

mlflow_tracking_uri = f"azureml://{region}.api.azureml.ms/mlflow/v1.0/subscriptions/{subscription_id}/resourceGroups/{resource_group}/providers/Microsoft.MachineLearningServices/workspaces/{workspace_name}"
```
配置跟踪 URI：
- MLflow SDK
- 环境变量
使用 set_tracking_uri() 方法将 MLflow 跟踪 URI 设置为工作区的跟踪 URI。
```
import mlflow

mlflow.set_tracking_uri(mlflow_tracking_uri)
```
在计算实例中，使用以下代码将 MLFLOW_TRACKING_URI MLflow 环境变量设置为工作区的跟踪 URI。默认情况下，此分配使得该计算实例中与 MLflow 的所有交互都指向 Azure 机器学习。有关详细信息，请参阅日志记录函数。
```
MLFLOW_TRACKING_URI=$(az ml workspace show --query mlflow_tracking_uri | sed 's/"//g') 
```
提示

某些方案涉及在共享环境（例如 Azure Databricks 群集或 Azure Synapse Analytics 群集）中操作。在这些情况下，可以在群集级别设置 MLFLOW_TRACKING_URI 环境变量，而不必为每个会话设置该变量。在群集级别设置该变量时，会针对群集中的所有会话自动将 MLflow 跟踪 URI 配置为指向 Azure 机器学习。

配置身份验证

配置跟踪后，还需要配置需要对关联工作区进行身份验证的方式。默认情况下，适用于 MLflow 的 Azure 机器学习插件将通过打开默认浏览器提示输入凭据来执行交互式身份验证。有关在 Azure 机器学习工作区中为 MLflow 配置身份验证的更多方法，请参阅为 Azure 机器学习配置 MLflow：配置身份验证。

对于有用户连接到会话的交互式作业，你可以依赖交互式身份验证。无需进一步执行操作。

警告

在系统提示输入凭据时，交互式浏览器身份验证将阻止代码执行。此方法不适用于无人参与的环境（如训练作业）中的身份验证。建议在这些环境中配置一个不同的身份验证模式。

对于需要无人参与执行的方案，你需要配置服务主体，以便与 Azure 机器学习通信。若要了解如何创建服务主体，请参阅配置服务主体。

请在以下代码中使用服务主体的租户 ID、客户端 ID 和客户端密码：

MLflow SDK
环境变量

import os

os.environ["AZURE_TENANT_ID"] = "<Azure-tenant-ID>"
os.environ["AZURE_CLIENT_ID"] = "<Azure-client-ID>"
os.environ["AZURE_CLIENT_SECRET"] = "<Azure-client-secret>"

export AZURE_TENANT_ID="<Azure-tenant-ID>"
export AZURE_CLIENT_ID="<Azure-client-ID>"
export AZURE_CLIENT_SECRET="<Azure-client-secret>"

提示

在共享环境中操作时，建议在计算级别配置这些环境变量。最佳做法是在 Azure 密钥保管库实例中将这些环境变量作为机密进行管理。

例如，在 Azure Databricks 群集配置中，可以按以下方式在环境变量中使用机密：AZURE_CLIENT_SECRET={{secrets/<scope-name>/<secret-name>}}。若要详细了解如何在 Azure Databricks 中实现此方法，请参阅引用环境变量中的机密或参考适用于你的平台的文档。

实验和运行

SDK v1

from azureml.core import Experiment

# create an Azure Machine Learning experiment and start a run
experiment = Experiment(ws, "create-experiment-sdk-v1")
azureml_run = experiment.start_logging()

使用 MLflow 的 SDK v2

# Set the MLflow experiment and start a run
mlflow.set_experiment("logging-with-mlflow")
mlflow_run = mlflow.start_run()

记录 API 比较

记录整数或浮点数指标

SDK v1

azureml_run.log("sample_int_metric", 1)

使用 MLflow 的 SDK v2

mlflow.log_metric("sample_int_metric", 1)

记录布尔指标

SDK v1

azureml_run.log("sample_boolean_metric", True)

使用 MLflow 的 SDK v2

mlflow.log_metric("sample_boolean_metric", 1)

记录字符串指标

SDK v1

azureml_run.log("sample_string_metric", "a_metric")

使用 MLflow 的 SDK v2

mlflow.log_text("sample_string_text", "string.txt")

字符串将记录为项目，而不是记录为指标。在 Azure 机器学习工作室中，该值会显示在“输出 + 日志”选项卡中。

将图像记录到 PNG 或 JPEG 文件

SDK v1

azureml_run.log_image("sample_image", path="Azure.png")

使用 MLflow 的 SDK v2

mlflow.log_artifact("Azure.png")

图像会记录为项目，并将显示在 Azure 机器学习工作室中的“图像”选项卡中。

记录 matplotlib.pyplot

SDK v1

import matplotlib.pyplot as plt

plt.plot([1, 2, 3])
azureml_run.log_image("sample_pyplot", plot=plt)

使用 MLflow 的 SDK v2

import matplotlib.pyplot as plt

plt.plot([1, 2, 3])
fig, ax = plt.subplots()
ax.plot([0, 1], [2, 3])
mlflow.log_figure(fig, "sample_pyplot.png")

图像会记录为项目，并将显示在 Azure 机器学习工作室中的“图像”选项卡中。

记录指标列表

SDK v1

list_to_log = [1, 2, 3, 2, 1, 2, 3, 2, 1]
azureml_run.log_list('sample_list', list_to_log)

使用 MLflow 的 SDK v2

list_to_log = [1, 2, 3, 2, 1, 2, 3, 2, 1]
from mlflow.entities import Metric
from mlflow.tracking import MlflowClient
import time

metrics = [Metric(key="sample_list", value=val, timestamp=int(time.time() * 1000), step=0) for val in list_to_log]
MlflowClient().log_batch(mlflow_run.info.run_id, metrics=metrics)

指标显示在 Azure 机器学习工作室中的“指标”选项卡中。
不支持文本值。

记录一行指标

SDK v1

azureml_run.log_row("sample_table", col1=5, col2=10)

使用 MLflow 的 SDK v2

metrics = {"sample_table.col1": 5, "sample_table.col2": 10}
mlflow.log_metrics(metrics)

在 Azure 机器学习工作室中，指标不会呈现为表。
不支持文本值。
记录为项目，而不是指标。

记录表

SDK v1

table = {
"col1" : [1, 2, 3],
"col2" : [4, 5, 6]
}
azureml_run.log_table("table", table)

使用 MLflow 的 SDK v2

# Add a metric for each column prefixed by metric name. Similar to log_row
row1 = {"table.col1": 5, "table.col2": 10}
# To be done for each row in the table
mlflow.log_metrics(row1)

# Using mlflow.log_artifact
import json

with open("table.json", 'w') as f:
json.dump(table, f)
mlflow.log_artifact("table.json")

记录每个列的指标。
在 Azure 机器学习工作室中，指标不会呈现为表。
不支持文本值。
记录为项目，而不是指标。

记录准确度表

SDK v1

ACCURACY_TABLE = '{"schema_type": "accuracy_table", "schema_version": "v1", "data": {"probability_tables": ' +\
        '[[[114311, 385689, 0, 0], [0, 0, 385689, 114311]], [[67998, 432002, 0, 0], [0, 0, ' + \
        '432002, 67998]]], "percentile_tables": [[[114311, 385689, 0, 0], [1, 0, 385689, ' + \
        '114310]], [[67998, 432002, 0, 0], [1, 0, 432002, 67997]]], "class_labels": ["0", "1"], ' + \
        '"probability_thresholds": [0.52], "percentile_thresholds": [0.09]}}'

azureml_run.log_accuracy_table('v1_accuracy_table', ACCURACY_TABLE)

使用 MLflow 的 SDK v2

ACCURACY_TABLE = '{"schema_type": "accuracy_table", "schema_version": "v1", "data": {"probability_tables": ' +\
        '[[[114311, 385689, 0, 0], [0, 0, 385689, 114311]], [[67998, 432002, 0, 0], [0, 0, ' + \
        '432002, 67998]]], "percentile_tables": [[[114311, 385689, 0, 0], [1, 0, 385689, ' + \
        '114310]], [[67998, 432002, 0, 0], [1, 0, 432002, 67997]]], "class_labels": ["0", "1"], ' + \
        '"probability_thresholds": [0.52], "percentile_thresholds": [0.09]}}'

mlflow.log_dict(ACCURACY_TABLE, 'mlflow_accuracy_table.json')

在 Azure 机器学习工作室中，指标不会呈现为准确度表。
记录为项目，而不是指标。
mlflow.log_dict 方法是实验性方法。

记录混淆矩阵

SDK v1

CONF_MATRIX = '{"schema_type": "confusion_matrix", "schema_version": "v1", "data": {"class_labels": ' + \
    '["0", "1", "2", "3"], "matrix": [[3, 0, 1, 0], [0, 1, 0, 1], [0, 0, 1, 0], [0, 0, 0, 1]]}}'

azureml_run.log_confusion_matrix('v1_confusion_matrix', json.loads(CONF_MATRIX))

使用 MLflow 的 SDK v2

CONF_MATRIX = '{"schema_type": "confusion_matrix", "schema_version": "v1", "data": {"class_labels": ' + \
    '["0", "1", "2", "3"], "matrix": [[3, 0, 1, 0], [0, 1, 0, 1], [0, 0, 1, 0], [0, 0, 0, 1]]}}'

mlflow.log_dict(CONF_MATRIX, 'mlflow_confusion_matrix.json')

在 Azure 机器学习工作室中，指标不会呈现为混淆矩阵。
记录为项目，而不是指标。
mlflow.log_dict 方法是实验性方法。

记录预测

SDK v1

PREDICTIONS = '{"schema_type": "predictions", "schema_version": "v1", "data": {"bin_averages": [0.25,' + \
    ' 0.75], "bin_errors": [0.013, 0.042], "bin_counts": [56, 34], "bin_edges": [0.0, 0.5, 1.0]}}'

azureml_run.log_predictions('test_predictions', json.loads(PREDICTIONS))

使用 MLflow 的 SDK v2

PREDICTIONS = '{"schema_type": "predictions", "schema_version": "v1", "data": {"bin_averages": [0.25,' + \
    ' 0.75], "bin_errors": [0.013, 0.042], "bin_counts": [56, 34], "bin_edges": [0.0, 0.5, 1.0]}}'

mlflow.log_dict(PREDICTIONS, 'mlflow_predictions.json')

在 Azure 机器学习工作室中，指标不会呈现为混淆矩阵。
记录为项目，而不是指标。
mlflow.log_dict 方法是实验性方法。

记录残差

SDK v1

RESIDUALS = '{"schema_type": "residuals", "schema_version": "v1", "data": {"bin_edges": [100, 200, 300], ' + \
'"bin_counts": [0.88, 20, 30, 50.99]}}'

azureml_run.log_residuals('test_residuals', json.loads(RESIDUALS))

使用 MLflow 的 SDK v2

RESIDUALS = '{"schema_type": "residuals", "schema_version": "v1", "data": {"bin_edges": [100, 200, 300], ' + \
'"bin_counts": [0.88, 20, 30, 50.99]}}'

mlflow.log_dict(RESIDUALS, 'mlflow_residuals.json')

在 Azure 机器学习工作室中，指标不会呈现为混淆矩阵。
记录为项目，而不是指标。
mlflow.log_dict 方法是实验性方法。

查看运行信息和数据

可以使用 mLflow 运行 (mlflow.entities.Run) 对象的属性 data 和 info 来访问运行信息。

提示

可以使用 MLflow 查询 Azure 机器学习中的试验和运行跟踪信息，MLflow 可提供全面的搜索 API 来轻松查询和搜索试验和运行，并快速比较结果。有关此维度的 MLflow 中所有功能的详细信息，请参阅使用 MLflow 查询并比较试验和运行

以下示例展示了如何检索已完成的运行：

from mlflow.tracking import MlflowClient

# Use MlFlow to retrieve the run that was just completed
client = MlflowClient()
finished_mlflow_run = MlflowClient().get_run("<RUN_ID>")

以下示例展示了如何查看 metrics、tags 和 params：

metrics = finished_mlflow_run.data.metrics
tags = finished_mlflow_run.data.tags
params = finished_mlflow_run.data.params

注意

metrics 将仅具有给定指标的最近记录值。例如，如果按顺序依次将 1、2、3 和 4 的值记录到名为 sample_metric 的指标，则 metrics 字典中将仅存在 4。若要获取为特定命名指标记录的所有指标，请使用 MlFlowClient.get_metric_history：

with mlflow.start_run() as multiple_metrics_run:
    mlflow.log_metric("sample_metric", 1)
    mlflow.log_metric("sample_metric", 2)
    mlflow.log_metric("sample_metric", 3)
    mlflow.log_metric("sample_metric", 4)

print(client.get_run(multiple_metrics_run.info.run_id).data.metrics)
print(client.get_metric_history(multiple_metrics_run.info.run_id, "sample_metric"))

有关详细信息，请参阅 MlFlowClient 参考。

info 字段提供有关运行的常规信息，例如开始时间、运行 ID、实验 ID 等：

run_start_time = finished_mlflow_run.info.start_time
run_experiment_id = finished_mlflow_run.info.experiment_id
run_id = finished_mlflow_run.info.run_id

查看运行项目

若要查看运行的项目，请使用 MlFlowClient.list_artifacts：

client.list_artifacts(finished_mlflow_run.info.run_id)

要下载项目，请使用 mlflow.artifacts.download_artifacts：

mlflow.artifacts.download_artifacts(run_id=finished_mlflow_run.info.run_id, artifact_path="Azure.png")

通过

将记录从 SDK v1 迁移到 SDK v2

为什么使用 MLflow？

准备迁移到 MLflow

连接到工作区

实验和运行

记录 API 比较

记录整数或浮点数指标

记录布尔指标

记录字符串指标

将图像记录到 PNG 或 JPEG 文件

记录 matplotlib.pyplot

记录指标列表

记录一行指标

记录表

记录准确度表

记录混淆矩阵

记录预测

记录残差

查看运行信息和数据

查看运行项目

后续步骤

其他资源