在 Azure 机器学习中附加和管理 Synapse Spark 池

项目
10/12/2024

适用范围：Azure CLI ml 扩展 v2（最新版）Python SDK azure-ai-ml v2（最新版）

本文介绍如何在 Azure 机器学习中附加 Synapse Spark 池。可以通过以下方式之一在 Azure 机器学习中附加 Synapse Spark 池：

使用 Azure 机器学习工作室 UI
使用 Azure 机器学习 CLI
使用 Azure 机器学习 Python SDK

先决条件

一个 Azure 订阅；如果没有 Azure 订阅，请在开始前创建试用版订阅。
Azure 机器学习工作区。请参阅创建工作区资源。
在 Azure 门户中创建 Azure Synapse Analytics 工作区。
使用 Azure 门户创建 Apache Spark 池。

在 Azure 机器学习中附加 Synapse Spark 池

Azure 机器学习提供了用于附加和管理 Synapse Spark 池的不同方法。

若要使用工作室“计算”选项卡附加 Synapse Spark 池：

在左侧窗格中的“管理”部分，选择“计算”。
选择“附加的计算”。
在“附加的计算”屏幕上，选择“新建”以查看用于附加不同类型的计算的选项。
选择“Synapse Spark 池”。

“附加 Synapse Spark 池”面板将在屏幕右侧打开。在此面板中：

输入一个名称，该名称引用 Azure 机器学习资源中附加的 Synapse Spark 池。
从下拉菜单中选择一个 Azure 订阅。
从下拉菜单中选择一个 Synapse 工作区。
从下拉菜单中选择一个 Spark 池。
切换“分配托管标识”选项以启用它。
选择要与此附加的 Synapse Spark 池一起使用的托管标识类型。
选择“更新”，完成 Synapse Spark 池附加过程。

适用于：Azure CLI ml 扩展 v2（当前）

借助 Azure 机器学习 CLI，可以使用直观的 YAML 语法和命令从命令行界面附加和管理 Synapse Spark 池。

若要使用 YAML 语法定义附加的 Synapse Spark 池，YAML 文件应涵盖以下属性：

name - 附加的 Synapse Spark 池的名称。
type - 将此属性设置为 synapsespark。
resource_id - 此属性应提供在 Azure Synapse Analytics 工作区中创建的 Synapse Spark 池的资源 ID 值。 Azure 资源 ID 包括
- Azure 订阅 ID，
- 资源组名称，
- Azure Synapse Analytics 工作区名称，以及
- Synapse Spark 池的名称。
```
name: <ATTACHED_SPARK_POOL_NAME>

type: synapsespark

resource_id: /subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>
```

identity – 此属性定义要分配给附加的 Synapse Spark 池的标识类型。它可以采用以下值之一：

system_assigned

user_assigned

name: <ATTACHED_SPARK_POOL_NAME>

type: synapsespark

resource_id: /subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>

identity:
type: system_assigned

对于 identity 类型 user_assigned，还应提供 user_assigned_identities 值的列表。应使用用户分配的标识的 resource_id 值将每个用户分配的标识声明为该列表的元素。默认情况下，列表中第一个用户分配的标识用于提交作业。

name: <ATTACHED_SPARK_POOL_NAME>

type: synapsespark

resource_id: /subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>

identity:
  type: user_assigned
  user_assigned_identities:
    - resource_id: /subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<AML_USER_MANAGED_ID>

上述 YAML 文件可在 az ml compute attach 命令中用作 --file 参数。可以使用 az ml compute attach 命令将 Synapse Spark 池附加到位于订阅的指定资源组中的 Azure 机器学习工作区，如下所示：

az ml compute attach --file <YAML_SPECIFICATION_FILE_NAME>.yaml --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME>

此示例显示了上述命令的预期输出：

Class SynapseSparkCompute: This is an experimental class, and may change at any time. Please visit https://aka.ms/azuremlexperimental for more information.

{
    "auto_pause_settings": {
    "auto_pause_enabled": true,
    "delay_in_minutes": 15
    },
    "created_on": "2022-09-13 19:01:05.109840+00:00",
    "id": "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.MachineLearningServices/workspaces/<AML_WORKSPACE_NAME>/computes/<ATTACHED_SPARK_POOL_NAME>",
    "location": "chinaeast2",
    "name": "<ATTACHED_SPARK_POOL_NAME>",
    "node_count": 5,
    "node_family": "MemoryOptimized",
    "node_size": "Small",
    "provisioning_state": "Succeeded",
    "resourceGroup": "<RESOURCE_GROUP>",
    "resource_id": "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>",
    "scale_settings": {
    "auto_scale_enabled": false,
    "max_node_count": 0,
    "min_node_count": 0
    },
    "spark_version": "3.2",
    "type": "synapsespark"
}

如果附加的 Synapse Spark 池（其名称在 YAML 规范文件中指定）已存在于工作区中，则 az ml compute attach 命令执行会使用 YAML 规范文件中提供的信息更新现有池。你可以通过 YAML 规范文件更新

标识类型
用户分配的标识
tags

值。

若要显示附加的 Synapse Spark 池的详细信息，请执行 az ml compute show 命令。使用 --name 参数传递附加的 Synapse Spark 池的名称，如下所示：

az ml compute show --name <ATTACHED_SPARK_POOL_NAME> --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME>

此示例显示了上述命令的预期输出：

<ATTACHED_SPARK_POOL_NAME>
{
    "auto_pause_settings": {
    "auto_pause_enabled": true,
    "delay_in_minutes": 15
    },
    "created_on": "2022-09-13 19:01:05.109840+00:00",
    "id": "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.MachineLearningServices/workspaces/<AML_WORKSPACE_NAME>/computes/<ATTACHED_SPARK_POOL_NAME>",
    "location": "chinaeast2",
    "name": "<ATTACHED_SPARK_POOL_NAME>",
    "node_count": 5,
    "node_family": "MemoryOptimized",
    "node_size": "Small",
    "provisioning_state": "Succeeded",
    "resourceGroup": "<RESOURCE_GROUP>",
    "resource_id": "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>",
    "scale_settings": {
    "auto_scale_enabled": false,
    "max_node_count": 0,
    "min_node_count": 0
    },
    "spark_version": "3.2",
    "type": "synapsespark"
}

若要查看所有计算（包括工作区中附加的 Synapse Spark 池）的列表，请使用 az ml compute list 命令。使用 name 参数传递工作区的名称，如下所示：

az ml compute list --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME>

此示例显示了上述命令的预期输出：

[
    {
    "auto_pause_settings": {
        "auto_pause_enabled": true,
        "delay_in_minutes": 15
    },
    "created_on": "2022-09-09 21:28:54.871251+00:00",
    "id": "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.MachineLearningServices/workspaces/<AML_WORKSPACE_NAME>/computes/<ATTACHED_SPARK_POOL_NAME>",
    "identity": {
        "principal_id": "<PRINCIPAL_ID>",
        "tenant_id": "<TENANT_ID>",
        "type": "system_assigned"
    },
    "location": "chinaeast2",
    "name": "<ATTACHED_SPARK_POOL_NAME>",
    "node_count": 5,
    "node_family": "MemoryOptimized",
    "node_size": "Small",
    "provisioning_state": "Succeeded",
    "resourceGroup": "<RESOURCE_GROUP>",
    "resource_id": "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>",
    "scale_settings": {
        "auto_scale_enabled": false,
        "max_node_count": 0,
        "min_node_count": 0
    },
    "spark_version": "3.2",
    "type": "synapsespark"
    },
    ...
]

适用于：Python SDK azure-ai-ml v2（当前版本）

Azure 机器学习 Python SDK 提供了方便的功能，用于使用 Azure 机器学习笔记本中的 Python 代码附加和管理 Synapse Spark 池。

若要使用 Python SDK 附加 Synapse 计算，请先创建 azure.ai.ml.MLClient 类的实例。这为与 Azure 机器学习服务交互提供了方便的功能。以下代码示例使用 azure.identity.DefaultAzureCredential 连接到指定 Azure 订阅的资源组中的工作区。在以下代码示例中，使用以下参数定义 SynapseSparkCompute：

name - 新附加的 Synapse Spark 池的用户定义名称。
resource_id - 先前在 Azure Synapse Analytics 工作区中创建的 Synapse Spark 池的资源 ID

azure.ai.ml.MLClient.begin_create_or_update() 函数调用将定义的 Synapse Spark 池附加到 Azure 机器学习工作区。

from azure.ai.ml import MLClient
from azure.ai.ml.entities import SynapseSparkCompute
from azure.identity import DefaultAzureCredential

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"

ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

synapse_name = "<ATTACHED_SPARK_POOL_NAME>"
synapse_resource = "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>"

synapse_comp = SynapseSparkCompute(name=synapse_name, resource_id=synapse_resource)
ml_client.begin_create_or_update(synapse_comp)

若要附加使用系统分配的标识的 Synapse Spark 池，请将类型设置为 SystemAssigned 的 IdentityConfiguration 作为 SynapseSparkCompute 类的 identity 参数传递。此代码片段附加了一个使用系统分配的标识的 Synapse Spark 池：

# import required libraries
from azure.ai.ml import MLClient
from azure.ai.ml.entities import SynapseSparkCompute, IdentityConfiguration
from azure.identity import DefaultAzureCredential

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"

ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

synapse_name = "<ATTACHED_SPARK_POOL_NAME>"
synapse_resource = "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>"
synapse_identity = IdentityConfiguration(type="SystemAssigned")

synapse_comp = SynapseSparkCompute(
    name=synapse_name, resource_id=synapse_resource, identity=synapse_identity
)
ml_client.begin_create_or_update(synapse_comp)

Synapse Spark 池还可以使用用户分配的标识。对于用户分配的标识，可以使用 IdentityConfiguration 类将托管标识定义作为 SynapseSparkCompute 类的 identity 参数传递。对于以这种方式使用的托管标识定义，请将 type 设置为 UserAssigned。此外，传递 user_assigned_identities 参数。参数 user_assigned_identities 是 UserAssignedIdentity 类的对象列表。用户分配的标识的 resource_id 填充每个 UserAssignedIdentity 类对象。此代码片段附加了一个使用用户分配的标识的 Synapse Spark 池：

# import required libraries
from azure.ai.ml import MLClient
from azure.ai.ml.entities import (
    SynapseSparkCompute,
    IdentityConfiguration,
    UserAssignedIdentity,
)
from azure.identity import DefaultAzureCredential

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"

ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

synapse_name = "<ATTACHED_SPARK_POOL_NAME>"
synapse_resource = "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>"
synapse_identity = IdentityConfiguration(
    type="UserAssigned",
    user_assigned_identities=[
        UserAssignedIdentity(
            resource_id="/subscriptions/<SUBSCRIPTION_ID/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<AML_USER_MANAGED_ID>"
        )
    ],
)

synapse_comp = SynapseSparkCompute(
    name=synapse_name, resource_id=synapse_resource, identity=synapse_identity
)
ml_client.begin_create_or_update(synapse_comp)

注意

如果工作区中尚不存在具有指定名称的池，则 azure.ai.ml.MLClient.begin_create_or_update() 函数将附加新的 Synapse Spark 池。但是，如果具有该指定名称的 Synapse Spark 池已附加到工作区，则对 azure.ai.ml.MLClient.begin_create_or_update() 函数的调用将使用新标识更新现有的附加池。

在 Azure Synapse Analytics 中添加角色分配

若要确保附加的 Synapse Spark 池正常工作，请从 Azure Synapse Analytics 工作室 UI 为其分配管理员角色。以下步骤显示如何执行此操作：

在 Azure 门户中打开 Synapse 工作区。
在左窗格中，选择“概述”。
选择“打开 Synapse Studio”。
在 Azure Synapse Analytics 工作室中，选择左窗格中的“管理”。
在左窗格的“安全性”部分中选择“访问控制”（左起第二个）。
选择添加。
随后会在屏幕右侧打开“添加角色分配”面板。在此面板中：
1. 为“范围”选择“工作区项”。
2. 在“项目类型”下拉菜单中，选择“Apache Spark 池”。
3. 在“项”下拉菜单中，选择你的 Apache Spark 池。
4. 在“角色”下拉菜单中，选择“Synapse 管理员”。
5. 在“选择用户”搜索框中，开始键入 Azure 机器学习工作区的名称。它会为你显示附加的 Synapse Spark 池的列表。从列表中选择所需的 Synapse Spark 池。
6. 选择“应用”。

更新 Synapse Spark 池

可以从 Azure 机器学习工作室 UI 管理附加的 Synapse Spark 池。 Spark 池管理功能包括附加的 Synapse Spark 池的相关托管标识更新。可以在更新 Synapse Spark 池时分配系统分配的标识或用户分配的标识。在将用户分配的托管标识分配给 Synapse Spark 池之前，应在 Azure 门户中创建一个用户分配的托管标识。

若要更新附加的 Synapse Spark 池的托管标识：

在 Azure 机器学习工作室中打开 Synapse Spark 池的“详细信息”页。
找到位于“托管标识”部分右侧的编辑图标。
若要首次分配托管标识，请切换“分配托管标识”以启用它。
若要分配系统分配的托管标识：
1. 选择“系统分配”作为“标识类型”。
2. 选择“更新”。
若要分配用户分配的托管标识：
1. 选择“用户分配”作为“标识类型”。
2. 从下拉菜单中选择一个 Azure 订阅。
3. 在显示文本“按名称搜索”的框中键入用户分配的托管标识名称的前几个字母。此时会显示具有匹配的用户分配的托管标识名称的列表。从该列表中选择所需的用户分配的托管标识。可以选择多个用户分配的托管标识，并将其分配给附加的 Synapse Spark 池。
4. 选择“更新”。

适用于：Azure CLI ml 扩展 v2（当前）

要更新与附加的 Synapse Spark 池关联的标识，请使用适当的参数执行 az ml compute update 命令。若要分配系统分配的标识，请将命令中的 --identity 参数设置为 SystemAssigned，如下所示：

az ml compute update --identity SystemAssigned --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME> --name <ATTACHED_SPARK_POOL_NAME>

此示例显示了上述命令的预期输出：

Class SynapseSparkCompute: This is an experimental class, and may change at any time. Please see https://aka.ms/azuremlexperimental for more information.
{
    "auto_pause_settings": {
    "auto_pause_enabled": true,
    "delay_in_minutes": 15
    },
    "created_on": "2022-09-13 20:02:15.746490+00:00",
    "id": "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.MachineLearningServices/workspaces/<AML_WORKSPACE_NAME>/computes/<ATTACHED_SPARK_POOL_NAME>",
    "identity": {
    "principal_id": "<PRINCIPAL_ID>",
    "tenant_id": "<TENANT_ID>",
    "type": "system_assigned"
    },
    "location": "chinaeast2",
    "name": "<ATTACHED_SPARK_POOL_NAME>",
    "node_count": 5,
    "node_family": "MemoryOptimized",
    "node_size": "Small",
    "provisioning_state": "Succeeded",
    "resourceGroup": "<RESOURCE_GROUP>",
    "resource_id": "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<AML_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>",
    "scale_settings": {
    "auto_scale_enabled": false,
    "max_node_count": 0,
    "min_node_count": 0
    },
    "spark_version": "3.2",
    "type": "synapsespark"
}

若要分配用户分配的标识，请将命令中的 --identity 参数设置为 UserAssigned。此外，还应使用 --user-assigned-identities 参数为用户分配的标识传递资源 ID，如下所示：

az ml compute update --identity UserAssigned --user-assigned-identities /subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<AML_USER_MANAGED_ID> --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME> --name <ATTACHED_SPARK_POOL_NAME>

此示例显示了上述命令的预期输出：

Class SynapseSparkCompute: This is an experimental class, and may change at any time. Please see https://aka.ms/azuremlexperimental for more information.
{
  "auto_pause_settings": {
    "auto_pause_enabled": true,
    "delay_in_minutes": 15
  },
  "created_on": "2022-09-13 20:02:15.746490+00:00",
  "id": "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.MachineLearningServices/workspaces/<AML_WORKSPACE_NAME>/computes/<ATTACHED_SPARK_POOL_NAME>",
  "identity": {
    "type": "user_assigned",
    "user_assigned_identities": [
      {
        "client_id": "<CLIENT_ID>",
        "principal_id": "<PRINCIPAL_ID>",
        "resource_id": "/subscriptions/<SUBSCRIPTION_ID>/resourcegroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<AML_USER_MANAGED_ID>"
      }
    ]
  },
  "location": "chinaeast2",
  "name": "<ATTACHED_SPARK_POOL_NAME>",
  "node_count": 5,
  "node_family": "MemoryOptimized",
  "node_size": "Small",
  "provisioning_state": "Succeeded",
  "resourceGroup": "<RESOURCE_GROUP>",
  "resource_id": "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>",
  "scale_settings": {
    "auto_scale_enabled": false,
    "max_node_count": 0,
    "min_node_count": 0
  },
  "spark_version": "3.2",
  "type": "synapsespark"
}

注意

参数 --user-assigned-identities 可以获取资源 ID 列表，并将多个用户定义的标识分配给附加的 Synapse Spark 池。默认情况下，列表中第一个用户分配的标识将用于提交作业。

适用范围：Python SDK azure-ai-ml v2（最新版）

若要使用系统分配的标识，请将类型设置为 SystemAssigned 的 IdentityConfiguration 作为 SynapseSparkCompute 类的 identity 参数传递。此代码片段更新 Synapse Spark 池以使用系统分配的标识：

# import required libraries 
from azure.ai.ml import MLClient
from azure.ai.ml.entities import SynapseSparkCompute, IdentityConfiguration 
from azure.identity import DefaultAzureCredential
    
subscription_id = "<SUBSCRIPTION_ID>" 
resource_group_name = "<RESOURCE_GROUP>" 
workspace_name = "<AML_WORKSPACE_NAME>"

ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace 
) 

synapse_name = "<ATTACHED_SPARK_POOL_NAME>" 
synapse_resource ="/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>" 
synapse_identity = IdentityConfiguration(type="SystemAssigned") 

synapse_comp = SynapseSparkCompute(name=synapse_name, resource_id=synapse_resource,identity=synapse_identity) ml_client.begin_create_or_update(synapse_comp)

Synapse Spark 池还可以使用用户分配的标识。对于用户分配的标识，可以使用 IdentityConfiguration 类将托管标识定义作为 SynapseSparkCompute 类的 identity 参数传递。对于以这种方式使用的托管标识定义，请将 type 设置为 UserAssigned。此外，传递 user_assigned_identities 参数。参数 user_assigned_identities 是 UserAssignedIdentity 类的对象列表。用户分配的标识的 resource_id 填充每个 UserAssignedIdentity 类对象。此代码片段更新 Synapse Spark 池以使用用户分配的标识：

# import required libraries
from azure.ai.ml import MLClient
from azure.ai.ml.entities import (
    SynapseSparkCompute,
    IdentityConfiguration,
    UserAssignedIdentity,
)
from azure.identity import DefaultAzureCredential

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"

ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

synapse_name = "<ATTACHED_SPARK_POOL_NAME>"
synapse_resource = "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>"
synapse_identity = IdentityConfiguration(
    type="UserAssigned",
    user_assigned_identities=[
        UserAssignedIdentity(
            resource_id="/subscriptions/<SUBSCRIPTION_ID/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<AML_USER_MANAGED_ID>"
        )
    ],
)

synapse_comp = SynapseSparkCompute(
    name=synapse_name, resource_id=synapse_resource, identity=synapse_identity
)
ml_client.begin_create_or_update(synapse_comp)

注意

如果工作区中尚不存在具有指定名称的池，则 azure.ai.ml.MLClient.begin_create_or_update() 函数将附加一个新的 Synapse Spark 池。但是，如果具有该指定名称的 Synapse Spark 池已附加到工作区，则 azure.ai.ml.MLClient.begin_create_or_update() 函数调用将使用新标识更新现有的附加池。

分离 Synapse Spark 池

我们可能需要分离附加的 Synapse Spark 池，以清理工作区。

Azure 机器学习工作室 UI 还提供了一种用于分离附加的 Synapse Spark 池的方法。为此，请按照下列步骤进行操作：

在 Azure 机器学习工作室中打开 Synapse Spark 池的“详细信息”页。
选择“分离”以分离附加的 Synapse Spark 池。

适用于：Azure CLI ml 扩展 v2（当前）

要分离附加的 Synapse Spark 池，可以执行 az ml compute detach 命令，并使用 --name 参数传递池名称，如下所示：

az ml compute detach --name <ATTACHED_SPARK_POOL_NAME> --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME>

此示例显示了上述命令的预期输出：

Are you sure you want to perform this operation? (y/n): y

适用于：Python SDK azure-ai-ml v2（当前版本）

我们将使用 MLClient.compute.begin_delete() 函数调用。将附加的 Synapse Spark 池的 name 以及操作 Detach 一起传递给函数。此代码片段将从 Azure 机器学习工作区分离 Synapse Spark 池：

# import required libraries
from azure.ai.ml import MLClient
from azure.ai.ml.entities import SynapseSparkCompute
from azure.identity import DefaultAzureCredential

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"

ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

synapse_name = "<ATTACHED_SPARK_POOL_NAME>"
ml_client.compute.begin_delete(name=synapse_name, action="Detach")

Azure 机器学习中的无服务器 Spark 计算

某些用户方案可能需要在提交 Azure 机器学习作业期间访问无服务器 Spark 计算资源，而无需附加 Spark 池。 Azure Synapse Analytics 与 Azure 机器学习的集成还提供无服务器 Spark 计算体验。这让用户能访问作业中的 Spark 池，而无需先将计算附加到工作区。详细了解无服务器 Spark 计算体验。

通过

在 Azure 机器学习中附加和管理 Synapse Spark 池

先决条件

在 Azure 机器学习中附加 Synapse Spark 池

在 Azure Synapse Analytics 中添加角色分配

更新 Synapse Spark 池

分离 Synapse Spark 池

Azure 机器学习中的无服务器 Spark 计算

后续步骤

其他资源