什么是 Azure 机器学习计算实例?

Azure 机器学习计算实例是面向数据科学家的基于云的托管式工作站。 每个计算实例只有一个所有者,但你可在多个计算实例之间共享文件。

计算实例可让客户轻松地开始进行 Azure 机器学习开发,并为 IT 管理员提供管理和企业就绪功能。

可以使用计算实例作为在云中进行机器学习的完全配置和托管的开发环境。 还可以在开发和测试中将它们用作训练和推理的计算目标。

为了让计算实例 Jupyter 功能可以正常运行,请确保没有禁用 Web 套接字通信。 确保网络允许 websocket 连接到 *.instances.ml.azure.cn 和 *.instances.ml.azure.cn。

重要

本文中标记了“(预览版)”的项目目前为公共预览版。 该预览版在提供时没有附带服务级别协议,建议不要将其用于生产工作负载。 某些功能可能不受支持或者受限。 有关详细信息,请参阅适用于 Azure 预览版的补充使用条款

为何使用计算实例?

计算实例是一个完全托管的基于云的工作站,已针对机器学习开发环境进行优化。 它提供以下优势:

主要优点 描述
工作效率 可以在 Azure 机器学习工作室中使用集成的笔记本及以下工具来构建和部署模型:
- Jupyter
- JupyterLab
- VS Code(预览版)
计算实例与 Azure 机器学习工作区和工作室完全集成。 你可以与工作区中的其他数据科学家共享笔记本和数据。
采用托管服务且安全 减少安全保护工作,增强企业的安全要求合规性。 计算实例提供可靠的管理策略和安全的网络配置,例如:

- 通过资源管理器模板或 Azure 机器学习 SDK 自动预配
- Azure 基于角色的访问控制 (Azure RBAC)
- 虚拟网络支持
- 禁用 SSH 访问的 Azure 策略
- 用于强制在虚拟网络中创建的 Azure 策略
- 按计划自动关机/自动启动
- 已启用 TLS 1.2
已对 ML 进行预配置 使用预配置的最新 ML 包、深度学习框架和 GPU 驱动程序完成设置任务,可节省时间。
完全可自定义 支持多种 Azure VM 类型,包括 GPU 和持久性低级自定义,例如,安装相应的包和驱动程序可以轻而易举地实现高级方案。 还可使用设置脚本自动执行自定义

工具和环境

使用 Azure 机器学习计算实例可以在工作区中的完全集成式笔记本体验中创作、训练和部署模型。

可以从 Azure 机器学习工作区JupyterJupyterLabVisual Studio Code 中运行笔记本。 VS Code Desktop 可配置为访问计算实例。 或者直接从浏览器使用 VS Code 网页版,而无需任何必需的安装或依赖项。

建议尝试 VS Code 网页版,以利用它提供的简单集成和丰富的开发环境。 VS Code 网页版提供了你喜欢的许多 VS Code Desktop 功能,包括浏览和编辑时搜索和语法突出显示。 有关使用 VS Code Desktop 和 VS Code 网页版的详细信息,请参阅启动与 Azure 机器学习集成的 Visual Studio Code(预览版)在远程连接到计算实例的 VS Code 中工作(预览版)

可以安装包,然后在计算实例中添加内核

计算实例上已安装以下工具和环境:

常规工具和环境 详细信息
驱动程序 CUDA
cuDNN
NVIDIA
Blob FUSE
Intel MPI 库
Azure CLI
Azure 机器学习示例
Docker
Nginx
NCCL 2.0
Protobuf
R 工具和环境 详细信息
R 内核

创建实例时,可以添加 RStudio 或 Posit Workbench(以前的 RStudio Workbench)

Python 工具和环境 详细信息
Anaconda Python
Jupyter 和扩展
Jupyterlab 和扩展
Azure 机器学习 SDK
适用于 PyPI 的 Python
包括 azure-ai-ml 和许多常见的 Azure 额外包。 若要查看完整列表,
打开计算实例上的终端窗口并运行
conda list -n azureml_py310_sdkv2 ^azure
其他 PyPI 包 jupytext
tensorboard
nbconvert
notebook
Pillow
Conda 包 cython
numpy
ipykernel
scikit-learn
matplotlib
tqdm
joblib
nodejs
深度学习包 PyTorch
TensorFlow
Keras
Horovod
MLFlow
pandas-ml
scrapbook
ONNX 包 keras2onnx
onnx
onnxconverter-common
skl2onnx
onnxmltools
Azure 机器学习 Python 示例

计算实例将 Ubuntu 用作基本 OS。

访问文件

笔记本和 Python 脚本存储在 Azure 文件共享中工作区的默认存储帐户中。 这些文件位于“用户文件”目录下。 通过此存储可以轻松地在计算实例之间共享笔记本。 停止或删除计算实例时,存储帐户还会安全保存笔记本。

工作区的 Azure 文件共享帐户作为驱动器装载到计算实例上。 此驱动器是 Jupyter、Jupyter 实验室、RStudio 和 Posit Workbench 的默认工作目录。 这意味着,在 Jupyter、JupyterLab、VS Code 网页版、RStudio 或 Posit 中创建的笔记本和其他文件会自动存储在文件共享上,并可在其他计算实例中使用。

可以从同一工作区中的所有计算实例访问文件共享中的文件。 对计算实例上的这些文件所做的任何更改都会可靠地保存回到文件共享。

还可以将最新 Azure 机器学习示例克隆到工作区文件共享中“用户文件”目录下的文件夹内。

与写入到计算实例本地磁盘本身相比,在网络驱动器上写入小文件可能速度更慢。 如果要编写许多小文件,请尝试直接在计算实例上使用目录,例如 /tmp 目录。 注意:无法从其他计算实例访问计算实例上的文件。

请勿在笔记本文件共享上存储训练数据。 有关存储数据的各种选项的信息,请参阅访问作业中的数据

你可以使用计算实例上的 /tmp 目录来保存临时数据。 但是,不要在计算实例的 OS 磁盘上写入大型数据文件。 计算实例上的 OS 磁盘容量为 120 GB。 也可以在 /mnt 上装载的临时磁盘上存储临时训练数据。 临时磁盘大小基于所选 VM 大小。如果选择了较大的 VM,则可以存储更大量的数据。 你安装的所有软件包将保存在计算实例的 OS 磁盘上。 请注意,OS 磁盘当前不支持客户管理的密钥加密。 计算实例的 OS 磁盘使用 Azure 管理的密钥进行加密。

还可以装载数据存储和数据集

创建

遵循创建入门所需的资源中的步骤创建基础计算实例。

有关更多选项,请参阅创建新的计算实例

作为管理员,你可以为工作区中的其他人创建计算实例。 必须为此类计算实例禁用 SSO。

还可以使用设置脚本,以自动化方式自定义并配置计算实例。

创建计算实例的其他方法:

对于每个区域每个虚拟机 (VM) 系列配额和创建计算实例时应用的区域总配额,专用内核数一致,且该数量与 Azure 机器学习训练计算群集配额共享。 停止计算实例不会释放配额,因此无法确保能够重启计算实例。 请不要以执行 sudo 关闭的方式通过 OS 终端停止计算实例。

计算实例附带 P10 OS 磁盘。 临时磁盘类型取决于所选的 VM 大小。 目前无法更改 OS 磁盘类型。

计算目标

计算实例可用作类似于 Azure 机器学习计算训练群集训练计算目标。 但计算实例只有一个节点,而计算群集可以有多个节点。

计算实例:

  • 具有作业队列。
  • 在虚拟网络环境中安全地运行作业,无需企业打开 SSH 端口。 作业在容器化环境中执行,并将模型依赖项打包到 Docker 容器中。
  • 可以并行运行多个小型作业。 每个 vCPU 可以并行运行一个作业,而剩余的作业将排队。
  • 支持单节点多 GPU 分布式训练作业

可以使用计算实例作为测试/调试方案的本地推理部署目标。

提示

计算实例具有 120GB 的 OS 磁盘。 如果磁盘空间不足并且进入不可用状态,请采用删除文件/文件夹的方式通过计算实例终端在 OS 磁盘(在 / 上装载的)上清除至少 5 GB 磁盘空间,然后执行 sudo reboot。 重启后临时磁盘会被释放;不需手动清除临时磁盘上的空间。 若要访问该终端,请转到计算列表页或计算实例详细信息页,然后单击“终端”链接。 你可通过在终端上运行 df -h 来检查可用的磁盘空间。 在执行 sudo reboot 之前,请清除至少 5 GB 空间。 在清除完 5 GB 磁盘空间之前,请不要通过工作室停止或重启计算实例。 如果 CI 磁盘已满,自动关闭(包括计划启动或停止以及空闲关闭)将不起作用。