用于机器学习的 Databricks Runtime
用于机器学习的 Databricks Runtime (Databricks Runtime ML) 可使用预生成的机器学习和深度学习基础结构(包括最常见的 ML 和 DL 库)自动创建群集。 有关 Databricks Runtime ML 的每个版本中库的完整列表,请参阅发行说明。
注意
若要在 Unity Catalog 中访问机器学习工作流的数据,群集的访问模式必须是单用户(已分配)。 共享群集与用于机器学习的 Databricks Runtime 不兼容。 此外,TableACLs 群集或将 spark.databricks.pyspark.enableProcessIsolation config
设置为 true
的群集不支持 Databricks Runtime ML。
使用 Databricks Runtime ML 创建群集
创建群集时,请从“Databricks Runtime 版本”下拉菜单中选择一个 Databricks Runtime ML 版本。 CPU 和启用 GPU 的 ML 运行时均可用。
如果你在笔记本中从下拉菜单选择一个群集,将在群集名称的右侧显示 Databricks Runtime 版本:
如果选择已启用 GPU 的 ML 运行时,系统会提示你选择兼容的“驱动程序类型”和“辅助角色类型”。 下拉菜单中不兼容的实例类型会灰显。 “GPU 加速”标签下列出了已启用 GPU 的实例类型。 要了解如何创建 Azure Databricks GPU 群集,请参阅启用了 GPU 的计算。 Databricks Runtime ML 包括 GPU 硬件驱动程序和 NVIDIA 库(例如 CUDA)。
Photon 和 Databricks Runtime ML
创建运行 Databricks Runtime 15.2 ML 或更高版本的 CPU 群集时,你可以选择启用 Photon。 Photon 可以提高使用 Spark SQL、Spark 数据帧、功能工程、GraphFrames 和 xgboost4j 的应用程序的性能。 预计不会提高使用 Spark RDD、Pandas UDF 和非 JVM 语言(例如 Python)的应用程序的性能。 因此,使用 Photon 不会提高 Python 包(例如 XGBoost、PyTorch 和 TensorFlow)的性能。
Spark RDD API 和 Spark MLlib 与 Photon 的兼容性有限。 使用 Spark RDD 或 Spark MLlib 处理大型数据集时,可能会遇到 Spark 内存问题。 请参阅 Spark 内存问题。
Databricks Runtime ML 中已包含库
Databricks Runtime ML 包含各种常见的 ML 库。 该库使用每个发行版进行更新,以包括新功能和修复。
Databricks 已将一部分受支持的库指定为顶层库。 对于这些库,Databricks 提供了更快的更新节奏,可通过每个运行时版本更新到最新的包版本(除非存在依赖项冲突)。 Databricks 还为顶层库提供高级支持、测试以及嵌入式优化。
有关顶层库和提供的其他库的完整列表,请参阅 Databricks Runtime ML的发行说明。
你可以安装其他库来为笔记本或群集创建自定义环境。
- 若要使库可用于群集上运行的所有笔记本,请创建群集库。 创建时,还可以使用 init 脚本在群集上安装库。
- 若要安装仅供特定笔记本会话使用的库,请使用笔记本范围的 Python 库。