Databricks 上的 AI 和机器学习
本文介绍由 Mosaic AI 提供、可帮助生成 AI 和 ML 系统的工具。 此关系图显示了 Databricks 平台上的各种产品如何帮助实现端到端工作流,以生成和部署 AI 和 ML 系统
Databricks 上的机器学习
借助 Mosaic AI,从原始数据到保存所服务模型的每个请求和响应的推理表,单个平台为 ML 开发和部署的每个步骤提供服务。 数据科学家、数据工程师、ML 工程师和 DevOps 可使用同一组工具和数据的单一事实来源来执行其工作。
Mosaic AI 将数据层和 ML 平台统一起来。 所有数据资产和项目(如模型和函数)都可在单个目录中发现和管理。 对数据和模型使用单个平台使得跟踪从原始数据到生产模型的世系成为可能。 内置数据和模型监控将质量指标保存到同样存储在平台的表中,从而更轻松地确定模型性能问题的根本原因。 有关 Databricks 如何支持完整的 ML 生命周期和 MLOps 的详细信息,请参阅“Azure Databricks 上的 MLOps 工作流”和“MLOps 堆栈:将开发过程建模为代码”。
数据智能平台的一些关键组件包括:
任务 | 组件 |
---|---|
治理和管理数据、功能、模型和函数。 此外,还有发现、版本控制以及世系。 | Unity Catalog |
特征开发和管理 | 特征工程和服务。 |
训练模型 | Databricks 自动化 ML、Databricks 笔记本 |
跟踪模型开发 | MLflow 跟踪 |
生成自动化工作流和生产就绪 ETL 管道 | Databricks 作业 |
Git 集成 | Databricks Git 文件夹 |
Databricks 中的深度学习
配置深度学习应用程序的基础结构可能很困难。 适用于机器学习的 Databricks Runtime 可为你处理这一任务,它包含内置兼容版本的最常见深度学习库(如 TensorFlow、PyTorch 和 Keras)的群集。
Databricks Runtime ML 群集还包括预配置的 GPU 支持以及驱动程序和支持库。 它还支持 Ray 等库,以便并行化计算处理来缩放 ML 工作流和 ML 应用程序。
对于机器学习应用程序,Databricks 建议使用运行用于机器学习的 Databricks Runtime 的群集。 请参阅使用 Databricks Runtime ML 创建群集。
若要开始在 Databricks 上进行深度学习,请参阅:
后续步骤
如要入门,请参阅:
有关 Databricks 机器学习上建议的 MLOps 工作流,请参阅:
若要了解 Databricks 机器学习的主要功能,请参阅: