在 Microsoft Purview 中连接和管理 Azure Databricks Unity Catalog

本文概述了如何在 Microsoft Purview 中注册 Azure Databricks,以及如何向 Azure Databricks Unity Catalog 进行身份验证并与之交互。 有关 Microsoft Purview 的详细信息,请阅读简介文章

支持的功能

元数据提取 完全扫描 增量扫描 限定范围扫描 分类 标记 访问策略 沿袭 数据共享 实时视图
No

扫描 Azure Databricks Unity Catalog 时,Azure Purview 支持:

  • 提取技术元数据,包括:
    • 元存储
    • 目录
    • 架构
    • 表(含列)
    • 视图(含列)
  • 在笔记本运行期间获取表、视图、列之间的资产关系世系。

设置扫描时,可以选择扫描整个 Unity Catalog,也可以将扫描范围限制在一小部分目录。

注意

此连接器会从 Azure Databricks Unity Catalog 引入元数据。 若要扫描 Azure Databricks 工作区范围的元数据,请参阅 Azure Databricks Hive 元存储连接器

已知的限制

  • 从数据源中删除对象后,后续扫描目前不会自动删除 Microsoft Purview 中的相应资产。

必备条件

  • 若要使用 Microsoft Purview 从 Azure Databricks 提取世系,必须满足以下先决条件:

    • 启用系统架构:必须在 Unity Catalog 中启用系统架构 system.access。 这是必需的,因为世系信息存储在系统表中,并且启用此架构允许访问这些表。 详细了解如何使用系统表监视使用情况

    • 用户特权:用于扫描的用户帐户需要对以下系统表具有 SELECT 特权:

      • system.access.table_lineage

      • system.access.column_lineage

      这些权限是必需的,因为世系数据是直接从系统表读取的,如果没有必要的访问权限,Microsoft Purview 无法检索沿袭信息。

注册

本部分介绍如何使用 Microsoft Purview 治理门户在 Microsoft Purview 中注册 Azure Databricks 工作区。

  1. 转到你的 Microsoft Purview 帐户。

  2. 在左侧窗格中选择“数据映射”。

  3. 选择“注册”。

  4. 在“注册源”中,选择“Azure Databricks Unity Catalog”>“继续”。

  5. 在“注册源(Azure Databricks Unity Catalog)”屏幕上执行以下操作:

  6. 对于“名称”,请输入 Microsoft Purview 将列为数据源的名称。

    1. 对于元存储 ID,请提供要扫描的 Azure Databricks Unity Catalog 元存储的元存储 ID。

    2. 从列表中选择连接。

注册 Azure Databricks Unity Catalog 源的屏幕截图。

  1. 选择“完成”。

扫描

提示

若要排查与扫描有关的任何问题,请执行以下操作:

  1. 确认已满足所有先决条件
  2. 查看扫描故障排除文档

使用以下步骤扫描 Azure Databricks 以自动识别资产。 若要大致了解有关扫描的更多信息,请参阅 Microsoft Purview 中的扫描和引入

  1. 转到“源”。

  2. 选择已注册的 Azure Databricks。

  3. 选择“+ 新建扫描”。

  4. 提供以下详细信息:

    1. 名称:输入扫描的名称。

    2. 通过集成运行时连接:选择默认的 Azure 集成运行时、托管 VNet IR 或创建的 Kubernetes 支持的自承载集成运行时。

    3. 凭据:选择用于连接到数据源的凭据。 请确保:

    4. 工作区 URL: 提供要扫描的工作区的 URL。

    5. HTTP 路径:指定 Microsoft Purview 将连接到并执行扫描的 Databricks SQL 仓库的 HTTP 路径,例如 /sql/1.0/endpoints/xxxxxxxxxxxxxxxx。 你可以在“Azure Databricks 工作区”->“SQL 仓库”->你的仓库 ->“连接详细信息”->“HTTP 路径”中找到它。

    6. 世系提取:将世系提取切换到打开以提取已扫描资产的世系。

  5. 选择“测试连接”以验证设置。

    设置 Azure Databricks Unity Catalog 扫描的屏幕截图。

  6. 选择“继续”。

  7. 对于“扫描触发器”,可以选择是设置一个计划还是运行一次扫描。

  8. 查看扫描,然后选择“保存并运行”。

扫描成功完成后,请参阅如何浏览和搜索资产

查看扫描和扫描运行情况

若要查看现有扫描,请执行以下操作:

  1. 转到 Microsoft Purview 门户。 在左窗格中,选择“数据映射”。
  2. 选择数据源。 可以在“最近使用的扫描”下查看该数据源上的现有扫描列表,或者可以在“扫描”选项卡上查看所有扫描。
  3. 选择要查看结果的扫描。 窗格会显示先前的所有扫描运行,以及每次扫描运行的状态和指标。
  4. 选择运行 ID 以检查扫描运行详细信息

管理扫描

若要编辑、取消或删除扫描:

  1. 转到 Microsoft Purview 门户。 在左窗格中,选择“数据映射”。

  2. 选择数据源。 可以在“最近使用的扫描”下查看该数据源上的现有扫描列表,或者可以在“扫描”选项卡上查看所有扫描。

  3. 选择要管理的扫描。 然后,可以:

    • 通过选择“编辑扫描”来编辑扫描。
    • 通过选择“取消扫描运行”来取消正在进行的扫描。
    • 通过选择“删除扫描”来删除扫描。

注意

  • 删除扫描不会删除以前扫描中创建的类别资产。

浏览和搜索资产

扫描 Azure Databricks 后,可以浏览统一目录搜索统一目录,以查看资产详细信息和世系。

按源类型浏览时,将分别看到 Azure Databricks Unity Catalog 和 Azure Databricks 的两个条目。 前者包含 Unity Catalog 项目,包括元存储及其目录/架构/表/视图,而后者包含工作区项目。

按源类型浏览资产的屏幕截图。

在 Azure Databricks 工作区资产中,可以在“属性”选项卡下找到关联的 Unity Catalog,反之同样。

查找与 Azure Databricks 源关联的 Unity Catalog 的屏幕截图。

沿袭

浏览特定 Azure Databricks 资产时,可以看到已捕获世系的笔记本。

转到“资产”->“世系”选项卡,可在适用时查看 Azure Databricks 笔记本资产或表/视图资产上的世系。

浏览关联的 Azure Databricks Unity Catalog 工作区资产中存在的笔记本的屏幕截图。

关联的 Azure Databricks Unity Catalog 工作区资产中存在的笔记本世系的屏幕截图。

有关受支持的 Databricks Unity Catalog 世系应用场景,请参阅受支持的功能部分。 若要详细了解世系的常规信息,请参阅数据世系世系用户指南

常见问题 (FAQ)

Microsoft Purview 是否捕获了 Unity Catalog 的列级别世系?

Microsoft Purview 可以在 Unity Catalog 表/视图级别和列级别捕获世系。

我刚刚运行了我的笔记本,但 Microsoft Purview 没有提取世系。 发生了什么情况?

笔记本执行后,Databricks 在更新其系统表中的世系信息时可能会有几分钟延迟。 在系统表更新后,Microsoft Purview 将能够提取世系。

后续步骤

现在已经注册了源,请按照以下指南来详细了解 Microsoft Purview 和你的数据: