在 Microsoft Purview 中连接和管理 Azure Databricks Unity Catalog
本文概述了如何在 Microsoft Purview 中注册 Azure Databricks,以及如何向 Azure Databricks Unity Catalog 进行身份验证并与之交互。 有关 Microsoft Purview 的详细信息,请阅读简介文章。
支持的功能
元数据提取 | 完全扫描 | 增量扫描 | 限定范围扫描 | 分类 | 标记 | 访问策略 | 沿袭 | 数据共享 | 实时视图 |
---|---|---|---|---|---|---|---|---|---|
是 | 是 | No | 是 | 是 | 否 | 否 | 是 | 否 | 否 |
扫描 Azure Databricks Unity Catalog 时,Azure Purview 支持:
- 提取技术元数据,包括:
- 元存储
- 目录
- 架构
- 表(含列)
- 视图(含列)
- 在笔记本运行期间获取表、视图、列之间的资产关系世系。
设置扫描时,可以选择扫描整个 Unity Catalog,也可以将扫描范围限制在一小部分目录。
注意
此连接器会从 Azure Databricks Unity Catalog 引入元数据。 若要扫描 Azure Databricks 工作区范围的元数据,请参阅 Azure Databricks Hive 元存储连接器。
已知的限制
- 从数据源中删除对象后,后续扫描目前不会自动删除 Microsoft Purview 中的相应资产。
必备条件
你的 Azure 帐户必须具有有效订阅。 创建帐户。
你必须具有有效的 Microsoft Purview 帐户。
需要 Azure 密钥保管库,并授予 Microsoft Purview 访问机密的权限。
需要拥有数据源管理员和数据读取者权限才能在 Microsoft Purview 治理门户中注册和管理源。 有关权限的详细信息,请参阅 Microsoft Purview 中的访问控制。
若要使用 Microsoft Purview 从 Azure Databricks 提取世系,必须满足以下先决条件:
启用系统架构:必须在 Unity Catalog 中启用系统架构 system.access。 这是必需的,因为世系信息存储在系统表中,并且启用此架构允许访问这些表。 详细了解如何使用系统表监视使用情况。
用户特权:用于扫描的用户帐户需要对以下系统表具有 SELECT 特权:
system.access.table_lineage
system.access.column_lineage
这些权限是必需的,因为世系数据是直接从系统表读取的,如果没有必要的访问权限,Microsoft Purview 无法检索沿袭信息。
注册
本部分介绍如何使用 Microsoft Purview 治理门户在 Microsoft Purview 中注册 Azure Databricks 工作区。
转到你的 Microsoft Purview 帐户。
在左侧窗格中选择“数据映射”。
选择“注册”。
在“注册源”中,选择“Azure Databricks Unity Catalog”>“继续”。
在“注册源(Azure Databricks Unity Catalog)”屏幕上执行以下操作:
对于“名称”,请输入 Microsoft Purview 将列为数据源的名称。
对于元存储 ID,请提供要扫描的 Azure Databricks Unity Catalog 元存储的元存储 ID。
从列表中选择连接。
- 选择“完成”。
扫描
使用以下步骤扫描 Azure Databricks 以自动识别资产。 若要大致了解有关扫描的更多信息,请参阅 Microsoft Purview 中的扫描和引入。
转到“源”。
选择已注册的 Azure Databricks。
选择“+ 新建扫描”。
提供以下详细信息:
名称:输入扫描的名称。
通过集成运行时连接:选择默认的 Azure 集成运行时、托管 VNet IR 或创建的 Kubernetes 支持的自承载集成运行时。
凭据:选择用于连接到数据源的凭据。 请确保:
- 选择“访问令牌”、“托管标识”或“服务主体”。
- 注册扫描时,可以创建新的访问令牌或服务主体凭据。 有关详细信息,请参阅 Microsoft Purview 中用于源身份验证的凭据。
工作区 URL: 提供要扫描的工作区的 URL。
HTTP 路径:指定 Microsoft Purview 将连接到并执行扫描的 Databricks SQL 仓库的 HTTP 路径,例如
/sql/1.0/endpoints/xxxxxxxxxxxxxxxx
。 你可以在“Azure Databricks 工作区”->“SQL 仓库”->你的仓库 ->“连接详细信息”->“HTTP 路径”中找到它。世系提取:将世系提取切换到打开以提取已扫描资产的世系。
选择“测试连接”以验证设置。
选择“继续”。
对于“扫描触发器”,可以选择是设置一个计划还是运行一次扫描。
查看扫描,然后选择“保存并运行”。
扫描成功完成后,请参阅如何浏览和搜索资产。
查看扫描和扫描运行情况
若要查看现有扫描,请执行以下操作:
- 转到 Microsoft Purview 门户。 在左窗格中,选择“数据映射”。
- 选择数据源。 可以在“最近使用的扫描”下查看该数据源上的现有扫描列表,或者可以在“扫描”选项卡上查看所有扫描。
- 选择要查看结果的扫描。 窗格会显示先前的所有扫描运行,以及每次扫描运行的状态和指标。
- 选择运行 ID 以检查扫描运行详细信息。
管理扫描
若要编辑、取消或删除扫描:
转到 Microsoft Purview 门户。 在左窗格中,选择“数据映射”。
选择数据源。 可以在“最近使用的扫描”下查看该数据源上的现有扫描列表,或者可以在“扫描”选项卡上查看所有扫描。
选择要管理的扫描。 然后,可以:
- 通过选择“编辑扫描”来编辑扫描。
- 通过选择“取消扫描运行”来取消正在进行的扫描。
- 通过选择“删除扫描”来删除扫描。
注意
- 删除扫描不会删除以前扫描中创建的类别资产。
浏览和搜索资产
扫描 Azure Databricks 后,可以浏览统一目录或搜索统一目录,以查看资产详细信息和世系。
按源类型浏览时,将分别看到 Azure Databricks Unity Catalog 和 Azure Databricks 的两个条目。 前者包含 Unity Catalog 项目,包括元存储及其目录/架构/表/视图,而后者包含工作区项目。
在 Azure Databricks 工作区资产中,可以在“属性”选项卡下找到关联的 Unity Catalog,反之同样。
沿袭
浏览特定 Azure Databricks 资产时,可以看到已捕获世系的笔记本。
转到“资产”->“世系”选项卡,可在适用时查看 Azure Databricks 笔记本资产或表/视图资产上的世系。
有关受支持的 Databricks Unity Catalog 世系应用场景,请参阅受支持的功能部分。 若要详细了解世系的常规信息,请参阅数据世系和世系用户指南。
常见问题 (FAQ)
Microsoft Purview 是否捕获了 Unity Catalog 的列级别世系?
Microsoft Purview 可以在 Unity Catalog 表/视图级别和列级别捕获世系。
我刚刚运行了我的笔记本,但 Microsoft Purview 没有提取世系。 发生了什么情况?
笔记本执行后,Databricks 在更新其系统表中的世系信息时可能会有几分钟延迟。 在系统表更新后,Microsoft Purview 将能够提取世系。
后续步骤
现在已经注册了源,请按照以下指南来详细了解 Microsoft Purview 和你的数据: