本文概述了经典Microsoft Purview 数据目录中的数据世系。 它还详细说明了数据系统如何与目录集成以捕获数据世系。 Microsoft Purview 可以捕获组织数据资产不同部分以及不同准备级别的数据世系,包括:
- 在各种平台暂存的原始数据
- 转换和准备的数据
- 可视化平台使用的数据
用例
数据世系被广泛地理解为生命周期,它跨越数据的起源,并随着时间的推移在数据资产中移动。 它用于不同种类的反向场景,如故障排除、跟踪数据管道中的根本原因和调试。 世系还用于数据质量分析、合规性和通常称为影响分析的“what if”场景。 世系以可视化的方式表示,以显示从源到目标的数据移动,包括数据是如何转换的。 考虑到大多数企业数据环境的复杂性,如果不对外围数据点进行整合或过滤,这些视图可能很难理解。
经典数据目录中的数据世系体验
目录与其他数据处理、存储和分析系统连接,以提取世系信息。 这些信息组合在一起,表示目录中通用的、特定于场景的世系体验。
数据资产可能包括执行数据提取、转换(ETL/ELT 系统)、分析的系统和可视化系统。 每个系统都会捕获丰富的静态和操作元数据,用于描述系统边界内数据的状态和质量。 数据目录中世系的目标是以尽可能低的粒度从每个数据系统中提取移动、转换和操作元数据。
下例是数据在多个系统间移动的典型案例,其中目录将与各个系统连接以实现数据溯源。
- 数据工厂将数据从本地/原始区域复制到云中的登陆区域。
- 数据处理系统(如 Synapse、Databricks)将使用笔记本处理数据,并将其从登陆区域转换为特选区域。
- 进一步将数据处理为分析模型,以获得最佳查询性能和聚合。
- 数据可视化系统将使用数据集并通过其元模型进行处理,以创建 BI 仪表板、ML 试验等。
世系粒度
以下部分详细介绍了 Microsoft Purview 在收集世系信息时所采用的粒度。 此粒度可能因 Microsoft Purview 中支持的数据系统而异。
实体级别世系:源 > 进程 > 目标
- 世系以图表示,通常包含数据存储系统中的源和目标实体,这些实体由计算系统调用的进程连接。
- 数据系统连接到目录,以生成和报告引用基础数据系统的物理对象的唯一对象,例如:SQL 存储过程、笔记本等。
- 将捕获具有其他元数据(如所有权)的高保真世系,以方便用户读取的格式显示源和目标实体的世系。 例如 hive 表级别的世系,而不是分区或文件级别的世系。
列或属性级世系
标识用于在目标实体中创建或派生属性的源实体的属性。 可以在目标中保留源属性的名称或对其重命名。 Azure 数据工厂 (ADF) 这样的系统可以执行从本地环境到云的一对一复制。 例如:Table1/ColumnA -> Table2/ColumnA
。
进程执行状态
为了支持根本原因分析和数据质量方案,我们在数据处理系统中捕获作业的执行状态。 此要求与替换其他数据处理系统的监视功能无关,其目的也不是替换它们。
总结
世系是支持质量、信任和审核场景的关键功能。 数据目录的目标是构建一个可靠的框架,在该框架中,环境中的所有数据系统都可以自然地连接和报告世系。 元数据可用后,目录可以将数据系统提供的元数据汇集在一起,为数据治理用例提供支持。