Microsoft Purview 中的扫描和引入
本文概述了 Microsoft Purview 中的扫描和引入功能。 使用这些功能,你可以将 Microsoft Purview 帐户连接到源来填充数据映射和统一目录,以便通过 Microsoft Purview 开始浏览和管理数据。
- 扫描将从数据源捕获元数据并将其引入 Microsoft Purview。
- 引入将处理以下两个位置的元数据并将其存储在统一目录中:
- 数据源扫描 - 扫描的元数据将添加到 Microsoft Purview 数据映射。
- 世系连接 - 转换资源将有关其源、输出和活动的元数据添加到 Microsoft Purview 数据映射。
扫描
在 Microsoft Purview 帐户中注册数据源后,下一步是扫描数据源。 在扫描过程中会与数据源建立连接,并捕获技术元数据,例如名称、文件大小、列,等等。 它还提取结构化数据源的架构,并对架构应用分类。 扫描过程可以在触发后立即运行,也可以按计划定期运行,使你的 Microsoft Purview 帐户保持最新。
对于每个扫描,都可以应用自定义设置,以便仅扫描所需的信息,而不是扫描整个源。
选择扫描的身份验证方法
默认情况下,Microsoft Purview 是安全的。 不会直接将密码或机密存储在 Microsoft Purview 中,因此你需要为您的来源选择一种身份验证方法。 有多种可能的方法来验证你的 Microsoft Purview 帐户,但并非每个数据源都支持所有方法。
- 托管标识
- Service Principal
- SQL 身份验证
- Windows 身份验证
- 角色 ARN
- 委托身份验证
- 使用者密钥
- 帐户密钥或基本身份验证
尽可能首选托管身份作为身份验证方法,因为这无需存储和管理各个数据源的凭据。 这可以大大减少你和你的团队在扫描设置和排除身份验证方面花费的时间。 为 Microsoft Purview 帐户启用托管标识时,Microsoft Entra ID 中会创建一个与帐户的生命周期关联的标识。
限定扫描范围
扫描某个源时,可以选择扫描整个数据源,或选择仅扫描特定实体(文件夹/表)。 可用选项取决于所扫描的源,可以针对一次性扫描和计划的扫描进行定义。
例如,针对 Azure SQL 数据库创建和运行扫描时,可以选择要扫描的表,或选择整个数据库。
对于每个实体(文件夹/表),都有三种选择状态:完全选择、部分选择和未选择。 在以下示例中,如果你在文件夹层次结构中选择“部门 1”,则“部门 1”被视为完全选择。 “部门 1”的父实体(例如“公司”和“示例”)被视为部分选择,因为同一父级下的其他实体(例如“部门 2”)未被选择。 对于具有不同选择状态的实体,将在 UI 上使用不同的图标。
运行扫描后,源系统中可能会添加新资产。 默认情况下,当你再次运行扫描时,如果完全或部分选择了特定的父级,则会自动选择该父级下的未来资产。 在以上示例中,在选择“部门 1”并运行扫描后,如果再次运行扫描,则会包含文件夹“部门 1”下或者“公司”和“示例”下的所有新资产。
为用户引入了一个切换按钮,用于控制部分选择的父级下的新资产的自动包含行为。 该切换按钮默认处于关闭状态,即禁用部分选择的父级的自动包含行为。 在关闭该切换按钮的同一示例中,当你再次运行扫描时,将不包含部分选择的父级(例如“公司”和“示例”)下的任何新资产,未来的扫描只会包含“部门 1”下的新资产。
如果该切换按钮处于打开状态,当你再次运行扫描时,如果完全或部分选择了特定的父级,则会自动选择该父级下的新资产。 包含行为将与引入切换按钮之前的行为相同。
注意
- 切换按钮的可用性取决于数据源类型。 此功能目前以公共预览版提供,适用于 Azure Blob 存储、Azure Data Lake Storage Gen 1、Azure Data Lake Storage Gen 2、Azure 文件存储和 Azure 专用 SQL 池(以前称为 SQL DW)等源。
- 对于在切换按钮引入之前创建或计划的任何扫描,该切换按钮的状态设置为打开且无法更改。 对于在切换按钮引入之后创建或计划的任何扫描,在保存扫描后无法更改切换按钮的状态。 需要创建新的扫描才能更改切换按钮的状态。
- 当切换按钮处于关闭状态时,对于 Azure Data Lake Storage Gen 2 等存储类型的源,在完成扫描作业后,最长可能需要等待 4 个小时,按源类型浏览体验才完全可供使用。
已知的限制
当切换按钮处于关闭状态时:
- 不会扫描部分选择的父级下的文件实体。
- 如果显式选择了父级下的所有现有实体,则父级将被视为完全选择,并且在你再次运行扫描时,将包含父级下的所有新资产。
扫描规则集
扫描规则集决定了针对源之一运行扫描时扫描将查找的信息的类型。 可用规则取决于要扫描的源的类型,但包括应扫描的文件类型以及需要的分类类型等项。
许多数据源类型已存在可用的系统扫描规则集,但是你也可以创建自己的扫描规则集来为组织定制扫描。
计划扫描
通过 Microsoft Purview,可以每日、每周或每月在自己选择的特定时间进行扫描。 详细了解支持的计划选项。 每日/每周扫描可能适用于结构正在积极开发中或经常更改的数据源。 每月扫描更适用于不经常更改的数据源。 最佳做法是与你要扫描的源的管理员合作确定何时对源的计算需求较低。
扫描如何检测已删除的资产
Microsoft Purview 目录只有在扫描数据存储后才会知道数据存储的状态。 为了解文件、表或容器是否已删除,它会将上次扫描输出与当前扫描输出进行比较。 例如,假设上次扫描 Azure Data Lake Storage Gen2 帐户时,包含一个名为 folder1 的文件夹。 再次扫描同一帐户时,folder1 缺失。 因此,目录假定该文件夹已被删除。
提示
由于已删除的文件的检测方式,可能需要多次成功完成扫描才能检测并解决已删除的资产。 如果统一目录不会注册删除操作来支持有范围的扫描,请多次尝试完整扫描来解决问题。
检测已删除的文件
用于检测缺失文件的逻辑适用于同一个用户以及不同用户的多次日志扫描。 例如,假设某个用户对 Data Lake Storage Gen2 数据存储上的文件夹 A、B 和 C 运行一次扫描。稍后,同一帐户中的不同用户对同一数据存储的 C、D 和 E 文件夹运行一次不同的一次性扫描。 由于文件夹 C 被扫描了两次,因此目录会检查它是否可能被删除。 然而,文件夹 A、B、D 和 E 只扫描一次,并且目录不会将其检查已删除的资产。
为了将已删除的文件从目录中移除,请务必定期运行扫描。 扫描间隔很重要,因为在运行另一次扫描之前,目录无法检测到已删除的资产。 因此,如果你每月对特定存储运行一次扫描,则在运行下一次扫描之前,目录无法检测该存储中的任何已删除的数据资产。
枚举大数据存储(如 Data Lake Storage Gen2)时,有多种方法(包括枚举错误和丢弃的事件)丢失信息。 特定扫描可能会错过已创建或已删除的文件。 因此,除非目录确定某个文件已被删除,否则不会从目录中删除这个文件。 这一策略的意义是,如果某个文件在扫描的数据存储中不存在,但仍存在于目录中,则可能会出现错误。 在某些情况下,可能需要对数据存储进行两次或三次扫描才能捕获某些已删除的资产。
注意
- 成功扫描后将删除标记为删除的资产。 已删除的资产在被处理和删除之前,可能会继续在你的目录中显示一段时间。
- 目前,以下源不支持源删除检测:Azure Databricks、Erwin、SAP BW。 从数据源中删除对象后,后续扫描不会自动删除 Microsoft Purview 中的相应资产。
引流
引入是负责在数据映射中填充元数据的过程,这些元数据是通过各种过程收集的。
从扫描引入
然后,扫描过程识别出的技术元数据或分类将发送到引入过程。 引入会分析来自扫描的输入,应用资源集模式,填充可用的数据世系信息,然后自动加载数据映射。 只有在引入完成后,才能发现或策展资产/架构。 因此,如果扫描已完成,但你未在数据映射或目录中看到资产,则需要等待引入过程完成。
从世系连接引入
Azure 数据工厂和 Azure Synapse 等资源可以连接到 Microsoft Purview,以将数据源和世系信息引入 Microsoft Purview 数据映射。 例如,当复制管道在已连接到 Microsoft Purview 的 Azure 数据工厂中运行时,有关输入源、活动和输出源的元数据将引入到 Microsoft Purview 中,而信息将添加到数据映射中。
如果已通过扫描将数据源添加到数据映射,则有关活动的世系信息将添加到现有源中。 如果数据源尚未添加到数据映射中,世系引入过程会将其与世系信息一起添加到根集合中。
有关可用世系连接的详细信息,请参阅世系用户指南。
后续步骤
有关对源进行扫描的详细信息或特定说明,请点击以下链接。
- 若要了解资源集,请参阅我们的资源集文章。
- 如何治理 Azure SQL数据库
- Microsoft Purview 中的世系