了解 Microsoft Purview 数据映射

Microsoft Purview 数据映射为数据发现和数据治理提供了基础。 它捕获存在于混合、本地和多云环境中的分析、软件即服务 (SaaS) 和运营系统中的数据的元数据。 数据映射通过内置的扫描和分类系统保持最新。

所有Microsoft Purview 帐户都有一个数据映射,该映射从一个容量单位开始,并且可以弹性增长。 它们根据请求负载和存储在数据映射中的元数据来扩展和缩减规模。

数据映射容量单位

数据映射包含两个组件:元数据存储和操作吞吐量,以容量单位 (CU) 表示。 默认情况下,所有Microsoft Purview 帐户都从一个容量单位开始,并根据使用情况弹性增长。 每个数据映射容量单位包括 25 个操作/秒的吞吐率和 10 GB 的元数据存储限制。

操作

操作是 Microsoft Purview 数据映射的吞吐量度量。 它们包括对数据地图中存储的元数据执行的任何创建、读取、写入、更新和删除操作。 一些操作的示例包括:

  • 在数据地图中创建资源
  • 为资产添加关系,例如所有者、专员、父级、世系等。
  • 编辑资产以添加业务元数据,例如描述、术语等。
  • 关键字搜索将结果返回到搜索结果页。

储存

存储是数据映射的第二个组件,包括技术、业务、操作和语义数据元数据的存储。

技术元数据包括Microsoft Purview 扫描期间发现的架构、数据类型、列等。 业务元数据包括说明、术语表术语等项的自动(例如,从 Power BI 数据集提升的内容,或 SQL 表中的说明)和手动标记。 语义元数据的示例包括到数据源的集合映射或分类。 操作元数据包括数据工厂复制和数据流活动的运行状态及运行时间。

处理数据映射

  • 可自动缩放的弹性数据映射 - 可以从低至一个容量单位,但可以基于负载自动缩放的数据映射开始。 对于大多数组织来说,此功能可以提高成本,降低启动数据治理项目的价格。 此功能会影响定价。

  • 增强的扫描和引入 - 可以在扫描和引入过程中跟踪并控制数据资产的填充、分类与世系。 此功能会影响定价。

方案

Claudia 是 Contoso 的 Azure 管理员,想要从 Azure 门户 创建新的 Microsoft Purview 帐户。 她不知道支持平台未来状态所需的Microsoft Purview 数据映射大小。 但是,她知道,Microsoft Purview 数据地图是按容量单位计费的,这些容量单位会受到存储和作业吞吐量的影响。 她希望创建最小的数据映射,以保持低成本,并根据使用量弹性增加数据映射大小。

Claudia 可以创建一个 Microsoft Purview 帐户,其默认数据映射大小为一个容量单位,该帐户可自动纵向扩展和缩减。 自动缩放功能还允许根据特定时间段的间歇性或计划内的数据突发来调整处理能力。 Claudia 按照创建体验中的后续步骤设置网络配置并完成创建。

在 Azure 门户的 Microsoft Purview 帐户的“指标”选项卡中,Claudia 可以看到数据映射存储和操作吞吐量的消耗情况。 当存储或作吞吐量达到特定限制时,她可以进一步设置警报,以监视新 Microsoft Purview 帐户的消耗和计费。

数据映射计费

客户按一个容量单位(每秒 25 次操作和 10 GB)付费,额外的费用按照一小时内累积额外消耗的每一容量单位计收。 数据映射操作以每秒 25 次的增量进行扩展,元数据存储以 10 GB 大小的增量进行扩展。 Microsoft Purview 数据映射可以在弹性窗口中自动纵向扩展和缩减 (检查当前限制) 。 但是,若要获得下一级别的弹性窗口,需要创建支持票证。

数据映射容量单位对作吞吐量和存储具有上限。 如果存储超过当前容量单位,即使未使用作吞吐量,客户也会为下一个容量单位收费。 下表显示了数据映射容量单位范围。 如果数据映射容量单位超过 100 个容量单位,请联系支持人员。

数据映射容量单位 吞吐量(操作次数/秒) 存储容量(以 GB 为单位)
1 25 10
2 50 20
3 75 30
4 100 40
5 125 50
6 150 六十
7 175 70
8 200 80
9 225 90
10 250 100
.. .. ..
100 2500 1000

计费示例

  • Microsoft Purview 数据映射给定小时的操作吞吐量小于或等于 25 个操作/秒,存储大小为 1 GB。 将向客户计收一个容量单位的费用。

  • Microsoft Purview 数据映射在给定小时内的操作吞吐量小于或等于 25 次操作/秒,存储大小为 15 GB。 将向客户计收两个容量单位的费用。

  • Microsoft Purview 数据映射在给定小时的操作吞吐量为 50 个操作/秒,存储大小为 15 GB。 将向客户计收两个容量单位的费用。

  • Microsoft Purview 数据映射给定小时的操作吞吐量为 50 次操作/秒,存储大小为 25 GB。 将向客户计收三个容量单位的费用。

  • Microsoft Purview 数据映射在给定小时内的操作吞吐量为 250 次操作/秒,存储大小为 15 GB。 将向客户计收 10 个容量单位的费用。

详细计费示例

数据映射计费示例显示了一个数据映射,在从中午 12 点到晚上 6 点的 6 小时时段内,元数据存储量和每秒操作次数波动都在增加。 图中的红线是每秒作消耗量,蓝色虚线是此 6 小时时段内的元数据存储消耗:

显示操作数量和元数据随时间增长的图表。

每个数据映射容量单位支持 25 个作/秒和 10 GB 的元数据存储。 数据映射按小时计费。 计费方式是按一小时内所需的最大数据映射容量单位计费,不足一单位容量以一单位容量计。 有时,您可能需要在一小时内增加每秒操作次数,而更多的操作次数将增加该小时内所需的容量单位数。 在某些情况下,每秒操作次数的使用量可能较低,但可能仍需要大量的元数据存储。 元数据存储决定了在一小时内需要多少个容量单位。

下表显示此计费示例每小时使用的最大作数/秒和元数据存储数:

表格展示一段时间内最大操作数及元数据增长。

根据此期间的数据映射每秒作数和元数据存储消耗量,此数据映射将在 6 小时内按 22 个容量单位小时计费, (1 + 3 + 4 + 5 + 6 + 3) :

该表描绘了一段时间内的 CU 小时数。

重要

Microsoft Purview 数据映射可以在弹性窗口中自动纵向扩展和缩减 (检查当前限制) 。 若要获取下一个级别的弹性窗口,需要创建支持票证。

提高操作吞吐量限制

每秒允许的最大操作数的默认限制为 10 个容量单位。 如果使用的是大型 Microsoft Purview 环境,并且需要更高的吞吐量,可以通过 创建配额请求来请求更大的弹性窗口容量。 选择“数据映射容量单位”作为配额类型。 尽可能多地提供有关环境和要请求的额外容量的相关信息。

重要

元数据存储没有默认限制。 向数据地图添加更多元数据时,数据地图会弹性扩展。

提高作吞吐量限制还会增加最小容量单位数。 如果将吞吐量限制增大到 20,则收费的最小容量单位数为 2 个 CU。 下表说明了可能的吞吐量选项。 在配额请求中输入的数字是帐户上的最小容量单位数。

最小容量单位 操作吞吐量限制
1 10 (默认)
2 20
3 30
4 40
5 50
6 六十
7 70
8 80
9 90
10 100

监视数据映射

可以监视指标数据映射容量单位和数据映射存储大小,以了解数据资产大小和计费。

  1. 转到Azure 门户,导航到“Microsoft Purview 帐户”页,然后选择 Purview 帐户

  2. 选择“概述”并向下滚动,以观察“监视”部分中不同时间段的数据映射容量单位数据映射存储大小指标。

    显示弹性数据映射指标概述页的菜单的屏幕截图。

  3. 对于其他设置,请导航到“监视”-“>指标”,观察数据映射容量单位和数据映射存储大小

    显示指标的菜单的屏幕截图。

  4. 选择 “数据映射容量单位” 以查看过去 24 小时内的容量单位使用情况。 请注意,将鼠标悬停在折线图上会指示特定日期的特定时间使用的数据映射容量单位数。

    菜单的屏幕截图,其中显示了 24 小时内消耗的数据映射容量单位。

  5. 选择屏幕右上角的“ 本地时间:过去 24 小时 (自动 - 1 小时) 修改图形显示的时间范围。

    菜单的屏幕截图,其中显示了在自定义时间范围内消耗的数据映射容量单位。

    显示三天时间范围内消耗的数据映射容量单位的菜单的屏幕截图。

  6. 通过选择选项自定义图形类型:

    显示用于修改图形类型的选项的菜单的屏幕截图。

  7. 选择 “新建图表 ”,为“数据映射存储大小”图表添加图形。

    显示所用数据映射存储大小的菜单的屏幕截图。

摘要

数据映射提供低成本的解决方案,让客户不受阻碍地开启数据治理之旅。 据映射可以从低至一个容量单位的大小开始按照即用即付模式弹性增长。 客户无需担心在创建时为其数据资产选择正确的数据映射大小。

后续步骤