Azure Cosmos DB 数据的分析和商业智能
Azure Cosmos DB 提供各种选项,以便对操作数据启用大规模分析和商业智能报告。
若要深入了解 Azure Cosmos DB 数据,可能需要跨多个分区、集合或数据库进行查询。 在某些情况下,可以将此数据与组织中的其他数据源(例如 Azure SQL 数据库、Azure Data Lake Storage Gen2 等)合并。还可以使用聚合函数(如 sum、count 等)进行查询。此类查询需要大量的计算能力,这可能会消耗更多请求单位,因此,这些查询可能会影响任务关键型工作负荷性能。
为了将事务工作负荷与复杂分析查询的性能影响隔离开来,数据库数据会使用复杂的提取、转换和加载管道在夜间引入到中心位置。 此类基于提取、转换和加载的分析非常复杂,成本高昂,带着有关业务数据的延迟见解。
Azure Cosmos DB 通过提供零 ETL 且经济高效的分析产品/服务来解决这些难题。
Azure Cosmos DB 上的零 ETL、准实时分析
Azure Cosmos DB 对数据提供零 ETL、准实时分析,不会影响事务工作负载或请求单位 (RU) 的性能。 这些产品/服务无需复杂的提取、转换和加载管道,使 Azure Cosmos DB 数据无缝提供给分析引擎。 随着见解的延迟降低,可以提供增强的客户体验,并更快地应对市场状况或业务环境的变化。 下面是一些示例方案,可以通过快速深入了解数据来实现。
可以使用以下选项在 Azure Cosmos DB 上启用零 ETL 分析和 BI 报告:
- 将数据镜像到 Microsoft Fabric
- 启用 Azure Synapse Link 以访问 Azure Synapse Analytics 中的数据
选项 1:将 Azure Cosmos DB 数据镜像到 Microsoft Fabric 中
镜像使你能够无缝地将 Azure Cosmos DB 数据库数据引入 Microsoft Fabric。 借助零 ETL,可以使用 Fabric 的内置分析、BI 和 AI 功能快速获取有关 Azure Cosmos DB 数据的丰富业务见解。
Cosmos DB 操作数据以近乎实时的方式增量复制到 Fabric OneLake 中。 OneLake 中的数据以开源 Delta Parquet 格式存储,可供 Fabric 中的所有分析引擎使用。 通过开放访问权限,可以将它用于各种 Azure 服务,例如 Azure Databricks、Azure HDInsight 等。 OneLake 还有助于统一数据资产,以满足分析需求。 镜像数据可与 OneLake 中的其他任何数据(如 Lakehouses、Warehouses 或快捷方式)联接。 还可以将 Azure Cosmos DB 数据与其他镜像数据库源(例如 Azure SQL 数据库、Snowflake)联接。 可以跨 Azure Cosmos DB 集合或镜像到 OneLake 的数据库进行查询。
使用 Fabric 镜像功能时,无需将来自多个供应商的不同服务拼凑在一起。 相反,你可以享受高度集成、端到端且易于使用的产品,旨在简化分析需求。 你可以使用 T-SQL 运行复杂的聚合查询,使用 Spark 进行数据探索。 可以无缝访问笔记本中的数据,使用数据科学生成机器学习模型,并使用由丰富的 Copilot 集成提供支持的 Direct Lake 生成 Power BI 报表。
如果要查找有关 Azure Cosmos DB 中操作数据的分析,镜像可提供:
- 对 Azure Cosmos DB 数据进行零 ETL 且经济高效的准实时分析,而不会影响请求单位 (RU) 消耗
- 可以轻松地将各种源中的数据引入 Fabric OneLake。
- 通过 V 顺序优化改进了 SQL 引擎处理增量表的查询性能
- 改进了 Spark 引擎与 ML/notebook 的深度集成时的冷启动时间
- 与具有 Direct Lake 和 Copilot 的 Power BI 一键集成
- 使用 GraphQL 访问查询和视图的更丰富的应用集成
- 打开对和来自 Azure Databricks 等其他服务的访问
若要开始使用镜像,请访问“镜像入门教程”。
选项 2:用于访问 Azure Synapse Analytics 中的数据的 Azure Synapse Link
Azure Synapse Link for Azure Cosmos DB 在 Azure Cosmos DB 和 Azure Synapse Analytics 之间创建紧密无缝集成,从而对操作数据启用零 ETL、准实时分析。 事务数据无缝同步到分析存储,以针对分析优化的列式格式存储数据。
Azure Synapse Analytics 可以使用 Azure Synapse Link 访问分析存储中的此数据,而无需进一步移动。 业务分析师、数据工程师和数据科学家现在可以互换使用 Synapse Spark 或 Synapse SQL 来运行准实时商业智能、分析和机器学习管道。
下图显示了 Azure Synapse Link 与 Azure Cosmos DB 和 Azure Synapse Analytics 的集成:
重要
Microsoft Fabric 中的镜像现已推出预览版,可用于 NoSql API。 此功能提供 Azure Synapse Link 的所有功能,具有更好的分析性能,能够将数据资产与 Fabric OneLake 统一,并支持开放访问 OneLake 中 Delta Parquet 格式的数据。 如果考虑使用 Azure Synapse Link,建议尝试镜像以评估它在组织中的整体适合情况。 若要开始使用镜像,请单击此处。
若要开始使用 Azure Synapse Link,请参阅 Azure Synapse Link 入门。
Azure Cosmos DB 上的实时分析和商业智能:其他选项
还有一些其他选项可用于对 Azure Cosmos DB 数据启用实时分析:
- 直接在 Azure Cosmos DB 上使用 Spark 连接器
- 直接在 Azure Cosmos DB 上使用 Power BI 连接器
尽管包含这些选项是为了完整性和适用于实时单分区查询,但这些方法对分析查询具有以下挑战:
对工作负荷性能的影响:
分析查询往往比较复杂,消耗大量的计算容量。 直接针对 Azure Cosmos DB 数据运行这些查询时,事务查询的性能可能会降低。
成本影响:
当分析查询直接针对数据库或集合运行时,它们会增加分配的请求单位的需求,因为分析查询往往比较复杂,需要更多的计算能力。 如果运行聚合查询,请求单位使用率增加可能会导致随时间推移产生重大成本影响。
建议不要使用这些选项,而是在 Microsoft Fabric 或 Azure Synapse Link 中使用镜像,这样可以提供零 ETL 分析,而不会影响事务工作负载性能或请求单位。