以增量方式将数据从源数据存储加载到目标数据存储

适用于:Azure 数据工厂 Azure Synapse Analytics

在数据集成解决方案中,一种广泛使用的方案是在完成初始的完整数据加载后以增量方式加载数据。 此部分的教程介绍如何使用不同的方法,通过 Azure 数据工厂以增量方式加载数据。

使用水印从数据库进行增量数据加载

在这种情况下,请在源数据库中定义水印。 水印是一个列,其中包含上次更新的时间戳或增量键。 增量加载解决方案加载旧水印和新水印之间的已更改数据。 此方法的工作流见下图:

水印使用工作流

有关分步说明,请参阅以下教程:

对于模板,请参阅以下内容:

使用更改跟踪技术进行的增量数据加载

在 SQL Server 和 Azure SQL 数据库中,更改跟踪技术是一种轻型解决方案,为应用程序提供有效的更改跟踪机制。 应用程序可以使用这种技术轻松地确定插入、更新或删除的数据。

此方法的工作流见下图:

更改跟踪使用工作流

有关分步说明,请参阅以下教程:

仅使用 LastModifiedDate 加载新文件和已更改文件

只能使用 LastModifiedDate 将新文件和已更改文件复制到目标存储。 ADF 会扫描来自源存储的所有文件,按其 LastModifiedDate 应用文件筛选器,然后仅将自上次以来的新文件和已更新文件复制到目标存储。 请注意,如果让 ADF 扫描大量文件,但仅将几个文件复制到目标,则会由于文件扫描过程而花费很长时间。

有关分步说明,请参阅以下教程:

对于模板,请参阅以下内容:

仅通过使用时间分区文件夹或文件名称来加载新文件。

仅可以复制新文件,其中文件或文件夹已经过时间分区,时间片信息作为文件或文件夹名称的一部分(如 /yyyy/mm/dd/file.csv)。 这是用于增量加载新文件的性能最好的方法。

有关分步说明,请参阅以下教程:

转到以下教程: