使用 Azure 数据工厂或 Azure Synapse Analytics 从/向 Salesforce 复制数据

适用于: Azure 数据工厂 Azure Synapse Analytics

提示

试用 Microsoft Fabric 中的数据工厂,这是一种适用于企业的一站式分析解决方案。 Microsoft Fabric 涵盖从数据移动到数据科学、实时分析、商业智能和报告的所有内容。 了解如何免费开始新的试用

本文概述如何使用 Azure 数据工厂和 Azure Synapse 管道中的复制活动从/向 Salesforce 复制数据。 本文基于总体概述复制活动的复制活动概述一文。

重要

新的 Salesforce 连接器提供改进后的原生 Salesforce 支持。 如果在解决方案中使用旧版 Salesforce 连接器,建议尽早升级 Salesforce 连接器。 有关旧版和最新版本之间的差异的详细信息,请参阅此部分

支持的功能

此 Salesforce 连接器支持以下功能:

支持的功能 IR
复制活动(源/接收器) ① ②
Lookup 活动 ① ②

① Azure 集成运行时 ② 自承载集成运行时

如需可以用作源或接收器的数据存储的列表,请参阅支持的数据存储表。

具体而言,Salesforce 连接器支持:

  • Salesforce 开发人员版、专业版、企业版或不受限制版。
  • 从自定义域复制数据或将数据复制到自定义域(可以在生产环境和沙箱环境中配置自定义域)。

可以通过链接服务中的 apiVersion 属性显式设置用于读取/写入数据的 API 版本。 将数据复制到 Salesforce 时,连接器使用 BULK API 2.0。

先决条件

  • 在 Salesforce 中,必须启用 API 权限。

  • 需要参考此官方文档或这篇文章建议中的分步指南在 Salesforce 门户中配置已连接的应用。

    重要

    • 执行用户必须具有“仅限 API”权限。
    • 可以通过会话策略而非刷新令牌来更改访问令牌过期时间。

Salesforce Bulk API 2.0 限制

我们使用 Salesforce Bulk API 2.0 来查询和引入数据。 在 Bulk API 2.0 中,会自动为你创建批处理。 每个滚动 24 小时周期最多可提交 15,000 个批处理。 如果批处理超出限制,则会失败。

在 Bulk API 2.0 中,只有引入作业使用批处理。 查询作业不使用它。 有关详细信息,请参阅如何在 Bulk API 2.0 中处理请求 - 开发人员指南

有关详细信息,请参阅 Salesforce 开发人员限制中的“常规限制”部分。

开始使用

若要使用管道执行复制活动,可以使用以下工具或 SDK 之一:

使用 UI 创建到 Salesforce 的链接服务

使用以下步骤在 Azure 门户 UI 中创建一个到 Salesforce 的链接服务。

  1. 浏览到 Azure 数据工厂或 Synapse 工作区中的“管理”选项卡并选择“链接服务”,然后单击“新建”:

  2. 搜索“Salesforce”并选择 Salesforce 连接器。

    Salesforce 连接器的屏幕截图。

  3. 配置服务详细信息、测试连接并创建新的链接服务。

    Salesforce 的链接服务配置的屏幕截图。

连接器配置详细信息

对于特定于 Salesforce 连接器的实体,以下部分提供有关用于定义这些实体的属性的详细信息。

链接服务属性

Salesforce 链接服务支持以下属性。

属性 描述 必需
type 类型属性必须设置为:SalesforceV2
environmentUrl 指定 Salesforce 实例的 URL。
例如,指定 "https://<domainName>.my.salesforce.com" 以从自定义域复制数据。 参考此文章来了解如何配置或查看你的自定义域。
authenticationType 用于连接 Salesforce 的身份验证类型。
允许的值为 OAuth2ClientCredentials。
clientId 指定 Salesforce OAuth 2.0 连接的应用的客户端 ID。 有关详细信息,请参阅此文章
clientSecret 指定 Salesforce OAuth 2.0 连接的应用的客户端机密。 有关详细信息,请参阅此文章
apiVersion 指定要使用的 Salesforce Bulk API 2.0 版本,例如 52.0。 Bulk API 2.0 仅支持 API 版本 >= 47.0。 若要了解 Bulk API 2.0 版本,请参阅此文章。 如果使用较低的 API 版本,则会出现失败。
connectVia 用于连接到数据存储的集成运行时。 如果未指定,则使用默认 Azure Integration Runtime。

示例:存储凭据

{
    "name": "SalesforceLinkedService",
    "properties": {
        "type": "SalesforceV2",
        "typeProperties": {
            "environmentUrl": "<environment URL>",
            "authenticationType": "OAuth2ClientCredentials",
            "clientId": "<client ID>",
            "clientSecret": {
                "type": "SecureString",
                "value": "<client secret>"
            },
            "apiVersion": "<API Version>"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

示例:在密钥保管库中存储凭据

{
    "name": "SalesforceLinkedService",
    "properties": {
        "type": "SalesforceV2",
        "typeProperties": {
            "environmentUrl": "<environment URL>",
            "authenticationType": "OAuth2ClientCredentials",
            "clientId": "<client ID>",
            "clientSecret": {
                "type": "AzureKeyVaultSecret",
                "secretName": "<secret name of client secret in AKV>",
                "store":{
                    "referenceName": "<Azure Key Vault linked service>",
                    "type": "LinkedServiceReference"
                }
            },
            "apiVersion": "<API Version>"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

示例:将凭据存储在密钥保管库中,以及 environmentUrl 和 clientId

通过在 Key Vault 以及 environmentUrl 和 clientId 中存储凭据,可以更长时间使用 UI 来编辑设置。 必须选中“以 JSON 格式指定动态内容”复选框,并且必须手动进行此配置。 此方案的优点是可以从 Key Vault 派生所有配置设置,而无需在此处进行任何的参数化。

{
    "name": "SalesforceLinkedService",
    "properties": {
        "type": "SalesforceV2",
        "typeProperties": {
            "environmentUrl": {
                "type": "AzureKeyVaultSecret",
                "secretName": "<secret name of environment URL in AKV>",
                "store": {
                    "referenceName": "<Azure Key Vault linked service>",
                    "type": "LinkedServiceReference"
                },
            },
            "authenticationType": "OAuth2ClientCredentials",
            "clientId": {
                "type": "AzureKeyVaultSecret",
                "secretName": "<secret name of client ID in AKV>",
                "store": {
                    "referenceName": "<Azure Key Vault linked service>",
                    "type": "LinkedServiceReference"
                },
            },
            "clientSecret": {
                "type": "AzureKeyVaultSecret",
                "secretName": "<secret name of client secret in AKV>",
                "store":{
                    "referenceName": "<Azure Key Vault linked service>",
                    "type": "LinkedServiceReference"
                }
            },
            "apiVersion": "<API Version>"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

数据集属性

有关可用于定义数据集的各部分和属性的完整列表,请参阅数据集一文。 本部分提供 Salesforce 数据集支持的属性列表。

要从/向 Salesforce 复制数据,请将数据集的 type 属性设置为 SalesforceV2Object。 支持以下属性。

属性 描述 必需
type 类型属性必须设置为:SalesforceV2Object
objectApiName 要从中检索数据的 Salesforce 对象名称。 适用的自承载集成运行时版本为 5.44.8984.1 或更高版本。 对于源是“否”(如果指定源中的“query”),对于接收器为“是”
reportId 要从中检索数据的 Salesforce 报表的 ID。 它在接收器中不受支持。 使用报表时存在限制。 适用的自承载集成运行时版本为 5.44.8984.1 或更高版本。 源(如果指定了源中的“query”),不支持接收器

重要

任何自定义对象均需要 API 名称的“__c”部分。

Salesforce 连接 API 名称

示例:

{
    "name": "SalesforceDataset",
    "properties": {
        "type": "SalesforceV2Object",
        "typeProperties": {
            "objectApiName": "MyTable__c"
        },
        "schema": [],
        "linkedServiceName": {
            "referenceName": "<Salesforce linked service name>",
            "type": "LinkedServiceReference"
        }
    }
}

复制活动属性

有关可用于定义活动的各部分和属性的完整列表,请参阅管道一文。 本部分提供 Salesforce 源和接收器支持的属性列表。

将 Salesforce 用作源类型

要从 Salesforce 复制数据,请将复制活动中的源类型设置为 SalesforceV2Source。 复制活动的 source 节支持以下属性。

属性 描述 必需
type 复制活动源的 type 属性必须设置为 SalesforceV2Source
查询 使用自定义查询读取数据。 只能使用具有限制的 Salesforce 对象查询语言 (SOQL) 查询。 有关 SOQL 限制,请参阅这篇文章。 如果未指定查询,将检索在数据集的“objectApiName/reportId”中指定的 Salesforce 对象的所有数据。 否(如果指定了数据集中的“objectApiName/reportId”)
includeDeletedObjects 指示是查询现有记录,还是查询包括已删除记录在内的所有记录。 如果未指定,则默认行为为 false。
允许的值:false(默认)和 true

重要

任何自定义对象均需要 API 名称的“__c”部分。

Salesforce 连接 API 名称列表

示例:

"activities":[
    {
        "name": "CopyFromSalesforce",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<Salesforce input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "SalesforceV2Source",
                "query": "SELECT Col_Currency__c, Col_Date__c, Col_Email__c FROM AllDataType__c",
                "includeDeletedObjects": false
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

将 Salesforce 用作接收器类型

要向 Salesforce 复制数据,请将复制活动中的接收器类型设置为 SalesforceV2Sink。 复制活动 sink 节支持以下属性。

属性 描述 必需
type 复制活动接收器的 type 属性必须设置为 SalesforceV2Sink
writeBehavior 操作写入行为。
允许的值为 InsertUpsert
否(默认值为 Insert)
externalIdFieldName 更新插入操作的外部的 ID 字段名称。 指定的字段必须在 Salesforce 对象中定义为“外部 ID 字段”。 它相应的输入数据中不能有 NULL 值。 对于“Upsert”是必需的
writeBatchSize 每批中写入到 Salesforce 的数据行计数。 建议将此值设置为介于 10,000 和 200,000 之间的值。 每批中的行太少会降低复制性能。 每批中的行过多可能会导致 API 超时。 否(默认值为 100,000)
ignoreNullValues 指示是否忽略 NULL 值从输入数据期间写入操作。
允许的值为 truefalse
- True:执行更新插入或更新操作时,保持目标对象中的数据不变。 插入在执行插入操作时定义的默认值。
- False:执行更新插入或更新操作时,将目标对象中的数据更新为 NULL。 执行插入操作时插入 NULL 值。
否(默认值为 false)
 maxConcurrentConnections 活动运行期间与数据存储建立的并发连接的上限。 仅在要限制并发连接时指定一个值。  无

示例:复制活动中的 Salesforce 接收器

"activities":[
    {
        "name": "CopyToSalesforce",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<Salesforce output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "<source type>"
            },
            "sink": {
                "type": "SalesforceV2Sink",
                "writeBehavior": "Upsert",
                "externalIdFieldName": "CustomerId__c",
                "writeBatchSize": 10000,
                "ignoreNullValues": true
            }
        }
    }
]

Salesforce 的数据类型映射

从 Salesforce 复制数据时,使用以下映射从 Salesforce 数据类型内部映射到服务中的临时数据类型。 若要了解复制活动如何将源架构和数据类型映射到接收器,请参阅架构和数据类型映射

Salesforce 数据类型 服务临时数据类型
自动编号 String
复选框 布尔
货币 小数
Date DateTime
日期/时间 DateTime
Email String
ID String
查找关系 String
多选择列表 String
Number 小数
百分比 小数
电话 String
选择列表 String
文本 String
文本区域 String
文本区域(长型值) String
文本区域(丰富) String
文本(加密) String
URL String

注意

Salesforce 的“数字”类型映射到 Azure 数据工厂中的“十进制”类型和 Azure Synapse 的管道即服务临时数据类型。 “十进制”类型遵循定义的精度和小数位数。 对于小数位数超过定义的小数位数的数据,其值会在预览数据和副本中进行舍入。 为了避免在 Azure 数据工厂和 Azure Synapse 管道中出现此类精度损失,请考虑在 Salesforce 的“自定义字段定义编辑”页中将小数位数提高到相当大的数值。

查找活动属性

若要了解有关属性的详细信息,请查看 Lookup 活动

升级 Salesforce 连接器

下面是帮助你升级 Salesforce 连接器的步骤:

  1. 参考先决条件在 Salesforce 门户中配置连接的应用。

  2. 新建 Salesforce 链接服务,并引用链接服务属性以对其进行配置。 还需要手动更新依赖于旧链接服务的现有数据集,编辑每个数据集以改用新的链接服务。

  3. 如果你在复制活动源或引用旧版链接服务的查找活动中使用 SQL 查询,则需要将它们转换为 SOQL 查询。 从 Salesforce 作为源类型Salesforce 对象查询语言 (SOQL) 详细了解 SOQL 查询。

  4. readBehavior 在复制活动源或查找活动中被替换为 includeDeletedObjects。 有关详细配置,请参阅将 Salesforce 用作源类型

Salesforce 和 Salesforce 之间的差异(旧版)

Salesforce 连接器提供新功能,并与 Salesforce(旧版)连接器的大多数功能兼容。 下表显示了 Salesforce 和 Salesforce(旧版)之间的功能差异。

Salesforce Salesforce(旧版)
Salesforce Bulk API 2.0 中支持 SOQL。
对于 SOQL 查询:
• 不支持 GROUP BY、LIMIT、ORDER BY、OFFSET 或 TYPEOF 子句。
• 不支持 COUNT() 等聚合函数,可以使用 Salesforce 报表来实现它们。
• 不支持 GROUP BY 子句中的日期函数,但它们在 WHERE 子句中受支持。
• 不支持复合地址字段或复合地理位置字段。 或者,查询复合字段的各个组成部分。
• 不支持父级到子级关系查询,而支持子级到父级关系查询。
支持 SQL 和 SOQL 语法。
指定查询时不支持包含二进制字段的对象。 指定查询时支持包含二进制字段的对象。
指定查询时支持批量 API 中的对象。 支持指定查询时支持批量 API 所不支持的对象。
通过选择报表 ID 来支持报表。 支持报表查询语法,如 {call "<report name>"}

有关复制活动支持作为源和接收器的数据存储的列表,请参阅受支持的数据存储