使用 Azure 数据工厂或 Synapse Analytics 从 Web 表复制数据
适用于: Azure 数据工厂 Azure Synapse Analytics
提示
试用 Microsoft Fabric 中的数据工厂,这是一种适用于企业的一站式分析解决方案。 Microsoft Fabric 涵盖从数据移动到数据科学、实时分析、商业智能和报告的所有内容。 了解如何免费开始新的试用版!
本文概述如何使用 Azure 数据工厂或 Synapse Analytics 管道中的复制活动从 Web 表数据库复制数据。 它是基于概述复制活动总体的复制活动概述一文。
此 Web 表连接器、REST 连接器和 HTTP 连接器之间的区别如下:
- Web 表连接器用于从 HTML 网页中提取表内容。
- REST 连接器专门支持从 RESTful API 复制数据。
- HTTP 连接器是通用的,可从任何 HTTP 终结点检索数据,以执行文件下载等操作。
支持的功能
此 Web 表连接器支持以下功能:
支持的功能 | IR |
---|---|
复制活动(源/-) | ② |
Lookup 活动 | ② |
① Azure 集成运行时 ② 自承载集成运行时
如需可以用作源/接收器的数据存储的列表,请参阅支持的数据存储表。
具体而言,此 Web 表连接器支持从 HTML 页提取表内容。
先决条件
若要使用此 Web 表连接器,需要设置自托管集成运行时。 有关详细信息,请参阅自承载集成运行时一文。
入门
若要使用管道执行复制活动,可以使用以下工具或 SDK 之一:
使用 UI 创建到 Web 表的链接服务
使用以下步骤在 Azure 门户 UI 中创建一个到 Web 表的链接服务。
浏览到 Azure 数据工厂或 Synapse 工作区中的“管理”选项卡,并选择“链接服务”,然后单击“新建”:
搜索“Web”并选择 Web 表连接器。
配置服务详细信息、测试连接并创建新的链接服务。
连接器配置详细信息
对于特定于 Web 表连接器的数据工厂实体,以下部分提供有关用于定义这些实体的属性的详细信息。
链接服务属性
Web 表链接的服务支持以下属性:
属性 | 描述 | 必需 |
---|---|---|
type | type 属性必须设置为:Web | 是 |
url | Web 源的 URL | 是 |
authenticationType | 允许的值为:Anonymous。 | 是 |
connectVia | 用于连接到数据存储的集成运行时。 如先决条件中所述,需要自承载集成运行时。 | 是 |
示例:
{
"name": "WebLinkedService",
"properties": {
"type": "Web",
"typeProperties": {
"url" : "https://en.wikipedia.org/wiki/",
"authenticationType": "Anonymous"
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
数据集属性
有关可用于定义数据集的各部分和属性的完整列表,请参阅数据集一文。 本部分提供 Web 表数据集支持的属性列表。
要从 Web 表复制数据,请将数据集的 type 属性设置为“WebTable” 。 支持以下属性:
属性 | 描述 | 必需 |
---|---|---|
type | 数据集的 type 属性必须设置为:WebTable | 是 |
path | 包含表的资源的相对 URL。 | 否。 未指定路径时,仅使用链接服务定义中指定的 URL。 |
index | 资源中表的索引。 请参阅获取 HTML 页中表的索引,了解获取 HTML 页中表的索引的步骤。 | 是 |
示例:
{
"name": "WebTableInput",
"properties": {
"type": "WebTable",
"typeProperties": {
"index": 1,
"path": "AFI's_100_Years...100_Movies"
},
"schema": [],
"linkedServiceName": {
"referenceName": "<Web linked service name>",
"type": "LinkedServiceReference"
}
}
}
复制活动属性
有关可用于定义活动的各部分和属性的完整列表,请参阅管道一文。 本部分提供 Web 表源支持的属性列表。
Web 表作为源
要从 Web 表复制数据,请将复制活动中的源类型设置为“WebSource” ,不支持任何其他属性。
示例:
"activities":[
{
"name": "CopyFromWebTable",
"type": "Copy",
"inputs": [
{
"referenceName": "<Web table input dataset name>",
"type": "DatasetReference"
}
],
"outputs": [
{
"referenceName": "<output dataset name>",
"type": "DatasetReference"
}
],
"typeProperties": {
"source": {
"type": "WebSource"
},
"sink": {
"type": "<sink type>"
}
}
}
]
获取 HTML 页中表的索引
若要获取表的索引(需要在数据集属性中进行配置),可以使用例如 Excel 2016 作为工具,如下所示:
启动 Excel 2016,并切换到“数据” 选项卡。
单击工具栏中的“新建查询” ,指向“从其他源” ,并单击“从 Web” 。
在“从 Web”对话框中,输入要在链接服务 JSON 中使用的 URL(例如:https://en.wikipedia.org/wiki/)以及要为数据集指定的路径(例如:AFI%27s_100_Years...100_Movies),并单击“确定”。
此示例中使用的 URL: https://en.wikipedia.org/wiki/AFI%27s_100_Years...100_Movies
如果出现“访问 Web 内容” 对话框,请选择正确的 URL 和身份验证,并单击“连接” 。
单击树视图中的“表” 项,查看表中的内容,并单击底部的“编辑” 按钮。
在“查询编辑器” 窗口中,单击工具栏上的“高级编辑器” 按钮。
在“高级编辑器”对话框中,“源”旁边的编号为索引。
如果使用的是 Excel 2013,请使用 Microsoft Power Query for Excel 获取索引。 有关详细信息,请参阅连接到网页一文。 如果使用的是 Microsoft Power BI for Desktop,步骤与之类似。
Lookup 活动属性
若要了解有关属性的详细信息,请查看 Lookup 活动。
相关内容
有关复制活动支持作为源和接收器的数据存储的列表,请参阅支持的数据存储。