具有中高速网络带宽的大型数据集的数据传输

本文概述了在环境中有中高速网络带宽并且正在计划传输大型数据集时的数据传输解决方案。 本文还介绍了针对此情况的推荐数据传输选项和相应的关键功能矩阵。

若要查看所有可用数据传输选项的概述,请转到选择一个 Azure 数据传输解决方案

方案描述

大型数据集指的是 TB 到 PB 级的数据大小。 中高速网络带宽是指 100 Mbps 到 10 Gbps 的网络带宽。

此方案中推荐的选项取决于是否具有中速网络带宽或高速网络带宽。

中速网络带宽 (100 Mbps - 1 Gbps)

使用中速网络带宽,需要预测通过该网络传输数据的时间。

使用下表估计时间,并根据此时间,在离线传输或脱机传输之间进行选择。 下表显示各种可用网络带宽(假设利用率为 90%)的网络数据传输的预测时间。

网络传输或脱机传输

  • 如果预测网络传输速度很慢,应使用物理设备。 在这种情况下,推荐的选项是 Azure Data Box 系列的离线传输设备或使用自己的磁盘执行 Azure 导入/导出。

    • 用于脱机传输的 Azure Data Box 系列 – 当受到时间、网络可用性或成本的限制时,使用 Azure 提供的 Data Box 设备将大量数据移到 Azure。 使用工具(例如 Robocopy)复制本地数据。 根据要传输的数据的大小,你可以选择 Data Box Disk。
    • Azure 导入/导出 - 通过寄送自己的磁盘驱动器,使用 Azure 导入/导出服务安全地将大量数据导入 Azure Blob 存储和 Azure 文件。 此外,还可以使用此服务将数据从 Azure Blob 存储传输到磁盘驱动器,然后再寄送到本地站点。
  • 如果预测出网络传输比较合理,那么可以使用以下在高速网络带宽中详细介绍的工具。

高速网络带宽 (1 Gbps - 100 Gbps)

如果可用的网络带宽为高速带宽,则使用下面的一种工具。

  • AzCopy - 使用此命令行工具在保证最佳性能的同时轻松向/从 Azure Blob、文件和表存储复制数据。 AzCopy 支持并发度和并行度,并且可以在复制操作中断后进行恢复。
  • Azure 存储 REST API/SDK - 生成应用程序时,可以对照着 Azure 存储 REST API 开发应用程序,并使用以多种语言提供的 Azure SDK。
  • Azure 数据工厂 - 如果需要业务流程和企业级监视功能,应使用数据工厂横向扩展传输操作。 使用数据工厂在多个 Azure 服务、本地或两者的组合之间定期传输文件。 使用数据工厂,可以创建和计划数据驱动型工作流(称为管道),以便从不同的数据存储引入数据并自动执行数据移动和数据传输。

关键功能比较

下表总结了推荐选项的主要功能差异。

中速网络带宽

如果使用脱机数据传输,请通过下表了解主要功能之间的差异。

Data Box Disk 导入/导出
数据大小 最多为 35 TB 变量
Data type Azure Blob
Azure 文件存储*
Azure Blob
Azure 文件
外形规格 每笔订单 5 个 SSD 每笔订单最多 10 个 HDD/SSD
初始设置时间
(15 分钟)
中等到困难
(不定)
将数据发送到 Azure
从 Azure 导出数据
加密 AES 128 位 AES 128 位
硬件 Microsoft 提供 客户提供
网络接口 USB 3.1/SATA SATA II/SATA III
合作伙伴集成 一些 一些
寄送 Microsoft 托管 由客户管理
数据移动时使用 在商务区域内 跨地理区域

* Data Box Disk 不支持大型文件共享,并且不保留文件元数据

如果使用在线数据传输,请使用以下部分中的表格获得高速网络带宽。

高速网络带宽

Tools AzCopy,
Azure PowerShell,
Azure CLI
Azure 存储 REST API,SDK Azure 数据工厂
Data type Azure Blob、Azure 文件、Azure 表 Azure Blob、Azure 文件、Azure 表 支持 70 多个用于数据存储和格式的数据连接器
外形规格 命令行工具 编程接口 Azure 门户中的服务
初始一次性设置 简单 中等 广泛
数据预处理 No
从其他云传输 No
用户类型 IT 专家或开发人员 Dev IT 专业人员
定价 免费,收取数据出口费用 免费,收取数据出口费用 定价

后续步骤