数据科学虚拟机数据引入工具

在数据科学或 AI 项目的早期阶段,你必须确定所需的数据集,然后将它们引入分析环境。 Data Science Virtual Machine (DSVM) 提供工具和库,可将来自不同源的数据导入 DSVM 上的本地分析数据存储资源。 DSVM 还可以将数据引入位于云端或本地的数据平台。

DSVM 提供以下数据移动工具:

Azure CLI

类别
它是什么? Azure 的管理工具。 它提供可从 Azure 数据平台(例如 Azure Blob 存储和 Azure Data Lake Store)移动数据的命令谓词
支持的 DSVM 版本 Windows、Linux
典型用途 在 Azure 存储和 Azure Data Lake Store 之间导入和导出数据
如何使用/运行它? 打开命令提示符,键入 az 以获取帮助。
指向示例的链接 使用 Azure CLI

AzCopy

类别
它是什么? 一个用于在本地文件、Azure BLob 存储、文件和表之间复制数据的工具
支持的 DSVM 版本 Windows
典型用途 将文件复制到 Azure Blob 存储
在帐户之间复制 blob
如何使用/运行它? 打开命令提示符,键入 azcopy 以获取帮助。
指向示例的链接 AzCopy on Windows

Azure Cosmos DB 数据迁移工具

类别
它是什么? 将不同来源的数据导入 Azure Cosmos DB(一种云中的 NoSQL 数据库)的工具。 这些源包括 JSON 文件
CSV 文件
SQL
MongoDB
Azure 表存储
Amazon DynamoDB
Azure Cosmos DB for NoSQL 集合
支持的 DSVM 版本 Windows
典型用途 将文件从 VM 导入 Azure Cosmos DB
将数据从 Azure 表存储导入 Azure Cosmos DB
将数据从 Microsoft SQL Server 数据库导入 Azure Cosmos DB
如何使用/运行它? 要使用命令行版本,请打开命令提示符,键入 dt。 若要使用 GUI 工具,请打开命令提示符,键入 dtui
指向示例的链接 将数据导入 Azure Cosmos DB

Azure 存储资源管理器

类别
它是什么? 用于与 Azure 云中存储的文件进行交互的图形用户界面
支持的 DSVM 版本 Windows
典型用途 将数据导入 DSVM 以及从中导出数据
如何使用/运行它? 在“开始”菜单中搜索“Azure 存储资源管理器”
指向示例的链接 Azure 存储资源管理器

bcp

类别
它是什么? 在 SQL Server 和数据文件之间复制数据的 SQL Server 工具
支持的 DSVM 版本 Windows
典型用途 将 CSV 文件导入 SQL Server 表
将 SQL Server 表导出到文件
如何使用/运行它? 打开命令提示符,键入 bcp 以获取帮助
指向示例的链接 bcp 实用工具

blobfuse

类别
它是什么? 用于在 Linux 文件系统中装载 Azure Blob 存储容器的工具
支持的 DSVM 版本 Linux
典型用途 读取和写入容器中的 blob
如何使用和运行它? 在终端运行 blobfuse
指向示例的链接 GitHub 上的 blobfuse