将文件上传到 Unity Catalog 卷

“上传到卷”UI 允许你将任何格式的文件上传到 Unity Catalog 卷,包括结构化、半结构化和非结构化数据。 请参阅什么是 Unity Catalog 卷?

上传的文件不能超过 5 GB。

  • 在 Databricks Runtime 13.3 LTS 及更高版本中,Databricks 建议使用卷来存储用于计算的 .whl 库,并采用专用或标准访问模式(以前称为单用户和共享)。

  • 在 Databricks Runtime 13.3 LTS 及更高版本中,Databricks 建议使用卷来存储 JAR 和初始化脚本,以使用专用或标准访问模式(以前是单用户和共享)进行计算。

可以从上传的文件创建 Unity Catalog 托管表。 请参阅从卷中的数据创建表

您还可以对上传到卷的文件执行各种机器学习和数据科学任务。 此外,可以上传任意格式的库、证书和其他配置文件(如 .whl 或 .txt),用于配置群集库、笔记本范围的库或作业依赖项。

可在何处访问 UI 以将文件上传到卷?

可通过以下方式访问此 UI:

  • 在边栏中,单击“新建”>“添加数据”>“将文件上传到卷”
  • 在目录资源管理器中,单击“添加”>“上传到卷”。 在使用目录资源管理器浏览各个卷时,还可以将文件直接上传到某个卷或卷内的目录。
  • 在笔记本中,单击“文件”>“将文件上传到卷”

注意

仅在 Databricks Runtime 13.3 LTS 及更高版本上支持卷。 在 Databricks Runtime 12.2 LTS 及更低版本中,针对 /Volumes 路径的操作可能会成功,但可能将数据写入附加到计算群集的临时存储磁盘,而不是按预期将数据保存到 Unity Catalog 卷。

开始之前

在将文件上传到 Unity Catalog 卷之前,必须准备好以下必要事项:

  • 一个启用了 Unity Catalog 的工作区。 有关详细信息,请参阅设置和管理 Unity Catalog
  • 要将文件上传到的卷的 WRITE VOLUME 特权。
  • 对父架构具有 USE SCHEMA 特权
  • 对父目录的 USE CATALOG 特权。

有关详细信息,请参阅 Unity Catalog 权限和安全对象

将文件上传到卷的步骤

若要将文件上传到 Unity Catalog 卷,请执行以下操作:

  1. 单击“新建>添加数据”。

  2. 单击“将文件上传到卷”

  3. 选择一个卷或者该卷内的目录,或粘贴卷路径。

    • 如果目标架构中不存在卷,则可以使用对话框创建新卷。
    • (可选)可以通过指定目标目录的完整路径,在目标卷中创建新目录。
  4. 请单击浏览按钮或直接拖放文件到放置区域。

关于将文件上传到 Unity Catalog 的其他方法的信息,请参阅处理 Unity Catalog 卷中的文件