安装适用于 Scala 的 Databricks Connect

注意

本文介绍适用于 Databricks Runtime 13.3 LTS 及更高版本的 Databricks Connect。

本文介绍如何安装适用于 Scala 的 Databricks Connect。 请参阅什么是 Databricks Connect?。 有关本文的 Python 版本,请参阅安装适用于 Python 的 Databricks Connect

要求

  • 目标 Azure Databricks 工作区和群集必须满足 Databricks Connect 计算配置的要求。
  • 在开发计算机上安装的 Java 开发工具包 (JDK)。 Databricks 建议使用与 Azure Databricks 群集上的 JDK 版本匹配的 JDK 安装版本。 若要查找群集上的 JDK 版本,请参阅群集的 Databricks Runtime 发行说明的“系统环境”部分。 例如,Zulu 8.70.0.23-CA-linux64 对应 JDK 8。 请参阅 Databricks Runtime 发行说明版本和兼容性
  • 在开发计算机上安装的 Scala。 Databricks 建议使用与 Azure Databricks 群集上的 Scala 版本匹配的 Scala 安装版本。 若要查找群集的 Databricks Runtime 版本的 Scala 版本,请参阅该版本的 Databricks Runtime 发行说明中的“系统环境”章节。 请参阅 Databricks Runtime 发行说明版本和兼容性
  • 如果使用用户定义的函数 (UDF),则本地 Scala 和 Java 版本必须与群集 Databricks Runtime 版本的 Scala 和 Java 版本匹配。 若要查找群集的 Databricks Runtime 版本的 Scala 和 Java 版本,请参阅该版本的 Databricks Runtime 发行说明中的“系统环境”章节。 请参阅 Databricks Runtime 发行说明版本和兼容性
  • 开发计算机上的 Scala 生成工具,例如 sbt

添加对 Databricks Connect 客户端的引用

要设置 Databricks Connect 客户端,请先添加对客户端的引用。 在 Scala 项目的生成文件(例如 sbtbuild.sbt、Maven 的 pom.xml 或 Gradle 的 build.gradle)中,将以下引用添加到 Databricks Connect 客户端。 将 14.0.0 替换为与群集上的 Databricks Runtime 版本匹配的 Databricks Connect 库版本。 可以在 Maven 中央存储库中找到 Databricks Connect 库版本号。

Sbt

libraryDependencies += "com.databricks" % "databricks-connect" % "14.0.0"

Maven

<dependency>
  <groupId>com.databricks</groupId>
  <artifactId>databricks-connect</artifactId>
  <version>14.0.0</version>
</dependency>

Gradle

implementation 'com.databricks.databricks-connect:14.0.0'

配置连接属性

下一步,配置属性以在 Databricks Connect 和远程 Azure Databricks 群集之间建立连接。 这些属性包括用于对群集的 Databricks Connect 进行身份验证的设置。 请参阅 Databricks Connect 的计算配置

对于适用于 Databricks Runtime 13.3 LTS 及更高版本的 Databricks Connect,就 Scala 而言,Databricks Connect 包括用于 Java 的 Databricks SDK。 此 SDK 实施 Databricks 客户端统一身份验证标准,这是一种整合且一致的体系结构和编程身份验证方法。 此方法可使 Azure Databricks 的身份验证设置和自动化更加集中和可预测。 借助此方法,你只需配置 Azure Databricks 身份验证一次,然后即可在多个 Azure Databricks 工具和 SDK 中使用该配置,而无需进一步更改身份验证配置。

注意