使用 Databricks Connect 为适用于 Visual Studio Code 的 Databricks 扩展调试代码

本文介绍如何通过在适用于 Visual Studio Code 的 Databricks 扩展中使用 Databricks Connect 集成来运行和调试各个 Python (.py) 文件。 请参阅什么是 Visual Studio Code 的 Databricks 扩展?

Databricks Connect 集成还可以运行和调试笔记本单元。 请参阅使用适用于 Visual Studio Code 的 Databricks 扩展通过 Databricks Connect 运行和调试笔记本单元格

要求

在使用 Visual Studio Code 的 Databricks 扩展中的 Databricks Connect 之前,必须先满足 Databricks Connect 要求。 这些要求包括启用 Unity Catalog 的工作区、计算要求和 Python 本地安装的版本要求等内容。

激活 Python 虚拟环境

为 Python 项目激活一个 Python 虚拟环境。 Python 虚拟环境有助于确保项目使用兼容版本的 Python 和 Python 包(在本例中为 Databricks Connect 包)。

在“配置”窗格中:

  1. 单击“Python 环境”下的红色“激活虚拟环境”项。
  2. “命令面板”中,选择“Venv”或“Conda”。
  3. 选择要安装的依赖项(如果有)。

安装 Databricks Connect

“Python 环境”下的“配置”视图中:

  1. 单击红色“安装 databricks-connect”播放按钮。
  2. 附加群集。
    • 如果尚未在扩展中配置“群集”部分,则会显示以下消息:“请附加群集以使用 Databricks Connect”。单击“附加群集”并选择符合 Databricks Connect 要求的群集。
    • 如果配置了“群集”部分,但群集与 Databricks Connect 不兼容,请单击红色的“Databricks Connect 已禁用”按钮,单击“附加群集”,然后选择一个兼容的群集。
  3. 如果尚未安装 Databricks Connect 包(及其依赖项),则会显示以下消息:“要进行交互式调试和自动完成,需要 Databricks Connect。 是否要在 <environment-name> 环境中安装它?”。单击“安装”。
  4. 在 Visual Studio Code 状态栏中,如果出现红色“Databricks Connect 禁用”按钮,则单击该按钮,并完成屏幕上的说明以启用该设置。
  5. 显示“Databricks Connect 已启用”按钮后,便可以使用 Databricks Connect

注意

如果使用的是 Poetry,可以通过运行以下命令,将 pyproject.tomlpoetry.lock 文件与已安装的 Databricks Connect 包 (及其依赖项) 同步。 请务必将 13.3.2 替换为与项目的 Visual Studio Code 的 Databricks 扩展安装的包匹配的 Databricks Connect 包的版本。

poetry add databricks-connect==13.3.2

运行或调试 Python 代码

启用 Databricks Connect 后,运行或调试 Python 文件 (.py):

  1. 在项目中,打开要运行或调试的 Python 文件。

  2. 在 Python 文件中设置任何调试断点。

  3. 单击编辑器选项卡列表旁边的“在 Databricks 上运行”图标,然后单击“Databricks Connect:调试当前文件”。

    从图标调试当前文件

    输出将显示在“调试控制台”窗格中。

    也可以右键单击 .py 文件,然后单击“在 Databricks 上运行”>“Databricks Connect:调试当前文件”。

    从上下文菜单调试当前文件