连接到 StreamSets
重要
此功能目前以公共预览版提供。
StreamSets 可帮助你在数据流的整个生命周期管理和监视数据流。 通过 Streamsets 与 Azure Databricks 和 Delta Lake 的本机集成,可从各种来源拉取数据,轻松管理管道。
下面是结合使用 StreamSets 与 Azure Databricks 的步骤。
步骤 1:生成 Databricks 个人访问令牌
StreamSets 使用 Azure Databricks 个人访问令牌在 Azure Databricks 中进行身份验证。
注意
作为安全最佳做法,在使用自动化工具、系统、脚本和应用进行身份验证时,Databricks 建议使用属于服务主体(而不是工作区用户)的个人访问令牌。 若要为服务主体创建令牌,请参阅管理服务主体的令牌。
步骤2:设置群集来支持集成需求
StreamSets 会将数据写入 Azure Data Lake Storage 路径,而 Azure Databricks 集成群集将从该位置读取数据。 因此,集成群集需要能够安全地访问 Azure Data Lake Storage 路径。
安全地访问 Azure Data Lake Storage 路径
若要安全地访问 Azure Data Lake Storage (ADLS) 中的数据,可使用 Azure 存储帐户访问密钥(推荐)或 Microsoft Entra ID 服务主体。
使用 Azure 存储帐户访问密钥
可在配置 Spark 期间在集成群集上配置存储帐户访问密钥。 确保存储帐户可访问用于暂存数据的 ADLS 容器和文件系统,以及要在其中写入 Delta Lake 表的 ADLS 容器和文件系统。 若要将集成群集配置为使用密钥,请按照连接到 Azure Data Lake Storage Gen2 和 Blob 存储中的步骤操作。
使用 Microsoft Entra ID 服务主体
可在配置 Spark 期间在 Azure Databricks 集成群集上配置服务主体。 确保服务主体可访问用于暂存数据的 ADLS 容器,以及要在其中写入 Delta 表的 ADLS 容器。 若要将集成群集配置为使用服务主体,请按照使用服务主体访问 ADLS Gen2 中的步骤操作。
指定群集配置
将“群集模式”设置为“标准” 。
将“Databricks Runtime 版本”设置为 Runtime 6.3 或更高版本。
通过将以下属性添加到 Spark 配置,启用优化的写入和自动压缩:
spark.databricks.delta.optimizeWrite.enabled true spark.databricks.delta.autoCompact.enabled true
根据集成和缩放需求配置群集。
有关群集配置的详细信息,请参阅计算配置参考。
有关获取 JDBC URL 和 HTTP 路径的步骤,请参阅获取 Azure Databricks 计算资源的连接详细信息。
步骤 3:获取 JDBC 和 ODBC 连接详细信息以连接到群集
若要将 Azure Databricks 群集连接到 StreamSets,需要以下 JDBC/ODBC 连接属性:
- JDBC URL
- HTTP 路径
步骤 4:获取适用于 Azure Databricks 的 Streamsets
如果你没有 StreamSets 帐户,请注册StreamSets for Databricks。 可以使用免费帐户开始,并在做好准备后进行升级;请参阅 StreamSets DataOps 平台定价。
步骤 5:了解如何使用 Streamsets 将数据加载到 Delta Lake
从示例管道开始,或查看 Streamsets 解决方案,了解如何构建将数据引入到 Delta Lake 的管道。