Databricks Connect for Python 的限制
注意
本文介绍适用于 Databricks Runtime 13.3 LTS 及更高版本的 Databricks Connect。
本文列出了 Databricks Connect for Python 的限制。 Databricks Connect 使你能够将常用 IDE、笔记本服务器和自定义应用程序连接到 Azure Databricks 群集。 请参阅什么是 Databricks Partner Connect?。 有关本文的 Scala 版本,请参阅 Databricks Connect for Scala 限制。
重要
根据所使用的 Python 版本、Databricks Runtime 和 Databricks Connect,某些功能可能存在版本要求。 请参阅 要求。
功能可用性
在适用于 Databricks Runtime 13.3 LTS 及更低版本的 Databricks Connect 上不可用:
- 流式处理
foreachBatch
- 创建大于 128 MB 的数据帧
- 超过 3600 秒的长查询
不可用:
dataframe.display()
API- Databricks 实用工具:
credentials
、library
、notebook workflow
、widgets
- Spark 上下文
- RDD
- 使用 RDD、Spark 上下文或访问基础 Spark JVM 的库,例如马赛克地理空间、GraphFrames 或 GreatExpectations
CREATE TABLE <table-name> AS SELECT
(改用spark.sql("SELECT ...").write.saveAsTable("table")
)ApplyinPandas()
和Cogroup()
配置共享群集- 不能通过
SparkContext
更改 Log4j 日志级别 - 分布式 ML 训练
- 将本地开发环境与远程群集同步
- 在无服务器计算中,UDF 不能包含自定义库。