Databricks Runtime 的维护更新(存档)
此存档页列出了为不再受支持的 Databricks Runtime 版本发布的维护更新。 要向现有群集添加维护更新,请重新启动群集。
重要
本文档已过时,将来可能不会更新。 本内容中提及的产品、服务或技术已终止支持。 请参阅 Databricks Runtime 发行说明版本和兼容性。
注意
本文包含对术语“白名单”的引用,Azure Databricks 不再使用该术语。 在从软件中删除该术语后,我们会将其从本文中删除。
Databricks Runtime 版本
维护更新(按版本):
- Databricks Runtime 15.1
- Databricks Runtime 15.0
- Databricks Runtime 14.2
- Databricks Runtime 14.0
- Databricks Runtime 13.1
- Databricks Runtime 12.2 LTS
- Databricks Runtime 11.3 LTS
- Databricks Runtime 10.4 LTS
- Databricks Runtime 9.1 LTS
- Databricks Runtime 13.0 (EoS)
- Databricks Runtime 12.1 (EoS)
- Databricks Runtime 12.0 (EoS)
- Databricks Runtime 11.2 (EoS)
- Databricks Runtime 11.1 (EoS)
- Databricks Runtime 11.0 (EoS)
- Databricks Runtime 10.5 (EoS)
- Databricks Runtime 10.3 (EoS)
- Databricks Runtime 10.2 (EoS)
- Databricks Runtime 10.1 (EoS)
- Databricks Runtime 10.0 (EoS)
- Databricks Runtime 9.0 (EoS)
- Databricks Runtime 8.4 (EoS)
- Databricks Runtime 8.3 (EoS)
- Databricks Runtime 8.2 (EoS)
- Databricks Runtime 8.1 (EoS)
- Databricks Runtime 8.0 (EoS)
- Databricks Runtime 7.6 (EoS)
- Databricks Runtime 7.5 (EoS)
- Databricks Runtime 7.3 LTS (EoS)
- Databricks Runtime 6.4 外延支持 (EoS)
- Databricks Runtime 5.5 LTS (EoS)
- Databricks Light 2.4 外延支持
- Databricks Runtime 7.4 (EoS)
- Databricks Runtime 7.2 (EoS)
- Databricks Runtime 7.1 (EoS)
- Databricks Runtime 7.0 (EoS)
- Databricks Runtime 6.6 (EoS)
- Databricks Runtime 6.5 (EoS)
- Databricks Runtime 6.3 (EoS)
- Databricks Runtime 6.2 (EoS)
- Databricks Runtime 6.1 (EoS)
- Databricks Runtime 6.0 (EoS)
- Databricks Runtime 5.4 ML (EoS)
- Databricks Runtime 5.4 (EoS)
- Databricks Runtime 5.3 (EoS)
- Databricks Runtime 5.2 (EoS)
- Databricks Runtime 5.1 (EoS)
- Databricks Runtime 5.0 (EoS)
- Databricks Runtime 4.3 (EoS)
- Databricks Runtime 4.2 (EoS)
- Databricks Runtime 4.1 ML (EoS)
- Databricks Runtime 4.1 (EoS)
- Databricks Runtime 4.0 (EoS)
- Databricks Runtime 3.5 LTS (EoS)
- Databricks Runtime 3.4 (EoS)
有关支持的 Databricks Runtime 版本的维护更新,请参阅 Databricks Runtime 维护更新。
Databricks Runtime 15.1
请参阅 Databricks Runtime 15.1 (EoS)。
2024 年 10 月 22 日
- [SPARK-49863][SQL]修复 NormalizeFloatingNumbers 以保留嵌套结构的可为 Null 性
- [SPARK-46632][SQL] 修复当等效三元表达式具有不同的子表达式时的子表达式消除
- [SPARK-49782][SQL] ResolveDataFrameDropColumns 规则解析具有子输出的 UnresolvedAttribute
- [SPARK-49905] 将专用 ShuffleOrigin 用于有状态运算符,以防止从 AQE 修改随机
- [SPARK-49829] 修改在流联接中将输入添加到状态存储的优化(正确性修复)
- 操作系统安全更新。
2024 年 10 月 10 日
- [SPARK-49688][CONNECT] 修复中断和执行计划之间的数据争用
- [SPARK-49743][SQL] 当修剪 GetArrayStructFields 时,OptimizeCsvJsonExpr 不应更改模式字段
- [BACKPORT][[SPARK-49474]]https://issues.apache.org/jira/browse/SPARK-49474)[SS] 为 FlatMapGroupsWithState 用户函数错误的错误类分类
- 操作系统安全更新。
2024 年 9 月 25 日
- [SPARK-49628][SQL]在计算之前,ConstantFolding 应复制有状态表达式
- [SPARK-48719][SQL] 修复了第一个参数为 null 时出现的 RegrSlope 和 RegrIntercept 计算 bug
- [SPARK-49492][CONNECT] 在非活动 ExecutionHolder 上尝试重新附加
- [SPARK-49000][SQL] 通过展开RewriteDistinctAggregates 来修复“select count(distinct 1) from t”,其中 t 为空表
- [SPARK-49458][CONNECT][PYTHON]通过 ReattachExecute 提供服务器端会话 ID
- 操作系统安全更新。
2024 年 9 月 17 日
- [SPARK-49336][CONNECT] 截断 protobuf 消息时限制嵌套级别
- [SPARK-49526][CONNECT]支持 ArtifactManager 中的 Windows 样式路径
- [SPARK-49409][CONNECT] 调整 CONNECT_SESSION_PLAN_CACHE_SIZE 的默认值
- [SPARK-43242][CORE] 修复随机损坏诊断中抛出“BlockId 意外类型”
- [SPARK-49366][CONNECT] 将 Union 节点视为数据帧列解析中的叶
2024 年 8 月 29 日
- [SPARK-49263][CONNECT] Spark Connect python 客户端:一致处理布尔 DataFrame 读取器选项
- [SPARK-49056][SQL] ErrorClassesJsonReader 无法正确处理 null
- [SPARK-48862][PYTHON][CONNECT] 避免在未启用 INFO 级别时调用
_proto_to_string
- [SPARK-49146][SS] 将追加模式流查询中有关缺少水印的断言错误移至错误框架
2024 年 8 月 14 日
- [SPARK-48941][SPARK-48970] 向后移植 ML 写入器/读取器修复
- [SPARK-48050][SS] 查询开始时记录逻辑计划
- [SPARK-48706][PYTHON] 高阶函数中的 Python UDF 不应抛出内部错误
- [SPARK-48597][SQL] 在逻辑计划的文本表示形式中引入 isStreaming 属性的标记
- [SPARK-49065][SQL] 在旧格式化程序/分析程序中变基必须支持非 JVM 默认时区
- [SPARK-49047][PYTHON][CONNECT] 截断信息以便记录
- [SPARK-48740][SQL] 及早发现缺少窗口规范错误
2024 年 8 月 1 日
在笔记本和作业的无服务器计算中,默认情况下会启用 ANSI SQL 模式。
在配置了共享访问模式的计算中,Kafka 批量读取和写入现在具有与结构化流相同的限制。 请参阅 Unity Catalog 共享访问模式的流式处理限制和要求。
SHOW CREATE TABLE
语句的输出现在包括在具体化视图或流式处理表上定义的任何行筛选器或列掩码。 请参阅 SHOW CREATE TABLE。 有关行筛选器和列掩码的详细信息,请参阅使用行筛选器和列掩码筛选敏感表数据。[SPARK-48544][SQL] 减少空 TreeNode BitSet 的内存压力
[SPARK-46957][CORE] 停用迁移的 shuffle 文件应该能够从执行程序中进行清理
[SPARK-47202][PYTHON] 修复导致包含 tzinfo 的日期/时间损坏的拼写错误
[SPARK-48713][SQL] 当 baseObject 为字节数组时,为 UnsafeRow.pointTo 添加索引范围检查
[SPARK-48896] [SPARK-48909] [SPARK-48883] 向后移植 Spark ML 写入器修复
[SPARK-48810][CONNECT] 会话 stop() API 应具有幂等性,在会话已被服务器关闭的情况下不会失败
[SPARK-48873][SQL] 在 JSON 分析程序中使用 UnsafeRow。
[SPARK-48934][SS] Python 日期/时间类型转换错误,无法在 applyInPandasWithState 中设置超时
[SPARK-48705][PYTHON] 当 worker_main 通过 pyspark 启动时显式使用 worker_main
[SPARK-48889][SS] testStream 在完成之前卸载状态存储
[SPARK-48047][SQL] 减少空 TreeNode 标记的内存压力
[SPARK-48463] 使 StringIndexer 支持嵌套输入列
操作系统安全更新。
2024 年 7 月 11 日
- (行为变更)如果源表被覆盖,则针对 Delta 表源缓存的 DataFrame 现在将失效。 此更改意味着对 Delta 表的所有状态更改现在都会使缓存结果无效。 使用
.checkpoint()
在 DataFrame 的整个生命周期中持久保存表状态。 - Snowflake JDBC 驱动程序已更新到版本 3.16.1。
- 此版本包括的修补程序修复了在 Databricks 容器服务中运行时阻止 Spark UI“环境”选项卡正确显示的问题。
- 在笔记本和作业的无服务器计算中,默认情况下会启用 ANSI SQL 模式。
- 要在读取数据、基于文件的数据源(如 Parquet、ORC、CSV 或 JSON)时忽略无效的分区,可以将 ignoreInvalidPartitionPaths 数据源选项设置为 true。 例如:spark.read.format("parquet").option("ignoreInvalidPartitionPaths", "true").load(…)`。 也可以使用 SQL 配置 spark.sql.files.ignoreInvalidPartitionPaths。 但数据源选项优先于 SQL 配置。 默认情况下,此设置为 false。
- [SPARK-48383][SS] 针对 Kafka 的 startOffset 选项中的不匹配分区引发更好的错误
- [SPARK-48481][SQL][SS] 不要针对流式处理数据集应用 OptimizeOneRowPlan
- [SPARK-48100][SQL] 修复了跳过架构中未选择的嵌套结构字段时出现的问题
- [SPARK-47463][SQL] 使用 V2Predicate 包装返回类型为布尔的表达式
- [SPARK-48445][SQL] 不要将 UDF 与昂贵的子级内联
- [SPARK-48292][CORE] 还原 [SPARK-39195][SQL] 当提交的文件与任务状态不一致时,Spark OutputCommitCoordinator 应中止暂存
- [SPARK-48566][PYTHON] 修复了当 UDTF analyze() 同时使用 select 和 partitionColumns 时分区索引不正确的 bug
- [SPARK-48648][PYTHON][CONNECT] 正确地将 SparkConnectClient.tags 设为 threadlocal
- [SPARK-48503][SQL] 修复了在错误允许的非等效列上使用 group-by 的标量子查询无效的问题
- [SPARK-48252][SQL] 必要时更新 CommonExpressionRef
- [SPARK-48475][PYTHON] 优化 PySpark 中的 _get_jvm_function。
- [SPARK-48294][SQL] 处理 nestedTypeMissingElementTypeError 中的小写
- [SPARK-48286] 修复了使用 exists 默认表达式的列的分析 - 添加面向用户的错误
- [SPARK-47309][SQL] XML:为值标记添加架构推理测试
- [SPARK-47309][SQL][XML] 添加架构推理单元测试
- [SPARK-48273][SQL] 修复了 PlanWithUnresolvedIdentifier 的后期重写
- 操作系统安全更新。
- (行为变更)如果源表被覆盖,则针对 Delta 表源缓存的 DataFrame 现在将失效。 此更改意味着对 Delta 表的所有状态更改现在都会使缓存结果无效。 使用
2024 年 6 月 17 日
applyInPandasWithState()
在共享群集上可用。- 修复了使用 Photon TopK 的排名窗口优化错误地处理包含结构的分区的 bug。
- [SPARK-48310][PYTHON][CONNECT] 缓存的属性必须返回副本
- [SPARK-48276][PYTHON][CONNECT] 为
SQLExpression
添加缺少的__repr__
方法 - [SPARK-48277] 改进 ErrorClassesJsonReader.getErrorMessage 的错误消息
- [SPARK-47764][CORE][SQL] 基于 ShuffleCleanupMode 清理随机依赖项
- 操作系统安全更新。
2024 年 5 月 21 日
- 修复了 try_divide() 函数中的 bug,其中包含小数的输入导致意外异常。
- [SPARK-48173][SQL] CheckAnalysis 应看到整个查询计划
- [SPARK-48016][SQL] 修复了使用十进制时 try_divide 函数中的 bug
- [SPARK-48105][SS] 修复了状态存储卸载和快照之间的争用条件
- [SPARK-48197][SQL] 避免无效 lambda 函数的断言错误
- [SPARK-48180][SQL] 改进了使用 TABLE 参数的 UDTF 调用忘记多个 PARTITION/ORDER BY exprs 周围的括号时的错误
- [SPARK-48014][SQL] 将 EvaluatePython 中的 makeFromJava 错误更改为面向用户的错误
- [SPARK-48056][CONNECT][PYTHON] 如果引发 SESSION_NOT_FOUND 错误,并且未收到部分响应,则重新执行计划
- [SPARK-48146][SQL] 修复 With 表达式子断言中的聚合函数
- [SPARK-47994][SQL] 修复了 SQLServer 中 CASE WHEN 列筛选器下推的 bug
- 操作系统安全更新。
2024 年 5 月 9 日
- [SPARK-47543][CONNECT][PYTHON] 从 Pandas DataFrame 将 dict 推断为 MapType 以允许创建 DataFrame
- [SPARK-47739][SQL] 注册逻辑 avro 类型
- [SPARK-48044][PYTHON][CONNECT] 缓存
DataFrame.isStreaming
- [SPARK-47855][CONNECT] 在不受支持的列表中添加
spark.sql.execution.arrow.pyspark.fallback.enabled
- [SPARK-48010][SQL] 避免在 resolveExpression 中重复调用 conf.resolver
- [SPARK-47941] [SS] [Connect] 将 ForeachBatch 辅助角色初始化错误传播给 PySpark 用户
- [SPARK-47819][CONNECT][Cherry-pick-15.0] 使用异步回调进行执行清理
- [SPARK-47956][SQL] 对未解析的 LCA 引用进行健全性检查
- [SPARK-47839][SQL] 修复 RewriteWithExpression 中的聚合 bug
- [SPARK-48018][SS] 修复引发 KafkaException.couldNotReadOffsetRange 时导致缺少参数错误的 null groupId
- [SPARK-47371][SQL] XML:忽略 CDATA 中找到的行标记
- [SPARK-47907][SQL] 将 bang 放在配置下
- [SPARK-47895][SQL] group by all 应是幂等的
- [SPARK-47973][CORE] 在 SparkContext.stop() 中以及稍后在 SparkContext.assertNotStopped() 中记录调用站点
- [SPARK-47986][CONNECT][PYTHON] 服务器关闭默认会话时无法创建新会话
- 操作系统安全更新。
Databricks Runtime 15.0
请参阅 Databricks Runtime 15.0 (EoS)。
- 2024 年 5 月 30 日
- (行为更改)
dbutils.widgets.getAll()
现在支持获取笔记本中的所有小组件值。
- (行为更改)
- 2024 年 4 月 25 日
- [SPARK-47786] SELECT DISTINCT () 不应变成 SELECT DISTINCT struct()(还原为以前的行为)
- [SPARK-47802][SQL] 将 () 从含义 struct() 还原为含义 *
- [SPARK-47509][SQL] 阻止 lambda 和高阶函数中的子查询表达式
- [SPARK-47722] 等待 RocksDB 后台工作完成后再关闭
- [SPARK-47081][CONNECT][FOLLOW] 提高进度处理程序的可用性
- [SPARK-47694][CONNECT] 使最大消息大小在客户端可配置
- [SPARK-47669][SQL][CONNECT][PYTHON] 添加
Column.try_cast
- [SPARK-47664][PYTHON][CONNECT][Cherry-pick-15.0] 使用缓存架构验证列名称
- [SPARK-47818][CONNECT][Cherry-pick-15.0] 在 SparkConnectPlanner 中引入计划缓存以提高分析请求的性能
- [SPARK-47704][SQL] 启用 spark.sql.json.enablePartialResults 后,JSON 分析失败,并出现“java.lang.ClassCastException”
- [SPARK-47755][CONNECT] 当非重复值的数量太大时,透视应该失败
- [SPARK-47713][SQL][CONNECT] 修复自联接失败
- [SPARK-47812][CONNECT] 支持 ForEachBatch 辅助角色的 SparkSession 序列化
- [SPARK-47828][CONNECT][PYTHON]
DataFrameWriterV2.overwrite
失败并出现计划无效错误 - [SPARK-47862][PYTHON][CONNECT] 修复 proto 文件生成错误
- [SPARK-47800][SQL] 创建新方法来实现标识符到 tableIdentifier 的转换
- 操作系统安全更新。
- 2024 年 4 月 3 日
- (行为变更)为了确保各种计算类型实现一致的行为,共享群集上的 PySpark UDF 现在与无隔离群集和已分配群集上的 UDF 行为相一致。 此更新包括以下可能会中断现有代码的更改:
- 具有
string
返回类型的 UDF 不再隐式地将非string
值转换为string
值。 以前,具有str
返回类型的 UDF 会使用str()
函数包装返回值,而不考虑该返回值的实际数据类型。 - 具有
timestamp
返回类型的 UDF 不再对具有timezone
的timestamp
隐式应用转换。 - Spark 群集配置
spark.databricks.sql.externalUDF.*
不再应用于共享群集上的 PySpark UDF。 - Spark 群集配置
spark.databricks.safespark.externalUDF.plan.limit
不再影响 PySpark UDF,从而消除了 PySpark UDF 的每个查询具有 5 个 UDF 的公共预览版限制。 - Spark 群集配置
spark.databricks.safespark.sandbox.size.default.mib
不再应用于共享群集上的 PySpark UDF。 相反,将使用系统上的可用内存。 若要限制 PySpark UDF 的内存,请使用最小值为100m
的spark.databricks.pyspark.udf.isolation.memoryLimit
。
- 具有
- 现在支持将
TimestampNTZ
数据类型用作具有 liquid 聚类分析的聚类分析列。 请参阅对 Delta 表使用 liquid 聚类分析。 - [SPARK-47218][SQL] XML:忽略 XML tokenizer 中的注释行标记
- [SPARK-46990][SQL] 修复加载事件中心发出的空 Avro 文件的问题
- [SPARK-47033][SQL] 修复 EXECUTE IMMEDIATE USING 无法识别会话变量名称的问题
- [SPARK-47368][SQL] 删除 ParquetRowConverter 中的 inferTimestampNTZ 配置检查
- [SPARK-47561][SQL] 修复有关别名的分析器规则顺序问题
- [SPARK-47638][PS][CONNECT] 跳过 PS 中的列名称验证
- [SPARK-46906][BACKPORT][SS] 添加对流式处理的有状态运算符更改的检查
- [SPARK-47569][SQL] 禁止比较变体。
- [SPARK-47241][SQL] 修复 ExtractGenerator 的规则顺序问题
- [SPARK-47218] [SQL] XML:已将 SchemaOfXml 更改为在 DROPMALFORMED 模式下失败
- [SPARK-47300][SQL]
quoteIfNeeded
应该引用以数字开头的标识符 - [SPARK-47009][SQL][Collation] 启用对排序规则的创建表支持
- [SPARK-47322][PYTHON][CONNECT] 使
withColumnsRenamed
列名称重复处理与withColumnRenamed
保持一致 - [SPARK-47544][PYTHON] SparkSession 生成器方法与 Visual Studio Code IntelliSense 不兼容
- [SPARK-47511][SQL] 通过重新分配 ID 来规范化 With 表达式
- [SPARK-47385] 修复具有 Option 输入的元组编码器的问题。
- [SPARK-47200][SS] Foreach 批处理接收器用户函数错误的错误类
- [SPARK-47135][SS] 实现 Kafka 数据丢失异常的错误类
- [SPARK-38708][SQL] 针对 Hive 3.1 将 Hive 元存储客户端升级到 Hive 3.1.3
- [SPARK-47305][SQL] 修复 PruneFilters,以正确标记 LocalRelation 的 isStreaming 标志(如果计划具有批处理和流式处理)
- [SPARK-47380][CONNECT] 确保服务器端上的 SparkSession 相同
- 操作系统安全更新。
- (行为变更)为了确保各种计算类型实现一致的行为,共享群集上的 PySpark UDF 现在与无隔离群集和已分配群集上的 UDF 行为相一致。 此更新包括以下可能会中断现有代码的更改:
Databricks Runtime 14.2
请参阅 Databricks Runtime 14.2 (EoS)。
- 2024 年 10 月 22 日
- [SPARK-49782][SQL] ResolveDataFrameDropColumns 规则解析具有子输出的 UnresolvedAttribute
- [SPARK-49905] 将专用 ShuffleOrigin 用于有状态运算符,以防止从 AQE 修改随机
- 操作系统安全更新。
- 2024 年 10 月 10 日
- [SPARK-49743][SQL] 当修剪 GetArrayStructFields 时,OptimizeCsvJsonExpr 不应更改模式字段
- [BACKPORT][[SPARK-49474]]https://issues.apache.org/jira/browse/SPARK-49474)[SS] 为 FlatMapGroupsWithState 用户函数错误的错误类分类
- 2024 年 9 月 25 日
- [SPARK-48719][SQL]修复 RegrS 的计算 bug...
- [SPARK-49628][SQL]在计算之前,ConstantFolding 应复制有状态表达式
- [SPARK-49000][SQL] 通过展开RewriteDistinctAggregates 来修复“select count(distinct 1) from t”,其中 t 为空表
- [SPARK-43242][CORE] 修复随机损坏诊断中抛出“BlockId 意外类型”
- [SPARK-46601] [CORE] 修复 handleStatusMessage 中的日志错误
- 操作系统安全更新。
- 2024 年 9 月 17 日
- [SPARK-49526][CONNECT]支持 ArtifactManager 中的 Windows 样式路径
- 2024 年 8 月 29 日
- [SPARK-49263][CONNECT] Spark Connect python 客户端:一致处理布尔 DataFrame 读取器选项
- [SPARK-49146][SS] 将追加模式流查询中有关缺少水印的断言错误移至错误框架
- [SPARK-49056][SQL] ErrorClassesJsonReader 无法正确处理 null
- 2024 年 8 月 14 日
- [SPARK-48050][SS] 查询开始时记录逻辑计划
- [SPARK-48597][SQL] 在逻辑计划的文本表示形式中引入 isStreaming 属性的标记
- [SPARK-49065][SQL] 在旧格式化程序/分析程序中变基必须支持非 JVM 默认时区
- [SPARK-48706][PYTHON] 高阶函数中的 Python UDF 不应抛出内部错误
- 2024 年 8 月 1 日
- 此版本包括对 Spark Java 接口中的
ColumnVector
和ColumnarArray
类的错误修复。 在修复之前,当其中一个类的实例包含null
值时,可能会抛出ArrayIndexOutOfBoundsException
或返回不正确的数据。 SHOW CREATE TABLE
语句的输出现在包括在具体化视图或流式处理表上定义的任何行筛选器或列掩码。 请参阅 SHOW CREATE TABLE。 有关行筛选器和列掩码的详细信息,请参阅使用行筛选器和列掩码筛选敏感表数据。- [SPARK-47202][PYTHON] 修复导致包含 tzinfo 的日期/时间损坏的拼写错误
- [SPARK-48705][PYTHON] 当 worker_main 通过 pyspark 启动时显式使用 worker_main
- 操作系统安全更新。
- 此版本包括对 Spark Java 接口中的
- 2024 年 7 月 11 日
- (行为变更)如果源表被覆盖,则针对 Delta 表源缓存的 DataFrame 现在将失效。 此更改意味着对 Delta 表的所有状态更改现在都会使缓存结果无效。 使用
.checkpoint()
在 DataFrame 的整个生命周期中持久保存表状态。 - Snowflake JDBC 驱动程序已更新到版本 3.16.1
- 此版本包括的修补程序修复了在 Databricks 容器服务中运行时阻止 Spark UI“环境”选项卡正确显示的问题。
- [SPARK-48292][CORE] 还原 [SPARK-39195][SQL] 当提交的文件与任务状态不一致时,Spark OutputCommitCoordinator 应中止暂存
- [SPARK-48273][SQL] 修复了 PlanWithUnresolvedIdentifier 的后期重写
- [SPARK-48503][SQL] 修复了在错误允许的非等效列上使用 group-by 的标量子查询无效的问题
- [SPARK-48481][SQL][SS] 不要针对流式处理数据集应用 OptimizeOneRowPlan
- [SPARK-48475][PYTHON] 优化 PySpark 中的 _get_jvm_function。
- [SPARK-48100][SQL] 修复了跳过架构中未选择的嵌套结构字段时出现的问题
- [SPARK-48445][SQL] 不要将 UDF 与昂贵的子级内联
- [SPARK-48383][SS] 针对 Kafka 的 startOffset 选项中的不匹配分区引发更好的错误
- 操作系统安全更新。
- (行为变更)如果源表被覆盖,则针对 Delta 表源缓存的 DataFrame 现在将失效。 此更改意味着对 Delta 表的所有状态更改现在都会使缓存结果无效。 使用
- 2024 年 6 月 17 日
- 修复了使用 Photon TopK 的排名窗口优化错误地处理包含结构的分区的 bug。
- [SPARK-48276][PYTHON][CONNECT] 为
SQLExpression
添加缺少的__repr__
方法 - [SPARK-48277] 改进 ErrorClassesJsonReader.getErrorMessage 的错误消息
- 操作系统安全更新。
- 2024 年 5 月 21 日
- (行为更改)
dbutils.widgets.getAll()
现在支持获取笔记本中的所有小组件值。 - [SPARK-48173][SQL] CheckAnalysis 应看到整个查询计划
- [SPARK-48197][SQL] 避免无效 lambda 函数的断言错误
- [SPARK-47994][SQL] 修复了 SQLServer 中 CASE WHEN 列筛选器下推的 bug
- [SPARK-48105][SS] 修复了状态存储卸载和快照之间的争用条件
- 操作系统安全更新。
- (行为更改)
- 2024 年 5 月 9 日
- [SPARK-48044][PYTHON][CONNECT] 缓存
DataFrame.isStreaming
- [SPARK-47956][SQL] 对未解析的 LCA 引用进行健全性检查
- [SPARK-47371][SQL] XML:忽略 CDATA 中找到的行标记
- [SPARK-47812][CONNECT] 支持 ForEachBatch 辅助角色的 SparkSession 序列化
- [SPARK-47895][SQL] group by all 应是幂等的
- [SPARK-47973][CORE] 在 SparkContext.stop() 中以及稍后在 SparkContext.assertNotStopped() 中记录调用站点
- 操作系统安全更新。
- [SPARK-48044][PYTHON][CONNECT] 缓存
- 2024 年 4 月 25 日
- [SPARK-47704][SQL] 启用 spark.sql.json.enablePartialResults 后,JSON 分析失败,并出现“java.lang.ClassCastException”
- [SPARK-47828][CONNECT][PYTHON]
DataFrameWriterV2.overwrite
失败并出现计划无效错误 - 操作系统安全更新。
- 2024 年 4 月 11 日
- [SPARK-47309][SQL][XML] 添加架构推理单元测试
- [SPARK-46990][SQL] 修复加载事件中心发出的空 Avro 文件的问题
- [SPARK-47638][PS][CONNECT] 跳过 PS 中的列名称验证
- [SPARK-47509][SQL] 阻止 lambda 和高阶函数中的子查询表达式
- [SPARK-38708][SQL] 针对 Hive 3.1 将 Hive 元存储客户端升级到 Hive 3.1.3
- 操作系统安全更新。
- 2024 年 4 月 1 日
- [SPARK-47322][PYTHON][CONNECT] 使
withColumnsRenamed
列名称重复处理与withColumnRenamed
保持一致 - [SPARK-47385] 修复具有 Option 输入的元组编码器的问题。
- [SPARK-47070] 修复子查询重写后无效的聚合
- [SPARK-47218] [SQL] XML:已将 SchemaOfXml 更改为在 DROPMALFORMED 模式下失败
- [SPARK-47305][SQL] 修复 PruneFilters,以正确标记 LocalRelation 的 isStreaming 标志(如果计划具有批处理和流式处理)
- [SPARK-47218][SQL] XML:忽略 XML tokenizer 中的注释行标记
- 还原“[SPARK-46861][CORE] 避免 DAGScheduler 中的死锁”
- [SPARK-47300][SQL]
quoteIfNeeded
应该引用以数字开头的标识符 - [SPARK-47368][SQL] 删除 ParquetRowConverter 中的 inferTimestampNTZ 配置检查
- 操作系统安全更新。
- [SPARK-47322][PYTHON][CONNECT] 使
- 2024 年 3 月 14 日
- [SPARK-47035][SS][CONNECT] 客户端侦听器的协议
- [SPARK-47121][CORE] 在 StandaloneSchedulerBackend 关闭期间避免 RejectedExecutionExceptions
- [SPARK-47145][SQL] 将表标识符传递给 V2 策略的行数据源扫描 exec。
- [SPARK-47176][SQL] 具有 ResolveAllExpressionsUpWithPruning 帮助程序函数
- [SPARK-47167][SQL] 为 JDBC 匿名关系添加实际类别
- [SPARK-47129][CONNECT][SQL] 正确制定
ResolveRelations
缓存连接计划 - [SPARK-47044][SQL] 添加 JDBC 外部数据源的已执行查询以解释输出
- 操作系统安全更新。
- 2024 年 2 月 29 日
- 修复了在 MERGE 命令中使用本地集合作为源可能会导致操作指标 numSourceRows 报告将正确的行数加倍的问题。
- 使用定义的位置创建架构现在要求用户对 ANY FILE 拥有 SELECT 和 MODIFY 特权。
- 现在可以使用自动加载程序、read_files、COPY INTO、DLT 和 DBSQL 引入 XML 文件。 XML 文件支持可以自动推断和改进架构、采用类型不匹配的救援数据、使用 XSD 验证 XML、支持 SQL 表达式(如from_xml、schema_of_xml 和 to_xml)。 有关更多详细信息,请参阅 XML 文件支持。 如果以前曾使用过外部 spark-xml 包,请参阅此处以获取迁移指导。
- [SPARK-46954][SQL] XML:使用 BufferedReader 包装 InputStreamReader
- [SPARK-46630][SQL] XML:写入时验证 XML 元素名称
- [SPARK-46248][SQL] XML:支持 ignoreCorruptFiles 和 ignoreMissingFiles 选项
- [SPARK-46954][SQL] XML:优化架构索引查找
- [SPARK-47059][SQL] 附加 ALTER COLUMN v1 命令的错误上下文
- [SPARK-46993][SQL] 修复会话变量的常数折叠
- 2024 年 2 月 8 日
- 不支持对 Unity Catalog 具体化视图进行更改数据馈送 (CDF) 查询,并且尝试使用 Unity Catalog 具体化视图运行 CDF 查询将返回错误。 Unity Catalog 流式处理表支持对 Databricks Runtime 14.1 及更高版本中的非
APPLY CHANGES
表进行 CDF 查询。 Databricks Runtime 14.0 及更早版本中的 Unity Catalog 流式处理表不支持 CDF 查询。 - [SPARK-46930] 添加对 Avro 中联合类型字段的自定义前缀的支持。
- [SPARK-46822] 在 jdbc 中将 jdbc 类型转换为 catalyst 类型时,遵循 spark.sql.legacy.charVarcharAsString。
- [SPARK-46952] XML:限制损坏记录的大小。
- [SPARK-46644] 更改 SQLMetric 中的添加和合并以使用 isZero。
- [SPARK-46861] 避免 DAGScheduler 中的死锁。
- [SPARK-46794] 从 LogicalRDD 约束中删除子查询。
- [SPARK-46941] 如果包含 SizeBasedWindowFunction,则无法为 top-k 计算插入窗口组限制节点。
- [SPARK-46933] 向使用 JDBCRDD 的连接器添加查询执行时间指标。
- 操作系统安全更新。
- 不支持对 Unity Catalog 具体化视图进行更改数据馈送 (CDF) 查询,并且尝试使用 Unity Catalog 具体化视图运行 CDF 查询将返回错误。 Unity Catalog 流式处理表支持对 Databricks Runtime 14.1 及更高版本中的非
- 2024 年 1 月 31 日
- [SPARK-46382] XML:更新
ignoreSurroundingSpaces
文档。 - [SPARK-46382] XML:捕获混杂在元素之间的值。
- [SPARK-46763] 修复了重复属性的 ReplaceDeduplicateWithAggregate 中的断言失败。
- 还原 [SPARK-46769] 优化与时间戳相关的架构推理。
- [SPARK-46677] 修复
dataframe["*"]
分辨率。 - [SPARK-46382] XML:默认 ignoreSurroundingSpaces 为 true。
- [SPARK-46633] 修复 Avro 读取器以处理零长度块。
- [SPARK-45964] 删除 catalyst 包下 XML 和 JSON 包中的专用 sql 访问器。
- [SPARK-46581] 更新 AccumulatorV2 中 isZero 的注释。
- [SPARK-45912] XSDToSchema API 增强:更改为 HDFS API 以实现云存储空间辅助功能。
- [SPARK-45182] 在重试由校验和确定的父不确定阶段后忽略旧阶段的任务完成。
- [SPARK-46660] ReattachExecute 请求更新 SessionHolder 的活动状态。
- [SPARK-46610] 当选项中没有键的值时,创建表应引发异常。
- [SPARK-46383] 通过减短
TaskInfo.accumulables()
的生存期来减少驱动程序堆使用量。 - [SPARK-46769] 优化与时间戳相关的架构推理。
- [SPARK-46684] 修复 CoGroup.applyInPandas/Arrow 以正确传递参数。
- [SPARK-46676] dropDuplicatesWithinWatermark 不应在计划的规范化时失败。
- [SPARK-45962] 删除
treatEmptyValuesAsNulls
并使用 XML 中的nullValue
选项。 - [SPARK-46541] 修复自联接中的不明确列引用。
- [SPARK-46599] XML:使用 TypeCoercion.findTightestCommonType 进行兼容性检查。
- 操作系统安全更新。
- [SPARK-46382] XML:更新
- 2024 年 1 月 17 日
- Photon 查询返回的解释计划的
shuffle
节点已更新为在随机读取(广播联接的一部分)期间发生内存不足错误时添加causedBroadcastJoinBuildOOM=true
标志。 - 为了避免在通过 TLSv1.3 通信时增加延迟,此维护版本包括 JDK 8 安装的修补程序,以修复 JDK bug JDK-8293562。
- [SPARK-46261]
DataFrame.withColumnsRenamed
应保留 dict/map 排序。 - [SPARK-46538] 修复
ALSModel.transform
中的不明确列引用问题。 - [SPARK-46145] 找不到表或视图时,spark.catalog.listTables 不引发异常。
- [SPARK-46484] 使
resolveOperators
帮助程序函数保留计划 ID。 - [SPARK-46394] 修复
spark.sql.legacy.keepCommandOutputSchema
设置为 true 时具有特殊字符的架构的 spark.catalog.listDatabases() 问题。 - [SPARK-46609] 避免 PartitioningPreservingUnaryExecNode 中的指数爆炸。
- [SPARK-46446] 禁用具有关联 OFFSET 的子查询以修复正确性 bug。
- [SPARK-46152] XML:在 XML 架构推理中添加 DecimalType 支持。
- [SPARK-46602] 当视图/表不存在时在视图创建中传播
allowExisting
。 - [SPARK-45814] 使 ArrowConverters.createEmptyArrowBatch 调用 close() 以避免内存泄漏。
- [SPARK-46058] 为 privateKeyPassword 添加单独的标志。
- [SPARK-46132] 支持用于 RPC SSL 的 JKS 密钥的密钥密码。
- [SPARK-46600] 将 SqlConf 和 SqlApiConf 之间的共享代码移动到 SqlApiConfHelper。
- [SPARK-46478] 将 SPARK-43049 还原为将 oracle varchar(255) 用于字符串。
- [SPARK-46417] 调用 hive.getTable 且 throwException 为 false 时,不返回失败。
- [SPARK-46153] XML:添加 TimestampNTZType 支持。
- [SPARK-46056][BACKPORT] 使用 byteArrayDecimalType 默认值修复 Parquet 矢量化读取 NPE。
- [SPARK-46466] 矢量化 parquet 读取器不应对时间戳 ntz 进行变基。
- [SPARK-46260]
DataFrame.withColumnsRenamed
应遵循 dict 顺序。 - [SPARK-46036] 从 raise_error 函数中移除错误类。
- [SPARK-46294] 清理 init 与零值的语义。
- [SPARK-46173] 在日期分析期间跳过 trimAll 调用。
- [SPARK-46250] 对 test_parity_listener 执行 deflake 操作。
- [SPARK-46587] XML:修复 XSD 大整数转换。
- [SPARK-46396] 时间戳推理不应引发异常。
- [SPARK-46241] 修复错误处理例程,防止其陷入无限递归。
- [SPARK-46355] XML:在读取完成时关闭 InputStreamReader。
- [SPARK-46370] 修复更改列默认值后从表查询时的 bug。
- [SPARK-46265] AddArtifact RPC 中的断言使连接客户端与旧群集不兼容。
- [SPARK-46308] 禁止递归错误处理。
- [SPARK-46337] 使
CTESubstitution
保留PLAN_ID_TAG
。
- Photon 查询返回的解释计划的
- 2023 年 12 月 14 日
- [SPARK-46141] 将 spark.sql.legacy.ctePrecedencePolicy 的默认值更改为 CORRECTED。
- [SPARK-45730] 增加 ReloadingX509TrustManagerSuite 的可靠性。
- [SPARK-45852] 正常处理日志记录期间的递归错误。
- [SPARK-45808] 改进了 SQL 异常的错误处理。
- [SPARK-45920] 按序号分组应是幂等的。
- 还原“[SPARK-45649] 统一
OffsetWindowFunctionFrame
的准备框架”。 - [SPARK-45733] 支持多个重试策略。
- [SPARK-45509] 修复 Spark Connect 的 df 列引用行为。
- [SPARK-45655] 允许 CollectMetrics 的 AggregateFunctions 中的非确定性表达式。
- [SPARK-45905] 小数类型之间最不常见的类型应首先保留整数位。
- [SPARK-45136] 通过 Ammonite 支持来增强 ClosureCleaner。
- [SPARK-46255] 支持复杂类型 -> 字符串转换。
- [SPARK-45859] 使 ml.functions 中的 UDF 对象延迟。
- [SPARK-46028] 使
Column.__getitem__
接受输入列。 - [SPARK-45798] 断言服务器端会话 ID。
- [SPARK-45892] 重构优化器计划验证,以分离
validateSchemaOutput
和validateExprIdUniqueness
。 - [SPARK-45844] 实现 XML 不区分大小写。
- [SPARK-45770] 介绍针对
Dataframe.drop
的计划DataFrameDropColumns
。 - [SPARK-44790] XML:针对 Python、Spark Connect 和 SQL 的 to_xml 实现和绑定。
- [SPARK-45851] 支持 scala 客户端中的多个策略。
- 操作系统安全更新。
- 2023 年 11 月 29 日
- 安装了一个新包
pyarrow-hotfix
以修正 PyArrow RCE 漏洞。 - 修复了源自 JDBC 或 ODBC 客户端的
getColumns
操作中的转义下划线被错误解释为通配符的问题。 - [SPARK-45730] 改进了
ReloadingX509TrustManagerSuite
的时间限制。 - [SPARK-45852] Spark Connect 的 Python 客户端现在在文本转换期间捕获递归错误。
- [SPARK-45808] 改进了 SQL 异常的错误处理。
- [SPARK-45920]
GROUP BY
序号不替换序号。 - 还原 [SPARK-45649]。
- [SPARK-45733] 添加了对多个重试策略的支持。
- [SPARK-45509] 修复了 Spark Connect 的
df
列引用行为。 - [SPARK-45655] 允许在
CollectMetrics
中的AggregateFunctions
内使用非确定性表达式。 - [SPARK-45905] 小数类型之间最不常见的类型现在首先保留整数位。
- [SPARK-45136] 通过 Ammonite 支持增强
ClosureCleaner
。 - [SPARK-45859] 将
ml.functions
中的 UDF 对象设为惰性。 - [SPARK-46028]
Column.__getitem__
接受输入列。 - [SPARK-45798] 断言服务器端会话 ID。
- [SPARK-45892] 重构优化器计划验证,以分离
validateSchemaOutput
和validateExprIdUniqueness
。 - [SPARK-45844] 实现 XML 不区分大小写。
- [SPARK-45770] 修复了
Dataframe.drop
的DataFrameDropColumns
的列分辨率问题。 - [SPARK-44790] 为 Python、Spark Connect 和 SQL 添加了
to_xml
实现和绑定。 - [SPARK-45851] 添加了对 Scala 客户端中的多个策略的支持。
- 操作系统安全更新。
- 安装了一个新包
Databricks Runtime 14.0
请参阅 Databricks Runtime 14.0 (EoS)。
- 2024 年 2 月 8 日
- [SPARK-46396] 时间戳推理不应引发异常。
- [SPARK-46794] 从 LogicalRDD 约束中删除子查询。
- [SPARK-45182] 在重试由校验和确定的父不确定阶段后忽略旧阶段的任务完成。
- [SPARK-46933] 向使用 JDBCRDD 的连接器添加查询执行时间指标。
- [SPARK-45957] 避免为非可执行命令生成执行计划。
- [SPARK-46861] 避免 DAGScheduler 中的死锁。
- [SPARK-46930] 添加对 Avro 中联合类型字段的自定义前缀的支持。
- [SPARK-46941] 如果包含 SizeBasedWindowFunction,则无法为 top-k 计算插入窗口组限制节点。
- [SPARK-45582] 确保在输出模式流式处理聚合中调用提交后不使用存储实例。
- 操作系统安全更新。
- 2024 年 1 月 31 日
- [SPARK-46541] 修复自联接中的不明确列引用。
- [SPARK-46676] dropDuplicatesWithinWatermark 不应在计划的规范化时失败。
- [SPARK-46769] 优化与时间戳相关的架构推理。
- [SPARK-45498] 跟进:忽略旧阶段尝试的任务完成。
- 还原 [SPARK-46769] 优化与时间戳相关的架构推理。
- [SPARK-46383] 通过减短
TaskInfo.accumulables()
的生存期来减少驱动程序堆使用量。 - [SPARK-46633] 修复 Avro 读取器以处理零长度块。
- [SPARK-46677] 修复
dataframe["*"]
分辨率。 - [SPARK-46684] 修复 CoGroup.applyInPandas/Arrow 以正确传递参数。
- [SPARK-46763] 修复了重复属性的 ReplaceDeduplicateWithAggregate 中的断言失败。
- [SPARK-46610] 当选项中没有键的值时,创建表应引发异常。
- 操作系统安全更新。
- 2024 年 1 月 17 日
- Photon 查询返回的解释计划的
shuffle
节点已更新为在随机读取(广播联接的一部分)期间发生内存不足错误时添加causedBroadcastJoinBuildOOM=true
标志。 - 为了避免在通过 TLSv1.3 通信时增加延迟,此维护版本包括 JDK 8 安装的修补程序,以修复 JDK bug JDK-8293562。
- [SPARK-46394] 修复
spark.sql.legacy.keepCommandOutputSchema
设置为 true 时具有特殊字符的架构的 spark.catalog.listDatabases() 问题。 - [SPARK-46250] 对 test_parity_listener 执行 deflake 操作。
- [SPARK-45814] 使 ArrowConverters.createEmptyArrowBatch 调用 close() 以避免内存泄漏。
- [SPARK-46173] 在日期分析期间跳过 trimAll 调用。
- [SPARK-46484] 使
resolveOperators
帮助程序函数保留计划 ID。 - [SPARK-46466] 矢量化 parquet 读取器不应对时间戳 ntz 进行变基。
- [SPARK-46056] 使用 byteArrayDecimalType 默认值修复 Parquet 矢量化读取 NPE。
- [SPARK-46058] 为 privateKeyPassword 添加单独的标志。
- [SPARK-46478] 将 SPARK-43049 还原为将 oracle varchar(255) 用于字符串。
- [SPARK-46132] 支持用于 RPC SSL 的 JKS 密钥的密钥密码。
- [SPARK-46417] 调用 hive.getTable 且 throwException 为 false 时,不返回失败。
- [SPARK-46261]
DataFrame.withColumnsRenamed
应保留 dict/map 排序。 - [SPARK-46370] 修复更改列默认值后从表查询时的 bug。
- [SPARK-46609] 避免 PartitioningPreservingUnaryExecNode 中的指数爆炸。
- [SPARK-46600] 将 SqlConf 和 SqlApiConf 之间的共享代码移动到 SqlApiConfHelper。
- [SPARK-46538] 修复
ALSModel.transform
中的不明确列引用问题。 - [SPARK-46337] 使
CTESubstitution
保留PLAN_ID_TAG
。 - [SPARK-46602] 当视图/表不存在时在视图创建中传播
allowExisting
。 - [SPARK-46260]
DataFrame.withColumnsRenamed
应遵循 dict 排序。 - [SPARK-46145] 找不到表或视图时,spark.catalog.listTables 不引发异常。
- Photon 查询返回的解释计划的
- 2023 年 12 月 14 日
- 修复了源自 JDBC 或 ODBC 客户端的 getColumns 操作中的转义下划线被错误处理并解释为通配符的问题。
- [SPARK-46255] 支持复杂类型 -> 字符串转换。
- [SPARK-46028] 使
Column.__getitem__
接受输入列。 - [SPARK-45920] 按序号分组应是幂等的。
- [SPARK-45433] 修正时间戳与指定的 timestampFormat 不匹配时的 CSV/JSON 架构推理。
- [SPARK-45509] 修复 Spark Connect 的 df 列引用行为。
- 操作系统安全更新。
- 2023 年 11 月 29 日
- 安装了一个新包
pyarrow-hotfix
以修正 PyArrow RCE 漏洞。 - 修复了源自 JDBC 或 ODBC 客户端的
getColumns
操作中的转义下划线被错误解释为通配符的问题。 - 使用自动加载程序或流式处理表引入 CSV 数据时,大型 CSV 文件现在可拆分,并且可以在架构推理和数据处理期间并行处理。
- Spark-snowflake 连接器已升级到 2.12.0。
- [SPARK-45859] 将
ml.functions
中的 UDF 对象设为惰性。 - 还原 [SPARK-45592]。
- [SPARK-45892] 重构优化器计划验证,以分离
validateSchemaOutput
和validateExprIdUniqueness
。 - [SPARK-45592] 修复了 AQE 中
InMemoryTableScanExec
的正确性问题。 - [SPARK-45620] 与 Python UDF 相关的 API 现在使用驼峰拼写法。
- [SPARK-44784] 使 SBT 测试具有封闭性。
- [SPARK-45770] 修复了
Dataframe.drop
的DataFrameDropColumns
的列分辨率问题。 - [SPARK-45544] 向
TransportContext
中集成了 SSL 支持。 - [SPARK-45730] 改进了
ReloadingX509TrustManagerSuite
的时间限制。 - 操作系统安全更新。
- 安装了一个新包
- 2023 年 11 月 10 日
- 更改了 Unity Catalog 流式处理表和具体化视图上的数据馈送查询以显示错误消息。
- [SPARK-45545]
SparkTransportConf
将在创建时继承SSLOptions
。 - [SPARK-45584] 修复了
TakeOrderedAndProjectExec
子查询运行失败的问题。 - [SPARK-45427] 向
SSLOptions
和SparkTransportConf
添加了 RPC SSL 设置。 - [SPARK-45541] 添加了
SSLFactory
。 - [SPARK-45430]
FramelessOffsetWindowFunction
在IGNORE NULLS
和offset > rowCount
时不再失败。 - [SPARK-45429] 为 SSL RPC 通信添加了帮助程序类。
- [SPARK-44219] 为优化重写添加了额外的每规则验证。
- [SPARK-45543] 修复了当其他窗口函数没有与类似排名的函数相同的窗口帧时
InferWindowGroupLimit
会生成错误的问题。 - 操作系统安全更新。
- 2023 年 10 月 23 日
- [SPARK-45426] 添加了对
ReloadingX509TrustManager
的支持。 - [SPARK-45396] 添加了
PySpark.ml.connect
模块的文档条目,并将Evaluator
添加到了ml.connect
的__all__
。 - [SPARK-45256] 修复了
DurationWriter
在写入的值超过初始容量时会失败的问题。 - [SPARK-45279] 已将
plan_id
附加到所有逻辑计划。 - [SPARK-45250] 添加了禁用动态分配时对 yarn 群集的阶段级任务资源配置文件的支持。
- [SPARK-45182] 添加了对回滚随机映射阶段的支持,因此当阶段输出不确定时可以重试所有阶段任务。
- [SPARK-45419] 通过移除较大版本的文件版本映射条目,避免重用不同
rocksdb
实例中的rocksdb sst
文件。 - [SPARK-45386] 修复了
StorageLevel.NONE
错误返回 0 的问题。 - 操作系统安全更新。
- [SPARK-45426] 添加了对
- 2023 年 10 月 13 日
- Snowflake-jdbc 依赖项从 3.13.29 升级到 3.13.33。
- 对于正索引和负索引,
array_insert
函数是从 1 开始的;而在以前,对于负索引,它是从于 0 开始的。 现在,它在索引 -1 的输入数组末尾插入新元素。 若要还原以前的行为,请将spark.sql.legacy.negativeIndexInArrayInsert
设置为true
。 - 在使用自动加载程序进行 CSV 架构推理期间启用
ignoreCorruptFiles
时,Azure Databricks 不再忽略损坏的文件。 - [SPARK-45227] 修复了
CoarseGrainedExecutorBackend
的微小线程安全问题。 - [SPARK-44658]
ShuffleStatus.getMapStatus
应返回None
而不是Some(null)
。 - [SPARK-44910]
Encoders.bean
不支持具有泛型参数的超级类。 - [SPARK-45346] 在合并架构时,Parquet 架构推理采用的标志区分大小写。
- 还原 [SPARK-42946]。
- [SPARK-42205] 更新了 JSON 协议,以移除任务或阶段启动事件中的可累积日志记录。
- [SPARK-45360] Spark 会话生成器支持从
SPARK_REMOTE
初始化。 - [SPARK-45316] 向
HadoopRDD
和NewHadoopRDD
添加新参数ignoreCorruptFiles
/ignoreMissingFiles
。 - [SPARK-44909] 跳过运行 torch 分发服务器日志流式处理服务器(如果不可用)。
- [SPARK-45084]
StateOperatorProgress
现在使用准确的随机分区号。 - [SPARK-45371] 修复了 Spark Connect Scala 客户端中的明暗度问题。
- [SPARK-45178] 回退到运行源不受支持的
Trigger.AvailableNow
的单个批处理,而不是使用包装器。 - [SPARK-44840] 使负索引的
array_insert()
从 1 开始。 - [SPARK-44551] 编辑了注释以与 OSS 同步。
- [SPARK-45078] 当元素类型与派生的组件类型不同时,
ArrayInsert
函数现在会进行显式强制转换。 - [SPARK-45339] PySpark 现在会记录重试错误。
- [SPARK-45057] 避免在
keepReadLock
为 false 时获取读取锁。 - [SPARK-44908] 修复了交叉验证程序
foldCol
参数功能。 - 操作系统安全更新。
Databricks Runtime 13.1
请参阅 Databricks Runtime 13.1 (EoS)。
- 2023 年 11 月 29 日
- 修复了源自 JDBC 或 ODBC 客户端的
getColumns
操作中的转义下划线被错误解释为通配符的问题。 - [SPARK-44846] 移除了
RemoveRedundantAggregates
之后的复杂分组表达式。 - [SPARK-43802] 修复了 unhex 和 unbase64 表达式的代码生成失败的问题。
- [SPARK-43718] 修复了
USING
联接中键的为 Null 性。 - 操作系统安全更新。
- 修复了源自 JDBC 或 ODBC 客户端的
- 2023 年 11 月 14 日
- Delta Lake 流式处理查询上的分区筛选器会向下推送,然后再进行速率限制,从而实现更高的利用率。
- 更改了 Unity Catalog 流式处理表和具体化视图上的数据馈送查询以显示错误消息。
- [SPARK-45584] 修复了
TakeOrderedAndProjectExec
子查询运行失败的问题。 - [SPARK-45430]
FramelessOffsetWindowFunction
在IGNORE NULLS
和offset > rowCount
时不再失败。 - [SPARK-45543] 修复了当其他窗口函数没有与类似排名的函数相同的窗口帧时
InferWindowGroupLimit
会导致问题的问题。 - 操作系统安全更新。
- 2023 年 10 月 24 日
- [SPARK-43799] 向 PySpark
Protobuf
API 添加了描述符二进制选项。 - 还原 [SPARK-42946]。
- [SPARK-45346] 在合并架构时,Parquet 架构推理采用的标志现在区分大小写。
- 操作系统安全更新。
- [SPARK-43799] 向 PySpark
- 2023 年 10 月 13 日
- Snowflake-jdbc 依赖项从 3.13.29 升级到 3.13.33。
- 在使用自动加载程序进行 CSV 架构推理期间启用
ignoreCorruptFiles
时,不再忽略损坏的文件。 - [SPARK-44658]
ShuffleStatus.getMapStatus
将返回None
而不是Some(null)
。 - [SPARK-45178] 回退到运行源不受支持的
Trigger.AvailableNow
的单个批处理,而不是使用包装器。 - [SPARK-42205] 更新了 JSON 协议,以移除任务或阶段启动事件中的可累积日志记录。
- 操作系统安全更新。
- 2023 年 9 月 12 日
- [SPARK-44718] 将
ColumnVector
内存模式配置默认值与OffHeapMemoryMode
配置值匹配。 - SPARK-44878 禁用了对
RocksDB
写入管理器的严格限制,以避免缓存完成时出现插入异常。 - 其他修复。
- [SPARK-44718] 将
- 2023 年 8 月 30 日
- [SPARK-44871] 已修复“percentile_disc 行为”。
- [SPARK-44714] 轻松限制有关查询的 LCA 解析。
- [SPARK-44245]
PySpark.sql.dataframe sample()
文档测试现在仅用于说明目的。 - [SPARK-44818] 修复了初始化
taskThread
之前发出的挂起任务中断的争用。 - 操作系统安全更新。
- 2023 年 8 月 15 日
- [SPARK-44485] 优化了
TreeNode.generateTreeString
。 - [SPARK-44643] 修复了行为空时的
Row.__repr__
。 - [SPARK-44504] 维护任务现在在停止错误时清理已加载的提供程序。
- [SPARK-44479] 修复了从空结构类型进行的
protobuf
转换。 - [SPARK-44464] 修复了
applyInPandasWithStatePythonRunner
以输出将Null
作为第一列值的行。 - 其他修复。
- [SPARK-44485] 优化了
- 2023 年 7 月 27 日
- 修复了在调用与其他外部或托管存储位置存在冲突的存储位置路径时
dbutils.fs.ls()
返回INVALID_PARAMETER_VALUE.LOCATION_OVERLAP
的问题。 - [SPARK-44199]
CacheManager
不再不必要地刷新fileIndex
。 - [SPARK-44448] 修复了来自
DenseRankLimitIterator
和InferWindowGroupLimit
的错误结果 bug。 - 操作系统安全更新。
- 修复了在调用与其他外部或托管存储位置存在冲突的存储位置路径时
- 2023 年 7 月 24 日
- 还原 [SPARK-42323]。
- [SPARK-41848] 修复了
TaskResourceProfile
的任务超出计划的问题。 - [SPARK-44136] 修复了
StateManager
可能会在FlatMapGroupsWithStateExec
中的执行程序而不是驱动程序中具体化的问题。 - [SPARK-44337] 修复了将任何字段设置为
Any.getDefaultInstance
会导致分析错误的问题。 - 操作系统安全更新。
- 2023 年 6 月 27 日
- 操作系统安全更新。
- 2023 年 6 月 15 日
- 已光子化
approx_count_distinct
。 failOnUnknownFields
模式下的 JSON 分析程序现在会丢弃DROPMALFORMED
模式下的记录,并在FAILFAST
模式下直接失败。- Snowflake-jdbc 库已升级到 3.13.29 以解决安全问题。
PubSubRecord
属性字段存储为 JSON 而不是来自 Scala 映射的字符串,以实现更简单的序列化和反序列化。- 命令
EXPLAIN EXTENDED
现在会返回查询的结果缓存资格。 - 使用
SHALLOW CLONE
Iceberg 和 Parquet 提高增量更新的性能。 - [SPARK-43032] Python SQM bug 修复。
- [SPARK-43404]跳过对相同版本的 RocksDB 状态存储重用 sst 文件,以避免出现 ID 不匹配错误。
- [SPARK-43340] 处理事件日志中堆栈跟踪字段缺失的问题。
- [SPARK-43527] 修复了 PySpark 中的
catalog.listCatalogs
。 - [SPARK-43541] 在解析表达式和缺失列时传播所有
Project
标记。 - [SPARK-43300] 用于 Guava 缓存的
NonFateSharingCache
包装器。 - [SPARK-43378] 正确关闭
deserializeFromChunkedBuffer
中的流对象。 - [SPARK-42852] 从
EquivalentExpressions
还原NamedLambdaVariable
相关更改。 - [SPARK-43779]
ParseToDate
现在会在主线程中加载EvalMode
。 - [SPARK-43413] 修复
IN
子查询ListQuery
的为 Null 性。 - [SPARK-43889] 为
__dir__()
添加列名检查,以筛除容易出错的列名。 - [SPARK-43043] 改进了
MapOutputTracker
.updateMapOutput 的性能 - [SPARK-43522] 修复了使用数组索引创建结构列名的问题。
- [SPARK-43457] 使用 OS、Python 和 Spark 版本增强用户代理。
- [SPARK-43286] 更新了
aes_encrypt
CBC 模式以生成随机 IV。 - [SPARK-42851] 使用
supportedExpression()
保护EquivalentExpressions.addExpr()
。 - 还原 [SPARK-43183]。
- 操作系统安全更新。
- 已光子化
Databricks Runtime 12.2 LTS
请参阅 Databricks Runtime 12.2 LTS。
- 2023 年 11 月 29 日
- 修复了源自 JDBC 或 ODBC 客户端的
getColumns
操作中的转义下划线被错误解释为通配符的问题。 - [SPARK-42205] 移除了
Stage
和Task
启动事件的可累积项日志记录。 - [SPARK-44846] 移除了
RemoveRedundantAggregates
之后的复杂分组表达式。 - [SPARK-43718] 修复了
USING
联接中键的为 Null 性。 - [SPARK-45544] 向
TransportContext
中集成了 SSL 支持。 - [SPARK-43973] 结构化流式处理 UI 现在正确显示失败的查询。
- [SPARK-45730] 改进了
ReloadingX509TrustManagerSuite
的时间限制。 - [SPARK-45859] 将
ml.functions
中的 UDF 对象设为惰性。 - 操作系统安全更新。
- 修复了源自 JDBC 或 ODBC 客户端的
- 2023 年 11 月 14 日
- Delta Lake 流式处理查询上的分区筛选器会向下推送,然后再进行速率限制,从而实现更高的利用率。
- [SPARK-45545]
SparkTransportConf
将在创建时继承SSLOptions
。 - [SPARK-45427] 向
SSLOptions
和SparkTransportConf
添加了 RPC SSL 设置。 - [SPARK-45584] 修复了
TakeOrderedAndProjectExec
子查询运行失败的问题。 - [SPARK-45541] 添加了
SSLFactory
。 - [SPARK-45430]
FramelessOffsetWindowFunction
在IGNORE NULLS
和offset > rowCount
时不再失败。 - [SPARK-45429] 为 SSL RPC 通信添加了帮助程序类。
- 操作系统安全更新。
- 2023 年 10 月 24 日
- [SPARK-45426] 添加了对
ReloadingX509TrustManager
的支持。 - 其他修复。
- [SPARK-45426] 添加了对
- 2023 年 10 月 13 日
- Snowflake-jdbc 依赖项从 3.13.29 升级到 3.13.33。
- [SPARK-42553] 确保间隔后至少有一个时间单位。
- [SPARK-45346] 在合并架构时,Parquet 架构推理采用的标志区分大小写。
- [SPARK-45178] 回退到运行源不受支持的
Trigger.AvailableNow
的单个批处理,而不是使用包装器。 - [SPARK-45084]
StateOperatorProgress
将使用准确、够用的随机分区号。
- 2023 年 9 月 12 日
- [SPARK-44873] 在 Hive 客户端中添加了对带有嵌套列的
alter view
的支持。 - [SPARK-44718] 将
ColumnVector
内存模式配置默认值与OffHeapMemoryMode
配置值匹配。 - [SPARK-43799] 向 PySpark
Protobuf
API 添加了描述符二进制选项。 - 其他修复。
- [SPARK-44873] 在 Hive 客户端中添加了对带有嵌套列的
- 2023 年 8 月 30 日
- [SPARK-44485] 优化了
TreeNode.generateTreeString
。 - [SPARK-44818] 修复了初始化
taskThread
之前发出的挂起任务中断的争用。 - [SPARK-44871][11.3-13.0] 修复了
percentile_disc
行为。 - [SPARK-44714] 缓解了对查询的 LCA 解析的限制。
- 操作系统安全更新。
- [SPARK-44485] 优化了
- 2023 年 8 月 15 日
- [SPARK-44504] 维护任务在停止错误时清理已加载的提供程序。
- [SPARK-44464] 修复了
applyInPandasWithStatePythonRunner
以输出将Null
作为第一列值的行。 - 操作系统安全更新。
- 2023 年 7 月 29 日
- 修复了在调用与其他外部或托管存储位置存在冲突的存储位置路径时
dbutils.fs.ls()
返回INVALID_PARAMETER_VALUE.LOCATION_OVERLAP
的问题。 - [SPARK-44199]
CacheManager
不再不必要地刷新fileIndex
。 - 操作系统安全更新。
- 修复了在调用与其他外部或托管存储位置存在冲突的存储位置路径时
- 2023 年 7 月 24 日
- [SPARK-44337] 修复了将任何字段设置为
Any.getDefaultInstance
会导致分析错误的问题。 - [SPARK-44136] 修复了
StateManager
可能会在FlatMapGroupsWithStateExec
中的执行程序而不是驱动程序中具体化的问题。 - 操作系统安全更新。
- [SPARK-44337] 修复了将任何字段设置为
- 2023 年 6 月 23 日
- 操作系统安全更新。
- 2023 年 6 月 15 日
- 已光子化
approx_count_distinct
。 - Snowflake-jdbc 库已升级到 3.13.29 以解决安全问题。
- [SPARK-43779]
ParseToDate
现在会在主线程中加载EvalMode
。 - [SPARK-43156][SPARK-43098] 扩展了禁用
decorrelateInnerQuery
时的标量子查询计数错误测试。 - 操作系统安全更新。
- 已光子化
- 2023 年 6 月 2 日
failOnUnknownFields
模式下的 JSON 分析程序丢弃DROPMALFORMED
模式下的记录,并在FAILFAST
模式下直接失败。- 使用
SHALLOW CLONE
Iceberg 和 Parquet 提高增量更新的性能。 - 修复了自动加载程序中当提供的架构不包含推断的分区时,不同的源文件格式不一致的问题。 在读取推断的分区架构中缺少列的文件时,此问题可能会导致意外失败。
- [SPARK-43404] 跳过对相同版本的 RocksDB 状态存储重用 sst 文件,以避免出现 ID 不匹配错误。
- [SPARK-43413][11.3-13.0] 修复了
IN
子查询ListQuery
的为 Null 性。 - [SPARK-43522] 修复了使用数组索引创建结构列名的问题。
- [SPARK-43541] 在解析表达式和缺失列时传播所有
Project
标记。 - [SPARK-43527] 修复了 PySpark 中的
catalog.listCatalogs
。 - [SPARK-43123] 内部字段元数据不再泄漏到目录。
- [SPARK-43340] 修复了事件日志中堆栈跟踪字段缺失的问题。
- [SPARK-42444]
DataFrame.drop
现在可正确处理重复的列。 - [SPARK-42937]
PlanSubqueries
现在会将InSubqueryExec#shouldBroadcast
设置为 true。 - [SPARK-43286] 更新了
aes_encrypt
CBC 模式以生成随机 IV。 - [SPARK-43378] 正确关闭
deserializeFromChunkedBuffer
中的流对象。
- 2023 年 5 月 17 日
- 通过动态调整批大小来扫描结构异常的文件时,Parquet 扫描现在对 OOM 具有强大的性能。 对文件元数据进行分析文件,以抢先降低批大小,并在任务重试时再次降低,作为最终的安全网。
- 如果仅使用
failOnUnknownFields\
选项或者在failOnNewColumns\
架构演化模式下使用自动加载程序读取 Avro 文件,则具有不同数据类型的列将被读取为null\
,而不是引发一个错误,指出该文件不可读取。 这些读取操作现在会失败并建议用户使用rescuedDataColumn\
选项。 - 自动加载程序现在会执行以下操作。
-
- 正确读取,并且不再补救
Integer
、Short
和Byte
类型(如果提供了这些类型之一),但 Avro 文件建议使用其它两种类型之一。
- 正确读取,并且不再补救
-
- 防止将间隔类型读取为日期或时间戳类型,以避免获取损坏的日期。
-
- 防止读取精度较低的
Decimal
类型。
- 防止读取精度较低的
- [SPARK-43172] 从 Spark 连接客户端公开主机和令牌。
- [SPARK-43293] 会在常规列中忽略
__qualified_access_only
。 - [SPARK-43098] 修复了按子句对标量子查询进行分组时的正确性
COUNT
bug。 - [SPARK-43085] 支持多部件表名称的列
DEFAULT
分配。 - [SPARK-43190]
ListQuery.childOutput
现在与辅助输出保持一致。 - [SPARK-43192] 移除了用户代理字符集验证。
- 操作系统安全更新。
- 2023 年 4 月 25 日
- 如果仅使用
failOnUnknownFields
选项或者在failOnNewColumns
架构演化模式下使用自动加载程序读取 Parquet 文件,则具有不同数据类型的列将被读取为null
,而不是引发一个错误,指出该文件不可读取。 这些读取操作现在会失败并建议用户使用rescuedDataColumn
选项。 - 如果提供了其中某种数据类型,自动加载程序现在可以正确读取,而不再补救
Integer
、Short
和Byte
类型。 Parquet 文件建议使用其他两种类型之一。 如果先前已启用补救数据列,则数据类型不匹配会导致补救列,即使这些列是可读的。 - [SPARK-43009] 使用
Any
常数参数化sql()
- [SPARK-42406] 通过删除字段来终止 Protobuf 递归字段
- [SPARK-43038] 通过
aes_encrypt()
/aes_decrypt()
支持 CBC 模式 - [SPARK-42971] 当工作器处理
WorkDirCleanup
事件时,如果appDirs
为 null,则更改为输出workdir
- [SPARK-43018] 修复带时间戳文本的 INSERT 命令的 bug
- 操作系统安全更新。
- 如果仅使用
- 2023 年 4 月 11 日
- 在
SYNC
命令中支持旧数据源格式。 - 修复存储库外部的笔记本中的 %autoreload 行为问题。
- 修复了在嵌套 JSON 对象的架构中检测到新列时,自动加载程序架构演变可能会进入无限失败循环的问题。
- [SPARK-42928] 使
resolvePersistentFunction
同步。 - [SPARK-42936] 修复当子句可以直接由其子聚合解析时的 LCan 问题。
- [SPARK-42967] 修复在阶段取消后启动任务时的
SparkListenerTaskStart.stageAttemptId
。 - 操作系统安全更新。
- 在
- 2023 年 3 月 29 日
Databricks SQL 现在支持在创建表时或之后为 Delta Lake 表的列指定默认值。 后续的
INSERT
、UPDATE
、DELETE
和MERGE
命令可以使用显式DEFAULT
关键字引用任何列的默认值。 此外,如果任何INSERT
赋值具有列比目标表更少的显式列表,则相应的列默认值将替换其余列(如果未指定默认值,则替换为 NULL)。例如:
CREATE TABLE t (first INT, second DATE DEFAULT CURRENT_DATE()); INSERT INTO t VALUES (0, DEFAULT); INSERT INTO t VALUES (1, DEFAULT); SELECT first, second FROM t; \> 0, 2023-03-28 1, 2023-03-28z
自动加载程序现在对
Trigger.AvailableNow
流启动至少一个同步 RocksDB 日志清理操作,以检查是否可以定期清理检查点,以快速运行自动加载程序流。 这可能会导致某些流在关闭之前花费更长时间,但会节省存储成本并改善将来的运行的自动加载程序体验。现在可以使用
DeltaTable.addFeatureSupport(feature_name)
修改 Delta 表以添加表功能的支持。[SPARK-42794] 将 lockAcquireTimeoutMs 增加到 2 分钟以获取结构流式处理中的 RocksDB 状态存储
[SPARK-42521] 使用列数量少于目标表的用户指定列表为 INSERT 添加 NULL
[SPARK-42702][SPARK-42623] 在子查询和 CTE 中支持参数化查询
[SPARK-42668] 尝试关闭 HDFSStateStoreProvider 中的压缩流停止时捕获异常
[SPARK-42403] JsonProtocol 应处理 null JSON 字符串
- 2023 年 3 月 8 日
- 错误消息“无法初始化配置”已得到改进,将为客户提供更多上下文。
- 使用表属性向 Delta 表添加功能的术语发生了变化。 首选语法现在是
'delta.feature.featureName'='supported'
而不是'delta.feature.featureName'='enabled'
。 为了实现后向兼容性,现在仍可使用'delta.feature.featureName'='enabled'
,并且今后可继续使用。 - 从此版本开始,可以使用附加表属性
delta.ignoreProtocolDefaults
创建/替换表,以忽略与协议相关的 Spark 配置,其中包括默认读取器和写入器版本,以及默认支持的表功能。 - [SPARK-42070] 将 Mask 函数参数的默认值从 -1 更改为 NULL
- [SPARK-41793] 范围子句针对较大小数定义的时间范围结果不正确
- [SPARK-42484] 改进了 UnsafeRowUtils 错误消息
- [SPARK-42516] 在创建视图时始终捕获会话时区配置
- [SPARK-42635] 修复 TimestampAdd 表达式。
- [SPARK-42622] 禁用了值的替换
- [SPARK-42534] 修复 DB2Dialect Limit 子句
- [SPARK-42121] 添加内置表值函数 posexplode、posexplode_outer、json_tuple 和 stack
- [SPARK-42045] ANSI SQL 模式:Round/Bround 应在微型/小型/大型整数溢出时返回错误
- 操作系统安全更新。
Databricks Runtime 11.3 LTS
请参阅 Databricks Runtime 11.3 LTS。
- 2023 年 11 月 29 日
- 修复了源自 JDBC 或 ODBC 客户端的
getColumns
操作中的转义下划线被错误解释为通配符的问题。 - [SPARK-43973] 结构化流式处理 UI 现在正确显示失败的查询。
- [SPARK-45730] 改进了
ReloadingX509TrustManagerSuite
的时间限制。 - [SPARK-45544] 向
TransportContext
中集成了 SSL 支持。 - [SPARK-45859] 将
ml.functions
中的 UDF 对象设为惰性。 - [SPARK-43718] 修复了
USING
联接中键的为 Null 性。 - [SPARK-44846] 移除了
RemoveRedundantAggregates
之后的复杂分组表达式。 - 操作系统安全更新。
- 修复了源自 JDBC 或 ODBC 客户端的
- 2023 年 11 月 14 日
- Delta Lake 流式处理查询上的分区筛选器会向下推送,然后再进行速率限制,从而实现更高的利用率。
- [SPARK-42205] 移除了“阶段”和“任务”启动事件的可累积项日志记录。
- [SPARK-45545]
SparkTransportConf
将在创建时继承SSLOptions
。 - 还原 [SPARK-33861]。
- [SPARK-45541] 添加了
SSLFactory
。 - [SPARK-45429] 为 SSL RPC 通信添加了帮助程序类。
- [SPARK-45584] 修复了
TakeOrderedAndProjectExec
子查询运行失败的问题。 - [SPARK-45430]
FramelessOffsetWindowFunction
在IGNORE NULLS
和offset > rowCount
时不再失败。 - [SPARK-45427] 向
SSLOptions
和SparkTransportConf
添加了 RPC SSL 设置。 - 操作系统安全更新。
- 2023 年 10 月 24 日
- [SPARK-45426] 添加了对
ReloadingX509TrustManager
的支持。 - 其他修复。
- [SPARK-45426] 添加了对
- 2023 年 10 月 13 日
- Snowflake-jdbc 依赖项从 3.13.29 升级到 3.13.33。
- [SPARK-45178] 回退到运行源不受支持的
Trigger.AvailableNow
的单个批处理,而不是使用包装器。 - [SPARK-45084]
StateOperatorProgress
将使用准确、够用的随机分区号。 - [SPARK-45346] 在合并架构时,Parquet 架构推理采用的标志现在区分大小写。
- 操作系统安全更新。
- 2023 年 9 月 10 日
- 其他修复。
- 2023 年 8 月 30 日
- [SPARK-44818] 修复了初始化
taskThread
之前发出的挂起任务中断的争用。 - [SPARK-44871][11.3-13.0] 修复了
percentile_disc
行为。 - 操作系统安全更新。
- [SPARK-44818] 修复了初始化
- 2023 年 8 月 15 日
- [SPARK-44485] 优化了
TreeNode.generateTreeString
。 - [SPARK-44504] 维护任务在停止错误时清理已加载的提供程序。
- [SPARK-44464] 修复了
applyInPandasWithStatePythonRunner
以输出将Null
作为第一列值的行。 - 操作系统安全更新。
- [SPARK-44485] 优化了
- 2023 年 7 月 27 日
- 修复了在调用与其他外部或托管存储位置存在冲突的存储位置路径时
dbutils.fs.ls()
返回INVALID_PARAMETER_VALUE.LOCATION_OVERLAP
的问题。 - [SPARK-44199]
CacheManager
不再不必要地刷新fileIndex
。 - 操作系统安全更新。
- 修复了在调用与其他外部或托管存储位置存在冲突的存储位置路径时
- 2023 年 7 月 24 日
- [SPARK-44136] 修复了 StateManager 可能会在 FlatMapGroupsWithStateExec 中的执行程序而不是驱动程序中具体化的问题。
- 操作系统安全更新。
- 2023 年 6 月 23 日
- 操作系统安全更新。
- 2023 年 6 月 15 日
- 已光子化
approx_count_distinct
。 - Snowflake-jdbc 库已升级到 3.13.29 以解决安全问题。
- [SPARK-43779]
ParseToDate
现在会在主线程中加载EvalMode
。 - [SPARK-40862]支持 RewriteCorrelatedScalarSubquery 中的非聚合子查询
- [SPARK-43156][SPARK-43098] 扩展了禁用
decorrelateInnerQuery
时的标量子查询计数 bug 测试。 - [SPARK-43098] 修复在标量子查询具有 group by 子句时的正确性 COUNT bug
- 操作系统安全更新。
- 已光子化
- 2023 年 6 月 2 日
failOnUnknownFields
模式下的 JSON 分析程序丢弃DROPMALFORMED
模式下的记录,并在FAILFAST
模式下直接失败。- 使用
SHALLOW CLONE
Iceberg 和 Parquet 提高增量更新的性能。 - 修复了自动加载程序中当提供的架构不包含推断的分区时,不同的源文件格式不一致的问题。 在读取推断的分区架构中缺少列的文件时,此问题可能会导致意外失败。
- [SPARK-43404]跳过对相同版本的 RocksDB 状态存储重用 sst 文件,以避免出现 ID 不匹配错误。
- [SPARK-43527] 修复了 PySpark 中的
catalog.listCatalogs
。 - [SPARK-43413][11.3-13.0] 修复了
IN
子查询ListQuery
的为 Null 性。 - [SPARK-43340] 修复了事件日志中堆栈跟踪字段缺失的问题。
Databricks Runtime 10.4 LTS
请参阅 Databricks Runtime 10.4 LTS。
- 2023 年 11 月 29 日
- [SPARK-45544] 向
TransportContext
中集成了 SSL 支持。 - [SPARK-45859] 将
ml.functions
中的 UDF 对象设为惰性。 - [SPARK-43718] 修复了
USING
联接中键的为 Null 性。 - [SPARK-45730] 改进了
ReloadingX509TrustManagerSuite
的时间限制。 - [SPARK-42205] 移除了“阶段”和“任务”启动事件的可累积项日志记录。
- [SPARK-44846] 移除了
RemoveRedundantAggregates
之后的复杂分组表达式。 - 操作系统安全更新。
- [SPARK-45544] 向
- 2023 年 11 月 14 日
- [SPARK-45541] 添加了
SSLFactory
。 - [SPARK-45545]
SparkTransportConf
将在创建时继承SSLOptions
。 - [SPARK-45427] 向
SSLOptions
和SparkTransportConf
添加了 RPC SSL 设置。 - [SPARK-45429] 为 SSL RPC 通信添加了帮助程序类。
- [SPARK-45584] 修复了
TakeOrderedAndProjectExec
子查询运行失败的问题。 - 还原 [SPARK-33861]。
- 操作系统安全更新。
- [SPARK-45541] 添加了
- 2023 年 10 月 24 日
- [SPARK-45426] 添加了对
ReloadingX509TrustManager
的支持。 - 操作系统安全更新。
- [SPARK-45426] 添加了对
- 2023 年 10 月 13 日
- [SPARK-45084]
StateOperatorProgress
将使用准确、够用的随机分区号。 - [SPARK-45178] 回退到运行源不受支持的
Trigger.AvailableNow
的单个批处理,而不是使用包装器。 - 操作系统安全更新。
- [SPARK-45084]
- 2023 年 9 月 10 日
- 其他修复。
- 2023 年 8 月 30 日
- [SPARK-44818] 修复了初始化
taskThread
之前发出的挂起任务中断的争用。 - 操作系统安全更新。
- [SPARK-44818] 修复了初始化
- 2023 年 8 月 15 日
- [SPARK-44504] 维护任务在停止错误时清理已加载的提供程序。
- [SPARK-43973] 结构化流式处理 UI 现在正确显示失败的查询。
- 操作系统安全更新。
- 2023 年 6 月 23 日
- 操作系统安全更新。
- 2023 年 6 月 15 日
- Snowflake-jdbc 库已升级到 3.13.29 以解决安全问题。
- [SPARK-43098] 修复在标量子查询具有 group by 子句时的正确性 COUNT bug
- [SPARK-40862]支持 RewriteCorrelatedScalarSubquery 中的非聚合子查询
- [SPARK-43156][SPARK-43098] 扩展了禁用
decorrelateInnerQuery
时的标量子查询计数测试。 - 操作系统安全更新。
- 2023 年 6 月 2 日
failOnUnknownFields
模式下的 JSON 分析程序丢弃DROPMALFORMED
模式下的记录,并在FAILFAST
模式下直接失败。- 修复了 JSON 补救数据分析中的问题,以防止出现
UnknownFieldException
。 - 修复了自动加载程序中当提供的架构不包含推断的分区时,不同的源文件格式不一致的问题。 在读取推断的分区架构中缺少列的文件时,此问题可能会导致意外失败。
- [SPARK-43404] 跳过对相同版本的 RocksDB 状态存储重用 sst 文件,以避免出现 ID 不匹配错误。
- [SPARK-43413] 修复了
IN
子查询ListQuery
的为 Null 性。 - 操作系统安全更新。
- 2023 年 5 月 17 日
- 通过动态调整批大小来扫描结构异常的文件时,Parquet 扫描现在对 OOM 具有强大的性能。 对文件元数据进行分析文件,以抢先降低批大小,并在任务重试时再次降低,作为最终的安全网。
- [SPARK-41520] 拆分
AND_OR
树模式以区分AND
和OR
。 - [SPARK-43190]
ListQuery.childOutput
现在与辅助输出保持一致。 - 操作系统安全更新。
- 2023 年 4 月 25 日
- [SPARK-42928] 使
resolvePersistentFunction
同步。 - 操作系统安全更新。
- [SPARK-42928] 使
- 2023 年 4 月 11 日
- 修复了在嵌套 JSON 对象的架构中检测到新列时,自动加载程序架构演变可能会进入无限失败循环的问题。
- [SPARK-42937]
PlanSubqueries
现在会将InSubqueryExec#shouldBroadcast
设置为 true。 - [SPARK-42967] 修复在阶段取消后启动任务时的 SparkListenerTaskStart.stageAttemptId。
- 2023 年 3 月 29 日
- [SPARK-42668] 尝试关闭 HDFSStateStoreProvider 中的压缩流停止时捕获异常
- [SPARK-42635] 修复 …
- 操作系统安全更新。
- 2023 年 3 月 14 日
- [SPARK-41162] 修复使用聚合的自联接的反联接和半联接
- [SPARK-33206] 修复对小型索引文件的随机索引缓存权重计算
- [SPARK-42484] 改进了
UnsafeRowUtils
错误消息 - 其他修复。
- 2023 年 2 月 28 日
- 支持 yyyy-MM-dd date_format 的生成列。 此更改支持 yyyy-MM-dd 的分区修剪作为生成的列中的 date_format。
- 用户现在可以使用 Databricks Runtime 9.1 LTS 或更高版本读取和写入需要读取器版本 3 和写入器版本 7 的特定 Delta 表。 要使操作成功,当前版本的 Databricks Runtime 必须支持表协议中列出的表功能。
- 支持 yyyy-MM-dd date_format 的生成列。 此更改支持 yyyy-MM-dd 的分区修剪作为生成的列中的 date_format。
- 操作系统安全更新。
- 2023 年 2 月 16 日
- [SPARK-30220] 支持在 Filter 节点外部使用 Exists/In 子查询
- 操作系统安全更新。
- 2023 年 1 月 31 日
- JDBC 表的表类型现在默认为 EXTERNAL。
- 2023 年 1 月 18 日
- Azure Synapse 连接器会在列名称包含无效字符(例如空格或分号)时返回更具描述性的错误消息。 在这种情况下,将返回以下消息:
Azure Synapse Analytics failed to run the JDBC query produced by the connector. Check column names do not include not valid characters such as ';' or white space
。 - [SPARK-38277] 在 RocksDB 状态存储提交后清除写入批
- [SPARK-41199] 修复同时使用 DSv1 流式处理源和 DSv2 流式处理源时的指标问题
- [SPARK-41198] 修复具有 CTE 和 DSv1 流式处理源的流式处理查询中的指标
- [SPARK-41339] 关闭并重新创建 RocksDB 写入批而不是仅仅清除
- [SPARK-41732] 对 SessionWindowing 规则应用基于树模式的修剪
- 操作系统安全更新。
- Azure Synapse 连接器会在列名称包含无效字符(例如空格或分号)时返回更具描述性的错误消息。 在这种情况下,将返回以下消息:
- 2022 年 11 月 29 日
- 在使用 Redshift 连接器写入数据时,用户可以配置前导和尾部空格的行为。 已添加以下选项来控制空格处理:
csvignoreleadingwhitespace
,设置为true
时,如果tempformat
设置为CSV
或CSV GZIP
,则会在写入期间从值中移除前导空格。 当 config 设置为false
时保留空格。 默认情况下,该值为true
。csvignoretrailingwhitespace
,设置为true
时,如果tempformat
设置为CSV
或CSV GZIP
,则会在写入期间从值中移除尾随空格。 当 config 设置为false
时保留空格。 默认情况下,该值为true
。
- 修复了当所有列保留为字符串(
cloudFiles.inferColumnTypes
未设置或设置为false
)且 JSON 包含嵌套对象时自动加载程序中出现的 JSON 分析问题。 - 操作系统安全更新。
- 在使用 Redshift 连接器写入数据时,用户可以配置前导和尾部空格的行为。 已添加以下选项来控制空格处理:
- 2022 年 11 月 15 日
- 已将 Apache commons-text 升级到 1.10.0。
- [SPARK-40646] 已修复对结构、映射和数组的 JSON 分析,当记录的一部分与架构不匹配时,记录的其余部分仍可正常分析,而不会返回 null。 若要选择启用改进的行为,请将
spark.sql.json.enablePartialResults
设置为true
。 默认已禁用该标志以保留原始行为。 - [SPARK-40292] 修复了从嵌套结构中引用数组时
arrays_zip
函数中的列名 - 操作系统安全更新。
- 2022 年 11 月 1 日
- 修复了以下问题:如果 Delta 表包含名为
_change_type
的用户定义列,但在该表上禁用了更改数据馈送,则在运行MERGE
时,会错误地为该列中的数据填充 NULL 值。 - 修复了自动加载程序的以下问题:启用
allowOverwrites
时,文件可能在同一个微批中复制 - [SPARK-40697] 添加读取端字符填充以包括外部数据文件
- [SPARK-40596] 使用 ExecutorDecommissionInfo 中的消息填充 ExecutorDecommission
- 操作系统安全更新。
- 修复了以下问题:如果 Delta 表包含名为
- 2022 年 10 月 18 日
- 操作系统安全更新。
- 2022 年 10 月 5 日
- [SPARK-40468] 修复选中
_corrupt_record
时 CSV 中的列修剪。 - 操作系统安全更新。
- [SPARK-40468] 修复选中
- 2022 年 9 月 22 日
- 用户可以将 spark.conf.set(
spark.databricks.io.listKeysWithPrefix.azure.enabled
,true
) 设置为在 ADLS Gen2 上为自动加载程序重新启用内置列表。 内置列表以前因性能问题关闭,但可能已导致客户的存储成本增加。 - [SPARK-40315] 为 ArrayBasedMapData 的文本添加 hashCode()
- [SPARK-40213] 支持拉丁语 - 1 字符的 ASCII 值转换
- [SPARK-40380] 修复 InvokeLike 的常量折叠,以避免计划中嵌入不可序列化的文本
- [SPARK-38404] 当嵌套 CTE 引用外部 CTE 时改进 CTE 解析
- [SPARK-40089] 修复某些十进制类型的排序问题
- [SPARK-39887] RemoveRedundantAliases 应保留那些使投影节点的输出独一无二的别名
- 用户可以将 spark.conf.set(
- 2022 年 9 月 6 日
- [SPARK-40235] 在 Executor.updateDependencies() 中使用可中断锁而不是同步
- [SPARK-40218] GROUPING SETS 应保留分组列
- [SPARK-39976] ArrayIntersect 应正确处理左表达式中的 null
- [SPARK-40053] 将
assume
添加到需要 Python 运行时环境的动态取消案例 - [SPARK-35542] 修复:为具有参数 splitsArray、inputCols 和 outputCols 的多个列创建的 Bucketizer 在保存后无法加载
- [SPARK-40079] 为空输入案例添加 Imputer inputCols 验证
- 2022 年 8 月 24 日
- [SPARK-39983] 不要在驱动程序上缓存未序列化的广播关系
- [SPARK-39775] 禁用在分析 Avro 架构时验证默认值
- [SPARK-39962] 当组属性为空时应用投影
- [SPARK-37643] 当 charVarcharAsString 为 True 时,对于 char 数据类型谓词查询,应跳过 rpadding 规则
- 操作系统安全更新。
- 2022 年 8 月 9 日
- [SPARK-39847] 修复调用方线程中断时 RocksDBLoader.loadLibrary() 中的争用条件
- [SPARK-39731] 修复了在使用 CORRECTED 时间分析程序策略分析“yyyyMMdd”格式的日期时 CSV 和 JSON 数据源中出现的问题
- 操作系统安全更新。
- 2022 年 7 月 27 日
- [SPARK-39625] 添加 Dataset.as(StructType)
- [SPARK-39689] 在 CSV 数据源中支持 2 个字符的
lineSep
- [SPARK-39104] InMemoryRelation#isCachedColumnBuffersLoaded 应该是线程安全的
- [SPARK-39570] 内联表应该允许带有别名的表达式
- [SPARK-39702] 通过使用共享 byteRawChannel 减少 TransportCipher$EncryptedMessage 的内存开销
- [SPARK-39575] 在 AvroDeserializer 中的 ByteBuffer#get 之后添加 ByteBuffer#rewind
- [SPARK-39476] 从 Long 转换为 Float/Double 或从 Integer 转换为 Float 时禁用展开转换优化
- [SPARK-38868] 优化外部联接时不要传播来自筛选器谓词的异常
- 操作系统安全更新。
- 2022 年 7 月 20 日
- 当源具有不确定性时,使 Delta MERGE 操作结果保持一致。
- [SPARK-39355] 单列使用引号构造 UnresolvedAttribute
- [SPARK-39548] 具有窗口子句查询的 CreateView 命令遇到“找不到错误的窗口定义”问题
- [SPARK-39419] 修复在比较运算符返回 null 时引发异常的 ArraySort 问题
- 禁止了自动加载程序对 Azure 上的目录列表使用内置的云 API。
- 操作系统安全更新。
- 2022 年 7 月 5 日
- [SPARK-39376] 隐藏 NATURAL/USING JOIN 中子查询别名的星号扩展中的重复列
- 操作系统安全更新。
- 2022 年 6 月 15 日
- [SPARK-39283] 修复 TaskMemoryManager 和 UnsafeExternalSorter.SpillableIterator 之间的死锁
- [SPARK-39285] 读取文件时,Spark 不应检查字段名称
- [SPARK-34096] 提高偏移窗口上 nth_value ignore nulls 的性能
- [SPARK-36718] 修复 CollapseProject 中的
isExtractOnly
检查
- 2022 年 6 月 2 日
- [SPARK-39093] 避免在将年-月间隔或日期-时间间隔除以整数时出现代码生成编译错误
- [SPARK-38990] 避免在评估 date_trunc/trunc 格式作为绑定引用时出现 NullPointerException
- 操作系统安全更新。
- 2022 年 5 月 18 日
- 修复自动加载程序中潜在的内置泄漏。
- [SPARK-38918] 嵌套列修剪应筛除属于当前关系的属性
- [SPARK-37593] 如果使用 G1GC 和 ON_HEAP,则通过 LONG_ARRAY_OFFSET 减少默认页面大小
- [SPARK-39084] 通过使用 TaskContext 在任务完成时停止迭代器来修复 df.rdd.isEmpty()
- [SPARK-32268] 在 injectBloomFilter 中添加 ColumnPruning
- [SPARK-38974] 在列表函数中使用给定的数据库名称筛选已注册的函数
- [SPARK-38931] 在第一个检查点上为 RocksDBFileManager 创建根 dfs 目录,其密钥数未知
- 操作系统安全更新。
- 2022 年 4 月 19 日
- 将 Java AWS SDK 从版本 1.11.655 升级到了 1.12.1899。
- 修复了笔记本范围的库在批处理流作业中无法正常工作的问题。
- [SPARK-38616] 跟踪 Catalyst TreeNode 中的 SQL 查询文本
- 操作系统安全更新。
- 2022 年 4 月 6 日
- 以下 Spark SQL 函数现已在此版本中提供:
timestampadd()
和dateadd()
:将指定单位的持续时间添加到时间戳表达式。timestampdiff()
和datediff()
:以指定单位计算两个时间戳表达式之间的时间差。
- Parquet-MR 已升级到 1.12.2
- 改进了对 parquet 文件中的综合架构的支持
- [SPARK-38631] 使用基于 Java 的实现在 Utils.unpack 中进行解压
- [SPARK-38509][SPARK-38481] 挑拣三个
timestmapadd/diff
更改。 - [SPARK-38523] 修复从 CSV 引用损坏的记录列的问题
- [SPARK-38237] 允许
ClusteredDistribution
要求完整的群集密钥 - [SPARK-38437] 对数据源中的日期/时间进行宽松的序列化
- [SPARK-38180] 允许在相关的相等谓词中使用安全的向上转换表达式
- [SPARK-38155] 禁止在包含不受支持的谓词的横向子查询中使用非重复聚合
- 操作系统安全更新。
- 以下 Spark SQL 函数现已在此版本中提供:
Databricks Runtime 9.1 LTS
请参阅 Databricks Runtime 9.1 LTS。
- 2023 年 11 月 29 日
- [SPARK-45859] 将
ml.functions
中的 UDF 对象设为惰性。 - [SPARK-45544] 向
TransportContext
中集成了 SSL 支持。 - [SPARK-45730] 改进了
ReloadingX509TrustManagerSuite
的时间限制。 - 操作系统安全更新。
- [SPARK-45859] 将
- 2023 年 11 月 14 日
- [SPARK-45545]
SparkTransportConf
将在创建时继承SSLOptions
。 - [SPARK-45429] 为 SSL RPC 通信添加了帮助程序类。
- [SPARK-45427] 向
SSLOptions
和SparkTransportConf
添加了 RPC SSL 设置。 - [SPARK-45584] 修复了
TakeOrderedAndProjectExec
子查询运行失败的问题。 - [SPARK-45541] 添加了
SSLFactory
。 - [SPARK-42205] 移除了“阶段”和“任务”启动事件的可累积项日志记录。
- 操作系统安全更新。
- [SPARK-45545]
- 2023 年 10 月 24 日
- [SPARK-45426] 添加了对
ReloadingX509TrustManager
的支持。 - 操作系统安全更新。
- [SPARK-45426] 添加了对
- 2023 年 10 月 13 日
- 操作系统安全更新。
- 2023 年 9 月 10 日
- 其他修复。
- 2023 年 8 月 30 日
- 操作系统安全更新。
- 2023 年 8 月 15 日
- 操作系统安全更新。
- 2023 年 6 月 23 日
- Snowflake-jdbc 库已升级到 3.13.29 以解决安全问题。
- 操作系统安全更新。
- 2023 年 6 月 15 日
- [SPARK-43098] 修复在标量子查询具有 group by 子句时的正确性 COUNT bug
- [SPARK-43156][SPARK-43098] 扩展禁用
decorrelateInnerQuery
时的标量子查询计数 bug 测试。 - [SPARK-40862]支持 RewriteCorrelatedScalarSubquery 中的非聚合子查询
- 操作系统安全更新。
- 2023 年 6 月 2 日
failOnUnknownFields
模式下的 JSON 分析程序丢弃DROPMALFORMED
模式下的记录,并在FAILFAST
模式下直接失败。- 修复了 JSON 补救数据分析中的问题,以防止出现
UnknownFieldException
。 - 修复了自动加载程序中当提供的架构不包含推断的分区时,不同的源文件格式不一致的问题。 在读取推断的分区架构中缺少列的文件时,此问题可能会导致意外失败。
- [SPARK-37520] 添加
startswith()
和endswith()
字符串函数 - [SPARK-43413] 修复了
IN
子查询ListQuery
的为 Null 性。 - 操作系统安全更新。
- 2023 年 5 月 17 日
- 操作系统安全更新。
- 2023 年 4 月 25 日
- 操作系统安全更新。
- 2023 年 4 月 11 日
- 修复了在嵌套 JSON 对象的架构中检测到新列时,自动加载程序架构演变可能会进入无限失败循环的问题。
- [SPARK-42967] 修复在阶段取消后启动任务时的 SparkListenerTaskStart.stageAttemptId。
- 2023 年 3 月 29 日
- 操作系统安全更新。
- 2023 年 3 月 14 日
- [SPARK-42484] 改进了
UnsafeRowUtils
的错误消息。 - 其他修复。
- [SPARK-42484] 改进了
- 2023 年 2 月 28 日
- 用户现在可以使用 Databricks Runtime 9.1 LTS 或更高版本读取和写入需要读取器版本 3 和写入器版本 7 的特定 Delta 表。 要使操作成功,当前版本的 Databricks Runtime 必须支持表协议中列出的表功能。
- 操作系统安全更新。
- 2023 年 2 月 16 日
- 操作系统安全更新。
- 2023 年 1 月 31 日
- JDBC 表的表类型现在默认为 EXTERNAL。
- 2023 年 1 月 18 日
- 操作系统安全更新。
- 2022 年 11 月 29 日
- 修复了当所有列保留为字符串(
cloudFiles.inferColumnTypes
未设置或设置为false
)且 JSON 包含嵌套对象时自动加载程序中出现的 JSON 分析问题。 - 操作系统安全更新。
- 修复了当所有列保留为字符串(
- 2022 年 11 月 15 日
- 已将 Apache commons-text 升级到 1.10.0。
- 操作系统安全更新。
- 其他修复。
- 2022 年 11 月 1 日
- 修复了以下问题:如果 Delta 表包含名为
_change_type
的用户定义列,但在该表上禁用了更改数据馈送,则在运行MERGE
时,会错误地为该列中的数据填充 NULL 值。 - 修复了自动加载程序的以下问题:启用
allowOverwrites
时,文件可能在同一个微批中复制 - [SPARK-40596] 使用 ExecutorDecommissionInfo 中的消息填充 ExecutorDecommission
- 操作系统安全更新。
- 修复了以下问题:如果 Delta 表包含名为
- 2022 年 10 月 18 日
- 操作系统安全更新。
- 2022 年 10 月 5 日
- 其他修复。
- 操作系统安全更新。
- 2022 年 9 月 22 日
- 用户可以设置 spark.conf.set("spark.databricks.io.listKeysWithPrefix.azure.enabled", "true"),来为 ADLS Gen2 上的自动加载程序重新启用内置列表。 内置列表以前因性能问题关闭,但可能已导致客户的存储成本增加。
- [SPARK-40315] 为 ArrayBasedMapData 的文本添加 hashCode()
- [SPARK-40089] 修复某些十进制类型的排序问题
- [SPARK-39887] RemoveRedundantAliases 应保留那些使投影节点的输出独一无二的别名
- 2022 年 9 月 6 日
- [SPARK-40235] 在 Executor.updateDependencies() 中使用可中断锁而不是同步
- [SPARK-35542] 修复:为具有参数 splitsArray、inputCols 和 outputCols 的多个列创建的 Bucketizer 在保存后无法加载
- [SPARK-40079] 为空输入案例添加 Imputer inputCols 验证
- 2022 年 8 月 24 日
- [SPARK-39666] 在 ExpressionEncoder 中使用 UnsafeProjection.create 以遵循
spark.sql.codegen.factoryMode
- [SPARK-39962] 当组属性为空时应用投影
- 操作系统安全更新。
- [SPARK-39666] 在 ExpressionEncoder 中使用 UnsafeProjection.create 以遵循
- 2022 年 8 月 9 日
- 操作系统安全更新。
- 2022 年 7 月 27 日
- 当源具有不确定性时,使 Delta MERGE 操作结果保持一致。
- [SPARK-39689] 在 CSV 数据源中支持 2 个字符的
lineSep
- [SPARK-39575] 在
AvroDeserializer
中的ByteBuffer#get
之后添加了ByteBuffer#rewind
。 - [SPARK-37392] 修复了 Catalyst 优化器的性能错误。
- 操作系统安全更新。
- 2022 年 7 月 13 日
- [SPARK-39419]
ArraySort
将在比较器返回 null 时引发异常。 - 禁止了自动加载程序对 Azure 上的目录列表使用内置的云 API。
- 操作系统安全更新。
- [SPARK-39419]
- 2022 年 7 月 5 日
- 操作系统安全更新。
- 其他修复。
- 2022 年 6 月 15 日
- [SPARK-39283] 修复
TaskMemoryManager
和UnsafeExternalSorter.SpillableIterator
之间的死锁。
- [SPARK-39283] 修复
- 2022 年 6 月 2 日
- [SPARK-34554] 在
ColumnarMap
中实现copy()
方法。 - 操作系统安全更新。
- [SPARK-34554] 在
- 2022 年 5 月 18 日
- 修复了自动加载程序中潜在的内置泄漏。
- 将 AWS SDK 版本从 1.11.655 升级到 1.11.678。
- [SPARK-38918] 嵌套列修剪应筛除属于当前关系的属性
- [SPARK-39084] 通过使用
TaskContext
在任务完成时停止迭代器来修复df.rdd.isEmpty()
- 操作系统安全更新。
- 2022 年 4 月 19 日
- 操作系统安全更新。
- 其他修复。
- 2022 年 4 月 6 日
- [SPARK-38631] 使用基于 Java 的实现在 Utils.unpack 中进行解压
- 操作系统安全更新。
- 2022 年 3 月 22 日
- 更改了高并发群集上的笔记本的当前工作目录,对用户的主目录启用表访问控制或凭据直通。 以前,活动目录是
/databricks/driver
。 - [SPARK-38437] 对数据源中的日期/时间进行宽松的序列化
- [SPARK-38180] 允许在相关的相等谓词中使用安全的向上转换表达式
- [SPARK-38155] 禁止在包含不受支持的谓词的横向子查询中使用非重复聚合
- [SPARK-27442] 移除了在 Parquet 中读取或写入数据时的检查字段。
- 更改了高并发群集上的笔记本的当前工作目录,对用户的主目录启用表访问控制或凭据直通。 以前,活动目录是
- 2022 年 3 月 14 日
- [SPARK-38236] 在创建/更改表中指定的绝对文件路径被视为相对路径
- [SPARK-34069] 在本地属性
SPARK_JOB_INTERRUPT_ON_CANCEL
设置为 true 时中断任务线程。
- 2022 年 2 月 23 日
- [SPARK-37859] 使用 Spark 3.1 通过 JDBC 创建的 SQL 表无法通过 Spark 3.2 读取。
- 2022 年 2 月 8 日
- [SPARK-27442] 移除了在 Parquet 中读取或写入数据时的检查字段。
- 操作系统安全更新。
- 2022 年 2 月 1 日
- 操作系统安全更新。
- 2022 年 1 月 26 日
- 修复了在某些极少数情况下,Delta 表上的并发事务可能会以不可序列化的顺序提交的问题。
- 修复了启用 ANSI SQL 方言时
OPTIMIZE
命令可能失败的问题。
- 2022 年 1 月 19 日
- 小问题修复和安全增强。
- 操作系统安全更新。
- 2021 年 11 月 4 日
- 修复了可能导致结构化流式处理数据流失败并显示
ArrayIndexOutOfBoundsException
的问题。 - 修复了一个争用条件,它可能会导致查询失败并显示 IOException(例如
java.io.IOException: No FileSystem for scheme
),或导致sparkContext.hadoopConfiguration
被修改且在查询中不生效。 - 用于增量共享的 Apache Spark 连接器已升级为 0.2.0。
- 修复了可能导致结构化流式处理数据流失败并显示
- 2021 年 10 月 20 日
- 已将 BigQuery 连接器从 0.18.1 升级为 0.22.2。 这添加了对 BigNumeric 类型的支持。
Databricks Runtime 13.0 (EoS)
请参阅 Databricks Runtime 13.0 (EoS)。
2023 年 10 月 13 日
- Snowflake-jdbc 依赖项从 3.13.29 升级到 3.13.33。
- [SPARK-42553][SQL] 确保在 interval 之后至少一个时间单位。
- [SPARK-45178] 回退到运行源不受支持的
Trigger.AvailableNow
的单个批处理,而不是使用包装器。 - [SPARK-44658][CORE]
ShuffleStatus.getMapStatus
返回None
而不是Some(null)
。 - [SPARK-42205][CORE] 删除
JsonProtocol
中“任务/阶段”启动事件的可累积项日志记录。 - 操作系统安全更新。
2023 年 9 月 12 日
- [SPARK-44485][SQL] 优化
TreeNode.generateTreeString
。 - [SPARK-44718][SQL] 将
ColumnVector
内存模式配置默认值与OffHeapMemoryMode
配置值匹配。 - 其他 Bug 修复。
- [SPARK-44485][SQL] 优化
2023 年 8 月 30 日
- [SPARK-44818][Backport] 修复了初始化
taskThread
之前发出的挂起任务中断的争用。 - [SPARK-44714] 轻松限制有关查询的 LCA 解析。
- [SPARK-44245][PYTHON]
pyspark.sql.dataframe sample()
doctests 现在仅用来说明。 - [SPARK-44871][11.3-13.0][SQL] 修复了
percentile_disc
行为。 - 操作系统安全更新。
- [SPARK-44818][Backport] 修复了初始化
2023 年 8 月 15 日
- [SPARK-44643][SQL][PYTHON] 修复
Row.__repr__
行为空时。 - [SPARK-44504][后向移植] 维护任务在出现停止错误时清理已加载的提供程序。
- [SPARK-44479][CONNECT][PYTHON] 修复了从空结构类型进行的
protobuf
转换。 - [SPARK-44464][SS] 修复了
applyInPandasWithStatePythonRunner
以输出将Null
作为第一列值的行。 - 其他 Bug 修复。
- [SPARK-44643][SQL][PYTHON] 修复
2023 年 7 月 29 日
- 修复了一个 bug:当为与其他外部或托管存储位置存在冲突的存储位置路径调用时,
dbutils.fs.ls()
返回了INVALID_PARAMETER_VALUE.LOCATION_OVERLAP
。 - [SPARK-44199]
CacheManager
不再不必要地刷新fileIndex
。 - 操作系统安全更新。
- 修复了一个 bug:当为与其他外部或托管存储位置存在冲突的存储位置路径调用时,
2023 年 7 月 24 日
- [SPARK-44337][PROTOBUF] 修复了将任何字段设置为
Any.getDefaultInstance
会导致分析错误的问题。 - [SPARK-44136] [SS] 修复了
StateManager
可能会在FlatMapGroupsWithStateExec
中的执行程序而不是驱动程序中具体化的问题。 - 还原 [SPARK-42323][SQL] 将名称分配给
_LEGACY_ERROR_TEMP_2332
。 - 操作系统安全更新。
- [SPARK-44337][PROTOBUF] 修复了将任何字段设置为
2023 年 6 月 23 日
- 操作系统安全更新。
2023 年 6 月 15 日
- 已光子化
approx_count_distinct
。 - Snowflake-jdbc 库已升级到 3.13.29 以解决安全问题。
- [SPARK-43156][SPARK-43098][SQL] 在禁用 decorrelateInnerQuery 的情况下扩展标量子查询计数 bug 测试
- [SPARK-43779][SQL]
ParseToDate
现在会在主线程中加载EvalMode
。 - [SPARK-42937][SQL]
PlanSubqueries
应将InSubqueryExec#shouldBroadcast
设置为 true - 操作系统安全更新。
- 已光子化
2023 年 6 月 2 日
failOnUnknownFields
模式下的 JSON 分析程序丢弃DROPMALFORMED
模式下的记录,并在FAILFAST
模式下直接失败。- 使用
SHALLOW CLONE
Iceberg 和 Parquet 提高增量更新的性能。 - 修复了自动加载程序中当提供的架构不包含推断的分区时,不同的源文件格式不一致的问题。 在读取推断的分区架构中缺少列的文件时,此问题可能会导致意外失败。
- [SPARK-43404][Backport] 不再对相同版本的 RocksDB 状态存储重用 sst 文件,以避免出现 ID 不匹配错误。
- [SPARK-43340][CORE] 修复了事件日志中堆栈跟踪字段缺失的问题。
- [SPARK-43300][CORE] 用于 Guava Cache 的
NonFateSharingCache
包装器。 - [SPARK-43378][CORE] 正确关闭
deserializeFromChunkedBuffer
中的流对象。 - [SPARK-16484][SQL] 使用 8 位寄存器来表示 DataSketches。
- [SPARK-43522][SQL] 修复了使用数组索引创建结构列名的问题。
- [SPARK-43413][11.3-13.0][SQL] 修复了
IN
子查询ListQuery
的为 Null 性。 - [SPARK-43043][CORE] 提高了
MapOutputTracker.updateMapOutput
性能。 - [SPARK-16484][SQL] 添加了对 DataSketches HllSketch 的支持。
- [SPARK-43123][SQL] 内部字段元数据不再泄漏到目录。
- [SPARK-42851][SQL] 使用
supportedExpression()
保护EquivalentExpressions.addExpr()
。 - [SPARK-43336][SQL]
Timestamp
和TimestampNTZ
之间的强制转换需要时区。 - [SPARK-43286][SQL] 更新了
aes_encrypt
CBC 模式以生成随机 IV。 - [SPARK-42852][SQL] 从
EquivalentExpressions
还原了NamedLambdaVariable
相关更改。 - [SPARK-43541][SQL] 在解析表达式和缺失列时传播所有
Project
标记。 - [SPARK-43527][PYTHON] 修复了 PySpark 中的
catalog.listCatalogs
。 - 操作系统安全更新。
2023 年 5 月 31 日
- 针对 Unity Catalog 中注册的 Delta 表的默认优化写入支持已经扩展,现包含用于已分区表的
CTAS
语句和INSERT
操作。 此行为与 SQL 仓库的默认设置保持一致。 请参阅 Azure Databricks 上的 Delta Lake 的优化写入。
- 针对 Unity Catalog 中注册的 Delta 表的默认优化写入支持已经扩展,现包含用于已分区表的
2023 年 5 月 17 日
- 修复了
_metadata.file_path
和_metadata.file_name
将返回格式不正确的字符串的回归。 例如,包含空格的路径现在表示为s3://test-bucket/some%20directory/some%20data.csv
,而不是s3://test-bucket/some directory/some data.csv
。 - 通过动态调整批大小来扫描结构异常的文件时,Parquet 扫描现在对 OOM 具有强大的性能。 对文件元数据进行分析文件,以抢先降低批大小,并在任务重试时再次降低,作为最终的安全网。
-
- 如果仅使用
failOnUnknownFields\
选项或者在failOnNewColumns\
架构演化模式下使用自动加载程序读取 Avro 文件,则具有不同数据类型的列将被读取为null\
,而不是引发一个错误,指出该文件不可读取。 这些读取操作现在会失败并建议用户使用rescuedDataColumn\
选项。
- 如果仅使用
- 自动加载程序现在会执行以下操作。
-
- 正确读取,并且不再补救
Integer
、Short
、Byte
类型(如果提供了这些类型之一),但 Avro 文件建议使用其它两种类型之一。
- 正确读取,并且不再补救
-
- 防止将间隔类型读取为日期或时间戳类型,以避免获取损坏的日期。
-
- 防止读取精度较低的
Decimal
类型。
- 防止读取精度较低的
- [SPARK-43172] [CONNECT] 从 Spark 连接客户端公开主机和令牌。
- [SPARK-43293][SQL] 在常规列中忽略
__qualified_access_only
。 - [SPARK-43098][SQL] 修复了按子句对标量子查询进行分组时的正确性
COUNT
bug。 - [SPARK-43085][SQL] 支持多部件表名称的列
DEFAULT
分配。 - [SPARK-43190][SQL]
ListQuery.childOutput
现在与辅助输出保持一致。 - [SPARK-43192] [CONNECT] 删除了用户代理字符集验证。
- 修复了
2023 年 4 月 25 日
- 可以使用
DeltaTable.addFeatureSupport(feature_name)
修改 Delta 表以添加 Delta 表功能支持。 SYNC
命令现在支持旧的数据源格式。- 修复了以下 bug:在 Python 笔记本中运行任何其他命令之前使用 Python 格式化程序可能导致
sys.path.
中缺少笔记本路径 - Azure Databricks 现在支持为 Delta 表的列指定默认值。
INSERT
、UPDATE
、DELETE
和MERGE
命令可以使用显式DEFAULT
关键字引用列的默认值。 如果INSERT
包含比目标表更少的列的显式列表,则相应的列默认值将替换其余列(如果未指定默认值,则替换为NULL
)。
- 可以使用
修复了以下 bug:某些用户无法使用 Web 终端访问
/Workspace
中的文件。- 如果仅使用
failOnUnknownFields
选项或者在failOnNewColumns
架构演化模式下使用自动加载程序读取 Parquet 文件,则具有不同数据类型的列将被读取为null
,而不是引发一个错误,指出该文件不可读取。 这些读取操作现在会失败并建议用户使用rescuedDataColumn
选项。 - 如果提供了其中某种数据类型,自动加载程序现在可以正确读取,而不再补救
Integer
、Short
、Byte
类型。 Parquet 文件建议使用其他两种类型之一。 如果先前已启用补救数据列,则数据类型不匹配会导致补救列,即使这些列是可读的。 - 修复了以下 bug:在嵌套 JSON 对象的架构中检测到新列时,自动加载程序架构演变可能会进入无限失败循环。
- [SPARK-42794][SS] 将 lockAcquireTimeoutMs 增加到 2 分钟以获取结构流中的 RocksDB 状态存储。
- [SPARK-39221][SQL] 正确编辑 thrift 服务器作业/阶段选项卡的敏感信息。
- [SPARK-42971][CORE] 当工作器处理
WorkDirCleanup
事件时,如果appDirs
为 null,则更改为输出workdir
。 - [SPARK-42936][SQL] 修复当 having 子句可以直接由其子聚合解析时的 LCA bug。
- [SPARK-43018][SQL] 修复带时间戳文本的
INSERT
命令的 bug。 - 还原 [SPARK-42754][SQL][UI] 修复嵌套 SQL 运行中的后向兼容性问题。
- 还原 [SPARK-41498] 通过并集传播元数据。
- [SPARK-43038][SQL] 通过
aes_encrypt()
/aes_decrypt()
支持 CBC 模式。 - [SPARK-42928][SQL] 使
resolvePersistentFunction
同步。 - [SPARK-42521][SQL] 使用数量少于目标表的列的用户指定列表为
INSERT
添加NULL
值。 - [SPARK-41391][SQL]
groupBy.agg(count_distinct)
的输出列名称不正确。 - [SPARK-42548][SQL] 添加
ReferenceAllColumns
以跳过重写属性。 - [SPARK-42423][SQL] 添加元数据列文件块开头和长度。
- [SPARK-42796][SQL] 支持访问
CachedBatch
中的TimestampNTZ
列。 - [SPARK-42266][PYTHON] 使用 IPython 时删除运行的 shell.py 中的父目录。
- [SPARK-43011][SQL]
array_insert
应该失败,索引为 0。 - [SPARK-41874][CONNECT][PYTHON] 支持 Spark Connect 中的
SameSemantics
。 - [SPARK-42702][SPARK-42623][SQL] 在子查询和 CTE 中支持参数化查询。
- [SPARK-42967][CORE] 修复在阶段取消后启动任务时的
SparkListenerTaskStart.stageAttemptId
。 - 操作系统安全更新。
- 如果仅使用
Databricks Runtime 12.1 (EoS)
请参阅 Databricks Runtime 12.1 (EoS)。
2023 年 6 月 23 日
- 操作系统安全更新。
2023 年 6 月 15 日
- 已光子化
approx_count_distinct
。 - Snowflake-jdbc 库已升级到 3.13.29 以解决安全问题。
- [SPARK-43779][SQL]
ParseToDate
现在会在主线程中加载EvalMode
。 - [SPARK-43156][SPARK-43098][SQL] 在禁用 decorrelateInnerQuery 的情况下扩展标量子查询计数 bug 测试
- 操作系统安全更新。
- 已光子化
2023 年 6 月 2 日
failOnUnknownFields
模式下的 JSON 分析程序丢弃DROPMALFORMED
模式下的记录,并在FAILFAST
模式下直接失败。- 使用
SHALLOW CLONE
Iceberg 和 Parquet 提高增量更新的性能。 - 修复了自动加载程序中当提供的架构不包含推断的分区时,不同的源文件格式不一致的问题。 在读取推断的分区架构中缺少列的文件时,此问题可能会导致意外失败。
- [SPARK-43404][Backport] 不再对相同版本的 RocksDB 状态存储重用 sst 文件,以避免出现 ID 不匹配错误。
- [SPARK-43413][11.3-13.0][SQL] 修复了
IN
子查询ListQuery
的为 Null 性。 - [SPARK-43522][SQL] 修复了使用数组索引创建结构列名的问题。
- [SPARK-42444][PYTHON]
DataFrame.drop
现在可正确处理重复列。 - [SPARK-43541][SQL] 在解析表达式和缺失列时传播所有
Project
标记。 - [SPARK-43340][CORE] 修复了事件日志中堆栈跟踪字段缺失的问题。
- [SPARK-42937][SQL]
PlanSubqueries
现在会将InSubqueryExec#shouldBroadcast
设置为 true。 - [SPARK-43527][PYTHON] 修复了 PySpark 中的
catalog.listCatalogs
。 - [SPARK-43378][CORE] 正确关闭
deserializeFromChunkedBuffer
中的流对象。
2023 年 5 月 17 日
- 通过动态调整批大小来扫描结构异常的文件时,Parquet 扫描现在对 OOM 具有强大的性能。 对文件元数据进行分析文件,以抢先降低批大小,并在任务重试时再次降低,作为最终的安全网。
- 如果仅使用
failOnUnknownFields\
选项或者在failOnNewColumns\
架构演化模式下使用自动加载程序读取 Avro 文件,则具有不同数据类型的列将被读取为null\
,而不是引发一个错误,指出该文件不可读取。 这些读取操作现在会失败并建议用户使用rescuedDataColumn\
选项。 - 自动加载程序现在会执行以下操作。
-
- 正确读取,并且不再补救
Integer
、Short
、Byte
类型(如果提供了这些类型之一),但 Avro 文件建议使用其它两种类型之一。
- 正确读取,并且不再补救
-
- 防止将间隔类型读取为日期或时间戳类型,以避免获取损坏的日期。
-
- 防止读取精度较低的
Decimal
类型。
- 防止读取精度较低的
- [SPARK-43098][SQL] 修复了按子句对标量子查询进行分组时的正确性
COUNT
bug。 - [SPARK-43190][SQL]
ListQuery.childOutput
现在与辅助输出保持一致。 - 操作系统安全更新。
2023 年 4 月 25 日
- 如果仅使用
failOnUnknownFields
选项或者在failOnNewColumns
架构演化模式下使用自动加载程序读取 Parquet 文件,则具有不同数据类型的列将被读取为null
,而不是引发一个错误,指出该文件不可读取。 这些读取操作现在会失败并建议用户使用rescuedDataColumn
选项。 - 如果提供了其中某种数据类型,自动加载程序现在可以正确读取,而不再补救
Integer
、Short
、Byte
类型。 Parquet 文件建议使用其他两种类型之一。 如果先前已启用补救数据列,则数据类型不匹配会导致补救列,即使这些列是可读的。 - [SPARK-43009][SQL] 使用
Any
常数参数化sql()
。 - [SPARK-42971][CORE] 当工作器处理
WorkDirCleanup
事件时,如果appDirs
为 null,则更改为输出workdir
。 - 操作系统安全更新。
- 如果仅使用
2023 年 4 月 11 日
- 在 SYNC 命令中支持旧数据源格式。
- 修复存储库外部的笔记本中的 %autoreload 行为 bug。
- 修复了以下 bug:在嵌套 JSON 对象的架构中检测到新列时,自动加载程序架构演变可能会进入无限失败循环。
- [SPARK-42928][SQL] 使
resolvePersistentFunction
同步。 - [SPARK-42967][CORE] 修复在阶段取消后启动任务时的
SparkListenerTaskStart.stageAttemptId
。 - 操作系统安全更新。
2023 年 3 月 29 日
- 自动加载程序现在对
Trigger.AvailableNow
流触发至少一个同步 RocksDB 日志清理操作,确保可以定期清理检查点,以快速运行自动加载程序流。 这可能会导致某些流在关闭之前花费更长时间,但会节省存储成本并改善将来的运行的自动加载程序体验。 - 现在可以使用
DeltaTable.addFeatureSupport(feature_name)
修改 Delta 表以添加表功能的支持。 - [SPARK-42702][SPARK-42623][SQL] 在子查询和 CTE 中支持参数化查询
- [SPARK-41162][SQL] 修复使用聚合的自联接的反联接和半联接
- [SPARK-42403][CORE] JsonProtocol 应处理 null JSON 字符串
- [SPARK-42668][SS] 尝试关闭 HDFSStateStoreProvider 中的压缩流中止时捕获异常
- [SPARK-42794][SS] 将 lockAcquireTimeoutMs 增加到 2 分钟以获取结构流中的 RocksDB 状态存储
- 自动加载程序现在对
2023 年 3 月 14 日
- 使用表属性向 Delta 表添加功能的术语发生了变化。 首选语法现在是
'delta.feature.featureName'='supported'
而不是'delta.feature.featureName'='enabled'
。 为了后向兼容,现在仍可使用'delta.feature.featureName'='enabled'
,并且今后可继续使用。 - [SPARK-42622][CORE] 禁用值的替换
- [SPARK-42534][SQL] 修复 DB2Dialect Limit 子句
- [SPARK-42635][SQL] 修复 TimestampAdd 表达式。
- [SPARK-42516][SQL] 在创建视图时始终捕获会话时区配置
- [SPARK-42484] [SQL] 改进了 UnsafeRowUtils 错误消息
- [SPARK-41793][SQL] 范围子句针对较大小数定义的时间范围结果不正确
- 操作系统安全更新。
- 使用表属性向 Delta 表添加功能的术语发生了变化。 首选语法现在是
2023 年 2 月 24 日
- 现在可以使用一组统一的选项(
host
、port
、database
、user
、password
)连接到查询联合中支持的数据源(PostgreSQL、MySQL、Synapse、Snowflake、Redshift、SQL Server)。 请注意,port
是可选的,如果未提供,将为每个数据源使用默认端口号。
PostgreSQL 连接配置示例
CREATE TABLE postgresql_table USING postgresql OPTIONS ( dbtable '<table-name>', host '<host-name>', database '<database-name>', user '<user>', password secret('scope', 'key') );
Snowflake 连接配置示例
CREATE TABLE snowflake_table USING snowflake OPTIONS ( dbtable '<table-name>', host '<host-name>', port '<port-number>', database '<database-name>', user secret('snowflake_creds', 'my_username'), password secret('snowflake_creds', 'my_password'), schema '<schema-name>', sfWarehouse '<warehouse-name>' );
- [SPARK-41989][PYTHON] 避免破坏 pyspark.pandas 的日志记录配置
- [SPARK-42346][SQL] 在子查询合并后重写非重复性聚合
- [SPARK-41990][SQL] 在 V1 到 V2 筛选器转换中使用
FieldReference.column
而不是apply
- 还原 [SPARK-41848][CORE] 使用 TaskResourceProfile 修复过度计划的任务
- [SPARK-42162] 引入 MultiCommutativeOp 表达式作为内存优化,用于规范化大型可交换表达式树
- 操作系统安全更新。
- 现在可以使用一组统一的选项(
2023 年 2 月 16 日
- SYNC 命令支持同步重新创建的 Hive 元存储表。 如果 HMS 表之前已同步到 Unity Catalog,但随后被删除并重新创建,则后续的重新同步将会运行,而不是引发 TABLE_ALREADY_EXISTS 状态代码。
- [SPARK-41219][SQL] IntegralDivide 使用 decimal(1, 0) 表示 0
- [SPARK-36173][CORE] 支持在 TaskContext 中获取 CPU 数
- [SPARK-41848][CORE] 使用 TaskResourceProfile 修复过度计划的任务
- [SPARK-42286][SQL] 使用 CAST 回退到复杂表达式的先前 codegen 代码路径
2023 年 1 月 31 日
- 使用定义的位置创建架构现在要求用户对 ANY FILE 拥有 SELECT 和 MODIFY 特权。
- [SPARK-41581][SQL] 将名称分配到 _LEGACY_ERROR_TEMP_1230
- [SPARK-41996][SQL][SS] 修复 kafka 测试以验证丢失的分区,从而分析 Kafka 操作缓慢的原因
- [SPARK-41580][SQL] 将名称分配到 _LEGACY_ERROR_TEMP_2137
- [SPARK-41666][PYTHON] 通过
sql()
支持参数化 SQL - [SPARK-41579][SQL] 将名称分配到 _LEGACY_ERROR_TEMP_1249
- [SPARK-41573][SQL] 将名称分配到 _LEGACY_ERROR_TEMP_2136
- [SPARK-41574][SQL] 将名称分配到 _LEGACY_ERROR_TEMP_2009
- [SPARK-41049][跟进] 修复 ConvertToLocalRelation 的代码同步回归
- [SPARK-41576][SQL] 将名称分配到 _LEGACY_ERROR_TEMP_2051
- [SPARK-41572][SQL] 将名称分配到 _LEGACY_ERROR_TEMP_2149
- [SPARK-41575][SQL] 将名称分配到 _LEGACY_ERROR_TEMP_2054
- 操作系统安全更新。
Databricks Runtime 12.0 (EoS)
请参阅 Databricks Runtime 12.0 (EoS)。
2023 年 6 月 15 日
- 已光子化
approx_count_distinct
。 - Snowflake-jdbc 库已升级到 3.13.29 以解决安全问题。
- [SPARK-43156][SPARK-43098][SQL] 在禁用 decorrelateInnerQuery 的情况下扩展标量子查询计数 bug 测试
- [SPARK-43779][SQL]
ParseToDate
现在会在主线程中加载EvalMode
。 - 操作系统安全更新。
- 已光子化
2023 年 6 月 2 日
failOnUnknownFields
模式下的 JSON 分析程序丢弃DROPMALFORMED
模式下的记录,并在FAILFAST
模式下直接失败。- 使用
SHALLOW CLONE
Iceberg 和 Parquet 提高增量更新的性能。 - 修复了自动加载程序中当提供的架构不包含推断的分区时,不同的源文件格式不一致的问题。 在读取推断的分区架构中缺少列的文件时,此问题可能会导致意外失败。
- [SPARK-42444][PYTHON]
DataFrame.drop
现在可正确处理重复列。 - [SPARK-43404][Backport] 不再对相同版本的 RocksDB 状态存储重用 sst 文件,以避免出现 ID 不匹配错误。
- [SPARK-43413][11.3-13.0][SQL] 修复了
IN
子查询ListQuery
的为 Null 性。 - [SPARK-43527][PYTHON] 修复了 PySpark 中的
catalog.listCatalogs
。 - [SPARK-43522][SQL] 修复了使用数组索引创建结构列名的问题。
- [SPARK-43541][SQL] 在解析表达式和缺失列时传播所有
Project
标记。 - [SPARK-43340][CORE] 修复了事件日志中堆栈跟踪字段缺失的问题。
- [SPARK-42937][SQL]
PlanSubqueries
将InSubqueryExec#shouldBroadcast
设置为 true。
2023 年 5 月 17 日
- 通过动态调整批大小来扫描结构异常的文件时,Parquet 扫描现在对 OOM 具有强大的性能。 对文件元数据进行分析文件,以抢先降低批大小,并在任务重试时再次降低,作为最终的安全网。
- 如果仅使用
failOnUnknownFields\
选项或者在failOnNewColumns\
架构演化模式下使用自动加载程序读取 Avro 文件,则具有不同数据类型的列将被读取为null\
,而不是引发一个错误,指出该文件不可读取。 这些读取操作现在会失败并建议用户使用rescuedDataColumn\
选项。 - 自动加载程序现在会执行以下操作。
-
- 正确读取,并且不再补救
Integer
、Short
、Byte
类型(如果提供了这些类型之一),但 Avro 文件建议使用其它两种类型之一。
- 正确读取,并且不再补救
-
- 防止将间隔类型读取为日期或时间戳类型,以避免获取损坏的日期。
-
- 防止读取精度较低的
Decimal
类型。
- 防止读取精度较低的
- [SPARK-43172] [CONNECT] 从 Spark 连接客户端公开主机和令牌。
- [SPARK-41520][SQL] 拆分
AND_OR
树模式以区分AND
和OR
。 - [SPARK-43098][SQL] 修复了按子句对标量子查询进行分组时的正确性
COUNT
bug。 - [SPARK-43190][SQL]
ListQuery.childOutput
现在与辅助输出保持一致。 - 操作系统安全更新。
2023 年 4 月 25 日
- 如果仅使用
failOnUnknownFields
选项或者在failOnNewColumns
架构演化模式下使用自动加载程序读取 Parquet 文件,则具有不同数据类型的列将被读取为null
,而不是引发一个错误,指出该文件不可读取。 这些读取操作现在会失败并建议用户使用rescuedDataColumn
选项。 - 如果提供了其中某种数据类型,自动加载程序现在可以正确读取,而不再补救
Integer
、Short
、Byte
类型。 Parquet 文件建议使用其他两种类型之一。 如果先前已启用补救数据列,则数据类型不匹配会导致补救列,即使这些列是可读的。 - [SPARK-42971][CORE] 当工作器处理
WorkDirCleanup
事件时,如果appDirs
为 null,则更改为输出workdir
- 操作系统安全更新。
- 如果仅使用
2023 年 4 月 11 日
- 在
SYNC
命令中支持旧数据源格式。 - 修复存储库外部的笔记本中的 %autoreload 行为 bug。
- 修复了以下 bug:在嵌套 JSON 对象的架构中检测到新列时,自动加载程序架构演变可能会进入无限失败循环。
- [SPARK-42928][SQL] 使
resolvePersistentFunction
同步。 - [SPARK-42967][CORE] 修复在阶段取消后启动任务时的
SparkListenerTaskStart.stageAttemptId
。 - 操作系统安全更新。
- 在
2023 年 3 月 29 日
- [SPARK-42794][SS] 将 lockAcquireTimeoutMs 增加到 2 分钟以获取结构流中的 RocksDB 状态存储
- [SPARK-41162][SQL] 修复使用聚合的自联接的反联接和半联接
- [SPARK-42403][CORE] JsonProtocol 应处理 null JSON 字符串
- [SPARK-42668][SS] 尝试关闭 HDFSStateStoreProvider 中的压缩流中止时捕获异常
- 其他 Bug 修复。
2023 年 3 月 14 日
- [SPARK-42534][SQL] 修复 DB2Dialect Limit 子句
- [SPARK-42622][CORE] 禁用值的替换
- [SPARK-41793][SQL] 范围子句针对较大小数定义的时间范围结果不正确
- [SPARK-42484] [SQL] 改进了 UnsafeRowUtils 错误消息
- [SPARK-42635][SQL] 修复 TimestampAdd 表达式。
- [SPARK-42516][SQL] 在创建视图时始终捕获会话时区配置
- 操作系统安全更新。
2023 年 2 月 24 日
查询联合的标准化连接选项
现在可以使用一组统一的选项(
host
、port
、database
、user
、password
)连接到查询联合中支持的数据源(PostgreSQL、MySQL、Synapse、Snowflake、Redshift、SQL Server)。 请注意,port
是可选的,如果未提供,将为每个数据源使用默认端口号。PostgreSQL 连接配置示例
CREATE TABLE postgresql_table USING postgresql OPTIONS ( dbtable '<table-name>', host '<host-name>', database '<database-name>', user '<user>', password secret('scope', 'key') );
Snowflake 连接配置示例
CREATE TABLE snowflake_table USING snowflake OPTIONS ( dbtable '<table-name>', host '<host-name>', port '<port-number>', database '<database-name>', user secret('snowflake_creds', 'my_username'), password secret('snowflake_creds', 'my_password'), schema '<schema-name>', sfWarehouse '<warehouse-name>' );
还原 [SPARK-41848][CORE] 使用 TaskResourceProfile 修复过度计划的任务
[SPARK-42162] 引入 MultiCommutativeOp 表达式作为内存优化,用于规范化大型可交换表达式树
[SPARK-41990][SQL] 在 V1 到 V2 筛选器转换中使用
FieldReference.column
而不是apply
[SPARK-42346][SQL] 在子查询合并后重写非重复性聚合
操作系统安全更新。
2023 年 2 月 16 日
- 用户现在可以使用 Databricks Runtime 9.1 或更高版本读取和写入某些需要读取器版本 3 和写入器版本 7 的 Delta 表。 要使操作成功,当前版本的 Databricks Runtime 必须支持表协议中列出的表功能。
- SYNC 命令支持同步重新创建的 Hive 元存储表。 如果 HMS 表之前已同步到 Unity Catalog,但随后被删除并重新创建,则后续的重新同步将会运行,而不是引发 TABLE_ALREADY_EXISTS 状态代码。
- [SPARK-36173][CORE] 支持在 TaskContext 中获取 CPU 数
- [SPARK-42286][SQL] 使用 CAST 回退到复杂表达式的先前 codegen 代码路径
- [SPARK-41848][CORE] 使用 TaskResourceProfile 修复过度计划的任务
- [SPARK-41219][SQL] IntegralDivide 使用 decimal(1, 0) 表示 0
2023 年 1 月 25 日
- [SPARK-41660][SQL] 仅在使用元数据列时才传播这些列
- [SPARK-41379][SS][PYTHON] 在 PySpark 中的 foreachBatch 接收器的用户函数中的数据帧中提供克隆的 spark 会话
- [SPARK-41669][SQL] canCollapseExpressions 中的早期修剪
- 操作系统安全更新。
2023 年 1 月 18 日
REFRESH FUNCTION
SQL 命令现在支持 SQL 函数和 SQL 表函数。 例如,该命令可用于刷新在另一个 SQL 会话中更新的持久性 SQL 函数。- Java Database Connectivity (JDBC) 数据源 v1 现在支持 LIMIT 子句下推以提高查询的性能。 此功能默认处于启用状态,可以通过将
spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabled
设置为false
来禁用它。 - 在旧的表 ACL 群集中,创建引用 JVM 类的函数现在需要
MODIFY_CLASSPATH
特权。 - Java Database Connectivity (JDBC) 数据源 v1 现在支持 LIMIT 子句下推以提高查询的性能。 此功能默认处于启用状态,可以通过将 spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabled 设置为 false 来禁用它。
- Azure Synapse 连接器现在会在列名称包含无效字符(例如空格或分号)时返回更具描述性的错误消息。 在这种情况下,将返回以下消息:
Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace
。 - Spark 结构化流式处理现在可对作为源的 Delta Sharing 表使用 format("deltasharing")。
- [SPARK-38277][SS] RocksDB 状态存储提交后清除写入批
- [SPARK-41733][SQL][SS] 对 ResolveWindowTime 规则应用基于树模式的修剪
- [SPARK-39591][SS] 异步进度跟踪
- [SPARK-41339][SQL] 关闭并重新创建 RocksDB 写入批而不是仅仅清除
- [SPARK-41198][SS] 修复具有 CTE 和 DSv1 流式处理源的流式处理查询中的指标
- [SPARK-41539][SQL] 针对 LogicalRDD 的逻辑计划中的输出重新映射统计信息和约束
- [SPARK-41732][SQL][SS] 对 SessionWindowing 规则应用基于树模式的修剪
- [SPARK-41862][SQL] 修复与 Orc 阅读器中的默认值相关的正确性 bug
- [SPARK-41199][SS] 修复同时使用 DSv1 流式处理源和 DSv2 流式处理源时的指标问题
- [SPARK-41261][PYTHON][SS] 修复当分组键的列未按从早到晚的时间顺序排列时 applyInPandasWithState 的问题
- 操作系统安全更新。
2023 年 5 月 17 日
- 通过动态调整批大小来扫描结构异常的文件时,Parquet 扫描现在对 OOM 具有强大的性能。 对文件元数据进行分析文件,以抢先降低批大小,并在任务重试时再次降低,作为最终的安全网。
- 修复了导致 Azure Databricks 作业在群集初始化期间无法连接到元存储后持续存在的回归。
- [SPARK-41520][SQL] 拆分
AND_OR
树模式以区分AND
和OR
。 - [SPARK-43190][SQL]
ListQuery.childOutput
现在与辅助输出保持一致。 - 操作系统安全更新。
2023 年 4 月 25 日
- 如果仅使用
failOnUnknownFields
选项或者在failOnNewColumns
架构演化模式下使用自动加载程序读取 Parquet 文件,则具有不同数据类型的列将被读取为null
,而不是引发一个错误,指出该文件不可读取。 这些读取操作现在会失败并建议用户使用rescuedDataColumn
选项。 - 如果提供了其中某种数据类型,自动加载程序现在可以正确读取,而不再补救
Integer
、Short
、Byte
类型。 Parquet 文件建议使用其他两种类型之一。 如果先前已启用补救数据列,则数据类型不匹配会导致补救列,即使这些列是可读的。 - [SPARK-42937][SQL]
PlanSubqueries
现在会将InSubqueryExec#shouldBroadcast
设置为 true。 - 操作系统安全更新。
- 如果仅使用
2023 年 4 月 11 日
- 在 SYNC 命令中支持旧数据源格式。
- 修复存储库外部的笔记本中的 %autoreload 行为 bug。
- 修复了以下 bug:在嵌套 JSON 对象的架构中检测到新列时,自动加载程序架构演变可能会进入无限失败循环。
- [SPARK-42928][SQL] 使 resolvePersistentFunction 同步。
- [SPARK-42967][CORE] 修复在阶段取消后启动任务时的 SparkListenerTaskStart.stageAttemptId。
2023 年 3 月 29 日
- [SPARK-42794][SS] 将 lockAcquireTimeoutMs 增加到 2 分钟以获取结构流中的 RocksDB 状态存储
- [SPARK-42403][CORE] JsonProtocol 应处理 null JSON 字符串
- [SPARK-42668][SS] 尝试关闭 HDFSStateStoreProvider 中的压缩流中止时捕获异常
- 操作系统安全更新。
2023 年 3 月 14 日
- [SPARK-42635][SQL] 修复 TimestampAdd 表达式。
- [SPARK-41793][SQL] 范围子句针对较大小数定义的时间范围结果不正确
- [SPARK-42484] [SQL] 改进了 UnsafeRowUtils 错误消息
- [SPARK-42534][SQL] 修复 DB2Dialect Limit 子句
- [SPARK-41162][SQL] 修复使用聚合的自联接的反联接和半联接
- [SPARK-42516][SQL] 在创建视图时始终捕获会话时区配置
- 其他 Bug 修复。
2023 年 2 月 28 日
查询联合的标准化连接选项
现在可以使用一组统一的选项(
host
、port
、database
、user
、password
)连接到查询联合中支持的数据源(PostgreSQL、MySQL、Synapse、Snowflake、Redshift、SQL Server)。 请注意,port
是可选的,如果未提供,将为每个数据源使用默认端口号。PostgreSQL 连接配置示例
CREATE TABLE postgresql_table USING postgresql OPTIONS ( dbtable '<table-name>', host '<host-name>', database '<database-name>', user '<user>', password secret('scope', 'key') );
Snowflake 连接配置示例
CREATE TABLE snowflake_table USING snowflake OPTIONS ( dbtable '<table-name>', host '<host-name>', port '<port-number>', database '<database-name>', user secret('snowflake_creds', 'my_username'), password secret('snowflake_creds', 'my_password'), schema '<schema-name>', sfWarehouse '<warehouse-name>' );
[SPARK-42286][SQL] 使用 CAST 回退到复杂表达式的先前 codegen 代码路径
[SPARK-41989][PYTHON] 避免破坏 pyspark.pandas 的日志记录配置
[SPARK-42346][SQL] 在子查询合并后重写非重复性聚合
[SPARK-41360][CORE] 避免当执行程序丢失时重新注册 BlockManager
[SPARK-42162] 引入 MultiCommutativeOp 表达式作为内存优化,用于规范化大型可交换表达式树
[SPARK-41990][SQL] 在 V1 到 V2 筛选器转换中使用
FieldReference.column
而不是apply
操作系统安全更新。
2023 年 2 月 16 日
- 用户现在可以使用 Databricks Runtime 9.1 或更高版本读取和写入某些需要读取器版本 3 和写入器版本 7 的 Delta 表。 要使操作成功,当前版本的 Databricks Runtime 必须支持表协议中列出的表功能。
- SYNC 命令支持同步重新创建的 Hive 元存储表。 如果 HMS 表之前已同步到 Unity Catalog,但随后被删除并重新创建,则后续的重新同步将会运行,而不是引发 TABLE_ALREADY_EXISTS 状态代码。
- [SPARK-41219][SQL] IntegralDivide 使用 decimal(1, 0) 表示 0
- [SPARK-40382][SQL] 在
RewriteDistinctAggregates
中按语义上等效的子项对不同的聚合表达式进行分组 - 操作系统安全更新。
2023 年 1 月 25 日
- [SPARK-41379][SS][PYTHON] 在 PySpark 中的 foreachBatch 接收器的用户函数中的数据帧中提供克隆的 spark 会话
- [SPARK-41660][SQL] 仅在使用元数据列时才传播这些列
- [SPARK-41669][SQL] canCollapseExpressions 中的早期修剪
- 其他 Bug 修复。
2023 年 1 月 18 日
REFRESH FUNCTION
SQL 命令现在支持 SQL 函数和 SQL 表函数。 例如,该命令可用于刷新在另一个 SQL 会话中更新的持久性 SQL 函数。- Java Database Connectivity (JDBC) 数据源 v1 现在支持 LIMIT 子句下推以提高查询的性能。 此功能默认处于启用状态,可以通过将
spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabled
设置为false
来禁用它。 - Java Database Connectivity (JDBC) 数据源 v1 现在支持 LIMIT 子句下推以提高查询的性能。 此功能默认处于启用状态,可以通过将 spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabled 设置为 false 来禁用它。
- Azure Synapse 连接器现在会在列名称包含无效字符(例如空格或分号)时返回更具描述性的错误消息。 在这种情况下,将返回以下消息:
Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace
。 - [SPARK-41198][SS] 修复具有 CTE 和 DSv1 流式处理源的流式处理查询中的指标
- [SPARK-41862][SQL] 修复与 Orc 阅读器中的默认值相关的正确性 bug
- [SPARK-41539][SQL] 针对 LogicalRDD 的逻辑计划中的输出重新映射统计信息和约束
- [SPARK-39591][SS] 异步进度跟踪
- [SPARK-41199][SS] 修复同时使用 DSv1 流式处理源和 DSv2 流式处理源时的指标问题
- [SPARK-41261][PYTHON][SS] 修复当分组键的列未按从早到晚的时间顺序排列时 applyInPandasWithState 的问题
- [SPARK-41339][SQL] 关闭并重新创建 RocksDB 写入批而不是仅仅清除
- [SPARK-41732][SQL][SS] 对 SessionWindowing 规则应用基于树模式的修剪
- [SPARK-38277][SS] RocksDB 状态存储提交后清除写入批
- 操作系统安全更新。
2022 年 11 月 29 日
- 在使用 Redshift 连接器写入数据时,用户可以配置前导和尾部空格的行为。 已添加以下选项来控制空格处理:
csvignoreleadingwhitespace
,设置为true
时,如果tempformat
设置为CSV
或CSV GZIP
,则会在写入期间从值中删除前导空格。 当 config 设置为false
时保留空格。 默认情况下,该值为true
。csvignoretrailingwhitespace
,设置为true
时,如果tempformat
设置为CSV
或CSV GZIP
,则会在写入期间从值中删除尾部空格。 当 config 设置为false
时保留空格。 默认情况下,该值为true
。
- 修复了当所有列保留为字符串(
cloudFiles.inferColumnTypes
未设置或设置为false
)且 JSON 包含嵌套对象时自动加载程序中出现的 JSON 分析 bug。 - 将
snowflake-jdbc
依赖项升级到了版本 3.13.22。 - JDBC 表的表类型现在默认为 EXTERNAL。
- [SPARK-40906][SQL] 在插入到 Map 之前
Mode
应复制键 - 操作系统安全更新。
- 在使用 Redshift 连接器写入数据时,用户可以配置前导和尾部空格的行为。 已添加以下选项来控制空格处理:
2022 年 11 月 15 日
- 表 ACL 和 UC 共享群集现在允许从 Python 执行 Dataset.toJSON 方法。
- [SPARK-40646] 已修复对结构、映射和数组的 JSON 分析,当记录的一部分与架构不匹配时,记录的其余部分仍可正常分析,而不会返回 null。 若要选择启用改进的行为,请将
spark.sql.json.enablePartialResults
设置为true
。 默认已禁用该标志以保留原始行为 - [SPARK-40903][SQL] 如果数据类型发生更改,将避免重新排序十进制加法以符合标准化
- [SPARK-40618][SQL] 修复了包含使用引用跟踪的嵌套子查询的 MergeScalarSubqueries 规则中的 bug
- [SPARK-40697][SQL] 添加了读取端字符填充以包括外部数据文件
- 操作系统安全更新。
2022 年 11 月 1 日
- Unity Catalog 中的结构化流式处理现在支持刷新临时访问令牌。 在初始令牌过期后,使用 Unity Catalog 通用或作业群集运行的流式处理工作负载将不再失败。
- 修复了以下问题:如果 Delta 表包含名为
_change_type
的用户定义列,但在该表上禁用了更改数据馈送,则在运行MERGE
时,将错误地为该列中的数据填充 NULL 值。 - 修复了以下问题:运行
MERGE
并在条件中恰好使用源中的 99 列可能导致java.lang.ClassCastException: org.apache.spark.sql.vectorized.ColumnarBatch cannot be cast to org.apache.spark.sql.catalyst.InternalRow
。 - 修复了自动加载程序的以下问题:启用
allowOverwrites
时,文件可能在同一个微批中复制。 - 已将 Apache commons-text 升级到 1.10.0。
- [SPARK-38881][DSTREAMS][KINESIS][PYSPARK] 添加了对 CloudWatch MetricsLevel 配置的支持
- [SPARK-40596][CORE] 使用 ExecutorDecommissionInfo 中的消息填充 ExecutorDecommission
- [SPARK-40670][SS][PYTHON] 修复了当输入架构包含“不可为 null”列时 applyInPandasWithState 中的 NPE
- 操作系统安全更新。
Databricks Runtime 11.2 (EoS)
请参阅 Databricks Runtime 11.2 (EoS)。
- 2023 年 2 月 28 日
- [SPARK-42286][SQL] 使用 CAST 回退到复杂表达式的先前 codegen 代码路径
- [SPARK-42346][SQL] 在子查询合并后重写非重复性聚合
- 操作系统安全更新。
- 2023 年 2 月 16 日
- 用户现在可以使用 Databricks Runtime 9.1 或更高版本读取和写入某些需要读取器版本 3 和写入器版本 7 的 Delta 表。 要使操作成功,当前版本的 Databricks Runtime 必须支持表协议中列出的表功能。
- SYNC 命令支持同步重新创建的 Hive 元存储表。 如果 HMS 表之前已同步到 Unity Catalog,但随后被删除并重新创建,则后续的重新同步将会运行,而不是引发 TABLE_ALREADY_EXISTS 状态代码。
- [SPARK-41219][SQL] IntegralDivide 使用 decimal(1, 0) 表示 0
- 操作系统安全更新。
- 2023 年 1 月 31 日
- JDBC 表的表类型现在默认为 EXTERNAL。
- [SPARK-41379][SS][PYTHON] 在 PySpark 中的 foreachBatch 接收器的用户函数中的数据帧中提供克隆的 spark 会话
- 2023 年 1 月 18 日
- Azure Synapse 连接器现在会在列名称包含无效字符(例如空格或分号)时返回更具描述性的错误消息。 在这种情况下,将返回以下消息:
Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace
。 - [SPARK-41198][SS] 修复具有 CTE 和 DSv1 流式处理源的流式处理查询中的指标
- [SPARK-41862][SQL] 修复与 Orc 阅读器中的默认值相关的正确性 bug
- [SPARK-41539][SQL] 针对 LogicalRDD 的逻辑计划中的输出重新映射统计信息和约束
- [SPARK-41199][SS] 修复同时使用 DSv1 流式处理源和 DSv2 流式处理源时的指标问题
- [SPARK-41339][SQL] 关闭并重新创建 RocksDB 写入批而不是仅仅清除
- [SPARK-41732][SQL][SS] 对 SessionWindowing 规则应用基于树模式的修剪
- [SPARK-38277][SS] RocksDB 状态存储提交后清除写入批
- 操作系统安全更新。
- Azure Synapse 连接器现在会在列名称包含无效字符(例如空格或分号)时返回更具描述性的错误消息。 在这种情况下,将返回以下消息:
- 2022 年 11 月 29 日
- 在使用 Redshift 连接器写入数据时,用户可以配置前导和尾部空格的行为。 已添加以下选项来控制空格处理:
csvignoreleadingwhitespace
,设置为true
时,如果tempformat
设置为CSV
或CSV GZIP
,则会在写入期间从值中删除前导空格。 当 config 设置为false
时保留空格。 默认情况下,该值为true
。csvignoretrailingwhitespace
,设置为true
时,如果tempformat
设置为CSV
或CSV GZIP
,则会在写入期间从值中删除尾部空格。 当 config 设置为false
时保留空格。 默认情况下,该值为true
。
- 修复了当所有列保留为字符串(
cloudFiles.inferColumnTypes
未设置或设置为false
)且 JSON 包含嵌套对象时自动加载程序中出现的 JSON 分析 bug。 - [SPARK-40906][SQL] 在插入到 Map 之前
Mode
应复制键 - 操作系统安全更新。
- 在使用 Redshift 连接器写入数据时,用户可以配置前导和尾部空格的行为。 已添加以下选项来控制空格处理:
- 2022 年 11 月 15 日
- [SPARK-40646] 已修复对结构、映射和数组的 JSON 分析,当记录的一部分与架构不匹配时,记录的其余部分仍可正常分析,而不会返回 null。 若要选择启用改进的行为,请将
spark.sql.json.enablePartialResults
设置为true
。 默认已禁用该标志以保留原始行为 - [SPARK-40618][SQL] 修复了包含使用引用跟踪的嵌套子查询的 MergeScalarSubqueries 规则中的 bug
- [SPARK-40697][SQL] 添加了读取端字符填充以包括外部数据文件
- 操作系统安全更新。
- [SPARK-40646] 已修复对结构、映射和数组的 JSON 分析,当记录的一部分与架构不匹配时,记录的其余部分仍可正常分析,而不会返回 null。 若要选择启用改进的行为,请将
- 2022 年 11 月 1 日
- 已将 Apache commons-text 升级到 1.10.0。
- 修复了以下问题:如果 Delta 表包含名为
_change_type
的用户定义列,但在该表上禁用了更改数据馈送,则在运行MERGE
时,将错误地为该列中的数据填充 NULL 值。 - 修复了以下问题:运行
MERGE
并在条件中恰好使用源中的 99 列可能导致java.lang.ClassCastException: org.apache.spark.sql.vectorized.ColumnarBatch cannot be cast to org.apache.spark.sql.catalyst.InternalRow
。 - 修复了自动加载程序的以下问题:启用
allowOverwrites
时,文件可能在同一个微批中复制 - [SPARK-40596][CORE] 使用 ExecutorDecommissionInfo 中的消息填充 ExecutorDecommission
- 操作系统安全更新。
- 2022 年 10 月 19 日
- 修复了已启用 Unity Catalog 的群集/仓库上的临时凭据的 COPY INTO 使用问题。
- [SPARK-40213][SQL] 支持拉丁语 - 1 字符的 ASCII 值转换
- 操作系统安全更新。
- 2022 年 10 月 5 日
- 用户可以设置 spark.conf.set("spark.databricks.io.listKeysWithPrefix.azure.enabled", "true"),以重新启用 ADLS Gen2 上的自动加载程序的原生列表。 原生列表以前因性能问题关闭,但可能已导致客户的存储成本增加。 在以前的维护更新中,此更改已推出到 DBR 10.4 和 9.1。
- [SPARK-40315][SQL]支持将 URL 编码/解码为内置函数并整理与 URL 相关的函数
- [SPARK-40156][SQL]
url_decode()
应返回错误类 - [SPARK-40169] 不要下推不引用数据架构的 Parquet 筛选器
- [SPARK-40460][SS] 修复选择
_metadata
时的流式处理指标 - [SPARK-40468][SQL] 选中 _corrupt_record 时修复 CSV 中的删除列
- [SPARK-40055][SQL] 即使 spark_catalog 实现是 defaultSessionCatalog,listCatalogs 也应返回 spark_catalog
- 操作系统安全更新。
- 2022 年 9 月 22 日
- [SPARK-40315][SQL] 为 ArrayBasedMapData 的文本添加 hashCode()
- [SPARK-40389][SQL] 如果转换可以溢出,则小数不能向上转换为整型类型
- [SPARK-40380][SQL] 修复 InvokeLike 的常量折叠,以避免计划中嵌入不可序列化的文本
- [SPARK-40066][SQL][FOLLOW-UP] 在获取 dataType 之前检查 ElementAt 是否已解析
- [SPARK-40109][SQL] 新 SQL 函数:get()
- [SPARK-40066][SQL] ANSI 模式:对映射列的访问无效时始终返回 null
- [SPARK-40089][SQL] 修复某些 Decimal 类型的排序问题
- [SPARK-39887][SQL] RemoveRedundantAliases 应保留那些使投影节点的输出独一无二的别名
- [SPARK-40152][SQL] 修复 split_part codegen 编译问题
- [SPARK-40235][CORE] 在 Executor.updateDependencies() 中使用可中断锁而不是同步
- [SPARK-40212][SQL] SparkSQL castPartValue 无法正确处理 byte、short 或 float 类型
- [SPARK-40218][SQL] GROUPING SETS 应保留分组列
- [SPARK-35542][ML] 修复:为具有参数的多个列创建的 Bucketizer
- [SPARK-40079] 为空输入案例添加 Imputer inputCols 验证
- [SPARK-39912]SPARK-39828[SQL] 优化 CatalogImpl
Databricks Runtime 11.1 (EoS)
请参阅 Databricks Runtime 11.1 (EoS)。
2023 年 1 月 31 日
- [SPARK-41379][SS][PYTHON] 在 PySpark 中的 foreachBatch 接收器的用户函数中的数据帧中提供克隆的 spark 会话
- 其他 Bug 修复。
2023 年 1 月 18 日
- Azure Synapse 连接器现在会在列名称包含无效字符(例如空格或分号)时返回更具描述性的错误消息。 在这种情况下,将返回以下消息:
Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace
。 - [SPARK-41198][SS] 修复具有 CTE 和 DSv1 流式处理源的流式处理查询中的指标
- [SPARK-41862][SQL] 修复与 Orc 阅读器中的默认值相关的正确性 bug
- [SPARK-41199][SS] 修复同时使用 DSv1 流式处理源和 DSv2 流式处理源时的指标问题
- [SPARK-41339][SQL] 关闭并重新创建 RocksDB 写入批而不是仅仅清除
- [SPARK-41732][SQL][SS] 对 SessionWindowing 规则应用基于树模式的修剪
- [SPARK-38277][SS] RocksDB 状态存储提交后清除写入批
- 操作系统安全更新。
- Azure Synapse 连接器现在会在列名称包含无效字符(例如空格或分号)时返回更具描述性的错误消息。 在这种情况下,将返回以下消息:
2022 年 11 月 29 日
- 在使用 Redshift 连接器写入数据时,用户可以配置前导和尾部空格的行为。 已添加以下选项来控制空格处理:
csvignoreleadingwhitespace
,设置为true
时,如果tempformat
设置为CSV
或CSV GZIP
,则会在写入期间从值中删除前导空格。 当 config 设置为false
时保留空格。 默认情况下,该值为true
。csvignoretrailingwhitespace
,设置为true
时,如果tempformat
设置为CSV
或CSV GZIP
,则会在写入期间从值中删除尾部空格。 当 config 设置为false
时保留空格。 默认情况下,该值为true
。
- 修复了当所有列保留为字符串(
cloudFiles.inferColumnTypes
未设置或设置为false
)且 JSON 包含嵌套对象时自动加载程序中出现的 JSON 分析 bug。 - [SPARK-39650][SS] 修复了后向兼容性的流式处理删除重复中不正确的值架构
- 操作系统安全更新。
- 在使用 Redshift 连接器写入数据时,用户可以配置前导和尾部空格的行为。 已添加以下选项来控制空格处理:
2022 年 11 月 15 日
- [SPARK-40646] 已修复对结构、映射和数组的 JSON 分析,当记录的一部分与架构不匹配时,记录的其余部分仍可正常分析,而不会返回 null。若要选择启用改进的行为,请将
spark.sql.json.enablePartialResults
设置为true
。 默认已禁用该标志以保留原始行为 - 操作系统安全更新。
- [SPARK-40646] 已修复对结构、映射和数组的 JSON 分析,当记录的一部分与架构不匹配时,记录的其余部分仍可正常分析,而不会返回 null。若要选择启用改进的行为,请将
2022 年 11 月 1 日
- 已将 Apache commons-text 升级到 1.10.0。
- 修复了以下问题:如果 Delta 表包含名为
_change_type
的用户定义列,但在该表上禁用了更改数据馈送,则在运行MERGE
时,将错误地为该列中的数据填充 NULL 值。 - 修复了以下问题:运行
MERGE
并在条件中恰好使用源中的 99 列可能导致java.lang.ClassCastException: org.apache.spark.sql.vectorized.ColumnarBatch cannot be cast to org.apache.spark.sql.catalyst.InternalRow
。 - 修复了自动加载程序的以下问题:启用
allowOverwrites
时,文件可能在同一个微批中复制 - [SPARK-40697][SQL] 添加了读取端字符填充以包括外部数据文件
- [SPARK-40596][CORE] 使用 ExecutorDecommissionInfo 中的消息填充 ExecutorDecommission
- 操作系统安全更新。
2022 年 10 月 18 日
- 修复了已启用 Unity Catalog 的群集/仓库上的临时凭据的 COPY INTO 使用问题。
- [SPARK-40213][SQL] 支持拉丁语 - 1 字符的 ASCII 值转换
- 操作系统安全更新。
2022 年 10 月 5 日
- 用户可以设置 spark.conf.set("spark.databricks.io.listKeysWithPrefix.azure.enabled", "true"),以重新启用 ADLS Gen2 上的自动加载程序的原生列表。 原生列表以前因性能问题关闭,但可能已导致客户的存储成本增加。 在以前的维护更新中,此更改已推出到 DBR 10.4 和 9.1。
- [SPARK-40169] 不要下推不引用数据架构的 Parquet 筛选器
- [SPARK-40460][SS] 修复选择
_metadata
时的流式处理指标 - [SPARK-40468][SQL] 选中 _corrupt_record 时修复 CSV 中的删除列
- [SPARK-40055][SQL] 即使 spark_catalog 实现是 defaultSessionCatalog,listCatalogs 也应返回 spark_catalog
- 操作系统安全更新。
2022 年 9 月 22 日
- [SPARK-40315][SQL] 为 ArrayBasedMapData 的文本添加 hashCode()
- [SPARK-40380][SQL] 修复 InvokeLike 的常量折叠,以避免计划中嵌入不可序列化的文本
- [SPARK-40089][SQL] 修复某些 Decimal 类型的排序问题
- [SPARK-39887][SQL] RemoveRedundantAliases 应保留那些使投影节点的输出独一无二的别名
- [SPARK-40152][SQL] 修复 split_part codegen 编译问题
2022 年 9 月 6 日
- 我们已更新表访问控制(表 ACL)中的权限模型,因此只需要 MODIFY 权限便可使用 ALTER TABLE 来更改表的架构或属性。 以前,这些操作要求用户拥有该表。 授予表权限、更改表所有者、更改表位置或重命名表仍需要所有权。 此更改使表 ACL 的权限模型与 Unity Catalog 更加一致。
- [SPARK-40235][CORE] 在 Executor.updateDependencies() 中使用可中断锁而不是同步
- [SPARK-40212][SQL] SparkSQL castPartValue 无法正确处理 byte、short 或 float 类型
- [SPARK-40218][SQL] GROUPING SETS 应保留分组列
- [SPARK-39976] [SQL] ArrayIntersect 应正确处理左表达式中的 null
- [SPARK-40053][CORE][SQL][TESTS] 将
assume
添加到需要 Python 运行时环境的动态取消案例 - [SPARK-35542][CORE][ML] 修复:为具有参数 splitsArray、inputCols 和 outputCols 的多个列创建的 Bucketizer 在保存后无法加载
- [SPARK-40079][CORE] 为空输入案例添加 Imputer inputCols 验证
2022 年 8 月 24 日
- 共享、提供程序和收件人现在支持 SQL 命令来更改所有者、批注、重命名
- [SPARK-39983][CORE][SQL] 不要在驱动程序上缓存未序列化的广播关系
- [SPARK-39912][SPARK-39828][SQL] 优化 CatalogImpl
- [SPARK-39775][CORE][AVRO] 在分析 Avro 架构时禁用验证默认值
- [SPARK-39806] 修复了在已分区表上访问 METADATA 结构的查询崩溃的问题
- [SPARK-39867][SQL] 全局限制不应继承 OrderPreservingUnaryNode
- [SPARK-39962][PYTHON][SQL] 当组属性为空时应用投影
- [SPARK-39839][SQL] 在 UnsafeRow 结构完整性检查中处理特殊情况下的 null 可变长度十进制与非零 offsetAndSize
- [SPARK-39713][SQL] ANSI 模式:添加有关对 INVALID_ARRAY_INDEX 错误使用 try_element_at 的建议
- [SPARK-39847][SS] 修复了 RocksDBLoader.loadLibrary() 中的争用条件(如果调用方线程中断)
- [SPARK-39731][SQL] 修复了在使用 CORRECTED 时间分析程序策略分析“yyyyMMdd”格式的日期时 CSV 和 JSON 数据源中出现的问题
- 操作系统安全更新。
2022 年 8 月 10 日
- 对于具有表访问控制的 Delta 表,通过 DML 语句(例如
INSERT
和MERGE
)的自动架构演变现可供对此类表具有MODIFY
权限的所有用户使用。 此外,使用COPY INTO
执行架构演变所需的权限现在从OWNER
降低为MODIFY
,以便与其他命令保持一致。 这些更改使表 ACL 安全模型与 Unity 目录安全模型以及替换表等其他操作更加一致。 - [SPARK-39889] 增强“除数为 0”的错误消息
- [SPARK-39795] [SQL] 新 SQL 函数:try_to_timestamp
- [SPARK-39749] 在 ANSI 模式下将十进制转换为字符串时,始终使用纯字符串表示形式
- [SPARK-39625] 将 df.as 重命名为 df.to
- [SPARK-39787] [SQL] 在函数 to_timestamp 分析错误中使用错误类
- [SPARK-39625] [SQL] 添加 Dataset.as(StructType)
- [SPARK-39689] 在 CSV 数据源中支持 2 个字符的
lineSep
- [SPARK-39579] [SQL][PYTHON][R] 使 ListFunctions/getFunction/functionExists 与 3 层命名空间兼容
- [SPARK-39702] [CORE] 通过使用共享 byteRawChannel 减少 TransportCipher$EncryptedMessage 的内存开销
- [SPARK-39575] [AVRO] 在 AvroDeserializer 中的 ByteBuffer#get 之后添加 ByteBuffer#rewind
- [SPARK-39265] [SQL] 修复启用 SPARK_ANSI_SQL_MODE 时的测试失败
- [SPARK-39441] [SQL] 加快 DeduplicateRelations
- [SPARK-39497] [SQL] 优化缺少映射键列的分析异常
- [SPARK-39476] [SQL] 从 Long 转换为 Float/Double 或从 Integer 转换为 Float 时禁用展开转换优化
- [SPARK-39434] [SQL] 在数组索引超出范围时提供运行时错误查询上下文
- 对于具有表访问控制的 Delta 表,通过 DML 语句(例如
Databricks Runtime 11.0 (EoS)
请参阅 Databricks Runtime 11.0 (EoS)。
- 2022 年 11 月 29 日
- 在使用 Redshift 连接器写入数据时,用户可以配置前导和尾部空格的行为。 已添加以下选项来控制空格处理:
csvignoreleadingwhitespace
,设置为true
时,如果tempformat
设置为CSV
或CSV GZIP
,则会在写入期间从值中删除前导空格。 当 config 设置为false
时保留空格。 默认情况下,该值为true
。csvignoretrailingwhitespace
,设置为true
时,如果tempformat
设置为CSV
或CSV GZIP
,则会在写入期间从值中删除尾部空格。 当 config 设置为false
时保留空格。 默认情况下,该值为true
。
- 修复了当所有列保留为字符串(
cloudFiles.inferColumnTypes
未设置或设置为false
)且 JSON 包含嵌套对象时自动加载程序中出现的 JSON 分析 bug。 - [SPARK-39650][SS] 修复了后向兼容性的流式处理删除重复中不正确的值架构
- 操作系统安全更新。
- 在使用 Redshift 连接器写入数据时,用户可以配置前导和尾部空格的行为。 已添加以下选项来控制空格处理:
- 2022 年 11 月 15 日
- [SPARK-40646] 已修复对结构、映射和数组的 JSON 分析,当记录的一部分与架构不匹配时,记录的其余部分仍可正常分析,而不会返回 null。 若要选择启用改进的行为,请将
spark.sql.json.enablePartialResults
设置为true
。 默认已禁用该标志以保留原始行为。
- [SPARK-40646] 已修复对结构、映射和数组的 JSON 分析,当记录的一部分与架构不匹配时,记录的其余部分仍可正常分析,而不会返回 null。 若要选择启用改进的行为,请将
- 2022 年 11 月 1 日
- 已将 Apache commons-text 升级到 1.10.0。
- 修复了以下问题:如果 Delta 表包含名为
_change_type
的用户定义列,但在该表上禁用了更改数据馈送,则在运行MERGE
时,将错误地为该列中的数据填充 NULL 值。 - 修复了自动加载程序的以下问题:启用
allowOverwrites
时,文件可能在同一个微批中复制 - [SPARK-40697][SQL] 添加了读取端字符填充以包括外部数据文件
- [SPARK-40596][CORE] 使用 ExecutorDecommissionInfo 中的消息填充 ExecutorDecommission
- 操作系统安全更新。
- 2022 年 10 月 18 日
- [SPARK-40213][SQL] 支持拉丁语 - 1 字符的 ASCII 值转换
- 操作系统安全更新。
- 2022 年 10 月 5 日
- 用户可以设置 spark.conf.set("spark.databricks.io.listKeysWithPrefix.azure.enabled", "true"),以重新启用 ADLS Gen2 上的自动加载程序的原生列表。 原生列表以前因性能问题关闭,但可能已导致客户的存储成本增加。 在以前的维护更新中,此更改已推出到 DBR 10.4 和 9.1。
- [SPARK-40169] 不要下推不引用数据架构的 Parquet 筛选器
- [SPARK-40460][SS] 修复选择
_metadata
时的流式处理指标 - [SPARK-40468][SQL] 选中 _corrupt_record 时修复 CSV 中的删除列
- 操作系统安全更新。
- 2022 年 9 月 22 日
- [SPARK-40315][SQL] 为 ArrayBasedMapData 的文本添加 hashCode()
- [SPARK-40380][SQL] 修复 InvokeLike 的常量折叠,以避免计划中嵌入不可序列化的文本
- [SPARK-40089][SQL] 修复某些 Decimal 类型的排序问题
- [SPARK-39887][SQL] RemoveRedundantAliases 应保留那些使投影节点的输出独一无二的别名
- [SPARK-40152][SQL] 修复 split_part codegen 编译问题
- 2022 年 9 月 6 日
- [SPARK-40235][CORE] 在 Executor.updateDependencies() 中使用可中断锁而不是同步
- [SPARK-40212][SQL] SparkSQL castPartValue 无法正确处理 byte、short 或 float 类型
- [SPARK-40218][SQL] GROUPING SETS 应保留分组列
- [SPARK-39976] [SQL] ArrayIntersect 应正确处理左表达式中的 null
- [SPARK-40053][CORE][SQL][TESTS] 将
assume
添加到需要 Python 运行时环境的动态取消案例 - [SPARK-35542][CORE][ML] 修复:为具有参数 splitsArray、inputCols 和 outputCols 的多个列创建的 Bucketizer 在保存后无法加载
- [SPARK-40079][CORE] 为空输入案例添加 Imputer inputCols 验证
- 2022 年 8 月 24 日
- [SPARK-39983][CORE][SQL] 不要在驱动程序上缓存未序列化的广播关系
- [SPARK-39775][CORE][AVRO] 在分析 Avro 架构时禁用验证默认值
- [SPARK-39806] 修复了在已分区表上访问 METADATA 结构的查询崩溃的问题
- [SPARK-39867][SQL] 全局限制不应继承 OrderPreservingUnaryNode
- [SPARK-39962][PYTHON][SQL] 当组属性为空时应用投影
- 操作系统安全更新。
- 2022 年 8 月 9 日
- [SPARK-39713][SQL] ANSI 模式:添加有关对 INVALID_ARRAY_INDEX 错误使用 try_element_at 的建议
- [SPARK-39847] 修复 RocksDBLoader.loadLibrary() 中的争用条件(如果调用方线程中断)
- [SPARK-39731][SQL] 修复了在使用 CORRECTED 时间分析程序策略分析“yyyyMMdd”格式的日期时 CSV 和 JSON 数据源中出现的问题
- [SPARK-39889] 增强“除数为 0”的错误消息
- [SPARK-39795][SQL] 新 SQL 函数:try_to_timestamp
- [SPARK-39749] 在 ANSI 模式下将十进制转换为字符串时,始终使用纯字符串表示形式
- [SPARK-39625][SQL] 添加 Dataset.to(StructType)
- [SPARK-39787][SQL] 在函数 to_timestamp 分析错误中使用错误类
- 操作系统安全更新。
- 2022 年 7 月 27 日
- [SPARK-39689]在 CSV 数据源中支持 2 个字符
lineSep
- [SPARK-39104][SQL] InMemoryRelation#isCachedColumnBuffersLoaded 应该是线程安全的
- [SPARK-39702][核心] 通过使用共享 byteRawChannel 减少 TransportCipher$EncryptedMessage 的内存开销
- [SPARK-39575][AVRO] 在 AvroDeserializer 中的 ByteBuffer#get 之后添加 ByteBuffer#rewind
- [SPARK-39497][SQL] 优化缺少映射键列的分析异常
- [SPARK-39441][SQL] 加快 DeduplicateRelations
- [SPARK-39476][SQL] 从 Long 转换为 Float/Double 或从 Integer 转换为 Float 时禁用展开转换优化
- [SPARK-39434][SQL] 在数组索引超出范围时提供运行时错误查询上下文
- [SPARK-39570][SQL] 内联表应该允许带有别名的表达式
- 操作系统安全更新。
- [SPARK-39689]在 CSV 数据源中支持 2 个字符
- 2022 年 7 月 13 日
- 当源不具有确定性时,使 Delta MERGE 操作结果保持一致。
- 修复了在非 DBFS 路径上运行时 cloud_files_state TVF 出现的问题。
- 禁用了自动加载程序对 Azure 上目录列表的原生云 API 的使用。
- [SPARK-38796] [SQL] 更新 to_number 和 try_to_number 函数以允许具有正数的 PR
- [SPARK-39272][SQL] 将查询上下文的起始位置增加 1
- [SPARK-39419][SQL] 修复在比较运算符返回 null 时引发异常的 ArraySort 问题
- 操作系统安全更新。
- 2022 年 7 月 5 日
- 改进了一系列错误类的错误消息。
- [SPARK-39451][SQL] 支持在 ANSI 模式下将间隔转换为整型
- [SPARK-39361] 不要在默认日志记录配置中使用 Log4J2 的扩展可引发转换模式
- [SPARK-39354][SQL] 确保显示
Table or view not found
,即使同时存在与Filter
相关的dataTypeMismatchError
- [SPARK-38675][CORE] 修复 BlockInfoManager 解锁期间的争用问题
- [SPARK-39392][SQL] 优化 try_* 函数提示的 ANSI 错误消息
- [SPARK-39214][SQL][3.3] 改进与 CAST 相关的错误
- [SPARK-37939][SQL] 在属性的分析错误中使用错误类
- [SPARK-39085][SQL] 将错误消息
INCONSISTENT_BEHAVIOR_CROSS_VERSION
移动到 error-classes.json - [SPARK-39376][SQL] 隐藏 NATURAL/USING JOIN 中子查询别名的星号扩展中的重复列
- [SPARK-39283][CORE] 修复 TaskMemoryManager 和 UnsafeExternalSorter.SpillableIterator 之间的死锁
- [SPARK-39285][SQL] 读取文件时,Spark 不应检查字段名称
- 操作系统安全更新。
Databricks Runtime 10.5 (EoS)
请参阅 Databricks Runtime 10.5 (EoS)。
- 2022 年 11 月 1 日
- 修复了以下问题:如果 Delta 表包含名为
_change_type
的用户定义列,但在该表上禁用了更改数据馈送,则在运行MERGE
时,将错误地为该列中的数据填充 NULL 值。 - [SPARK-40697][SQL] 添加了读取端字符填充以包括外部数据文件
- [SPARK-40596][CORE] 使用 ExecutorDecommissionInfo 中的消息填充 ExecutorDecommission
- 操作系统安全更新。
- 修复了以下问题:如果 Delta 表包含名为
- 2022 年 10 月 18 日
- 操作系统安全更新。
- 2022 年 10 月 5 日
- 用户可以设置 spark.conf.set("spark.databricks.io.listKeysWithPrefix.azure.enabled", "true"),以重新启用 ADLS Gen2 上的自动加载程序的原生列表。 原生列表以前因性能问题关闭,但可能已导致客户的存储成本增加。 在以前的维护更新中,此更改已推出到 DBR 10.4 和 9.1。
- reload4j 已升级到 1.2.19 以修复漏洞。
- [SPARK-40460][SS] 修复选择
_metadata
时的流式处理指标 - [SPARK-40468][SQL] 选中 _corrupt_record 时修复 CSV 中的删除列
- 操作系统安全更新。
- 2022 年 9 月 22 日
- [SPARK-40315][SQL] 为 ArrayBasedMapData 的文本添加 hashCode()
- [SPARK-40213][SQL] 支持拉丁语 - 1 字符的 ASCII 值转换
- [SPARK-40380][SQL] 修复 InvokeLike 的常量折叠,以避免计划中嵌入不可序列化的文本
- [SPARK-38404][SQL] 当嵌套 CTE 引用外部 CTE 时改进 CTE 解析
- [SPARK-40089][SQL] 修复某些 Decimal 类型的排序问题
- [SPARK-39887][SQL] RemoveRedundantAliases 应保留那些使投影节点的输出独一无二的别名
- 操作系统安全更新。
- 2022 年 9 月 6 日
- [SPARK-40235][CORE] 在 Executor.updateDependencies() 中使用可中断锁而不是同步
- [SPARK-39976] [SQL] ArrayIntersect 应正确处理左表达式中的 null
- [SPARK-40053][CORE][SQL][TESTS] 将
assume
添加到需要 Python 运行时环境的动态取消案例 - [SPARK-35542][CORE][ML] 修复:为具有参数 splitsArray、inputCols 和 outputCols 的多个列创建的 Bucketizer 在保存后无法加载
- [SPARK-40079][CORE] 为空输入案例添加 Imputer inputCols 验证
- 2022 年 8 月 24 日
- [SPARK-39983][CORE][SQL] 不要在驱动程序上缓存未序列化的广播关系
- [SPARK-39775][CORE][AVRO] 在分析 Avro 架构时禁用验证默认值
- [SPARK-39806] 修复了在已分区表上访问 METADATA 结构的查询崩溃的问题
- [SPARK-39962][PYTHON][SQL] 当组属性为空时应用投影
- [SPARK-37643][SQL] 当 charVarcharAsString 为 True 时,对于 char 数据类型谓词查询,应跳过 rpadding 规则
- 操作系统安全更新。
- 2022 年 8 月 9 日
- [SPARK-39847] 修复 RocksDBLoader.loadLibrary() 中的争用条件(如果调用方线程中断)
- [SPARK-39731][SQL] 修复了在使用 CORRECTED 时间分析程序策略分析“yyyyMMdd”格式的日期时 CSV 和 JSON 数据源中出现的问题
- 操作系统安全更新。
- 2022 年 7 月 27 日
- [SPARK-39625][SQL] 添加 Dataset.as(StructType)
- [SPARK-39689]在 CSV 数据源中支持 2 个字符
lineSep
- [SPARK-39104][SQL] InMemoryRelation#isCachedColumnBuffersLoaded 应该是线程安全的
- [SPARK-39570][SQL] 内联表应该允许带有别名的表达式
- [SPARK-39702][核心] 通过使用共享 byteRawChannel 减少 TransportCipher$EncryptedMessage 的内存开销
- [SPARK-39575][AVRO] 在 AvroDeserializer 中的 ByteBuffer#get 之后添加 ByteBuffer#rewind
- [SPARK-39476][SQL] 从 Long 转换为 Float/Double 或从 Integer 转换为 Float 时禁用展开转换优化
- 操作系统安全更新。
- 2022 年 7 月 13 日
- 当源不具有确定性时,使 Delta MERGE 操作结果保持一致。
- [SPARK-39355][SQL] 单列使用引号构造 UnresolvedAttribute
- [SPARK-39548][SQL] 具有窗口子句查询的 CreateView 命令遇到找不到错误的窗口定义问题
- [SPARK-39419][SQL] 修复在比较运算符返回 null 时引发异常的 ArraySort 问题
- 禁用了自动加载程序对 Azure 上目录列表的原生云 API 的使用。
- 操作系统安全更新。
- 2022 年 7 月 5 日
- [SPARK-39376][SQL] 隐藏 NATURAL/USING JOIN 中子查询别名的星号扩展中的重复列
- 操作系统安全更新。
- 2022 年 6 月 15 日
- [SPARK-39283][CORE] 修复 TaskMemoryManager 和 UnsafeExternalSorter.SpillableIterator 之间的死锁
- [SPARK-39285][SQL] 读取文件时,Spark 不应检查字段名称
- [SPARK-34096][SQL] 提高偏移窗口上 nth_value ignore nulls 的性能
- [SPARK-36718][SQL][FOLLOWUP] 修复 CollapseProject 中的
isExtractOnly
检查
- 2022 年 6 月 2 日
- [SPARK-39166][SQL] 在 WSCG 关闭时为二进制算术提供运行时错误查询上下文
- [SPARK-39093][SQL] 避免在将年-月间隔或日期-时间间隔除以整数时出现 codegen 编译错误
- [SPARK-38990][SQL] 避免在评估 date_trunc/trunc 格式作为绑定引用时出现 NullPointerException
- 操作系统安全更新。
- 2022 年 5 月 18 日
- 修复了自动加载程序中潜在的本机内存泄漏。
- [SPARK-38868][SQL] 优化外部联接时不要传播来自筛选器谓词的异常
- [SPARK-38796][SQL] 根据新规范实现 to_number 和 try_to_number SQL 函数
- [SPARK-38918][SQL] 嵌套列修剪应筛选掉不属于当前关系的属性
- [SPARK-38929] [SQL] 改进 ANSI 模式下强制转换失败的错误消息
- [SPARK-38926][SQL] SQL 样式的错误消息中的输出类型
- [SPARK-39084][PYSPARK] 通过使用 TaskContext 在任务完成时停止迭代器来修复 df.rdd.isEmpty()
- [SPARK-32268][SQL] 在 injectBloomFilter 中添加 ColumnPruning
- [SPARK-38908][SQL] 在运行时错误中提供从字符串转换为数字/日期/时间戳/布尔值的查询上下文
- [SPARK-39046][SQL] 如果 TreeNode.origin 设置错误,则返回空上下文字符串
- [SPARK-38974][SQL] 在列表函数中使用给定的数据库名称筛选已注册的函数
- [SPARK-38762][SQL] 在十进制溢出错误中提供查询上下文
- [SPARK-38931][SS] 在第一个检查点上为 RocksDBFileManager 创建根 dfs 目录,其中密钥数未知
- [SPARK-38992][CORE] 避免在 ShellBasedGroupsMappingProvider 中使用 bash -c
- [SPARK-38716][SQL] 在映射键不存在错误中提供查询上下文
- [SPARK-38889][SQL] 编译布尔列筛选器以使用 MSSQL 数据源的位类型
- [SPARK-38698][SQL] 在 Divide/Div/Reminder/Pmod 的运行时错误中提供查询上下文
- [SPARK-38823][SQL] 使
NewInstance
不可折叠以修复聚合缓冲区损坏问题 - [SPARK-38809][SS] 在流间联接的对称哈希实现中实现跳过 null 值的选项
- [SPARK-38676][SQL] 在 Add/Subtract/Multiply 的运行时错误消息中提供 SQL 查询上下文
- [SPARK-38677][PYSPARK] Python MonitorThread 应检测到由于阻塞性 I/O 而导致的死锁
- 操作系统安全更新。
Databricks Runtime 10.3 (EoS)
请参阅 Databricks Runtime 10.3 (EoS)。
- 2022 年 7 月 27 日
- [SPARK-39689]在 CSV 数据源中支持 2 个字符
lineSep
- [SPARK-39104][SQL] InMemoryRelation#isCachedColumnBuffersLoaded 应该是线程安全的
- [SPARK-39702][核心] 通过使用共享 byteRawChannel 减少 TransportCipher$EncryptedMessage 的内存开销
- 操作系统安全更新。
- [SPARK-39689]在 CSV 数据源中支持 2 个字符
- 2022 年 7 月 20 日
- 当源不具有确定性时,使 Delta MERGE 操作结果保持一致。
- [SPARK-39476][SQL] 从 Long 转换为 Float/Double 或从 Integer 转换为 Float 时禁用展开转换优化
- [SPARK-39548][SQL] 具有窗口子句查询的 CreateView 命令遇到找不到错误的窗口定义问题
- [SPARK-39419][SQL] 修复在比较运算符返回 null 时引发异常的 ArraySort 问题
- 操作系统安全更新。
- 2022 年 7 月 5 日
- [SPARK-39376][SQL] 隐藏 NATURAL/USING JOIN 中子查询别名的星号扩展中的重复列
- 操作系统安全更新。
- 2022 年 6 月 15 日
- [SPARK-39283][CORE] 修复 TaskMemoryManager 和 UnsafeExternalSorter.SpillableIterator 之间的死锁
- [SPARK-39285][SQL] 读取文件时,Spark 不应检查字段名称
- [SPARK-34096][SQL] 提高偏移窗口上 nth_value ignore nulls 的性能
- [SPARK-36718][SQL][FOLLOWUP] 修复 CollapseProject 中的
isExtractOnly
检查
- 2022 年 6 月 2 日
- [SPARK-38990][SQL] 避免在评估 date_trunc/trunc 格式作为绑定引用时出现 NullPointerException
- 操作系统安全更新。
- 2022 年 5 月 18 日
- 修复了自动加载程序中潜在的本机内存泄漏。
- [SPARK-38918][SQL] 嵌套列修剪应筛选掉不属于当前关系的属性
- [SPARK-37593][CORE] 如果使用 G1GC 和 ON HEAP,则通过 LONG ARRAY OFFSET 减少默认页面大小
- [SPARK-39084][PYSPARK] 通过使用 TaskContext 在任务完成时停止迭代器来修复 df.rdd.isEmpty()
- [SPARK-32268][SQL] 在 injectBloomFilter 中添加 ColumnPruning
- [SPARK-38974][SQL] 在列表函数中使用给定的数据库名称筛选已注册的函数
- [SPARK-38889][SQL] 编译布尔列筛选器以使用 MSSQL 数据源的位类型
- 操作系统安全更新。
- 2022 年 5 月 4 日
- 将 Java AWS SDK 从版本 1.11.655 升级到了 1.12.1899。
- 2022 年 4 月 19 日
- [SPARK-38616][SQL] 跟踪 Catalyst TreeNode 中的 SQL 查询文本
- 操作系统安全更新。
- 2022 年 4 月 6 日
- [SPARK-38631][CORE] 将基于 Java 的实现用于 Utils.unpack 处的 un-tarring
- 操作系统安全更新。
- 2022 年 3 月 22 日
- 更改了高并发群集上的笔记本的当前工作目录,对用户的主目录启用表访问控制或凭据直通。 以前,工作目录是
/databricks/driver
。 - [SPARK-38437][SQL] 数据源的日期/时间的 Lenient 序列化
- [SPARK-38180][SQL] 允许在关联相等谓词中安全向上转换表达式
- [SPARK-38155][SQL] 禁止使用不受支持的谓词在横向子查询中进行非重复聚合
- [SPARK-38325][SQL] ANSI 模式:避免 HashJoin.extractKeyExprAt() 中的可能运行时错误
- 更改了高并发群集上的笔记本的当前工作目录,对用户的主目录启用表访问控制或凭据直通。 以前,工作目录是
- 2022 年 3 月 14 日
- 改进了对 Delta Lake 中空事务的事务冲突检测。
- [SPARK-38185][SQL] 修正了聚合函数为空时数据不正确的情况
- [SPARK-38318][SQL] 替换数据集视图时回归
- [SPARK-38236][SQL] 在创建/更改表中指定的绝对文件路径被视为相对路径
- [SPARK-35937][SQL] 从时间戳中提取日期字段应该在 ANSI 模式下有效
- [SPARK-34069][SQL] 终止屏障任务应该会遵从
SPARK_JOB_INTERRUPT_ON_CANCEL
- [SPARK-37707][SQL] 允许在 TimestampNTZ 和日期/时间戳之间分配存储
- 2022 年 2 月 23 日
- [SPARK-27442][SQL] 在 Parquet 中读取/写入数据时删除检查字段名称
Databricks Runtime 10.2 (EoS)
请参阅 Databricks Runtime 10.2 (EoS)。
- 2022 年 6 月 15 日
- [SPARK-39283][CORE] 修复 TaskMemoryManager 和 UnsafeExternalSorter.SpillableIterator 之间的死锁
- [SPARK-39285][SQL] 读取文件时,Spark 不应检查字段名称
- [SPARK-34096][SQL] 提高偏移窗口上 nth_value ignore nulls 的性能
- 2022 年 6 月 2 日
- [SPARK-38918][SQL] 嵌套列修剪应筛选掉不属于当前关系的属性
- [SPARK-38990][SQL] 避免在评估 date_trunc/trunc 格式作为绑定引用时出现 NullPointerException
- 操作系统安全更新。
- 2022 年 5 月 18 日
- 修复了自动加载程序中潜在的本机内存泄漏。
- [SPARK-39084][PYSPARK] 通过使用 TaskContext 在任务完成时停止迭代器来修复 df.rdd.isEmpty()
- [SPARK-38889][SQL] 编译布尔列筛选器以使用 MSSQL 数据源的位类型
- [SPARK-38931][SS] 在第一个检查点上为 RocksDBFileManager 创建根 dfs 目录,其中密钥数未知
- 操作系统安全更新。
- 2022 年 5 月 4 日
- 将 Java AWS SDK 从版本 1.11.655 升级到了 1.12.1899。
- 2022 年 4 月 19 日
- 操作系统安全更新。
- 其他 Bug 修复。
- 2022 年 4 月 6 日
- [SPARK-38631][CORE] 将基于 Java 的实现用于 Utils.unpack 处的 un-tarring
- 操作系统安全更新。
- 2022 年 3 月 22 日
- 更改了高并发群集上的笔记本的当前工作目录,对用户的主目录启用表访问控制或凭据直通。 以前,工作目录是
/databricks/driver
。 - [SPARK-38437][SQL] 数据源的日期/时间的 Lenient 序列化
- [SPARK-38180][SQL] 允许在关联相等谓词中安全向上转换表达式
- [SPARK-38155][SQL] 禁止使用不受支持的谓词在横向子查询中进行非重复聚合
- [SPARK-38325][SQL] ANSI 模式:避免 HashJoin.extractKeyExprAt() 中的可能运行时错误
- 更改了高并发群集上的笔记本的当前工作目录,对用户的主目录启用表访问控制或凭据直通。 以前,工作目录是
- 2022 年 3 月 14 日
- 改进了对 Delta Lake 中空事务的事务冲突检测。
- [SPARK-38185][SQL] 修正了聚合函数为空时数据不正确的情况
- [SPARK-38318][SQL] 替换数据集视图时回归
- [SPARK-38236][SQL] 在创建/更改表中指定的绝对文件路径被视为相对路径
- [SPARK-35937][SQL] 从时间戳中提取日期字段应该在 ANSI 模式下有效
- [SPARK-34069][SQL] 终止屏障任务应该会遵从
SPARK_JOB_INTERRUPT_ON_CANCEL
- [SPARK-37707][SQL] 允许在 TimestampNTZ 和日期/时间戳之间分配存储
- 2022 年 2 月 23 日
- [SPARK-37577] [SQL] 修正了 ClassCastException:ArrayType 无法针对 Generate Pruning 转换为 StructType
- 2022 年 2 月 8 日
- [SPARK-27442][SQL] 在 Parquet 中读取/写入数据时删除检查字段名称。
- 操作系统安全更新。
- 2022 年 2 月 1 日
- 操作系统安全更新。
- 2022 年 1 月 26 日
- 修复了以下 bug:在某些极少数情况下,Delta 表上的并发事务可能会以不可序列化的顺序提交。
- 修复了以下bug:启用 ANSI SQL 方言时 OPTIMIZE 命令可能失败。
- 2022 年 1 月 19 日
- 引入了对要复制到的临时凭据内联的支持,无需 SQL ANY_FILE 权限即可加载源数据
- Bug 修复和安全增强。
- 2021 年 12 月 20 日
- 修复了基于 Parquet 列索引的筛选的一个罕见 bug。
Databricks Runtime 10.1 (EoS)
请参阅 Databricks Runtime 10.1 (EoS)。
- 2022 年 6 月 15 日
- [SPARK-39283][CORE] 修复 TaskMemoryManager 和 UnsafeExternalSorter.SpillableIterator 之间的死锁
- [SPARK-39285][SQL] 读取文件时,Spark 不应检查字段名称
- [SPARK-34096][SQL] 提高偏移窗口上 nth_value ignore nulls 的性能
- 2022 年 6 月 2 日
- 操作系统安全更新。
- 2022 年 5 月 18 日
- 修复了自动加载程序中潜在的本机内存泄漏。
- [SPARK-39084][PYSPARK] 通过使用 TaskContext 在任务完成时停止迭代器来修复 df.rdd.isEmpty()
- [SPARK-38889][SQL] 编译布尔列筛选器以使用 MSSQL 数据源的位类型
- 操作系统安全更新。
- 2022 年 4 月 19 日
- [SPARK-37270][SQL] 修复了在 elseValue 为空时将 foldable 推送到 CaseWhen 分支的问题
- 操作系统安全更新。
- 2022 年 4 月 6 日
- [SPARK-38631][CORE] 将基于 Java 的实现用于 Utils.unpack 处的 un-tarring
- 操作系统安全更新。
- 2022 年 3 月 22 日
- [SPARK-38437][SQL] 数据源的日期/时间的 Lenient 序列化
- [SPARK-38180][SQL] 允许在关联相等谓词中安全向上转换表达式
- [SPARK-38155][SQL] 禁止使用不受支持的谓词在横向子查询中进行非重复聚合
- [SPARK-38325][SQL] ANSI 模式:避免 HashJoin.extractKeyExprAt() 中的可能运行时错误
- 2022 年 3 月 14 日
- 改进了对 Delta Lake 中空事务的事务冲突检测。
- [SPARK-38185][SQL] 修正了聚合函数为空时数据不正确的情况
- [SPARK-38318][SQL] 替换数据集视图时回归
- [SPARK-38236][SQL] 在创建/更改表中指定的绝对文件路径被视为相对路径
- [SPARK-35937][SQL] 从时间戳中提取日期字段应该在 ANSI 模式下有效
- [SPARK-34069][SQL] 终止屏障任务应该会遵从
SPARK_JOB_INTERRUPT_ON_CANCEL
- [SPARK-37707][SQL] 允许在 TimestampNTZ 和日期/时间戳之间分配存储
- 2022 年 2 月 23 日
- [SPARK-37577] [SQL] 修正了 ClassCastException:ArrayType 无法针对 Generate Pruning 转换为 StructType
- 2022 年 2 月 8 日
- [SPARK-27442][SQL] 在 Parquet 中读取/写入数据时删除检查字段名称。
- 操作系统安全更新。
- 2022 年 2 月 1 日
- 操作系统安全更新。
- 2022 年 1 月 26 日
- 修复了以下 bug:在某些极少数情况下,Delta 表上的并发事务可能会以不可序列化的顺序提交。
- 修复了以下bug:启用 ANSI SQL 方言时 OPTIMIZE 命令可能失败。
- 2022 年 1 月 19 日
- 引入了对要复制到的临时凭据内联的支持,无需 SQL ANY_FILE 权限即可加载源数据
- 修复了在某些情况下查询结果缓存的内存不足问题。
- 修复了用户将当前目录切换到非默认目录时
USE DATABASE
出现的问题。 - Bug 修复和安全增强。
- 操作系统安全更新。
- 2021 年 12 月 20 日
- 修复了基于 Parquet 列索引的筛选的一个罕见 bug。
Databricks Runtime 10.0 (EoS)
请参阅 Databricks Runtime 10.0 (EoS)。
- 2022 年 4 月 19 日
- [SPARK-37270][SQL] 修复了在 elseValue 为空时将 foldable 推送到 CaseWhen 分支的问题
- 操作系统安全更新。
- 2022 年 4 月 6 日
- [SPARK-38631][CORE] 将基于 Java 的实现用于 Utils.unpack 处的 un-tarring
- 操作系统安全更新。
- 2022 年 3 月 22 日
- [SPARK-38437][SQL] 数据源的日期/时间的 Lenient 序列化
- [SPARK-38180][SQL] 允许在关联相等谓词中安全向上转换表达式
- [SPARK-38155][SQL] 禁止使用不受支持的谓词在横向子查询中进行非重复聚合
- [SPARK-38325][SQL] ANSI 模式:避免 HashJoin.extractKeyExprAt() 中的可能运行时错误
- 2022 年 3 月 14 日
- 改进了对 Delta Lake 中空事务的事务冲突检测。
- [SPARK-38185][SQL] 修正了聚合函数为空时数据不正确的情况
- [SPARK-38318][SQL] 替换数据集视图时回归
- [SPARK-38236][SQL] 在创建/更改表中指定的绝对文件路径被视为相对路径
- [SPARK-35937][SQL] 从时间戳中提取日期字段应该在 ANSI 模式下有效
- [SPARK-34069][SQL] 终止屏障任务应该会遵从
SPARK_JOB_INTERRUPT_ON_CANCEL
- [SPARK-37707][SQL] 允许在 TimestampNTZ 和日期/时间戳之间分配存储
- 2022 年 2 月 23 日
- [SPARK-37577] [SQL] 修正了 ClassCastException:ArrayType 无法针对 Generate Pruning 转换为 StructType
- 2022 年 2 月 8 日
- [SPARK-27442][SQL] 在 Parquet 中读取/写入数据时删除检查字段名称。
- [SPARK-36905][SQL] 修复在没有显式列名的情况下读取 hive 视图
- [SPARK-37859][SQL] 解决了以下问题:使用 Spark 3.1 通过 JDBC 创建的 SQL 表无法通过 3.2 读取
- 操作系统安全更新。
- 2022 年 2 月 1 日
- 操作系统安全更新。
- 2022 年 1 月 26 日
- 修复了以下 bug:在某些极少数情况下,Delta 表上的并发事务可能会以不可序列化的顺序提交。
- 修复了以下bug:启用 ANSI SQL 方言时 OPTIMIZE 命令可能失败。
- 2022 年 1 月 19 日
- Bug 修复和安全增强。
- 操作系统安全更新。
- 2021 年 12 月 20 日
- 修复了基于 Parquet 列索引的筛选的一个罕见 bug。
- 2021 年 11 月 9 日
- 引入了其他配置标志,以启用对 ANSI 行为的细粒度控制。
- 2021 年 11 月 4 日
- 修复了可能导致结构化流式处理数据流失败并显示 ArrayIndexOutOfBoundsException 的错误
- 修复了一个争用条件,它可能会导致查询失败并显示 IOException(例如
java.io.IOException: No FileSystem for scheme
),或导致sparkContext.hadoopConfiguration
被修改且在查询中不生效。 - 用于增量共享的 Apache Spark 连接器已升级为 0.2.0。
- 2021 年 11 月 30 日
- 修复了时间戳解析的问题:不带冒号的时区字符串被视为无效。
- 修复了在某些情况下查询结果缓存的内存不足问题。
- 修复了用户将当前目录切换到非默认目录时
USE DATABASE
出现的问题。
Databricks Runtime 9.0 (EoS)
请参阅 Databricks Runtime 9.0 (EoS)。
- 2022 年 2 月 8 日
- 操作系统安全更新。
- 2022 年 2 月 1 日
- 操作系统安全更新。
- 2022 年 1 月 26 日
- 修复了以下bug:启用 ANSI SQL 方言时 OPTIMIZE 命令可能失败。
- 2022 年 1 月 19 日
- Bug 修复和安全增强。
- 操作系统安全更新。
- 2021 年 11 月 4 日
- 修复了可能导致结构化流式处理数据流失败并显示 ArrayIndexOutOfBoundsException 的错误
- 修复了一个争用条件,它可能会导致查询失败并显示 IOException(例如
java.io.IOException: No FileSystem for scheme
),或导致sparkContext.hadoopConfiguration
被修改且在查询中不生效。 - 用于增量共享的 Apache Spark 连接器已升级为 0.2.0。
- 2021 年 9 月 22 日
- 修复了将具有 null 的 Spark 数组强制转换为字符串时出现的错误
- 2021 年 9 月 15 日
- 修复了可能导致查询失败并显示 IOException(如
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
)的争用条件。
- 修复了可能导致查询失败并显示 IOException(如
- 2021 年 9 月 8 日
- 添加了对使用架构名称(
databaseName.schemaName.tableName
格式)作为 Azure Synapse 连接器的目标表名称的支持。 - 添加了对 Spark SQL 的几何和地理 JDBC 类型支持。
- [SPARK-33527][SQL] 扩展了解码功能,以与主流数据库保持一致。
- [SPARK-36532][CORE][3.1] 修复了
CoarseGrainedExecutorBackend.onDisconnected
中的死锁以以免executorsconnected
,从而放置执行程序关闭挂起。
- 添加了对使用架构名称(
- 2021 年 8 月 25 日
- SQL Server 驱动程序库已升级到 9.2.1.jre8。
- Snowflake 连接器已升级到 2.9.0。
- 修复了 AutoML 试验页上最佳试用笔记本的断开的链接。
Databricks Runtime 8.4 (EoS)
请参阅 Databricks Runtime 8.4 (EoS)。
- 2022 年 1 月 19 日
- 操作系统安全更新。
- 2021 年 11 月 4 日
- 修复了可能导致结构化流式处理数据流失败并显示 ArrayIndexOutOfBoundsException 的错误
- 修复了一个争用条件,它可能会导致查询失败并显示 IOException(例如
java.io.IOException: No FileSystem for scheme
),或导致sparkContext.hadoopConfiguration
被修改且在查询中不生效。 - 用于增量共享的 Apache Spark 连接器已升级为 0.2.0。
- 2021 年 9 月 22 日
- Spark JDBC 驱动程序已升级为 2.6.19.1030
- [SPARK-36734][SQL] 将 ORC 升级为 1.5.1
- 2021 年 9 月 15 日
- 修复了可能导致查询失败并显示 IOException(如
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
)的争用条件。 - 操作系统安全更新。
- 修复了可能导致查询失败并显示 IOException(如
- 2021 年 9 月 8 日
- [SPARK-36532][CORE][3.1] 修复了
CoarseGrainedExecutorBackend.onDisconnected
中的死锁以以免executorsconnected
,从而放置执行程序关闭挂起。
- [SPARK-36532][CORE][3.1] 修复了
- 2021 年 8 月 25 日
- SQL Server 驱动程序库已升级到 9.2.1.jre8。
- Snowflake 连接器已升级到 2.9.0。
- 修复了新的 Parquet 预提取优化导致的凭据传递中的 bug,即在文件访问期间可能找不到用户的传递凭据。
- 2021 年 8 月 11 日
- 修复了防止旧 Databricks Runtime 8.4 的 RocksDB 不兼容问题。 这修复了自动加载程序、
COPY INTO
和有状态流式处理应用程序的前向兼容性。 - 修复了使用自动加载程序读取头文件不匹配的 CSV 文件时的 bug。 如果列名称不匹配,则列的值为 null。 现在,如果提供了架构,则假定架构相同,并且只在启用了补救数据列时才会保存不匹配的列。
- 向 Azure Synapse 连接器添加一个名为
externalDataSource
的新选项,以删除数据库中读取 PolyBase 所需的CONTROL
权限要求。
- 修复了防止旧 Databricks Runtime 8.4 的 RocksDB 不兼容问题。 这修复了自动加载程序、
- 2021 年 7 月 29 日
- [SPARK-36034][BUILD] 将下推筛选器中的日期时间变基为 Parquet
- [SPARK-36163][BUILD] 在 JDBC 连接器提供程序中传播正确的 JDBC 属性并添加
connectionProvider
选项
Databricks Runtime 8.3 (EoS)
请参阅 Databricks Runtime 8.3 (EoS)。
- 2022 年 1 月 19 日
- 操作系统安全更新。
- 2021 年 11 月 4 日
- 修复了可能导致结构化流式处理数据流失败并显示 ArrayIndexOutOfBoundsException 的错误
- 修复了一个争用条件,它可能会导致查询失败并显示 IOException(例如
java.io.IOException: No FileSystem for scheme
),或导致sparkContext.hadoopConfiguration
被修改且在查询中不生效。
- 2021 年 9 月 22 日
- Spark JDBC 驱动程序已升级为 2.6.19.1030
- 2021 年 9 月 15 日
- 修复了可能导致查询失败并显示 IOException(如
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
)的争用条件。 - 操作系统安全更新。
- 修复了可能导致查询失败并显示 IOException(如
- 2021 年 9 月 8 日
- [SPARK-35700][SQL][WARMFIX] 外部系统创建和写入 char/varchar orc 表时读取该表。
- [SPARK-36532][CORE][3.1] 修复了
CoarseGrainedExecutorBackend.onDisconnected
中的死锁以以免executorsconnected
,从而放置执行程序关闭挂起。
- 2021 年 8 月 25 日
- SQL Server 驱动程序库已升级到 9.2.1.jre8。
- Snowflake 连接器已升级到 2.9.0。
- 修复了新的 Parquet 预提取优化导致的凭据传递中的 bug,即在文件访问期间可能找不到用户的传递凭据。
- 2021 年 8 月 11 日
- 修复了使用自动加载程序读取头文件不匹配的 CSV 文件时的 bug。 如果列名称不匹配,则列的值为 null。 现在,如果提供了架构,则假定架构相同,并且只在启用了补救数据列时才会保存不匹配的列。
- 2021 年 7 月 29 日
- 将 Databricks Snowflake Spark 连接器升级到 2.9.0-spark-3.1
- [SPARK-36034][BUILD] 将下推筛选器中的日期时间变基为 Parquet
- [SPARK-36163][BUILD] 在 JDBC 连接器提供程序中传播正确的 JDBC 属性并添加
connectionProvider
选项
- 2021 年 7 月 14 日
- 消除了在 Azure Synapse 连接器中使用带点的列名时出现的问题。
- 为 Synapse 连接器引入了
database.schema.table
格式。 - 添加了支持:可提供
databaseName.schemaName.tableName
格式而不是仅提供schemaName.tableName
或tableName
作为目标表。
- 2021 年 6 月 15 日
- 消除了 Delta Lake 优化写入中的
NoSuchElementException
bug,在写入大量数据和遇到执行器丢失时可能发生该 bug - 添加 SQL
CREATE GROUP
、DROP GROUP
、ALTER GROUP
、SHOW GROUPS
和SHOW USERS
命令。 有关详细信息,请参阅 Security 语句和 Show 语句。
- 消除了 Delta Lake 优化写入中的
Databricks Runtime 8.2 (EoS)
请参阅 Databricks Runtime 8.2 (EoS)。
2021 年 9 月 22 日
- 操作系统安全更新。
2021 年 9 月 15 日
- 修复了可能导致查询失败并显示 IOException(如
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
)的争用条件。
- 修复了可能导致查询失败并显示 IOException(如
2021 年 9 月 8 日
- [SPARK-35700][SQL][WARMFIX] 外部系统创建和写入 char/varchar orc 表时读取该表。
- [SPARK-36532][CORE][3.1] 修复了
CoarseGrainedExecutorBackend.onDisconnected
中的死锁以以免executorsconnected
,从而放置执行程序关闭挂起。
2021 年 8 月 25 日
- Snowflake 连接器已升级到 2.9.0。
2021 年 8 月 11 日
- [SPARK-36034][SQL] 将下推筛选器中的日期时间变基为 Parquet。
2021 年 7 月 29 日
- 将 Databricks Snowflake Spark 连接器升级到 2.9.0-spark-3.1
- [SPARK-36163][BUILD] 在 JDBC 连接器提供程序中传播正确的 JDBC 属性并添加
connectionProvider
选项
2021 年 7 月 14 日
- 消除了在 Azure Synapse 连接器中使用带点的列名时出现的问题。
- 为 Synapse 连接器引入了
database.schema.table
格式。 - 添加了支持:可提供
databaseName.schemaName.tableName
格式而不是仅提供schemaName.tableName
或tableName
作为目标表。 - 修复了一个 bug,该 bug 阻止用户使用 Delta 表按时间顺序查看较旧的可用版本。
2021 年 6 月 15 日
- 消除了 Delta Lake 优化写入中的
NoSuchElementException
bug,在写入大量数据和遇到执行器丢失时可能发生该 bug
- 消除了 Delta Lake 优化写入中的
2021 年 5 月 26 日
- 使用安全修补程序更新 Python 以修复 Python 安全漏洞 (CVE-2021-3177)。
2021 年 4 月 30 日
- 操作系统安全更新。
- [SPARK-35227][BUILD] 在 SparkSubmit 中更新 spark-packages 的解析程序
- [SPARK-34245][CORE] 确保主服务器删除未能发送已完成状态的执行程序
- 修复了自动加载程序报告结构化流式处理进度指标时的 OOM 问题。
Databricks Runtime 8.1 (EoS)
请参阅 Databricks Runtime 8.1 (EoS)。
2021 年 9 月 22 日
- 操作系统安全更新。
2021 年 9 月 15 日
- 修复了可能导致查询失败并显示 IOException(如
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
)的争用条件。
- 修复了可能导致查询失败并显示 IOException(如
2021 年 9 月 8 日
- [SPARK-35700][SQL][WARMFIX] 外部系统创建和写入 char/varchar orc 表时读取该表。
- [SPARK-36532][CORE][3.1] 修复了
CoarseGrainedExecutorBackend.onDisconnected
中的死锁以以免executorsconnected
,从而放置执行程序关闭挂起。
2021 年 8 月 25 日
- Snowflake 连接器已升级到 2.9.0。
2021 年 8 月 11 日
- [SPARK-36034][SQL] 将下推筛选器中的日期时间变基为 Parquet。
2021 年 7 月 29 日
- 将 Databricks Snowflake Spark 连接器升级到 2.9.0-spark-3.1
- [SPARK-36163][BUILD] 在 JDBC 连接器提供程序中传播正确的 JDBC 属性并添加
connectionProvider
选项
2021 年 7 月 14 日
- 消除了在 Azure Synapse 连接器中使用带点的列名时出现的问题。
- 修复了一个 bug,该 bug 阻止用户使用 Delta 表按时间顺序查看较旧的可用版本。
2021 年 6 月 15 日
- 消除了 Delta Lake 优化写入中的
NoSuchElementException
bug,在写入大量数据和遇到执行器丢失时可能发生该 bug
- 消除了 Delta Lake 优化写入中的
2021 年 5 月 26 日
- 使用安全修补程序更新 Python 以修复 Python 安全漏洞 (CVE-2021-3177)。
2021 年 4 月 30 日
- 操作系统安全更新。
- [SPARK-35227][BUILD] 在 SparkSubmit 中更新 spark-packages 的解析程序
- 修复了自动加载程序报告结构化流式处理进度指标时的 OOM 问题。
2021 年 4 月 27 日
- [SPARK-34245][CORE] 确保主服务器删除未能发送已完成状态的执行程序
- [SPARK-34856][SQL] ANSI 模式:允许将复杂类型强制转换为字符串类型
- [SPARK-35014] 修复 PhysicalAggregation 模式,不重写可折叠表达式
- [SPARK-34769][SQL] AnsiTypeCoercion:返回 TypeCollection 中最窄的可转换类型
- [SPARK-34614][SQL] ANSI 模式:将字符串强制转换为布尔值将在分析错误时引发异常
- [SPARK-33794][SQL] ANSI 模式:修复 NextDay 表达式,以在收到无效输入时引发运行时 IllegalArgumentException
Databricks Runtime 8.0 (EoS)
请参阅 Databricks Runtime 8.0 (EoS)。
2021 年 9 月 15 日
- 修复了可能导致查询失败并显示 IOException(如
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
)的争用条件。
- 修复了可能导致查询失败并显示 IOException(如
2021 年 8 月 25 日
- Snowflake 连接器已升级到 2.9.0。
2021 年 8 月 11 日
- [SPARK-36034][SQL] 将下推筛选器中的日期时间变基为 Parquet。
2021 年 7 月 29 日
- [SPARK-36163][BUILD] 在 JDBC 连接器提供程序中传播正确的 JDBC 属性并添加
connectionProvider
选项
- [SPARK-36163][BUILD] 在 JDBC 连接器提供程序中传播正确的 JDBC 属性并添加
2021 年 7 月 14 日
- 消除了在 Azure Synapse 连接器中使用带点的列名时出现的问题。
- 修复了一个 bug,该 bug 阻止用户使用 Delta 表按时间顺序查看较旧的可用版本。
2021 年 5 月 26 日
- 使用安全修补程序更新 Python 以修复 Python 安全漏洞 (CVE-2021-3177)。
2021 年 4 月 30 日
- 操作系统安全更新。
- [SPARK-35227][BUILD] 在 SparkSubmit 中更新 spark-packages 的解析程序
- [SPARK-34245][CORE] 确保主服务器删除未能发送已完成状态的执行程序
2021 年 3 月 24 日
- [SPARK-34681][SQL] 在不相等条件下在左侧进行构建时,修复完全外部无序哈希联接的 bug
- [SPARK-34534] 修复使用 FetchShuffleBlocks 获取块时的 blockIds 顺序
- [SPARK-34613][SQL] 修复视图不捕获禁用提示配置
2021 年 3 月 9 日
- [SPARK-34543][SQL] 在 v1
SET LOCATION
中解析分区规范时遵循spark.sql.caseSensitive
配置 - [SPARK-34392] [SQL] 支持 DateTimeUtils 中的 ZoneOffset +h:mm。 getZoneId
- [UI] 修复 Spark DAG 可视化的 href 链接
- [SPARK-34436][SQL] DPP 支持 LIKE ANY/ALL 表达式
- [SPARK-34543][SQL] 在 v1
Databricks Runtime 7.6 (EoS)
请参阅 Databricks Runtime 7.6 (EoS)。
- 2021 年 8 月 11 日
- [SPARK-36034][SQL] 将下推筛选器中的日期时间变基为 Parquet。
- 2021 年 7 月 29 日
- [SPARK-32998][BUILD] 添加仅使用内部存储库覆盖默认远程存储库的功能
- 2021 年 7 月 14 日
- 修复了一个 bug,该 bug 阻止用户使用 Delta 表按时间顺序查看较旧的可用版本。
- 2021 年 5 月 26 日
- 使用安全修补程序更新 Python 以修复 Python 安全漏洞 (CVE-2021-3177)。
- 2021 年 4 月 30 日
- 操作系统安全更新。
- [SPARK-35227][BUILD] 在 SparkSubmit 中更新 spark-packages 的解析程序
- [SPARK-34245][CORE] 确保主服务器删除未能发送已完成状态的执行程序
- 2021 年 3 月 24 日
- [SPARK-34768][SQL] 遵循 Univocity 中的默认输入缓冲区大小
- [SPARK-34534] 修复使用 FetchShuffleBlocks 获取块时的 blockIds 顺序
- 2021 年 3 月 9 日
- (仅限 Azure)修复了在使用 Databricks Runtime 7.6 运行 Databricks Runtime 7.2 中创建的旧自动加载程序流时可能造成 NullPointerException 的自动加载程序 bug
- [UI] 修复 Spark DAG 可视化的 href 链接
- 未在 SizeInBytesOnlyStatsSparkPlanVisitor 中正确处理未知的叶节点 SparkPlan
- 还原
SHOW DATABASES
的输出架构 - [Delta][8.0, 7.6] 修复了文件大小自动优化逻辑中的计算 bug
- 禁用对磁盘缓存中的 Delta 表文件的过期检查
- [SQL] 显示范围联接提示时,使用正确的动态精简生成密钥
- 在非 SQL 代码路径中禁用 char 类型支持
- 避免在 DataFrameReader.schema 中使用 NPE
- 修复当 EventGridClient 响应没有实体时的 NPE
- 修复 Azure 自动加载程序中的读取已关闭流的 bug
- [SQL] 启用 AOS 时不生成无序分区号建议
- 2021 年 2 月 24 日
- 将 Spark BigQuery 连接器升级到了 v0.18,其中引入了各种 bug 修复以及对 Arrow 和 Avro 迭代器的支持。
- 修复了当 Parquet 文件的十进制精度和规模不同于 Spark 架构时,导致 Spark 返回错误结果的正确性问题。
- 修复了 Microsoft SQL Server 表(包含空间数据类型)的读取失败问题,方法是为 Spark SQL 添加几何和地理 JDBC 类型支持。
- 引入了新配置
spark.databricks.hive.metastore.init.reloadFunctions.enabled
。 此配置可控制内置的 Hive 初始化。 当设置为 true 时,Azure Databricks 会将用户具有的所有数据库中的所有函数重新加载到FunctionRegistry
中。 这是 Hive 元存储中的默认行为。 当设置为 false 时,Azure Databricks 会禁用此进程以进行优化。 - [SPARK-34212] 修复了与从 Parquet 文件中读取十进制数据相关的问题。
- [SPARK-34260][SQL] 修复两次创建临时视图时出现的 UnresolvedException。
Databricks Runtime 7.5 (EoS)
请参阅 Databricks Runtime 7.5 (EoS)。
- 2021 年 5 月 26 日
- 使用安全修补程序更新 Python 以修复 Python 安全漏洞 (CVE-2021-3177)。
- 2021 年 4 月 30 日
- 操作系统安全更新。
- [SPARK-35227][BUILD] 在 SparkSubmit 中更新 spark-packages 的解析程序
- [SPARK-34245][CORE] 确保主服务器删除未能发送已完成状态的执行程序
- 2021 年 3 月 24 日
- [SPARK-34768][SQL] 遵循 Univocity 中的默认输入缓冲区大小
- [SPARK-34534] 修复使用 FetchShuffleBlocks 获取块时的 blockIds 顺序
- 2021 年 3 月 9 日
- (仅限 Azure)修复了在使用 Databricks Runtime 7.5 运行 Databricks Runtime 7.2 中创建的旧自动加载程序流时可能造成 NullPointerException 的自动加载程序 bug.
- [UI] 修复 Spark DAG 可视化的 href 链接
- 未在 SizeInBytesOnlyStatsSparkPlanVisitor 中正确处理未知的叶节点 SparkPlan
- 还原
SHOW DATABASES
的输出架构 - 禁用对磁盘缓存中的 Delta 表文件的过期检查
- [SQL] 显示范围联接提示时,使用正确的动态精简生成密钥
- 在非 SQL 代码路径中禁用 char 类型支持
- 避免在 DataFrameReader.schema 中使用 NPE
- 修复当 EventGridClient 响应没有实体时的 NPE
- 修复 Azure 自动加载程序中的读取已关闭流的 bug
- 2021 年 2 月 24 日
- 将 Spark BigQuery 连接器升级到了 v0.18,其中引入了各种 bug 修复以及对 Arrow 和 Avro 迭代器的支持。
- 修复了当 Parquet 文件的十进制精度和规模不同于 Spark 架构时,导致 Spark 返回错误结果的正确性问题。
- 修复了 Microsoft SQL Server 表(包含空间数据类型)的读取失败问题,方法是为 Spark SQL 添加几何和地理 JDBC 类型支持。
- 引入了新配置
spark.databricks.hive.metastore.init.reloadFunctions.enabled
。 此配置可控制内置的 Hive 初始化。 当设置为 true 时,Azure Databricks 会将用户具有的所有数据库中的所有函数重新加载到FunctionRegistry
中。 这是 Hive 元存储中的默认行为。 当设置为 false 时,Azure Databricks 会禁用此进程以进行优化。 - [SPARK-34212] 修复了与从 Parquet 文件中读取十进制数据相关的问题。
- [SPARK-34260][SQL] 修复两次创建临时视图时出现的 UnresolvedException。
- 2021 年 2 月 4 日
- 修复了阻止增量执行可设置
SELECT * FROM table LIMIT nrows
等全局限制的查询的回归。 在启用 Arrow 序列化的情况下,通过 ODBC/JDBC 运行的用户遇到了此回归问题。 - 向 Hive 客户端引入了写入时间检查,以防止损坏 Delta 表的 Hive 元存储中的元数据。
- 修复了当群集环境变量配置包含无效的 bash 语法时,导致 DBFS FUSE 无法启动的回归。
- 修复了阻止增量执行可设置
- 2021 年 1 月 20 日
- 修复了 2021 年 1 月 12 日维护版本中可能导致错误 AnalysisException 的回归,并说明该列在自联接中不明确。 当用户使用具有以下条件的派生数据帧(所谓的自联接)加入数据帧时,就会发生此回归:
- 这两个数据帧具有常用列,但自联接的输出没有常用列。 例如:
df.join(df.select($"col" as "new_col"), cond)
- 派生数据帧通过选择、groupBy 或窗口排除某些列。
- 联接数据帧后联接条件或以下转换是指非常用列。 例如:
df.join(df.drop("a"), df("a") === 1)
- 这两个数据帧具有常用列,但自联接的输出没有常用列。 例如:
- 修复了 2021 年 1 月 12 日维护版本中可能导致错误 AnalysisException 的回归,并说明该列在自联接中不明确。 当用户使用具有以下条件的派生数据帧(所谓的自联接)加入数据帧时,就会发生此回归:
- 2021 年 1 月 12 日
- 将 Microsoft Azure 存储 SDK 从 2.3.8 升级到 2.3.9。
- [SPARK-33593][SQL] 矢量读取器得到含有二进制分区值的不正确的数据
- [SPARK-33480][SQL] 更新 char/varchar 表插入长度检查的错误消息
Databricks Runtime 7.3 LTS (EoS)
请参阅 Databricks Runtime 7.3 LTS (EoS)。
2023 年 9 月 10 日
- 其他 Bug 修复。
2023 年 8 月 30 日
- 操作系统安全更新。
2023 年 8 月 15 日
- 操作系统安全更新。
2023 年 6 月 23 日
- Snowflake-jdbc 库已升级到 3.13.29 以解决安全问题。
- 操作系统安全更新。
2023 年 6 月 15 日
- [SPARK-43413][SQL] 修复
IN
子查询ListQuery
的为 Null 性。 - 操作系统安全更新。
- [SPARK-43413][SQL] 修复
2023 年 6 月 2 日
- 修复了自动加载程序中当提供的架构不包含推断的分区时,不同的源文件格式不一致的问题。 在读取推断的分区架构中缺少列的文件时,此问题可能会导致意外失败。
2023 年 5 月 17 日
- 操作系统安全更新。
2023 年 4 月 25 日
- 操作系统安全更新。
2023 年 4 月 11 日
- [SPARK-42967][CORE] 修复在阶段取消后启动任务时的 SparkListenerTaskStart.stageAttemptId。
- 其他 Bug 修复。
2023 年 3 月 29 日
- 操作系统安全更新。
2023 年 3 月 14 日
- 其他 Bug 修复。
2023 年 2 月 28 日
- 操作系统安全更新。
2023 年 2 月 16 日
- 操作系统安全更新。
2023 年 1 月 31 日
- JDBC 表的表类型现在默认为 EXTERNAL。
2023 年 1 月 18 日
- 操作系统安全更新。
2022 年 11 月 29 日
- 其他 Bug 修复。
2022 年 11 月 15 日
- 已将 Apache commons-text 升级到 1.10.0。
- 操作系统安全更新。
- 其他 Bug 修复。
2022 年 11 月 1 日
- [SPARK-38542][SQL] UnsafeHashedRelation 应序列化 numKeys
2022 年 10 月 18 日
- 操作系统安全更新。
2022 年 10 月 5 日
- 其他 Bug 修复。
- 操作系统安全更新。
2022 年 9 月 22 日
- [SPARK-40089][SQL] 修复某些 Decimal 类型的排序问题
2022 年 9 月 6 日
- [SPARK-35542][CORE][ML] 修复:为具有参数 splitsArray、inputCols 和 outputCols 的多个列创建的 Bucketizer 在保存后无法加载
- [SPARK-40079][CORE] 为空输入案例添加 Imputer inputCols 验证
2022 年 8 月 24 日
- [SPARK-39962][PYTHON][SQL] 当组属性为空时应用投影
- 操作系统安全更新。
2022 年 8 月 9 日
- 操作系统安全更新。
2022 年 7 月 27 日
- 当源不具有确定性时,使 Delta MERGE 操作结果保持一致。
- 操作系统安全更新。
- 其他 Bug 修复。
2022 年 7 月 13 日
- [SPARK-32680][SQL] 不要使用未解析的查询预处理 V2 CTAS
- 禁用了自动加载程序对 Azure 上目录列表的原生云 API 的使用。
- 操作系统安全更新。
2022 年 7 月 5 日
- 操作系统安全更新。
- 其他 Bug 修复。
2022 年 6 月 2 日
- [SPARK-38918][SQL] 嵌套列修剪应筛选掉不属于当前关系的属性
- 操作系统安全更新。
2022 年 5 月 18 日
- 将 AWS SDK 版本从 1.11.655 升级到 1.11.678。
- 操作系统安全更新。
- 其他 Bug 修复。
2022 年 4 月 19 日
- 操作系统安全更新。
- 其他 Bug 修复。
2022 年 4 月 6 日
- 操作系统安全更新。
- 其他 Bug 修复。
2022 年 3 月 14 日
- 从 log4j 1.2.17 jar 中删除了易受攻击的类
- 其他 Bug 修复。
2022 年 2 月 23 日
- [SPARK-37859][SQL] 在架构比较期间不检查元数据
2022 年 2 月 8 日
- 将 Ubuntu JDK 升级到 1.8.0.312。
- 操作系统安全更新。
2022 年 2 月 1 日
- 操作系统安全更新。
2022 年 1 月 26 日
- 修复了以下bug:启用 ANSI SQL 方言时 OPTIMIZE 命令可能失败。
2022 年 1 月 19 日
- Conda 默认值通道从 7.3 ML LTS 中删除
- 操作系统安全更新。
2021 年 12 月 7 日
- 操作系统安全更新。
2021 年 11 月 4 日
- 修复了可能导致结构化流式处理数据流失败并显示 ArrayIndexOutOfBoundsException 的错误
- 修复了一个争用条件,它可能会导致查询失败并显示 IOException(例如
java.io.IOException: No FileSystem for scheme
),或导致sparkContext.hadoopConfiguration
被修改且在查询中不生效。
2021 年 9 月 15 日
- 修复了可能导致查询失败并显示 IOException(如
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
)的争用条件。 - 操作系统安全更新。
- 修复了可能导致查询失败并显示 IOException(如
2021 年 9 月 8 日
- [SPARK-35700][SQL][WARMFIX] 外部系统创建和写入 char/varchar orc 表时读取该表。
- [SPARK-36532][CORE][3.1] 修复了
CoarseGrainedExecutorBackend.onDisconnected
中的死锁以以免executorsconnected
,从而放置执行程序关闭挂起。
2021 年 8 月 25 日
- Snowflake 连接器已升级到 2.9.0。
2021 年 7 月 29 日
- [SPARK-36034][BUILD] 将下推筛选器中的日期时间变基为 Parquet
- [SPARK-34508][BUILD] 如果网络中断,则跳过
HiveExternalCatalogVersionsSuite
2021 年 7 月 14 日
- 为 Azure Synapse 连接器引入了
database.schema.table
格式。 - 添加了支持:可提供
databaseName.schemaName.tableName
格式而不是仅提供schemaName.tableName
或tableName
作为目标表。 - 修复了一个 bug,该 bug 阻止用户使用 Delta 表按时间顺序查看较旧的可用版本。
- 为 Azure Synapse 连接器引入了
2021 年 6 月 15 日
- 消除了 Delta Lake 优化写入中的
NoSuchElementException
bug,在写入大量数据和遇到执行器丢失时可能发生该 bug - 使用安全修补程序更新 Python 以修复 Python 安全漏洞 (CVE-2021-3177)。
- 消除了 Delta Lake 优化写入中的
2021 年 4 月 30 日
- 操作系统安全更新。
- [SPARK-35227][BUILD] 在 SparkSubmit 中更新 spark-packages 的解析程序
- [SPARK-34245][CORE] 确保主服务器删除未能发送已完成状态的执行程序
- [SPARK-35045][SQL] 在 univocity 中添加用于控制输入缓冲区的内部选项
2021 年 3 月 24 日
- [SPARK-34768][SQL] 遵循 Univocity 中的默认输入缓冲区大小
- [SPARK-34534] 修复使用 FetchShuffleBlocks 获取块时的 blockIds 顺序
- [SPARK-33118][SQL] CREATE TEMPORARY TABLE 与 location 失败
2021 年 3 月 9 日
- 现在,默认启用已更新的适用于 Azure Data Lake Storage Gen2 的 Azure Blob File System 驱动程序。 此驱动程序进行了多种稳定性改进。
- 修复 Windows 上的
databricks-connect get-jar-dir
路径分隔符 - [UI] 修复 Spark DAG 可视化的 href 链接
- [DBCONNECT] 在 Databricks Connect 7.3 中添加对 FlatMapCoGroupsInPandas 的支持
- 还原
SHOW DATABASES
的输出架构 - [SQL] 显示范围联接提示时,使用正确的动态精简生成密钥
- 禁用对磁盘缓存中的 Delta 表文件的过期检查
- [SQL] 启用 AOS 时不生成无序分区号建议
2021 年 2 月 24 日
- 将 Spark BigQuery 连接器升级到了 v0.18,其中引入了各种 bug 修复以及对 Arrow 和 Avro 迭代器的支持。
- 修复了当 Parquet 文件的十进制精度和规模不同于 Spark 架构时,导致 Spark 返回错误结果的正确性问题。
- 修复了 Microsoft SQL Server 表(包含空间数据类型)的读取失败问题,方法是为 Spark SQL 添加几何和地理 JDBC 类型支持。
- 引入了新配置
spark.databricks.hive.metastore.init.reloadFunctions.enabled
。 此配置可控制内置的 Hive 初始化。 当设置为 true 时,Azure Databricks 会将用户具有的所有数据库中的所有函数重新加载到FunctionRegistry
中。 这是 Hive 元存储中的默认行为。 当设置为 false 时,Azure Databricks 会禁用此进程以进行优化。 - [SPARK-34212] 修复了与从 Parquet 文件中读取十进制数据相关的问题。
- [SPARK-33579][UI] 修复代理后面的执行程序空白页。
- [SPARK-20044][UI] 使用路径前缀支持前端反向代理之后的 Spark UI。
- [SPARK-33277][PYSPARK][SQL] 任务结束后,使用 ContextAwareIterator 停止操作。
2021 年 2 月 4 日
- 修复了阻止增量执行可设置
SELECT * FROM table LIMIT nrows
等全局限制的查询的回归。 在启用 Arrow 序列化的情况下,通过 ODBC/JDBC 运行的用户遇到了此回归问题。 - 修复了当群集环境变量配置包含无效的 bash 语法时,导致 DBFS FUSE 无法启动的回归。
- 修复了阻止增量执行可设置
2021 年 1 月 20 日
- 修复了 2021 年 1 月 12 日维护版本中可能导致错误 AnalysisException 的回归,并说明该列在自联接中不明确。 当用户使用具有以下条件的派生数据帧(所谓的自联接)加入数据帧时,就会发生此回归:
- 这两个数据帧具有常用列,但自联接的输出没有常用列。 例如:
df.join(df.select($"col" as "new_col"), cond)
- 派生数据帧通过选择、groupBy 或窗口排除某些列。
- 联接数据帧后联接条件或以下转换是指非常用列。 例如:
df.join(df.drop("a"), df("a") === 1)
- 这两个数据帧具有常用列,但自联接的输出没有常用列。 例如:
- 修复了 2021 年 1 月 12 日维护版本中可能导致错误 AnalysisException 的回归,并说明该列在自联接中不明确。 当用户使用具有以下条件的派生数据帧(所谓的自联接)加入数据帧时,就会发生此回归:
2021 年 1 月 12 日
- 操作系统安全更新。
- [SPARK-33593][SQL] 矢量读取器得到含有二进制分区值的不正确的数据
- [SPARK-33677][SQL] 如果模式包含任何 escapeChar,则跳过 LikeSimplification 规则
- [SPARK-33592][ML][PYTHON] 保存并重新加载后,estimatorParamMaps 中的 Pyspark ML 验证器参数可能会丢失
- [SPARK-33071][SPARK-33536] [SQL] 避免在 join() 中更改 LogicalPlan 的 dataset_id,以免中断 DetectAmbiguousSelfJoin
2020 年 12 月 8 日
- [SPARK-33587][CORE] 在出现嵌套的致命错误时终止执行器
- [SPARK-27421][SQL] 在删除分区列时修复 int 列和值类 java.lang.String 的筛选器
- [SPARK-33316][SQL] 支持用户在 Avro 编写中为不可为空的催化剂模式提供可为空的 Avro 模式
- 使用 Databricks Connect 启动的 Spark 作业可能会在执行器堆栈跟踪中无限期挂起,并出现
Executor$TaskRunner.$anonfun$copySessionState
- 操作系统安全更新。
2020 年 12 月 1 日
- [SPARK-33404][SQL][3.0] 修复
date_trunc
表达式中的错误结果 - [SPARK-33339][PYTHON] 由于发生非异常错误,Pyspark 应用程序将挂起
- [SPARK-33183][SQL][HOTFIX] 修复优化程序规则 EliminateSorts 并添加物理规则以删除多余的排序
- [SPARK-33371][PYTHON][3.0] 更新 Python 3.9 的 setup.py 和测试
- [SPARK-33391][SQL] element_at 中的 CreateArray 未使用从 1 开始的索引。
- [SPARK-33306][SQL] 将日期强制转换为字符串时需要时区
- [SPARK-33260][SQL] 修复 sortOrder 为 Stream 时来自 SortExec 的错误结果
- [SPARK-33404][SQL][3.0] 修复
2020 年 11 月 5 日
2020 年 10 月 13 日
- 操作系统安全更新。
- 在启用了高并发凭据传递的群集上时,可以使用 /dbfs/ 上的 FUSE 装载从 DBFS 读取和写入。 支持常规装载,但尚不支持需要传递凭据的装载。
- [SPARK-32999][SQL] 使用 Utils.getSimpleName 以避免在 TreeNode 中命中格式错误的类名
- [SPARK-32585][SQL] 支持 ScalaReflection 中的 scala 枚举
- 修复了 FUSE 装载中包含具有无效 XML 字符的文件名的列出目录
- FUSE 装载不再使用 ListMultipartUploads
2020 年 9 月 29 日
- [SPARK-32718][SQL] 删除间隔单位的不必要关键字
- [SPARK-32635][SQL] 修复可折叠传播
- 添加新配置
spark.shuffle.io.decoder.consolidateThreshold
。 将配置值设置为Long.MAX_VALUE
以跳过 netty 帧缓冲区的合并,从而防止在极端情况下出现java.lang.IndexOutOfBoundsException
。
2023 年 4 月 25 日
- 操作系统安全更新。
2023 年 4 月 11 日
- 其他 Bug 修复。
2023 年 3 月 29 日
- 其他 Bug 修复。
2023 年 3 月 14 日
- 操作系统安全更新。
2023 年 2 月 28 日
- 操作系统安全更新。
2023 年 2 月 16 日
- 操作系统安全更新。
2023 年 1 月 31 日
- 其他 Bug 修复。
2023 年 1 月 18 日
- 操作系统安全更新。
2022 年 11 月 29 日
- 操作系统安全更新。
2022 年 11 月 15 日
- 操作系统安全更新。
- 其他 Bug 修复。
2022 年 11 月 1 日
- 操作系统安全更新。
2022 年 10 月 18 日
- 操作系统安全更新。
- 2022 年 10 月 5 日
- 操作系统安全更新。
- 2022 年 8 月 24 日
- 操作系统安全更新。
- 2022 年 8 月 9 日
- 操作系统安全更新。
- 2022 年 7 月 27 日
- 操作系统安全更新。
- 2022 年 7 月 5 日
- 操作系统安全更新。
- 2022 年 6 月 2 日
- 操作系统安全更新。
- 2022 年 5 月 18 日
- 操作系统安全更新。
- 2022 年 4 月 19 日
- 操作系统安全更新。
- 其他 Bug 修复。
- 2022 年 4 月 6 日
- 操作系统安全更新。
- 其他 Bug 修复。
- 2022 年 3 月 14 日
- 其他 Bug 修复。
- 2022 年 2 月 23 日
- 其他 Bug 修复。
- 2022 年 2 月 8 日
- 将 Ubuntu JDK 升级到 1.8.0.312。
- 操作系统安全更新。
- 2022 年 2 月 1 日
- 操作系统安全更新。
- 2022 年 1 月 19 日
- 操作系统安全更新。
- 2021 年 9 月 22 日
- 操作系统安全更新。
- 2021 年 4 月 30 日
- 操作系统安全更新。
- [SPARK-35227][BUILD] 在 SparkSubmit 中更新 spark-packages 的解析程序
- 2021 年 1 月 12 日
- 操作系统安全更新。
- 2020 年 12 月 8 日
- [SPARK-27421][SQL] 在删除分区列时修复 int 列和值类 java.lang.String 的筛选器
- 操作系统安全更新。
- 2020 年 12 月 1 日
- [SPARK-33260][SQL] 修复 sortOrder 为 Stream 时来自 SortExec 的错误结果
- 2020 年 11 月 3 日
- 已将 Java 版本从 1.8.0_252 升级到 1.8.0_265。
- 修复与 UserGroupInformation.getCurrentUser() 相关的 ABFS 和 WASB 锁定
- 2020 年 10 月 13 日
- 操作系统安全更新。
Databricks Runtime 6.4 外延支持 (EoS)
请参阅 Databricks Runtime 6.4 (EoS) 和 Databricks Runtime 6.4 外延支持 (EoS)。
2022 年 7 月 5 日
- 操作系统安全更新。
- 其他 Bug 修复。
2022 年 6 月 2 日
- 操作系统安全更新。
2022 年 5 月 18 日
- 操作系统安全更新。
2022 年 4 月 19 日
- 操作系统安全更新。
- 其他 Bug 修复。
2022 年 4 月 6 日
- 操作系统安全更新。
- 其他 Bug 修复。
2022 年 3 月 14 日
- 从 log4j 1.2.17 jar 中删除了易受攻击的类
- 其他 Bug 修复。
2022 年 2 月 23 日
- 其他 Bug 修复。
2022 年 2 月 8 日
- 将 Ubuntu JDK 升级到 1.8.0.312。
- 操作系统安全更新。
2022 年 2 月 1 日
- 操作系统安全更新。
2022 年 1 月 26 日
- 修复了以下bug:启用 ANSI SQL 方言时 OPTIMIZE 命令可能失败。
2022 年 1 月 19 日
- 操作系统安全更新。
2021 年 12 月 8 日
- 操作系统安全更新。
2021 年 9 月 22 日
- 操作系统安全更新。
2021 年 6 月 15 日
- [SPARK-35576][SQL] 修改 Set 命令结果中的敏感信息
2021 年 6 月 7 日
- 添加名为
spark.sql.maven.additionalRemoteRepositories
的新配置,即可选的附加远程 maven 镜像的逗号分隔的字符串配置。 此值默认为https://maven-central.storage-download.googleapis.com/maven2/
。
- 添加名为
2021 年 4 月 30 日
- 操作系统安全更新。
- [SPARK-35227][BUILD] 在 SparkSubmit 中更新 spark-packages 的解析程序
2021 年 3 月 9 日
- Azure Blob File System 驱动程序的端口 HADOOP-17215(支持有条件的覆盖)。
- 修复 Windows 上的
databricks-connect get-jar-dir
路径分隔符 - 添加了对 Hive 元存储版本 2.3.5、2.3.6 和 2.3.7 的支持
- 溢写后错误地报告 Arrow“totalResultsCollected”
2021 年 2 月 24 日
- 引入了新配置
spark.databricks.hive.metastore.init.reloadFunctions.enabled
。 此配置可控制内置的 Hive 初始化。 当设置为 true 时,Azure Databricks 会将用户具有的所有数据库中的所有函数重新加载到FunctionRegistry
中。 这是 Hive 元存储中的默认行为。 当设置为 false 时,Azure Databricks 会禁用此进程以进行优化。
- 引入了新配置
2021 年 2 月 4 日
- 修复了阻止增量执行可设置
SELECT * FROM table LIMIT nrows
等全局限制的查询的回归。 在启用 Arrow 序列化的情况下,通过 ODBC/JDBC 运行的用户遇到了此回归问题。 - 修复了当群集环境变量配置包含无效的 bash 语法时,导致 DBFS FUSE 无法启动的回归。
- 修复了阻止增量执行可设置
2021 年 1 月 12 日
- 操作系统安全更新。
2020 年 12 月 8 日
- [SPARK-27421][SQL] 在删除分区列时修复 int 列和值类 java.lang.String 的筛选器
- [SPARK-33183][SQL] 修复优化程序规则 EliminateSorts 并添加物理规则以删除多余的排序
- [Runtime 6.4 ML GPU] 我们之前安装了一个不正确的 NCCL 版本 (2.7.8-1+cuda11.1)。 此版本将其更正到与 CUDA 10.0 兼容的 2.4.8-1+cuda10.0。
- 操作系统安全更新。
2020 年 12 月 1 日
- [SPARK-33260][SQL] 修复 sortOrder 为 Stream 时来自 SortExec 的错误结果
- [SPARK-32635][SQL] 修复可折叠传播
2020 年 11 月 3 日
- 已将 Java 版本从 1.8.0_252 升级到 1.8.0_265。
- 修复与 UserGroupInformation.getCurrentUser() 相关的 ABFS 和 WASB 锁定
- 修复 Avro 读取器在读取 MAGIC 字节时的无限循环 bug。
2020 年 10 月 13 日
- 操作系统安全更新。
- [SPARK-32999][SQL][2.4] 使用 Utils.getSimpleName 以避免在 TreeNode 中命中格式错误的类名
- 修复了 FUSE 装载中包含具有无效 XML 字符的文件名的列出目录
- FUSE 装载不再使用 ListMultipartUploads
2020 年 9 月 24 日
- 修复了之前的限制:标准群集上的直通仍然会限制用户使用的文件系统实现。 现在用户可以不受限制地访问本地文件系统。
- 操作系统安全更新。
2020 年 9 月 8 日
- 为 Azure Synapse Analytics 创建了一个新参数
maxbinlength
。 此参数用于控制 BinaryType 列的列长度,并转换为VARBINARY(maxbinlength)
。 它可以使用.option("maxbinlength", n)
进行设置,其中 0 < n <= 8000。 - 将 Microsoft Azure 存储 SDK 更新到版本 8.6.4,并在 WASB 驱动程序建立的连接上启用 TCP keep-alive
- 为 Azure Synapse Analytics 创建了一个新参数
2020 年 8 月 25 日
- 修复了自合并中不明确的属性解析
2020 年 8 月 18 日
- [SPARK-32431][SQL] 检查从内置数据源读取的重复嵌套列
- 修复了使用 Trigger.Once 时 AQS 连接器中的争用条件。
2020 年 8 月 11 日
- [SPARK-28676][CORE] 避免从 ContextCleaner 过度记录日志
2020 年 8 月 3 日
- 现在可以在启用了传递的群集上使用 LDA 转换函数。
- 操作系统安全更新。
2020 年 7 月 7 日
- 已将 Java 版本从 1.8.0_232 升级到 1.8.0_252。
2020 年 4 月 21 日
- [SPARK-31312][SQL] HiveFunctionWrapper 中 UDF 实例的缓存类实例
2020 年 4 月 7 日
- 为了解决 pandas UDF 无法在 PyArrow 0.15.0 及更高版本中运行的问题,我们添加了一个环境变量 (
ARROW_PRE_0_15_IPC_FORMAT=1
) 来启用对这些 PyArrow 版本的支持。 请参阅 [SPARK-29367] 中的说明。
- 为了解决 pandas UDF 无法在 PyArrow 0.15.0 及更高版本中运行的问题,我们添加了一个环境变量 (
2020 年 3 月 10 日
- 现在,在安全性计划的交互式群集上默认使用优化的自动缩放。
- Databricks Runtime 中包含的 Snowflake 连接器 (
spark-snowflake_2.11
) 已更新到版本 2.5.9。snowflake-jdbc
已更新到版本 3.12.0。
Databricks Runtime 5.5 LTS (EoS)
请参阅 Databricks Runtime 5.5 LTS (EoS)和 Databricks Runtime 5.5 外延支持 (EoS)。
2021 年 12 月 8 日
- 操作系统安全更新。
2021 年 9 月 22 日
- 操作系统安全更新。
2021 年 8 月 25 日
- 降级了 5.5 ML 外延支持版本中的一些以前升级的 python 包,以维持与 5.5 ML LTS(现已弃用)更好的奇偶一致性。 有关这两个版本之间的更新差异,请参阅 [_]/release-notes/runtime/5.5xml.md)。
2021 年 6 月 15 日
- [SPARK-35576][SQL] 修改 Set 命令结果中的敏感信息
2021 年 6 月 7 日
- 添加名为
spark.sql.maven.additionalRemoteRepositories
的新配置,即可选的附加远程 maven 镜像的逗号分隔的字符串配置。 此值默认为https://maven-central.storage-download.googleapis.com/maven2/
。
- 添加名为
2021 年 4 月 30 日
- 操作系统安全更新。
- [SPARK-35227][BUILD] 在 SparkSubmit 中更新 spark-packages 的解析程序
2021 年 3 月 9 日
- Azure Blob File System 驱动程序的端口 HADOOP-17215(支持有条件的覆盖)。
2021 年 2 月 24 日
- 引入了新配置
spark.databricks.hive.metastore.init.reloadFunctions.enabled
。 此配置可控制内置的 Hive 初始化。 当设置为 true 时,Azure Databricks 会将用户具有的所有数据库中的所有函数重新加载到FunctionRegistry
中。 这是 Hive 元存储中的默认行为。 当设置为 false 时,Azure Databricks 会禁用此进程以进行优化。
- 引入了新配置
2021 年 1 月 12 日
- 操作系统安全更新。
- 修复 [HADOOP-17130]。
2020 年 12 月 8 日
- [SPARK-27421][SQL] 在删除分区列时修复 int 列和值类 java.lang.String 的筛选器
- 操作系统安全更新。
2020 年 12 月 1 日
- [SPARK-33260][SQL] 修复 sortOrder 为 Stream 时来自 SortExec 的错误结果
- [SPARK-32635][SQL] 修复可折叠传播
2020 年 10 月 29 日
- 已将 Java 版本从 1.8.0_252 升级到 1.8.0_265。
- 修复与 UserGroupInformation.getCurrentUser() 相关的 ABFS 和 WASB 锁定
- 修复 Avro 读取器在读取 MAGIC 字节时的无限循环 bug。
2020 年 10 月 13 日
- 操作系统安全更新。
- [SPARK-32999][SQL][2.4] 使用 Utils.getSimpleName 以避免在 TreeNode 中命中格式错误的类名
2020 年 9 月 24 日
- 操作系统安全更新。
2020 年 9 月 8 日
- 为 Azure Synapse Analytics 创建了一个新参数
maxbinlength
。 此参数用于控制 BinaryType 列的列长度,并转换为VARBINARY(maxbinlength)
。 它可以使用.option("maxbinlength", n)
进行设置,其中 0 < n <= 8000。
- 为 Azure Synapse Analytics 创建了一个新参数
2020 年 8 月 18 日
- [SPARK-32431][SQL] 检查从内置数据源读取的重复嵌套列
- 修复了使用 Trigger.Once 时 AQS 连接器中的争用条件。
2020 年 8 月 11 日
- [SPARK-28676][CORE] 避免从 ContextCleaner 过度记录日志
2020 年 8 月 3 日
- 操作系统安全更新
2020 年 7 月 7 日
- 已将 Java 版本从 1.8.0_232 升级到 1.8.0_252。
2020 年 4 月 21 日
- [SPARK-31312][SQL] HiveFunctionWrapper 中 UDF 实例的缓存类实例
2020 年 4 月 7 日
- 为了解决 pandas UDF 无法在 PyArrow 0.15.0 及更高版本中运行的问题,我们添加了一个环境变量 (
ARROW_PRE_0_15_IPC_FORMAT=1
) 来启用对这些 PyArrow 版本的支持。 请参阅 [SPARK-29367] 中的说明。
- 为了解决 pandas UDF 无法在 PyArrow 0.15.0 及更高版本中运行的问题,我们添加了一个环境变量 (
2020 年 3 月 25 日
- Databricks Runtime 中包含的 Snowflake 连接器 (
spark-snowflake_2.11
) 已更新到版本 2.5.9。snowflake-jdbc
已更新到版本 3.12.0。
- Databricks Runtime 中包含的 Snowflake 连接器 (
2020 年 3 月 10 日
- 作业输出(如发送到 stdout 的日志输出)的大小限制为 20MB。 如果总输出的大小较大,则将取消运行并标记为失败。 若要避免出现此限制,可以通过将
spark.databricks.driver.disableScalaOutput
Spark 配置设置为true
来阻止从驱动程序返回 stdout。 (默认情况下,标志值为false
) 该标志控制 Scala JAR 作业和 Scala 笔记本的单元格输出。 如果启用该标志,Spark 不会将作业执行结果返回给客户端。 该标志不影响写入群集日志文件中的数据。 建议只对 JAR 作业的自动群集设置此标志,因为这将禁用笔记本结果。
- 作业输出(如发送到 stdout 的日志输出)的大小限制为 20MB。 如果总输出的大小较大,则将取消运行并标记为失败。 若要避免出现此限制,可以通过将
2020 年 2 月 18 日
- [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 应引发异常
- 启用 ADLS 客户端预提取时,由于线程本地处理不正确,ADLS Gen2 的凭据传递性能降低。 此版本在启用凭证传递时禁用 ADLS Gen2 预提取,直到我们提供合适的修补程序。
2020 年 1 月 28 日
- [SPARK-30447][SQL] 常数传播为 Null 性问题。
2020 年 1 月 14 日
- 已将 Java 版本从 1.8.0_222 升级到 1.8.0_232。
2019 年 11 月 19 日
- [SPARK-29743] [SQL] 示例应将 needCopyResult 设置为 true(如果其子级的 needCopyResult 为 true)
- R 版本从 3.6.0 意外升级到了 3.6.1。 我们已将其降级回 3.6.0。
2019 年 11 月 5 日
- 已将 Java 版本从 1.8.0_212 升级到 1.8.0_222。
2019 年 10 月 23 日
- [SPARK-29244][CORE] 防止 BytesToBytesMap 中已释放页再次释放
2019 年 10 月 8 日
- 服务器端更改为允许 Simba Apache Spark ODBC 驱动程序在获取结果时连接失败后重新连接并继续操作(需要 Simba Apache Spark ODBC 驱动程序版本 2.6.10)。
- 修复了在启用表 ACL 的群集中影响使用
Optimize
命令的问题。 - 修复了在启用表 ACL 和凭据传递的群集上由于 Scala UDF 禁止错误而导致
pyspark.ml
库失败的问题。 - 将用于凭据传递的 SerDe 和 SerDeUtil 方法加入了允许列表。
- 修复了在 WASB 客户端中检查错误代码时发生的 NullPointerException。
2019 年 9 月 24 日
- 提高了 Parquet 编写器的稳定性。
- 修复了在开始执行之前被取消的 Thrift 查询可能会停留在“已启动”状态的问题。
2019 年 9 月 10 日
- 将线程安全迭代器添加到 BytesToBytesMap
- [SPARK-27992][SPARK-28881]允许 Python 与连接线程联接以传播错误
- 修复了影响某些全局聚合查询的 bug。
- 改进了凭据修订。
- [SPARK-27330][SS] 在 foreach 编写器中支持任务中止
- [SPARK-28642]在 SHOW CREATE TABLE 中隐藏凭据
- [SPARK-28699][SQL] 禁止在重新分区情况下对 ShuffleExchangeExec 使用基数排序
2019 年 8 月 27 日
- [SPARK-20906][SQL] 允许在具有架构注册表的 API to_avro 中使用用户指定的架构
- [SPARK-27838][SQL] 支持用户为无任何空记录的可空 catalyst 架构提供不可为 null 的 avro 架构
- 对 Delta Lake 按时间顺序查看的改进
- 修复了影响某个
transform
表达式的问题 - 启用进程隔离时支持广播变量
2019 年 8 月 13 日
- 增量流式处理源应检查表的最新协议
- [SPARK-28260]将“CLOSED”状态添加到 ExecutionState
- [SPARK-28489][SS] 修复了 KafkaOffsetRangeCalculator.getRanges 可能会删除偏移量的 bug
2019 年 7 月 30 日
- [SPARK-28015][SQL] 检查 stringToDate() 使用 yyyy 和 yyyy-[m]m 格式的全部输入
- [SPARK-28308][CORE] 解析 CalendarInterval 之前应填充其子部分
- [SPARK-27485]EnsureRequirements.reorder 应妥善处理重复表达式
- [SPARK-28355][CORE] [PYTHON] 将 Spark conf 用作广播压缩 UDF 的阈值
Databricks Light 2.4 外延支持
请参阅 Databricks Light 2.4 (EoS)和 Databricks Light 2.4 外延支持。
Databricks Runtime 7.4 (EoS)
请参阅 Databricks Runtime 7.4 (EoS)。
2021 年 4 月 30 日
- 操作系统安全更新。
- [SPARK-35227][BUILD] 在 SparkSubmit 中更新 spark-packages 的解析程序
- [SPARK-34245][CORE] 确保主服务器删除未能发送已完成状态的执行程序
- [SPARK-35045][SQL] 在 univocity 中添加用于控制输入缓冲区的内部选项,并添加 CSV 输入缓冲区大小的配置
2021 年 3 月 24 日
- [SPARK-34768][SQL] 遵循 Univocity 中的默认输入缓冲区大小
- [SPARK-34534] 修复使用 FetchShuffleBlocks 获取块时的 blockIds 顺序
2021 年 3 月 9 日
- 现在,默认启用已更新的适用于 Azure Data Lake Storage Gen2 的 Azure Blob File System 驱动程序。 此驱动程序进行了多种稳定性改进。
- [ES-67926][UI] 修复 Spark DAG 可视化的 href 链接
- [ES-65064] 还原
SHOW DATABASES
的输出架构 - [SC-70522][SQL] 显示范围联接提示时,显示正确的动态精简生成密钥
- [SC-35081] 禁用对磁盘缓存中的 Delta 表文件的过期检查
- [SC-70640] 当 EventGridClient 响应没有实体时,修复 NPE
- [SC-70220][SQL] 启用 AOS 时不生成无序分区号建议
2021 年 2 月 24 日
- 将 Spark BigQuery 连接器升级到了 v0.18,其中引入了各种 bug 修复以及对 Arrow 和 Avro 迭代器的支持。
- 修复了当 Parquet 文件的十进制精度和规模不同于 Spark 架构时,导致 Spark 返回错误结果的正确性问题。
- 修复了 Microsoft SQL Server 表(包含空间数据类型)的读取失败问题,方法是为 Spark SQL 添加几何和地理 JDBC 类型支持。
- 引入了新配置
spark.databricks.hive.metastore.init.reloadFunctions.enabled
。 此配置可控制内置的 Hive 初始化。 当设置为 true 时,Azure Databricks 会将用户具有的所有数据库中的所有函数重新加载到FunctionRegistry
中。 这是 Hive 元存储中的默认行为。 当设置为 false 时,Azure Databricks 会禁用此进程以进行优化。 - [SPARK-34212] 修复了与从 Parquet 文件中读取十进制数据相关的问题。
- [SPARK-33579][UI] 修复代理后面的执行程序空白页。
- [SPARK-20044][UI] 使用路径前缀支持前端反向代理之后的 Spark UI。
- [SPARK-33277][PYSPARK][SQL] 任务结束后,使用 ContextAwareIterator 停止操作。
2021 年 2 月 4 日
- 修复了阻止增量执行可设置
SELECT * FROM table LIMIT nrows
等全局限制的查询的回归。 在启用 Arrow 序列化的情况下,通过 ODBC/JDBC 运行的用户遇到了此回归问题。 - 修复了当群集环境变量配置包含无效的 bash 语法时,导致 DBFS FUSE 无法启动的回归。
- 修复了阻止增量执行可设置
2021 年 1 月 20 日
- 修复了 2021 年 1 月 12 日维护版本中可能导致错误 AnalysisException 的回归,并说明该列在自联接中不明确。 当用户使用具有以下条件的派生数据帧(所谓的自联接)加入数据帧时,就会发生此回归:
- 这两个数据帧具有常用列,但自联接的输出没有常用列。 例如:
df.join(df.select($"col" as "new_col"), cond)
- 派生数据帧通过选择、groupBy 或窗口排除某些列。
- 联接数据帧后联接条件或以下转换是指非常用列。 例如:
df.join(df.drop("a"), df("a") === 1)
- 这两个数据帧具有常用列,但自联接的输出没有常用列。 例如:
- 修复了 2021 年 1 月 12 日维护版本中可能导致错误 AnalysisException 的回归,并说明该列在自联接中不明确。 当用户使用具有以下条件的派生数据帧(所谓的自联接)加入数据帧时,就会发生此回归:
2021 年 1 月 12 日
- 操作系统安全更新。
- [SPARK-33593][SQL] 矢量读取器得到含有二进制分区值的不正确的数据
- [SPARK-33677][SQL] 如果模式包含任何 escapeChar,则跳过 LikeSimplification 规则
- [SPARK-33071][SPARK-33536] [SQL] 避免在 join() 中更改 LogicalPlan 的 dataset_id,以免中断 DetectAmbiguousSelfJoin
2020 年 12 月 8 日
- [SPARK-33587][CORE] 在出现嵌套的致命错误时终止执行器
- [SPARK-27421][SQL] 在删除分区列时修复 int 列和值类 java.lang.String 的筛选器
- [SPARK-33316][SQL] 支持用户在 Avro 编写中为不可为空的催化剂模式提供可为空的 Avro 模式
- 操作系统安全更新。
2020 年 12 月 1 日
- [SPARK-33404][SQL][3.0] 修复
date_trunc
表达式中的错误结果 - [SPARK-33339][PYTHON] 由于发生非异常错误,Pyspark 应用程序将挂起
- [SPARK-33183][SQL][HOTFIX] 修复优化程序规则 EliminateSorts 并添加物理规则以删除多余的排序
- [SPARK-33371][PYTHON][3.0] 更新 Python 3.9 的 setup.py 和测试
- [SPARK-33391][SQL] element_at 中的 CreateArray 未使用从 1 开始的索引。
- [SPARK-33306][SQL] 将日期强制转换为字符串时需要时区
- [SPARK-33260][SQL] 修复 sortOrder 为 Stream 时来自 SortExec 的错误结果
- [SPARK-33272][SQL] 删除 QueryPlan.transformUpWithNewOutput 中的属性映射
- [SPARK-33404][SQL][3.0] 修复
Databricks Runtime 7.2 (EoS)
请参阅 Databricks Runtime 7.2 (EoS)。
2021 年 2 月 4 日
- 修复了阻止增量执行可设置
SELECT * FROM table LIMIT nrows
等全局限制的查询的回归。 在启用 Arrow 序列化的情况下,通过 ODBC/JDBC 运行的用户遇到了此回归问题。 - 修复了当群集环境变量配置包含无效的 bash 语法时,导致 DBFS FUSE 无法启动的回归。
- 修复了阻止增量执行可设置
2021 年 1 月 20 日
- 修复了 2021 年 1 月 12 日维护版本中可能导致错误 AnalysisException 的回归,并说明该列在自联接中不明确。 当用户使用具有以下条件的派生数据帧(所谓的自联接)加入数据帧时,就会发生此回归:
- 这两个数据帧具有常用列,但自联接的输出没有常用列。 例如:
df.join(df.select($"col" as "new_col"), cond)
- 派生数据帧通过选择、groupBy 或窗口排除某些列。
- 联接数据帧后联接条件或以下转换是指非常用列。 例如:
df.join(df.drop("a"), df("a") === 1)
- 这两个数据帧具有常用列,但自联接的输出没有常用列。 例如:
- 修复了 2021 年 1 月 12 日维护版本中可能导致错误 AnalysisException 的回归,并说明该列在自联接中不明确。 当用户使用具有以下条件的派生数据帧(所谓的自联接)加入数据帧时,就会发生此回归:
2021 年 1 月 12 日
- 操作系统安全更新。
- [SPARK-33593][SQL] 矢量读取器得到含有二进制分区值的不正确的数据
- [SPARK-33677][SQL] 如果模式包含任何 escapeChar,则跳过 LikeSimplification 规则
- [SPARK-33071][SPARK-33536] [SQL] 避免在 join() 中更改 LogicalPlan 的 dataset_id,以免中断 DetectAmbiguousSelfJoin
2020 年 12 月 8 日
- [SPARK-27421][SQL] 在删除分区列时修复 int 列和值类 java.lang.String 的筛选器
- [SPARK-33404][SQL] 修复
date_trunc
表达式中的错误结果 - [SPARK-33339][PYTHON] 由于发生非异常错误,Pyspark 应用程序将挂起
- [SPARK-33183][SQL] 修复优化程序规则 EliminateSorts 并添加物理规则以删除多余的排序
- [SPARK-33391][SQL] element_at 中的 CreateArray 未使用从 1 开始的索引。
- 操作系统安全更新。
2020 年 12 月 1 日
- [SPARK-33306][SQL] 将日期强制转换为字符串时需要时区
- [SPARK-33260][SQL] 修复 sortOrder 为 Stream 时来自 SortExec 的错误结果
2020 年 11 月 3 日
- 已将 Java 版本从 1.8.0_252 升级到 1.8.0_265。
- 修复与 UserGroupInformation.getCurrentUser() 相关的 ABFS 和 WASB 锁定
- 修复 Avro 读取器在读取 MAGIC 字节时的无限循环 bug。
2020 年 10 月 13 日
- 操作系统安全更新。
- [SPARK-32999][SQL]使用 Utils.getSimpleName 以避免在 TreeNode 中命中格式错误的类名
- 修复了 FUSE 装载中包含具有无效 XML 字符的文件名的列出目录
- FUSE 装载不再使用 ListMultipartUploads
2020 年 9 月 29 日
- [SPARK-28863][SQL][WARMFIX] 引入 AlreadyOptimized,防止对 V1FallbackWriters 进行重新分析
- [SPARK-32635][SQL] 修复可折叠传播
- 添加新配置
spark.shuffle.io.decoder.consolidateThreshold
。 将配置值设置为Long.MAX_VALUE
以跳过 netty 帧缓冲区的合并,从而防止在极端情况下出现java.lang.IndexOutOfBoundsException
。
2020 年 9 月 24 日
- [SPARK-32764][SQL] - 0.0 应等于 0.0
- [SPARK-32753][SQL] 仅在转换计划时才会将标记复制到没有标记的节点
- [SPARK-32659][SQL] 修复非原子类型上插入动态分区修剪的数据问题
- 操作系统安全更新。
2020 年 9 月 8 日
- 为 Azure Synapse Analytics 创建了一个新参数
maxbinlength
。 此参数用于控制 BinaryType 列的列长度,并转换为VARBINARY(maxbinlength)
。 它可以使用.option("maxbinlength", n)
进行设置,其中 0 < n <= 8000。
- 为 Azure Synapse Analytics 创建了一个新参数
Databricks Runtime 7.1 (EoS)
请参阅 Databricks Runtime 7.1 (EoS)。
2021 年 2 月 4 日
- 修复了当群集环境变量配置包含无效的 bash 语法时,导致 DBFS FUSE 无法启动的回归。
2021 年 1 月 20 日
- 修复了 2021 年 1 月 12 日维护版本中可能导致错误 AnalysisException 的回归,并说明该列在自联接中不明确。 当用户使用具有以下条件的派生数据帧(所谓的自联接)加入数据帧时,就会发生此回归:
- 这两个数据帧具有常用列,但自联接的输出没有常用列。 例如:
df.join(df.select($"col" as "new_col"), cond)
- 派生数据帧通过选择、groupBy 或窗口排除某些列。
- 联接数据帧后联接条件或以下转换是指非常用列。 例如:
df.join(df.drop("a"), df("a") === 1)
- 这两个数据帧具有常用列,但自联接的输出没有常用列。 例如:
- 修复了 2021 年 1 月 12 日维护版本中可能导致错误 AnalysisException 的回归,并说明该列在自联接中不明确。 当用户使用具有以下条件的派生数据帧(所谓的自联接)加入数据帧时,就会发生此回归:
2021 年 1 月 12 日
- 操作系统安全更新。
- [SPARK-33593][SQL] 矢量读取器得到含有二进制分区值的不正确的数据
- [SPARK-33677][SQL] 如果模式包含任何 escapeChar,则跳过 LikeSimplification 规则
- [SPARK-33071][SPARK-33536] [SQL] 避免在 join() 中更改 LogicalPlan 的 dataset_id,以免中断 DetectAmbiguousSelfJoin
2020 年 12 月 8 日
- [SPARK-27421][SQL] 在删除分区列时修复 int 列和值类 java.lang.String 的筛选器
- 使用 Databricks Connect 启动的 Spark 作业可能会在执行器堆栈跟踪中无限期挂起,并出现
Executor$TaskRunner.$anonfun$copySessionState
- 操作系统安全更新。
2020 年 12 月 1 日
- [SPARK-33404][SQL][3.0] 修复
date_trunc
表达式中的错误结果 - [SPARK-33339][PYTHON] 由于发生非异常错误,Pyspark 应用程序将挂起
- [SPARK-33183][SQL][HOTFIX] 修复优化程序规则 EliminateSorts 并添加物理规则以删除多余的排序
- [SPARK-33371][PYTHON][3.0] 更新 Python 3.9 的 setup.py 和测试
- [SPARK-33391][SQL] element_at 中的 CreateArray 未使用从 1 开始的索引。
- [SPARK-33306][SQL] 将日期强制转换为字符串时需要时区
- [SPARK-33404][SQL][3.0] 修复
2020 年 11 月 3 日
- 已将 Java 版本从 1.8.0_252 升级到 1.8.0_265。
- 修复与 UserGroupInformation.getCurrentUser() 相关的 ABFS 和 WASB 锁定
- 修复 Avro 读取器在读取 MAGIC 字节时的无限循环 bug。
2020 年 10 月 13 日
- 操作系统安全更新。
- [SPARK-32999][SQL]使用 Utils.getSimpleName 以避免在 TreeNode 中命中格式错误的类名
- 修复了 FUSE 装载中包含具有无效 XML 字符的文件名的列出目录
- FUSE 装载不再使用 ListMultipartUploads
2020 年 9 月 29 日
- [SPARK-28863][SQL][WARMFIX] 引入 AlreadyOptimized,防止对 V1FallbackWriters 进行重新分析
- [SPARK-32635][SQL] 修复可折叠传播
- 添加新配置
spark.shuffle.io.decoder.consolidateThreshold
。 将配置值设置为Long.MAX_VALUE
以跳过 netty 帧缓冲区的合并,从而防止在极端情况下出现java.lang.IndexOutOfBoundsException
。
2020 年 9 月 24 日
- [SPARK-32764][SQL] - 0.0 应等于 0.0
- [SPARK-32753][SQL] 仅在转换计划时才会将标记复制到没有标记的节点
- [SPARK-32659][SQL] 修复非原子类型上插入动态分区修剪的数据问题
- 操作系统安全更新。
2020 年 9 月 8 日
- 为 Azure Synapse Analytics 创建了一个新参数
maxbinlength
。 此参数用于控制 BinaryType 列的列长度,并转换为VARBINARY(maxbinlength)
。 它可以使用.option("maxbinlength", n)
进行设置,其中 0 < n <= 8000。
- 为 Azure Synapse Analytics 创建了一个新参数
2020 年 8 月 25 日
- [SPARK-32159][SQL] 修复
Aggregator[Array[_], _, _]
和UnresolvedMapObjects
之间的集成 - [SPARK-32559][SQL] 修复
UTF8String.toInt/toLong
中的剪裁逻辑,该逻辑不能正确处理非 ASCII 字符 - [SPARK-32543][R] 删除 SparkR 中的
arrow::as_tibble
用法 - [SPARK-32091][CORE] 删除丢失的执行程序上的块时忽略超时错误
- 修复了 MSI 凭据影响 Azure Synapse 连接器的问题
- 修复了自合并中不明确的属性解析
- [SPARK-32159][SQL] 修复
2020 年 8 月 18 日
- [SPARK-32594][SQL] 修复被插入到 Hive 表的日期序列化
- [SPARK-32237][SQL] 解决 CTE 中的提示
- [SPARK-32431][SQL] 检查从内置数据源读取的重复嵌套列
- [SPARK-32467][UI] 避免在 https 重定向时对 URL 进行两次编码
- 修复了使用 Trigger.Once 时 AQS 连接器中的争用条件。
2020 年 8 月 11 日
- [SPARK-32280][SPARK-32372][SQL] ResolveReferences.dedupRight 只应重写冲突计划的上级节点的属性
- [SPARK-32234][SQL] Spark SQL 命令在选择 ORC 表时失败
2020 年 8 月 3 日
- 现在可以在启用了传递的群集上使用 LDA 转换函数。
Databricks Runtime 7.0 (EoS)
请参阅 Databricks Runtime 7.0 (EoS)。
2021 年 2 月 4 日
- 修复了当群集环境变量配置包含无效的 bash 语法时,导致 DBFS FUSE 无法启动的回归。
2021 年 1 月 20 日
- 修复了 2021 年 1 月 12 日维护版本中可能导致错误 AnalysisException 的回归,并说明该列在自联接中不明确。 当用户使用具有以下条件的派生数据帧(所谓的自联接)加入数据帧时,就会发生此回归:
- 这两个数据帧具有常用列,但自联接的输出没有常用列。 例如:
df.join(df.select($"col" as "new_col"), cond)
- 派生数据帧通过选择、groupBy 或窗口排除某些列。
- 联接数据帧后联接条件或以下转换是指非常用列。 例如:
df.join(df.drop("a"), df("a") === 1)
- 这两个数据帧具有常用列,但自联接的输出没有常用列。 例如:
- 修复了 2021 年 1 月 12 日维护版本中可能导致错误 AnalysisException 的回归,并说明该列在自联接中不明确。 当用户使用具有以下条件的派生数据帧(所谓的自联接)加入数据帧时,就会发生此回归:
2021 年 1 月 12 日
- 操作系统安全更新。
- [SPARK-33593][SQL] 矢量读取器得到含有二进制分区值的不正确的数据
- [SPARK-33677][SQL] 如果模式包含任何 escapeChar,则跳过 LikeSimplification 规则
- [SPARK-33071][SPARK-33536] [SQL] 避免在 join() 中更改 LogicalPlan 的 dataset_id,以免中断 DetectAmbiguousSelfJoin
2020 年 12 月 8 日
- [SPARK-27421][SQL] 在删除分区列时修复 int 列和值类 java.lang.String 的筛选器
- [SPARK-33404][SQL] 修复
date_trunc
表达式中的错误结果 - [SPARK-33339][PYTHON] 由于发生非异常错误,Pyspark 应用程序将挂起
- [SPARK-33183][SQL] 修复优化程序规则 EliminateSorts 并添加物理规则以删除多余的排序
- [SPARK-33391][SQL] element_at 中的 CreateArray 未使用从 1 开始的索引。
- 操作系统安全更新。
2020 年 12 月 1 日
- [SPARK-33306][SQL] 将日期强制转换为字符串时需要时区
2020 年 11 月 3 日
- 已将 Java 版本从 1.8.0_252 升级到 1.8.0_265。
- 修复与 UserGroupInformation.getCurrentUser() 相关的 ABFS 和 WASB 锁定
- 修复 Avro 读取器在读取 MAGIC 字节时的无限循环 bug。
2020 年 10 月 13 日
- 操作系统安全更新。
- [SPARK-32999][SQL]使用 Utils.getSimpleName 以避免在 TreeNode 中命中格式错误的类名
- 修复了 FUSE 装载中包含具有无效 XML 字符的文件名的列出目录
- FUSE 装载不再使用 ListMultipartUploads
2020 年 9 月 29 日
- [SPARK-28863][SQL][WARMFIX] 引入 AlreadyOptimized,防止对 V1FallbackWriters 进行重新分析
- [SPARK-32635][SQL] 修复可折叠传播
- 添加新配置
spark.shuffle.io.decoder.consolidateThreshold
。 将配置值设置为Long.MAX_VALUE
以跳过 netty 帧缓冲区的合并,从而防止在极端情况下出现java.lang.IndexOutOfBoundsException
。
2020 年 9 月 24 日
- [SPARK-32764][SQL] - 0.0 应等于 0.0
- [SPARK-32753][SQL] 仅在转换计划时才会将标记复制到没有标记的节点
- [SPARK-32659][SQL] 修复非原子类型上插入动态分区修剪的数据问题
- 操作系统安全更新。
2020 年 9 月 8 日
- 为 Azure Synapse Analytics 创建了一个新参数
maxbinlength
。 此参数用于控制 BinaryType 列的列长度,并转换为VARBINARY(maxbinlength)
。 它可以使用.option("maxbinlength", n)
进行设置,其中 0 < n <= 8000。
- 为 Azure Synapse Analytics 创建了一个新参数
2020 年 8 月 25 日
- [SPARK-32159][SQL] 修复
Aggregator[Array[_], _, _]
和UnresolvedMapObjects
之间的集成 - [SPARK-32559][SQL] 修复
UTF8String.toInt/toLong
中的剪裁逻辑,该逻辑不能正确处理非 ASCII 字符 - [SPARK-32543][R] 删除 SparkR 中的
arrow::as_tibble
用法 - [SPARK-32091][CORE] 删除丢失的执行程序上的块时忽略超时错误
- 修复了 MSI 凭据影响 Azure Synapse 连接器的问题
- 修复了自合并中不明确的属性解析
- [SPARK-32159][SQL] 修复
2020 年 8 月 18 日
- [SPARK-32594][SQL] 修复被插入到 Hive 表的日期序列化
- [SPARK-32237][SQL] 解决 CTE 中的提示
- [SPARK-32431][SQL] 检查从内置数据源读取的重复嵌套列
- [SPARK-32467][UI] 避免在 https 重定向时对 URL 进行两次编码
- 修复了使用 Trigger.Once 时 AQS 连接器中的争用条件。
2020 年 8 月 11 日
- [SPARK-32280][SPARK-32372][SQL] ResolveReferences.dedupRight 只应重写冲突计划的上级节点的属性
- [SPARK-32234][SQL] Spark SQL 命令在选择 ORC 表时失败
- 现在可以在启用了传递的群集上使用 LDA 转换函数。
Databricks Runtime 6.6 (EoS)
请参阅 Databricks Runtime 6.6 (EoS)。
2020 年 12 月 1 日
- [SPARK-33260][SQL] 修复 sortOrder 为 Stream 时来自 SortExec 的错误结果
- [SPARK-32635][SQL] 修复可折叠传播
2020 年 11 月 3 日
- 已将 Java 版本从 1.8.0_252 升级到 1.8.0_265。
- 修复与 UserGroupInformation.getCurrentUser() 相关的 ABFS 和 WASB 锁定
- 修复 Avro 读取器在读取 MAGIC 字节时的无限循环 bug。
2020 年 10 月 13 日
- 操作系统安全更新。
- [SPARK-32999][SQL][2.4] 使用 Utils.getSimpleName 以避免在 TreeNode 中命中格式错误的类名
- 修复了 FUSE 装载中包含具有无效 XML 字符的文件名的列出目录
- FUSE 装载不再使用 ListMultipartUploads
2020 年 9 月 24 日
- 操作系统安全更新。
2020 年 9 月 8 日
- 为 Azure Synapse Analytics 创建了一个新参数
maxbinlength
。 此参数用于控制 BinaryType 列的列长度,并转换为VARBINARY(maxbinlength)
。 它可以使用.option("maxbinlength", n)
进行设置,其中 0 < n <= 8000。 - 将 Microsoft Azure 存储 SDK 更新到版本 8.6.4,并在 WASB 驱动程序建立的连接上启用 TCP keep-alive
- 为 Azure Synapse Analytics 创建了一个新参数
2020 年 8 月 25 日
- 修复了自合并中不明确的属性解析
2020 年 8 月 18 日
- [SPARK-32431][SQL] 检查从内置数据源读取的重复嵌套列
- 修复了使用 Trigger.Once 时 AQS 连接器中的争用条件。
2020 年 8 月 11 日
- [SPARK-28676][CORE] 避免从 ContextCleaner 过度记录日志
- [SPARK-31967][UI] 降级到 vis.js 4.21.0 以修复作业 UI 加载时间回归
2020 年 8 月 3 日
- 现在可以在启用了传递的群集上使用 LDA 转换函数。
- 操作系统安全更新。
Databricks Runtime 6.5 (EoS)
请参阅 Databricks Runtime 6.5 (EoS)。
- 2020 年 9 月 24 日
- 修复了之前的限制:标准群集上的直通仍然会限制用户使用的文件系统实现。 现在用户可以不受限制地访问本地文件系统。
- 操作系统安全更新。
- 2020 年 9 月 8 日
- 为 Azure Synapse Analytics 创建了一个新参数
maxbinlength
。 此参数用于控制 BinaryType 列的列长度,并转换为VARBINARY(maxbinlength)
。 它可以使用.option("maxbinlength", n)
进行设置,其中 0 < n <= 8000。 - 将 Microsoft Azure 存储 SDK 更新到版本 8.6.4,并在 WASB 驱动程序建立的连接上启用 TCP keep-alive
- 为 Azure Synapse Analytics 创建了一个新参数
- 2020 年 8 月 25 日
- 修复了自合并中不明确的属性解析
- 2020 年 8 月 18 日
- [SPARK-32431][SQL] 检查从内置数据源读取的重复嵌套列
- 修复了使用 Trigger.Once 时 AQS 连接器中的争用条件。
- 2020 年 8 月 11 日
- [SPARK-28676][CORE] 避免从 ContextCleaner 过度记录日志
- 2020 年 8 月 3 日
- 现在可以在启用了传递的群集上使用 LDA 转换函数。
- 操作系统安全更新。
- 2020 年 7 月 7 日
- 已将 Java 版本从 1.8.0_242 升级到 1.8.0_252。
- 2020 年 4 月 21 日
- [SPARK-31312][SQL] HiveFunctionWrapper 中 UDF 实例的缓存类实例
Databricks Runtime 6.3 (EoS)
请参阅 Databricks Runtime 6.3 (EoS)。
- 2020 年 7 月 7 日
- 已将 Java 版本从 1.8.0_232 升级到 1.8.0_252。
- 2020 年 4 月 21 日
- [SPARK-31312][SQL] HiveFunctionWrapper 中 UDF 实例的缓存类实例
- 2020 年 4 月 7 日
- 为了解决 pandas UDF 无法在 PyArrow 0.15.0 及更高版本中运行的问题,我们添加了一个环境变量 (
ARROW_PRE_0_15_IPC_FORMAT=1
) 来启用对这些 PyArrow 版本的支持。 请参阅 [SPARK-29367] 中的说明。
- 为了解决 pandas UDF 无法在 PyArrow 0.15.0 及更高版本中运行的问题,我们添加了一个环境变量 (
- 2020 年 3 月 10 日
- Databricks Runtime 中包含的 Snowflake 连接器 (
spark-snowflake_2.11
) 已更新到版本 2.5.9。snowflake-jdbc
已更新到版本 3.12.0。
- Databricks Runtime 中包含的 Snowflake 连接器 (
- 2020 年 2 月 18 日
- 启用 ADLS 客户端预提取时,由于线程本地处理不正确,ADLS Gen2 的凭据传递性能降低。 此版本在启用凭证传递时禁用 ADLS Gen2 预提取,直到我们提供合适的修补程序。
- 2020 年 2 月 11 日
- [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 应引发异常
- [SPARK-30447][SQL] 常数传播为 Null 性问题
- [SPARK-28152][SQL] 为旧的 MsSqlServerDialect 数字映射添加旧配置文件
- 将重写函数加入了允许列表,以便 MLModels 扩展 MLWriter 可调用该函数。
Databricks Runtime 6.2 (EoS)
请参阅 Databricks Runtime 6.2 (EoS)。
- 2020 年 4 月 21 日
- [SPARK-31312][SQL] HiveFunctionWrapper 中 UDF 实例的缓存类实例
- 2020 年 4 月 7 日
- 为了解决 pandas UDF 无法在 PyArrow 0.15.0 及更高版本中运行的问题,我们添加了一个环境变量 (
ARROW_PRE_0_15_IPC_FORMAT=1
) 来启用对这些 PyArrow 版本的支持。 请参阅 [SPARK-29367] 中的说明。
- 为了解决 pandas UDF 无法在 PyArrow 0.15.0 及更高版本中运行的问题,我们添加了一个环境变量 (
- 2020 年 3 月 25 日
- 作业输出(如发送到 stdout 的日志输出)的大小限制为 20MB。 如果总输出的大小较大,则将取消运行并标记为失败。 若要避免出现此限制,可以通过将
spark.databricks.driver.disableScalaOutput
Spark 配置设置为true
来阻止从驱动程序返回 stdout。 (默认情况下,标志值为false
) 该标志控制 Scala JAR 作业和 Scala 笔记本的单元格输出。 如果启用该标志,Spark 不会将作业执行结果返回给客户端。 该标志不影响写入群集日志文件中的数据。 建议只对 JAR 作业的自动群集设置此标志,因为这将禁用笔记本结果。
- 作业输出(如发送到 stdout 的日志输出)的大小限制为 20MB。 如果总输出的大小较大,则将取消运行并标记为失败。 若要避免出现此限制,可以通过将
- 2020 年 3 月 10 日
- Databricks Runtime 中包含的 Snowflake 连接器 (
spark-snowflake_2.11
) 已更新到版本 2.5.9。snowflake-jdbc
已更新到版本 3.12.0。
- Databricks Runtime 中包含的 Snowflake 连接器 (
- 2020 年 2 月 18 日
- [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 应引发异常
- 启用 ADLS 客户端预提取时,由于线程本地处理不正确,ADLS Gen2 的凭据传递性能降低。 此版本在启用凭证传递时禁用 ADLS Gen2 预提取,直到我们提供合适的修补程序。
- 2020 年 1 月 28 日
- 对于启用凭据传递的群集,将 ML 模型编写器的覆盖函数加入了允许列表,以便 model save 可在凭据传递群集上使用覆盖模式。
- [SPARK-30447][SQL] 常数传播为 Null 性问题。
- [SPARK-28152][SQL] 为旧的 MsSqlServerDialect 数字映射添加旧配置文件。
- 2020 年 1 月 14 日
- 已将 Java 版本从 1.8.0_222 升级到 1.8.0_232。
- 2019 年 12 月 10 日
- [SPARK-29904][SQL] 通过 JSON/CSV 数据源以微秒精度解析时间戳。
Databricks Runtime 6.1 (EoS)
请参阅 Databricks Runtime 6.1 (EoS)。
- 2020 年 4 月 7 日
- 为了解决 pandas UDF 无法在 PyArrow 0.15.0 及更高版本中运行的问题,我们添加了一个环境变量 (
ARROW_PRE_0_15_IPC_FORMAT=1
) 来启用对这些 PyArrow 版本的支持。 请参阅 [SPARK-29367] 中的说明。
- 为了解决 pandas UDF 无法在 PyArrow 0.15.0 及更高版本中运行的问题,我们添加了一个环境变量 (
- 2020 年 3 月 25 日
- 作业输出(如发送到 stdout 的日志输出)的大小限制为 20MB。 如果总输出的大小较大,则将取消运行并标记为失败。 若要避免出现此限制,可以通过将
spark.databricks.driver.disableScalaOutput
Spark 配置设置为true
来阻止从驱动程序返回 stdout。 (默认情况下,标志值为false
) 该标志控制 Scala JAR 作业和 Scala 笔记本的单元格输出。 如果启用该标志,Spark 不会将作业执行结果返回给客户端。 该标志不影响写入群集日志文件中的数据。 建议只对 JAR 作业的自动群集设置此标志,因为这将禁用笔记本结果。
- 作业输出(如发送到 stdout 的日志输出)的大小限制为 20MB。 如果总输出的大小较大,则将取消运行并标记为失败。 若要避免出现此限制,可以通过将
- 2020 年 3 月 10 日
- Databricks Runtime 中包含的 Snowflake 连接器 (
spark-snowflake_2.11
) 已更新到版本 2.5.9。snowflake-jdbc
已更新到版本 3.12.0。
- Databricks Runtime 中包含的 Snowflake 连接器 (
- 2020 年 2 月 18 日
- [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 应引发异常
- 启用 ADLS 客户端预提取时,由于线程本地处理不正确,ADLS Gen2 的凭据传递性能降低。 此版本在启用凭证传递时禁用 ADLS Gen2 预提取,直到我们提供合适的修补程序。
- 2020 年 1 月 28 日
- [SPARK-30447][SQL] 常数传播为 Null 性问题。
- [SPARK-28152][SQL] 为旧的 MsSqlServerDialect 数字映射添加旧配置文件。
- 2020 年 1 月 14 日
- 已将 Java 版本从 1.8.0_222 升级到 1.8.0_232。
- 2019 年 11 月 7 日
- [SPARK-29743][SQL] 示例应将 needCopyResult 设置为 true(如果其子级的 needCopyResult 为 true)。
- 在公共预览版中从 Spark 配置属性和环境变量引用的机密。 请参阅在 Spark 配置属性或环境变量中使用机密。
- 2019 年 11 月 5 日
- 修复了 DBFS FUSE 中处理装入点时在其路径中使用
//
的 bug。 - [SPARK-29081] 使用更快的实现替换对属性的 SerializationUtils.clone 的调用
- [SPARK-29244][CORE] 防止 BytesToBytesMap 中已释放页再次释放
- (6.1 ML) 库 mkl 2019.4 版本是无意安装的。 我们已将其降级到 mkl 版本 2019.3,以匹配 Anaconda 发行版2019.03。
- 修复了 DBFS FUSE 中处理装入点时在其路径中使用
Databricks Runtime 6.0 (EoS)
请参阅 Databricks Runtime 6.0 (EoS)。
- 2020 年 3 月 25 日
- 作业输出(如发送到 stdout 的日志输出)的大小限制为 20MB。 如果总输出的大小较大,则将取消运行并标记为失败。 若要避免出现此限制,可以通过将
spark.databricks.driver.disableScalaOutput
Spark 配置设置为true
来阻止从驱动程序返回 stdout。 (默认情况下,标志值为false
) 该标志控制 Scala JAR 作业和 Scala 笔记本的单元格输出。 如果启用该标志,Spark 不会将作业执行结果返回给客户端。 该标志不影响写入群集日志文件中的数据。 建议只对 JAR 作业的自动群集设置此标志,因为这将禁用笔记本结果。
- 作业输出(如发送到 stdout 的日志输出)的大小限制为 20MB。 如果总输出的大小较大,则将取消运行并标记为失败。 若要避免出现此限制,可以通过将
- 2020 年 2 月 18 日
- 启用 ADLS 客户端预提取时,由于线程本地处理不正确,ADLS Gen2 的凭据传递性能降低。 此版本在启用凭证传递时禁用 ADLS Gen2 预提取,直到我们提供合适的修补程序。
- 2020 年 2 月 11 日
- [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 应引发异常
- 2020 年 1 月 28 日
- [SPARK-30447][SQL] 常数传播为 Null 性问题。
- [SPARK-28152][SQL] 为旧的 MsSqlServerDialect 数字映射添加旧配置文件。
- 2020 年 1 月 14 日
- 已将 Java 版本从 1.8.0_222 升级到 1.8.0_232。
- 2019 年 11 月 19 日
- [SPARK-29743] [SQL] 示例应将 needCopyResult 设置为 true(如果其子级的 needCopyResult 为 true)
- 2019 年 11 月 5 日
dbutils.tensorboard.start()
现在支持 TensorBoard 2.0(如果手动安装)。- 修复了 DBFS FUSE 中处理装入点时在其路径中使用
//
的 bug。 - [SPARK-29081] 使用更快的实现替换对属性的 SerializationUtils.clone 的调用
- 2019 年 10 月 23 日
- [SPARK-29244][CORE] 防止 BytesToBytesMap 中已释放页再次释放
- 2019 年 10 月 8 日
- 服务器端更改为允许 Simba Apache Spark ODBC 驱动程序在获取结果时连接失败后重新连接并继续操作(需要 Simba Apache Spark ODBC 驱动程序版本 2.6.10)。
- 修复了在启用表 ACL 的群集中影响使用
Optimize
命令的问题。 - 修复了在启用表 ACL 和凭据传递的群集上由于 Scala UDF 禁止错误而导致
pyspark.ml
库失败的问题。 - 将用于凭据传递的 SerDe/SerDeUtil 方法加入了允许列表。
- 修复了在 WASB 客户端中检查错误代码时发生的 NullPointerException。
- 修复了用户凭据未转发到
dbutils.notebook.run()
创建的作业的问题。
Databricks Runtime 5.4 ML (EoS)
请参阅用于 ML 的 Databricks Runtime 5.4 (EoS)。
- 2019 年 6 月 18 日
- 改进了 Hyperopt 集成中对 MLflow 活动运行的处理
- 改进了 Hyperopt 中的消息
- 已将包
Marchkdown
从 3.1 更新到 3.1.1
Databricks Runtime 5.4 (EoS)
请参阅 Databricks Runtime 5.4 (EoS)。
- 2019 年 11 月 19 日
- [SPARK-29743] [SQL] 示例应将 needCopyResult 设置为 true(如果其子级的 needCopyResult 为 true)
- 2019 年 10 月 8 日
- 服务器端更改为允许 Simba Apache Spark ODBC 驱动程序在获取结果时连接失败后重新连接并继续操作(需要 Simba Apache Spark ODBC 驱动程序更新到版本 2.6.10)。
- 修复了在 WASB 客户端中检查错误代码时发生的 NullPointerException。
- 2019 年 9 月 10 日
- 将线程安全迭代器添加到 BytesToBytesMap
- 修复了影响某些全局聚合查询的 bug。
- [SPARK-27330][SS] 在 foreach 编写器中支持任务中止
- [SPARK-28642]在 SHOW CREATE TABLE 中隐藏凭据
- [SPARK-28699][SQL] 禁止在重新分区情况下对 ShuffleExchangeExec 使用基数排序
- [SPARK-28699][CORE] 修复了中止不确定阶段的个别案例
- 2019 年 8 月 27 日
- 修复了影响某个
transform
表达式的问题
- 修复了影响某个
- 2019 年 8 月 13 日
- 增量流式处理源应检查表的最新协议
- [SPARK-28489][SS] 修复了 KafkaOffsetRangeCalculator.getRanges 可能会删除偏移量的 bug
- 2019 年 7 月 30 日
- [SPARK-28015][SQL] 检查 stringToDate() 使用 yyyy 和 yyyy-[m]m 格式的全部输入
- [SPARK-28308][CORE] 解析 CalendarInterval 之前应填充其子部分
- [SPARK-27485]EnsureRequirements.reorder 应妥善处理重复表达式
- 2019 年 7 月 2日
- 已将 snappy-java 从 1.1.7.1 升级到 1.1.7.3。
- 2019 年 6 月 18 日
- 改进了 MLlib 集成中 MLflow 活动运行的处理
- 改进了与使用磁盘缓存相关的 Databricks 顾问消息
- 修复了影响使用高阶函数的 bug
- 修复了影响增量元数据查询的 bug
Databricks Runtime 5.3 (EoS)
请参阅 Databricks Runtime 5.3 (EoS)。
- 2019 年 11 月 7 日
- [SPARK-29743][SQL] 示例应将 needCopyResult 设置为 true(如果其子级的 needCopyResult 为 true)
- 2019 年 10 月 8 日
- 服务器端更改为允许 Simba Apache Spark ODBC 驱动程序在获取结果时连接失败后重新连接并继续操作(需要 Simba Apache Spark ODBC 驱动程序更新到版本 2.6.10)。
- 修复了在 WASB 客户端中检查错误代码时发生的 NullPointerException。
- 2019 年 9 月 10 日
- 将线程安全迭代器添加到 BytesToBytesMap
- 修复了影响某些全局聚合查询的 bug。
- [SPARK-27330][SS] 在 foreach 编写器中支持任务中止
- [SPARK-28642]在 SHOW CREATE TABLE 中隐藏凭据
- [SPARK-28699][SQL] 禁止在重新分区情况下对 ShuffleExchangeExec 使用基数排序
- [SPARK-28699][CORE] 修复了中止不确定阶段的个别案例
- 2019 年 8 月 27 日
- 修复了影响某个
transform
表达式的问题
- 修复了影响某个
- 2019 年 8 月 13 日
- 增量流式处理源应检查表的最新协议
- [SPARK-28489][SS] 修复了 KafkaOffsetRangeCalculator.getRanges 可能会删除偏移量的 bug
- 2019 年 7 月 30 日
- [SPARK-28015][SQL] 检查 stringToDate() 使用 yyyy 和 yyyy-[m]m 格式的全部输入
- [SPARK-28308][CORE] 解析 CalendarInterval 之前应填充其子部分
- [SPARK-27485]EnsureRequirements.reorder 应妥善处理重复表达式
- 2019 年 6 月 18 日
- 改进了与使用磁盘缓存相关的 Databricks 顾问消息
- 修复了影响使用高阶函数的 bug
- 修复了影响增量元数据查询的 bug
- 2019 年 5 月 28 日
- 提高了 Delta 的稳定性
- 读取 Delta LAST_CHECKPOINT 文件时容许 IOException
- 已将恢复添加到失败的库安装
- 2019 年 5 月 7 日
- 端口 HADOOP-15778(ABFS:修复客户端读取限制)到 Azure Data Lake Storage Gen2 连接器
- 端口 HADOOP-16040(ABFS:对 TolerateObappens 配置 Bug 修复)到 Azure Data Lake Storage Gen2 连接器
- 修复了影响表 Acl 的 bug
- 修复了加载 Delta 日志校验和文件时的争用情况
- 修复了 Delta 冲突检测逻辑,不将“插入 + 覆盖”标识为纯“追加”操作
- 确保在启用表 ACL 时未禁用磁盘缓存
- [SPARK-27494][SS] 空键/值在 Kafka source v2 中不起作用
- [SPARK-27446][R] 如果可用,请使用现有 Spark 配置文件。
- [SPARK-27454][SPARK-27454][ML][SQL] Spark 图像数据源遇到一些非法图像时失败
- [SPARK-27160][SQL] 修复构建 orc 筛选器时出现的 DecimalType
- [SPARK-27338][CORE] 修复 UnsafeeExternalSorter 和 TaskMemoryManager 之间的死锁
Databricks Runtime 5.2 (EoS)
请参阅 Databricks Runtime 5.2 (EoS)。
- 2019 年 9 月 10 日
- 将线程安全迭代器添加到 BytesToBytesMap
- 修复了影响某些全局聚合查询的 bug。
- [SPARK-27330][SS] 在 foreach 编写器中支持任务中止
- [SPARK-28642]在 SHOW CREATE TABLE 中隐藏凭据
- [SPARK-28699][SQL] 禁止在重新分区情况下对 ShuffleExchangeExec 使用基数排序
- [SPARK-28699][CORE] 修复了中止不确定阶段的个别案例
- 2019 年 8 月 27 日
- 修复了影响某个
transform
表达式的问题
- 修复了影响某个
- 2019 年 8 月 13 日
- 增量流式处理源应检查表的最新协议
- [SPARK-28489][SS] 修复了 KafkaOffsetRangeCalculator.getRanges 可能会删除偏移量的 bug
- 2019 年 7 月 30 日
- [SPARK-28015][SQL] 检查 stringToDate() 使用 yyyy 和 yyyy-[m]m 格式的全部输入
- [SPARK-28308][CORE] 解析 CalendarInterval 之前应填充其子部分
- [SPARK-27485]EnsureRequirements.reorder 应妥善处理重复表达式
- 2019 年 7 月 2日
- 读取 Delta LAST_CHECKPOINT 文件时容许 IOException
- 2019 年 6 月 18 日
- 改进了与使用磁盘缓存相关的 Databricks 顾问消息
- 修复了影响使用高阶函数的 bug
- 修复了影响增量元数据查询的 bug
- 2019 年 5 月 28 日
- 已将恢复添加到失败的库安装
- 2019 年 5 月 7 日
- 端口 HADOOP-15778(ABFS:修复客户端读取限制)到 Azure Data Lake Storage Gen2 连接器
- 端口 HADOOP-16040(ABFS:对 TolerateObappens 配置 Bug 修复)到 Azure Data Lake Storage Gen2 连接器
- 修复了加载 Delta 日志校验和文件时的争用情况
- 修复了 Delta 冲突检测逻辑,不将“插入 + 覆盖”标识为纯“追加”操作
- 确保在启用表 ACL 时未禁用磁盘缓存
- [SPARK-27494][SS] 空键/值在 Kafka source v2 中不起作用
- [SPARK-27454][SPARK-27454][ML][SQL] Spark 图像数据源遇到一些非法图像时失败
- [SPARK-27160][SQL] 修复构建 orc 筛选器时出现的 DecimalType
- [SPARK-27338][CORE] 修复 UnsafeeExternalSorter 和 TaskMemoryManager 之间的死锁
- 2019 年 3 月 26 日
- 避免在整个阶段生成的代码中直接嵌入依赖于平台的偏移量
- [SPARK-26665][CORE] 修复 BlockTransferService.fetchBlockSync 可能永远挂起的 bug。
- [SPARK-27134][SQL] array_distinct 函数不能正确处理包含数组数组的列。
- [SPARK-24669][SQL] 在 DROP DATABASE CASCADE 时使表无效。
- [SPARK-26572][SQL] 修复聚合 codegen 结果计算。
- 修复了影响某些 PythonUDF 的 bug。
- 2019 年 2 月 26 日
- [SPARK-26864][SQL] 如果 python udf 用作左半联接条件,则查询可能会返回不正确的结果。
- [SPARK-26887][PYTHON] 直接创建 datetime.date,而不是创建 datetime64 作为中间数据。
- 修复了影响 JDBC/ODBC 服务器的 bug。
- 修复了影响 PySpark 的 bug。
- 生成 HadoopRDD 时排除隐藏文件。
- 修复了 Delta 中导致序列化问题的 bug。
- 2019 年 2 月 12 日
- 修复了影响使用 Delta 与 Azure ADLS Gen2 装入点的问题。
- 修复了 Spark 低级网络协议在发送启用加密的大型 RPC 错误消息时可能被破坏的问题(当
spark.network.crypto.enabled
设置为 true 时)。
- 2019 年 1 月 30 日
- 修复了在缓存关系上放置倾斜联接提示时的 StackOverflowError。
- 修复了 SQL 缓存的缓存 RDD 与其物理计划之间的不一致,这会导致不正确的结果。
- [SPARK-26706][SQL] 修复 ByteType 的
illegalNumericPrecedence
。 - [SPARK-26709][SQL] OptimizeMetadataOnlyQuery 无法正确处理空记录。
- 在推断架构时,CSV/JSON 数据源应避免使用文件名代换路径。
- 修复了窗口运算符的约束推理。
- 修复了影响安装 egg 库并启用了表 ACL 的群集的问题。
Databricks Runtime 5.1 (EoS)
请参阅 Databricks Runtime 5.1 (EoS)。
- 2019 年 8 月 13 日
- 增量流式处理源应检查表的最新协议
- [SPARK-28489][SS] 修复了 KafkaOffsetRangeCalculator.getRanges 可能会删除偏移量的 bug
- 2019 年 7 月 30 日
- [SPARK-28015][SQL] 检查 stringToDate() 使用 yyyy 和 yyyy-[m]m 格式的全部输入
- [SPARK-28308][CORE] 解析 CalendarInterval 之前应填充其子部分
- [SPARK-27485]EnsureRequirements.reorder 应妥善处理重复表达式
- 2019 年 7 月 2日
- 读取 Delta LAST_CHECKPOINT 文件时容许 IOException
- 2019 年 6 月 18 日
- 修复了影响使用高阶函数的 bug
- 修复了影响增量元数据查询的 bug
- 2019 年 5 月 28 日
- 已将恢复添加到失败的库安装
- 2019 年 5 月 7 日
- 端口 HADOOP-15778(ABFS:修复客户端读取限制)到 Azure Data Lake Storage Gen2 连接器
- 端口 HADOOP-16040(ABFS:对 TolerateObappens 配置 Bug 修复)到 Azure Data Lake Storage Gen2 连接器
- 修复了加载 Delta 日志校验和文件时的争用情况
- 修复了 Delta 冲突检测逻辑,不将“插入 + 覆盖”标识为纯“追加”操作
- [SPARK-27494][SS] 空键/值在 Kafka source v2 中不起作用
- [SPARK-27454][SPARK-27454][ML][SQL] Spark 图像数据源遇到一些非法图像时失败
- [SPARK-27160][SQL] 修复构建 orc 筛选器时出现的 DecimalType
- [SPARK-27338][CORE] 修复 UnsafeeExternalSorter 和 TaskMemoryManager 之间的死锁
- 2019 年 3 月 26 日
- 避免在整个阶段生成的代码中直接嵌入依赖于平台的偏移量
- 修复了影响某些 PythonUDF 的 bug。
- 2019 年 2 月 26 日
- [SPARK-26864][SQL] 如果 python udf 用作左半联接条件,则查询可能会返回不正确的结果。
- 修复了影响 JDBC/ODBC 服务器的 bug。
- 生成 HadoopRDD 时排除隐藏文件。
- 2019 年 2 月 12 日
- 修复了影响安装 egg 库并启用了表 ACL 的群集的问题。
- 修复了 SQL 缓存的缓存 RDD 与其物理计划之间的不一致,这会导致不正确的结果。
- [SPARK-26706][SQL] 修复 ByteType 的
illegalNumericPrecedence
。 - [SPARK-26709][SQL] OptimizeMetadataOnlyQuery 无法正确处理空记录。
- 修复了窗口运算符的约束推理。
- 修复了 Spark 低级网络协议在发送启用加密的大型 RPC 错误消息时可能被破坏的问题(当
spark.network.crypto.enabled
设置为 true 时)。
- 2019 年 1 月 30 日
- 修复了一个问题,该问题可能导致使用 UDT 的
df.rdd.count()
在某些情况下返回不正确的答案。 - 修复了影响安装 wheelhouses 的问题。
- [SPARK-26267]检测到来自 Kafka 的错误偏移时重试。
- 修复了影响流式查询中多个文件流源的 bug。
- 修复了在缓存关系上放置倾斜联接提示时的 StackOverflowError。
- 修复了 SQL 缓存的缓存 RDD 与其物理计划之间的不一致,这会导致不正确的结果。
- 修复了一个问题,该问题可能导致使用 UDT 的
- 2019 年 1 月 8 日
- 修复了导致错误
org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted
的问题。 - [SPARK-26352]联接重新排序不应更改输出属性的顺序。
- [SPARK-26366]ReplaceExceptWithFilter 应将 NULL 视为 False。
- Delta Lake 的稳定性改进。
- 已启用 Delta Lake。
- 修复了在为 Azure Data Lake Storage Gen1 启用 Microsoft Entra ID 凭据传递时导致 Azure Data Lake Storage Gen2 访问失败的问题。
- Databricks IO Cache 现在为所有定价层的 Ls 系列辅助角色实例类型启用。
- 修复了导致错误
Databricks Runtime 5.0 (EoS)
请参阅 Databricks Runtime 5.0 (EoS)。
- 2019 年 6 月 18 日
- 修复了影响使用高阶函数的 bug
- 2019 年 5 月 7 日
- 修复了加载 Delta 日志校验和文件时的争用情况
- 修复了 Delta 冲突检测逻辑,不将“插入 + 覆盖”标识为纯“追加”操作
- [SPARK-27494][SS] 空键/值在 Kafka source v2 中不起作用
- [SPARK-27454][SPARK-27454][ML][SQL] Spark 图像数据源遇到一些非法图像时失败
- [SPARK-27160][SQL] 修复构建 orc 筛选器时出现的 DecimalType
- [SPARK-27338][CORE] 修复 UnsafeeExternalSorter 和 TaskMemoryManager 之间的死锁
- 2019 年 3 月 26 日
- 避免在整个阶段生成的代码中直接嵌入依赖于平台的偏移量
- 修复了影响某些 PythonUDF 的 bug。
- 2019 年 3 月 12 日
- [SPARK-26864][SQL] 如果 python udf 用作左半联接条件,则查询可能会返回不正确的结果。
- 2019 年 2 月 26 日
- 修复了影响 JDBC/ODBC 服务器的 bug。
- 生成 HadoopRDD 时排除隐藏文件。
- 2019 年 2 月 12 日
- 修复了 SQL 缓存的缓存 RDD 与其物理计划之间的不一致,这会导致不正确的结果。
- [SPARK-26706][SQL] 修复 ByteType 的
illegalNumericPrecedence
。 - [SPARK-26709][SQL] OptimizeMetadataOnlyQuery 无法正确处理空记录。
- 修复了窗口运算符的约束推理。
- 修复了 Spark 低级网络协议在发送启用加密的大型 RPC 错误消息时可能被破坏的问题(当
spark.network.crypto.enabled
设置为 true 时)。
- 2019 年 1 月 30 日
- 修复了一个问题,该问题可能导致使用 UDT 的
df.rdd.count()
在某些情况下返回不正确的答案。 - [SPARK-26267]检测到来自 Kafka 的错误偏移时重试。
- 修复了影响流式查询中多个文件流源的 bug。
- 修复了在缓存关系上放置倾斜联接提示时的 StackOverflowError。
- 修复了 SQL 缓存的缓存 RDD 与其物理计划之间的不一致,这会导致不正确的结果。
- 修复了一个问题,该问题可能导致使用 UDT 的
- 2019 年 1 月 8 日
- 修复了导致错误
org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted
的问题。 - [SPARK-26352]联接重新排序不应更改输出属性的顺序。
- [SPARK-26366]ReplaceExceptWithFilter 应将 NULL 视为 False。
- Delta Lake 的稳定性改进。
- 已启用 Delta Lake。
- Databricks IO Cache 现在为所有定价层的 Ls 系列辅助角色实例类型启用。
- 修复了导致错误
- 2018 年 12 月 18 日
- [SPARK-26293]子查询中有 Python UDF 时发生强制转换异常
- 修复了影响使用联接和限制查询的问题。
- 根据 Spark UI 中的 RDD 名称修订了凭据
- 2018 年 12 月 6 日
- 修复了使用 orderBy 后接 groupBy 并将 group by key 作为 sort-by key 的前导部分时导致错误查询结果的问题。
- 已将 Spark 的 Snowflake 连接器从 2.4.9.2-spark_2.4_pre_release 升级到 2.4.10。
- 启用
spark.sql.files.ignoreCorruptFiles
或spark.sql.files.ignoreMissingFiles
标志时,仅在一次或多次重试后忽略损坏的文件。 - 修复了影响某些自联合查询的问题。
- 修复了 thrift 服务器的一个 bug,即取消会话时,会话有时会泄漏。
- [SPARK-26307]修复了使用 Hive SerDe 插入分区表时的 CTA。
- [SPARK-26147]即使只使用联接的一侧的列,处于联接条件下的 Python udf 也会失败
- [SPARK-26211]修复二进制的 InSet,以及带有 null 的结构和数组。
- [SPARK-26181]
ColumnStatsMap
的hasMinMaxStats
方法不正确。 - 修复了在没有 Internet 访问的环境中影响安装 Python Wheel 的问题。
- 2018 年 11 月 20 日
- 修复了取消流式处理查询后导致笔记本无法使用的问题。
- 修复了影响使用窗口函数的某些查询的问题。
- 修复了影响来自 Delta 的流的多个架构更改的问题。
- 修复了影响使用左半/反联接的某些聚合查询的问题。
Databricks Runtime 4.3 (EoS)
请参阅 Databricks Runtime 4.3 (EoS)。
2019 年 4 月 9 日
- [SPARK-26665][CORE] 修复了可能导致 BlockTransferService.fetchBlockSync 永久挂起的 bug。
- [SPARK-24669][SQL] 在 DROP DATABASE CASCADE 时使表无效。
2019 年 3 月 12 日
- 修复了影响代码生成的 bug。
- 修复了影响 Delta 的 bug。
2019 年 2 月 26 日
- 修复了影响 JDBC/ODBC 服务器的 bug。
2019 年 2 月 12 日
- [SPARK-26709][SQL] OptimizeMetadataOnlyQuery 无法正确处理空记录。
- 生成 HadoopRDD 时排除隐藏文件。
- 修复了 IN 谓词的值为空时的 Parquet 筛选器转换。
- 修复了 Spark 低级网络协议在发送启用加密的大型 RPC 错误消息时可能被破坏的问题(当
spark.network.crypto.enabled
设置为 true 时)。
2019 年 1 月 30 日
- 修复了一个问题,该问题可能导致使用 UDT 的
df.rdd.count()
在某些情况下返回不正确的答案。 - 修复了 SQL 缓存的缓存 RDD 与其物理计划之间的不一致,这会导致不正确的结果。
- 修复了一个问题,该问题可能导致使用 UDT 的
2019 年 1 月 8 日
- 修复了导致错误
org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted
的问题。 - 根据 Spark UI 中的 RDD 名称修订了凭据
- [SPARK-26352]联接重新排序不应更改输出属性的顺序。
- [SPARK-26366]ReplaceExceptWithFilter 应将 NULL 视为 False。
- 已启用 Delta Lake。
- Databricks IO Cache 现在为所有定价层的 Ls 系列辅助角色实例类型启用。
- 修复了导致错误
2018 年 12 月 18 日
- [SPARK-25002]Avro:修改输出记录命名空间。
- 修复了影响使用联接和限制查询的问题。
- [SPARK-26307]修复了使用 Hive SerDe 插入分区表时的 CTA。
- 启用
spark.sql.files.ignoreCorruptFiles
或spark.sql.files.ignoreMissingFiles
标志时,仅在一次或多次重试后忽略损坏的文件。 - [SPARK-26181]
ColumnStatsMap
的hasMinMaxStats
方法不正确。 - 修复了在没有 Internet 访问的环境中影响安装 Python Wheel 的问题。
- 修复了查询分析器中的性能问题。
- 修复了 PySpark 中导致数据帧操作失败并出现“连接被拒绝”错误的问题。
- 修复了影响某些自联合查询的问题。
2018 年 11 月 20 日
- [SPARK-17916][SPARK-25241]修复当设置 nullValue 了时空字符串被分析为 null 的问题。
- [SPARK-25387]修复了由错误的 CSV 输入导致的 NPE。
- 修复了影响使用左半/反联接的某些聚合查询的问题。
2018 年 11 月 6 日
- [SPARK-25741]长 URL 在 Web UI 中未正确呈现。
- [SPARK-25714]修复优化器规则 BooleanSimplification 中的 NULL 处理。
- 修复了在 Synapse Analytics 连接器中影响临时对象清除的问题。
- [SPARK-25816]修复嵌套提取器中的属性解析。
2018 年 10 月 16 日
- 修复了影响在 Delta 表上运行
SHOW CREATE TABLE
的输出的 bug。 - 修复了影响
Union
操作的 bug。
- 修复了影响在 Delta 表上运行
2018 年 9 月 25 日
- [SPARK-25368][SQL] 不正确的约束推理返回错误的结果。
- [SPARK-25402][SQL] BooleanSimplification 中的 NULL 处理。
- 修复了 Avro 数据源中的
NotSerializableException
。
2018 年 9 月 11 日
- [SPARK-25214][SS] 修复 Kafka v2 源在
failOnDataLoss=false
时可能返回重复记录的问题。 - [SPARK-24987][SS] 修复了当 articlePartition 没有新的偏移量时 Kafka 使用者泄漏问题。
- 筛选器精简版应正确处理 Null 值。
- 提高了执行引擎的稳定性。
- [SPARK-25214][SS] 修复 Kafka v2 源在
2018 年 8 月 28 日
- 修复了 Delta Lake Delete 命令中的 bug,该 bug 会错误地删除条件评估为 null 的行。
- [SPARK-25142]添加了 Python 辅助角色无法打开
_load_from_socket
中的套接字的错误消息。
2018 年 8 月 23 日
- [SPARK-23935]mapEntry 引发
org.codehaus.commons.compiler.CompileException
。 - 修复了 Parquet 读取器中的可为空映射问题。
- [SPARK-25051][SQL] FixNullability 不应在 AnalysisBarrier 上停止。
- [SPARK-25081]修复了当溢出无法分配内存时 ShuffleExternalSorter 可能访问已释放内存页的 bug。
- 修复了 Databricks Delta 和 Pyspark 之间可能导致瞬时读取失败的交互。
- [SPARK-25084]多个列上的“distribute by”(在括号中换行)可能会导致 codegen 问题。
- [SPARK-25096]如果强制转换为可强制为空,则放宽可空性。
- 减少了 Delta Lake Optimize 命令使用的默认线程数,从而减少了内存开销并提升了数据提交的速度。
- [SPARK-25114]修复了两个数之间的减法可被 Integer.MAX_VALUE 整除时的 RecordBinaryComparator。
- 修复了命令部分成功时的机密管理器修订。
- [SPARK-23935]mapEntry 引发
Databricks Runtime 4.2 (EoS)
请参阅 Databricks Runtime 4.2 (EoS)。
2019 年 2 月 26 日
- 修复了影响 JDBC/ODBC 服务器的 bug。
2019 年 2 月 12 日
- [SPARK-26709][SQL] OptimizeMetadataOnlyQuery 无法正确处理空记录。
- 生成 HadoopRDD 时排除隐藏文件。
- 修复了 IN 谓词的值为空时的 Parquet 筛选器转换。
- 修复了 Spark 低级网络协议在发送启用加密的大型 RPC 错误消息时可能被破坏的问题(当
spark.network.crypto.enabled
设置为 true 时)。
2019 年 1 月 30 日
- 修复了一个问题,该问题可能导致使用 UDT 的
df.rdd.count()
在某些情况下返回不正确的答案。
- 修复了一个问题,该问题可能导致使用 UDT 的
2019 年 1 月 8 日
- 修复了导致错误
org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted
的问题。 - 根据 Spark UI 中的 RDD 名称修订了凭据
- [SPARK-26352]联接重新排序不应更改输出属性的顺序。
- [SPARK-26366]ReplaceExceptWithFilter 应将 NULL 视为 False。
- 已启用 Delta Lake。
- Databricks IO Cache 现在为所有定价层的 Ls 系列辅助角色实例类型启用。
- 修复了导致错误
2018 年 12 月 18 日
- [SPARK-25002]Avro:修改输出记录命名空间。
- 修复了影响使用联接和限制查询的问题。
- [SPARK-26307]修复了使用 Hive SerDe 插入分区表时的 CTA。
- 启用
spark.sql.files.ignoreCorruptFiles
或spark.sql.files.ignoreMissingFiles
标志时,仅在一次或多次重试后忽略损坏的文件。 - [SPARK-26181]
ColumnStatsMap
的hasMinMaxStats
方法不正确。 - 修复了在没有 Internet 访问的环境中影响安装 Python Wheel 的问题。
- 修复了查询分析器中的性能问题。
- 修复了 PySpark 中导致数据帧操作失败并出现“连接被拒绝”错误的问题。
- 修复了影响某些自联合查询的问题。
2018 年 11 月 20 日
- [SPARK-17916][SPARK-25241]修复当设置 nullValue 了时空字符串被分析为 null 的问题。
- 修复了影响使用左半/反联接的某些聚合查询的问题。
2018 年 11 月 6 日
- [SPARK-25741]长 URL 在 Web UI 中未正确呈现。
- [SPARK-25714]修复优化器规则 BooleanSimplification 中的 NULL 处理。
2018 年 10 月 16 日
- 修复了影响在 Delta 表上运行
SHOW CREATE TABLE
的输出的 bug。 - 修复了影响
Union
操作的 bug。
- 修复了影响在 Delta 表上运行
2018 年 9 月 25 日
- [SPARK-25368][SQL] 不正确的约束推理返回错误的结果。
- [SPARK-25402][SQL] BooleanSimplification 中的 NULL 处理。
- 修复了 Avro 数据源中的
NotSerializableException
。
2018 年 9 月 11 日
- [SPARK-25214][SS] 修复 Kafka v2 源在
failOnDataLoss=false
时可能返回重复记录的问题。 - [SPARK-24987][SS] 修复了当 articlePartition 没有新的偏移量时 Kafka 使用者泄漏问题。
- 筛选器精简版应正确处理 Null 值。
- [SPARK-25214][SS] 修复 Kafka v2 源在
2018 年 8 月 28 日
- 修复了 Delta Lake Delete 命令中的 bug,该 bug 会错误地删除条件评估为 null 的行。
2018 年 8 月 23 日
- 修复了 Delta 快照的 NoClassDefError
- [SPARK-23935]mapEntry 引发
org.codehaus.commons.compiler.CompileException
。 - [SPARK-24957][SQL] 后跟聚合的带小数的平均值返回了错误结果。 可能会返回错误的 AVERAGE 结果。 如果 Divide 的结果类型与强制转换的类型相同,则会跳过在 Average 运算符中添加的 CAST。
- [SPARK-25081]修复了当溢出无法分配内存时 ShuffleExternalSorter 可能访问已释放内存页的 bug。
- 修复了 Databricks Delta 和 Pyspark 之间可能导致瞬时读取失败的交互。
- [SPARK-25114]修复了两个数之间的减法可被 Integer.MAX_VALUE 整除时的 RecordBinaryComparator。
- [SPARK-25084]多个列上的“distribute by”(在括号中换行)可能会导致 codegen 问题。
- [SPARK-24934][SQL] 在内存中分区修剪的上限/下限中将支持的类型显式加入允许列表。 当在针对缓存数据的查询筛选器中使用复杂数据类型时,Spark 始终返回一个空结果集。 基于内存中统计信息的修剪生成了错误结果,原因是复杂类型的上限/下限设置为 null。 解决方法是不对复杂类型使用基于内存中统计信息的修剪。
- 修复了命令部分成功时的机密管理器修订。
- 修复了 Parquet 读取器中的可为空映射问题。
2018 年 8 月 2 号
- 在 Python 中添加了 writeStream.table API。
- 修复了影响 Delta 检查点的问题。
- [SPARK-24867][SQL] 将 AnalysisBarrier 添加到 DataFrameWriter。 使用 DataFrameWriter 编写具有 UDF 的数据帧时,不使用 SQL 缓存。 这是我们在 AnalysisBarrier 中所做的更改导致的回归,因为并非所有分析器规则都是幂等的。
- 修复了可能导致
mergeInto
命令产生错误结果的问题。 - 提高了访问 Azure Data Lake Storage Gen1 时的稳定性。
- [SPARK-24809]在执行程序中序列化 LongHashedRelation 可能会导致数据错误。
- [SPARK-24878][SQL] 针对包含 null 的基元类型的数组类型修复 reverse 函数。
2018 年 7 月 11 日
- 修复了在查询执行过程中会导致聚合不同精度的十进制列在某些情况下返回不正确的结果的 bug。
- 修复了在高级聚合操作期间引发的
NullPointerException
bug,如分组集。
Databricks Runtime 4.1 ML (EoS)
请参阅 Databricks Runtime 4.1 ML (EoS)。
- 2018 年 7 月 31 日
- 将 Azure Synapse Analytics 添加到了 ML 运行时 4.1
- 修复了当谓词中使用的分区列的名称与表架构中该列的大小写不同时可能导致错误查询结果的 bug。
- 修复了影响 Spark SQL 执行引擎的 bug。
- 修复了影响代码生成的 bug。
- 修复了影响 Delta Lake 的 bug (
java.lang.NoClassDefFoundError
)。 - 改进了 Delta Lake 中的错误处理。
- 修复了一个 bug,该 bug 导致为字符串列 32 个或更长的字符收集不正确的数据跳过统计信息。
Databricks Runtime 4.1 (EoS)
请参阅 Databricks Runtime 4.1 (EoS)。
2019 年 1 月 8 日
- [SPARK-26366]ReplaceExceptWithFilter 应将 NULL 视为 False。
- 已启用 Delta Lake。
2018 年 12 月 18 日
- [SPARK-25002]Avro:修改输出记录命名空间。
- 修复了影响使用联接和限制查询的问题。
- [SPARK-26307]修复了使用 Hive SerDe 插入分区表时的 CTA。
- 启用
spark.sql.files.ignoreCorruptFiles
或spark.sql.files.ignoreMissingFiles
标志时,仅在一次或多次重试后忽略损坏的文件。 - 修复了在没有 Internet 访问的环境中影响安装 Python Wheel 的问题。
- 修复了 PySpark 中导致数据帧操作失败并出现“连接被拒绝”错误的问题。
- 修复了影响某些自联合查询的问题。
2018 年 11 月 20 日
- [SPARK-17916][SPARK-25241]修复当设置 nullValue 了时空字符串被分析为 null 的问题。
- 修复了影响使用左半/反联接的某些聚合查询的问题。
2018 年 11 月 6 日
- [SPARK-25741]长 URL 在 Web UI 中未正确呈现。
- [SPARK-25714]修复优化器规则 BooleanSimplification 中的 NULL 处理。
2018 年 10 月 16 日
- 修复了影响在 Delta 表上运行
SHOW CREATE TABLE
的输出的 bug。 - 修复了影响
Union
操作的 bug。
- 修复了影响在 Delta 表上运行
2018 年 9 月 25 日
- [SPARK-25368][SQL] 不正确的约束推理返回错误的结果。
- [SPARK-25402][SQL] BooleanSimplification 中的 NULL 处理。
- 修复了 Avro 数据源中的
NotSerializableException
。
2018 年 9 月 11 日
- [SPARK-25214][SS] 修复 Kafka v2 源在
failOnDataLoss=false
时可能返回重复记录的问题。 - [SPARK-24987][SS] 修复了当 articlePartition 没有新的偏移量时 Kafka 使用者泄漏问题。
- 筛选器精简版应正确处理 Null 值。
- [SPARK-25214][SS] 修复 Kafka v2 源在
2018 年 8 月 28 日
- 修复了 Delta Lake Delete 命令中的 bug,该 bug 会错误地删除条件评估为 null 的行。
- [SPARK-25084]多个列上的“distribute by”(在括号中换行)可能会导致 codegen 问题。
- [SPARK-25114]修复了两个数之间的减法可被 Integer.MAX_VALUE 整除时的 RecordBinaryComparator。
2018 年 8 月 23 日
- 修复了 Delta 快照的 NoClassDefError。
- [SPARK-24957][SQL] 后跟聚合的带小数的平均值返回了错误结果。 可能会返回错误的 AVERAGE 结果。 如果 Divide 的结果类型与强制转换的类型相同,则会跳过在 Average 运算符中添加的 CAST。
- 修复了 Parquet 读取器中的可为空映射问题。
- [SPARK-24934][SQL] 在内存中分区修剪的上限/下限中将支持的类型显式加入允许列表。 当在针对缓存数据的查询筛选器中使用复杂数据类型时,Spark 始终返回一个空结果集。 基于内存中统计信息的修剪生成了错误结果,原因是复杂类型的上限/下限设置为 null。 解决方法是不对复杂类型使用基于内存中统计信息的修剪。
- [SPARK-25081]修复了当溢出无法分配内存时 ShuffleExternalSorter 可能访问已释放内存页的 bug。
- 修复了 Databricks Delta 和 Pyspark 之间可能导致瞬时读取失败的交互。
- 修复了命令部分成功时的机密管理器修订
2018 年 8 月 2 号
- [SPARK-24613][SQL] 采用 UDF 的缓存无法与后续的独立缓存匹配。 使用 AnalysisBarrier 包装逻辑计划以在 CacheManager 中编译执行计划,目的是避免再次分析计划。 这也是 Spark 2.3 的回归。
- 修复了 Synapse Analytics 连接器影响写入 DateType 数据的时区转换的问题。
- 修复了影响 Delta 检查点的问题。
- 修复了可能导致
mergeInto
命令产生错误结果的问题。 - [SPARK-24867][SQL] 将 AnalysisBarrier 添加到 DataFrameWriter。 使用 DataFrameWriter 编写具有 UDF 的数据帧时,不使用 SQL 缓存。 这是我们在 AnalysisBarrier 中所做的更改导致的回归,因为并非所有分析器规则都是幂等的。
- [SPARK-24809]在执行程序中序列化 LongHashedRelation 可能会导致数据错误。
2018 年 7 月 11 日
- 修复了在查询执行过程中会导致聚合不同精度的十进制列在某些情况下返回不正确的结果的 bug。
- 修复了在高级聚合操作期间引发的
NullPointerException
bug,如分组集。
2018 年 6 月 28 日
- 修复了当谓词中使用的分区列的名称与表架构中该列的大小写不同时可能导致错误查询结果的 bug。
2018 年 6 月 7 日
- 修复了影响 Spark SQL 执行引擎的 bug。
- 修复了影响代码生成的 bug。
- 修复了影响 Delta Lake 的 bug (
java.lang.NoClassDefFoundError
)。 - 改进了 Delta Lake 中的错误处理。
2018 年 5 月 17 日
- 修复了一个 bug,该 bug 导致为字符串列 32 个或更长的字符收集不正确的数据跳过统计信息。
Databricks Runtime 4.0 (EoS)
请参阅 Databricks Runtime 4.0 (EoS)。
2018 年 11 月 6 日
- [SPARK-25714]修复优化器规则 BooleanSimplification 中的 NULL 处理。
2018 年 10 月 16 日
- 修复了影响
Union
操作的 bug。
- 修复了影响
2018 年 9 月 25 日
- [SPARK-25368][SQL] 不正确的约束推理返回错误的结果。
- [SPARK-25402][SQL] BooleanSimplification 中的 NULL 处理。
- 修复了 Avro 数据源中的
NotSerializableException
。
2018 年 9 月 11 日
- 筛选器精简版应正确处理 Null 值。
2018 年 8 月 28 日
- 修复了 Delta Lake Delete 命令中的 bug,该 bug 会错误地删除条件评估为 null 的行。
2018 年 8 月 23 日
- 修复了 Parquet 读取器中的可为空映射问题。
- 修复了命令部分成功时的机密管理器修订
- 修复了 Databricks Delta 和 Pyspark 之间可能导致瞬时读取失败的交互。
- [SPARK-25081]修复了当溢出无法分配内存时 ShuffleExternalSorter 可能访问已释放内存页的 bug。
- [SPARK-25114]修复了两个数之间的减法可被 Integer.MAX_VALUE 整除时的 RecordBinaryComparator。
2018 年 8 月 2 号
- [SPARK-24452]在整数加法或乘法中避免可能的溢出。
- [SPARK-24588]流式处理联接应需要来自子代的 HashClusteredPartitioning。
- 修复了可能导致
mergeInto
命令产生错误结果的问题。 - [SPARK-24867][SQL] 将 AnalysisBarrier 添加到 DataFrameWriter。 使用 DataFrameWriter 编写具有 UDF 的数据帧时,不使用 SQL 缓存。 这是我们在 AnalysisBarrier 中所做的更改导致的回归,因为并非所有分析器规则都是幂等的。
- [SPARK-24809]在执行程序中序列化 LongHashedRelation 可能会导致数据错误。
2018 年 6 月 28 日
- 修复了当谓词中使用的分区列的名称与表架构中该列的大小写不同时可能导致错误查询结果的 bug。
2018 年 6 月 7 日
- 修复了影响 Spark SQL 执行引擎的 bug。
- 改进了 Delta Lake 中的错误处理。
2018 年 5 月 17 日
- 修复了 Databricks 机密管理的错误。
- 提高了读取存储在 Azure data Lake Store 中的数据的稳定性。
- 修复了影响 RDD 缓存的 bug。
- 修复了 Spark SQL 中影响 NULL 安全相等的错误。
2018 年 4 月 24 日
- 将 Azure Data Lake Store SDK 从 2.0.11 升级到 2.2.8,以提高访问 Azure Data Lake Store 的稳定性。
- 修复了当
spark.databricks.io.hive.fastwriter.enabled
为false
时影响对分区 Hive 表插入重写的 bug。 - 修复了任务序列化失败的问题。
- 提升了 Delta Lake 的稳定性。
2018 年 3 月 14 日
- 在写入 Delta Lake 时防止不必要的元数据更新。
- 修复了由争用条件引起的问题,这种情况在极少数情况下可能导致某些输出文件丢失。
Databricks Runtime 3.5 LTS (EoS)
请参阅 Databricks Runtime 3.5 LTS (EoS)。
2019 年 11 月 7 日
- [SPARK-29743][SQL] 示例应将 needCopyResult 设置为 true(如果其子级的 needCopyResult 为 true)
2019 年 10 月 8 日
- 服务器端更改为允许 Simba Apache Spark ODBC 驱动程序在获取结果时连接失败后重新连接并继续操作(需要 Simba Apache Spark ODBC 驱动程序更新到版本 2.6.10)。
2019 年 9 月 10 日
- [SPARK-28699][SQL] 禁止在重新分区情况下对 ShuffleExchangeExec 使用基数排序
2019 年 4 月 9 日
- [SPARK-26665][CORE] 修复了可能导致 BlockTransferService.fetchBlockSync 永久挂起的 bug。
2019 年 2 月 12 日
- 修复了 Spark 低级网络协议在发送启用加密的大型 RPC 错误消息时可能被破坏的问题(当
spark.network.crypto.enabled
设置为 true 时)。
- 修复了 Spark 低级网络协议在发送启用加密的大型 RPC 错误消息时可能被破坏的问题(当
2019 年 1 月 30 日
- 修复了一个问题,该问题可能导致使用 UDT 的
df.rdd.count()
在某些情况下返回不正确的答案。
- 修复了一个问题,该问题可能导致使用 UDT 的
2018 年 12 月 18 日
- 启用
spark.sql.files.ignoreCorruptFiles
或spark.sql.files.ignoreMissingFiles
标志时,仅在一次或多次重试后忽略损坏的文件。 - 修复了影响某些自联合查询的问题。
- 启用
2018 年 11 月 20 日
- [SPARK-25816]修复了嵌套提取器中的属性解析。
2018 年 11 月 6 日
- [SPARK-25714]修复优化器规则 BooleanSimplification 中的 NULL 处理。
2018 年 10 月 16 日
- 修复了影响
Union
操作的 bug。
- 修复了影响
2018 年 9 月 25 日
- [SPARK-25402][SQL] BooleanSimplification 中的 NULL 处理。
- 修复了 Avro 数据源中的
NotSerializableException
。
2018 年 9 月 11 日
- 筛选器精简版应正确处理 Null 值。
2018 年 8 月 28 日
- 修复了 Delta Lake Delete 命令中的 bug,该 bug 会错误地删除条件评估为 null 的行。
- [SPARK-25114]修复了两个数之间的减法可被 Integer.MAX_VALUE 整除时的 RecordBinaryComparator。
2018 年 8 月 23 日
- [SPARK-24809]在执行程序中序列化 LongHashedRelation 可能会导致数据错误。
- 修复了 Parquet 读取器中的可为空映射问题。
- [SPARK-25081]修复了当溢出无法分配内存时 ShuffleExternalSorter 可能访问已释放内存页的 bug。
- 修复了 Databricks Delta 和 Pyspark 之间可能导致瞬时读取失败的交互。
2018 年 6 月 28 日
- 修复了当谓词中使用的分区列的名称与表架构中该列的大小写不同时可能导致错误查询结果的 bug。
2018 年 6 月 28 日
- 修复了当谓词中使用的分区列的名称与表架构中该列的大小写不同时可能导致错误查询结果的 bug。
2018 年 6 月 7 日
- 修复了影响 Spark SQL 执行引擎的 bug。
- 改进了 Delta Lake 中的错误处理。
2018 年 5 月 17 日
- 提高了读取存储在 Azure data Lake Store 中的数据的稳定性。
- 修复了影响 RDD 缓存的 bug。
- 修复了 Spark SQL 中影响 NULL 安全相等的错误。
- 修复了影响流式处理查询中的某些聚合的 bug。
2018 年 4 月 24 日
- 将 Azure Data Lake Store SDK 从 2.0.11 升级到 2.2.8,以提高访问 Azure Data Lake Store 的稳定性。
- 修复了当
spark.databricks.io.hive.fastwriter.enabled
为false
时影响对分区 Hive 表插入重写的 bug。 - 修复了任务序列化失败的问题。
2018 年 3 月 9 日
- 修复了由争用条件引起的问题,这种情况在极少数情况下可能导致某些输出文件丢失。
2018 年 3 月 1 日
- 提高了处理需要很长时间才能停止的流的效率。
- 修复了影响 Python 自动补全的问题。
- 应用了 Ubuntu 安全补丁。
- 修复了影响使用 Python UDF 和窗口函数的某些查询的问题。
- 修复了在启用表访问控制的群集上影响 UDF 使用的问题。
2018 年 1 月 29 日
- 修复了影响对存储在 Azure Blob 存储中的表的操作的问题。
- 修正了在空 DataFrame 上 dropDuplicate 后的聚合问题。
Databricks Runtime 3.4 (EoS)
请参阅 Databricks Runtime 3.4 (EoS)。
2018 年 6 月 7 日
- 修复了影响 Spark SQL 执行引擎的 bug。
- 改进了 Delta Lake 中的错误处理。
2018 年 5 月 17 日
- 提高了读取存储在 Azure data Lake Store 中的数据的稳定性。
- 修复了影响 RDD 缓存的 bug。
- 修复了 Spark SQL 中影响 NULL 安全相等的错误。
2018 年 4 月 24 日
- 修复了当
spark.databricks.io.hive.fastwriter.enabled
为false
时影响对分区 Hive 表插入重写的 bug。
- 修复了当
2018 年 3 月 9 日
- 修复了由争用条件引起的问题,这种情况在极少数情况下可能导致某些输出文件丢失。
2017 年 12 月 13 日
- 修复了影响 Scala 中 UDF 的问题。
- 修复了影响在非 DBFS 路径中存储的数据源表上使用数据跳过索引的问题。
2017 年 12 月 7 日
- 改进了随机稳定性。
不支持的 Databricks Runtime 版本
对于原始发行说明,请按照副标题下方的链接进行操作。