Databricks Runtime 7.0 (EoS)

注意

对此 Databricks Runtime 版本的支持已结束。 有关终止支持日期,请参阅终止支持历史记录。 有关所有受支持的 Databricks Runtime 版本,请参阅 Databricks Runtime 发行说明版本和兼容性

Databricks 于 2020 年 6 月发布此版本。

以下发行说明提供 Apache Spark 3.0 支持的 Databricks Runtime 7.0 的相关信息。

新增功能

Databricks Runtime 7.0 包括以下新功能:

  • Scala 2.12

    Databricks Runtime 7.0 将 Scala 从 2.11.12 升级到 2.12.10。 Scala 2.12 和 2.11 之间的更改列表位于 Scala 2.12.0 发行说明中。

  • 在 Databricks Runtime 6.4 中发布的自动加载程序(公共预览版) 已在 Databricks Runtime 7.0 中得到改进

    当新数据文件在 ETL 过程中到达云 blob 存储时,你可以借助自动加载程序更高效地以增量方式处理这些数据文件。 这是对基于文件的结构化流式处理的改进,它通过重复列出云目录和跟踪已看到的文件来标识新文件。随着目录的增长,它的效率可能会非常低。 与基于文件通知的结构化流式处理相比,自动加载程序也更方便、更有效,这要求你在云中手动配置文件通知服务,而不允许回填现有文件。 有关详细信息,请参阅什么是自动加载程序?

    在 Databricks Runtime 7.0 上,不再需要请求自定义 Databricks Runtime 映像即可使用自动加载程序。

  • COPY INTO(公共预览版),已在 Databricks Runtime 7.0 中得到改进,它允许你通过幂等重试将数据加载到 Delta Lake。

    COPY INTO SQL 命令在 6.4 Databricks Runtime 中以公共预览版形式发布,允许你通过幂等重试将数据加载到 Delta Lake。 若要将数据加载到 Delta Lake,现在必须使用 Apache Spark 数据帧 API。 如果在加载过程中出现故障,必须有效地处理它们。 新的 COPY INTO 命令提供了一种熟悉的声明性接口,用于通过 SQL 加载数据。 此命令会跟踪以前加载的文件,在出现故障时你可以安全地重新运行它。 有关详细信息,请参阅 COPY INTO

改进

  • Azure Synapse(以前称为 SQL 数据仓库)连接器支持 COPY 语句。

    COPY 的主要优点是较低权限的用户可以将数据写入到 Azure Synapse,而无需在 Azure Synapse 上拥有严格的 CONTROL 权限。

  • 在笔记本单元格中以内联方式%matplotlib inline 对象不再需要 %matplotlib inline magic 命令。 默认情况下,它们始终以内联方式显示。

  • 现在可以使用 transparent=False 来呈现 Matplolib 图,这样就不会丢失用户指定的背景。 可以通过设置 Spark 配置 spark.databricks.workspace.matplotlib.transparent true 来重写此行为。

  • 在“高并发性”模式群集上运行结构化流式处理生产作业时,作业的重启有时会失败,因为以前运行的作业未正确终止。 Databricks Runtime 6.3 引入了在群集上设置 SQL 配置 spark.sql.streaming.stopActiveRunOnRestart true 的功能,以确保以前的运行停止。 默认情况下,会在 Databricks Runtime 7.0 中设置此配置。

主要库更改

Python 包

升级的主要 Python 包:

  • boto3 1.9.162 -> 1.12.0
  • matplotlib 3.0.3 -> 3.1.3
  • numpy 1.16.2 -> 1.18.1
  • pandas 0.24.2 -> 1.0.1
  • pip 19.0.3 -> 20.0.2
  • pyarrow 0.13.0 -> 0.15.1
  • psycopg2 2.7.6 -> 2.8.4
  • scikit-learn 0.20.3 -> 0.22.1
  • scipy 1.2.1 -> 1.4.1
  • seaborn 0.9.0 -> 0.10.0

删除的 Python 包:

  • boto(使用 boto3)
  • pycurl

注意

Databricks Runtime 7.0 中的 Python 环境使用 Python 3.7,这不同于安装的 Ubuntu 系统 Python:/usr/bin/python/usr/bin/python2 关联到 Python 2.7,/usr/bin/python3 关联到 Python 3.6。

R 包

添加的 R 包:

  • broom
  • highr
  • isoband
  • knitr
  • markdown
  • modelr
  • reprex
  • rmarkdown
  • rvest
  • selectr
  • tidyverse
  • tinytex
  • xfun

删除的 R 包:

  • abind
  • bitops
  • car
  • carData
  • doMC
  • gbm
  • h2o
  • littler
  • lme4
  • mapproj
  • maps
  • maptools
  • MatrixModels
  • minqa
  • mvtnorm
  • nloptr
  • openxlsx
  • pbkrtest
  • pkgKitten
  • quantreg
  • R.methodsS3
  • R.oo
  • R.utils
  • RcppEigen
  • RCurl
  • rio
  • sp
  • SparseM
  • statmod
  • zip

Java 和 Scala 库

  • 用于处理 Hive 用户定义函数和 Hive SerDes 的 Apache Hive 版本已升级到 2.3。
  • 以前,Azure 存储和 Key Vault jar 作为 Databricks Runtime 的一部分打包,这会阻止你使用附加到群集的这些库的不同版本。 com.microsoft.azure.storagecom.microsoft.azure.keyvault 下的类不再位于 Databricks Runtime 中的类路径上。 如果你依赖于这些类路径中的任何一个,现在必须将 Microsoft Azure 存储 SDK 或Azure Key Vault SDK 附加到群集。

行为更改

本部分列出从 Databricks Runtime 6.6 到 Databricks Runtime 7.0 的行为变更。 在将工作负载从较低的 Databricks Runtime 版本迁移到 Databricks Runtime 7.0 及更高版本时,应注意到这些行为变更。

Spark 行为变更

由于 Databricks Runtime 7.0 是在 Spark 3.0 上构建的第一个 Databricks Runtime,因此从在 Spark 2.4 上构建的 Databricks Runtime 5.5 LTS 或 6.x 迁移工作负载时,有许多更改应予以注意。 此发行说明文章的 Apache Spark 部分的每个功能区域的“行为变更”部分列出了这些更改:

其他行为变更

  • 升级到 Scala 2.12 涉及以下更改:

    • 包单元序列化的处理方式不同。 下面的示例演示了行为变更以及如何处理它。

      运行以下包单元中定义的 foo.bar.MyObjectInPackageCell.run() 会触发“java.lang.NoClassDefFoundError: Could not initialize class foo.bar.MyObjectInPackageCell$”错误

      package foo.bar
      
      case class MyIntStruct(int: Int)
      
      import org.apache.spark.sql.SparkSession
      import org.apache.spark.sql.functions._
      import org.apache.spark.sql.Column
      
      object MyObjectInPackageCell extends Serializable {
      
        // Because SparkSession cannot be created in Spark executors,
        // the following line triggers the error
        // Could not initialize class foo.bar.MyObjectInPackageCell$
        val spark = SparkSession.builder.getOrCreate()
      
        def foo: Int => Option[MyIntStruct] = (x: Int) => Some(MyIntStruct(100))
      
        val theUDF = udf(foo)
      
        val df = {
          val myUDFInstance = theUDF(col("id"))
          spark.range(0, 1, 1, 1).withColumn("u", myUDFInstance)
        }
      
        def run(): Unit = {
          df.collect().foreach(println)
        }
      }
      

      若要解决此错误,可以将 MyObjectInPackageCell 包装到可序列化的类中。

    • 某些使用 DataStreamWriter.foreachBatch 的情况将需要源代码更新。 此更改的原因是 Scala 2.12 会自动将 lambda 表达式转换为 SAM 类型,而这可能会导致多义性。

      例如,以下 Scala 代码无法编译:

      streams
        .writeStream
        .foreachBatch { (df, id) => myFunc(df, id) }
      

      若要修复此编译错误,请将 foreachBatch { (df, id) => myFunc(df, id) } 更改为 foreachBatch(myFunc _) 或显式使用 Java API:foreachBatch(new VoidFunction2 ...)

  • 由于用于处理 Hive 用户定义函数和 Hive SerDes 的 Apache Hive 版本已升级到 2.3,因此需要两项更改:

    • Hive 的 SerDe 接口由 AbstractSerDe 抽象类取代。 对于任何自定义 Hive SerDe 实现,需要迁移到 AbstractSerDe
    • spark.sql.hive.metastore.jars 设置为 builtin 意味着将使用 Hive 2.3 元存储客户端来访问 Databricks Runtime 7.0 的元存储。 如果需要访问基于 Hive 1.2 的外部元存储,请将 spark.sql.hive.metastore.jars 设置为包含 Hive 1.2 jar 的文件夹。

弃用的功能和删除的功能

  • “跳过数据”索引已在 Databricks Runtime 4.3 中弃用,并已在 Databricks Runtime 7.0 中删除。 建议改用 Delta 表,它提供了经过改进的数据跳过功能
  • 在 Databricks Runtime 7.0 中,Apache Spark 的基础版本使用 Scala 2.12。 由于针对 Scala 2.11 编译的库可能会以意外的方式禁用 Databricks Runtime 7.0 群集,运行 Databricks Runtime 7.0 及更高版本的群集不会安装配置为在所有群集上安装的库。 群集“库”选项卡显示状态“Skipped”和一条说明库处理方式更改的“弃用”消息。 但是,如果你的群集是在早期版本的 Databricks Runtime(在 Azure Databricks 平台 3.20 版发布到工作区之前的版本)上创建的,并且你现在将该群集编辑为使用 Databricks Runtime 7.0,则已配置为在所有群集上安装的任何库都将安装在该群集上。 在这种情况下,已安装的库中的任何不兼容的 JAR 都可能导致群集被禁用。 解决方法是克隆群集或创建新群集。

Apache Spark

Databricks Runtime 7.0 包括 Apache Spark 3.0。

本节内容:

Core、Spark SQL、结构化流式处理

亮点

性能增强功能

扩展性增强功能

  • 目录插件 API (SPARK-31121)
  • 数据源 V2 API 重构 (SPARK-25390)
  • Hive 3.0 和 3.1 元存储支持 (SPARK-27970)、(SPARK-24360)
  • 将 Spark 插件接口扩展到驱动程序 (SPARK-29396)
  • 使用执行程序插件通过用户定义的指标扩展 Spark 指标系统 (SPARK-28091)
  • 用于提供扩展的列式处理支持的开发人员 API (SPARK-27396)
  • 使用 DSV2 的内置源迁移:parquet、ORC、CSV、JSON、Kafka、Text、Avro (SPARK-27589)
  • 允许 SparkExtensions 中的 FunctionInjection (SPARK-25560)
  • 允许聚合器注册为 UDAF (SPARK-27296)

连接器增强功能

  • 通过非确定性表达式进行的列修剪 (SPARK-29768)
  • 支持数据源表中的 spark.sql.statistics.fallBackToHdfs (spark.sql.statistics.fallBackToHdfs)
  • 允许在文件源上使用子查询筛选器进行分区修剪 (SPARK-26893)
  • 避免在数据源筛选器中下推子查询 (SPARK-25482)
  • 从文件源加载递归数据 (SPARK-27990)
  • Parquet/ORC
  • CSV
    • 支持在 CSV 数据源中向下推送筛选器 (SPARK-30323)
  • Hive SerDe
    • 在读取使用原生数据源的 Hive serde 表时不进行架构推理 (SPARK-27119)
    • Hive CTAS 命令应使用数据源(如果数据源是可转换的)(SPARK-25271)
    • 使用原生数据源优化插入已分区 Hive 表的操作 (SPARK-28573)
  • Apache Kafka
    • 添加对 Kafka 标头的支持 (SPARK-23539)
    • 添加 Kafka 委派令牌支持 (SPARK-25501)
    • 引入 Kafka 源的新选项:按时间戳进行偏移(开始/结束)(SPARK-26848)
    • 在 Kafka 批处理源和流式处理源 v1 中支持 minPartitions 选项 (minPartitions)
    • 将 Kafka 升级到 2.4.1 (SPARK-31126)
  • 新的内置数据源

功能增强

SQL 兼容性增强功能

  • 切换到前公历 (SPARK-26651)
  • 生成 Spark 自己的日期/时间模式定义 (SPARK-31408)
  • 引入用于表插入的 ANSI 存储分配策略 (SPARK-28495)
  • 默认情况下,在表插入中遵循 ANSI 存储分配规则 (SPARK-28885)
  • 添加 SQLConf spark.sql.ansi.enabled (spark.sql.ansi.enabled)
  • 支持用于聚合表达式的 ANSI SQL 筛选子句 (SPARK-27986)
  • 支持 ANSI SQL OVERLAY 函数 (OVERLAY)
  • 支持 ANSI 嵌套的带括号注释 (SPARK-28880)
  • 整数溢出时引发异常 (SPARK-26218)
  • 区间算术运算的溢出检查 (SPARK-30341)
  • 将无效字符串强制转换为数值类型时引发异常 (SPARK-30292)
  • 使区间乘法和除法的溢出行为与其他运算一致 (SPARK-30919)
  • 为 char 和 decimal 添加 ANSI 类型的别名 (SPARK-29941)
  • SQL 分析程序定义符合 ANSI 标准的保留关键字 (SPARK-26215)
  • 当 ANSI 模式处于开启状态时,禁止将保留关键字用作标识符 (SPARK-26976)
  • 支持 ANSI SQL LIKE ... ESCAPE 语法 (LIKE ... ESCAPE)
  • 支持 ANSI SQL 布尔值-谓词语法 (SPARK-27924)
  • 更好地支持相关子查询处理 (SPARK-18455)

监视和可调试性增强功能

  • 新结构化流式处理 UI (SPARK-29543)
  • SHS:允许正在运行的流式处理应用的事件日志滚动更新 (SPARK-28594)
  • 添加一个 API,以便用户定义和观察批处理和流式处理查询的任意指标 (SPARK-29345)
  • 用于跟踪每个查询的计划时间的检测 (SPARK-26129)
  • 将基本的无序指标置于 SQL 交换运算符中 (SPARK-26139)
  • SQL 语句显示在 SQL 选项卡中,而不是 callsite 中 (SPARK-27045)
  • 向 SparkUI 添加工具提示 (SPARK-29449)
  • 提高历史记录服务器的并发性能 (SPARK-29043)
  • EXPLAIN FORMATTED 命令 (EXPLAIN FORMATTED)
  • 支持将截断的计划和生成的代码转储到文件 (SPARK-26023)
  • 增强用于描述查询输出的框架 (SPARK-26982)
  • 添加 SHOW VIEWS 命令 (SHOW VIEWS)
  • 改进 SQL 分析程序的错误消息 (SPARK-27901)
  • 支持以原生方式进行 Prometheus 监视 (SPARK-29429)

PySpark 增强功能

  • 重新设计的带类型提示的 pandas UDF (SPARK-28264)
  • Pandas UDF 管道 (SPARK-26412)
  • 支持将 StructType 作为标量 Pandas UDF 的参数和返回类型 (SPARK-27240)
  • 通过 Pandas UDF 支持数据帧协同组 (SPARK-27463)
  • 添加 mapInPandas 以允许数据帧的迭代器 (mapInPandas)
  • 某些 SQL 函数也应采用列名 (SPARK-26979)
  • 使 PySpark SQL 异常更具 Python 特性 (SPARK-31849)

文档和测试覆盖范围增强功能

其他值得注意的更改

  • 内置 Hive 执行从 1.2.1 升级到 2.3.6(SPARK-23710SPARK-28723SPARK-31381
  • 默认情况下,使用 Apache Hive 2.3 依赖项 (SPARK-30034)
  • 正式发布 Scala 2.12,删除了 2.11 (SPARK-26132)
  • 改进动态分配中让执行程序超时的逻辑 (SPARK-20286)
  • 磁盘持久保存的 RDD 块由无序处理服务提供,在进行动态分配时会被忽略 (SPARK-27677)
  • 获取新的执行程序,避免因加入阻止列表而挂起 (SPARK-22148)
  • 允许共享 Netty 的内存池分配器 (SPARK-24920)
  • 修复 TaskMemoryManagerUnsafeExternalSorter$SpillableIterator 之间的死锁 (TaskMemoryManager)
  • 引入用于 StructuredStreaming 的 AdmissionControl API (AdmissionControl)
  • Spark 历史记录主页性能改善 (SPARK-25973)
  • 提高 SQL 侦听器中的指标聚合速度,并降低该指标聚合所占用的内存 (SPARK-29562)
  • 从同一主机提取无序块时避免使用网络 (SPARK-27651)
  • 改进 DistributedFileSystem 的文件列表操作 (DistributedFileSystem)

Spark Core、Spark SQL 和结构化流式处理的行为变更

以下迁移指南列出了 Apache Spark 2.4 和 3.0 之间的行为变更。 这些变更可能会要求更新一直在较低 Databricks Runtime 版本上运行的作业:

这些迁移指南不涵盖以下行为变更:

  • 在 Spark 3.0 中,已删除弃用的类 org.apache.spark.sql.streaming.ProcessingTime。 请改用 org.apache.spark.sql.streaming.Trigger.ProcessingTime。 同样,删除 org.apache.spark.sql.execution.streaming.continuous.ContinuousTrigger 是为了支持 Trigger.Continuous,隐藏 org.apache.spark.sql.execution.streaming.OneTimeTrigger 是为了支持 Trigger.Once。 (SPARK-28199)
  • 在 Databricks Runtime 7.0 中读取 Hive SerDe 表时,默认情况下 Spark 不允许读取并非表分区的子目录下的文件。 若要允许它,请将配置 spark.databricks.io.hive.scanNonpartitionedDirectory.enabled 设置为 true。 这不影响 Spark 原生表读取器和文件读取器。

MLlib

亮点

MLlib 的行为变更

以下迁移指南列出了 Apache Spark 2.4 和 3.0 之间的行为变更。 这些变更可能会要求更新一直在较低 Databricks Runtime 版本上运行的作业:

此迁移指南不涵盖以下行为变更:

  • 在 Spark 3.0 中,Pyspark 中的多类逻辑回归现在会(正确地)返回 LogisticRegressionSummary 而不是子类 BinaryLogisticRegressionSummary。 在这种情况下,BinaryLogisticRegressionSummary 公开的其他方法仍不起作用。 (SPARK-31681)
  •  在 Spark 3.0 中,pyspark.ml.param.shared.Has* mixin 不再提供任何 set*(self, value) 资源库方法,请改用相应的 self.set(self.*, value)。 有关详细信息,请参阅 SPARK-29093。 (SPARK-29093)

SparkR

  • SparkR 的互操作性方面的 Arrow 优化 (SPARK-26759)
  • 通过向量化的 R gapply()、dapply()、createDataFrame、collect() 进行的性能增强
  • “预先执行”,适用于 R shell、IDE (SPARK-24572)
  • 适用于 Power 迭代聚类分析的 R API (SPARK-19827)

SparkR 的行为变更

以下迁移指南列出了 Apache Spark 2.4 和 3.0 之间的行为变更。 这些变更可能会要求更新一直在较低 Databricks Runtime 版本上运行的作业:

弃用功能

  • 弃用 Python 2 支持 (SPARK-27884)
  • 弃用 R < 3.4 支持 (<)

已知问题

  • 如果 year 字段缺失,则使用模式字母“D”分析年份中的天会返回错误的结果。 这种情况可能发生在 to_timestamp 等 SQL 函数中,它使用模式字符串将日期/时间字符串分析为日期/时间值。 (SPARK-31939)
  • 如果键的值为 -0.0 和 0.0,则在子查询中进行联接/窗口/聚合操作可能会导致错误的结果。 (SPARK-31958)
  • 窗口查询可能会由于意外的歧义自联接错误而失败。 (SPARK-31956)
  • 使用 dropDuplicates 运算符的流式处理查询可能无法使用通过 Spark 2.x 编写的检查点重启。 (SPARK-31990)

维护更新

请参阅 Databricks Runtime 7.0 维护更新

系统环境

  • 操作系统:Ubuntu 18.04.4 LTS
  • Java:1.8.0_252
  • Scala:2.12.10
  • Python:3.7.5
  • R:R 版本 3.6.3 (2020-02-29)
  • Delta Lake 0.7.0

已安装的 Python 库

版本 版本 版本
asn1crypto 1.3.0 backcall 0.1.0 boto3 1.12.0
botocore 1.15.0 certifi 2020.4.5 cffi 1.14.0
chardet 3.0.4 密码系统 2.8 cycler 0.10.0
Cython 0.29.15 decorator 4.4.1 docutils 0.15.2
entrypoints 0.3 idna 2.8 ipykernel 5.1.4
ipython 7.12.0 ipython-genutils 0.2.0 jedi 0.14.1
jmespath 0.9.4 joblib 0.14.1 jupyter-client 5.3.4
jupyter-core 4.6.1 kiwisolver 1.1.0 matplotlib 3.1.3
numpy 1.18.1 pandas 1.0.1 parso 0.5.2
patsy 0.5.1 pexpect 4.8.0 pickleshare 0.7.5
pip 20.0.2 prompt-toolkit 3.0.3 psycopg2 2.8.4
ptyprocess 0.6.0 pyarrow 0.15.1 pycparser 2.19
Pygments 2.5.2 PyGObject 3.26.1 pyOpenSSL 19.1.0
pyparsing 2.4.6 PySocks 1.7.1 python-apt 1.6.5+ubuntu0.3
python-dateutil 2.8.1 pytz 2019.3 pyzmq 18.1.1
请求 2.22.0 s3transfer 0.3.3 scikit-learn 0.22.1
scipy 1.4.1 seaborn 0.10.0 setuptools 45.2.0
6 1.14.0 ssh-import-id 5.7 statsmodels 0.11.0
tornado 6.0.3 traitlets 4.3.3 unattended-upgrades 0.1
urllib3 1.25.8 virtualenv 16.7.10 wcwidth 0.1.8
wheel 0.34.2

已安装的 R 库

R 库安装自 2020-04-22 的 Microsoft CRAN 快照。

版本 版本 版本
askpass 1.1 assertthat 0.2.1 backports 1.1.6
base 3.6.3 base64enc 0.1-3 BH 1.72.0-3
bit 1.1-15.2 bit64 0.9-7 blob 1.2.1
启动 1.3-25 brew 1.0-6 broom 0.5.6
callr 3.4.3 caret 6.0-86 cellranger 1.1.0
chron 2.3-55 class 7.3-17 cli 2.0.2
clipr 0.7.0 cluster 2.1.0 codetools 0.2-16
colorspace 1.4-1 commonmark 1.7 compiler 3.6.3
config 0.3 covr 3.5.0 crayon 1.3.4
crosstalk 1.1.0.1 curl 4.3 data.table 1.12.8
datasets 3.6.3 DBI 1.1.0 dbplyr 1.4.3
desc 1.2.0 devtools 2.3.0 digest 0.6.25
dplyr 0.8.5 DT 0.13 ellipsis 0.3.0
评估 0.14 fansi 0.4.1 farver 2.0.3
fastmap 1.0.1 forcats 0.5.0 foreach 1.5.0
foreign 0.8-76 forge 0.2.0 fs 1.4.1
generics 0.0.2 ggplot2 3.3.0 gh 1.1.0
git2r 0.26.1 glmnet 3.0-2 globals 0.12.5
glue 1.4.0 gower 0.2.1 graphics 3.6.3
grDevices 3.6.3 grid 3.6.3 gridExtra 2.3
gsubfn 0.7 gtable 0.3.0 haven 2.2.0
highr 0.8 hms 0.5.3 htmltools 0.4.0
htmlwidgets 1.5.1 httpuv 1.5.2 httr 1.4.1
hwriter 1.3.2 hwriterPlus 1.0-3 ini 0.3.1
ipred 0.9-9 isoband 0.2.1 iterators 1.0.12
jsonlite 1.6.1 KernSmooth 2.23-17 knitr 1.28
labeling 0.3 later 1.0.0 lattice 0.20-41
lava 1.6.7 lazyeval 0.2.2 lifecycle 0.2.0
lubridate 1.7.8 magrittr 1.5 markdown 1.1
MASS 7.3-51.6 矩阵 1.2-18 memoise 1.1.0
方法 3.6.3 mgcv 1.8-31 mime 0.9
ModelMetrics 1.2.2.2 modelr 0.1.6 munsell 0.5.0
nlme 3.1-147 nnet 7.3-14 numDeriv 2016.8-1.1
openssl 1.4.1 parallel 3.6.3 pillar 1.4.3
pkgbuild 1.0.6 pkgconfig 2.0.3 pkgload 1.0.2
plogr 0.2.0 plyr 1.8.6 praise 1.0.0
prettyunits 1.1.1 pROC 1.16.2 processx 3.4.2
prodlim 2019.11.13 进度 1.2.2 promises 1.1.0
proto 1.0.0 ps 1.3.2 purrr 0.3.4
r2d3 0.2.3 R6 2.4.1 randomForest 4.6-14
rappdirs 0.3.1 rcmdcheck 1.3.3 RColorBrewer 1.1-2
Rcpp 1.0.4.6 readr 1.3.1 readxl 1.3.1
recipes 0.1.10 rematch 1.0.1 rematch2 2.1.1
remotes 2.1.1 reprex 0.3.0 reshape2 1.4.4
rex 1.2.0 rjson 0.2.20 rlang 0.4.5
rmarkdown 2.1 RODBC 1.3-16 roxygen2 7.1.0
rpart 4.1-15 rprojroot 1.3-2 Rserve 1.8-6
RSQLite 2.2.0 rstudioapi 0.11 rversions 2.0.1
rvest 0.3.5 scales 1.1.0 selectr 0.4-2
sessioninfo 1.1.1 shape 1.4.4 shiny 1.4.0.2
sourcetools 0.1.7 sparklyr 1.2.0 SparkR 3.0.0
spatial 7.3-11 splines 3.6.3 sqldf 0.4-11
SQUAREM 2020.2 stats 3.6.3 stats4 3.6.3
stringi 1.4.6 stringr 1.4.0 survival 3.1-12
sys 3.3 tcltk 3.6.3 TeachingDemos 2.10
testthat 2.3.2 tibble 3.0.1 tidyr 1.0.2
tidyselect 1.0.0 tidyverse 1.3.0 timeDate 3043.102
tinytex 0.22 工具 3.6.3 usethis 1.6.0
utf8 1.1.4 utils 3.6.3 vctrs 0.2.4
viridisLite 0.3.0 whisker 0.4 withr 2.2.0
xfun 0.13 xml2 1.3.1 xopen 1.0.0
xtable 1.8-4 yaml 2.2.1

已安装的 Java 库和 Scala 库(Scala 2.12 群集版本)

组 ID 项目 ID 版本
antlr antlr 2.7.7
com.amazonaws amazon-kinesis-client 1.12.0
com.amazonaws aws-java-sdk-autoscaling 1.11.655
com.amazonaws aws-java-sdk-cloudformation 1.11.655
com.amazonaws aws-java-sdk-cloudfront 1.11.655
com.amazonaws aws-java-sdk-cloudhsm 1.11.655
com.amazonaws aws-java-sdk-cloudsearch 1.11.655
com.amazonaws aws-java-sdk-cloudtrail 1.11.655
com.amazonaws aws-java-sdk-cloudwatch 1.11.655
com.amazonaws aws-java-sdk-cloudwatchmetrics 1.11.655
com.amazonaws aws-java-sdk-codedeploy 1.11.655
com.amazonaws aws-java-sdk-cognitoidentity 1.11.655
com.amazonaws aws-java-sdk-cognitosync 1.11.655
com.amazonaws aws-java-sdk-config 1.11.655
com.amazonaws aws-java-sdk-core 1.11.655
com.amazonaws aws-java-sdk-datapipeline 1.11.655
com.amazonaws aws-java-sdk-directconnect 1.11.655
com.amazonaws aws-java-sdk-directory 1.11.655
com.amazonaws aws-java-sdk-dynamodb 1.11.655
com.amazonaws aws-java-sdk-ec2 1.11.655
com.amazonaws aws-java-sdk-ecs 1.11.655
com.amazonaws aws-java-sdk-efs 1.11.655
com.amazonaws aws-java-sdk-elasticache 1.11.655
com.amazonaws aws-java-sdk-elasticbeanstalk 1.11.655
com.amazonaws aws-java-sdk-elasticloadbalancing 1.11.655
com.amazonaws aws-java-sdk-elastictranscoder 1.11.655
com.amazonaws aws-java-sdk-emr 1.11.655
com.amazonaws aws-java-sdk-glacier 1.11.655
com.amazonaws aws-java-sdk-iam 1.11.655
com.amazonaws aws-java-sdk-importexport 1.11.655
com.amazonaws aws-java-sdk-kinesis 1.11.655
com.amazonaws aws-java-sdk-kms 1.11.655
com.amazonaws aws-java-sdk-lambda 1.11.655
com.amazonaws aws-java-sdk-logs 1.11.655
com.amazonaws aws-java-sdk-machinelearning 1.11.655
com.amazonaws aws-java-sdk-opsworks 1.11.655
com.amazonaws aws-java-sdk-rds 1.11.655
com.amazonaws aws-java-sdk-redshift 1.11.655
com.amazonaws aws-java-sdk-route53 1.11.655
com.amazonaws aws-java-sdk-s3 1.11.655
com.amazonaws aws-java-sdk-ses 1.11.655
com.amazonaws aws-java-sdk-simpledb 1.11.655
com.amazonaws aws-java-sdk-simpleworkflow 1.11.655
com.amazonaws aws-java-sdk-sns 1.11.655
com.amazonaws aws-java-sdk-sqs 1.11.655
com.amazonaws aws-java-sdk-ssm 1.11.655
com.amazonaws aws-java-sdk-storagegateway 1.11.655
com.amazonaws aws-java-sdk-sts 1.11.655
com.amazonaws aws-java-sdk-support 1.11.655
com.amazonaws aws-java-sdk-swf-libraries 1.11.22
com.amazonaws aws-java-sdk-workspaces 1.11.655
com.amazonaws jmespath-java 1.11.655
com.chuusai shapeless_2.12 2.3.3
com.clearspring.analytics 流 (stream) 2.9.6
com.databricks Rserve 1.8-3
com.databricks jets3t 0.7.1-0
com.databricks.scalapb compilerplugin_2.12 0.4.15-10
com.databricks.scalapb scalapb-runtime_2.12 0.4.15-10
com.esotericsoftware kryo-shaded 4.0.2
com.esotericsoftware minlog 1.3.0
com.fasterxml classmate 1.3.4
com.fasterxml.jackson.core jackson-annotations 2.10.0
com.fasterxml.jackson.core jackson-core 2.10.0
com.fasterxml.jackson.core jackson-databind 2.10.0
com.fasterxml.jackson.dataformat jackson-dataformat-cbor 2.10.0
com.fasterxml.jackson.datatype jackson-datatype-joda 2.10.0
com.fasterxml.jackson.module jackson-module-paranamer 2.10.0
com.fasterxml.jackson.module jackson-module-scala_2.12 2.10.0
com.github.ben-manes.caffeine caffeine 2.3.4
com.github.fommil jniloader 1.1
com.github.fommil.netlib core 1.1.2
com.github.fommil.netlib native_ref-java 1.1
com.github.fommil.netlib native_ref-java-natives 1.1
com.github.fommil.netlib native_system-java 1.1
com.github.fommil.netlib native_system-java-natives 1.1
com.github.fommil.netlib netlib-native_ref-linux-x86_64-natives 1.1
com.github.fommil.netlib netlib-native_system-linux-x86_64-natives 1.1
com.github.joshelser dropwizard-metrics-hadoop-metrics2-reporter 0.1.2
com.github.luben zstd-jni 1.4.4-3
com.github.wendykierp JTransforms 3.1
com.google.code.findbugs jsr305 3.0.0
com.google.code.gson gson 2.2.4
com.google.flatbuffers flatbuffers-java 1.9.0
com.google.guava guava 15.0
com.google.protobuf protobuf-java 2.6.1
com.h2database h2 1.4.195
com.helger profiler 1.1.1
com.jcraft jsch 0.1.50
com.jolbox bonecp 0.8.0.RELEASE
com.microsoft.azure azure-data-lake-store-sdk 2.2.8
com.microsoft.sqlserver mssql-jdbc 8.2.1.jre8
com.ning compress-lzf 1.0.3
com.sun.mail javax.mail 1.5.2
com.tdunning json 1.8
com.thoughtworks.paranamer paranamer 2.8
com.trueaccord.lenses lenses_2.12 0.4.12
com.twitter chill-java 0.9.5
com.twitter chill_2.12 0.9.5
com.twitter util-app_2.12 7.1.0
com.twitter util-core_2.12 7.1.0
com.twitter util-function_2.12 7.1.0
com.twitter util-jvm_2.12 7.1.0
com.twitter util-lint_2.12 7.1.0
com.twitter util-registry_2.12 7.1.0
com.twitter util-stats_2.12 7.1.0
com.typesafe config 1.2.1
com.typesafe.scala-logging scala-logging_2.12 3.7.2
com.univocity univocity-parsers 2.8.3
com.zaxxer HikariCP 3.1.0
commons-beanutils commons-beanutils 1.9.4
commons-cli commons-cli 1.2
commons-codec commons-codec 1.10
commons-collections commons-collections 3.2.2
commons-configuration commons-configuration 1.6
commons-dbcp commons-dbcp 1.4
commons-digester commons-digester 1.8
commons-fileupload commons-fileupload 1.3.3
commons-httpclient commons-httpclient 3.1
commons-io commons-io 2.4
commons-lang commons-lang 2.6
commons-logging commons-logging 1.1.3
commons-net commons-net 3.1
commons-pool commons-pool 1.5.4
info.ganglia.gmetric4j gmetric4j 1.0.10
io.airlift aircompressor 0.10
io.dropwizard.metrics metrics-core 4.1.1
io.dropwizard.metrics metrics-graphite 4.1.1
io.dropwizard.metrics metrics-healthchecks 4.1.1
io.dropwizard.metrics metrics-jetty9 4.1.1
io.dropwizard.metrics metrics-jmx 4.1.1
io.dropwizard.metrics metrics-json 4.1.1
io.dropwizard.metrics metrics-jvm 4.1.1
io.dropwizard.metrics metrics-servlets 4.1.1
io.netty netty-all 4.1.47.Final
jakarta.annotation jakarta.annotation-api 1.3.5
jakarta.validation jakarta.validation-api 2.0.2
jakarta.ws.rs jakarta.ws.rs-api 2.1.6
javax.activation activation 1.1.1
javax.el javax.el-api 2.2.4
javax.jdo jdo-api 3.0.1
javax.servlet javax.servlet-api 3.1.0
javax.servlet.jsp jsp-api 2.1
javax.transaction jta 1.1
javax.transaction transaction-api 1.1
javax.xml.bind jaxb-api 2.2.2
javax.xml.stream stax-api 1.0-2
javolution javolution 5.5.1
jline jline 2.14.6
joda-time joda-time 2.10.5
log4j apache-log4j-extras 1.2.17
log4j log4j 1.2.17
net.razorvine pyrolite 4.30
net.sf.jpam jpam 1.1
net.sf.opencsv opencsv 2.3
net.sf.supercsv super-csv 2.2.0
net.snowflake snowflake-ingest-sdk 0.9.6
net.snowflake snowflake-jdbc 3.12.0
net.snowflake spark-snowflake_2.12 2.5.9-spark_2.4
net.sourceforge.f2j arpack_combined_all 0.1
org.acplt.remotetea remotetea-oncrpc 1.1.2
org.antlr ST4 4.0.4
org.antlr antlr-runtime 3.5.2
org.antlr antlr4-runtime 4.7.1
org.antlr stringtemplate 3.2.1
org.apache.ant ant 1.9.2
org.apache.ant ant-jsch 1.9.2
org.apache.ant ant-launcher 1.9.2
org.apache.arrow arrow-format 0.15.1
org.apache.arrow arrow-memory 0.15.1
org.apache.arrow arrow-vector 0.15.1
org.apache.avro avro 1.8.2
org.apache.avro avro-ipc 1.8.2
org.apache.avro avro-mapred-hadoop2 1.8.2
org.apache.commons commons-compress 1.8.1
org.apache.commons commons-crypto 1.0.0
org.apache.commons commons-lang3 3.9
org.apache.commons commons-math3 3.4.1
org.apache.commons commons-text 1.6
org.apache.curator curator-client 2.7.1
org.apache.curator curator-framework 2.7.1
org.apache.curator curator-recipes 2.7.1
org.apache.derby derby 10.12.1.1
org.apache.directory.api api-asn1-api 1.0.0-M20
org.apache.directory.api api-util 1.0.0-M20
org.apache.directory.server apacheds-i18n 2.0.0-M15
org.apache.directory.server apacheds-kerberos-codec 2.0.0-M15
org.apache.hadoop hadoop-annotations 2.7.4
org.apache.hadoop hadoop-auth 2.7.4
org.apache.hadoop hadoop-client 2.7.4
org.apache.hadoop hadoop-common 2.7.4
org.apache.hadoop hadoop-hdfs 2.7.4
org.apache.hadoop hadoop-mapreduce-client-app 2.7.4
org.apache.hadoop hadoop-mapreduce-client-common 2.7.4
org.apache.hadoop hadoop-mapreduce-client-core 2.7.4
org.apache.hadoop hadoop-mapreduce-client-jobclient 2.7.4
org.apache.hadoop hadoop-mapreduce-client-shuffle 2.7.4
org.apache.hadoop hadoop-yarn-api 2.7.4
org.apache.hadoop hadoop-yarn-client 2.7.4
org.apache.hadoop hadoop-yarn-common 2.7.4
org.apache.hadoop hadoop-yarn-server-common 2.7.4
org.apache.hive hive-beeline 2.3.7
org.apache.hive hive-cli 2.3.7
org.apache.hive hive-common 2.3.7
org.apache.hive hive-exec-core 2.3.7
org.apache.hive hive-jdbc 2.3.7
org.apache.hive hive-llap-client 2.3.7
org.apache.hive hive-llap-common 2.3.7
org.apache.hive hive-metastore 2.3.7
org.apache.hive hive-serde 2.3.7
org.apache.hive hive-shims 2.3.7
org.apache.hive hive-storage-api 2.7.1
org.apache.hive hive-vector-code-gen 2.3.7
org.apache.hive.shims hive-shims-0.23 2.3.7
org.apache.hive.shims hive-shims-common 2.3.7
org.apache.hive.shims hive-shims-scheduler 2.3.7
org.apache.htrace htrace-core 3.1.0-incubating
org.apache.httpcomponents httpclient 4.5.6
org.apache.httpcomponents httpcore 4.4.12
org.apache.ivy ivy 2.4.0
org.apache.orc orc-core 1.5.10
org.apache.orc orc-mapreduce 1.5.10
org.apache.orc orc-shims 1.5.10
org.apache.parquet parquet-column 1.10.1.2-databricks4
org.apache.parquet parquet-common 1.10.1.2-databricks4
org.apache.parquet parquet-encoding 1.10.1.2-databricks4
org.apache.parquet parquet-format 2.4.0
org.apache.parquet parquet-hadoop 1.10.1.2-databricks4
org.apache.parquet parquet-jackson 1.10.1.2-databricks4
org.apache.thrift libfb303 0.9.3
org.apache.thrift libthrift 0.12.0
org.apache.velocity 速度 1.5
org.apache.xbean xbean-asm7-shaded 4.15
org.apache.yetus audience-annotations 0.5.0
org.apache.zookeeper zookeeper 3.4.14
org.codehaus.jackson jackson-core-asl 1.9.13
org.codehaus.jackson jackson-jaxrs 1.9.13
org.codehaus.jackson jackson-mapper-asl 1.9.13
org.codehaus.jackson jackson-xc 1.9.13
org.codehaus.janino commons-compiler 3.0.16
org.codehaus.janino janino 3.0.16
org.datanucleus datanucleus-api-jdo 4.2.4
org.datanucleus datanucleus-core 4.1.17
org.datanucleus datanucleus-rdbms 4.1.19
org.datanucleus javax.jdo 3.2.0-m3
org.eclipse.jetty jetty-client 9.4.18.v20190429
org.eclipse.jetty jetty-continuation 9.4.18.v20190429
org.eclipse.jetty jetty-http 9.4.18.v20190429
org.eclipse.jetty jetty-io 9.4.18.v20190429
org.eclipse.jetty jetty-jndi 9.4.18.v20190429
org.eclipse.jetty jetty-plus 9.4.18.v20190429
org.eclipse.jetty jetty-proxy 9.4.18.v20190429
org.eclipse.jetty jetty-security 9.4.18.v20190429
org.eclipse.jetty jetty-server 9.4.18.v20190429
org.eclipse.jetty jetty-servlet 9.4.18.v20190429
org.eclipse.jetty jetty-servlets 9.4.18.v20190429
org.eclipse.jetty jetty-util 9.4.18.v20190429
org.eclipse.jetty jetty-webapp 9.4.18.v20190429
org.eclipse.jetty jetty-xml 9.4.18.v20190429
org.fusesource.leveldbjni leveldbjni-all 1.8
org.glassfish.hk2 hk2-api 2.6.1
org.glassfish.hk2 hk2-locator 2.6.1
org.glassfish.hk2 hk2-utils 2.6.1
org.glassfish.hk2 osgi-resource-locator 1.0.3
org.glassfish.hk2.external aopalliance-repackaged 2.6.1
org.glassfish.hk2.external jakarta.inject 2.6.1
org.glassfish.jersey.containers jersey-container-servlet 2.30
org.glassfish.jersey.containers jersey-container-servlet-core 2.30
org.glassfish.jersey.core jersey-client 2.30
org.glassfish.jersey.core jersey-common 2.30
org.glassfish.jersey.core jersey-server 2.30
org.glassfish.jersey.inject jersey-hk2 2.30
org.glassfish.jersey.media jersey-media-jaxb 2.30
org.hibernate.validator hibernate-validator 6.1.0.Final
org.javassist javassist 3.25.0-GA
org.jboss.logging jboss-logging 3.3.2.Final
org.jdbi jdbi 2.63.1
org.joda joda-convert 1.7
org.jodd jodd-core 3.5.2
org.json4s json4s-ast_2.12 3.6.6
org.json4s json4s-core_2.12 3.6.6
org.json4s json4s-jackson_2.12 3.6.6
org.json4s json4s-scalap_2.12 3.6.6
org.lz4 lz4-java 1.7.1
org.mariadb.jdbc mariadb-java-client 2.1.2
org.objenesis objenesis 2.5.1
org.postgresql postgresql 42.1.4
org.roaringbitmap RoaringBitmap 0.7.45
org.roaringbitmap shims 0.7.45
org.rocksdb rocksdbjni 6.2.2
org.rosuda.REngine REngine 2.1.0
org.scala-lang scala-compiler_2.12 2.12.10
org.scala-lang scala-library_2.12 2.12.10
org.scala-lang scala-reflect_2.12 2.12.10
org.scala-lang.modules scala-collection-compat_2.12 2.1.1
org.scala-lang.modules scala-parser-combinators_2.12 1.1.2
org.scala-lang.modules scala-xml_2.12 1.2.0
org.scala-sbt test-interface 1.0
org.scalacheck scalacheck_2.12 1.14.2
org.scalactic scalactic_2.12 3.0.8
org.scalanlp breeze-macros_2.12 1.0
org.scalanlp breeze_2.12 1.0
org.scalatest scalatest_2.12 3.0.8
org.slf4j jcl-over-slf4j 1.7.30
org.slf4j jul-to-slf4j 1.7.30
org.slf4j slf4j-api 1.7.30
org.slf4j slf4j-log4j12 1.7.30
org.spark-project.spark unused 1.0.0
org.springframework spring-core 4.1.4.RELEASE
org.springframework spring-test 4.1.4.RELEASE
org.threeten threeten-extra 1.5.0
org.tukaani xz 1.5
org.typelevel algebra_2.12 2.0.0-M2
org.typelevel cats-kernel_2.12 2.0.0-M4
org.typelevel machinist_2.12 0.6.8
org.typelevel macro-compat_2.12 1.1.1
org.typelevel spire-macros_2.12 0.17.0-M1
org.typelevel spire-platform_2.12 0.17.0-M1
org.typelevel spire-util_2.12 0.17.0-M1
org.typelevel spire_2.12 0.17.0-M1
org.xerial sqlite-jdbc 3.8.11.2
org.xerial.snappy snappy-java 1.1.7.5
org.yaml snakeyaml 1.24
oro oro 2.0.8
pl.edu.icm JLargeArrays 1.5
software.amazon.ion ion-java 1.0.2
stax stax-api 1.0.1
xmlenc xmlenc 0.52