Databricks Runtime 5.0 ML (EoS)
注意
对此 Databricks Runtime 版本的支持已结束。 有关终止支持日期,请参阅终止支持历史记录。 有关所有受支持的 Databricks Runtime 版本,请参阅 Databricks Runtime 发行说明版本和兼容性。
Databricks 于 2018 年 11 月发布此版本。
Databricks Runtime 5.0 ML 为机器学习和数据科学提供随时可用的环境。 它包含许多流行库,其中包括 TensorFlow、Keras 和 XGBoost。 它还支持使用 Horovod 进行分布式 TensorFlow 训练。
有关详细信息,包括有关如何创建 Databricks Runtime ML 群集的说明,请参阅 Databricks 上的 AI 和机器学习。
新增功能
Databricks Runtime 5.0 ML 是基于 Databricks Runtime 5.0 构建的。 若要了解 Databricks Runtime 5.0 中的新增功能,请参阅 Databricks Runtime 5.0 (EoS) 发行说明。 除了 Databricks Runtime 5.0 中的新功能外,Databricks Runtime 5.0 ML 还包括以下新功能:
- HorovodRunner,运行使用 Horovod 的分布式深度学习训练作业。
- 用于包管理的 Conda 支持。
- MLeap 集成。
- GraphFrames 集成。
注意
Databricks Runtime ML 版本会获取基础 Databricks Runtime 版本的所有维护更新。 有关所有维护更新的列表,请参阅Databricks 运行时维护更新(已存档)。
系统环境
Databricks Runtime 5.0 与 Databricks Runtime 5.0 ML 中系统环境的不同在于:
- Python:2.7.15(面向 Python 2 群集)和 3.6.5(面向 Python 3 群集)。
- 对于 GPU 群集,有以下 NVIDIA GPU 库:
- Tesla 驱动程序 396.44
- CUDA 9.2
- CUDNN 7.2.1
库
本部分列出了 Databricks Runtime 5.0 包含的库和 Databricks Runtime 5.0 ML 包含的库之间的不同之处。
Python 库
Databricks Runtime 5.0 ML 使用 Conda 进行 Python 包管理。 下面是所提供的 Python 包和使用 Conda 包管理器安装的版本的完整列表。
库 | 版本 | 库 | 版本 | 库 | 版本 |
---|---|---|---|---|---|
absl-py | 0.6.1 | argparse | 1.4.0 | asn1crypto | 0.24.0 |
astor | 0.7.1 | backports-abc | 0.5 | backports.functools-lru-cache | 1.5 |
backports.weakref | 1.0.post1 | bcrypt | 3.1.4 | bleach | 2.1.3 |
boto | 2.48.0 | boto3 | 1.7.62 | botocore | 1.10.62 |
certifi | 2018.04.16 | cffi | 1.11.5 | chardet | 3.0.4 |
cloudpickle | 0.5.3 | colorama | 0.3.9 | configparser | 3.5.0 |
密码系统 | 2.2.2 | cycler | 0.10.0 | Cython | 0.28.2 |
decorator | 4.3.0 | docutils | 0.14 | entrypoints | 0.2.3 |
enum34 | 1.1.6 | et-xmlfile | 1.0.1 | funcsigs | 1.0.2 |
functools32 | 3.2.3-2 | fusepy | 2.0.4 | Future | 3.2.0 |
gast | 0.2.0 | grpcio | 1.12.1 | h5py | 2.8.0 |
horovod | 0.15.0 | html5lib | 1.0.1 | idna | 2.6 |
ipaddress | 1.0.22 | ipython | 5.7.0 | ipython_genutils | 0.2.0 |
jdcal | 1.4 | Jinja2 | 2.10 | jmespath | 0.9.3 |
jsonschema | 2.6.0 | jupyter-client | 5.2.3 | jupyter-core | 4.4.0 |
Keras | 2.2.4 | Keras-Applications | 1.0.6 | Keras-Preprocessing | 1.0.5 |
kiwisolver | 1.0.1 | linecache2 | 1.0.0 | llvmlite | 0.23.1 |
lxml | 4.2.1 | Markdown | 3.0.1 | MarkupSafe | 1.0 |
matplotlib | 2.2.2 | mistune | 0.8.3 | mleap | 0.8.1 |
mock | 2.0.0 | msgpack | 0.5.6 | nbconvert | 5.3.1 |
nbformat | 4.4.0 | nose | 1.3.7 | nose-exclude | 0.5.0 |
numba | 0.38.0+0.g2a2b772fc.dirty | numpy | 1.14.3 | olefile | 0.45.1 |
openpyxl | 2.5.3 | pandas | 0.23.0 | pandocfilters | 1.4.2 |
paramiko | 2.4.1 | pathlib2 | 2.3.2 | patsy | 0.5.0 |
pbr | 5.1.0 | pexpect | 4.5.0 | pickleshare | 0.7.4 |
Pillow | 5.1.0 | pip | 10.0.1 | ply | 3.11 |
prompt-toolkit | 1.0.15 | protobuf | 3.6.1 | psycopg2 | 2.7.5 |
ptyprocess | 0.5.2 | pyarrow | 0.8.0 | pyasn1 | 0.4.4 |
pycparser | 2.18 | Pygments | 2.2.0 | PyNaCl | 1.3.0 |
pyOpenSSL | 18.0.0 | pyparsing | 2.2.0 | PySocks | 1.6.8 |
Python | 2.7.15 | python-dateutil | 2.7.3 | pytz | 2018.4 |
PyYAML | 3.12 | pyzmq | 17.0.0 | 请求 | 2.18.4 |
s3transfer | 0.1.13 | scandir | 1.7 | scikit-learn | 0.19.1 |
scipy | 1.1.0 | seaborn | 0.8.1 | setuptools | 39.1.0 |
simplegeneric | 0.8.1 | singledispatch | 3.4.0.3 | 6 | 1.11.0 |
statsmodels | 0.9.0 | subprocess32 | 3.5.3 | tensorboard | 1.10.0 |
tensorflow | 1.10.0 | termcolor | 1.1.0 | testpath | 0.3.1 |
tornado | 5.0.2 | traceback2 | 1.4.0 | traitlets | 4.3.2 |
unittest2 | 1.1.0 | urllib3 | 1.22 | virtualenv | 16.0.0 |
wcwidth | 0.1.7 | webencodings | 0.5.1 | Werkzeug | 0.14.1 |
wheel | 0.31.1 | wrapt | 1.10.11 | wsgiref | 0.1.2 |
此外,以下 Spark 包还包括 Python 模块:
Spark 包 | Python 模块 | 版本 |
---|---|---|
tensorframes | tensorframes | 0.5.0-s_2.11 |
graphframes | graphframes | 0.6.0-db3-spark2.4 |
spark-deep-learning | sparkdl | 1.3.0-db2-spark2.4 |
R 库
R 库与 Databricks Runtime 5.0 中的 R 库完全相同。
Java 库和 Scala 库(Scala 2.11 群集)
除了 Databricks Runtime 5.0 中的 Java 库和 Scala 库之外,Databricks Runtime 5.0 ML 还包含以下 JAR:
组 ID | 项目 ID | 版本 |
---|---|---|
com.databricks | spark-deep-learning | 1.3.0-db2-spark2.4 |
org.tensorframes | tensorframes | 0.5.0-s_2.11 |
org.graphframes | graphframes_2.11 | 0.6.0-db3-spark2.4 |
org.tensorflow | libtensorflow | 1.10.0 |
org.tensorflow | libtensorflow_jni | 1.10.0 |
org.tensorflow | spark-tensorflow-connector_2.11 | 1.10.0-spark2.4-001 |
org.tensorflow | tensorflow | 1.10.0 |
ml.dmlc | xgboost4j | 0.80 |
ml.dmlc | xgboost4j-spark | 0.80 |
ml.combust.mleap | mleap-databricks-runtime_2.11 | 0.13.0-SNAPSHOT |