Azure Data Science Virtual Machine 上的机器学习和数据科学工具

Azure 数据科学虚拟机 (DSVM) 具有一组丰富的机器学习工具和库。 这些资源以常用语言(如 Python、R 和 Julia)提供。

DSVM 支持以下机器学习工具和库:

适用于 Python 的 Azure 机器学习 SDK

有关完整参考,请访问适用于 Python 的 Azure 机器学习 SDK

类别
它是什么? 你可以使用 Azure 机器学习云服务来开发和部署机器学习模型。 可以使用 Python SDK 在生成、训练、缩放和管理模型时跟踪模型。 将模型部署为容器,并在云中、在本地或在 Azure IoT Edge 上运行它们。
支持的版本 Windows(conda 环境:AzureML),Linux(conda 环境:py36)
典型用途 常规机器学习平台
如何配置或安装它? 使用 GPU 支持安装
如何使用或运行它 作为 Python SDK 在 Azure CLI 中使用。 激活到 Windows 版本上的 conda 环境 AzureML,或者激活到 Linux 版本上的 py36
指向示例的链接 请在 AzureML 目录的笔记本下查找示例 Jupyter 笔记本。

H2O

类别
它是什么? 一个开源 AI 平台,支持可缩放的内存中分布式快速机器学习。
支持的版本 Linux
典型用途 常规用途的分布式可缩放机器学习
如何配置或安装它? H2O 安装在 /dsvm/tools/h2o 中。
如何使用或运行它 使用 X2Go 连接到 VM。 启动新的终端并运行 java -jar /dsvm/tools/h2o/current/h2o.jar。 然后,启动 Web 浏览器并连接到 http://localhost:54321
指向示例的链接 请在 VM 上 Jupyter 中的 h2o 目录下查找示例。

DSVM 上还有其他几个机器学习库,如适用于 DSVM 的 Anaconda Python 分发版中的常用 scikit-learn 包。 有关可用的 Python、R 和 Julia 包的列表,请运行相应的包管理器。

LightGBM

类别
它是什么? 一个快速、分布式、高性能的梯度提升(GBDT、GBRT、GBM 或 MART)框架,基于决策树算法。 机器学习任务(排名、分类等)将使用它。
支持的版本 Windows、Linux
典型用途 常规用途的梯度提升框架
如何配置或安装它? 在 Windows 上,LightGBM 将作为 Python 包进行安装。 在 Linux 上,命令行可执行文件位于 /opt/LightGBM/lightgbm 中。 安装了 R 包,并安装了 Python 包。
指向示例的链接 LightGBM 指南

Rattle

类别
它是什么? 针对使用 R 的数据挖掘的图形用户界面。
支持的版本 Windows、Linux
典型用途 R 适用的常规 UI 数据挖掘工具
如何使用或运行它 作为 UI 工具使用。 在 Windows 上,启动命令提示符,运行 R,然后在 R 中运行 rattle()。 在 Linux 上,使用 X2Go 连接,启动终端,运行 R,然后在 R 中运行 rattle()
指向示例的链接 Rattle

Vowpal Wabbit

类别
它是什么? 一个快速的开放源代码外存学习系统库
支持的版本 Windows、Linux
典型用途 常规机器学习库
如何配置或安装它? Windows:msi 安装程序
Linux:apt-get
如何使用或运行它 作为 on-path 命令行工具(Windows 上为 C:\Program Files\VowpalWabbit\vw.exe,Linux 上为 /usr/bin/vw
指向示例的链接 VowPal Wabbit 示例

Weka

类别
它是什么? 适用于数据挖掘任务的机器学习算法的集合。 你可以直接应用算法,也可以从自己的 Java 代码调用它们。 Weka 包含用于数据预处理、分类、回归、群集、关联规则和可视化的工具。
支持的版本 Windows、Linux
典型用途 常规机器学习工具
如何使用或运行它 在 Windows 上,在“开始”菜单中搜索 Weka。 在 Linux 上,使用 X2Go 进行登录,然后转到“应用程序”>“开发”>“Weka”。
指向示例的链接 Weka 示例

XGBoost

类别
它是什么? 一个快速、可移植的分布式梯度提升(GBDT、GBRT 或 GBM)库,适用于 Python、R、Java、Scala、C++ 等。 它可在单台计算机、Apache Hadoop 和 Spark 上运行。
支持的版本 Windows、Linux
典型用途 常规机器学习库
如何配置或安装它? 使用 GPU 支持安装
如何使用或运行它 作为 Python 库(2.7 和 3.6+)、R 程序包,以及 on-path 命令行工具(C:\dsvm\tools\xgboost\bin\xgboost.exe 适用于 Windows,/dsvm/tools/xgboost/xgboost 适用于 Linux)
指向示例的链接 虚拟机上包含了示例,在 Linux 上位于 /dsvm/tools/xgboost/demo 中,在 Windows 上位于 C:\dsvm\tools\xgboost\demo 中。