Data Science Virtual Machine 支持的数据平台

使用 Data Science Virtual Machine (DSVM),可生成针对各种数据平台的分析资源。 除远程数据平台接口外,DSVM 还提供用于快速开发和原型制作的本地实例。

DSVM 支持以下数据平台工具:

SQL Server Developer Edition

类别
它是什么? 本地关系数据库实例
支持的 DSVM 版本 Windows 2019、Linux (SQL Server 2019)
典型用途
  • 使用较小数据集进行快速本地开发
  • 运行数据库内 R
指向示例的链接
  • 将 New York City 数据集加载进 SQL 数据库的小型示例:
    nyctaxi
  • 在以下位置找到演示 Microsoft Machine Learning Server 和数据库内分析的 Jupyter 示例:
    ~notebooks/SQL_R_Services_End_to_End_Tutorial.ipynb
DSVM 上的相关工具
  • SQL Server Management Studio
  • ODBC/JDBC 驱动程序
  • pyodbc, RODBC

注意

SQL Server Developer Edition 只能用于开发和测试。 需要许可证或一个 SQL Server VM 才能在生产中运行。

注意

对 Machine Learning Server 独立版的支持已于 2021 年 7 月 1 日结束。 我们将在 6 月 30 日之后从 DSVM 映像中删除它。 现有部署可继续访问该软件,但由于已到达支持结束日期,因此在 2021 年 7 月 1 日之后将不再为其提供支持。

注意

我们会在 2021 年 11 月结束时将 SQL Server Developer Edition 从 DSVM 映像中删除。 现有部署将继续安装 SQL Server Developer Edition。 在新部署中,如果你要访问 SQL Server Developer Edition,可以通过 Docker 支持安装和使用 SQL Server Developer Edition。 有关详细信息,请访问快速入门:使用 Docker 运行 SQL Server 容器映像

Windows

安装

数据库服务器已预先配置,与 SQL Server 相关的 Windows 服务(例如 SQL Server (MSSQLSERVER))设置为自动运行。 唯一的手动步骤涉及使用 Microsoft Machine Learning Server 启用数据库内分析。 在 SQL Server Management Studio (SSMS) 中一次性运行以下命令以启用分析。 先以计算机管理员身份登录,然后运行此命令,在 SSMS 中打开一个新查询,并选择 master 数据库:

CREATE LOGIN [%COMPUTERNAME%\SQLRUserGroup] FROM WINDOWS 

(将 %COMPUTERNAME% 替换为你的 VM 名称。)

若要运行 SQL Server Management Studio,可在程序列表中搜索“SQL Server Management Studio”,或使用 Windows 搜索来查找并运行它。 系统提示输入凭据时,请选择“Windows 身份验证”,然后使用计算机名称或“SQL Server 名称”字段中的 localhost

如何使用和运行它

默认情况下,具有默认数据库实例的数据库服务器会自动运行。 可在 VM 上使用 SQL Server Management Studio 等工具在本地访问 SQL Server 数据库。 本地管理员帐户在数据库中具有管理员访问权限。

此外,DSVM 还附带 ODBC 和 JDBC 驱动程序,以便与

  • SQL Server
  • Azure SQL 数据库
  • 使用多种语言(包括 Python 和 Machine Learning Server)编写的应用程序中的 Azure Synapse Analytics 资源通信。

如何在 DSVM 上配置和安装它?

SQL Server 采用标准方式安装。 可以在 C:\Program Files\Microsoft SQL Server 中找到它。 可以在 C:\Program Files\Microsoft SQL Server\MSSQL13.MSSQLSERVER\R_SERVICES 中找到数据库内 Machine Learning Server 实例。 DSVM 还具有单独的独立 Machine Learning Server 实例,该实例安装在 C:\Program Files\Microsoft\R Server\R_SERVER 中。 这两个 Machine Learning Server 实例不共享库。

Ubuntu

在使用 SQL Server Developer Edition 之前,必须先在 Ubuntu DSVM 上安装 SQL Server Developer Edition。 有关详细信息,请访问快速入门:在 Ubuntu 上安装 SQL Server 并创建数据库

Apache Spark 2.x (Standalone)

类别
它是什么? 它是流行的 Apache Spark 平台的独立(单个进程内节点)实例,是快速进行大规模数据处理和机器学习的系统
支持的 DSVM 版本 Linux
典型用途
  • 使用较小型的数据集在本地快速开发 Spark/PySpark 应用程序,然后在大型 Spark 群集(例如 Azure HDInsight)上进行部署
  • 测试 Microsoft Machine Learning Server Spark 上下文
  • 使用 SparkML 或 Microsoft 的开源 MMLSpark 库来生成 ML 应用程序
指向示例的链接 Jupyter 示例:
  • ~/notebooks/SparkML/pySpark
  • ~/notebooks/MMLSpark

Microsoft Machine Learning Server(Spark 上下文):/dsvm/samples/MRS/MRSSparkContextSample.R

DSVM 上的相关工具
  • PySpark、Scala
  • Jupyter(Spark/PySpark 内核)
  • Microsoft Machine Learning Server、SparkR、Sparklyr
  • Apache Drill

如何使用

可以在命令行中运行 spark-submitpyspark 命令来提交 Spark 作业。 还可以使用 Spark 内核创建新笔记本,以创建 Jupyter 笔记本。

若要通过 R 使用 Spark,请使用 DSVM 上提供的 SparkR、Sparklyr 和 Microsoft Machine Learning Server 库。 请参阅上表中的示例链接。

安装

在 Ubuntu Linux DSVM 版本的 Microsoft Machine Learning Server 的 Spark 上下文中运行前,必须执行一次性设置步骤来启用本地单节点 Hadoop HDFS 和 Yarn 实例。 默认情况下,Hadoop 服务已安装但在 DSVM 上禁用。 若要启用它们,需要首次以 root 身份运行以下命令:

echo -e 'y\n' | ssh-keygen -t rsa -P '' -f ~hadoop/.ssh/id_rsa
cat ~hadoop/.ssh/id_rsa.pub >> ~hadoop/.ssh/authorized_keys
chmod 0600 ~hadoop/.ssh/authorized_keys
chown hadoop:hadoop ~hadoop/.ssh/id_rsa
chown hadoop:hadoop ~hadoop/.ssh/id_rsa.pub
chown hadoop:hadoop ~hadoop/.ssh/authorized_keys
systemctl start hadoop-namenode hadoop-datanode hadoop-yarn

若要在不再需要 Hadoop 相关服务时将其停止,请运行 systemctl stop hadoop-namenode hadoop-datanode hadoop-yarn

可在 /dsvm/samples/MRS 目录中找到演示如何在远程 Spark 上下文(DSVM 上的独立 Spark 实例)中开发和测试 MRS 的示例。

如何在 DSVM 上配置和安装它?

平台 安装位置 ($SPARK_HOME)
Linux /dsvm/tools/spark-X.X.X-bin-hadoopX.X

用于通过 Azure Blob 存储或 Azure Data Lake Storage 访问数据(使用 Microsoft MMLSpark 机器学习库)的库已在 $SPARK_HOME/jars 中预先安装。 Spark 启动时,这些 JAR 会自动加载。 默认情况下,Spark 使用本地磁盘上的数据。

DSVM 上的 Spark 实例可以访问 Blob 存储或 Azure Data Lake Storage 中存储的数据。 必须首先基于 $SPARK_HOME/conf/core-site.xml.template 中的模板创建并配置 core-site.xml 文件。 必须具有相应的凭据,才能访问 Blob 存储和 Azure Data Lake Storage。 这些模板文件使用占位符表示 Blob 存储和 Azure Data Lake Storage 配置。