Data Science Virtual Machine 支持的数据平台
使用 Data Science Virtual Machine (DSVM),可生成针对各种数据平台的分析资源。 除远程数据平台接口外,DSVM 还提供用于快速开发和原型制作的本地实例。
DSVM 支持以下数据平台工具:
SQL Server Developer Edition
类别 | 值 |
---|---|
它是什么? | 本地关系数据库实例 |
支持的 DSVM 版本 | Windows 2019、Linux (SQL Server 2019) |
典型用途 |
|
指向示例的链接 |
|
DSVM 上的相关工具 |
|
注意
SQL Server Developer Edition 只能用于开发和测试。 需要许可证或一个 SQL Server VM 才能在生产中运行。
注意
对 Machine Learning Server 独立版的支持已于 2021 年 7 月 1 日结束。 我们将在 6 月 30 日之后从 DSVM 映像中删除它。 现有部署可继续访问该软件,但由于已到达支持结束日期,因此在 2021 年 7 月 1 日之后将不再为其提供支持。
注意
我们会在 2021 年 11 月结束时将 SQL Server Developer Edition 从 DSVM 映像中删除。 现有部署将继续安装 SQL Server Developer Edition。 在新部署中,如果你要访问 SQL Server Developer Edition,可以通过 Docker 支持安装和使用 SQL Server Developer Edition。 有关详细信息,请访问快速入门:使用 Docker 运行 SQL Server 容器映像。
Windows
安装
数据库服务器已预先配置,与 SQL Server 相关的 Windows 服务(例如 SQL Server (MSSQLSERVER)
)设置为自动运行。 唯一的手动步骤涉及使用 Microsoft Machine Learning Server 启用数据库内分析。 在 SQL Server Management Studio (SSMS) 中一次性运行以下命令以启用分析。 先以计算机管理员身份登录,然后运行此命令,在 SSMS 中打开一个新查询,并选择 master
数据库:
CREATE LOGIN [%COMPUTERNAME%\SQLRUserGroup] FROM WINDOWS
(将 %COMPUTERNAME% 替换为你的 VM 名称。)
若要运行 SQL Server Management Studio,可在程序列表中搜索“SQL Server Management Studio”,或使用 Windows 搜索来查找并运行它。 系统提示输入凭据时,请选择“Windows 身份验证”,然后使用计算机名称或“SQL Server 名称”字段中的 localhost
。
如何使用和运行它
默认情况下,具有默认数据库实例的数据库服务器会自动运行。 可在 VM 上使用 SQL Server Management Studio 等工具在本地访问 SQL Server 数据库。 本地管理员帐户在数据库中具有管理员访问权限。
此外,DSVM 还附带 ODBC 和 JDBC 驱动程序,以便与
- SQL Server
- Azure SQL 数据库
- 使用多种语言(包括 Python 和 Machine Learning Server)编写的应用程序中的 Azure Synapse Analytics 资源通信。
如何在 DSVM 上配置和安装它?
SQL Server 采用标准方式安装。 可以在 C:\Program Files\Microsoft SQL Server
中找到它。 可以在 C:\Program Files\Microsoft SQL Server\MSSQL13.MSSQLSERVER\R_SERVICES
中找到数据库内 Machine Learning Server 实例。 DSVM 还具有单独的独立 Machine Learning Server 实例,该实例安装在 C:\Program Files\Microsoft\R Server\R_SERVER
中。 这两个 Machine Learning Server 实例不共享库。
Ubuntu
在使用 SQL Server Developer Edition 之前,必须先在 Ubuntu DSVM 上安装 SQL Server Developer Edition。 有关详细信息,请访问快速入门:在 Ubuntu 上安装 SQL Server 并创建数据库。
Apache Spark 2.x (Standalone)
类别 | 值 |
---|---|
它是什么? | 它是流行的 Apache Spark 平台的独立(单个进程内节点)实例,是快速进行大规模数据处理和机器学习的系统 |
支持的 DSVM 版本 | Linux |
典型用途 |
|
指向示例的链接 | Jupyter 示例:
Microsoft Machine Learning Server(Spark 上下文):/dsvm/samples/MRS/MRSSparkContextSample.R |
DSVM 上的相关工具 |
|
如何使用
可以在命令行中运行 spark-submit
或 pyspark
命令来提交 Spark 作业。 还可以使用 Spark 内核创建新笔记本,以创建 Jupyter 笔记本。
若要通过 R 使用 Spark,请使用 DSVM 上提供的 SparkR、Sparklyr 和 Microsoft Machine Learning Server 库。 请参阅上表中的示例链接。
安装
在 Ubuntu Linux DSVM 版本的 Microsoft Machine Learning Server 的 Spark 上下文中运行前,必须执行一次性设置步骤来启用本地单节点 Hadoop HDFS 和 Yarn 实例。 默认情况下,Hadoop 服务已安装但在 DSVM 上禁用。 若要启用它们,需要首次以 root 身份运行以下命令:
echo -e 'y\n' | ssh-keygen -t rsa -P '' -f ~hadoop/.ssh/id_rsa
cat ~hadoop/.ssh/id_rsa.pub >> ~hadoop/.ssh/authorized_keys
chmod 0600 ~hadoop/.ssh/authorized_keys
chown hadoop:hadoop ~hadoop/.ssh/id_rsa
chown hadoop:hadoop ~hadoop/.ssh/id_rsa.pub
chown hadoop:hadoop ~hadoop/.ssh/authorized_keys
systemctl start hadoop-namenode hadoop-datanode hadoop-yarn
若要在不再需要 Hadoop 相关服务时将其停止,请运行 systemctl stop hadoop-namenode hadoop-datanode hadoop-yarn
。
可在 /dsvm/samples/MRS
目录中找到演示如何在远程 Spark 上下文(DSVM 上的独立 Spark 实例)中开发和测试 MRS 的示例。
如何在 DSVM 上配置和安装它?
平台 | 安装位置 ($SPARK_HOME) |
---|---|
Linux | /dsvm/tools/spark-X.X.X-bin-hadoopX.X |
用于通过 Azure Blob 存储或 Azure Data Lake Storage 访问数据(使用 Microsoft MMLSpark 机器学习库)的库已在 $SPARK_HOME/jars 中预先安装。 Spark 启动时,这些 JAR 会自动加载。 默认情况下,Spark 使用本地磁盘上的数据。
DSVM 上的 Spark 实例可以访问 Blob 存储或 Azure Data Lake Storage 中存储的数据。 必须首先基于 $SPARK_HOME/conf/core-site.xml.template 中的模板创建并配置 core-site.xml
文件。 必须具有相应的凭据,才能访问 Blob 存储和 Azure Data Lake Storage。 这些模板文件使用占位符表示 Blob 存储和 Azure Data Lake Storage 配置。