Azure Synapse Analytics 提供了各种分析引擎,可帮助你引入、转换、建模、分析和分发数据。 Apache Spark 池提供开源大数据计算功能。 在 Synapse 工作区中创建 Apache Spark 池后,可以加载、建模、处理和分发数据,以便更快地获得分析见解。
本快速入门介绍如何使用 Azure 门户在 Synapse 工作区中创建 Apache Spark 池。
重要
不管是否正在使用 Spark 实例,它们都会按分钟按比例计费。 请务必在用完 Spark 实例后将其关闭,或设置较短的超时。 有关详细信息,请参阅本文的清理资源部分。
如果没有 Azure 订阅,可在开始前创建一个试用帐户。
先决条件
- 将需要 Azure 订阅。 如果需要,请创建一个 Azure 试用帐户
- 你将使用 Synapse 工作区。
登录到 Azure 门户
登录到 Azure 门户
导航到 Synapse 工作区
导航到要在其中创建 Apache Spark 池的 Synapse 工作区,方法是在搜索栏中键入服务名称(或直接键入资源名称)。
从工作区列表中,键入要打开的工作区的名称(或名称的一部分)。 在此示例中,我们使用名为 contosoanalytics 的工作区。
创建新的 Apache Spark 池
重要
适用于 Apache Spark 2.4 的 Azure Synapse 运行时已弃用,自 2023 年 9 月起官方不再提供支持。 鉴于 Spark 3.1 和 Spark 3.2 也宣布结束支持,我们建议客户迁移到 Spark 3.3。
在要在其中创建 Apache Spark 池的 Synapse 工作区中,选择 “新建 Apache Spark 池”。
在“基本信息”选项卡中输入以下详细信息:
设置 建议值 DESCRIPTION Apache Spark 池名称 有效的池名称,如 contosospark
这是 Apache Spark 池要使用的名称。 节点大小 小 (4 vCPU / 32 GB) 请将此项设置为最小大小,以降低本快速入门的成本 自动缩放 已禁用 此快速入门不需要自动缩放 节点数 5 在此快速入门中使用小尺寸来限制成本 重要
请注意,Apache Spark 池可以使用的名称有特定的限制。 名称只能包含字母或数字,必须为 15 个或更少的字符,必须以字母开头,不能包含保留字,并且在工作区中必须是独一无二的。
选择 “下一步:标记”。 考虑使用 Azure 标记。 例如,用于标识是谁创建了资源的“Owner”或“CreatedBy”标记,以及用于标识此资源是否处于生产、开发阶段的“环境”标记。有关详细信息,请参阅为 Azure 资源开发命名和标记策略。
选择审核 + 创建。
此时,没有正在运行的资源,Spark 没有费用,你已创建有关要创建的 Spark 实例的元数据。
清理资源
以下步骤从工作区中删除 Apache Spark 池。
警告
删除 Apache Spark 池将从工作区中删除分析引擎。 无法再连接到池,使用此 Apache Spark 池的所有查询、管道和笔记本将不再有效。
若要删除 Apache Spark 池,请执行以下步骤:
- 导航到工作区中的“Apache Spark 池”窗格。
- 选择要删除的 Apache Spark 池(在本例中为 contosospark)。
- 选择 删除。
- 确认删除,然后选择“ 删除 ”按钮。
- 成功完成该过程后,工作区资源中将不再列出该 Apache Spark 池。