什么是文本转语音?

本概述介绍了语音服务的文本转语音功能的优点和功能,该功能是 Azure AI 服务的一部分。

文本转语音可让应用程序、工具或设备将文本转换为类似于人类的合成语音。 文本转语音功能也称为语音合成。 使用现成的类似于人的预生成神经网络声音。 有关支持的声音、语言和区域设置的完整列表,请参阅语音服务的语言和声音支持

核心功能

文本转语音包括以下功能:

功能 总结 演示
预生成的神经网络声音(在定价页面中称为“神经网络”) 高度自然的现成语音。 若要开始操作,请创建 Azure 订阅和语音资源,然后使用语音 SDK 或访问 Speech Studio 门户,并选择预生成的神经语音。 请查看定价详细信息 查看语音库,确定适合你的业务需求的语音。

关于神经网络文本转语音功能的详细信息

文本转语音使用深度神经网络,使计算机的声音与人类录音几乎无法区分。 神经网络文本转语音可提供清晰的发音,显著减轻用户在与 AI 系统交互时的听力疲劳。

口语中的重音和语调模式称为韵律。 传统的文本转语音系统将韵律分解为单独的语言分析和声学预测步骤,这些步骤由独立的模型控制。 这可能会导致语音合成杂乱、声调不一。

下面是有关语音服务中的神经网络文本转语音功能的详细信息,以及它们如何克服传统的文本转语音系统的限制:

  • 预生成的神经网络语音 - Azure AI 语音使用深度神经网络来克服传统语音合成在口语的重音和语调方面的局限性。 韵律预测和语音合成以同步方式发生,使输出听起来更流畅且自然。 每个预生成的神经语音模型在 24 kHz 和高保真 48 kHz 下可用。 你可以使用神经网络声音执行以下操作:

    • 让与聊天机器人和语音助手的互动更加自然和吸引人。
    • 将电子书等数字文本转换为有声读物。
    • 增强车内导航系统。

    有关预生成的 Azure AI 语音神经语音的完整列表,请参阅语音服务的语言和语音支持

  • 使用 SSML 改进文本转语音输出:语音合成标记语言 (SSML) 是一种基于 XML 的标记语言,用于对文本转语音输出进行自定义。 使用 SSML,你可以调整音调、添加暂停、改进发音、更改语速、调整音量,以及将多个语音归属到单个文档。

    可以使用 SSML 定义自己的词典或切换到不同的说话风格。 使用多语言语音,还可通过 SSML 调整口语。 若要改进场景的语音输出,请参阅使用语音合成标记语言改改进合成使用有声内容创作工具进行语音合成

  • 视素 - 视素是观察到的语音中的关键姿态,包括在产生特定音素时嘴唇、下巴和舌头的位置。 视素与语音和音素有很强的关联性。

    通过在语音 SDK 中使用视素事件,可以生成面部动画数据。 此数据用于制作唇读交流、教育、娱乐和客户服务等方面的面部动画。 视素目前仅支持 en-US(美式英语)神经网络声音

开始使用

若要开始使用文本转语音,请参阅快速入门。 文本转语音通过语音 SDKREST API语音 CLI 提供。

提示

若要使用无代码方法将文本转换为语音,请尝试在 Speech Studio 中使用有声内容创作工具。

代码示例

GitHub 上提供了文本转语音的示例代码。 这些示例涵盖了大多数流行编程语言形式的文本转语音转换:

定价说明

计费字符

使用文本转语音功能时,将按照转换为语音的每个字符(包括标点)付费。 尽管 SSML 文档本身不计费,但用于调整文本转语音方式的可选元素(例如音素和音节)将算作计费字符。 下面列出了计费的内容:

  • 在请求的 SSML 正文中传递给文本转语音功能的文本
  • 请求正文的文本字段中所有 SSML 格式的标记,<speak><voice> 标记除外
  • 字母、标点、空格、制表符、标记和所有空白字符
  • Unicode 中定义的每个码位

有关详细信息,请参阅语音服务定价

重要

每个汉字算作两个计费字符,包括日文汉字、韩文汉字或其他语言中用到的汉字。

监视 Azure 文本转语音指标

监视与文本转语音服务关联的关键指标对于管理资源使用和控制成本至关重要。 本部分将指导你在 Azure 门户中查找使用情况信息并提供关键指标的详细定义。 有关 Azure Monitor 指标的更多详细信息,请参阅 Azure Monitor 指标概述

如何在 Azure 门户中查找使用情况信息

为了有效管理 Azure 资源,必须定期访问和查看使用情况信息。 下面介绍如何查找使用情况信息:

  1. 转到 Azure 门户,然后使用 Azure 帐户登录。

  2. 导航到“资源”并选择要监视的资源。

  3. 从左侧菜单中的“监视”下选择“指标”

    屏幕截图显示如何选择“监视”下的“指标”选项。

  4. 自定义指标视图。

    可以按资源类型、指标类型、时间范围和其他参数筛选数据,以创建符合监视需求的自定义视图。 此外,还可以通过选择“保存到仪表板”将指标视图保存到仪表板,以便轻松访问常用指标。

  5. 设置警报。

    若要更有效地管理使用情况,请从左侧菜单导航至“监视”下的“警报”选项卡来设置警报。 当使用量达到特定阈值时,警报会通知你,这有助于防止意外费用。

指标的定义

下表汇总了 Azure 文本转语音服务的关键指标。

指标名称 描述
合成字符数 跟踪转换为语音的字符数,包括预生成神经网络声音和神经网络定制声音。 有关计费字符的详细信息,请参阅计费字符
语音模型托管小时数 跟踪托管神经网络定制声音模型的总时间(以小时为单位)。
语音模型训练分钟数 度量训练神经网络定制声音模型的总时间(以分钟为单位)。

参考文档

后续步骤