LUIS 的语言和区域支持
重要
LUIS 将于 2025 年 10 月 1 日停用,从 2023 年 4 月 1 日开始,你将无法创建新的 LUIS 资源。 我们建议迁移 LUIS 应用程序到对话语言理解,以便获得持续的产品支持和多语言功能并从中受益。
LUIS 在服务中具有多种功能。 并非所有功能都会同等地以各种语言提供。 请确保你所定位的语言文化支持你感兴趣的功能。 LUIS 应用特定于区域性,一旦设置即无法更改。
多语言 LUIS 应用
如果需要多语言 LUIS 客户端应用程序(例如聊天机器人),可通过几种方法实现。 如果 LUIS 支持所有语言,则需面向每种语言开发一个 LUIS 应用。 每个 LUIS 应用都具有唯一的应用 ID 和终结点日志。 如果需要为 LUIS 不支持的语言提供语言理解,可使用翻译器服务将言语翻译成受支持的语言,接着将言语提交到 LUIS 终结点,然后接收生成的分数。
备注
语言理解功能的较新版本现已作为 Azure AI 语言的一部分提供。 有关详细信息,请参阅 Azure AI 语言文档。 有关语言服务中支持多种语言的语言理解功能,请参阅对话语言理解。
支持的语言
LUIS 理解以下语言:
语言 | Locale | 预生成域 | 预生成实体 | 短语列表建议 | **情绪分析和关键短语提取 |
---|---|---|---|---|---|
阿拉伯语(预览版 - 现代标准阿拉伯语) | ar-AR |
- | - | - | - |
*中文 | zh-cn |
✔ | ✔ | ✔ | - |
荷兰语 | nl-NL |
✔ | - | - | ✔ |
英语(美国) | en-US |
✔ | ✔ | ✔ | ✔ |
英语(英国) | en-GB |
✔ | ✔ | ✔ | ✔ |
法语(加拿大) | fr-CA |
- | - | - | ✔ |
法语(法国) | fr-FR |
✔ | ✔ | ✔ | ✔ |
德语 | de-DE |
✔ | ✔ | ✔ | ✔ |
古吉拉特语(预览版) | gu-IN |
- | - | - | - |
印地语(预览版) | hi-IN |
- | ✔ | - | - |
意大利语 | it-IT |
✔ | ✔ | ✔ | ✔ |
*日语 | ja-JP |
✔ | ✔ | ✔ | 仅关键短语 |
朝鲜语 | ko-KR |
✔ | - | - | 仅关键短语 |
马拉地语(预览版) | mr-IN |
- | - | - | - |
葡萄牙语(巴西) | pt-BR |
✔ | ✔ | ✔ | 并非所有亚区域性 |
西班牙语(墨西哥) | es-MX |
- | ✔ | ✔ | ✔ |
西班牙语(西班牙) | es-ES |
✔ | ✔ | ✔ | ✔ |
泰米尔语(预览版) | ta-IN |
- | - | - | - |
泰卢固语(预览版) | te-IN |
- | - | - | - |
土耳其语 | tr-TR |
✔ | ✔ | - | 仅情绪 |
*中文支持说明
- 在
zh-cn
区域性中,LUIS 要求简体中文字符集,而不是繁体字符集。 - 意向、实体、功能和正则表达式的名称可采用中文或罗马字符。
- 请参阅预生成域参考,了解
zh-cn
区域性支持哪些预生成域。
*日语支持说明
- 由于 LUIS 不提供句法分析,并且不能理解敬语和非正式日语之间的差异,因此需要将不同的正式程度作为培训示例整合到应用程序中。
- でございます 与 です 不同。
- です 与 だ 不同。
**语言服务支持说明
语言服务包含 keyPhrase 预生成的实体和情绪分析。 仅葡萄牙语支持亚区域性:pt-PT
和 pt-BR
。 主区域性级别支持所有其他区域性。
语音 API 支持的语言
请参阅语音支持的语言,了解语音听写模式语言。
应用程序中的罕见字词或外来字词
在 en-us
区域性中,LUIS 可学习区分大多数英文字词,包括俚语。 在 zh-cn
区域性中,LUIS 可学习区分大多数中文字符。 如果在 en-us
或 zh-cn
中使用一个罕见字词或字符,并且 LUIS 似乎无法识别该字词或字符,则可将该字词或字符添加到短语列表功能。 例如,应将超出应用程序区域性的字词(即外来字词)添加到短语列表功能。
混合语言
混合语言混含两个区域性的字词,如英语和中文。 由于单个应用仅基于单个区域性,因此 LUIS 不支持此类语言。
词汇切分
为了执行机器学习,LUIS 基于区域性将表述拆分成词法单元。
语言 | 每个空格或特殊字符 | 字符级 | 复合词 |
---|---|---|---|
阿拉伯语 | ✔ | ||
中文 | ✔ | ||
荷兰语 | ✔ | ✔ | |
英语 (en-us) | ✔ | ||
英语 (en-GB) | ✔ | ||
法语 (fr-FR) | ✔ | ||
法语 (fr-CA) | ✔ | ||
德语 | ✔ | ✔ | |
古吉拉特语 | ✔ | ||
Hindi | ✔ | ||
意大利语 | ✔ | ||
日语 | ✔ | ||
朝鲜语 | ✔ | ||
马拉地语 | ✔ | ||
葡萄牙语(巴西) | ✔ | ||
西班牙语 (es-ES) | ✔ | ||
西班牙语 (es-MX) | ✔ | ||
泰米尔语 | ✔ | ||
泰卢固语 | ✔ | ||
土耳其语 | ✔ |
自定义 tokenizer 版本
以下区域性具有自定义 tokenizer 版本:
环境 | 版本 | 目的 |
---|---|---|
德语de-de |
1.0.0 | 通过使用基于机器学习的 tokenizer 将单词拆分,尝试将复合单词分解为它们的单个组件,从而对单词进行标记。 如果用户输入 Ich fahre einen krankenwagen 作为话语,它将转换为 Ich fahre einen kranken wagen 。 允许将 kranken 和 wagen 分别标记为不同的实体。 |
德语de-de |
1.0.2 | 通过基于空格拆分单词来标记单词。 如果用户输入 Ich fahre einen krankenwagen 作为言语,则它仍然是单个标记。 因此 krankenwagen 标记为单个实体。 |
荷兰语nl-nl |
1.0.0 | 通过使用基于机器学习的 tokenizer 将单词拆分,尝试将复合单词分解为它们的单个组件,从而对单词进行标记。 如果用户输入 Ik ga naar de kleuterschool 作为话语,它将转换为 Ik ga naar de kleuter school 。 允许将 kleuter 和 school 分别标记为不同的实体。 |
荷兰语nl-nl |
1.0.1 | 通过基于空格拆分单词来标记单词。 如果用户输入 Ik ga naar de kleuterschool 作为言语,则它仍然是单个标记。 因此 kleuterschool 标记为单个实体。 |
在 tokenizer 版本之间迁移
在应用级别进行词汇切分。 不支持版本级别的词汇切分。
将文件导入为新应用,而不是版本。 此操作意味着新应用具有不同的应用 ID,但使用文件中指定的 tokenizer 版本。