Azure AI 语言的本机文档支持(预览版)

重要

  • Azure AI 语言公共预览版提供了对当前处于正在开发状态的功能的提前访问权限。
  • 根据用户反馈,在正式发布(正式版)之前,功能、方法和流程可能会发生变化。

Azure AI 语言是一项基于云的服务,可将自然语言处理 (NLP) 功能应用于基于文本的数据。 本机文档支持功能让你能够以异步方式发送 API 请求,从而使用 HTTP POST 请求正文来发送数据,使用 HTTP GET 请求查询字符串来检索状态结果。 已处理的文档位于 Azure Blob 存储目标容器中。

原生文档是指用于创建原始文档的文件格式,例如 Microsoft Word (docx) 或可移植文档文件 (pdf)。 有了原生文档支持,在使用 Azure AI 语言资源功能之前无需再进行文本预处理。 目前,本机文档支持适用于以下功能:

  • 个人身份信息 (PII)。 PII 检测功能可以识别、分类和编修非结构化文本中的敏感信息。 PiiEntityRecognition API 支持本机文档处理。

  • 文档摘要。 文档摘要使用自然语言处理为文档生成提取性(重点句子提取)或抽象性(上下文字词提取)摘要。 AbstractiveSummarizationExtractiveSummarization API 都支持本机文档处理。

支持的文档格式

应用程序使用本机文件格式创建、保存或打开本机文档。 目前,PII文档摘要功能支持以下本机文档格式:

文件类型 文件扩展名 DESCRIPTION
文本 .txt 无格式的文本文档。
Adobe PDF .pdf 可移植文档文件格式的文档。
Microsoft Word .docx Microsoft Word 文档文件。

输入准则

支持的文件格式

类型 支持和限制
PDF 不支持完全扫描的 PDF。
图像中的文本 不支持带有嵌入文本的数字图像。
数字表 不支持扫描文档中的表。

文档大小

特征 输入限制
每个请求的文档总数 ≤ 20
每个请求的内容总大小 ≤ 10 MB

请求头和参数

参数 DESCRIPTION
-X POST <endpoint> 指定用于访问 API 的语言资源终结点。
--header Content-Type: application/json 用于发送 JSON 数据的内容类型。
--header "Ocp-Apim-Subscription-Key:<key> 指定用于访问 API 的语言资源密钥。
-data 包含要随请求传递的数据的 JSON 文件。