文档智能工作室体验

此内容适用于:选中标记v3.1 (GA) | 以前的版本:蓝色复选标记 v3.0 (GA)

该工作室是一种联机工具,用于直观地浏览、了解和训练文档智能服务的功能,并将其能集成到应用程序中。 工作室提供了一个用于试验不同文档智能模型的平台,并且能够以交互方式对返回的数据进行采样,而无需编写代码。 可以使用该工作室体验来执行以下任务:

  • 详细了解文档智能中的不同功能。
  • 使用文档智能资源测试示例文档的模型或上传自己的文档。
  • 试验不同的加载项和预览功能,以根据需要调整输出。
  • 训练自定义分类模型以对文档进行分类。
  • 训练自定义提取模型以从文档中提取字段。
  • 获取要集成到应用程序中的语言特定 SDKs 的示例代码。

工作室支持文档智能 v3.0 及更高版本的 API 版本,以便进行模型分析和自定义模型训练。 支持以前训练的带有标记数据的 v2.1 模型,但不支持 v2.1 模型训练。 有关从 v2.1 迁移到 v3.0 的详细信息,请参阅 REST API 迁移指南

请使用文档智能工作室快速入门,以开始使用文档分析模型或预生成模型分析文档。 使用语言特定 SDKs 之一生成自定义模型,并在应用程序中引用这些模型。 要使用文档智能工作室,需要从 Azure 门户获取以下资产:

  • Azure 订阅 - 创建试用版订阅

  • Azure AI 服务或文档智能资源。 获得 Azure 订阅后,在 Azure 门户中创建单服务多服务资源以获取密钥和终结点。 使用免费定价层 (F0) 试用该服务,稍后升级到用于生产的付费层。

授权策略

组织可以选择禁用本地身份验证,并对 Azure AI 文档智能资源和 Azure Blob 存储强制实施 Microsoft Entra(以前称为 Azure Active Directory)身份验证。

重要

  • 在设置 Entra 身份验证时,请确保你具有认知服务用户角色,而不是认知服务参与者角色。
  • 在 Azure 背景下,参与者角色只能执行操作来控制和管理资源本身,包括列出访问密钥。
  • 拥有“参与者”角色的用户帐户只能通过访问密钥进行调用,从而访问文档智能服务。 但是,使用 Entra ID 设置访问权限时,将禁用密钥访问,并且帐户必须具有“认知服务用户角色”才能使用资源。

文档智能模型支持

使用帮助向导、标记界面、训练步骤和可视化效果来了解每个功能的工作原理。

  • 读取:在示例文档或你自己的文档中试用文档智能的“工作室读取”功能,以提取文本行、字词、检测到的语言和手写样式(如果检测到)。 有关详细信息,请参阅读取概述”。

  • 布局:在示例文档或你自己的文档中试用文档智能的“工作室布局”功能,以提取文本、表、选择标记和结构信息。 有关详细信息,请参阅布局概述”。

  • 预生成模型:使用文档智能的预生成模型,可以在应用和流中添加智能文档处理,而无需训练和生成自己的模型。 例如,从“工作室发票”功能开始。 有关详细信息,请参阅模型概述”。

  • 自定义提取模型:借助文档智能的“工作室自定义模型”功能,可以从使用你的数据进行训练的模型中提取字段和值,以根据你的表单和文档进行定制。 要从多种表单类型中提取数据,请创建独立的自定义模型,或者组合两个或更多自定义模型来创建组合模型。 使用示例文档测试自定义模型,并通过迭代改进模型。 有关详细信息,请参阅自定义模型概述”。

  • 自定义分类模型:文档分类是文档智能支持的新方案。 文档分类器 API 支持分类和拆分应用场景。 训练分类模型以识别应用程序支持的不同类型的文档。 分类模型的输入文件可以包含多个文档,并在关联的页面范围内对每个文档进行分类。 要了解更多信息,请参阅自定义分类模型

  • 附加功能:文档智能支持更复杂的分析功能。 可以使用每个模型页中的“Analyze Options”按钮在工作室中启用和禁用这些可选功能。 有 4 项可用的附加功能:highResolutionformulafontbarcode extraction。 要了解更多信息,请参阅附加功能

试用文档智能模型

  • 完成资源配置后,可以试用文档智能工作室提供的不同模型。 在首页中选择任何文档智能模型以尝试使用无代码方法。

  • 要测试任何文档分析或预生成模型,请选择模型并使用一个示例文档或上传自己的文档进行分析。 分析结果显示在“内容”-“结果”-“代码”窗口的右侧。

  • 需要在文档中训练自定义模型。 有关自定义模型的概述,请参阅自定义模型概述

  • 在文档智能工作室中验证方案之后,请使用 C#JavaJavaScriptPython 客户端库或 REST API 开始将文档智能模型合并到自己的应用程序中。

若要详细了解每种模型,请参阅概念页面

查看资源详细信息

要查看资源详细信息(如名称和定价层),请选择文档智能工作室主页右上角的“设置”图标,然后选择“资源”选项卡。如果有权访问其他资源,也可以切换资源。

工作室设置页面资源选项卡的屏幕截图。

使用文档智能,可以快速自动处理应用程序和工作流中的数据,轻松增强数据驱动的策略,并娴熟地扩充文档搜索功能。

分析选项

  • 文档智能支持复杂的分析功能。 Studio 允许使用一个入口点(“分析选项”按钮)轻松配置加载项功能。

  • 根据文档提取的使用场景配置分析范围、文档页面范围、可选检测,以及高级检测功能。

    分析选项对话框窗口的屏幕截图。

    注意

    字体提取在文档智能工作室中未进行可视化处理。 但可以查看字体检测结果 JSON 输出中的样式部分。

使用预构建模型或你自己的模型自动标记文档
  • 在自定义提取模型标记页面,现在可以使用文档智能服务预构建的模型或训练好的模型自动标记文档。

    动态屏幕截图显示工作室中的自动标记功能。

  • 某些文档在运行自动标记后可能会出现重复的标签。 请确保修改标签,以便标记页面之后不存在重复的标签。

    屏幕截图显示自动标记后的重复标签警告。

自动标记表
  • 在自定义提取模型标记页面,现在无需手动标记表即可自动标记文档中的表。

    动态屏幕截图显示工作室中的自动标记表的功能。

将测试文件直接添加到训练数据集
  • 训练好自定义提取模型后,如果需要,可将测试文档上传到训练数据集,以利用测试页面来提高模型质量。

  • 如果某些标签返回的置信度分数较低,则请确保正确地标记它们。 如果存在标记错误,请将其添加到训练数据集并重新标记以提高模型质量。

    动态屏幕截图显示了如何将测试文件添加到训练数据集。

在自定义项目中充分利用文档列表选项和筛选器
  • 使用自定义提取模型标记页面,通过利用搜索、筛选和按功能排序轻松浏览训练文档。

  • 利用网格视图预览文档或使用列表视图更轻松地在文档间滚动浏览。

    文档列表视图选项和筛选器的屏幕截图。

项目共享

轻松共享自定义提取项目。 有关详细信息,请参阅使用自定义模型进行项目共享

故障排除

场景 原因 解决方法
打开自定义项目时收到错误消息
Form Recognizer Not Found
绑定到此自定义项目的文档智能资源已被删除或移动到其他资源组。 有两种方法可以解决此问题:
• 在同一订阅和资源组下使用相同的名称重新创建文档智能资源。
• 使用迁移的文档智能资源重新创建自定义项目,并指定相同的存储帐户。
使用预构建应用或打开自定义项目时收到错误消息
PermissionDenied
在针对预构建模型进行分析或打开自定义项目时,主体无法访问 API/Operation。 对于文档智能资源,可能会禁用本地(基于密钥)的身份验证,但没有足够的权限访问资源。 请参考 Azure 角色分配以配置你的访问角色。
打开自定义项目时收到错误消息
AuthorizationPermissionMismatch
请求无权使用指定的权限执行操作。 对于存储帐户,可能会禁用本地(基于密钥)的身份验证,且你没有获得访问 blob 数据所需的权限。 请参考“Azure 角色分配”以配置你的访问角色。
无法登录到文档智能工作室,并收到错误消息
InteractionRequiredAuthError:login_required:AADSTS50058:A silent sign-request was sent but no user is signed in
浏览器可能会阻止第三方 Cookie,因此你无法成功登录。 若要解决此问题,请参阅“管理浏览器的第三方设置”。
管理工作室访问权限的第三方设置

Edge

  • 转到 Microsoft Edge 的“设置”
  • 搜索“第三方
  • 转到“管理和删除 Cookie 和网站数据”
  • 关闭“阻止第三方 Cookie”设置

Chrome:

  • 转到 Chrome 的“设置”页
  • 搜索“第三方
  • 在“默认行为”下,选择“允许第三方 Cookie

Firefox:

  • 转到 Firefox 的“设置”页
  • 搜索“Cookie”
  • 在“增强跟踪保护”下,选择“管理例外”
  • https://formrecognizer.appliedai.azure.cn 或你环境的文档智能工作室 URL 添加例外

Safari:

  • 选择“Safari”>“首选项”
  • 选择“隐私
  • 取消选择“阻止所有 Cookie”

后续步骤