文档智能工作室
此内容适用于: v3.1 (GA) | 以前的版本: v3.0
此内容适用于: v3.0 (GA) | 最新版本: v3.1
重要
- 文档智能工作室主权云区域有单独的 URL。
- 适用于美国政府的 Azure:文档智能工作室(Azure Fairfax 云)
- 由世纪互联运营的 Azure:文档智能工作室(中国区 Azure)
文档智能工作室是一种联机工具,用于在应用程序中通过文档智能服务直观地浏览、了解和集成功能。 使用文档智能工作室可以:
- 详细了解文档智能中的不同功能。
- 使用文档智能资源测试示例文档的模型或上传自己的文档。
- 试验不同的加载项和预览功能,以根据需要调整输出。
- 训练自定义分类模型以对文档进行分类。
- 训练自定义提取模型以从文档中提取字段。
- 获取要集成到应用程序中的语言特定
SDKs
的示例代码。
请使用文档智能工作室快速入门,以开始使用文档分析模型或预生成模型分析文档。 使用语言特定 SDKs
之一和其他快速入门生成自定义模型,并在应用程序中引用这些模型。
使用入门
如果你是第一次访问工作室,请按照入门指南来设置要使用的工作室。
分析选项
文档智能支持复杂的分析功能。 Studio 允许使用一个入口点(“分析选项”按钮)轻松配置加载项功能。
根据文档提取的使用场景配置分析范围、文档页面范围、可选检测,以及高级检测功能。
注意
字体提取在文档智能工作室中未进行可视化处理。 但可以查看字体检测结果 JSON 输出中的样式部分。
✔️ 使用预构建模型或你自己的模型自动标记文档
在自定义提取模型标记页面,现在可以使用文档智能服务预构建的模型或训练好的模型自动标记文档。
某些文档在运行自动标记后可能会出现重复的标签。 请确保修改标签,以便标记页面之后不存在重复的标签。
✔️ 自动标记表
在自定义提取模型标记页面,现在无需手动标记表即可自动标记文档中的表。
✔️ 将测试文件直接添加到训练数据集
训练好自定义提取模型后,如果需要,可将测试文档上传到训练数据集,以利用测试页面来提高模型质量。
如果某些标签返回的置信度分数较低,则请确保正确地标记它们。 如果存在标记错误,请将其添加到训练数据集并重新标记以提高模型质量。
✔️ 在自定义项目中充分利用文档列表选项和筛选器
使用自定义提取模型标记页面,通过利用搜索、筛选和按功能排序轻松浏览训练文档。
利用网格视图预览文档或使用列表视图更轻松地在文档间滚动浏览。
✔️ 项目共享
- 轻松共享自定义提取项目。
文档智能模型支持
读取:试用文档智能的“读取”功能,以提取文本行、字词、检测到的语言和手写样式(如果检测到)。 从工作室读取功能开始。 使用示例文档和你自己的文档进行探索。 使用交互式可视化效果和 JSON 输出来了解该功能的工作原理。 请参阅读取概述了解详细信息,并开始使用用于布局的 Python SDK 快速入门。
布局:试用文档智能的“布局”功能以提取文本、表、选择标记和结构信息。 从工作室布局功能开始。 使用示例文档和你自己的文档进行探索。 使用交互式可视化效果和 JSON 输出来了解该功能的工作原理。 参阅布局概述了解详细信息,并通过布局 Python SDK 快速入门获取入门知识。
预生成模型:使用文档智能的预生成模型,可以在应用和流中添加智能文档处理,而无需训练和生成自己的模型。 例如,从“工作室发票”功能开始。 使用示例文档和你自己的文档进行探索。 使用交互式可视化效果、提取的字段列表和 JSON 输出来了解该功能的工作原理。 参阅模型概述了解详细信息,并通过预生成发票 Python SDK 快速入门获取入门知识。
自定义提取模型:借助文档智能的自定义模型,可以从使用你的数据训练与根据你的表单和文档定制的模型中提取字段和值。 要从多种表单类型中提取数据,请创建独立的自定义模型,或者组合两个或更多自定义模型来创建组合模型。 从“工作室自定义模型”功能开始。 使用帮助向导、标记界面、训练步骤和可视化效果来了解该功能的工作原理。 使用示例文档测试自定义模型,并通过迭代改进模型。 有关详细信息,请参阅自定义模型概述。
自定义分类模型:文档分类是文档智能支持的新方案。 文档分类器 API 支持分类和拆分应用场景。 训练分类模型以识别应用程序支持的不同类型的文档。 分类模型的输入文件可以包含多个文档,并在关联的页面范围内对每个文档进行分类。 要了解更多信息,请参阅自定义分类模型。
附加功能:文档智能现在支持更复杂的分析功能。 可以使用每个模型页中的“
Analze Options
”按钮在工作室中启用和禁用这些可选功能。 提供了四个附加功能:highResolution、公式、字体和条形码提取功能。 要了解更多信息,请参阅附加功能。
后续步骤
请访问文档智能工作室,以开始使用模型和功能。
开始使用文档智能工作室快速入门。