服务配额和限制
此内容适用于:v3.1 (GA) | 以前的版本: v3.0 (GA)
此内容适用于: v2.1
本文包含有关所有定价层的 Azure AI 文档智能服务配额和限制的快速参考和详细说明。 它也包含避免请求限制的一些最佳做法。
模型使用
支持的文档类型 | 读取 | Layout | 预生成的模型 | 自定义模式 |
---|---|---|---|---|
✔️ | ✔️ | ✔️ | ✔️ | |
映像:JPEG/JPG 、PNG 、BMP 、TIFF 、HEIF |
✔️ | ✔️ | ✔️ | ✔️ |
Microsoft Office:DOCX 、PPTX 、XLS |
✔️ | ✖️ | ✖️ | ✖️ |
✔️ = 支持 ✖️ = 不支持
计费
文档智能计费是根据模型类型和分析的页数按月计算的。 可以在 Azure 门户的指标仪表板上找到使用情况指标。 仪表板显示 Azure AI 文档智能处理的页面数。 下面是一些详细信息:
提交文档进行分析时,除非在请求中使用
pages
参数指定页面范围,否则该服务会分析所有页面。 当该服务通过读取、OCR 或布局模型分析 Microsoft Excel 和 PowerPoint 文档时,它会将每个 Excel 工作表和 PowerPoint 幻灯片计为一页。当该服务分析 PDF 和 TIFF 文件时,它会将 PDF 文件中的每一页或 TIFF 文件中的每个图像计为一页,没有最大字符数限制。
当该服务分析读取和布局模型支持的 Microsoft Word 和 HTML 文件时,它会以每个 3,000 个字符的块对页面进行计数。 例如,如果文档包含 7,000 个字符,则有两页各包含 3,000 个字符,一页包含 1,000 个字符,总计为三页。
读取和布局模型不支持对 Microsoft Word、Excel、PowerPoint 和 HTML 文件中的嵌入或链接图像进行分析。 因此,服务不会将它们算作添加的图像。
使用文档智能训练自定义模型始终是免费的。 仅当服务使用模型分析文档时,才会产生费用。
容器定价与云服务定价相同。
文档智能提供免费层 (F0),你可以在其中测试所有文档智能功能。
对于大型工作负载,文档智能提供基于承诺的定价模型。
为用于自定义训练的数据集生成标签需要使用布局模型。 如果用于自定义训练的数据集没有可用的标签文件,该服务会为你生成它们,并向你收取布局模型使用费。
Quota | 免费 (F0)1 | 标准 (S0) |
---|---|---|
每秒事务数限制 | 1 | 15(默认值) |
可调 | 否 | 是 2 |
最大文档大小 | 4 MB | 500 MB |
可调 | 否 | 否 |
最大页数(分析) | 2 | 2000 |
可调 | 否 | 否 |
标签文件的最大大小 | 10 MB | 10 MB |
可调 | 否 | 否 |
OCR json 响应的最大大小 | 500 MB | 500 MB |
可调 | 否 | 否 |
模板模型的最大数量 | 500 | 5000 |
可调 | 否 | 否 |
神经网络模型的最大数量 | 100 | 500 |
可调 | 否 | 否 |
自定义模型用法
Quota | 免费 (F0) 1 | 标准 (S0) |
---|---|---|
组合模型限制 | 5 | 200(默认值) |
可调 | 否 | 否 |
训练数据集大小 * 神经网络 | 1 GB 3 | 1 GB(默认值) |
可调 | 否 | 否 |
训练数据集大小 * 模板 | 50 MB 4 | 50 MB(默认值) |
可调 | 否 | 否 |
最大页数(训练)* 模板 | 500 | 500(默认值) |
可调 | 否 | 否 |
最大页数(训练)* 神经网络 | 50,000 | 50,000(默认值) |
可调 | 否 | 否 |
自定义神经模型训练 | 每月 10 次 | 每月 20 次 |
可调 | 否 | 是 3 |
最大页数(训练)* 分类器 | 10,000 | 10,000(默认值) |
可调 | 否 | 否 |
最大文档类型(类)数量 * 分类器 | 500 | 500(默认值) |
可调 | 否 | 否 |
训练数据集大小 * 分类器 | 1GB | 1GB(默认值) |
可调 | 否 | 否 |
每个类的最小样本数 * 分类器 | 5 | 5(默认值) |
可调 | 否 | 否 |
自定义模型用法
Quota | 免费 (F0) 1 | 标准 (S0) |
---|---|---|
组合模型限制 | 5 | 200(默认值) |
可调 | 否 | 否 |
训练数据集大小 * 神经网络 | 1 GB 3 | 1 GB(默认值) |
可调 | 否 | 否 |
训练数据集大小 * 模板 | 50 MB 4 | 50 MB(默认值) |
可调 | 否 | 否 |
最大页数(训练)* 模板 | 500 | 500(默认值) |
可调 | 否 | 否 |
最大页数(训练)* 神经网络 | 50,000 | 50,000(默认值) |
可调 | 否 | 否 |
自定义神经模型训练 | 每月 10 次 | 每月 20 次 |
可调 | 否 | 是 3 |
最大页数(训练)* 分类器 | 10,000 | 10,000(默认值) |
可调 | 否 | 否 |
最大文档类型(类)数量 * 分类器 | 500 | 500(默认值) |
可调 | 否 | 否 |
训练数据集大小 * 分类器 | 1GB | 1GB(默认值) |
可调 | 否 | 否 |
每个类的最小样本数 * 分类器 | 5 | 5(默认值) |
可调 | 否 | 否 |
自定义模型限制
Quota | 免费 (F0) 1 | 标准 (S0) |
---|---|---|
组合模型限制 | 5 | 200(默认值) |
可调 | 否 | 否 |
训练数据集大小 | 50 MB | 50 MB(默认值) |
可调 | 否 | 否 |
最大页数(训练) | 500 | 500(默认值) |
可调 | 否 | 否 |
4 此限制适用于在进行任何与标记相关的更新之前在训练数据集文件夹中找到的所有文档。
详细说明、配额调整和最佳做法
请求增加配额(如果适用)之前,请确保其必要性。 文档智能服务使用自动缩放技术将所需的计算资源 on-demand
,同时通过不保留过多的硬件容量来降低客户成本和取消预配未使用的资源。
如果应用程序返回响应代码 429(表示“请求过多”),但工作负荷又在定义的限制内:很可能该服务正在按需进行缩放,但并没有达到所需的规模。 因此,该服务不会立即提供足够的资源来处理请求。 此状态是暂时性的,应该不会持续太久。
在自动缩放期间缓解限制的常规最佳做法
为了最大程度地减少与限制(响应代码 429)相关的问题,我们建议使用以下方法:
- 在应用程序中实现重试逻辑
- 避免工作负载的急剧变化。 逐步增加工作负载
示例。 应用程序正在使用文档智能,当前工作负载是 10 TPS(每秒事务数)。 接下来,将负载增加到 40 TPS(即原来的四倍)。 服务会立即开始扩展以实现新的负载,但可能无法在一秒钟内完成此操作,因此某些请求会获得响应代码 429。
下一部分介绍调整配额的特定案例。 跳转到文档智能:增加并发请求限制
每秒增加事务请求限制
默认情况下,文档智能资源的事务数量限制为每秒 15 个事务。 此数量在标准定价层中可能有所增加。 提交请求之前,请确保熟悉此部分中的材料,并了解这些最佳做法。
增加并发请求限制不会直接影响成本。 文档智能服务使用“只需为使用的资源付费”模型。 此限制定义了服务在开始限制请求之前可缩放的程度。
并发请求限制参数的现有值不通过 Azure 门户、命令行工具或 API 请求显示。 若要验证现有值,请创建 Azure 支持请求。
准备好所需信息
文档智能资源 ID
区域
基本模型信息:
- 登录到 Azure 门户
- 选择要将增加事务限制的文档智能资源
- 选择“属性”(“资源管理”组)
- 复制并保存以下字段的值:
- 资源 ID
- 位置(终结点区域)
创建并提交支持请求
通过提交支持请求,开始增加资源的每秒事务处理数量 (TPS) 限制:
- 确保具有所需的信息
- 登录到 Azure 门户
- 选择要增加 TPS 限制的文档智能资源
- 选择“新建支持请求”(“支持 + 故障排除”组)。 会出现一个新窗口,其中包含有关 Azure 订阅和 Azure 资源的自动填充信息
- 输入“摘要”(例如“增大文档智能 TPS 限制”)
- 对于“问题类型”字段,选择“配额或使用情况验证”。
- 选择“下一步: 解决方案”
- 进一步创建请求
- 在“详细信息”选项卡下的“说明”字段中输入以下信息:
- 请注意,请求与文档智能配额有关。
- 提供想要进行扩展以达到的 TPS 预期值。
- 已收集的 Azure 资源信息。
- 输入必填信息之后,在“查看 + 创建”选项卡中选择“创建”按钮
- 注意 Azure 门户通知中的支持请求编号。 等待支持人员很快与你联系来进一步进行处理。
工作负载模式最佳做法的示例
本示例介绍了我们建议采用的方法,以减少由于正在进行自动缩放而导致的可能的请求限制。 它不是精确的方案,而只是我们请求用户遵循并根据需要调整的模板。
假设文档智能资源设置有默认限制。 启动工作负载以提交分析请求。 如果你发现你经常看到响应代码为 429 的限制,请首先对 GET 分析响应请求实施指数退避。 通过在连续错误响应的重试之间使用逐渐延长的等待时间,例如请求之间的 2-5-13-34 延迟模式。 通常,对于相应的 POST 请求,建议调用 GET 分析响应的频率不超过每 2 秒一次。
如果发现提交文档的 POST 请求次数受到限制,请考虑在请求之间添加延迟。 如果工作负荷需要更高的并发处理能力,则需要创建支持请求,以提高每秒事务处理数量的服务限制。
通常,我们建议在投入生产之前测试工作负载和工作负载模式。