防止 Azure Cosmos DB for Apache Cassandra 操作发生速率限制错误
适用对象: Cassandra
所有数据库操作的成本将由 Azure Cosmos DB 规范化,并以“请求单位”(RU) 表示。 可将请求单位视为性能货币,它抽象化了执行 Azure Cosmos DB 支持的数据库操作所需的系统资源,例如 CPU、IOPS 和内存。
如果 Azure Cosmos DB for Apache Cassandra 操作超过表的吞吐量限制 (RU),则这些操作可能会失败并发生速率限制 (OverloadedException/429) 错误。 客户端可以处理此情况,如此处所述。 如果无法实现客户端重试策略来处理因速率限制错误而导致的失败,则我们可以利用服务器端重试 (SSR) 功能,在这种情况下,超过表吞吐量限制的操作将在短暂的延迟后自动重试。 这是一个帐户级设置,将应用于帐户中的所有密钥空间和表。
使用 Azure 门户
登录到 Azure 门户。
导航到 Azure Cosmos DB for Apache Cassandra 帐户。
转到“设置”部分下面的“功能”窗格 。
选择“服务器端重试”。
单击“启用”为帐户中的所有集合启用此功能。
使用 Azure CLI
检查是否已为你的帐户启用了 SSR:
az cosmosdb show --name accountname --resource-group resourcegroupname
为数据库帐户中的所有表启用 SSR。 此更改生效可能需要长达 15 分钟的时间。
az cosmosdb update --name accountname --resource-group resourcegroupname --capabilities EnableCassandra DisableRateLimitingResponses
以下命令通过从功能列表中删除
DisableRateLimitingResponses
,对数据库帐户中的所有表“禁用”服务器端重试。 此更改生效可能需要长达 15 分钟的时间。az cosmosdb update --name accountname --resource-group resourcegroupname --capabilities EnableCassandra
常见问题
如何重试请求?
连续(一次又一次)重试请求,直到出现 60 秒超时为止。 如果达到了超时,客户端会相应地收到读取或写入超时错误
SSR 在哪种情况下最有用?
出现持续时间不超过 1 分钟的突发性高峰时,服务器端重试 (SSR) 最有用,它可以避免发生限制错误。 如果工作负载增大并稳定地保持在指定的 RU 之上,则 SSR 没有太大的作用。 建议相应地提高 RU。
建议的客户端设置是什么?
启用 SSR 后,客户端应用应该增大读取超时,使其超过服务器的 60 秒重试设置。 为安全起见,建议设置 90 秒超时。
代码示例驱动程序 3
SocketOptions socketOptions = new SocketOptions()
.setReadTimeoutMillis(90000);
代码示例驱动程序 4
ProgrammaticDriverConfigLoaderBuilder configBuilder = DriverConfigLoader.programmaticBuilder()
.withDuration(DefaultDriverOption.REQUEST_TIMEOUT, Duration.ofSeconds(90));
如何监视服务器端重试的效果?
可以在“Azure Cosmos DB 指标”窗格中查看服务器端重试的速率限制错误 (429)。 启用 SSR 后,这些错误不会传递给客户端,因为它们是在服务器端处理和重试的。
可以在 Azure Cosmos DB 资源日志中搜索包含“estimatedDelayFromRateLimitingInMilliseconds”的日志条目。
服务器端重试是否会影响我的一致性级别?
服务器端重试不会影响一致性级别。 如果请求受到速率限制(错误 429),则会在服务器端重试。
服务器端重试是否影响客户端可能收到的任何类型的错误?
否。由于是在服务器端重试,服务器端重试只会影响速率限制错误 (429)。 有了此功能,就不必在客户端应用程序中处理速率限制错误。 所有其他错误都会传递到客户端。
后续步骤
若要了解有关排除常见错误的更多信息,请参阅此文:
请参阅以下文章,了解如何在 Azure Cosmos DB 中预配吞吐量: