防止 Azure Cosmos DB for Apache Cassandra 操作发生速率限制错误

项目
2024-09-14

适用对象： Cassandra

所有数据库操作的成本将由 Azure Cosmos DB 规范化，并以“请求单位”(RU) 表示。可将请求单位视为性能货币，它抽象化了执行 Azure Cosmos DB 支持的数据库操作所需的系统资源，例如 CPU、IOPS 和内存。

如果 Azure Cosmos DB for Apache Cassandra 操作超过表的吞吐量限制 (RU)，则这些操作可能会失败并发生速率限制 (OverloadedException/429) 错误。客户端可以处理此情况，如此处所述。如果无法实现客户端重试策略来处理因速率限制错误而导致的失败，则我们可以利用服务器端重试 (SSR) 功能，在这种情况下，超过表吞吐量限制的操作将在短暂的延迟后自动重试。这是一个帐户级设置，将应用于帐户中的所有密钥空间和表。

使用 Azure 门户

登录到 Azure 门户。
导航到 Azure Cosmos DB for Apache Cassandra 帐户。
转到“设置”部分下面的“功能”窗格。
选择“服务器端重试”。
单击“启用”为帐户中的所有集合启用此功能。

Screenshot of the server-side retry feature for Azure Cosmos DB for Apache Cassandra

使用 Azure CLI

检查是否已为你的帐户启用了 SSR：

az cosmosdb show --name accountname --resource-group resourcegroupname

为数据库帐户中的所有表启用 SSR。此更改生效可能需要长达 15 分钟的时间。

az cosmosdb update --name accountname --resource-group resourcegroupname --capabilities EnableCassandra DisableRateLimitingResponses

以下命令通过从功能列表中删除 DisableRateLimitingResponses，对数据库帐户中的所有表“禁用”服务器端重试。此更改生效可能需要长达 15 分钟的时间。
```
az cosmosdb update --name accountname --resource-group resourcegroupname --capabilities EnableCassandra
```

常见问题

如何重试请求？

连续（一次又一次）重试请求，直到出现 60 秒超时为止。如果达到了超时，客户端会相应地收到读取或写入超时错误

SSR 在哪种情况下最有用？

出现持续时间不超过 1 分钟的突发性高峰时，服务器端重试 (SSR) 最有用，它可以避免发生限制错误。如果工作负载增大并稳定地保持在指定的 RU 之上，则 SSR 没有太大的作用。建议相应地提高 RU。

建议的客户端设置是什么？

启用 SSR 后，客户端应用应该增大读取超时，使其超过服务器的 60 秒重试设置。为安全起见，建议设置 90 秒超时。

代码示例驱动程序 3

SocketOptions socketOptions = new SocketOptions()
	.setReadTimeoutMillis(90000);

代码示例驱动程序 4

ProgrammaticDriverConfigLoaderBuilder configBuilder = DriverConfigLoader.programmaticBuilder()
	.withDuration(DefaultDriverOption.REQUEST_TIMEOUT, Duration.ofSeconds(90));

如何监视服务器端重试的效果？

可以在“Azure Cosmos DB 指标”窗格中查看服务器端重试的速率限制错误 (429)。启用 SSR 后，这些错误不会传递给客户端，因为它们是在服务器端处理和重试的。

可以在 Azure Cosmos DB 资源日志中搜索包含“estimatedDelayFromRateLimitingInMilliseconds”的日志条目。

服务器端重试是否会影响我的一致性级别？

服务器端重试不会影响一致性级别。如果请求受到速率限制（错误 429），则会在服务器端重试。

服务器端重试是否影响客户端可能收到的任何类型的错误？

否。由于是在服务器端重试，服务器端重试只会影响速率限制错误 (429)。有了此功能，就不必在客户端应用程序中处理速率限制错误。所有其他错误都会传递到客户端。

后续步骤

若要了解有关排除常见错误的更多信息，请参阅此文：

排查 Azure Cosmos DB's API for Cassandra 中的常见问题

请参阅以下文章，了解如何在 Azure Cosmos DB 中预配吞吐量：

通过