Azure Kubernetes 服务“诊断并解决问题”概述

排查 Azure Kubernetes 服务 (AKS) 群集问题在维护群集方面发挥着重要作用,特别是在群集运行任务关键工作负荷的情况下。 AKS“诊断并解决问题”是一种智能的自我诊断体验,具有如下特点:

  • 帮助确定和解决群集中的问题。
  • 不需要额外的配置或收费。

打开 AKS“诊断并解决问题”

可以使用以下步骤访问 AKS“诊断并解决问题”:

  1. Azure 门户中导航到你的 AKS 群集资源。

  2. 从服务菜单中,选择“诊断并解决问题”。

  3. 通过引用主页上每个磁贴说明中的关键字或在搜索栏中键入最能说明问题的关键字,选择最能说明群集问题的故障排除类别磁贴。

    Azure 门户中 AKS“诊断并解决问题”主页的屏幕截图。

查看诊断报告

选择类别后,可以查看各种诊断报表,这些报表提供了有关问题的详细信息。 导航菜单中的“概述”选项会运行该特定类别中的所有诊断,并显示在群集中发现的任何问题。 选择每个磁贴下的“查看详细信息”,以查看问题的详细说明,具体包括:

  • 问题摘要
  • 错误详细信息
  • 建议的操作
  • 有用文档的链接
  • 相关指标
  • 记录数据

示例应用场景:诊断连接问题

我观察到应用程序断开连接或遇到间歇性连接问题。 作为响应,我导航到 AKS“诊断并解决问题”主页,然后选择“连接问题”磁贴来调查潜在原因。

Azure 门户中的连接问题故障排除类别磁贴的屏幕截图。

我收到诊断警报,指示断开连接问题可能与群集 DNS 有关。 为了收集更多信息,我选择“查看详细信息”

Azure 门户中的群集 DNS 连接问题的屏幕截图。

根据诊断结果,问题似乎与已知的 DNS 问题或 VNet 配置有关。 我可以使用提供的文档链接来解决问题。

Azure 门户中群集 DNS 连接问题的故障排除链接的屏幕截图。

如果基于诊断结果提供的建议文档无法解决问题,我可以返回到诊断中的上一步,并参考其他文档。

Azure 门户中群集 DNS 连接问题的其他故障排除链接的屏幕截图。

使用 AKS“诊断并解决问题”获取最佳做法

在 AKS 上部署应用程序需要遵循最佳做法,以确保获得最佳的性能、可用性和安全性。 AKS“诊断并解决问题”的“最佳做法”磁贴提供了一系列最佳做法,可帮助管理 VM 资源预配、群集升级、伸缩操作、子网配置以及群集配置的其他基本方面。

利用 AKS“诊断并解决问题”对于确保群集遵循最佳做法并及时有效地识别和解决任何潜在问题至关重要。 通过将 AKS“诊断并解决问题”纳入操作实践,你无需再担忧应用程序在生产环境中的可靠性和安全性。

示例应用场景:查看最佳做法

我想知道我可以遵循哪些最佳做法来防止潜在的问题。 作为响应,我导航到 AKS“诊断并解决问题”主页,然后选择“最佳做法”磁贴。

AKS“诊断并解决问题”最佳做法的屏幕截图。

在此处,我可以查看建议用于群集的最佳做法,然后选择“查看详细信息”以查看结果。

AKS“诊断并解决问题”最佳做法详细信息的屏幕截图。

后续步骤

  • 收集日志,以帮助使用 AKS Periscope 进一步排查群集问题。
  • 阅读 AKS Day-2 操作指南的会审实践部分
  • 通过在标题中添加“[Diag]”,在 UserVoice 上发布你的问题或反馈。