使用 Azure 机器学习工作室调试管道故障

提交管道作业后,可以选择指向 Azure 机器学习工作室中工作区的作业的链接。 该链接将打开管道作业详细信息页,可在其中查看结果并调试失败的管道作业。 本文介绍如何使用管道作业详细信息页和管道比较(预览版)调试机器学习管道故障。

重要

本文中标记了“(预览版)”的项目目前为公共预览版。 该预览版在提供时没有附带服务级别协议,建议不要将其用于生产工作负载。 某些功能可能不受支持或者受限。 有关详细信息,请参阅适用于 Azure 预览版的补充使用条款

使用大纲快速查找节点

在管道作业详细信息页中,左侧的“大纲”窗格显示了管道作业的整体结构。 将鼠标悬停在任何行上,然后选择“在画布中定位”图标,在画布上突出显示节点,然后打开右侧的节点“信息”窗格

显示画布中的大纲和“查找”的屏幕截图。

在“大纲”窗格中,可以选择“筛选器”图标以快速将视图筛选为“仅已完成节点”、“仅组件”或“仅数据”。 还可以通过在“搜索”框中输入节点名称或组件名称来筛选列表,或者选择“添加筛选器”并从筛选器列表中选择

显示在“大纲”窗格中快速筛选和搜索的屏幕截图。

左侧窗格将显示匹配的节点和详细信息,包括状态、持续时间、运行时间和日期。 可以对筛选出的节点进行排序。

在“大纲”窗格中将搜索结果排序的屏幕截图。

检查组件日志和输出

如果管道有故障或停滞在某个节点上,请先查看日志。

显示如何检查节点日志的动画屏幕截图。

  1. 选择节点以在右侧打开“信息”窗格。

  2. 选择“输出 + 日志”选项卡以查看此节点中的所有输出和日志

    节点“信息”窗格中 user_logs 的屏幕截图。

    • user_logs 文件夹包含有关用户代码生成的日志的信息。 此文件夹默认打开,并选择 std_log.txt 日志。 代码的日志(如 print 语句)显示在 std_log.txt 中

    • system_logs 文件夹包含 Azure 机器学习生成的日志。 若要了解详细信息,请参阅查看和下载诊断日志

    注意

    如果未看到这些文件夹,这是因为计算运行时更新可能尚未发布到计算群集。 可以先查看 azureml-logs 文件夹中的 70_driver_log.txt

比较管道作业(预览版)

可以比较不同的管道作业以针对失败或其他意外问题进行调试(预览版)。 管道比较用于识别多个作业之间的差异(例如拓扑、组件属性和作业属性)。

可以比较成功和失败的管道作业,找出可能导致一个管道作业失败的差异。 可以通过将失败的管道作业与已完成的作业进行比较来进行调试,也可以通过将失败的管道节点与类似的已完成节点进行比较来进行调试。

若要在 Azure 机器学习工作室中启用此功能,请选择右上角的 Megaphone 图标来管理预览功能。 在“托管预览功能”面板中,确保“比较管道作业以针对失败或意外问题进行调试”设置为“启用”

显示预览功能已打开的屏幕截图。

比较失败的管道作业与成功的管道作业

在迭代模型开发期间,可以通过更改参数、数据集、计算资源或其他设置来克隆和修改成功的基线管道。 如果新管道失败,可以使用管道比较来通过标识父管道中的更改帮助找出故障。

例如,如果新管道因内存不足问题而失败,则可以使用管道比较来查看父管道的哪些更改可能会导致内存问题。

将管道与其父管道进行比较

  1. 在失败的管道作业页上,选择“显示世系”

  2. 选择“克隆自”弹出窗口中的链接,在新浏览器选项卡中打开父管道作业页

    显示“克隆自”链接的屏幕截图,其中突出显示了上一步中的世系按钮。

  3. 在两个页面上,选择顶部菜单栏上的“添加以进行比较”,将这两个作业添加到“比较”列表中

    显示已添加父管道和子管道的比较列表的屏幕截图。

将两个管道添加到比较列表后,可以选择“比较详细信息”或“比较图形”

比较图形

“比较图形”显示管道 A 和 B 之间的图形拓扑更改。在画布上,特定于管道 A 的节点标记为 A 并以红色突出显示,特定于管道 B 的节点标记为 B 并以绿色突出显示。 更改的说明显示在具有差异的节点的顶部。

可以选择任意节点来打开“组件信息”窗格,可在其中查看“数据集属性”或“组件属性”,例如“参数”、“runSettings”和“outputSettings”。 可以选择“仅显示差异”和“显示内联差异”

显示参数更改和组件信息选项卡的屏幕截图。

在此视图中,可以选择右上角的“显示比较详细信息”以打开管道“比较概述”,其中显示与“详细信息比较”页面相同的信息

比较详细信息

若要查看总体管道和作业元数据、属性和差异,请选择比较列表中的“比较详细信息”。 “详细信息比较”页显示了两个管道作业的“管道属性”和“作业属性”

  • 管道属性包括管道参数、计算设置和输出设置。
  • 运行属性包括运行状态、提交时间和持续时间以及其他运行设置。

可以选择“仅显示差异”和“查看内联差异”,或选择右上角的“比较图形”以打开图形拓扑比较

详细信息比较的屏幕截图,其中突出显示了比较图。

以下屏幕截图显示了使用详细信息比较的示例,其中的“defaultCompute”设置可能是失败的原因

显示默认计算比较概述的屏幕截图。

比较失败的管道节点与类似的已完成节点

如果仅更新了节点属性,则可以通过将节点与其他作业中的相同节点进行比较来进行调试。

  1. 右键单击失败的节点,然后选择“查看作业”以获取作业列表

    显示失败节点的屏幕截图,其中突出显示了“查看作业”。

  2. 选择已完成的作业作为比较目标并将其打开。

  3. 在两个作业页面上,选择顶部菜单栏上的“添加以进行比较”,将这两个作业添加到“比较”列表中

  4. 当两个作业都位于比较列表内之后,选择“比较详细信息”以显示差异

共享调试结果

若要与团队成员或其他利益干系人共享调试结果,请选择顶部菜单栏上的“共享”。 可以选择“将可共享链接复制到图形”或“复制管道作业 ID”与他人共享

显示“共享”按钮和应复制的链接的屏幕截图。