监视 Azure 文件同步指标和运行状况
使用 Azure 文件同步,即可将组织的文件共享集中在 Azure 文件中,同时又不失本地文件服务器的灵活性、性能和兼容性。 Azure 文件同步可将 Windows Server 转换为 Azure 文件共享的快速缓存。 可以使用 Windows Server 上可用的任意协议本地访问数据,包括 SMB、NFS 和 FTPS。 并且可以根据需要在世界各地具有多个缓存。
本文介绍如何使用 Azure Monitor、存储同步服务和 Windows Server 来监视你的 Azure 文件同步部署。 它涵盖以下方案:
- 查看 Azure Monitor 中的 Azure 文件同步指标。
- 在 Azure Monitor 中创建警报,以主动通知关键情况。
- 使用 Azure 门户查看 Azure 文件同步部署的运行状况。
- 使用 Windows Server 上的事件日志和性能计数器来监视 Azure 文件同步部署的运行状况。
Azure Monitor
使用 Azure Monitor 查看指标,并为同步、云分层和服务器连接配置警报。
指标
默认情况下,启用 Azure 文件同步指标,并每隔 15 分钟将指标发送到 Azure Monitor。
如何查看 Azure Monitor 中的 Azure 文件同步指标
- 转到“Azure 门户”中的“存储同步服务”,然后单击“指标” 。
- 单击“指标”下拉列表,然后选择要查看的指标。
Azure Monitor 提供了下列 Azure 文件同步指标:
指标名称 | 说明 |
---|---|
同步的字节数 | 传输数据大小(上传和下载)。 单元:字节 聚合类型:平均值、求和 适用的维度:服务器终结点名称、同步方向、同步组名称 |
云分层缓存命中率 | 从缓存中提供的字节的百分比与从云中召回的字节的百分比(而非整个文件的百分比)。 单位:百分比 聚合类型:平均值 适用的维度:服务器终结点名称、服务器名称、同步组名称 |
云分层重调大小 | 回调的数据大小。 单元:字节 聚合类型:平均值、求和 适用的维度:服务器名称、同步组名称 |
应用程序的云分层重调大小 | 应用程序召回的数据大小。 单元:字节 聚合类型:平均值、求和 适用的维度:应用程序名称、服务器名称、同步组名称 |
云分层重调成功率 | 成功的召回请求的百分比。 单位:百分比 聚合类型:平均值 适用的维度:服务器终结点名称、服务器名称、同步组名称 |
云分层重调吞吐量 | 数据召回吞吐量大小。 单元:字节 聚合类型:平均值、求和、最大值、最小值 适用的维度:服务器名称、同步组名称 |
分层数据的云分层大小 | 分层到 Azure 文件共享的数据大小。 单位:字节 聚合类型:Average、Sum、Max、Min 适用的维度:服务器终结点名称、服务器名称、同步组名称 |
分层数据的云分层大小(按上次维护作业) | 上次维护作业期间分层的数据的大小。 单位:字节 聚合类型:Sum、Average、Max、Min 适用维度:分层原因、服务器终结点名称、服务器名称、同步组名称 |
云分层低磁盘空间模式 | 指示服务器终结点是否处于低磁盘空间模式(1=是;0=否) 单位:计数 聚合类型:Sum、Max、Min、Count 适用的维度:服务器终结点名称、服务器名称、同步组名称 |
未同步的文件 | 未能同步的文件数。 单位:计数 聚合类型:平均值 适用的维度:服务器终结点名称、同步方向、同步组名称 |
同步的文件 | 已传输的文件数(上传和下载)。 单位:计数 聚合类型:平均值、求和 适用的维度:服务器终结点名称、同步方向、同步组名称 |
服务器缓存大小 | 服务器上缓存的数据大小。 单元:字节 聚合类型:平均值、最大值、最小值 适用的维度:服务器终结点名称、服务器名称、同步组名称 |
缓存数据大小(按上次访问时间) | 数据大小(按上次访问时间)。 单位:字节 聚合类型:Average、Max、Min 适用维度:上次访问时间、服务器终结点名称、服务器名称、同步组名称 |
服务器联机状态 | 从服务器接收的检测信号数。 单位:计数 聚合类型:平均值、计数、求和、最大值、最小值 适用的维度:服务器名称 |
同步会话结果 | 同步会话结果(1=成功同步会话;0=失败同步会话) 单位:计数 聚合类型:平均值、计数、求和、最大值、最小值 适用的维度:服务器终结点名称、同步方向、同步组名称 |
警报
在监视数据中发现重要情况时,警报会以主动的方式通知你。 若要详细了解如何在 Azure Monitor 中配置警报,请参阅 Azure 中的警报概述。
如何为 Azure 文件同步创建警报
- 转到“Azure 门户”中的“存储同步服务” 。
- 在“监视”部分中单击“警报”,然后单击“+ 新建警报规则” 。
- 单击“选择条件”,并为警报提供以下信息:
- 指标
- 维度名称
- 警报逻辑
- 单击“选择操作组”,并通过选择现有操作组或创建新的操作组,将一个操作组(电子邮件、短信等)添加到警报中。
- 填写警报详细信息,例如警报规则名称、说明和严重性。
- 单击“创建警报规则”以创建警报。
注意
如果使用“服务器名称”维度配置警报,然后重命名服务器,则需要更新警报以监视新的服务器名称。
下表列出了一些要监视的示例场景和用于警报的适当指标:
场景 | 用于警报的指标 |
---|---|
服务器终结点运行状况在门户中显示错误 | 同步会话结果 |
文件未能同步到服务器或云终结点 | 未同步的文件 |
已注册的服务器未能与存储同步服务进行通信 | 服务器联机状态 |
云分层召回大小在一天内超过 500GiB | 云分层重调大小 |
有关如何为这些场景创建警报的说明,请参阅警报示例部分。
存储同步服务
若要在“Azure 门户”中查看 Azure 文件同步部署的运行状况,请导航到“存储同步服务”,并使用以下信息 :
- 已注册的服务器运行状况
- 服务器终结点运行状况
- 持久同步错误
- 暂时性同步错误
- 同步活动(上传到云,下载到服务器)
- 云分层节省空间
- 分层错误
- 召回错误
- 指标
已注册的服务器运行状况
若要在门户中查看“已注册的服务器运行状况”,请导航到“存储同步服务”的“已注册的服务器”部分 。
- 如果“已注册的服务器”状态为“联机”,则服务器已成功与服务进行通信 。
- 如果已注册的服务器状态为脱机,则存储同步监视器进程 (AzureStorageSyncMonitor.exe) 未运行,或服务器无法访问 Azure 文件同步服务。 请参阅故障排除文档获取指南。
服务器终结点运行状况
要在门户中查看服务器终结点的运行状况,请导航到存储同步服务的同步组部分,然后选择同步组。
- 门户中的“服务器终结点运行状况”和“同步活动”(上传到云,下载到服务器)取决于服务器上遥测事件日志中记录的同步事件(ID 9102 和 9302)。 如果同步会话由于暂时性错误(例如错误已取消)而失败,则只要当前同步会话正在进行(已应用文件),服务器终结点就会在门户中依旧显示为“运行正常”。 事件 ID 9302 是同步进度事件,而事件 ID 9102 是同步会话完成后被记录的。 有关详细信息,请参阅同步运行状况和同步进度。 如果服务器终结点运行状况显示“运行正常”以外的状态,请参阅故障排除文档以获取指导。
- 门户中的“持久同步错误”和“暂时性同步错误”计数基于服务器上遥测事件日志中记录的事件 ID 9121。 同步会话完成后,每项的错误都会记录在此事件中。 若要查看门户中的错误,请转到“服务器终结点属性”并导航到“错误 + 故障排除”部分。 若要解决每项错误,请参阅如何确定是否有特定的文件或文件夹未同步?。
- “云分层节省空间”提供了云分层所节省的磁盘空间量。 为“云分层节省空间”提供的数据基于在服务器上的遥测事件日志中记录的事件 ID 9071。 若要查看其他云分层信息和指标,请转到“服务器终结点属性”并导航到“云分层状态”部分。 若要了解详细信息,请参阅监视云分层。
- 若要查看门户中的“分层错误”和“召回错误”,请转到“服务器终结点属性”并导航到“错误 + 故障排除”部分。 “分层错误”基于服务器上的遥测事件日志中记录的事件 ID 9003,“召回错误”基于事件 ID 9006。 若要调查无法进行分层或召回的文件,请参阅如何对未能分层的文件进行故障排除和如何对未能召回的文件进行故障排除。
指标图表
可以在“存储同步服务”门户中查看以下指标图表:
指标名称 说明 边栏选项卡名称 同步的字节数 传输数据大小(上传和下载)。 服务器终结点 - 同步状态 未同步的文件 未能同步的文件数。 服务器终结点 - 同步状态 同步的文件 已传输的文件数(上传和下载)。 服务器终结点 - 同步状态 云分层缓存命中率 从缓存中提供的字节的百分比与从云中召回的字节的百分比(而非整个文件的百分比)。 服务器终结点 - 云分层状态 缓存数据大小(按上次访问时间) 数据大小(按上次访问时间)。 服务器终结点 - 云分层状态 分层数据的云分层大小(按上次维护作业) 上次维护作业期间分层的数据的大小。 服务器终结点 - 云分层状态 应用程序的云分层重调大小 应用程序召回的数据大小。 服务器终结点 - 云分层状态 云分层回调 回调的数据大小。 服务器终结点 - 云分层状态、已注册的服务器 服务器联机状态 从服务器接收的检测信号数。 已注册的服务器 若要了解详细信息,请参阅 Azure Monitor。
注意
“存储同步服务”门户中的图表的时间范围为 24 小时。 若要查看不同时间范围或维度,请使用 Azure Monitor。
Windows Server
在安装了 Azure 文件同步代理的 Windows Server 上,你可以使用事件日志和性能计数器查看该服务器上的服务器终结点的运行状况 。
事件日志
使用服务器上的遥测事件日志来监视已注册的服务器、同步和云分层运行状况。 遥测事件日志位于事件查看器中的“Applications and Services\Microsoft\FileSync\Agent”下。
同步运行状况
同步会话完成后,将记录事件 ID 9102。 使用此事件来确定同步会话是否已成功 (HResult = 0),以及是否存在每项同步错误 (PerItemErrorCount) 。 有关详细信息,请参阅同步运行状况以及按项列出的错误文档。
注意
有时同步会话会整体失败或具有非零值 PerItemErrorCount。 但是,它们仍将继续进行,并且某些文件会同步成功。 可以在应用的字段(如 AppliedFileCount、AppliedDirCount、AppliedTombstoneCount 和 AppliedSizeBytes)中查看此项。 这些字段将显示会话成功的次数。 如果在一行中发现多个同步会话失败,并且它们的应用的计数已增加,请在创建支持工单之前,提供同步时间以重试。
同步会话完成后,每项的错误都会记录在事件 ID 9121 中。 使用此事件以确定由于此错误(PersistentCount 和 TransientCount)而未能同步的文件数 。 应调查永久性每项错误,请参阅如何确定是否有特定的文件或文件夹未同步?。
如果存在活动同步会话,则每 5 到 10 分钟记录一次事件 ID 9302。 使用此事件确定要同步多少项 (TotalItemCount),到目前为止已同步的项数 (AppliedItemCount) 和由于每项错误而未能同步的项数 (PerItemErrorCount) 。 如果没有进行同步 (AppliedItemCount=0),同步会话最终将失败并记录包含错误的事件 ID 9102。 有关详细信息,请参阅同步进度文档。
已注册的服务器运行状况
- 当服务器查询作业服务时,每 30 秒记录一次事件 ID 9301。 如果 GetNextJob 已完成且状态为 0,服务器就可以与服务进行通信。 如果 GetNextJob 已完成但出现错误,请查看故障排除文档以获得指导。
云分层运行状况
若要监视服务器上的分层活动,请使用遥测事件日志(位于“事件查看器”中的“Applications and Services\Microsoft\FileSync\Agent”下)中的事件 ID 9003、9016 和 9029。
- 事件 ID 9003 提供服务器终结点的错误分布情况。 例如,错误总数、错误代码。 将为每个错误代码记录一个事件。
- 事件 ID 9016 提供卷的副本创建结果。 例如:可用空间百分比、会话中创建的文件副本数和无法创建副本的文件数。
- 事件 ID 9029 提供服务器终结点的副本创建会话信息。 例如:会话中尝试的文件数、会话分层的文件数和已分层的文件数。
若要监视服务器上的召回活动,请使用遥测事件日志(位于“事件查看器”中的“Applications and Services\Microsoft\FileSync\Agent”下)中的事件 ID 9005、9006、9009、9059 和 9071。
- 事件 ID 9005 提供服务器终结点的重新调用可靠性。 例如:访问的唯一文件总数和访问失败的唯一文件总数。
- 事件 ID 9006 提供服务器终结点的重新调用错误分布情况。 例如:失败的请求总数和错误代码。 将为每个错误代码记录一个事件。
- 事件 ID 9009 提供服务器终结点的回调会话信息。 例如:DurationSeconds、CountFilesRecallSucceeded 和 CountFilesRecallFailed。
- 事件 ID 9059 提供服务器终结点的应用程序回调分布情况。 例如:ShareId、应用程序名称和 TotalEgressNetworkBytes。
- 事件 ID 9071 为服务器终结点提供云分层效率。 例如:TotalDistinctFileCountCacheHit、TotalDistinctFileCountCacheMiss、TotalCacheHitBytes 和 TotalCacheMissBytes。
性能计数器
使用服务器上的 Azure 文件同步性能计数器来监视同步活动。
若要在服务器上查看 Azure 文件同步性能计数器,请打开性能监视器 (Perfmon.exe)。 可以在“已传输的 AFS 字节数”和“AFS 同步操作”对象下找到计数器 。
性能监视器提供了下列 Azure 文件同步性能计数器:
性能对象\计数器名称 | 说明 |
---|---|
AFS 传输的字节数\下载的字节数/秒 | 每秒下载的字节数。 |
AFS 传输的字节数\上传的字节数/秒 | 每秒上传的字节数。 |
AFS 传输的字节数\总字节数/秒 | 每秒(上传和下载)的总字节数。 |
AFS 同步操作数\下载的同步文件数/秒 | 每秒下载的文件数。 |
AFS 同步操作数\上传的同步文件数/秒 | 每秒上传的文件数。 |
AFS 同步操作数\同步文件总操作数/秒 | 同步的文件总数(上传和下载)。 |
警报示例
本部分提供了有关 Azure 文件同步的一些示例警报。
注意
如果创建了警报,但警报导致过多的干扰,请调整阈值和警报逻辑。
如果服务器终结点运行状况在门户中显示错误应如何创建警报
- 在“Azure 门户”中,导航到相应的“存储同步服务” 。
- 转到“监视”部分,然后选择“警报”。
- 选择“+ 新建警报规则”,以新建警报规则。
- 通过单击“选择条件”配置条件。
- 在“配置信号逻辑”边栏选项卡中,选择信号名称下的“同步会话结果”。
- 选择以下维度配置:
- 维度名称:服务器终结点名称
- 运算符:=
- 维度值:所有当前值和未来值
- 导航到“警报逻辑”,然后完成以下操作:
- 阈值设置为“静态”
- 运算符:小于
- 聚合类型:Maximum
- 阈值:1
- 计算依据:聚合粒度 = 24 小时 | 计算频率 = 每小时
- 选择“完成” 。
- 选择“选择操作组”,通过选择现有操作组或创建新的操作组,将一个操作组(电子邮件、短信等)添加到警报中。
- 填写警报详细信息,例如警报规则名称、说明和严重性。
- 选择“创建警报规则”。
如果文件未能同步到服务器或云终结点应如何创建警报
- 在“Azure 门户”中,导航到相应的“存储同步服务” 。
- 转到“监视”部分,然后选择“警报”。
- 选择“+ 新建警报规则”,以新建警报规则。
- 通过选择“选择条件”配置条件。
- 在“配置信号逻辑”边栏选项卡中,选择信号名称下的“未同步的文件”。
- 选择以下维度配置:
- 维度名称:服务器终结点名称
- 运算符:=
- 维度值:所有当前值和未来值
- 导航到“警报逻辑”,然后完成以下操作:
- 阈值设置为“静态”
- 运算符:大于
- 聚合类型:Average
- 阈值:100
- 计算依据:聚合粒度 = 5 分钟 | 计算频率 = 每 5 分钟
- 单击“完成” 。
- 选择“选择操作组”,通过选择现有操作组或创建新的操作组,将一个操作组(电子邮件、短信等)添加到警报中。
- 填写警报详细信息,例如警报规则名称、说明和严重性。
- 选择“创建警报规则”。
如果已注册的服务器未能与存储同步服务进行通信应如何创建警报
- 在“Azure 门户”中,导航到相应的“存储同步服务” 。
- 转到“监视”部分,然后选择“警报”。
- 选择“+ 新建警报规则”,以新建警报规则。
- 通过选择“选择条件”配置条件。
- 在“配置信号逻辑”边栏选项卡中,选择信号名称下的“服务器联机状态”。
- 选择以下维度配置:
- 维度名称:服务器名称
- 运算符:=
- 维度值:所有当前值和未来值
- 导航到“警报逻辑”,然后完成以下操作:
- 阈值设置为“静态”
- 运算符:小于
- 聚合类型:Maximum
- 阈值(字节):1
- 计算依据:聚合粒度 = 1 小时 | 计算频率 = 每 30 分钟
- 请注意,指标每 15 到 20 分钟发送到 Azure Monitor 一次。 请勿将“计算频率”设置为小于 30 分钟,因为这样做将生成错误警报。
- 选择“完成” 。
- 选择“选择操作组”,通过选择现有操作组或创建新的操作组,将一个操作组(电子邮件、短信等)添加到警报中。
- 填写警报详细信息,例如警报规则名称、说明和严重性。
- 选择“创建警报规则”。
如果云分层召回大小在一天内超过 500GiB 应如何创建警报
- 在“Azure 门户”中,导航到相应的“存储同步服务” 。
- 转到“监视”部分,然后选择“警报”。
- 选择“+ 新建警报规则”,以新建警报规则。
- 通过选择“选择条件”配置条件。
- 在“配置信号逻辑”边栏选项卡中,选择信号名称下的“云分层召回大小”。
- 选择以下维度配置:
- 维度名称:服务器名称
- 运算符:=
- 维度值:所有当前值和未来值
- 导航到“警报逻辑”,然后完成以下操作:
- 阈值设置为“静态”
- 运算符:大于
- 聚合类型:Total
- 阈值(字节):67108864000
- 计算依据:聚合粒度 = 24 小时 | 计算频率 = 每小时
- 选择“完成” 。
- 选择“选择操作组”,通过选择现有操作组或创建新的操作组,将一个操作组(电子邮件、短信等)添加到警报中。
- 填写警报详细信息,例如警报规则名称、说明和严重性。
- 选择“创建警报规则”。