Localization of Operational Faults in Cloud Applications by Mining

介绍

  • 为什么选日志:跟踪和基于度量的方法分别需要代码和度量的插装,因此增加了额外的开销,可能并不总是可行的。另一方面,日志在任何分布式系统中都很容易获得,这使得基于日志的方法比基于跟踪和基于度量的方法更实用

中心要点

  • 黄金信号:用户可观测到的错误。以此为中心进行分析。黄金信号其实有延时、错误、流量饱和,此处只关心错误

  • 分析过程

  • 基础知识:日志建立时间序列模型,方便计算异常之间关系

  • 流程

    1. 一个节点重复产生错误,被定为为黄金信号
    2. 构图,红色为所有打印异常/错误的节点
    3. 相关度计算:计算其他异常和黄金信号的关系(格兰杰因果关系)
    4. 异常排序:PageRank
作者

FireKnight

发布于

2023-01-12

更新于

2023-01-12

许可协议

评论