Localization of Operational Faults in Cloud Applications by Mining
介绍
- 为什么选日志:跟踪和基于度量的方法分别需要代码和度量的插装,因此增加了额外的开销,可能并不总是可行的。另一方面,日志在任何分布式系统中都很容易获得,这使得基于日志的方法比基于跟踪和基于度量的方法更实用
中心要点
黄金信号:用户可观测到的错误。以此为中心进行分析。黄金信号其实有延时、错误、流量饱和,此处只关心错误
分析过程
基础知识:日志建立时间序列模型,方便计算异常之间关系
流程
- 一个节点重复产生错误,被定为为黄金信号
- 构图,红色为所有打印异常/错误的节点
- 相关度计算:计算其他异常和黄金信号的关系(格兰杰因果关系)
- 异常排序:PageRank
Localization of Operational Faults in Cloud Applications by Mining