企业基础架构可观测性Meetup
目录
从可观测性与可交互性视角出发——探讨如何设计出好用的基础软件
如何设计出好用的基础软件
可交互性
控制器
- 一个电视机一个控制器
文档
- quickstart
- 下一步的交互界面引导
可交互性
多想一步,告诉用户半步,让用户自己走下半部
反馈
不要暴露内部概念!不要暴露内部概念
用精简的人话暴露进展和状态
不要说废话,更不要不说反馈必须即时
配置
可观测性
直觉
分布式链路追踪在字节跳动的实践
metric/log/trace
trace:metric和log关联的纽带
实现
trace等定义类似CNCF opentracing
关联关系
埋点:
- 日志基础库
采样
PostTrace后置采样
- 个人理解就是记录下来,相关的trace都会被涉及到
- 一种是通过消息分析
- 一种是通过log记录下来,然后总结log,分析出trace(后置采样)
整体架构
私有数据流:只解码部分需要的header
容灾时的高可用,这种情况下追踪更需要‘
分析计算
效果
实践
错误追踪/错误传播链分析
一些思路
除了系统内数据,还有网络、CPU调用的数据
阿里十年链路追踪与应用可观测实践
更多相关落地实践遇到的问题
架构推演
挑战
- 成本收益:存储(5PB+)、网络
- 最后一公里:链路追踪无法定位问题
探针管理
- pandora: classloader、双亲委派,类似于一个SDK
- 无侵入,ARMS,基于pinpoint
成本收益
5-30分钟内才是最有价值可能被用户使用的数据
冷热数据分离
预聚合:客户端聚合,这样即使调用链采样发送,聚合的数据是准确的
最后一公里
- 方法栈追踪,自动化
告警
扩展(赋能)
业务场景为中心的染色链路
- 类似后置采样,收集全部链路后再染色
- RASP
趋势
注意右下角几个社区
全景监控
QA
方法栈追踪
入的世界、出的时间,如果进来的时间大于1s,就启动一个线程去抓方法栈
1入,5出,抓2-5
如何低代价追踪,就是产品竞争力
注意那几个平台社区
目前对Java插桩,go等不支持
数据预处理,客户端。数据热处理,边缘节点计算
网易云原生日志平台的架构演进与实践(轻舟日志)
不是链路,更偏向日志
目录
日志采集
sidecar
sidecat vs daemonSet
实现:ripple+agent filebeat
架构
遇到的问题
总览
新版agent/解决
基于CRD和K8S的使用
eBay 云原生生产环境下的日志监控
- 云原生环境下的日志系统
企业基础架构可观测性Meetup