使用 Thanos+Prometheus+Grafana 打造监控系统
对于弹性伸缩和高可用的系统来说,一般有大量的指标数据需要收集和存储,如何为这样的系统打造一个监控方案呢?本文介绍了如何使用 Thanos+Prometheus+Grafana 构建监控系统。
翻译:Sarah(K8sMeetup)
校对:FogDong(才云)
-
Receive :负责 TSDB,还管理所有运行 receive 的服务器和 TSBD 块上传到 S3 之间的复制。 -
Query :负责查询 receive 数据库。 -
Store :读取 S3 以获取不再存储在 receive 中的长期 metrics。 -
Compactor :管理存储在 S3 中的 TSDB 块的数据下采样和压缩。
--query.replica-label=QUERY.REPLICA-LABEL
) 来完成。通过这些配置,query 组件知道从 Receiver 和 Store 收集的 metrics 是否重复并仅使用一个数据点。
-
监控了 6 个 Kubernetes 集群; -
收集了 670 个服务的 metrics; -
使用 Node Exporter 监控了 246 个服务器; -
每分钟收集约 27w 个指标; -
每天 ingest 约 7.3 GB 的数据,或每月 ingest 约 226.3 GB 的数据; -
为 Kubernetes 组件创建了 40 个专用仪表盘; -
在 Grafana 上创建了 116 个警报。