快速界定故障:Socket Tracer网络监控实践
集群中间件访问超时问题定界。
数据采集丢包问题定界:例如设备侧声称发包,但网关没有收到,现场不在了,互相扯皮。
设备连云链路检测。
视频直播卡顿问题定界。
...
流量(tx/rx)、延迟(srtt),待重传包数量、总重传次数、收发队列长度,Accept队列长度。
TCP 生命周期监控:监听TCP Close事件,统计连接时长,收发包总字节数。
TCP Reset异常监控:收到或者发送Reset的异常,及异常时刻的TCP State。
现有的netstat、ss等网络信息统计工具,无法做到跨network namespce的socket信息统计。在云原生环境使用不便。需要做到监控k8s集群所有节点,及节点上所有Pod的Socket状态。
采集数据指标化,支持对接 Prometheus 的 Exporter 接口。
支持指标推送到 VictoriaMetrics。
传输层收到数据,但堆积在rcv_queue中,可能是应用层处理代码阻塞。
传输层Rx没有增加,则很可能是对端没有发送数据。
Non-Existence TCP endpoint: Port or IP(Restrict Local IP address):服务端不存在。(SYN -> Server reset)
TCP SYN matches existing sessions:服务端、或者防火墙已存在相同5元组连接。(SYN -> Server reset)
Listening endPoint Queue Full :应用层没有及时accept,导致服务端Accept队列满(全链接队列满),分两种情况:对于新来握手请求 SYN -> SYN包会被Server默默丢弃,不会触发reset;碰巧在Client 回 ACK(握手第三个包)时,accept 队列满了,Server 会根据 tcp_abort_on_overflow sysctl 配置,决定是否发送 reset。
Half-Open Connections:服务端程序重启,导致链接信息丢失。(中间数据-> Server reset)
RESET by Firewalls in transit:在防火墙维护session状态的场景(NAT网关),防火墙Session TTL过期。(中间数据-> FW reset)
Time-Wait Assassination:Client Time-Wait 期间,收到 Server 端迟到的数据包,回送Ack给Server,导致Server发送Rst包。(Server 迟到数据 -> Client Ack-> Server Reset)
Aborting Connection:客户端Abort,内核发送reset给服务端。(Client Reset)
bpftrace提供了脚本语言,方便输出内核信息到控制台,做CLI工具很方便。但没有提供API接口,不方便后台代码调用和信息读取。
libbpf会直接把内核bpf代码编译成bin文件,再放到目标机运行。目标是一次编译,四处运行,为了解决跨内核版本(配置)的可移植问题,需依赖BTF kernel选项,目前绝大部分内核默认没有打开该功能,需要修改配置重新编译kernel才行。
bcc在目标机环境运行阶段,动态编译bpf内核代码,来解决可移植性问题。是现阶段使用最广的方案,绝大部分bpf监控工具都基于bcc-tools;并且提供API接口,便于代码集成,其中内核代码基于C语言,应用层代码提供python和go两种语言API。
bash-5.0# ./socktracer --help
Usage of ./socktracer:
-configfile string
Socket tracer target config file (default "/etc/filter.yaml")
-metricsCacheNum int
Metrics local cached number (default 10000)
-namespace string
Namespace for metrics
-sockScanInterval int
Socket statistical information scan interval (default 30)
-version
Show version information and exit
-vmaddr string
URL of Victoria Metrics write address
-web.listen-address string
Address to listen on for web interface and telemetry. (default ":8080")
-web.metrics-path string
Path under which to expose metrics. (default "/metrics")
filter.yaml配置文件定义,用于配置过滤需跟踪的 Socket 链接:type SocketID struct {
Protocol string `yaml:"protocol"` // Only support TCPv4 currently, will support UDP and IPv6 when needed.
LocalIP string `yaml:"localIP"` // Specify local IP, will overwrite LocalPod when both set
LocalPod string `yaml:"localPod"` // Specify prefix of local podName, will be overwritten by LocalIP when both set
LocalPort int `yaml:"localPort"` // Specify local Port, set to 0 means do not filter local port
PeerIP string `yaml:"peerIP"` // Specify peer IP, will overwrite PeerPod when both set
PeerPort int `yaml:"peerPort"` // Specify peer Port, set to 0 means do not filter peer port
PeerPod string `yaml:"peerPod"` // Specify prefix of peer podName, will be overwritten by PeerIP when both set
}
样例:bash-5.0
filters:
- localIP: "" //采集目标1:不指定本地IP,可以不配置或者设置为空
localPort: 6379 //指定本地端口,通常选择固定的server端口作为过滤条件
localPod: "default/redis-" //指定本地PodName前缀,格式为: namespace/podName前缀
- localPod: "default/iotx-event-center" // 采集目标2:指定本地PodName前缀。peerPod: "default/redis-" //指定对端PodName前缀,格式为: namespace/podName前缀
peerPort: 6379 //指定对端端口
阿里云官方镜像站升级上线
阿里云官方镜像站完成升级上线,免费提供Linux镜像下载服务,拥有Ubuntu、Deepin、MongoDB、Apache、Maven、Composer等多种开源软件镜像源,此外还提供域名解析DNS、网络授时NTP等服务,致力于为互联网用户提供全面,高效和稳定的基础服务。