vlambda博客
学习文章列表

国内日志监控分析王者之sls

要论国内做日志监控分析的王者(没有之一),那非阿里云日志服务(后文简称sls)莫属了。

在19年匆匆写了几篇关于分布式日志的文章,又过去了2年,再来分析下阿里云的日志服务,过去了2年,sls是否有一些新的变化呢。

相较于19年,当前sls在功能和业务上,也推出了不少新功能以及旧功能的优化与完善。

1、对于metrics数据比较完善的支持,不管是采集,还是数据存储,数据加工与查询,到最后的数据应用。

2、对于trace数据的支持。

3、重新优化了智能告警。

4、支持了promql和sql的融合

到目前为止,sls基本把运维监控的方方面面的能力,至少从面上补全了,而且部分功能还做出了自己的特色与优势。

同时我们也再来盘点下,目前市面上还在做日志与智能运维监控的公司与产品有哪些,画一张表格大致比较下?

功能比较/公司产品 阿里云日志服务(sls) 云智慧 七牛 日志易
产品部署形态与模式 目前主要依托阿里公有云上的SaaS模式,专有云偶有输出 企业独立部署 SaaS与企业独立部署 企业独立部署,SaaS目测是Poc环境
产品成熟度 比较成熟,从初期阿里云飞天内部开始孵化 一般 一般 成熟
是否支持metric/log/trace 全方面支持,其中以日志最为成熟 支持 优先支持日志,其余支持比较弱 以日志最为成熟,其余从对外资料和行业了解到支持metric
是否支持计算分析 支持比较好 一般 一般 一般
开放sdk 支持的很好,sdk比较齐全,甚至可以基于sdk开发自定义场景的产品,包括对于移动端的支持 从对外资料看不支持 不支持 从对外资料来看,支持一般
对第三方框架支持程度 支持,不管是采集端,还是数据计算与处理端,比如对于opentelemetry的采集集成,还是计算层flink/kafka等等 不甚了解 不甚了解 不甚了解
技术创新方面 不管是底层存储,还是采集,计算,分析,智能ai等很多层面,都有自己很多创新,即时计算层采用了prestodb+promql,当然还有更详细的信息可参考其对外的资料,干货较多。 一般,基本技术栈以开源框架elk+clickhouse为主 一般,以开源框架为主,在计算层融合了spark的计算能力 一般,采用了自研的搜索引擎与SPL
数据量支持 PB级别,但不要一味追求规模,对于性能和数据量的极致追求,是功能和成本的妥协,而且也无太多实质性的意义,空间和时间的置换原理在哪里都有效 -- -- --
功能比较 功能总体比较全面,其中对于可视化,告警,搜索等体验上还是给了我很多惊喜,很多细节处理比较到位,整体UI设计也比较清新简单 -- -- --

当然还有其它维度的比较,这里就不一一去比较列举了

当然除了以上公司和产品,市场上还有一些做日志和运维产品的,但声音太小,这里就不一一列举了。

其实对于日志的监控分析,从技术侧,最大的难度,就是数据非结构化采集,数据规模,以及分析实时性的能力,通过以上的表格,大家

可能有了一个比较清晰的认识了,通过自己多年的行业经验来看,规模化的日志分析监控场景,还是有诸多挑战的。

在很多方面,其实是秒杀所谓的大数据领域的,当然其实分布式日志监控场景,也是大数据的一个领域,

现在大数据行业,特别是传统数仓方向的,到最近的一些数据湖概念,其实很多企业,真心没有那么多数据,本来一个oracle能搞定的数据,硬是要搞数据中台架构,各种大数据框架往上堆砌,结果成本直线上升,而创造的价值和效果却一般,当然这又是另一个故事了。

好了,今天只是一个比较粗粒度的日志产品比较,不涉及到具体的深层技术分析。

对于监控产品,我有一点感悟,数据之下,没有秘密,没有做不好的监控,只是没有足够的数据,什么是可观察性,唯数据而已。