云社区 | 如何评估自动化运维的收益？超融合环境下的运维与传统架构有什么不同？

vlambda
2020-01-13

云社区 | 如何评估自动化运维的收益？超融合环境下的运维与传统架构有什么不同？

云社区的声音 - 原厂专家支持云平台问答精选！

本期专家：

姚彬优维科技系统架构师

林锋浪潮商用机器企业云创新中心华南区技术总监

任龙飞红帽企业级开源解决方案中心解决方案架构师

景显强红帽企业级开源解决方案中心软件架构设计师

刘康日志易系统分析师

钟锦锌 SmartX超融合产品经理

李宁博云企业级PaaS及云管理解决方案中心高级架构师

01 如何评估自动化运维带来的收益？

@姚彬优维科技系统架构师：

运维核心职责是保证业务连续性，通常是花钱部门，建议量化围绕这两个方向：

1.业务：参考DevOps中四个核心指标，变更时长、发布频率、服务恢复时长、变更失败率。

2.投入：运维投入和业务量增长的长期曲线对比，短期不一定明显。（资金、人员等）

02 运维自动化的成功标志是什么？

@姚彬优维科技系统架构师：

自动化的基石是标准化，运维自动化最直接的收益是效率和质量的提升，工具化处理运维事物就是成功。

03 如何利用大数据提升云平台自动化运维管理能力？

@林锋浪潮商用机器企业云创新中心华南区技术总监：

有同事在排查一些云平台的问题过程中，就碰到过日志极为琐碎，出现了大量日常信息将故障关键信息掩盖的过程，在日常维护、故障排查过程中，如何在大量日志中快速地找到故障关键字是个涉及大数据、人工智能的领域，这方面确实有待加强。

个人理解，利用大数据技术+人工智能，过滤日常常规信息应该是容易做到，而不常出现的信息应该是我们日常维护的关注点。目前业内已经有多家从事智能运维的公司，可以提供支持Power、x86等多种异构云环境的智能运维平台。

04 如何构建云计算场景下的自动化运维系统？

@任龙飞红帽企业级开源解决方案中心解决方案架构师：

个人观点，从现在的IT体系来看，从IaaS到SaaS, ansible工具已经可以覆盖大多数场景。今年RedHat/CoreOS开源了Operator framework，针对容器领域的运维开发框架，值得关注。

05 企业在控制风险这块应该如何控制自动化运维与人为干涉的优先级？

@景显强红帽企业级开源解决方案中心软件架构设计师：

脚本（playbook）自身的安全可靠性，需要进行生产前的反复验证。

上生产后，尽量依靠ansible tower这样的管理平台进行ansible的执行，防止权限不匹配导致执行错误。

06 面对应用与应用之间复杂的依赖和调用关系，如何快速定位排查问题？

@刘康日志易系统分析师：

这个问题我们先倒推一下：

分析问题需要什么？

分析问题问题肯定需要一些指标和数据，那么指标和数据该是哪些东西呢？指标和数据从哪里来呢？

指标肯定有系统层面也会有应用层面。但是通过指标一定能分析出问题吗？不一定，万一开发就想写个bug玩呢？所以也得看下应用的日志。

如果需要分析依赖和调用，那就得下探针或者在日志中打出调用关系。

知道了需要哪些东西该怎么收集呢？

我们既要收集系统指标，又要收集应用指标，还需要收集应用日志。在进行收集的时候我们不想消耗太多的资源。

收集完成怎么分析呢？

如果有了上面的数据只需要将我们的内容进行适当的提取就可以进行串联分析。比如：

我通过日志发现在某一点交易失败率高了，我只需要看一看此时系统层面的各个指标是否正常就可以迅速判断出是否系统层面影响。再接着我们只需要看看这个链路上的其他内容各个指标是否正常，可以快速判断是哪个环节出问题。

上面进行完成了之后，再接着分析应用的问题，看一眼应用的运行指标情况，再看看日志，几乎在一分钟内就可以判断故障出现在哪里。

甚至在进一步可以做出实时告警。

上面那个方式在分布式环节尤其好使，因为运维人员不用去寻找是那一台主机上的程序出现了问题。

上面所说的分析方式有哪些软件呢？

开源的：ELK

企业版：日志易、splunk

ELK：开源，免费，但是需要较高的能力去维护（如果说日志量每天几个G那种忽略），DSL语句需要有一定的学习能力，搜索较慢。

日志易：操作简单，语句就是类SQL。

splunk：美国的日志分析厂商。

07 在运维管理上，超融合架构的优势是什么？在超融合环境下，运维工作与传统架构有什么不同？

@钟锦锌 SmartX超融合产品经理：

超融合架构在运维管理上的优势：

1、超融合省却了原来集中式存储的硬件管理以及 raid、mapping 等复杂的管理操作。

2、超融合硬件故障运维更加简单，硬盘故障无需热备盘情况下，也可以自动恢复，而且恢复速度远高于传统存储。

3、虚拟化和存储以及硬件管理都集中在统一界面上，管理员可以很轻松地发现各个组件的运行状态。

4、在线扩展，自动负载均衡功能，比起传统架构扩容，减少了大量数据迁移甚至是避免了停机时间。

5、可以设置邮件报警或者通过 SNMP 还有 restful api 与原有的监控中心进行对接，实现智能监控管理。

在超融合环境下，运维工作的安排确实与传统架构有所不同：

1、在传统架构下，很多企业会安排专门的存储管理员、虚拟化管理员；而在超融合环境下这两者已经合为一体，存储和虚拟化实现统一界面管理，也省却了原来集中式存储硬件较为复杂的管理和运维。建议运维工作安排可以将存储管理员和虚拟化管理员合并管理。

2、另外做得比较好的超融合平台都有功能丰富的监控分析系统，并且可以支持通过 SNMP 或者 API 集成到第三方监控平台中进行统一管理以及自动报警等，这样可以更有效地提升运维管理水平。

08 Docker的运维中需要关注的是什么？

@李宁博云企业级PaaS及云管理解决方案中心软件架构设计师：

Docker运维过程中，整体而言需要关注三个方面：

1.Docker集群的部署规模；按照目前来讲，针对大规模的Docker集群，需要上层的调度系统做进一步的管理（例如基于Kubernetes或者swarm），而且只有达到一定规模以后，才会重点关注配置优化的参数（例如内部IP分配问题，单个容器的资源消耗限制等）；

2.Docker运行环境的稳定性，安全性，可靠性；需要做到Docker管理与运行业务容器达到友好兼容，管理节点正常与否，不应该影响运行业务容器，保证业务的正常对外输出；考虑业务容器彼此的隔离性，防止安全入侵；Docker与监控告警系统，日志系统的对接和管理，能够及时发现并处理运行过程中的问题。

3.保证业务容器的正常稳定，因为所有的一切都是为业务服务的，业务正常稳定，才有意义。

END

欢迎企业IT领域原厂商入驻云社区。服务用户，从解决用户的日常问题入手！了解更多，请点击阅读原文↓↓↓

vlambda博客
学习文章列表