云原生数据仓库下的“降本增效”之路怎么走？

vlambda
2022-03-24

云原生数据仓库下的“降本增效”之路怎么走？

数据驱动运营

如今，全球经济增长放缓、市场需求疲软、新冠疫情肆虐、互联网“寒冬”、大厂裁员，中国的互联网公司集体进入了降本增效阶段。企业希望每一分钱得到最大的收益，实现成本效益最大化。

同时，国家广电总局对游戏版号审核还没有放开，游戏等行业进入到数据驱动的精细化运营时代。企业大量的数据都放在数据仓库中，数据规模小到数百GB，大到数百TB。数据规模随着业务的发展逐步增加，存储成本在数据仓库整体成本中的占比越来越高。

冷热数据分层

数据仓库的业务通常是BI分析、报表、APP等，我们发现很多业务具有强烈的周期性，很多数据表只有每个月、每个季度才会用到一次。并且，在线分析、离线处理等不同的场景对于查询性能和存储成本的要求是不同的。基于此，阿里云云原生数据仓库AnalyticDB MySQL版（简称：AnalyticDB）在去年推出了「冷热数据分层」功能，支持数据在表和分区级别分为热数据和冷数据，热数据存储在ESSD高性能介质上，加快查询性能；冷数据存储在OSS低成本介质上，节约存储成本。

截止当前， 60% 的数据都以冷数据的形式存放在AnalyticDB中，存储成本不到热数据存储成本的 1/10 。满足审计/归档等海量数据，低频使用场景对数据存储低成本的诉求。

冷热数据分层智能推荐

我们在跟客户交流「冷热数据分层」功能的时候，很多客户反馈新的数据表可以按照我们建议的方式在建表时指定是热表，混合表，还是冷表。但对于老的数据表，客户因为员工流动等原因，不清楚数据表的使用频率。而且多达成千上万张的数据表，也不可能通过人工进行逐一分析。

今年，AnalyticDB再次重磅推出「智能建模诊断与优化」功能，功能之一「冷热数据分层智能推荐」便是为了帮助客户通过后台自动扫描Workload，智能推荐哪些热表是低频使用的，建议转成冷表。

AnalyticDB对弹性模式（E系列）实例利用「冷热数据分层智能推荐」功能可以获得的潜在收益进行了统计。可以看到 60%的实例可以通过本建议的提示，将15天未使用的热表转成冷表，节省 30%以上的热存空间，降低存储成本。（如下图所示）

无效索引删除智能推荐

除了热数据的存储成本较高，我们还发现为了查询性能最优，简化建表时选择索引列的负担，建表时默认会为全部数据列建索引，但实际业务往往只会用到几个列的索引进行查询和数据过滤，长期无用的索引反而增加了存储的成本。

「智能建模诊断与优化」的功能之二「无效索引删除智能推荐」便是为了帮助客户通过后台自动扫描Workload，智能推荐哪些列的索引是长期没有使用的，建议删除。

同样，AnalyticDB也对弹性模式（E系列）实例利用「无效索引删除智能推荐」功能可以获得的潜在收益进行了统计。可以看到 55%的实例可以通过本建议的提示，将15天未使用的索引进行删除，节省 30%以上的存储空间，降低存储成本。（如下图所示）

总结展望

「智能建模诊断与优化」是AnalyticDB继「智能数据查询诊断与优化」（）后，推出的又一个「智能诊断」系列，本次发布的「冷热数据分层智能推荐」和「无效索引删除智能推荐」 2个功能，主要是从低频使用的热表转冷表减少热存空间，删除无效索引维度减少存储空间，最终降低存储成本。后续还将发布「分布键智能推荐」功能帮助客户通过优化分布键，提供Join/GroupBy等场景的查询性能。

让我们用智能的方式，和客户一起，探索云原生数据仓库下的“降本增效”之路。

欢迎试用

用户可以通过控制台左边栏「诊断与优化」 -> 「库表结构调优」使用该功能