如何利用永洪产品Impala数据源的高级属性进行数据管控？

vlambda
2020-01-13

如何利用永洪产品Impala数据源的高级属性进行数据管控？

在上一篇我们讲到了业务人员可以用永洪产品的自服务数据集进行自助式分析，那么IT管理员如何管理业务人员进行分析呢？

某财险类客户案例

永洪的某财险客户需要业务用户进行自助式分析，高峰期在350并发以上，企业IT管理部希望对所有IT人员和业务人员查询数据的数据量大小优先级进行管控，然后让业务用户进行自助式分析。

如何设置？

因为该财险公司已经将数据存储在了Cloudera Impala集群中。该财险的IT管理部门会根据每一个用户的数据量大小、业务类型分配队列，并且详细设置该队列中的默认查询参数，尤其是mem_limit参数和最大并发数，这样可以较好的限制用户之间的影响，为了避免恶意用户的使用，可以限制用户自己设置mem_limit参数，尽可能得保证Impala集群的稳定性。

1、在Impala数据库层面，IT管理员或者DBA可以在session建立之后进行设置。

设置队列限制

set request_pool = queue_it；

用户在创建一个数据源连接（connection）之后，可以通过set request_pool=pool_name的方式设置改session的请求提交的对应的队列。

设置最大内存使用限制

set mem_limit=10G；

设置内存10G(单节点上的内存量)，impala经常会over estimate SQL语句需要的资源，所以强烈建议在执行SQL之前，使用 set mem_limit 限制SQL查询的内存消耗。

2、永洪产品设置