HDFS特征引入背景时的一些思考
我们说HDFS面向的是大数据存储,其实这里引入了一道面试题。如果你面的是数据开发岗或者大数据开发岗的校招,那么你就很可能会遇到,即:
Q: 你认为数据量达到多少就能被称为大数据了?
我个人倾向于,谈到具体的数据量,就输了。谈到大数据总躲不过5V特征:
【1】Volumn(大体量):即可从数百TB到数十数百PB甚至EB级别的数据;
【2】Variety(多样性):大数据会包含各种格式或者形态的数据;
【3】Velocity(时效性):数据大多需要在一定时间限度内被处理;
【4】Veracity(精确性):数据处理的结果需要保证一定的精度;
【5】Value(大价值):数据会包含很多深度的价值。
从这个角度而言,量仅是大数据的特征,但并不意味着大数据会和数据大画上某等于或者线性的关系。大体积的无用数据,仅仅是占用存储的垃圾而已,需要清楚。体量大,且包含大价值的数据,才能够被称为大数据。