大数据为什么“大” - 中国数字营销门户

我的印象里，第一次在非学术视野之外见到大数据，是在2012年某个写字楼的电梯厢中，分众传媒的显示屏上，显示了一系列的由IBM推出的大数据海报。自此，大数据作为一个时髦的技术名词，被业界和媒体共同推到了公众认知的前台，顶替了原先的“云计算”，“智慧的地球”以及“物联网”，成为了另一个各界人士都热衷引用的概念。

在认知上，大数据似乎是一个一夜之间冒出来的名词。但在实际的应用中，大数据和之前的数据分析并没有本质的不同。但是随着数据量的增加，尤其是数据覆盖范围的增加——和日常生活相关的数据也逐渐加入了被分析的范围，大数据就拉近了和每一个人的关系，应用场景也脱离了之前的“高精尖”的刻板印象，变得更亲切起来。

所以，可分析的数据量的激增是让数据分析从此变成“大数据”的原因，也是大数据为什么“大”的原因。而可分析的数据量的增加，是如何出现的呢？个人认为有如下这么几个原因。

首先，是数据记录仪变得无处不在，让越来越多日常的数据都能被记录下来。一方面，传感器越做越小，很多都可以置入随身携带的设备当中，如手机的地理位置模块（GPS），如Nike+中的压敏传感器；另一方面，电脑、手机、相机、摄录机等设备都可以被视为数据记录仪，它们的广泛普及以及相关应用和网站的发展，使得UGC（User Generated Content）成为一大类型的数据（UGC这个问题在以后的文章中还会提到），很多原本只存在于人们脑海中或者某个故纸堆中的数据都被沉淀下来。还有另外一个不可忽视的因素是，信息介质的普及让更多的数据被产生和制造出来。在日常生活中，人们开始越来越多的使用数字化设备：从存折代替现金，再到储蓄卡、信用卡替代存折的支付功能。相较于现金支付，采用卡支付除了完成支付本身之外，还留下了资金和资金使用者的数字轨迹。这些信息介质的不断丰富，正源源不断的产生和制造数据。上述这些因素都极大的扩张了数据覆盖范围和数据总量。

其次，网络的兴起让所有的数据不再变成信息孤岛，提升了数据集（dataset）的维度（Dimension）。从计算复杂性上讲，每一个维度的数据都可被视为节点，如果有N个维度的话，任意2个维度之间的映射关系（计算复杂性，可以用来刻画数据集中信息量的大小）在不考虑映射指向性的情况下，都会变成平方增长，达N*(N-1)/2个。比如，消费记录（含时间、金额）是一个2维的数据集，位置轨迹（含时间、位置）也是一个2维数据集，都只能表示1个数据关系。但由于这两个数据集通过时间轴这同一维度的，这能够合成一个新的3维数据集，而这个新的数据集就能够形成一个更高维度的向量空间，能够表示“时间-位置”，“时间-金额”以及“位置-金额”三种关系。这个数据集所包含的信息量（共3种关系）将会比两个单独的2维数据集之和（各1种，共2种关系）还要更大。

最后，就是数据保存的硬件基础——存储设备的成本不断降低和和易维护性不断提升，让数据的生命周期变成永恒。以往由于保存数据的成本高昂或难以维护（虫噬鼠咬，光板无毛。。。），产生的数据存在一个半衰期。但现在由于单位比特成本逐渐趋近于零，而且数据大规模的复制和备份完全能通过机器完成，这些历史数据往往就能够积累下来，形成更大规模的数据。

正是这一些因素的共同作用，使得大数据的信息量真正的变“大”了，为之后的各项应用奠定了最根本的基础。

转载请注明出处。