数据的产生

字数:1844

大数据的第一个来源是电脑本身。全球数字化让几乎每一个使用电的设备都有了一个“电脑”,这些电脑或者设备中内置的处理器、传感器和控制器一直在产生数据,比如记录设备状态的日志(Log)。在过去,很多数据并不会被记录下来,比如电话交换机除了记录少量的设备运行状态之外,并不记录来往通话的控制信息,包括打电话的时间、双方的电话号码、通话时长等,但是当人们发现这些数据有价值之后,由计算机控制的程控交换机很容易把这些细节都记录下来,这就产生了很多和电信相关的数据。

另外,由于企业级的IT系统和软件越来越复杂,它们的设计者不得不记录更多的细节,以便在发生异常时能够跟踪找到问题所在。在Google,工程师们在编写程序时,每隔几行代码就要插入一句记录状态的日志语句,以便今后查找错误、完善程序和进行数据分析。

大数据的第二个来源是传感器。传感器技术的进步使得收集数据变得非常容易。我们在前一章中提到无源的射频视频芯片(RFID)就是一种帮助收集数据的工具。今天无所不在的摄像头,其作用与收集数据的传感器也有着相似之处。

我们先看看射频视频芯片是怎样工作的。这种芯片里面可以存储一些信息,芯片外有一个回形的天线(线圈),用于接收阅读器发出的无线电波。当天线线圈接收到无线电信号后,根据电磁感应原理,它会产生微小的电流让芯片工作,并将里面的信息发出,再由阅读器读取。这种射频视频芯片非常便宜,零售价也不过4美分一片。将它装到各种物品上,就可以自动识别各种物品,进而跟踪物品。它的体积可以做得非常小,甚至可以被植入生物体内,用以跟踪它们的活动。

RFID的用途非常广泛,将它贴到商品上,当该商品通过一个RFID阅读器时,阅读器就知道该商品经过。那么在未来的超市中,其实不需要在收银台用人工扫描每一件购买的商品,记账付款,而只要将装满货物的推车推出安装了RFID阅读器的通道,所购买的商品就会被一一计价结算,然后再通过移动互联网将购货金额发送到购买者的手机上,经过购买者确认后,直接手机付款即可。这样整个商场只需要几个保安确认购买者守秩序即可。

图5.3 RFID芯片

除了用于零售业结算,RFID还可以用于商品的防伪和跟踪货物的移动等很多方面。由于有了RFID,物品从生产到消费,整个流程都可以被跟踪,这样就产生了大量的数据。

类似于RFID这样的传感器很多,比如可穿戴式设备中,一个核心的传感器是感知加速度的芯片,它根据加速度的积分算出速度,这样就可以追踪人的身体的各种活动了。另外,在万物联网中,需要大量使用各种传感器,它们在不断地提供各种各样的数据。

图5.4 采用RFID自动计价付款系统的设计

图5.5 万物联网离不开传感器

数据的第三个来源是将那些过去已经存在的、以非数字化形式存储的信息数字化,这个过程开始于2000年左右。非数字化的数据包括语音、图片、设计图纸、视频、档案、古稀图书和医学影像等,这些信息过去都是以各种各样的形式存储的,由于积累的时间很长,因此数量巨大。据约翰·霍普金斯大学生物工程系系主任麦克维(Elliot McVeigh)教授介绍,在2010年时,全美国病例档案的文件规模比互联网上(非重复)的网页数量高出一个数量级,当然,在过去的几年里互联网上的内容增加很快,很难说今天病例的数据量是否依然超过互联网,但至少说明它的规模很大。

产生上述数据的主要是企业,而非个人。在互联网时代,网络用户产生的数据(UGC)以更快的速度在增长。对于用户产生的数据,大家可能并不陌生,因为我们每一个人都是这些数据的制造者。我在拙著《浪潮之巅》中讲到过互联网2.0的特点,它的本质是一个互联网的平台,而上面的文字、图片、视频和各种其他信息都是由用户提供的。在图片共享网站Pinterest中,每天有7000万张图片86被上传,累计上传了300亿张。在Google旗下的YouTube视频网站,数据量更是大得惊人,每分钟有300小时的视频被上传到YouTube。至于互联网用户每天在社交网络上的聊天和互动所产生的内容就更多了。

图5.6 不同类型数据的增长

图5.6是思科公司对过去的5年里各类数据增长的估计(和预估),其中增长最快的是传感器带来的数据和用户产生的数据。总的来讲,数据量的增长是惊人的,甚至很多人在怀疑这是大数据的鼓吹者夸大其词,他们说:“怎么过去没觉得有这么多数据,一夜之间全冒了出来?”事实上很多数据是大家不在意时被收集的,比如各种传感器产生的数据,包括摄像头、可穿戴式设备、手机的GPS(全球定位系统),以及各种采集声、光、热和运动的传感器等。我们每天携带手机,苹果公司就可以把每一个苹果手机用户的出行路径记录得一清二楚。这类数据总量之大远远超出常人想象,比如像北京和上海这样千万人口的大都市,摄像头的数量超过10万个,如果每个都是每周7天、每天24小时监控,每个城市产生的录像时长高达每分钟1700小时以上,是YouTube的6倍左右。在过去,因为没有条件存储这么多视频记录,常常不存储或者只存一两天就删除,但是今天人们已经发现它在城市管理中有着重要的用途,比如通过录像识别违章的车牌号,因此存储了大量的监控数据。这样一来,我们存储的数据总量就陡然增长了,仿佛是一夜之间从地下冒出来的。从这里也可以看出,大数据兴起的第二个必要条件就是存储技术的发展。


技术的拐点信息的存储