信息的存储

字数:705

由于摩尔定律导致各种存储器的容量成本增加,同时价格迅速下降,使得原本不得不丟弃的一些数据现在有条件存起来以供使用。比如在Google提供Gmail服务之前,企业级用户的电子邮箱容量有限,公司雇员不得不经常删除邮件,但是在Google宣布提供无容量制的邮箱服务后,各个电子邮件提供商不得不采用同样的策略以维持用户,公司里每个人的邮箱容量在不到10年的时间里涨了3个数量级,从几百兆(〜100MB)上升到几千万兆(~100GB)。邮箱里的数据实际上只是企业级数据中很小的一部分,在企业级的软件和服务中,大量的中间数据被保存下来。各种互联网企业所提供的服务,一般都会记录下详细的日志数据,比如任何一个合格的电子商务公司都会记录下交易的详情,而搜索引擎会记录每一次搜索非常详尽的信息,比如搜索从哪里来,发生在哪一天的几点几分,搜索的关键词是什么,用户点击了哪些结果(或者广告),每一条结果看了几分钟,等等。这些信息对改进产品非常有用。

只是存储的容量上去还不够,因为随着数据量剧增,查找和使用数据的时间会变得相当长,因此存储设备的读写速度也必须随着容量的增加而大幅度提高。早期海量存储设备采用的是顺序访问数据的磁带,因此大数据的使用显然是不可能的,人们连存储数据的兴趣都不大。20年前硬磁盘取代了磁带成为海量存储设备,数据访问的时间缩短到原来的大约1/1000,这时批处理数据不再是个问题,人们开始重视收集和存储数据。但是随机存储和访问数据依然很缓慢,而且由于硬盘的速度取决于机械运动,不可能大幅度提高,因此数据的使用受到限制。直到大约七八年前,半导体的固态存储器(Solid State Drives,简称SSD)的容量增加成本下降,才使得人们能够很方便地使用数据,这时从存储技术上讲,使用大数据的时机才成熟。

在能够产生大量的数据,也能够存储这些数据之后,还有一个问题必须解决,那就是这些数据怎样才能从采集端传到存储设备上,这就要求数据传输技术有所突破了。


数据的产生传输的技术