注册
大数据
您当前所在位置:

数据的征服:读《大数据时代》

来源:撰稿人:发布时间:2015年05月19日浏览:
摘要:

  谷歌有一个名为“谷歌流感趋势”的工具,它通过跟踪搜索词相关数据来判断全美地区的流 感情况(比如患者会搜索流感两个字)。近日,这个工具发出警告,全美的流感已经进入“紧张”级别。它对于健康服务产业和流行病专家来说是非常有用的,因为 它的时效性极强,能够很好地帮助到疾病暴发的跟踪和处理。事实也证明,通过海量搜索词的跟踪获得的趋势报告是很有说服力的,仅波士顿地区,就有700例流 感得到确认,该地区目前已宣布进入公共健康紧急状态。

  这个工具工作的原理大致是这样的:设计人员置入了一些关键词(比如温度计、流感症状、肌 肉疼痛、胸闷等),只要用户输入这些关键词,系统就会展开跟踪分析,创建地区流感图表和流感地图。谷歌多次把测试结果(蓝线)与美国疾病控制和预防中心的 报告(黄线)做比对,从下图可知,两者结论存在很大相关性:

  但它比线下收集的报告强在“时效性”上,因为患者只要一旦自觉有流感症状,在搜索 和去医院就诊这两件事上,前者通常是他首先会去做的。就医很麻烦而且价格不菲,如果能自己通过搜索来寻找到一些自我救助的方案,人们就会第一时间使用搜索 引擎。故而,还存在一种可能是,医院或官方收集到的病例只能说明一小部分重病患者,轻度患者是不会去医院而成为它们的样本的。

  这就是一个典型的“大数据”的应用例子,舍恩伯格的这本《大数据时代》受到了广泛的赞誉,他本人也因此书被视为大数据领域中的领军人物。大数据起源于数据的充裕,舍恩伯格在他的另外一本书《删除》中,提到了这些源头。

  1、信息的数字化,使得所有信息都可以得到一个完美的副本;2、存储器越来越廉价,大规模存储这些数字信息成本极低;3、易于提取:数据库技术的完善使 得这些存储的信息能够被轻易按照一定的条件搜索出来;4、全球性覆盖,网络是无国界的,a地的数字信息可以让远在天边的b地调用。

  当我们掌握有大量的数据后,便可以开始进行所谓“大数据”的操作。大数据在舍恩伯格看来,一共具有三个特征:全样而非抽样,效率而非精确,相关而非因果。

  第一个特征非常好理解。在过去,由于缺乏获取全体样本的手段,人们发明了“随机调研数据”的方法。理论上,抽取样本越随机,就越能代表整体样本。但问题 是获取一个随机样本代价极高,而且很费时。人口调查就是典型一例,一个稍大一点的国家甚至做不到每年都发布一次人口调查,因为随机调研实在是太耗时耗力 了。

  但有了云计算和数据库以后,获取足够大的样本数据乃至全体数据,就变得非常容易了。谷歌可以提供谷歌流感趋势的原因就在于它几乎覆盖了7 成以上的北美搜索市场,而在这些数据中,已经完全没有必要去抽样调查这些数据:数据仓库,所有的记录都在那里躺着等待人们的挖掘和分析。

  第二 点其实建立在第一点的基础上。过去使用抽样的方法,就需要在具体运算上非常精确,因为所谓“差之毫厘便失之千里”。设想一下,在一个总样本为1亿人口随机 抽取1000人,如果在1000人上的运算出现错误的话,那么放大到1亿中会有多大的偏差。但全样本时,有多少偏差就是多少偏差而不会被放大。诺维格,谷 歌人工智能专家,在他的论文中写道:大数据基础上的简单算法比小数据基础上的复杂算法更加有效。

  数据分析并非目的就是数据分析,而是有其它用 途,故而时效性也非常重要。精确的计算是以时间消耗为代价的,但在小数据时代,追求精确是为了避免放大的偏差而不得已为之。但在样本=总体的大数据时代, “快速获得一个大概的轮廓和发展脉络,就要比严格的精确性要重要得多”。

  第三个特征则非常有趣。相关性表明变量A和变量B有关,或者说A变量的变化和B变量的变化之间存在一定的正比(或反比)关系。但相关性并不一定是因果关系(A未必是B的因)。

  亚马逊的推荐算法非常有名,它能够根据消费记录来告诉用户你可能会喜欢什么,这些消费记录有可能是别人的,也有可能是该用户历史上的。但它不能说出你为 什么会喜欢的原因。难道大家都喜欢购买A和B,就一定等于你买了A之后的果就是买B吗?未必,但的确需要承认,相关性很高——或者说,概率很大。

  舍恩伯格认为,大数据时代只需要知道是什么,而无需知道为什么,就像亚马逊推荐算法一样,知道喜欢A的人很可能喜欢B但却不知道其中的原因。这本书的译 者天才教授周涛则有不同的看法,他认为,“放弃对因果性的追求,就是放弃了人类凌驾于计算机之上的智力优势,是人类自身的放纵和堕落”。

  这个争议在我看来,双方讨论的可能不是一回事。舍恩伯格在这本书中完全不像他在《删除》一书中表现得那么有人文关怀,这是一本纯商业的书籍,商业本来就是以结果为导向的。但周涛谈论的却和“人工智能”有关。

  吴军在他的《数学之美》中曾经提到,人工智能领域曾经走过一个很大的弯路,即人们总是试图让计算机理解人类的指令——注意,是理解,不是知道。但折腾了 很多年,发现计算机的理解力实在白痴得比三岁小孩还要弱。最终人工智能放弃了这条途径,而改为数据传输和匹配。举个例子说,你在进行语音输入的时候,事实 上计算机完全不知道你在说什么(或者说,完全不理解你的意思),但不妨碍它能够准确地把你说的话尽可能地用字符表达出来。苹果的Siri是很神奇,但它其 实并不懂你的意思,而只是你的语音数据和它的后台数据一次匹配而已。

  因果关系涉及到“理解”这个范畴,而不是简单的知道或匹配。舍恩伯格所谓 放弃因果而寻求相关,是因为他本来就是写本商业书,要具体指导商业运作的,周涛所谓不可放弃因果,因为他是一名学者,并不完全站在赚钱这个角度上。换而言 之,周涛看的是长远的未来,舍恩伯格讨论的是眼下。

  在可以看到的未来中,可能计算机掌握不了三岁小孩的理解力,计算机和人类之间的象棋比赛,一个在思考,一个在做数据匹配,两者虽然都在下棋,路径却全然不同。人类可以暂时不用过于担心计算机来统治人类,因果关系这种理解,还是掌握在人类手中的。

  大数据时代是信息社会运作的必然结果,而借由它,人类的信息社会更上一个台阶。农业社会人们以土地为核心资源,工业时代转为能源,信息社会则将变更为数据。谁掌握数据,以及数据分析方法,谁就将在这个大数据时代胜出,无论是商业组织,还是国家文明。

责任编辑:系统管理员
分享文章到:
0
浏览次数:
】 【 打印本页】 【 关闭窗口
因特网信息服务经营许可证:金宝搏188存款 京ICP证040699号 海淀公安分局备案号:1101081900 广告经营许可证:京海工商广字第9990号
中科汇联承办,easysite内容管理系统,portal门户,舆情监测,搜索引擎,政府门户,信息公开,电子政务
Baidu
map