前言
这本书去年(农历年)年底的时候读完了,翻译的还行,关键译者还有自己的观点。之前(2011年)知道译者周涛老师是在杭州一个大数据的分享会议上,冒出来一个新公司叫百分点的公司做推荐算法的,当时不是觉得这个公司牛,而是这个人牛。因为但是他年龄也就二十五六岁吧,已经是电子科技大学的教授了(主任级),这点是很难的。买这本书其实也是关联推荐买的,本来我是买一本大数据决策,然后推荐的列表里面看到了这本,也就顺手买了。
说大数据时代,那么什么是大数据?
1T数据够大吗?1P呢?1Z呢?No No No! 大数据其实跟数据量的大小没有确定性的关系,大数据
其实是相对小数据
而言的。什么是小数据?其实小数据跟数据量也无关,根计算方式有关。小数据是基于总体数据
下面的抽样分析
,得到精确的结果。抽样分析的准确性是跟数据的随机性
相关的,随机性越高,抽样的结果越能准确的反应总体的数据。小数据时代下的抽样统计方式之所以流行是因为那个时代的计算能力
不够强大。与之相对的,大数据时代下,数据是更全面
的,计算资源也丰富,足以让我们对数据做全盘的分析
,从而直接得到总体的结果。这里的样本就是总体
。当然大数据也有不足的地方,就是他的精确度
不够(但是往往是可以容忍
这种不精确的)
大数据时代有什么变革?
首先人们的思维方式
会受到挑战。考虑需要更全面,不再由抽样来反应总体。需要各种各样不同的数据源,但同时也会引入一些噪音
,要容忍这些噪音。要明白数据反馈的是事件之间的相关性
,而不是因果性
。从数据推倒出来某个因果关系基本上都是加上了主观
意识的干涉的,不够理性。不要刻意通过数据去追求因果关系,因为最终的结论其实都是主观的。
相关性如何理解?
其实就是概率论中的条件概率
(贝叶斯定理)。 比如一个山脚的别墅,里面养了一条狗,根据主人统计,狗叫的时候,刚好遇到有盗贼的情况的概率为 80%,也就是平日里,10天狗叫有8天是因为有盗贼来了。然后突然有一天,又听到了狗叫,这时你会认为有没有盗贼呢?你不知道,你知道说很可能是来盗贼的,概率大约80%。因为狗叫和盗贼之间不存在因果关系,而只是存在相关性。哪一天来了个主人的远房亲戚,狗也是会叫的,但亲戚并不是贼。贝叶斯公式展开讲就比较复杂了,这里不深入。
相关性很重要,忘掉因果性,这点很重要。
商业模式上,大数据也带来了变革。
比如有提供基础数据
的大数据公司,像twitter,facebook,微信,微博这种大规模用户下信息流为主的公司。像twitter,他自己虽然也分析数据,但是他还会把数据授权给第三方公司去做分析,然后得到商业价值。还有一种是数据技术公司
,比如google,通过大数据不断地训练自己的神经网络,提供各种牛逼的功能。比如google翻译,google翻译的开发者其实没有一个人懂全世界那么多种语言,但是他们可以互转就是用了大数据,把大量的数据信息录入到数据库,然后以英语为中间语言,互相转换。还有一种公司是大数据思维
公司,也就是第一个例子中twitter授权给分析的公司,这种公司主要是做数据分析
,自己不产生源数据。
大数据也带来一些问题和挑战
隐私问题。
在大数据下面,每个人几乎都是“裸体”的,只要有耐性,你在网络上的信息都可以分析到,甚至可以精确到你的住址,家人,朋友,以及朋友的朋友,家人的朋友。
数据结果滥用。
比如错把相关性当初因果性,狗叫时你就拿了个武器去把对方放到了,结果一看是亲戚艾玛。另外是大数据往往是反映了群体性的结果,而不是单个人的结果。通过主观意识,把总体的行为反馈到个人行为身上,产生数据保证。比如种族歧视就是最好的例子。
大数据神棍。
没错,就是通过数据分析,得出一些结果,就依次推导未来的发展。再次声明,数据只能提供相关性,不提供因果性,数据只能说明有点关系,不能推导出什么玩意。最好的预测未来就是去创造未来。 如果一切都按数据说了算,福特就不会发明汽车了。苹果手机,You think too beatiful !
本书最重要的一个理念就是:在大数据时代,相关性比因果性更重要,同时不要把相关性错当为因果性。