asrman: 大数据在工业界流行的黑暗真相

Saturday, April 11, 2015

大数据在工业界流行的黑暗真相 - 未名空间(mitbbs.com)

大数据在工业界流行的黑暗真相 - 未名空间(mitbbs.com):

这两天在faculty版上灌水纠结大数据概念，让我突然想明白了大数据在工业界兴起的
原因：
很多规律在数据量大了以后都会变得很显然，算法再傻B，在超大量数据作用下效果也
会变得很好。因为开发牛B算法开销很大风险很高，而获取数据对不少公司而言很容易。
所以会出现一个大数据潮流，大家都指着数据变成救命法宝。
比如大数据的源头Google，Pagerank其实就是个幌子，真正优化Google搜索结果的其实
是人民群众。结果被点得多了排名就上去了。算法够傻B吧。还有Google翻译也用到了
大数据技术。算法是否傻B是和系统复杂度相对的。比如linear regression，数据量小用
atlab三五行就写出来了。数据量大了就得上Hadoop, Spark，支持运算的平台比真正的
算法要复杂得多得多。

但真相果真如此吗？做过machine learning的人都知道，数据量增大对于结果改善的边
际效应是递减的，而且往往是指数递减的。需要获得10个百分点的提高，可能需要成千
上万，甚至亿万倍的数据量。真是有点愚公移山的感觉了。

大数据的驱动力背后还有更黑暗的真相：提高barrier to entry。这世上聪明人很多。
工业界忽悠算法其实是最危险的。因为算法的发明往往是单枪匹马干的。如果一个大公
司建立在一个算法的基础之上，岂不是有被但强匹马干掉的危险？特别是学术界虽然不
济，几百年才出一个牛顿爱因斯坦这样的人物，但方法论一直是正确的，难保不出一两
个真正管用的新算法。现在告诉你，你没个一千台机器就没法做研究，把智力门槛转换
成资本门槛，并且搞
一个虚无飘渺的概念，把funding标准从科研水准转换成忽悠水准。以此打击真正的科
学研究，试图多维持几年大公司的盈利。其用心不可不谓险恶。

此计一出，大合那些脑子已经使不动了的学霸的心意，于是大数据一夜之间就火了。

'via Blog this'

asrman

Blog Archive

Saturday, April 11, 2015

大数据在工业界流行的黑暗真相 - 未名空间(mitbbs.com)

No comments:

Post a Comment