李维老师今天发了篇很有意思的博文:《西方怎么看转基因:英文社交媒体大数据调查告诉你》。非常不好意思,我根本就不关注转,还是反,我关注的是:大数据。大数据扯呼来忽悠去的,这一年无论开什么会,所有的人如果没有个“大数据”的口头禅,都不好意思说自己是个科研工作者。这得感谢科大的学弟周涛,辛辛苦苦把舍恩伯格的《大数据时代》翻译成中文,结果书一出来立即受到广泛的追捧,大家见面了不能说你看没看过《大数据时代》,而是得说,不好意思,兄弟我昨晚上又看了遍,略有心得啊。然后一副莫测高深的样子。啥?没读过?赶紧去买本好好读读,搞生信的不读这本书以后没得混了。哦,忘记说了,其实这书写的不咋滴,就是忽悠了一个简单的概念:大数据。老外嘛,历来都是踩着西瓜皮写书,滑哪儿写哪儿,有的没的啥都敢写,像巴拉巴西的《爆发》,好好写你的网络不行?非要扯个塞克勒出来,关键是这个塞克勒跟他的祖先巴拉巴西总督还挺有点儿渊源(正常,匈牙利巴掌大的地方,街坊邻居互相都能认识)。巴拉巴西还正够认真,专门跑回老家去查历史档案。《爆发》写的很精彩,推荐指数绝对五星。
书看了一堆,可是大数据究竟咋回事儿,知道的人一知半解,不知道的也就打打酱油,比如我就是瞎掺合的。另外,就大数据所提的几个基本概念,比如,全体数据、数据混杂性和关联分析等,作为一个搞生信的我就得呵呵了:听过啥叫Genome-scale analysis吗?生信玩这个东西已经玩10几年了,所以生物数据本来就是大数据,大家一直在玩,并且就是这么玩的。可咱一直玩的,跟现在大家所说的“大数据”,有没有区别?
李老师博文里用到的技术不复杂,一个词频分析和显示的工具,一个统计饼图,数据是从社交媒体上获得的,也就一个月的数据,体量不算大,但的的确确很好的体现了“大数据”的概念。首先,数据的跨度不重要,一个月也好,一年也好,这个无所谓,重要的是“全体数据”。并且,考虑到社交媒体本身的复杂性和重复性,获得的数据未必是干净的,或者说,100%可靠的。这个也无所谓,大数据不在乎这个。再次,大数据不讲因果,只看关联,就几张图的展示结果来看,正方反方的观点一目了然,很清晰。而且因为技术简单,所以我这种外行毫不费力的就可以看懂结果,赞!能简单说清楚的,就不需要复杂。还有,虽然李老师不说结论,其实结论是显然的,那就是:有争议。并且,你还真没什么办法来质疑他的结论。仔细看了评论和李老师的回复,大致的意见是,1) 社交媒体来做这种分析恐怕不靠谱吧?这个就笑话了,读读《爆发》,实在不行再读读《链接》,你会发现大数据能做的事情远不止这些,所以国内要大力推广创新思维的教育,别整那些没有做不到只有想不到,人家老外咋就能想到?有句话叫什么is impossible呢,自己琢磨琢磨去吧。2) 分析技术不靠谱吧?您这个恐怕就在鄙视李老师的专业修养了,这篇博文用到的技术真心不难,而且对大数据来说,去噪不是必须的,看关联就得了。3) 其他问题。您都问这么trivial的问题了,想必是有兴趣了。
所以,结论一,李老师的博文是我看见的第一个体现“大数据”理念,并且能让我这种外行一下子就能看懂的工作。
转自:
科学网—大数据一出,谁与争锋?& 赞李维老师的博文 - 薛宇的博文[10]李维
表面上赞我,实际上赞大数据,这样更高。
不过你反复说技术不复杂,搞得我好像捡了便宜似的。
可以说的是,技术也不简单。
当然,很多人做 keyword 词频统计来挖掘大数据,在某些问题上也可能成功,甚至某些结果也可以逼近高技术。但总体而言,对于混杂的社会媒体,那样做比我的技术要差太多,走不下去的。不信你试试就知道了。
[9]李维
by the way 喜欢你行文的风格,看着不累人。长而不闷,聊家常似的。
朋友寄送来这么一个讥讽大数据和大数据工作者的帖子,也从侧面反映了这个 buzz word 在中外的热度,绝对称得上2013科技流行词。
转载本文请联系原作者获取授权,同时请注明本文来自李维科学网博客。
链接地址:https://wap.sciencenet.cn/blog-362400-752933.html?mobile=1
收藏