天空中的一个模式分享 http://blog.sciencenet.cn/u/jiangxun 本博将以数学杂文为主,科技杂文为辅,其它杂文为补。

博文

新生的一类科学家 ─ 数据科学家

已有 10212 次阅读 2010-8-9 08:03 |个人分类:科技|系统分类:海外观察| 统计, 数据库, 科学家, 数据, 数据挖掘

作者:蒋迅


Source: Brett Ryder

我过去的一位同事 Ben Lorica 写了一篇文章:“how to nurture data scientists”,使我知道了一个新生的科学家分类:数据科学家 (data scientist)。这家伙以前是搞偏微分方程的。我早就知道他要去搞数据挖掘。看来是真的放弃了数学家的称号而当上了数据科学家了。数据科学家这个词在维基百科上都还没有,它到底是怎么定义的呢?

简单地 Google 了一下 (没有太多可翻阅的文献),知道了一个大概。用一句话概括地说,数据科学家就是一个综合了软件工程师、统计学家、和说书人这三种专业的技能的,能将金块从像山一样庞大的数据中挖掘出来的专业人士。谷歌 (Google) 的首席经济学家维黎安 (Hal Varian) 预测统计学家将会变得是最热门的工作。如果你仔细地阅读他的原文,你会发现,其实他说的就是数据科学家。他解释说,数据是随处可得,但是将智能从这些数据中萃取的的能力却是极短缺的。下面的一张图比较形像地表现了数据科学家的内涵。


Source: Data Designer

我理解,作为一个数据科学家,你必须能够有以下三个技能

第一,你必须能够处理具有统计意义的数据 (统计学家)。大量的数据都储存在有理数据库里,MS SQL SERVERORACLE,等等。这些数据当然不是国家统计局根据各省市上报的 GDP 得出一个全国的 DGP,或者国务院新闻办发表《中国互联网状况》白皮书说的“中国现有上百万个论坛”,每天人们通过论坛、新闻评论、博客等渠道发表的言论达300多万条 (平均每个论坛每天只有三个帖子)。那么这些数据大到什么程度呢?举几个例子:比如 twitter 帖子总数超过200亿;或者 Google 在一个月里全球访问量达5亿次,还有Google 收集的网页数目 (知道Google 的意思吗?就是10 的100 次方)。所以首先必须会用“Select”去获得你所希望的数据,而且,你面对的已经是数据仓库 (data warehouse)。

第二,你必须能够处理表面上看也许不具有统计意义的数据 (软件工程师)。如果有人在Twitter 上发言说要“到旧金山”,那么华尔街的股市会不会升?或者有人在 Google 网站上敲入“土豆片”,这对“可口可乐”没有有什么影响。这些数据表明上也许是不关联的。但如果你发现买“土豆片”的人通常会买“可口可乐”的话,那你的发现可能具有很大的商业潜力。这就是“数据挖掘”(data mining)。

第三,你必须能够把你的数据表现出来 (说书人)。如果你的结果仍然是一堆数的话,恐怕影响会微乎其微。你必须让你的数据图像化,让它们自己说话。颜色、形状、3D、动态。想尽办法吧。有一个“数据之美”系列可能对你有所帮助。

软件工程师、统计学家、和说书人这三种专业的技能,缺一不可。我想,将来要求的技能还会更多。如果你想成为一名数据科学家,那么我建议你认真地阅读 Lorica 的文章“如何培养一名数据科学家”。他的文章不仅对於个人有用,对於那些需要数据科学家的企业也有指导意义。我唯一觉得有些缺陷的是,他没有提供培养数据科学家的教育资源。但也许这样的资源本来就是一个零。Lorica现在是欧莱礼 (O'Reilly) 的研究员。难怪他会写关于数据科学家。O'Reilly 刚刚出了一本新书“Beautiful Data”。但是,漂亮的数据不是人为的涂脂抹粉,而是数据科学家们智慧的结晶。

国内对这个新的动向似乎还没有察觉到。希望本文能引起国内科技工作者们对这一新行业的关注。



https://wap.sciencenet.cn/blog-420554-351226.html

上一篇:老照片:奇形怪状的古董飞机
下一篇:这闹钟够数学的
收藏 IP: 198.123.55.*| 热度|

13 于薇 赵凤光 赵星 唐常杰 汤浙江 罗汉江 李传亮 王号 任国鹏 杨正瓴 张钫 金小伟 杨华磊

发表评论 评论 (7 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-26 07:34

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部