海宇之涧分享 http://blog.sciencenet.cn/u/iKnow

博文

[2010-02-21] 一场关于Google成功因素的大辩论

已有 7065 次阅读 2010-3-12 23:47 |个人分类:科研点滴|系统分类:观点评述

我也参与其中,在百合上扮演了iKnow,在水木上扮演了SeaCloudHill。

--------------------------------------------------------
发信人: iKnow (C海S田·九九不息·海纳百川), 信区: D_Computer
标  题: Google的PageRank源于1941年!


原来Google的PageRank可以追溯到60年前!

1941年,经济学家Leontief发明这种方法来分析产业,1973年他获得了诺贝尔奖;
1965年,社会学家Hubbel利用该方法分析人群;
1976年 Pinski & Narin用来分析期刊;
90年代,Jon Kleinberg提出了HITS算法;
最后,Brin & Page的pageRank诞生了!

http://www.physorg.com/news185780169.html


--------------------------------------------------------
发信人: iKnow (C海S田·九九不息·海纳百川), 信区: D_Computer


其实我发这个帖子不仅仅是因为PageRank本身的历史,而是觉得这也许又将会成为研究史
中“他山之石,可以攻玉”的一个经典例子,也可以给我们一些借鉴。
这一点,我很认同这个报道中一个回帖:

"Its worth digging into old science as it often contains solutions for 
specific problems at that time but carry a much broader scope than forseen.

Take the famous Fast Fourier transformation, Fourier probably did not forsee 
the intensive reliance on FFT math in present digital age. Without FFT, the 
internet, mobile phone networks, consumer electronics would not have taken 
such a flight. 

It might be worth to learn an old dog new tricks, but a new dog and some old 
tricks might work as well."


--------------------------------------------------------
发信人: wutherings (【吳】君子剑*秋水共C天一S), 信区: D_Computer


google又不是牛逼在pagerank
在现实应用中光靠AI的算法是没用的,这些统计、启发式的东西大家都会

google的系统、存储、运营等才是他们的王牌


--------------------------------------------------------
发信人: iKnow (C海S田·九九不息·海纳百川), 信区: D_Computer


非常好的观点。
关于google的核心技术,计算机系统结构与应用的关系,之前在水木上有过一次大讨论。
我把它们整理一下贴过来。

=================================================
故事起因是2009年CCF优秀博士论文评选,复旦大学的陈海波研究方向是系统结构,发表
了一系列高质量的论文,包括ISCA、OSDI、Micro、ICSE,IEEE TSE等,但在这个评比中
排名比较靠后,从而引起了讨论。

抛开排名这件事,我觉得这个讨论提出了一个问题,我们该如何理解和对待计算机各个
学科之间的关系呢?在自己的研究领域中,我们都知道“如何选择有意义的方向、如何
选择有价值的问题”非常重要;如果扩大到计算机大学科的多个方向时,是否也要做这
样的选择?我们每个人都会认为自己的研究领域是非常重要的,自己的研究是非常有价
值的,但“重要”和“价值”怎么判断呢?
=================================================

http://www.newsmth.net/bbscon.php?bid=188&id=425446

☆─────────────────────────────────────☆
   jianglingjie (我是一只迷茫的乌鸦) 于  (Sat Nov 28 09:34:32 2009)  提到:

2009年度CCF优秀博士学位论文奖名单
(以得票由高到低排序。得票相等时,按作者姓氏拼音为序)
 
序号 姓  名 所在单位 论 文 题 目 指导老师 
1 季向阳 中科院计算所 可伸缩视频编码研究 赵德斌 
2 罗  平 中科院计算机 分布式数据挖掘算法与信息理论的研究 史忠植 
3 谢  逸 中山大学 应用层HTTP攻击检测关键技术研究 余顺争 
4 徐  昆 清华大学 可视媒体的高效编辑与实时绘制 胡事民 
5 黎  铭 南京大学 单视图协同训练方法的研究 周志华 
6 王宏志 哈尔滨工业大学 XML数据查询处理技术的研究 李建中 
7  陈海波 复旦大学 云计算平台可信性增强技术的研究 臧斌宇 
8  李绿周 中山大学 量子计算模型的等价性判定及量子通信中的若干基本问题 邱道文 
9 朱  军 清华大学 最大熵判别式马尔可夫网络:理论与应用 张  钹 
10 孙海龙 北京航空航天大学 服务网格资源管理技术与系统研究 怀进鹏 

 
 
2009年度CCF优秀博士学位论文提名奖名单
 
(以得票由高到低排序。得票相等时,按作者姓氏拼音为序)
序号 姓  名 所在单位 论 文 题 目 指导老师 
1 李  斌 复旦大学 概率混合模型的研究及其应用 薛向阳 
2  任开军 国防科技大学 基于QSQL的高效语义Web服务发现及合成关键技术研究 宋君强 
3
  严  俊 中科院软件所
  基于约束求解的自动化软件测试研究 张  健 
4  涂旭平 华中科技大学 对等流媒体直播系统带宽资源优化研究 金  海 
5  邹  磊 华中科技大学 图数据库中的子图查询方法研究 卢炎生 



☆─────────────────────────────────────☆
...................


☆─────────────────────────────────────☆
   doubling (doubling) 于  (Tue Dec  1 08:30:22 2009)  提到:

陈海波居然前五都没有?!
他有ISCA有OSDI,前面那群人没这个量级的吧

查了查,最近还有个Micro

☆─────────────────────────────────────☆
...................


☆─────────────────────────────────────☆
   cwg2003 (cwg) 于  (Thu Dec  3 22:12:13 2009)  提到:

陈海波是OSDI 2008论文的第2作者,这篇文章是MIT教授 Frans Kashoeek在2008年上半年
学术休假的时候访问微软亚洲研究院的时候,陈海波参与完成的,同时参与还有复旦、西
安交大和微软亚洲研究院的其他研究者。

海波的为这篇文章做了很多的实现工作,因此最后列为第2作者。

抛开这篇文章不算,他第一作者文章有一篇ISCA 2008, 一篇MICRO 2010, 一篇ICSE。I
SCA是近10年内中国的第2篇,MICRO是近10年中国的第1篇。

【 在 lwlojj (lwlojj) 的大作中提到: 】
: 吹牛吧,居然有OSDI的文章?作为老外的附件吧



☆─────────────────────────────────────☆
   cbir (26:11:53:67) 于  (Thu Dec  3 22:20:50 2009)  提到:

国内在操作系统、系统结构方向水平太低所致?

以前在应用领域某人发了某某会议的第一篇,也是觉得巨牛无比,但是现在国内比比皆
是了。


【 在 cwg2003 (cwg) 的大作中提到: 】
: 陈海波是OSDI 2008论文的第2作者,这篇文章是MIT教授 Frans Kashoeek
: ...................


☆─────────────────────────────────────☆
   cwg2003 (cwg) 于  (Thu Dec  3 22:55:20 2009)  提到:

(1)对比一下操作系统、系统结构会议的录用篇数和你说的应用领域的会议的录用篇数
(2)对比一下在操作系统、系统结构会议上主要发表文章的机构和大学,和你说的应用领
域的会议上发论文的机构和大学

我的基本看法是:系统结构和操作系统会议录用文章一般较少,而且基本是和世界一流大
学和大公司在竞争,即使在美国,二流大学一般做不了操作系统和系统结构研究
在中国,从事这两方面研究的也是中国最好的大学和研究所。

因此,能够在ISCA,MICRO,OSDI上发文章,难度远大于在应用领域的某某会议,如果你看
CITESEER的引用次数排名,也可以看到这一点,系统类会议的篇均引用次数要遥遥领先。

因此不可讲国内在这些领域的水平太低,主要是竞争对手不同。

以日本、新加坡、香港为例,在很多应用领域,他们都能在顶级会议上灌水,似乎比我们
大陆还能灌,但在系统结构和操作系统领域,基本是0.

因此,海波的工作是具有指标性意义的,但是很遗憾,这次CCF评委中没有这两个领域的人
(因为有候选人的学校不能出评委,而做这两个领域的学校都有人参评),因此没有给予
他的工作应有的承认。

【 在 cbir (26:11:53:67) 的大作中提到: 】
: 国内在操作系统、系统结构方向水平太低所致?
: ...................


☆─────────────────────────────────────☆
...................



☆─────────────────────────────────────☆
   cbir (26:11:53:67) 于  (Thu Dec  3 23:06:07 2009)  提到:

那是不是可以这样理解: 做系统结构、操作系统的门槛太高了,门槛包括资金、人才等
等。能做这类研究的单位太少了,所以会议少,会议录用的文章也少。

这种“少”是否和“水平”等价呢? 难说。 要做这类研究必须先有个平台,没有平台
,再有水平也做不了。

但我基本同意,系统结构、操作系统顶级会议上的文章应该都很硬,而应用类会议上的
文章周期短、文章多,质量低的也较多。



【 在 cwg2003 (cwg) 的大作中提到: 】
: (1)对比一下操作系统、系统结构会议的录用篇数和你说的应用领域的会议的
: ...................



☆─────────────────────────────────────☆
 : ...................



☆─────────────────────────────────────☆
   cwg2003 (cwg) 于  (Thu Dec  3 23:34:11 2009)  提到:

做操作系统和系统结构研究的资金门槛并不高, 但对人才的要求确实很高,即使在清华计算
机系,也不超过30%的学生适合今后从事操作系统研究和开发,因为操作系统的复杂度实在
是太大了

比较不同领域的水平实在是很难的事情,但是从发表论文的难度来看,区别是非常明显的

即使MIT Frans Kashoek这样的大牛,一年也就发4篇左右的论文,可是我们国内在应用的
好会上一年发10篇的牛们可不少

所以如果大家靠论文数做评价,做这系统、结构两个领域的一定吃大亏


【 在 cbir (26:11:53:67) 的大作中提到: 】
: 那是不是可以这样理解: 做系统结构、操作系统的门槛太高了,门槛包括资金、
: ...................



☆─────────────────────────────────────☆
   Levis (BD) 于  (Fri Dec  4 00:36:16 2009)  提到:

陈的那篇ISCA2008很大程度上是因为那年ISCA在中国开而已,别看的太高。李凯怎么也要
照顾一下东道主的感受。
MICRO 2009还没开,哪里来的2010?笔误。
不过确实清华在这方面落后太多了。马上开的HPCA,中科院计算所胡伟武和国防科大各一
篇。清华还是零。
10月份去ICCD和国内来开会的学生聊天,清华的计算机体系结构和微电子着实的被隔壁鄙
视了...
我清加油....
【 在 cwg2003 (cwg) 的大作中提到: 】
: (1)对比一下操作系统、系统结构会议的录用篇数和你说的应用领域的会议的录
: ...................



☆─────────────────────────────────────☆
   cwg2003 (cwg) 于  (Fri Dec  4 00:59:02 2009)  提到:

海波的文章REVIEW分数很高,不需要被照顾,你可以到CSARCH版去搜搜看。

李凯是GENERAL CHAIR, 不是PC CHAIR, 没有权利照顾谁。你可以去问李凯老师,那篇文
章是否有照顾的因素,不要在这里乱猜

MICRO是我笔误,感谢你指出。

龙芯和国防科大是真正流片做CPU的,只要他们想发文章,今后文章会越发越好,比起国外
大学在某些方面都会有优势

清华在微体系结构方面确实需要加油,不过确实比较两难:做基于模拟的研究,与国外一
流大学竞争会很难,想去流片做实际芯片,拿不到大的芯片项目,经费又不够。希望最近
拿到的核高基研究芯片项目会带来好的影响

不过在广义的体系结构、系统领域,特别是并行、超级计算领域,清华做得并不差,
并行/多核带来的问题需要软硬件多个层次的技术协同解决,在这方面,我自认为清华目前
做得不错,连续几篇PPOPP/SC就是证明,今后也还是大有可为的


【 在 Levis (BD) 的大作中提到: 】
: 陈的那篇ISCA2008很大程度上是因为那年ISCA在中国开而已,别看的太高。
: ...................



☆─────────────────────────────────────☆
   Levis (BD) 于  (Fri Dec  4 01:11:16 2009)  提到:

ISCA的事情我确实不了解,道个谦。本意是鼓励一下母校。其实清华在我这行被照顾的我
就知道不少,包括一些突破之类。
03年我去信产部高科技司和他们聊,人家一见我就来了一句:你们清华牛啊,计算所和北
大都是一摊人搞CPU,你们清华三家。胡伟武说他们那里那时候有差不多100个人在做,程
旭那里有70几个,清华牛,三家每家20个。
后来的结果大家都知道了...
昨天看了一篇文章讲google副总裁说道,公司有时候要少招优秀的人,看来是有道理的。
总体上来说清华计算机系在弱电类三个系中还是做得最好的,已经基本跨过了发牛文章的
瓶颈。现在是要做大项目的时候了。

【 在 cwg2003 (cwg) 的大作中提到: 】
: 海波的文章REVIEW分数很高,不需要被照顾,你可以到CSARCH版去搜搜看。
: ...................



☆─────────────────────────────────────☆
   doubling (doubling) 于  (Fri Dec  4 02:31:06 2009)  提到:

还有造成的不好影响是中国很多聪明的学生(和年轻老师)都扑到了machine learning, 
data mining,vision,information retrieval这些短平快论文水多容易发top conf的领
域,为了出国或者是毕业或者升职之类的。而OS,arch,compiler这些CS里面的关键领域,
需要耐心和高基础知识要求的,没有人去做。这对中国CS的发展很不利的。

【 在 cwg2003 (cwg) 的大作中提到: 】
: (1)对比一下操作系统、系统结构会议的录用篇数和你说的应用领域的会议的录
: ...................



☆─────────────────────────────────────☆
...................



☆─────────────────────────────────────☆
   cbir (26:11:53:67) 于  (Fri Dec  4 09:56:05 2009)  提到:

我不同意“操作系统要比其他领域难度大的太多”,各个领域对人才素质的要求不同,无
法比谁难谁易。应用领域容易发文章,但是应用领域里面也有非常困难的问题,即使发了
那么多文章的人也解决不了。所以系统结构和应用领域比较时,就不要拿文章数来比较了

还有一个问题是:一个人在很少人做的领域内做到了top,和另一个人在很多人做的领域内
做到了top,哪个水平高呢?

最简单的一个比较方式是: 谁在自己的领域做到了国际顶尖水平?
拿这个问题来考察一下以上获奖的各位,孰高孰低就出来了。

当然,以上的获奖的很多同学都非常出色。

【 在 cwg2003 (cwg) 的大作中提到: 】
: 做操作系统和系统结构研究的资金门槛并不高, 但对人才的要求确实很高,即使在清华
: ...................



☆─────────────────────────────────────☆
...................


☆─────────────────────────────────────☆
   cwg2003 (cwg) 于  (Fri Dec  4 13:59:04 2009)  提到:

我从来没有说过“操作系统别其它领域难度大的太多”,我说的是“在操作系统领域要发
表好的论文难度比其它领域大”

不同领域对人有不同的要求,做应用方向当然也需要天才,也吸引了很多天才,不过我的
实验室里的男生经常给他们在应用方向的女朋友写程序也是事实

关于数文章,做系统的人恰恰不希望用文章数来比,但是大多数外行不会别的,就会数论
文,甚至连发表论文的难度上的差别都视而不见

关于人多人少的问题,我觉得没有任何意义。你说是在县城高考得第一名容易,还是在清
华本科班里得前3名容易?不在于人的多少,在和谁竞争。

什么叫国际顶尖水平?我觉得大多数获奖的博士生都还远远达不到,最多算是在有人看的
地方发表了论文而已,奢谈顶尖无益

【 在 cbir (26:11:53:67) 的大作中提到: 】
: 我不同意“操作系统要比其他领域难度大的太多”
: ...................



☆─────────────────────────────────────☆
...................
 


☆─────────────────────────────────────☆
   cbir (26:11:53:67) 于  (Fri Dec  4 15:41:13 2009)  提到:

我是从这句话理解的:“做操作系统和系统结构研究的资金门槛并不高, 但对人才的要求
确实很高,即使在清华计算机系,也不超过30%的学生适合今后从事操作系统研究和开发
,因为操作系统的复杂度实在是太大了”,呵呵,我断章取义,请谅解。

我也反对靠数论文来评比,不管在什么方向,在这一点,我们的看法是相同的。我想阐明
的观点是,各个领域之间差别很大,不要关公战秦琼。不要因为系统领域发文章少,就贬
低,也不要因为应用领域发文章多,就认为质量低。

还有,说到国际顶尖水平,以我的了解,清华计算机系的朱军的工作在本领域内是国际顶
尖的,不是看论文数量、发表在什么地方,单纯看工作质量。这一点应该会得到同行的认
可。

应用领域也有美国牛校做的,所以应用领域、系统领域的竞争对手都是全世界范围内的,
不是县城和清华的区别。

【 在 cwg2003 (cwg) 的大作中提到: 】

: 我从来没有说过“操作系统别其它领域难度大的太多”,我说的是“在操作系统领域
: ...................





☆─────────────────────────────────────☆
   Lockfree (百无禁忌) 于  (Fri Dec  4 19:53:07 2009)  提到:

“操作系统比其他领域难度大”还是有道理的,扩展到广义的系统结构来说,包括
OS、ARCH、Network都在内的话,主要有两个原因:
(1)一个是处在本身发展的瓶颈期,大牛们也没有什么开拓性的主意
(2)再一个是系统本身是平台性技术,其问题规模是多维度的,而应用系统的话则相对简
单些,比如操作系统会需要几千万行代码,甚至专用的RTOS都达到这种规模,其他应用系
统则不会如此;又比如多核处理器,其数量稍微增加带来互联等问题成几何级数增加

【 在 cbir (26:11:53:67) 的大作中提到: 】
..
: ...................



☆─────────────────────────────────────☆
   cbir (26:11:53:67) 于  (Fri Dec  4 22:55:21 2009)  提到:

我理解系统领域发文章要比其他领域难。但是不同意科研比其他领域难,各个领域各有
难,特点不同,应用领域上手快,但是在人海中做出特色也非常难。

你说的是一个类型的科研中的通用难题,就是做系统研究的难题,一个领域发展到瓶颈
期,是否意味着这个领域夕阳了?(恕我瞎说) 在控制领域好像也有这样的问题,还有
这种平台性技术,不是单枪匹马可以搞定,是否像航天工程一样呢。

不想从对文章的崇拜到全盘否定,我是为了抬杠而抬杠的,以上各位所说的大部分观点
,我都赞同。


【 在 Lockfree (百无禁忌) 的大作中提到: 】
: “操作系统比其他领域难度大”还是有道理的,扩展到广义的系统结构来说,包括
: ...................




☆─────────────────────────────────────☆
...................



☆─────────────────────────────────────☆
   Lockfree (百无禁忌) 于  (Sat Dec  5 09:27:47 2009)  提到:

单单易上手这件事情就足以说明门槛对初学者的影响,一般认为系统结构相关领域门槛高
的原因我理解一个原因是比较烧钱,纯搞模拟有如隔靴搔痒;再一个从逻辑上说它属于基

建设型的,其发展本身影响上层应用的发展,反过来又被上层应用影响其生命周期,导致
好技术未必成功于是死亡,烂系统凭借上层支持能历久弥新,补丁不断,难有结构性发展


同样的好学生,进入易上手的领域,可能往前走的早些,发论文也早些,自信心也不容易

摧残;进入相对门槛高的领域会多郁闷一点。好比在上层加一块砖容易看清楚,但一上来

得先去地基里挖坑,施工图还是好几十年破破烂烂补丁层叠,一下就晕倒是痕常见的。

至于说到航天工程,那个里面牵扯到的管理工程就很大,所以应该属于是大的工程系统,
个人以为与咱们这里说的系统应该不是一类。

但想想也不是完全不能类比,系统结构是不是不值得投入几千人、几万人搞个什么工程呢

从这个角度来说,没有自主的CPU、自主的OS、自主的Network在以后会变成
没有自己的火箭、飞船、大飞机、航母、核武器这样的问题。

呵呵,发散了一下,大家一笑。

【 在 cbir (26:11:53:67) 的大作中提到: 】
: 我理解系统领域发文章要比其他领域难。但是不同意科研比其他领域难,
: ...................



☆─────────────────────────────────────☆
   Marduk (Marduk) 于  (Sat Dec  5 10:11:18 2009)  提到:

cpu、os这些都得烧钱啊,投入不足,做出来的也就跟物理上的toy model没什么区别,就
看能否争取到大的资助了。
【 在 Lockfree (百无禁忌) 的大作中提到: 】
: 单单易上手这件事情就足以说明门槛对初学者的影响,一般认为系统结构相
: ...................



☆─────────────────────────────────────☆
   nkwht (行胜于言) 于  (Sat Dec  5 12:08:41 2009)  提到:

感觉中国人更适合在逻辑、算法问题上出成果,简单说就是靠最简单的纸和笔就能干的

至于系统级别的研究,我觉得这类科研问题更多的是来源于实践,来自于工业界的需求

而由于中国并非市场经济,虽然也有各类企业,但规模大的都是政府主导的

活力不足,也无法给科研机构提出足够有挑战性的课题进行研究了

有活力的民企,规模小的时候,为了短期利益,很难有基础性需求提出


【 在 Lockfree (百无禁忌) 的大作中提到: 】
: 单单易上手这件事情就足以说明门槛对初学者的影响,一般认为系统结构相
: ...................



☆─────────────────────────────────────☆
   abeyie (-_-b) 于  (Sat Dec  5 12:40:45 2009)  提到:

系统这个领域发文章很难和他在CS领域里的重要地位是有它的道理的
会议严格控制,接收paper很少,而且工作需要大量时间
可能每年系统整个大方向的top paper的数量只有machine learning、computer vision这
样的1/50,像ML,CV这样的PHD发5,6篇top conf的学生都只能算中等的水平,系统发1,2
篇,参与完成1,2个项目就很不得了了
而且系统每年创造的实用和经济效益非常高,可能是这些应用领域整体的几十,上百倍

【 在 cbir (26:11:53:67) 的大作中提到: 】
: 我不同意“操作系统要比其他领域难度大的太多”,各个领域对人才素质的
: ...................



☆─────────────────────────────────────☆
   doubling (doubling) 于  (Sat Dec  5 13:01:48 2009)  提到:

其实paper多少对在国外的phd学生影响倒不是很大,因为每个领域都是内部竞争,而在美
国没有哪个学校胆敢不招system, architecture, compiler的新教授

在中国这情况就不好了,因为大家很多都是算篇数,而且上面那些出成果的周期长,所以
年轻老师和要出国的年轻学生全扑到AI,graphics这些上去了

【 在 abeyie (-_-b) 的大作中提到: 】
: 系统这个领域发文章很难和他在CS领域里的重要地位是有它的道理的
: ...................



☆─────────────────────────────────────☆
   SeaCloudHill (Sea(大海)Cloud(白云)Hill(山岗)) 于  (Sat Dec  5 16:28:2
1 2009)  提到:

不同的领域评判标准有很大的差异性,不要说生物和计算了,就是计算机领域的不同子
方向,也会有很大的差别。

有一份报告很有意思,分析了1965-2000年以来形成1B+市场规模的IT技术的起源于发
展,一共有19个(见附件)。(National Research Council. Assessment of 
Department of Defense Basic Research. The National Academies Press, 
Washington D.C., 2005.)

分别是:
----------------
Timesharing,Client/server,Graphics,Entertainment,Internet,LANs,
Workstations,GUI,VLSI design,RISC processors,Relational DB,Parallel 
DB,Data mining,Parallel computing,RAID disk arrays,Portable comm.,World 
Wide Web,Speech recognition,Broadband last mile
----------------

这19个技术中和广义上的System相关的有11个——Timesharing,Client/server,
Internet,LANs,Workstations,VLSI design,RISC processors,Parallel 
computing,RAID disk arrays,Portable comm.,Broadband last mile。(总结的有
点主观,但基本没错)

这份资料一定程度上从历史的角度来解释了system领域的研究人员所追求的并不全是
paper。事实上,很多做System的牛人并不希望研究成果仅仅停留在paper上,而是更希
望成果能直接作用于产业,推动产业的发展。

很欣赏一些system牛人,一篇paper章就能引导开创一个新产业。
所以,我发现几乎所有的system牛人不仅有牛paper,而且都开过公司。



【 在 abeyie (-_-b) 的大作中提到: 】
: 系统这个领域发文章很难和他在CS领域里的重要地位是有它的道理的
: ...................



☆─────────────────────────────────────☆
   cbir (26:11:53:67) 于  (Sat Dec  5 21:04:09 2009)  提到:

应用领域真正有影响的工作也是通过system体现的,只不过这个system和系统结构的sy
stem不同。尽管应用领域发文章容易,但是能产生实质影响的也多数是通过系统。应用
领域一篇paper也能开拓一个行业,譬如google。

现在清华计算机系博士毕业答辩时,除了要做论文答辩之外,还要做demo演示。

无它,因为上面很多系统结构的网友在强调系统的重要性,无意识的会拿计算机应用技
术做对比,我想为我们计算机应用基础方向正名一下,计算机应用不全是奇技淫巧,呵
呵。


【 在 SeaCloudHill (Sea(大海)Cloud(白云)Hill(山岗)) 的大作中提到: 】
: 不同的领域评判标准有很大的差异性,不要说生物和计算了,就是计算机领域的
: ...................



☆─────────────────────────────────────☆
...................



☆─────────────────────────────────────☆
   SeaCloudHill (Sea(大海)Cloud(白云)Hill(山岗)) 于  (Sat Dec  

“能产生实质影响的也多数是通过系统”
——非常赞同这句话。

我觉得一直觉得google是一个应用技术和系统技术结合的非常完美的企业。
Pagerank让google成名,而MapReduce, BigTable, GFS这些系统技术则让google成功。

今年当选的65位美国工程院院士中,有3位是来自Google的。其中1位是Google创始人,
因为Pangerank以及索引技术,还有2位则是因为Google的系统技术。分别是:

-------------
1. SERGEY BRIN, co-founder and president of technology, Google Inc., 
Mountain View, Calif.  For leadership in development of rapid indexing and 
retrieval of relevant information from the World Wide Web.

2. JEFFREY DEAN, Google Fellow, Google Inc., Mountain View, Calif.  For 
contributions to the science and engineering of large-scale distributed 
computer systems.

3. SANJAY GHEMAWAT, Google Fellow, Google Inc., Mountain View, Calif.  For 
contributions to the science and engineering of large-scale distributed 
computer systems.
-------------

很多企业、学校都可以复制google的pagerank技术(暂先不考虑专利),但是却很难复
制google的系统技术。即使非常流行的Hadoop(MapReduce的山寨版)其实也是因为大
公司Yahoo!的支持。当然,只有应用与系统完美的结合才创造了现在的Google,而个人
感觉Google越来越想在System方面有更大作为,比如高调发布Android,ChromeOS等事
件也反映它的这种心态。


我是做系统的,也和做应用基础的朋友交流过,不过有时感觉他们不屑与做系统的讨论
学术,也许习惯了大堆的公式,对没有公式的东西都觉得naive吧。而做系统的则会觉
得整一堆的公式没有什么意义,只是为了发表paper文章,所谓的应用研究实际上并没
有“真正的应用”。所以,现在应用研究人员和系统研究人员之间确实缺少很好的学术
沟通,有点相互鄙视的意味。其实,做系统也有为了发文章而做的,做应用也有好的应
用例子(比如BellKor Group利用Machine Learning技术赢得了Netflix的提高10%性能
的百万美元悬赏)。

我也很想把一些应用技术和系统技术结合起来,做点有趣的东西。
当然,现在功力还不够,慢慢积累吧。


【 在 cbir (26:11:53:67) 的大作中提到: 】
: 应用领域真正有影响的工作也是通过system体现的,只不过这个system和系统结构的
: ...................



☆─────────────────────────────────────☆
...................



☆─────────────────────────────────────☆
   cwg2003 (cwg) 于  (Sun Dec  6 12:15:44 2009)  提到:

Google的成功绝不是一篇文章开拓的,这个PAGE RANK的公式大家都会,你会,我学起来也
不是那么难,那么GOOGLE的竞争优势到底在哪里?

实际上正是使用低成本的硬件系统,加上创新的系统软件,比如GFS, MAP-REDUCE, BIG-T
ABLE等,使得其它公司要达到同样的服务质量和数据处理能力要付出比GOOGLE大得多的成
本,包括微软,YAHOO在内,业内的公司无一能够达到GOOGLE在这方面的水平。国内baidu
做了两年,听说又要退回去使用YAHOO的HADOOP, alibaba刚刚开始自己做,结果如何还不
知道。但所有这些,都是纯正的“系统结构的system"方面的工作。Google雇佣了非常多的
操作系统,文件系统,编译器方面的人(当然我说的是美国的GOOGLE,不是中国GOOGLE),
为了持续自己在系统领域的优势。

你所说的“应用领域真正有影响的工作也是通过system体现的,只不过这个system和系统
结构的system不同。”,你能说出不同之处在哪里吗?

计算机系要求毕业要有demo的系统,只是提高培养质量的一种方式,这个“系统”确实和
“系统结构的system"方面的工作是不同的,不过千万不要抬高到影响力上去, DEMO与影
响力无关。

比如,系里有搜索课程,我就问过搜索课程是否讲在分布式文件系统上的搜索怎么做?是
否处理PB量级的数据?答案是否定的。这就是我们现在的“应用的(教学、演示)系统”
与“实际的有影响的系统”之间的差距。这个差距,不是搞应用技术的人来自己弥补的,
需要和做系统的人一起做。



【 在 cbir (26:11:53:67) 的大作中提到: 】
: 应用领域真正有影响的工作也是通过system体现的,只不过这个system和系统结构的sy
: ..................


☆─────────────────────────────────────☆
   cbir (26:11:53:67) 于  (Sun Dec  6 12:29:31 2009)  提到:

老师,我觉得你很歧视我们做应用的,呵呵。

【 在 cwg2003 (cwg) 的大作中提到: 】
: Google的成功绝不是一篇文章开拓的,这个PAGE RANK的公式大家都会,你会,
: ..................


☆─────────────────────────────────────☆
   cwg2003 (cwg) 于  (Sun Dec  6 12:39:18 2009)  提到:

绝对没这个意思,我们做系统的是弱势群体,文章发得少,总吃亏啊,呵呵。 所以在BBS
上多说两句。BBS上讨论总是容易跑题和偏激一点,见谅。

【 在 cbir (26:11:53:67) 的大作中提到: 】
: 老师,我觉得你很歧视我们做应用的,呵呵。


☆─────────────────────────────────────☆
   kaeru (青蛙) 于  (Sun Dec  6 19:39:22 2009)  提到:

并行处理在搜索引擎中固然重要,但并不是搜索本身的关键技术。
在google之前,人们找资料主要依靠yahoo,google是凭什么战胜yahoo的?
难道是并行技术?靠的还是以PageRank为代表的一系列信息检索技术。
注意是一系列,并不是PageRank一个技术,PageRank只是搜索引擎几百个参数
中的一个。
再说信息检索课,在有限的课时内,当然是讲与信息检索更加相关的基本内容,
比如PageRank的计算,倒排表的建立,索引压缩技术,相关排序算法等。
并行技术有并行的课呢。

【 在 cwg2003 (cwg) 的大作中提到: 】
: Google的成功绝不是一篇文章开拓的,这个PAGE RANK的公式大家都会,你会,
: ..................



☆─────────────────────────────────────☆
   Lost (似曾相识) 于  (Sun Dec  6 20:58:19 2009)  提到:

Google其实是个广告公司,它的技术更像是一个误导,告诉大家要赚钱就得花好多钱建一
个很复杂的系统,所以大多数人就根本连想都不用想了。
做大系统主要是一个门槛,要有那样的一个场景来应用和测试系统,如果没有那么多数据
用户请求,光听人说是理解不了的
我觉得Google有两点是值得学习的,一是因为大系统固有的复杂性,单兵作战是没戏的,
所以系统要composable,能利用别人的东西,而贵国的民工都喜欢从头再来,另一个表现
就是Google喜欢买小公司而国内喜欢自己造轮子;二是不玩太虚的通用性扩展性之类的,
简单直接,因此出活比较快,比如说android和chrome os对linux kernel的修改相当的被
诟病

我觉得自己要做系统的话,这两点都是必须记住的。一个例子是Greenplum,做data 
warehousing的startup,就是在postgreSQL上搭出来

Hadoop没有前途的,原因是Java和Yahoo都是loser。

还有个八卦,VMWare那哥们的老婆是VMWare之前的CEO,被董事会开掉以后他也跟着走人回
学校了

【 在 SeaCloudHill (Sea(大海)Cloud(白云)Hill(山岗)) 的大作中提到: 】
: “能产生实质影响的也多数是通过系统”
: ...................



☆─────────────────────────────────────☆
   USPresident (美国总统) 于  (Sun Dec  6 21:05:32 2009)  提到:

说了这么多,我很同意

我提一个更现实的问题,既然系统方向不好出好论文,所以也比较难去
好的美国学校读博士,那怎么才能得到好的机会去参与,训练,提高自己的这种
系统开发方面的经验?


【 在 cwg2003 (cwg) 的大作中提到: 】
: Google的成功绝不是一篇文章开拓的,这个PAGE RANK的公式大家都会,你会,
: ...................



☆─────────────────────────────────────☆
...................


☆─────────────────────────────────────☆
   cwg2003 (cwg) 于  (Sun Dec  6 21:15:55 2009)  提到:

不是不出,是比较难出,所以不要数数论英雄,不同领域的一篇文章份量不同

不是不能去美国名校,相反,计算机系最近去MIT的两个人:
boost和chenjing都是做系统(包括系统结构)的


【 在 USPresident (美国总统) 的大作中提到: 】
: 好的美国学校读博士,那怎么才能得到好的机会去参与,训练,提高自己的这种
: ...................



☆─────────────────────────────────────☆
...................


☆─────────────────────────────────────☆
   cwg2003 (cwg) 于  (Sun Dec  6 21:29:25 2009)  提到:

呵呵,你还不能理解什么叫做“用同样的成本提供更高的质量”或者“用更低的成本提供
相同的质量”来获得竞争优势吧

我没有否认信息检索技术本身的价值,但是如果你否定信息检索技术与好的系统技术的结
合是必要的,我觉得你有必要拓宽一点视野

【 在 kaeru (青蛙) 的大作中提到: 】
: 并行处理在搜索引擎中固然重要,但并不是搜索本身的关键技术。
: ...................



☆─────────────────────────────────────☆
   cwg2003 (cwg) 于  (Sun Dec  6 21:34:40 2009)  提到:

GOOGLE可能不怎么考虑通用性,扩展性可是GOOGLE后台系统的本质特点之一
从CHROME和ANDROID看GOOGLE, 有点片面
Google还真是喜欢造轮子,从文件系统、数据库到编程语言,都自己造
新的东西里面,ANDROID是收购来的,算是个例外

【 在 Lost (似曾相识) 的大作中提到: 】
: Google其实是个广告公司,它的技术更像是一个误导,告诉大家要赚钱就得花好多
: ...................



☆─────────────────────────────────────☆
   kaeru (青蛙) 于  (Sun Dec  6 21:47:21 2009)  提到:

没有否认并行处理技术在信息检索中的重要性,因为毕竟数据量在那里摆着呢。
但是那么多做系统的为什么没有做出一个google呢?为什么是Page他们几个呢?
他们的博士论文研究的可不是系统、并行什么的。


【 在 cwg2003 (cwg) 的大作中提到: 】
: 呵呵,你还不能理解什么叫做“用同样的成本提供更高的质量”或者“用更低的
: ...................




☆─────────────────────────────────────☆
...................



☆─────────────────────────────────────☆
   USPresident (美国总统) 于  (Sun Dec  6 22:05:16 2009)  提到:

我知道你的意思是在GOOGLE这个例子里面,是
搞GFS的人给搞PAGE RANK的人打工。

【 在 kaeru (青蛙) 的大作中提到: 】
: 这就好比是拍电影,一部好的电影,肯定得益于摄影机和现代化制作设备的功劳,
: ...................。



☆─────────────────────────────────────☆
...................


☆─────────────────────────────────────☆
   USPresident (美国总统) 于  (Sun Dec  6 22:09:14 2009)  提到:

没有什么啦,反正两个都重要。只不过GOOGLE创始人
是一开始搞了PAGERANK,然后才会有GFS应用的需求产生。

【 在 kaeru (青蛙) 的大作中提到: 】
: 绝没有这个意思。



☆─────────────────────────────────────☆
   kaeru (青蛙) 于  (Sun Dec  6 22:17:01 2009)  提到:

在据一个例子吧。方正的激光照排。
当时也是很多人在高汉字的激光照排,国内外的都有,
国外英文也早搞成功了。但是为什么最终成功的是王选?
因为王选提出了一种汉字压缩算法,这个是关键,至少当时
是关键,没有这个技术,按照当时的计算机水平,不可能实现
汉字的激光照排。
但是真正实现照排,计算机系统肯定也非常重要,但是不是
这个方面的独特的关键技术。这也是为什么汉字激光照排是
王选这样的学数学出身的人做出来的主要原因。
PageRank等一些列算法(注意是一些列,不是单独的PageRank)
所起的也是这个作用。

【 在 USPresident (美国总统) 的大作中提到: 】
: 没有什么啦,反正两个都重要。只不过GOOGLE创始人
: ...................




☆─────────────────────────────────────☆
   nkwht (找PHP小牛) 于  (Sun Dec  6 22:52:28 2009)  提到:

google造轮子也是随行就市,并且这轮子的确是新轮子

【 在 cwg2003 (cwg) 的大作中提到: 】
: GOOGLE可能不怎么考虑通用性,扩展性可是GOOGLE后台系统的本质特点之一
: ...................


https://wap.sciencenet.cn/blog-414166-302410.html

上一篇:[2009-11-17] 几则关于科研的小故事(2)
下一篇:[2010-02-27] 今年计算所系统结构牛文爆发!
收藏 IP: .*| 热度|

0

发表评论 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2023-2-2 07:21

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部