学到老Never too old to learn分享 http://blog.sciencenet.cn/u/tangchangjie

博文

解决科学问题才是硬道理-—数据库界的四位图灵奖得主(2) 精选

已有 39278 次阅读 2015-4-19 08:03 |个人分类:人物故事|系统分类:人物纪事| 图灵奖, 关系数据库模型, E。F。Codd

       解决科学问题才是硬道理-—数据库界的四位图灵奖得主之二

说明 原拟名《梅花香自苦寒来,关系库从磨难出》,以突出E.F.Codd经历的困难, 近日连开两个973项目交流会,换场期间,有朋友建议把最后的小标题升为大标题,以突出其贡献,也合今天973 基调;此外,第一次在北京机场发博文,匆忙之中,如有错漏,请及时提醒)    


   功过从何数 1981年,58岁的E.F.Cood 获得图灵奖,这是数据库界的第二枚(也是久违了的)图灵奖。从1970年提出关系数据库到获奖,奋斗十一年,终成正果。如今,斯人已驾鹤西去,回望其成功之路,不禁想起了电视剧《西游记》取经成功后的插曲《青青菩提树》:

      "几多朝朝暮暮,漫漫云烟无数,.....

                 历经坎坷终无悔,未教年华虚度.....          

                           面对大千世界, 功过从何数? ......

 好,现在就来数一数。

  

  网上传统传记太多,这里想写一篇不很传统的、轻松一点的描述,须从数据库的型与值说起.  

  数据库的型与值  模型和模特儿在英语中是同一个单词model,其实,译音又译意的“模特儿”既通俗、又朴素,也最直白地说清楚了高雅的“模型”在数据库中的的含义,模型就是骨架。且看图:

  上图中,左边的模特, 抽象一点,不过八两铁丝,一些手艺;披上了衣服后,加上想象,就有了的美感、就产生了价值或数值;用计算机专业的行话,左边是“型”,右边是“值”。

  其实,模特不必升级为活生生的美女靓男,那不过增加了若干不必要的语义,商业的,心理的,展示的,诱惑的,等等,目的是 买家买家快掏钱,而过分的“型”,可能干扰对“值”的评价,

  

  下图中 ,左上是一个层次库模型。左下是其对应的库值。它是上文提到的网状数据库模型的特例,只不过比网状模型上多了一条限制----每个节点至多一个父节点。

  右边是关系模型,我们凡人,熟视无睹,看千遍,也不一定能看出是图灵奖的素材。  ·


  关系数据库的传奇 笔者有个奇怪的(穿越的)感觉,旋律优美的歌曲《传奇》适合用来赞颂E.F.Codd对关系模型的衷情和忠诚,试看下面的分段演绎:  

  《传奇》:“只因为在人群中多看了你一眼,再也没能忘掉你的容颜,…..”

  在E.F.Codd考查二维表格之前,成千上万人早就观察过,可人们都熟视无睹,擦肩而过;

  唯有E.F. Codd,在1970年的某一天,在人群中多看了它几眼,  奇迹发生,“来电了”!

   于是他投入心血,把对表格的那份情有独钟,发表在《Communication of the ACM》,其标题为  “A Relational Model of Data for Large Shared Data Banks”。

  此文在在集合论的严格数学基础上,建立了关系数据库模型;仅仅是上图的框架,还不是为模型。通常:

      数学模型 = 一个集合+一组符号+一组规律(如交换律、结合律)+ 一组性质(定理)

如群环域是从现实对象中抽象出来的代数系统(数学模型的一类)。关系模型,关系代数也是数学模型。

   E.F.Codd一发而不可收,接下来,有一系列文章发表; 那几年,关系模型成了E .F. Codd 心中的那个“她”。今天,人们还可以追踪他和”她”的故事:

  为了她的数学美,他用范式理论为她浓妆,

  因为她憔悴,他用12条准则为她粉黛……

  

  《传奇》: “宁愿用这一生等你发现,…,今生的爱情故事不会再改变。”

  接下来,E.F.Codd的路上,少有鲜花,多有荆棘。

  1983年,笔者到美国学习数据库,导师为鼓励我们克服困难和坚持学术观点,说, E.F Codd 也曾遭遇到压力山大,以至于影响健康,还进过医院;又说,要学习他不怕困难,坚持自己认为正确的学术观点,最后冲出重围,….,

  但语焉不详,可能是有一些难言的细节。由于人们不太愿意多写尴尬事,现在网上仅仅能查到一些蛛丝马迹。例如下列的”但书”:  

  …..但是,有人认为,关系模型…..是理想化模型,…..不现实…,担心性能难以接受;

  有人视其为(当时正在进行中的)网状数据库规范化工作的严重威胁….  

  日子艰难了,就觉得时间慢,但E.F.Codd坚持着, 就像《传奇》唱的“宁愿用这一生等你发现,…,今生的爱情故事不会再改变….”。

  又是五个春来秋去,终于迎来转机。

  

  明争取代暗斗  1974年ACM牵头组织了一次有思想交锋的研讨会。

  正方E.F.Codd及其支持者

  反方Bachman及其支持者

   Bachman何许人也?就是上篇博文主人公,数据库界第一个(当时唯一的)图灵奖获得者。轻量级对重量级,E.F.Codd能坚持得住吗?悬念...

  幸好,E.F.Codd足够坚强,坚持下来了。这次的辩论改善了作为新生事物的关系数据库的生存环境,推动了关系数据库的发展。   


  花香墙外,嘴仗结束,新技术的美妙吸引了新的IT人;虽然,知识有产权,但本质上,知识是人类共创共享的(当然,在一定法规下)。

  世界上不乏有眼光,有胆略的人,拉里.埃利森及其团队就是典型,他们认定关系数据库的前景,在1977年建立一个新的小的公司,实现了第一用商用关系型数据库管理系统,后来发展成为Oracle。

  当墙外花香日益浓厚,大赚其钱的时候,IBM才发现自己有点亏,才承认关系数据库的确好,急起直追研发DB2等等。

  以后的事实表明,关系数据库易学易用,基础坚实,理论丰厚,用户不需知道存储结构细节(用今天关于“透明”的时髦术语,有结构透明性),终于让网状数据库和层次数据库(保留了在历史地位)退出了历史舞台,RDB登堂入室,成为现代数据库产品的主流。

 

   亲历过对比,才有发言权  在关系数据库还没占绝对优势的岁月里,笔者参加过几个网状数据库和层次数据库的应用项目开发,几年的编程生涯,熬夜,得意少,磋磨多,顺风少;因为最终应用是给非计算机专业人员用的,写了很详细的说明书,最终用户也不是很轻松;

   后来那些程序,都移植到关系数据库了,相关人员用后,高兴得要唱“解放区的天”。 

  

  生不逢时还是官僚主义?  E.F.Codd是IBM的人,做的是IBM的成果,IBM 启动了关系数据库验证项目System R, 但没有优先的支持,一直到1980年System R才作为一个产品正式推向市场。有人分析System R产品化缓慢的三个原因:

  • IBM重视信誉和质量,为尽量减少故障,所以慢(精工出细活);

  • IBM的官僚主义,错失了一次发展机会。(到处有官僚主义,官僚主义有时也成为检讨中的替罪羊);

  • IBM当时正改进层次数据库产品,如果把层次数据库IMS比喻为周瑜,把关系数据库比喻为诸葛亮,所以有点像(与传统 略有不同)“既生亮,何生瑜?” 所以关系库在IBM内生不逢时。  

  数学美进入了数据库 E.F.Codd的理论 给数据库领域带来了数学美;

  例如,用于函数依赖推演的Armstrong 推理竟然是Sound(可靠)且complete(完备)的!, 不少数学系的博士生在寻找博士后岗位时,选择了数据库。

  又例如,用于设计一个好模式的规范化理论,从一阶范式到三阶范式,很快变成了程序,在实践中收到欢迎;而且,还有 4阶、5阶,…,N阶范式,吸引人的魅力在于,不知还有多少可探的宝藏,不知将有多少博士和副教授在这里成长!

  一大批数学人才转业到数据库理论方向,一时间,关系数据库理论人才济济,风生水起,成果累累....

  

  “过度追求数学美”不是Codd惹的祸。但是,过度追求数学美的坏习惯也趁机进入了数据库领域(或计算机领域),有人研究了规范化理论的5NF、6NF,据说还有(毫无用处的)7NF、8NF、9NF !

  在私下议论时,同行们还批评过若干过度追求数学美的例子(不适合上网)。

  计算机科学为计算而生,为计算而发展,是实践性很强的学科。

   E.F.Codd的数学工底很好,但他十分强调实践,强调应用;(可能在1974年那场ACM组织的大辩论中,他也受益于反方强调应用的观点)。

   综观他的生涯,可以确定,“过度追求数学美”不是Codd惹的祸。

  

  解决科学问题才是硬道理。上世纪70年代,关系数据库将生未生,数据处理领域遇到了下列科学问题:

    (1) 网状数据库后的下一代数据库是什么,数据库向何处去?

          E.F.Codd回答:下一代将是关系数据库模型,并用集合论的语言给了坚实的基础和眼睛的描述;

    (2) 如果用关系数据库,什么是好的关系数据库模式?怎样设计一个好模式?

         E.F.Cod及其跟随者给出了规范和理论和一系列设计好模式的算法:

   (3)怎样使关系数据库管理系统多、快、好、省?

        E.F.Cod给出了十二条准则,及若干研究。一大批追随者办公司,提方案、作设计、写程序,实现了关系数据库系统。


   三个科学问题的提出和解决,当然不是E.F.Codd一人的功劳,但他是斗士、是先锋,在其中起了关键作用;图灵奖给他,正当其人,实至名归。


   上篇博文问,多少论文才得得到图灵奖,Bachman的例子说明,图灵奖与论文篇数没关系,或没多大关系;

  而E.F.Codd的例子说明,想得图灵奖,提出科学问题、凝练科学问题、解决科学问题才是硬道理。


   想借用牡丹之歌 如果某一天,我和我的朋友们,有机会到E.F.Codd 墓前吊唁,怀念数据库界的这位前辈大师,我想在《牡丹之歌》中抽样地选出几句, 写在白牡丹扎成的花圈上:

        有人说你富贵,

               哪知道你曾历尽贫寒

                           春风吹来的时候,

                                  你把美丽带给人间.

相关博文 

  需要多少论文才能得到图灵奖 – 数据库界的四位图灵奖得主(1)

 解决科学问题才是硬道理-—数据库界的的四位图灵奖得主(2)

 冲破数据共享封锁线的领头人--数据库界的四位图灵奖得主(3)

 冲浪在数据潮头的实干家----数据库界的四位图灵奖得主(4) 


其他相关博文

  人物类我所认识的Adlman 系列 共6篇 他凭什么得了图灵奖,侧应钱学森之问,计算机病毒的教父,DNA计算

  科普类趣味数据挖掘系列 被打和北大,烤鸭,数据血统论,博客均击量,干预规则,分房与分类,宴会上的聚类, 灯谜、外星殖民、K-平均聚类与蛋鸡悖论, 愚公移山和进化计算,基因表达式编程GEP,数据挖掘与哲学; 

  

       其它系列博文的入口    唐常杰博客主页    科学博客主页



https://wap.sciencenet.cn/blog-287179-883429.html

上一篇:鸡叫与天亮:大数据中的关联与因果—大数据杂谈之二
下一篇:突破数据共享封锁线的领头人--数据库界的四位图灵奖得主(3)
收藏 IP: 118.112.60.*| 热度|

45 王娜娜 孙学军 陆泽橼 孙根年 董文娜 刘淼 曾宇怀 毛宁 赵继慧 章迅来 蔡小宁 刘丽华 程少堂 封力军 马萧萧 刘全慧 李伟钢 张海霞 程娟 黄永义 赵君渝 赵美娣 张能立 康建 洪海云 李归华 赵凤光 杨正瓴 李志俊 杨宁 祝贤明 尧顺雨 王达伟 陈明路 元云芬 朱峰笃 蒋迅 王林平 wolfgangg qweiwei shenlu simon8848 qzw libinfenn zhaorzh

该博文允许注册用户评论 请点击登录 评论 (58 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-22 13:16

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部