闵应骅的博客分享 http://blog.sciencenet.cn/u/ymin 一位IEEE终身Fellow对信息科学及其发展的看法

博文

参观天河一号超级计算机(091123)

已有 5166 次阅读 2009-11-23 09:19 |个人分类:计算机|系统分类:科研笔记| 超级计算机, 可信计算

参观天河一号超级计算机(091123)
闵应骅
    借《计算机学报》编委会于11月21日在长沙召开的机会,我们20多位编委参观了天河一号超级计算机。这台机器10月29日才公开亮相,12月初就要送往天津,我们算是赶上点了。编委会会议由国防科技大学计算机学院副院长王怀民教授承办一切,才得以有如此的安排。
    国防科技大学的前身是哈尔滨军事工程学院。哈军工在我国计算机研制方面很早就处于领先地位。1960年代他们开发的441-B晶体管计算机,每秒2万次,可靠性比较好,搞计算机的人都知道。后来出了银河机系列。今天又推出了天河一号千万亿次超级计算机。他们有一支老、中、青相结合的强有力的研制队伍,名人很多。我比较熟悉的是周兴铭院士。他曾担任银河机的总设计师,在硬件、软件和应用各方面都有造诣。我们曾在国家自然科学基金委计算机学科评审组共事。他是组长,我是组员。通过接触,我才知道他在计算机科学技术方面造诣之深、之广。后来,在我任JCST杂志执行主编的时候,又给了我们大力的支持,对JCST进入SCI做出了贡献。我很感谢他。现在,国防科大又有一大批年青的专家,善于做脚踏实地的工作,才有了今天的天河一号。
    听完介绍,我们进入天河一号机房,100多个大机柜,所有电路板可以在线拔插。全系统包含6144个通用处理器(CPU)和5120个图形处理器(GPU)。全系统峰值性能为每秒1206万亿次,Linpack实测性能为每秒563.1万亿次。我看到有的网友在网上说:“我们又被忽悠了。”意思是千万亿次怎么又变成了几百万亿次呢?这位朋友可能不太了解情况。峰值性能为每秒1206万亿次是由处理器总数与处理器的速度相乘得到的,即
理论浮点峰值=CPU主频×CPU每个时钟周期执行浮点运算的次数×系统中CPU数
国际上都是这么算的。其实,这个峰值速度实际上不可能达到。而Linpack实测性能为每秒563.1万亿次。Linpack是国际上最流行的用于测试高性能计算机系统浮点性能的benchmark。实际上是解一个上千阶的线性方程组。大家都用同一个Benchmark,性能评价就比较公平。天河排名全球第五,这是很了不起的。超级计算机全球前10名,只有中国天河一个排名第五,其他都是美国的。这容易让人产生一个误会,好像全世界除了美国,就是中国了。其实,首先这个排名是动态的,大家都在进步,随时都在变。其次,这并不意味着别的国家就做不出来。有许多国家在计算机技术方面可能还走在我们前面,不过,他们没有安排这么大的项目来开发尽可能大的超级计算机。所以,我们既要看到我们的成绩,也要有冷静的头脑。
    王怀民教授告诉我:可信性在超级计算中非常重要。一般超级计算机的正常工作时间也就10小时左右。要计算超过10小时的题目,就可能由于down机而半途而废,前功尽弃。是的,我在PRDC2009的报告中就提到:现在,超级计算机除了高性能、低功耗之外的重要指标就是可信性。这也就是为什么在研制超级计算机的时候,必须加强基础研究的原因。

https://wap.sciencenet.cn/blog-290937-273134.html

上一篇:一个可信计算系列国际会议PRDC(091122)
下一篇:一个高端测试技术系列国际研讨会WRTLT(091203)
收藏 IP: .*| 热度|

2 俞立 nipy

发表评论 评论 (6 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-3-29 03:49

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部