bigdataresearch的个人博客分享 http://blog.sciencenet.cn/u/bigdataresearch

博文

[转载]大规模稀疏计算问题的求解及优化终于实现!

已有 1297 次阅读 2021-6-8 17:06 |个人分类:《大数据》论文|系统分类:论文交流|文章来源:转载

大规模稀疏计算问题的求解及优化终于实现!

 

“神威·太湖之光”是中国第一台全部采用自主技术构建的超级计算机,也是世界上首台峰值运算速度超过10亿亿次量级的超级计算机,首次实现了千万核心并行第一性原理计算模拟。

清华大学的薛巍副教授所在团队对基于“神威·太湖之光”超级计算机的大数据稀疏问题解决和优化方案,以及异构众核计算机架构下大规模稀疏计算性能优化的一般性方法进行了详细分析,为在新一代异构众核系统上开展大规模稀疏计算问题求解提供了借鉴。“神威·太湖之光”采用的申威26010众核处理器(SW26010)可以提供3.06TFlops的双精度浮点计算峰值性能和136GB/s的理论总内存带宽。该研究以“面向异构众核超级计算机的大规模稀疏计算性能优化研究”为题发表在《大数据》2020年第4期。  

 

稀疏问题的求解面临哪些挑战?

超级计算机系统由于具有强大的存储和计算能力,成为解决大规模稀疏问题的有效选择。而由于稀疏问题具有非规则的访存和计算特征,其在大规模超级计算机中的求解面临严峻的挑战:(1)稀疏问题的访存是离散化、随机化、不规则的,访问开销可能远超计算本身带来的开销;(2)稀疏问题的计算模式是非规则的,而且稀疏矩阵中的非零元分布密度可能存在巨大差别,这不仅大大降低了应用的性能,还可能造成部分处理器资源的浪费,增大应用运行的功耗和成本;(3)稀疏问题的求解往往涉及频繁的进程间/节点间通信,给I/O和节点间网络带来了巨大压力。同时,随着管理进程数的增加,超算基础软件本身的内存开销成为一个不可忽视的问题。


异构众核架构具有哪些优势?

针对上述问题,“神威·太湖之光” 中的SW26010采用了异构众核架构。异构众核架构主要具有以下优势:(1)从核的浮点性能高达742.4GFlops,可有效提升计算密集型程序的运行效率;(2)从核中的便笺存储器(LDM)进行离散化访存仅需4个时钟周期,可有效减轻主存压力,提升并行程序的运行效率;(3)从核间的寄存器的通信时延为7~11个时钟周期,远小于直接访问内存(超过25个时钟周期)和全局存取(超过600个时钟周期),将从核LDM中或寄存器中的数据通过寄存器通信发送给其他从核,可以实现数据共享,减少对全局内存的访问频率;(4SW26010中的单指令多数据流(SIMD)不仅降低了功耗,而且显著提高了性能,定点和浮点的理论峰值性能为单部件的8倍或4倍。


3 大规模稀疏计算问题的性能优化实践

基于异构众核架构的大规模稀疏计算问题的求解和优化方法已在很多领域进行了应用,都得到了明显的性能提升,为新一代异构众核计算系统的稀疏问题求解提供了借鉴。

1)基于“神威·太湖之光”超级计算机的完全隐式方程求解器,在双精度求解下性能达到了7.95PFlops,在488m水平分辨率(超过7700亿个非零元)条件下,该应用依然能够实现快速而精确的大气模拟,成为世界上较大规模的完全隐式模拟之一。

2)基于“神威·太湖之光”超级计算机的大规模显式求解器达到了超过15%的系统峰值性能,超过了类似应用在“泰坦”超级计算机上的表现(11.8%),且其具有强可扩展性,几乎可以线性扩展到全机上千万核。在18Hz8m分辨率的超大规模地震模拟中,该应用可以达到18.9PFlops的持续性能。

3)基于SW26010 的异构特性,“神图”图计算框架可在分钟级完成对搜狗中文网页图的处理,每次迭代仅需8.5s,解决了过去由于机器规模和计算框架限制而无法解决的问题。

 

更多技术细节请阅原文:http://www.infocomm-journal.com/bdr/CN/10.11959/j.issn.2096-0271.2020032




https://wap.sciencenet.cn/blog-3472670-1290306.html

上一篇:[转载]全方位解读“神威·太湖之光”的并行存储系统
下一篇:[转载]“国家科学数据中心”联合专刊征稿
收藏 IP: 124.202.175.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-19 13:03

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部