bigdataresearch的个人博客分享 http://blog.sciencenet.cn/u/bigdataresearch

博文

[转载]全方位解读“神威·太湖之光”的并行存储系统

已有 3450 次阅读 2021-6-4 16:56 |个人分类:《大数据》论文|系统分类:论文交流|文章来源:转载

全方位解读“神威·太湖之光”的并行存储系统

 

“神威·太湖之光”是中国第一台全部采用自主技术构建的超级计算机,也是世界上首台峰值运算速度超过10亿亿次量级的超级计算机,首次实现了千万核心并行第一性原理计算模拟。

国家并行计算工程技术研究中心的助理研究员何晓斌和复旦大学计算机科学技术学院的高级工程师蒋金虎,从高性能计算应用和大数据应用两个方面,对“神威·太湖之光”的并行存储系统进行了分析。“神威·太湖之光”的峰值运算和实测LINPACK性能分别达到了125.436PFlops93.015PFlopsLINPACK系统效率达到了74.153%,在线存储系统的I/O聚合带宽高达341GB/s该研究以“面向大数据异构系统的神威并行存储系统”为题发表在《大数据》2020年第4期。  

 

并行存储面临哪些挑战

大数据应用越来越广泛,也在很多方面影响着传统高性能计算应用。高性能计算和大数据对存储系统提出了整体均衡的并发I/O访问、有效支持大数据应用的访问模式等需求。为了满足这些需求,“神威·太湖之光”并行存储系统需要解决以下挑战。

1)大规模I/O访问的服务均衡和质量保证。系统需设计一个灵活方便、可定制的I/O服务分发层,以便根据存储系统中多条I/O通路的负载和质量进行评估,针对计算节点发起的I/O请求进行动态分发和跟踪调度。服务分发层的分发算法需要结合发起方请求属性和后端存储系统I/O数据通路质量进行决策。

2)异构计算节点I/O访问的高性能。系统需要对数据在各个分布式节点上的缓存进行统一调度和管理,需要设计实现分布式数据缓存机制来提升数据访问性能。在分布式数据缓存机制中,通过多层缓存机制协同,并利用分布式锁机制来保证缓存一致性。

3)大规模并行存储系统的可用性。作为高性能计算和大数据处理的数据基础,存储系统的高可用性也至关重要。在高性能计算系统中,计算分区的节点可以不断重启和更新,但存储系统必须保证持续在线,系统需具有故障容忍和自愈功能。


并行存储系统架构

“神威·太湖之光”并行存储系统采用分层架构,在计算节点和后端存储间引入I/O转发服务层,I/O访问的分发、控制以及缓存管理由服务层完成,提高了访问性能,缩短了由I/O访问路径增长带来的时延。

image.png

神威并行存储系统架构


具体地,首先,针对异构众核场景,“神威·太湖之光”应用轻量级文件系统(LWFS),引入缓存设计并设计协同机制,实现了高效、低资源占用,减少了对计算节点资源的占用开销。然后,针对I/O转发服务,系统采用动态转发资源分配机制,避免了I/O转发资源利用不足以及受其他作业的I/O干扰等情况。在真实系统中部署该机制后,一些应用程序的I/O性能提高了18.9倍,服务的可用性得到了明显提高。最后,针对后端数据存储服务,“神威·太湖之光”部署了神威全局文件系统(SWGFS),并进行了一系列改进,从而提升了对大数据应用的支持,优化了数据冗余方式,保证了元数据的高速访问和一致性。

 

 

更多技术细节请阅原文:http://www.infocomm-journal.com/bdr/CN/10.11959/j.issn.2096-0271.2020031





https://wap.sciencenet.cn/blog-3472670-1289722.html

上一篇:[转载]大数据技术在乡村画像中的应用研究
下一篇:[转载]大规模稀疏计算问题的求解及优化终于实现!
收藏 IP: 124.202.175.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-26 08:37

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部