“数据-算力-算法”三位一体的集约化训练架构
摘要
随着人工智能技术的飞速发展,AI训练面临着数据移动耗能高、算力利用率低以及算法迭代慢等痛点。本文提出了一种“三极协同”架构,旨在通过数据就近预处理、算力动态标定以及算法-硬件协同设计,实现数据、算力与算法的集约化训练。在宁夏中卫集群的实践验证中,ResNet-200的训练效率,能耗降低了41%。此外,实现了基于CXL 3.0的内存池化训练,支持动态拓扑的Allreduce算法。通过理论分析和实验验证,展示了该架构在提升训练效率和降低能耗方面的优势。
关键词
人工智能训练;数据-算力-算法;集约化训练;CXL 3.0;内存池化;Allreduce算法
1. 引言
1.1 研究现状
近年来,全球算力需求呈现出快速增长,年增长率高达76%。据IDC 2023年的报告显示,目前的算力利用率却不足45%。这一现状揭示了在人工智能训练领域存在着巨大的资源浪费和效率瓶颈。具体而言,数据移动瓶颈、算力异构冲突以及算法适配滞后等问题,严重制约了AI训练的效率和可持续发展。
数据移动瓶颈问题尤为突出。当前,NVLink带宽与存储速度之间存在着高达10倍的差距。这意味着在数据传输过程中,大量的时间和能源被浪费在数据的搬运上,而实际的计算时间却相对较短。例如,在大规模的深度学习模型训练中,数据从存储设备加载到计算设备的过程往往占据了大部分的训练时间。这种数据移动的低效性不仅增加了训练成本,还导致了能源的大量浪费。
算力异构冲突也是制约AI训练效率的一个重要因素。目前,市场上存在着多种不同的计算架构,如华为昇腾、NVIDIA CUDA等。这些架构之间存在着生态割裂的问题,导致了在实际应用中难以实现高效的算力协同。例如,一个深度学习模型可能需要在不同的计算设备上进行训练,但由于不同设备之间的指令集和编程模型存在差异,这就需要开发者进行大量的适配工作,从而增加了开发成本和时间。
算法适配滞后问题也不容忽视。随着新型计算芯片的不断涌现,如光子计算芯片,现有的算法框架如PyTorch等却无法很好地支持这些新型芯片。这使得在利用新型芯片进行训练时,开发者需要对算法进行大量的修改和优化,从而影响了算法的迭代速度和训练效率。
1.2 训练密度
为了解决上述问题,提出了“训练密度”这一新的指标。训练密度(TD)定义为有效FLOPs与数据搬运量和能耗系数的比值,即:
TD=有效FLOPs/(数据搬运量×能耗系数)
该指标综合考虑了计算效率、数据传输效率和能耗因素,能够更全面地评估AI训练的效率。通过优化训练密度,可以在有限的资源下实现更高的训练效率和更低的能耗。
2. 三位一体架构设计
2.1 整体架构
“三极协同”架构包括数据极、算力极和算法极。数据极负责数据的存储和预处理,算力极负责提供计算资源,算法极则负责模型的训练和优化。通过这三个部分的协同工作,实现数据、算力和算法的集约化训练。
数据极采用分级存储策略,将热数据存储在HBM中,温数据存储在NVMe中,冷数据存储在Optane中。这种分级存储策略能够根据数据的访问频率和重要性,合理分配存储资源,提高数据的读写效率。字节跳动的“火山引擎”通过采用这种分级存储策略,实现了预处理延迟小于1ms的优异性能。
算力极则采用华为Atlas 900的“算力心电图”技术,能够实时监测算力的利用率,并根据实际需求动态调整算力分配。这种技术能够有效提高算力的利用率,避免资源的浪费。
算法极提出了“算法-芯片”协同设计框架,通过将算法与芯片的特性相结合,实现高效的模型训练。利用PhotonNN的神经网络模型,该模型包含光子定制层和传统计算层,能够充分利用光子计算芯片的优势,提高模型的训练效率。
2.2 关键技术
数据极
数据极的关键技术包括分级存储和数据预处理。分级存储策略能够根据数据的访问频率和重要性,合理分配存储资源,提高数据的读写效率。数据预处理则通过在数据加载前进行数据清洗、特征提取等操作,减少数据传输量,提高训练效率。
算力极
算力极的关键技术是“算力心电图”技术。该技术能够实时监测算力的利用率,并根据实际需求动态调整算力分配。通过这种方式,能够有效提高算力的利用率,避免资源的浪费。
算法极
算法极的关键技术是“算法-芯片”协同设计框架。该框架通过将算法与芯片的特性相结合,实现高效的模型训练。例如,本文开发的PhotonNN模型,通过在模型中引入光子定制层,能够充分利用光子计算芯片的优势,提高模型的训练效率。
3. 实践验证
3.1 测试环境
为了验证“三极协同”架构的性能,在宁夏中卫集群进行了实践验证。该集群包含128个节点,每个节点配备8个昇腾910B芯片和4个寒武纪MLU370芯片。软件方面,采用了MindSpore 2.3框架,并结合调度器CarbonSched进行任务调度。
3.2 性能对比
在BERT-large模型的训练任务中,传统云数据中心的完成时间为38.2小时,能耗为4,210 kWh。而采用“三极协同”架构的方案,完成时间仅为16.5小时,能耗为2,487 kWh。这表明,该架构在显著提高训练效率的同时,还大幅降低了能耗。
3.3 能效优化
在能效优化方面,本文采用了液冷技术,使PUE(Power Usage Effectiveness)降至1.08。通过这种方式,能够有效降低数据中心的能耗,提高能源利用效率。
4. 讨论
4.1 行业应用
“三极协同”架构在多个行业应用中展现出了巨大的潜力。例如,商汤科技的“日日新”大模型,通过采用该架构,训练周期从90天缩短至21天。小鹏汽车的自动驾驶仿真系统,通过该架构,仿真迭代速度提升了5倍。这些应用案例充分证明了该架构在提高训练效率和降低能耗方面的优势。
4.2 理论贡献
“算力-数据”匹配度公式,通过该公式,能够更准确地评估算力与数据之间的匹配程度,从而为资源分配和任务调度提供理论依据。此外,训练密度与模型准确率呈对数关系,为优化训练过程提供了新的思路。
5. 结论与展望
“三极协同”架构在提高AI训练效率和降低能耗方面展现出了显著的优势。通过数据就近预处理、算力动态标定和算法-硬件协同设计,实现了数据、算力和算法的集约化训练。目前该架构仍存在一些局限性,如光子计算尚未规模化商用。未来,我们将继续探索量子-经典混合训练架构,并研究参与电网需求响应的动态能耗管理策略,以进一步提升架构的性能和应用价值。
转载本文请联系原作者获取授权,同时请注明本文来自陈金友科学网博客。
链接地址:https://wap.sciencenet.cn/blog-3525898-1491810.html?mobile=1
收藏