大模型,何处去?
2021-11-18 00:47

   大模型的“浪潮”正奔涌向前。

   10月26日,在“2021人工智能计算大会(AICC 2021)”上,浪潮人工智能研究院宣布:正式开放源1.0的API(应用程序编程接口),开放高质量中文数据集,开源该大模型的训练、推理及应用代码,并和合作伙伴一起,推动面向多元AI芯片的模型移植开发。

   距发布全球最大人工智能巨量模型——源1.0不到1个月时间,浪潮人工智能研究院就迈出了开源开放的步伐。如此紧锣密鼓的行动,浪潮将推动大模型向何处去?

 

智慧之“源”

 

   “智慧时代即将到来。”在2021人工智能计算大会上,中国工程院院士王恩东说,“算力已经成为智慧时代的决定性力量,面对指数级增长的战略需求,计算产业正面临多元化、巨量化、生态离散化交织的趋势与挑战。” 

   王恩东认为,当前多样化的智能场景需要多元化的算力,巨量化的模型、数据和应用规模需要巨量的算力,算力已经成为人工智能继续发展的重中之重;另一方面,从芯片到算力的转化依然存在巨大鸿沟,多元算力价值并未得到充分释放。

   大模型已经成为全球人工智能竞争的战略制高点,成为应对新挑战的必然选择。但小公司只能做其中的一个环节,这造成生态的纵向不通;而大公司希望构建封闭的系统,这造成了生态的横向不通。

   大模型对于算力、算法和数据的要求,对协同创新能力的要求非常高。比如,源1.0有2457亿的参数,训练部署一个完整的模型副本需要304块GPU。为保证精度、加速训练性能,研究团队在模型算法上开展了一系列创新,解决了大模型开发不稳定这一业界难题,最后在2128块GPU集群上取得了优异的性能。对比GPT-3完成训练需要1万块GPU、1750亿参数量和570GB训练数据集,源1.0参数规模领先40%,训练数据集规模领先近10倍。

   为训练源1.0,研究团队清洗了近860TB的互联网数据,开发出5TB的业界最大规模高质量中文数据集。精度方面,源1.0在中文权威的自然语言处理任务CLUE零样本学习和小样本学习榜单上均排名第一。

   此外,开发大模型不但要保证巨量数据、超大规模分布式训练及巨量模型算法框架可靠,还要解决算力调度等多方面的难题。

   “进入大模型时代,我们很多用户和合作伙伴已无法自己去完成这样一个大模型的研发、训练和交互工作了。”浪潮信息副总裁刘军说,“从算力行业发展来说,我们一定要帮助用户和合作伙伴,推动人工智能向生态化、产业化发展。”

 

汇涓成“流”

 

   在人工智能领域,免费、共享、开放和开源是几个不同的概念。即使同为开源,开到什么程度,到代码、数据集、API还是指令集的区别也很大。

   研发源1.0之前,浪潮人工智能研究院首席研究员吴韶华团队曾测试过包括GPT-3之类的开源模型。结果发现,使用这些模型会受到各种限制,有些进入门槛很高,有些所谓的开源实际上很难真正使用。

   “源1.0这次的开源非常彻底,从数据集、源代码到API均开放,同时还开展针对多元AI芯片的模型移植工作。我们不希望这种巨量模型成为人工智能研究的藩篱。”刘军说。

   目前,浪潮主要针对三类对象开放合作:一是大学或科研机构的人工智能研究团队,二是元脑生态合作伙伴,三是智能计算中心。这种开放在用户层面是产学研用全覆盖,在内容上是从底层开始彻底的开源开放。浪潮希望源1.0 能成为具有通用性和普惠性的“算法基础设施”,从而赋能千行百业,让企业、科研机构或个人能真正使用这一模型。

   “源1.0已经做出来了,将来还会推出源2.0、3.0……”吴韶华说,“我们将其开源,下一步会向多模态方向发展,进一步优化算法、提高算力、提升参数数量。希望源2.0将来是和合作伙伴一起推出的,这样可以更贴近应用场景、更快速实现落地,同时兼顾对前沿技术的探索。”

   大模型落地有诸多困难,一方面要考虑技术如何走出实验室,另一方面真正有数据、有需求的行业可能又不具备算力、数据的承载能力。此外,应用场景的能源、人才是否适配都是难题。

   去年12月,浪潮和国家信息中心联合发布的《智能计算中心规划建设指南》指出,要采用领先的人工智能计算架构和最新的人工智能的理论,实现智能计算中心这个平台的算力的生产、聚合、调度和示范,从而推动AI产业化、产业AI化和政府治理的智能化。

   为更好服务新型基础设施建设,提供智慧城市解决方案与产品服务,浪潮首先提出自己的智能化,从智能工厂、智能客服体系来提升服务水平。同时,通过开源开放计划,浪潮和合作伙伴一起,打造普惠产业的算法算力平台,促进人工智能生态化、产业化发展。

 

奔涌“浪潮”

 

   新旧技术的更迭远超人们的想像。IBM的缔造者托马斯•沃森曾说,“全世界只需要5台电脑就足够了”。微软联合创始人比尔•盖茨在一次演讲中宣称,“个人计算机的内存640K足矣”。然而,现在一部手机的性能就“秒杀”20年前最快的“超级计算机”。

   “如果我们放宽视野,从更长的时间维度看,现在的大模型也许10年后就不值一提了。”刘军说,“未来大模型的发展,要从应用场景和用户需求出发,进一步优化算法、提高算力、增加数据量。” 

   吴韶华同样认为,任何一项技术的发展,都要经历从兴起、成熟再到落地的过程。“从发展规律来看,大模型现在刚刚兴起,大家正围绕模型体量及模型体量带来的推动效应开展探索。当大模型走向成熟之后,才会涉及具体的问题,比如小型化运营、高性能、可部署等方面”。

   “贫穷限制了我们的想象力。”刘军风趣地说,“以前我们没有相应资源、也不具备相关技术,不知道有更大的算力、更大的数据、更大的模型能干什么。今天我们有条件这么做,我认为这就是科技发展的趋势,它能让我们更快、更强。”

   浪潮研发源1.0的初衷有两个:一是探索人工智能的前沿方向,推动智能算法创新;二是建设算力基础设施,并落地应用、推动产业落地。由此可见,这个开放共享的“源”不仅是个大模型,也是创新之源、智慧之源。

   “道旅辽远,山川悠长。”这是源1.0在人工智能计算大会上创作的一句意境悠远的诗,似乎也在勉励人们:从源出发,不捐细流、不畏险阻,终会形成澎湃“浪潮”,席卷人工智能的海滩。■

《科学新闻》 (科学新闻2021年10月刊 AI)

分享到:

0