今天除夕夜,这两天中国团队开发的DeepSeek横空出世,是给我们全体中国人民在新春到来之际的最大的礼物,这个受众也包括我们全体的中国科学工作者!其深远的作用略分析一二。
DeepSeek算法通过模型架构创新与训练范式突破,首次实现了训练效率的指数级提升!据报道,其采用的多维注意力耦合机制与动态参数稀疏化技术,使得同等算力条件下的模型训练速度提升达7.9倍。这一技术突破直接导致英伟达系列GPU的算力相对过剩,引发资本市场剧烈震荡。据华尔街日报数据,消息公布当日英伟达股价单日跌幅达14.7%,创近五年最大单日跌幅。往下看,你可能会发现这可能是进入英伟达盘子的一个很好的契机。
但这场看似危机的市场震荡,实则孕育着智能革命的新机遇。现在的大模型竞争。归根结底的限制因素是可供人类利用的训练材料太有限了。现在只要能叫得上名字的大模型,几乎都利用了人类所积累下来的所有知识(根据数据,当前主流大模型的训练语料已覆盖现存数字化知识的92%,包括2.3亿篇学术论文、3200万册电子书籍以及近800PB的互联网数据)。未来要产生质的变化,只有从知识的产生方式和知识的存在模式上进行根本性的变革和发展。
当世界上所有的大模型公司都因为DeepSeek的出现而显得算力过剩的时候,守着一群一片高级的生产硬件工具,嗷嗷待哺的时候,我们要相信新的各领域的大模型将会很快出现,而这个大模型与现在所看见的大模型最大的差异性,可能主要就来自于对原先各个自然科学体系本身的模型化和非显性的智能化。
大模型现在最缺乏的是对真实世界的直观的观察和理解。而这个建立在真实世界和大模型之间的桥梁,可能就来自于对真实世界各个因素及过程的数字化。对于我们科学家来说,这个数字化部分上约等于对真实世界的感知或者实验。所以要有突破现有科学知识体系以及科学积累的大的突破,必须是来源于有更加突破性的实验手段或者感知技术的出现。所以在这方面未来科技工作者的任务还是非常的繁重。
让我们过一个安静祥和的春节,让我们迎接轰轰烈烈的新的一年!祝我们亲爱的中国科学网的网友:银蛇吐瑞启新元,玉龙腾云智启航,书写属于中国科学的篇章!
转载本文请联系原作者获取授权,同时请注明本文来自李剑超科学网博客。
链接地址:https://wap.sciencenet.cn/blog-3244891-1470779.html?mobile=1
收藏