岳东晓
计算机AI课需要自带算力
2024-6-8 08:07
阅读:1672

计算机学院AI课需要自带算力:看到这个转贴,某计算机学院的《通用大模型原理与训练实践》课程要求学生自带算力,否则只能退课。AI 卡脖子的就在于算力与计算资源,包括算力、内存与带宽。这门课似乎需要 40GB GPU内存,不够就不行。其实,对于原理教学来说,没必要搞这么大。以 LLama 3 八十亿参数的模型为例,它有32层多头注意力层,每层32头,其中K-V各为8头。每一层的结构是完全相同的。附图中的代码中,我用kv cache机制,直接进行矩阵运算测试,发现只使用其中27层也得出了与32层类似的输出。可见要做个可以接受的大语言模型教学示范,有很多压缩空间。毕竟这是原理教学,而不是生产。 

 另外值得一提的是,LLama 3 以及现在流行的很多模型中都用到了一个中国研究团队的2021年的一篇论文(http://t.cn/A6HdOXh9),叫做 RoPE (旋转位置编码)。这个中国研究团队来自一家叫“追一”的公司。在 Attention is All You Need 的开创性论文中(http://t.cn/RSrwyml),词(token)的位置编码是在原向量各个纬度叠加与位置对应的角度的正弦、余弦量。而 RoPE 编码则是在不同的子空间进行与位置对应的角度的旋转。RoPE 编码更能把握词之间的相对位置。根据谷歌学术数据,这篇 RoPE 论文已经被引用了至少841次。

Screenshot 2024-06-07 133329.png

Image_20240607133337.jpg

转载本文请联系原作者获取授权,同时请注明本文来自岳东晓科学网博客。

链接地址:https://wap.sciencenet.cn/blog-684007-1437307.html?mobile=1

收藏

分享到:

下一篇
当前推荐数:3
推荐到博客首页
网友评论0 条评论
确定删除指定的回复吗?
确定删除本博文吗?