做题和做科研
昨天我问我的博士生,你当年考研究生的时候数学都考了哪些?学生回答,高数(微积分),线性代数,与概率论与数理统计。我问,这三门数学是什么关系?学生沉思片刻,老实回答说,之前没想过这个问题。
记得上学期我教有限元这门课,讲到一根柱子从上面压会产生buckling 失稳的问题。学生问我为什么失稳的三个critical loads ,正好对应方程组系数矩阵的三个特征值,是巧合吗?委实说当时学生的问题一下把我问住了。我当时只能笼统地回答,很多物理现象就是可以被数学所描述,数学是更底层的东西。看着学生一头雾水的样子,我知道我的回答没能让他满意。
课后我仔细想了一下,柱子/梁的buckling 失稳的3个critical loads 对应的是柱子/无限大变形,这是一个极限状态。那么什么是矩阵的特征值和特征向量呢?一个矩阵的作用其实就是对向量的一个转换,比如拉伸,或旋转。向量每次乘一个矩阵相当于转换一个角度或拉伸,不断重复这个过程旋转的角度会越来越小,直至达到这个向量所在的直线位置,这时的向量就是特征向量,大小就是特征值。注意上面提到的不断重复的过程是一个迭代的过程,直到收敛。迭代的次数趋于无穷,这仍然是极限的含义。所以说线性代数中求特征值的方法对应于物理中某些极限条件下的现象就不奇怪了,而是有某种必然性。因为只有在数学上取极限的情况下,某些物理规律才能淋漓尽致地展现出来。
这个例子其实把线性代数和微积分联系起来了。那么概率论和线性代数如何联系起来呢?这要从我和学生的另一关于神经网络的讨论谈起。
这么说吧,神经网络/深度学习的思想其实是源于概率论的贝叶斯原理。贝叶斯原理思想是指基于条件概率,即使是小样本通过假设一个先验概率,通过监测数据不断修正先验概率也可以得到合理的后验概率。这其实就是神经网络的思想。这个不断迭代不断修正权重和偏置的过程是通过矩阵运算高效实现的。而里面的梯度下降,最大熵法等的应用最后都转化成数学中求极值的方法。
说了这么多,跟这个题目“做题和做科研”有什么关系呢?答案是,做题就是做科研,区别是有的题有标准答案,有的题,比如科研,没有标准答案,只能不断尝试和探索。当然这种探索不是盲目的,胡乱地瞎子摸象,而是充分利用逻辑思维和联想思维,打通各种知识系统之间的壁垒(比如上面举的例子关于微积分,线性代数,概率论直接的联系),运气好的话,才有可能发现大自然中的一些秘密。
转载本文请联系原作者获取授权,同时请注明本文来自王善勇科学网博客。
链接地址:https://wap.sciencenet.cn/blog-692836-1448051.html?mobile=1
收藏