杨立坚
统计学视角3:面向应用,背靠理论,写好算法
2019-12-29 17:51
阅读:4901

我之前写过《统计学科普 6:什么是好的统计学研究?》,认为统计学研究第一重要的是“与应用相关application relevant)”,因为统计学是为服务于实际应用而存在的,不像基础数学自有内在的价值,可独立存在。统计学的应用是分层次的,其中大量存在的是用t, z, F, chi2-检验,t, z, F-置信区间, Scheffe同时置信区间等现成工具分析回归数据,我发表的3篇食品科学论文就属于这类应用(Mishra, D. K., Dolan, K. D. and Yang, L. (2011) Bootstrap confidence intervals for the kinetic parameters for degradation of anthocyanins in grape pomace. Journal of Food Process Engineering 34 (4), 1220-1233;Mishra D. K., Dolan, K. D. and Yang, L. (2008) Confidence intervals for modeling anthocyanin retention in grape pomace during non-isothermal heating. Journal of Food Science 73 (1), E9-E15;Dolan, K. D., Yang, L. and Trampel, C. P. (2007) Nonlinear regression technique to estimate kinetic parameters and confidence intervals in unsteady-state conduction-heated foods. Journal of Food Engineering 80 (2), 581-593);更高级一些的是用KM估计和Cox模型分析生存数据,用ARIMA, VAR, (G)ARCH等模型分析时间序列数据,用Krigging分析空间数据,用LASSO分析高维数据等等。再上一层楼的,就是综合运用多种现有工具,甚至提出新工具的原创性应用了,例如我之前发表的农学论文(Huang, X., Wang, L., Yang, L. and Kravchenko, A. N. (2008) Management practice effects on relationships of grain yields with topography and precipitation. Agronomy Journal 100 (5), 1463-1471)和生物信息学论文(Ma, S., Yang, L., Romero, R. and Cui, Y. (2011) Varying coefficient model for gene-environment interaction: a non-linear look. Bioinformatics 27 (15), 2119-2126)。我用的形容词是“与应用相关(application relevant)”而不是“做应用(applied)”,因为在美国统计学圈子里applied这个字有“水”的负面含义。比如有人因为健康原因或者为了照顾家庭,在拿到终身教职(tenure)衣食无忧之后,就做应用了(became applied),意思是只会用t-检验和t-置信区间了。回到正题,统计学第一重要的是面向应用,是无须置疑的。

好的统计学研究往往使用“复杂的数学工具 mathematically sophisticated)”,这是第二重要的。只用简单的代数就能解决的问题多数早就解决了,即便还没解决,计算机系的优秀本科生学过两学期统计课也就能解决了。受过专业训练的统计学家,要面对的是复杂数据的分析,统计推断,预测。数据的复杂性可以表现为1)形式上的高维/超高维(high dimension/ultra high dimension),缺失与截断missing/truncated等;2)结构上的非线性关系nonlinearity,异方差性(heteroscedasticity,多重共线性性(multicolinearty,异常值(outliers,函数型乃至物体型functional/object data,分布域不规则irregular domain,时空相关性spatial/temporal correlatedness,非平稳性nonstationarity等;3)概率分布上的厚尾性fat tail,长记忆性long memory等。这些复杂特征常常同时出现于数据,解决相关问题一般离不开复杂的数学工具,如概率论/随机过程probability theory/stochastic process,非参数/半参数模型non-/semiparametric model,极端值理论extreme value theory),函数论(Besov space, kernel, Sobolev space, spline, wavelet),泛函分析(Banach/Hilbert space, operator/spectra theory),黎曼几何Riemannian geometry)等等。我没有用“做理论(theoretical)”这个形容词,因为在美国统计学圈子里,theoretical有“冥顽不化,不会分析数据,只会证明没用的大样本定理”的负面含义。简而言之,好的统计学研究需要背靠理论。

最后,统计学研究应该产生方便用户的程序(produces user-friendly procedures)。程序/算法的理论性质经过了论证而可靠reliable,有效/准确efficient/accurate;算法的思路直观intuitive),易于解读easy to interpret);算法快速computionally fast写好这样高质量的程序/算法,真正满足实际工作者的需要,是十分艰辛的工作,需要统计学家长时间潜心研究。统计学研究的产品,应该就是这样的算法。

转载本文请联系原作者获取授权,同时请注明本文来自杨立坚科学网博客。

链接地址:https://wap.sciencenet.cn/blog-941132-1211943.html?mobile=1

收藏

分享到:

当前推荐数:12
推荐到博客首页
网友评论6 条评论
确定删除指定的回复吗?
确定删除本博文吗?