谢钢
难为医生们拿手术刀的手还要勉强发表统计分析的文章
2024-3-14 18:48
阅读:722

 

针对科学网“传统回归方法在预测最佳手术方案上仍有优势” - 科爱KeAi的博文 (https://blog.sciencenet.cn/blog-3496796-1425013.html)我给出了评论意见,指出该文章的作者们没有遵守基本的科学规范,拒绝提供相关的数据资料从而使得科技同行们无法对他们的科研结果进行重复与验证。在该文章的英文版本里有这样的数据资料获取性的声明:Data availability statement:Research data are not shared – 相关的数据不能共享。当然,作为一篇关于对比不同数据分析模型的预测准确度的文章,如果其他人无法对作者们声称的分析结果/研究结果进行重复验证,这篇文章从根本上已违反了科学研究的基本原则。

今天在上下班的路上再对该文章的具体技术细节做了一点思考,发现其实该文作者们所选择应用的统计分析方法完全忽视了其所针对的科研问题, 即在一组给定的预测变量(共九个),在现有的常用的统计分析模型中(传统的回归模型加上机器学习的模型)比较出一个最佳的模型。这篇文章的科研问题是,针对黏膜下隧道内镜切除术(STER)和非隧道内镜切除术(NTER)这两种治疗胃和食管黏膜下肿瘤SMTs最常用的技术方案,根据所收集到的246个案例比较出一个好的统计分析分类的模型(statistical classifier model)。这其实是一个典型的无目标变量统计学习分类的模型(an unsupervised statistical learning classification problem)的问题。适用的统计模型包括K均值聚类(K-Means Clustering),层次聚类(Hierarchical Clustering), 甚至多重对应分析(Multiple Correspondence Analysis)或贝叶斯网络(Bayesian network)都可以用来做无目标变量统计学习分类分析。

难为了医生们拿手术刀的手还要勉强发表统计分析的文章,作者们多此一举地硬是用目标变量统计学习分类的模型(supervised statistical learning classification model)来做文章。所以才有了对逻辑回归模型(logistic regression model),支持向量机(SVM), 随机森林(random forest) , 及人工神经网络(ANN)等等进行比较这么一出戏。

为什么说从解决这篇文章所真正关注的科研问题的角度用有目标变量统计学习分类的模型其实是多此一举并不合适的?我的观点如下。作者们真正要解决的问题是,在一组给定的预测变量(共九个)的条件下如何最好地把样本案例区分成两个同质的聚类(即针对黏膜下隧道内镜切除术(STER)和非隧道内镜切除术(NTER))。这当然是一个无目标变量统计学习/机器学习的分类问题。而为了用有目标变量统计学习分类的模型来研究此科研问题,作者们必需先有“正确分类”或“真实分类”结果的数据(即分类目标变量的数据),于是作者们先由四位专家对样本案例进行了二元分类并以此作为“正确分类”的结果数据。问题是,在实际医学实践中,假如我们能够“正确分类”了当然就没有必要再用什么统计模型来搞什么预测了。所以,其实作者们真正想寻找的东西是在没有“真正分类”信息的条件下的最佳预测模型。因此,即使作者们在应用有目标变量统计学习分类的模型来研究此科研问题时从技术的角度完全中规中矩,这样做也是多此一举的。

转载本文请联系原作者获取授权,同时请注明本文来自谢钢科学网博客。

链接地址:https://wap.sciencenet.cn/blog-3503579-1425329.html?mobile=1

收藏

分享到:

下一篇
当前推荐数:14
推荐到博客首页
网友评论5 条评论
确定删除指定的回复吗?
确定删除本博文吗?