PhenomicsJ的个人博客分享 http://blog.sciencenet.cn/u/PhenomicsJ

博文

Phenomics | 上海体育大学王茹教授团队基于9种机器学习方法构建游泳人才天赋预测模型

已有 218 次阅读 2025-11-20 21:32 |系统分类:论文交流

    近日,《表型组学(英文)》(Phenomics)研究论文“Improved Prediction of Swimming Talent through Random Forest Analysis of Anthropometric and Physiological Phenotypes”的相关视频摘要获评第二届“中国高校科技期刊建设示范案例库·铜钥”奖。该论文由上海体育大学运动健康学院王茹教授团队完成,并于2024年11月正式上线。

    该研究通过使用机器学习技术,结合人体测量学和生理学数据,成功构建了一个可广泛应用于青少年游泳运动员的天赋预测模型,为游泳人才的识别提供了新的科学依据。

s43657-024-00176-8.png

扫描二维码 | 下载PDF原文

论文DOI链接:

https://doi.org/10.1007/s43657-024-00176-8

论文引用格式:

Liu, C., Xu, B., Wan, K. et al. Improved prediction of swimming talent through random forest analysis of anthropometric and physiological phenotypes. Phenomics 4, 465–472 (2024). https://doi.org/10.1007/s43657-024-00176-8

视频摘要

Improved Prediction of Swimming Talent through Random Forest Analysis of Anthrop.mp4

研究背景

    在体育领域,人才识别(TID)和人才发展(TED)被广泛用于识别和培养具有潜力的运动员,以追求高水平的竞技表现。先前关于体格和生理特征对运动表现影响的研究多为横断面分析,无法充分揭示长期的潜在影响。因此,在该研究中,作者突破性地采用了长期的纵向研究设计,通过在不同年龄段的青少年中进行跟踪观察,深入探讨了这些特征对游泳才能识别的预测效力。

研究结果

    该文作者在超参数调优中采用了5折交叉验证。利用随机森林、支持向量机、逻辑回归、决策树、多层感知机、AdaBoost、梯度提升、投票分类器和K近邻共九种机器学习算法对这些变量进行训练,并基于多种性能指标(包括AUC、准确率、敏感性、特异性、PPV、NPV和F1分数)选择表现最佳的模型。    模型的构建与评估使用了来自中国上海的数据(男性n=3268,女性n=2176,总年龄范围为10-18岁)(如图1和图S1所示)。对人才预测模型进行独立测试所用的数据来自中国山东省(男性n=66,女性n=52,年龄范围为10-18岁)。    基于3年的随访记录,将运动员分为两组:随访期间在全国比赛中排名前八的运动员被定义为PHLA,其余运动员为PAA。收集了18项体型表型和4项生理表型作为自变量,通过LASSO方法进行特征筛选,以确定最终特征集。模型实现采用了Python的NumPy、pandas和scikit-learn包。为解决数据集中的类别不平衡问题,采用了一种简单的随机过采样技术,通过复制少数类实例以平衡类别分布。此外,利用SHAP值分析评估了所选特征的影响和相关性。

1.png

图1 预处理、模型构建与模型性能评估workframe

    为探究年龄和性别依赖的体型与生理差异,作者比较了10至18岁之间PHLA和PAA的表型,试图寻找有助于识别运动人才的信息。分析发现了与年龄相关的发展趋势,并将运动表型归纳为以下几类(图2,详见图S2和表S1):

    类别A:总体上PHLA的值高于PAA,以肺活量为例。

    类别B:总体上PHLA的值低于PAA,以腹部皮褶厚度为例。

   类别C:在某一年龄之前PHLA与PAA之间无显著差异,而之后某一表型在PHLA/PAA中始终高于PAA/PHLA,以腰围(女性)为例。

    类别D:在所有年龄组中,PHLA与PAA之间无显著差异,以跟腱长度为例。    在上述类别A和类别B中,“总体上”表示PHLA的特征值在9个年龄点中至少有6个高于/低于PAA。从图2和图S2中可以看出,不同性别以及PHLA与PAA之间在所有研究年龄段的差异。具体而言,男性在大多数表型中始终高于女性,例外表型为皮褶厚度、大腿围和骨盆围。此外,男性PHLA的大多数表型值均高于男性PAA。不同于男性,女性大多数表型集中于类别B和类别C,但皮褶厚度的趋势在两性中均表现一致。

2.png

图2 根据年龄依赖性发育cy差异进行的表型分类图

4.jpg

表S1 基于PAAs与PHLAs在年龄和性别依赖的发展趋势差异的表型分类

    如前所述,体型和生理表型存在年龄和性别依赖的差异。在调整了协变量“年龄”和“性别”后,作者采用了70-30的训练集与测试集划分策略。在最佳拟合模型中,共14个表型特征的系数非零,包括10个体型指标(身高、上肢长度、下肢长度、骨盆宽度、腹部皮褶厚度、肱三头肌皮褶厚度、肩宽、小腿长度、踝围和胸围)和4个生理指标(血红蛋白、肺活量、收缩压和舒张压)(图S3B)。    图3a全面总结了所研究九种模型的性能指标(随机森林、支持向量机、逻辑回归、决策树、多层感知机、AdaBoost、梯度提升、投票分类器和K近邻)。其中,随机森林(RF)算法表现最佳,AUC高达0.9860,准确率为94.14%,F1分数为0.9432。因此,基于随机森林算法的预测模型(称为RF-10to18)被选为进一步分析的对象。    为了评估RF-10to18模型的泛化能力,我们利用山东的数据集进行了独立验证,结果确认AUC达到0.93(图3b)。包括所有指标均超过0.85的性能得分详见表S2。基于SHAP值的特征影响分析揭示了不同预测因子如何影响RF-10to18模型的结果。图3c表明,在影响预测结果的关键特征中,腹部皮褶厚度和肱三头肌皮褶厚度对预测结果的负面影响最为显著。而肺活量、胸围和肩宽的较高值则与预测性能的提升密切相关。

3.png

图3 最优模型的选择及后续分析 (a) 九种机器学习模型区分特征的比较,显示随机森林模型整体性能最佳。(b) 随机森林模型在山东数据集上的ROC曲线。(c) 随机森林模型在训练集上的SHAP值分析。

5.jpg

表S2 RF-10to18模型在独立测试集(山东数据集)的性能表现

研究结论

    研究构建了一个基于随机森林算法的有效人才识别模型,成功应用于10至18岁的游泳运动员。该模型从体格和生理特征的角度,为青少年游泳人才的识别与开发提供了坚实的科学基础。

Abstract

The field of competitive swimming lacks broadly applicable predictive models for talent identification across various age groups of adolescent swimmers. This study aimed to construct a predictive model for athletic talent using machine learning methods based on anthropometric and physiological data. Baseline data were collected from 5444 participants aged 10–18 in Shanghai, China, between 2015 and 2018, with 4969 completing a 3-year follow-up. Talents were discerned based on their performance over the follow-up period, revealing age- and sex- dependent developmental differences between swimmers classified as talented versus non-talented. After controlling for confounding variables, age and sex, nine machine learning algorithms were employed, with Random Forest achieving the highest performance and being selected as the final model. The model demonstrated excellent predictive performance on both the test dataset and an independent validation dataset from Shandong (n = 118), indicating its strong generalizability. Furthermore, using the SHapley Additive exPlanations (SHAP) method to interpret the model, abdominal skinfold, lung capacity, chest circumference, shoulder width, and triceps skinfold were identified as the five most critical indicators for talent identification.

作者简介

通讯作者

    徐炳祥,上海体育大学运动健康学院副教授、河北工业大学生命科学与健康工程学院副教授,硕士生导师;毕业于中国科学院北京基因组研究所(国家生物信息中心);拥有数学、统计学、计算机科学、生命科学、运动人体科学等多学科交叉背景;主要研究领域为生物信息学、分子流行病和卫生统计、健康大数据及应用等;主持/参与国家自然科学基金项目3项;发表论文13篇;获得国家发明专利1项。现任中国生物物理学会运动与公共健康分会青年理事。

    刘铁民,教授。多伦多大学(加拿大)博士, 哈佛大学医学院贝斯以色列女执事医学中心(美国)和德克萨斯大学西南医学中心(美国)博士后, 美国德克萨斯大学西南医学中心讲师。现任复旦大学生命科学学院和遗传工程国家重点实验室教授,复旦大学附属中山医院特聘教授。国家重点研发计划‘发育编程及其代谢调节’重点专项项目首席科学家,复旦大学生命科学学院生理学和神经生物学系主任,内蒙古大学生物医学研究院副院长,中国科协海智计划特聘专家。主要研究大脑和周边器官包括脂肪,肌肉和肝脏等在调节能量代谢/糖脂代谢中的重要作用。具体采用组织特异性过表达或者敲除动物模型为研究对象, 结合电生理学和光遗传学等技术来研究肥胖,糖尿病及其相关代谢综合症的病理机制。着眼于将基础研究中的新发现转化为新颖的药理和临床干预疾病的研究。在Cell, Cell Metabolism, Neuron (封面和推荐文章), Nature Neuroscience等杂志发表80多篇文章。

    王茹,教授,博士生导师,上海体育大学运动健康学院院长,教育部长江学者特聘教授,国务院特殊津贴,首批“全国高校黄大年式教师团队”主要成员,上海高水平地方高校创新团队“运动与康复”重点创新团队带头人,上海市“科技创新行动计划”优秀学术带头人。获上海市级教学成果奖特等奖,获高等教育(研究生)国家级教学成果奖二等奖。研究方向:运动健康促进。

第一作者

    刘诚,上海体育大学运动健康学院2020级硕士生。

    徐炳祥,上海体育大学运动健康学院副教授、河北工业大学生命科学与健康工程学院副教授,硕士生导师;毕业于中国科学院北京基因组研究所(国家生物信息中心);拥有数学、统计学、计算机科学、生命科学、运动人体科学等多学科交叉背景;主要研究领域为生物信息学、分子流行病和卫生统计、健康大数据及应用等;主持/参与国家自然科学基金项目3项;发表论文13篇;获得国家发明专利1项。现任中国生物物理学会运动与公共健康分会青年理事。



https://wap.sciencenet.cn/blog-3558836-1511077.html

上一篇:Phenomics | 复旦大学/上海交大医学院等团队揭示饮食、菌群与龋齿在青少年中的互作机制
收藏 IP: 202.120.235.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-11-21 01:39

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部