PhenomicsJ的个人博客分享 http://blog.sciencenet.cn/u/PhenomicsJ

博文

Phenomics | 中国科学院上海营养与健康研究所汪思佳团队合作开发基于深度学习的舌象表型自动化平台TonguExp

已有 550 次阅读 2025-7-19 19:44 |系统分类:论文交流

 近日,《表型组学(英文)》(Phenomics)在线发表了中国科学院上海营养与健康研究所汪思佳、彭倩倩团队、张国庆团队和北京中医药大学陈建新团队题为“TonguExpert: A Deep Learning-Based Algorithm Platform for Fine-Grained Extraction and Classification of Tongue Phenotypes”的研究论文。

  该研究开发了一种基于深度学习的舌象表型自动化分析平台TonguExpert,可实现舌图片中舌体的精准识别、分割以及细粒度的舌象表型提取与分析,并构建了当前最大的公开舌象数据集,为舌诊的客观化研究和临床应用提供了重要工具。

文末点击“阅读原文”可在线阅读文章。

s43657-024-00210-9.png

扫描二维码 | 下载PDF原文

论文DOI链接:

https://doi.org/10.1007/s43657-024-00210-9

论文引用格式:

Li, T., Zuo, L., Wang, P. et al. TonguExpert: A Deep Learning-Based Algorithm Platform for Fine-Grained Extraction and Classification of Tongue Phenotypes. Phenomics (2025). https://doi.org/10.1007/s43657-024-00210-9

研究背景

  舌头的各种表型与人体健康状态息息相关。在中医理论中,舌质、舌苔、舌裂纹、舌齿痕等舌象表型被认为可以反映人体脏腑的气血盛衰变化,现代研究中也发现舌象与多种疾病密切相关。客观、精细地表征舌象,对于理解舌象与疾病的关联具有重要意义。

  传统的人工舌诊依赖医师经验判断,存在主观性强、特征描述粗糙等问题,因此,有必要开发客观、定量的舌诊方法。目前已有一些方法实现了舌色、舌裂纹等舌象的自动分类,但还存在一些局限性:首先现有技术的预测结果精度有限,且大多只关注了颜色、形态、纹理等特征中的一种或少数几种,不利于临床舌象的全面定义。其次,多基于小样本数据集或患者人群开发,往往只针对单一表型,限制了模型的泛化能力。此外,当前缺乏公开可用的舌象数据集,这限制了舌象自动化模型的比较和改进。

  针对上述问题,本研究基于5992例中国大规模健康人群数据,开发了一套舌表型自动识别和分类框架TonguExpert,该框架融合了多种深度学习算法,实现了全自动、细粒度的舌象表型提取,形成了一套通用的表型库,可推广到独立数据集中新舌象样本的预测。本研究还开发了一个在线分析平台(https://www.biosino.org/TonguExpert),支持舌象图像的自动分析与表型提取,并提供研究中使用的数据集与表型结果下载,促进舌象研究的标准化与共享。

研究结果

  本研究开发了一套舌表型自动识别和分类框架,以舌象图片为输入,可实现从预处理到表型输出的一站式分析。如图1所示,TonguExpert首先识别图片中的舌体区域并从背景中分割出来。舌体区域图像经过反光点去除、苔质分离后,分别提取舌苔、舌质和全舌这三个全局表型的颜色、形状、纹理、以及神经网络特征。对于舌裂纹、舌齿痕等局部表型,则是先筛选出有裂纹或齿痕的舌体区域图像,再进行舌齿痕目标识别或舌裂纹目标分割,得到目标局部图像后,提取局部的颜色、形状、纹理、以及CNN网络特征。利用上述特征,结合感兴趣的舌象人工标签(如舌苔的白/浅黄/黄)和可解释的机器学习模型,可进一步预测分类舌象特征。

1.png

图1 TonguExpert 分析全流程

  本研究首先提取了763个表型,包括355个全舌、舌质和舌苔的特征和408个舌裂纹和舌齿痕的特征。考虑到临床医生可能关注特定区域的舌象,研究还额外提供了5个舌区域(舌尖、舌中、舌根、舌两侧)的580个特征用于未来研究。最终,TonguExpert可从一张图片中提取多达1353个表型。这些表型构成了一套精确量化舌象的通用表型库。为评估这些表型在传统舌象分类任务中的预测性能,本研究以舌色、苔色、舌裂纹及舌齿痕的人工标注标签为对照,构建模型对相应分类进行预测。结果显示,该系统在所有四类舌象的预测中均表现出优异的性能(AUC范围为0.91至0.99),且所提取的特征具备良好的可解释性,支持其在中医舌诊客观化与标准化研究中的应用潜力。

20250606163855.png

图2 舌色、苔色、舌裂纹和舌齿痕4种舌象的分类预测结果

  为了评估这套表型提取框架的泛化能力,研究人员在一个独立的舌腻苔数据集中用TonguExpert提取了表型并预测舌腻苔这一新舌象表型。结果显示该模型在预测非腻苔/腻苔/厚腻苔任务中均表现出了良好的效果(AUC=0.95/0.84/0.91)。这一结果说明TonguExpert构建的表型库具有良好的可迁移性与扩展性,具备作为未来新舌象识别与表征基础的潜力。

20250606163956.png

图3 舌腻苔的分类预测结果

  最后,本研究开发了一个易于使用的在线分析平台(https://www.biosino.org/TonguExpert),支持用户在线上传舌图像并自动完成舌象表型的分析。同时,平台公开了研究所使用的训练集原始图像及表型数据集,便于其他研究者进一步利用与验证。

研究结论

  本研究所构建的TonguExpert深度学习分析框架,能够高效、准确地从舌图像中提取舌象特征,并预测多种临床常见的舌象表型。所提取的高精度、细粒度表型特征不仅有助于更全面地刻画现有舌象,也具备支持未来新舌象定义与分类的能力。借助开放共享的数据资源和用户友好的在线平台,TonguExpert有望在舌象的精准化分析、标准化研究及其潜在的生物学机制探索中发挥重要作用。

  中国科学院上海营养与健康研究所李婷博士、北京中医药大学博士研究生左玲为该论文的共同第一作者,中国科学院上海营养与健康研究所汪思佳研究员、彭倩倩副研究员、张国庆研究员和北京中医药大学陈建新教授为本文的共同通讯作者。该研究得到了国家重点研发项目和国家自然科学基金等多项基金支持。

Abstract

  Tongue analysis holds promise for disease detection and health monitoring, especially in traditional Chinese medicine. However, its subjectivity hinders clinical applications. Deep learning offers a path for automated tongue diagnosis, yet existing methods struggle to capture subtle details, and the lack of large datasets hampers the development of robust and generalizable models. To address these challenges, we introduce TonguExpert (https://www.biosino.org/TonguExpert), a free platform for archiving, analyzing, and extracting phenotypes from tongue images. Our deep learning framework integrates cutting-edge techniques for tongue segmentation and phenotype extraction. TonguExpert analyzes a massive dataset of 5992 tongue images from a Chinese population and extracts 773 phenotypes including five predicted labels and their probabilities, 355 global features (entire tongue, tongue body, and tongue coating) and 408 local features (fissures and tooth marks) in a unified process. Besides, 580 additional features for five tongue subregions are also available for future study. Notably, TonguExpert outperforms manual classification methods, achieving high accuracy (ROC-AUC 0.89-0.99 for color, 0.97 for fissures, 0.88 for tooth marks). Additionally, the model generalizes well to predict new phenotypes (e.g., greasy coating) using external datasets. This allows the model to learn from a broader spectrum of data, potentially improving its overall performance. We also release the largest publicly available dataset of tongue images and phenotypes, which is invaluable for advancing automated analysis and clinical applications of tongue diagnosis. In summary, this research advances automated tongue diagnosis, paving the way for wider clinical adoption and potentially expanding the applications in the future.

作者简介

通讯作者

陈建新,北京中医药大学二级教授,博士研究生导师,入选国家自然科学基金杰出青年科学基金、教育部长江学者奖励计划青年学者项目、国家自然科学基金优秀青年科学基金,承担国家自然科学重点项目及国家重点研发计划子课题,作为主要完成人获国家科学技术进步二等奖2项。担任Pharmacological Research副主编,主要研究方向为中医信息学。

张国庆,中国科学院上海营养与健康研究所研究员,生物医学大数据中心执行主任。在Nature Microbiology 、National Science Review 、Nucleic Acids Research 、Briefings in Bioinformatics等刊物上发表论文80余篇。主要研究方向是生物医学数据库与知识库,包括精准医学、自然及疾病人群队列、人类表型组、环境及病原及人体微生物组等领域的数据库和知识库的研发,致力于多维生命组学数据、文献数据、健康与医疗等真实世界数据的集成与管理,以及以人工智能为代表的数据科学关键技术研究。

彭倩倩,中国科学院上海营养与健康研究所副研究员,中国科学院青年促进会会员。以第一作者或通讯作者身份在 Nature Genetics、Journal of Investigative Dermatology、Science China Life Sciences、Phenomics等国际期刊发表SCI论文20余篇。近年来,围绕大数据时代下的衰老与慢病机制解析开展系统研究,主持国家自然科学基金青年项目、面上项目,作为课题骨干参与中国科学院先导专项、青年团队项目、上海市计算生物学专项等多项重要科研任务。研究方向聚焦于衰老与慢病(如心血管疾病、代谢相关疾病)的关联机制,融合多组学数据与人工智能方法,识别健康风险特征,构建个体化健康状态评估与预测模型。

汪思佳,中国科学院上海营养与健康研究所所长、博士生导师。在 Cell、Nature Genetics等国际顶级期刊发表SCI论文100余篇。作为国家自然科学基金青年项目获得者与上海市优秀学术带头人,主持或参与国家自然科学基金重大项目、国际合作项目、中国科学院战略性先导科技专项(B类)、上海市科技重大专项等十余项科研任务。现任Annals of Human Genetics副主编。研究方向聚焦于开发并结合应用最新的基因组学及人工智能等方法,依托大型人群队列,对影响皮肤等体质相关表型的遗传与环境因素进行系统性研究。

第一作者

李婷,中国科学院上海营养与健康研究所计算生物学博士,导师为汪思佳研究员,主要研究方向为舌象表型的客观量化及其与遗传和健康的关联研究。

左玲,北京中医药大学-中国科学院上海营养与健康研究所联培博士研究生,导师为陈建新教授、汪思佳研究员,主要研究方向为中医表型组学。



https://wap.sciencenet.cn/blog-3558836-1494391.html

上一篇:Phenomics | 中南大学湘雅医院陈泽宇教授团队综述:新型成像技术在生物医学中的应用
收藏 IP: 202.127.31.*| 热度|

1 郑永军

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-7-21 13:33

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部