小柯机器人

科学家开发出从演化和分析标记数据中学习蛋白质适应度模型
2022-01-23 13:09

美国加州大学伯克利分校Jennifer Listgarten、Chloe Hsu等研究人员合作开发出从演化和分析标记数据中学习蛋白质适应度模型。该研究于2022年1月17日在线发表于国际一流学术期刊《自然—生物技术》。

研究人员表示,基于机器学习的蛋白质适应性模型通常从无标签的、演化相关的序列或具有实验测量标签的变异序列中学习。对于只有有限的实验数据的情况下,最近的工作提出了结合这两种信息来源的方法。

为了实现这一目标,研究人员提出了一个简单的组合方法,该方法与更复杂的方法相比具有竞争力,而且平均性能更优。这个方法是将位点特定的氨基酸特征与演化数据建模的一个概率密度特征相结合的岭回归。在这种方法中,研究人员发现,基于变异自动编码器的概率密度模型显示出最佳的整体性能,尽管可以使用任何演化密度模型。此外,这些分析强调了系统评估和充分基线的重要性。

附:英文原文

Title: Learning protein fitness models from evolutionary and assay-labeled data

Author: Hsu, Chloe, Nisonoff, Hunter, Fannjiang, Clara, Listgarten, Jennifer

Issue&Volume: 2022-01-17

Abstract: Machine learning-based models of protein fitness typically learn from either unlabeled, evolutionarily related sequences or variant sequences with experimentally measured labels. For regimes where only limited experimental data are available, recent work has suggested methods for combining both sources of information. Toward that goal, we propose a simple combination approach that is competitive with, and on average outperforms more sophisticated methods. Our approach uses ridge regression on site-specific amino acid features combined with one probability density feature from modeling the evolutionary data. Within this approach, we find that a variational autoencoder-based probability density model showed the best overall performance, although any evolutionary density model can be used. Moreover, our analysis highlights the importance of systematic evaluations and sufficient baselines. A simple machine learning algorithm combines evolutionary and experimental data for improved protein fitness prediction.

DOI: 10.1038/s41587-021-01146-5

Source: https://www.nature.com/articles/s41587-021-01146-5

Nature Biotechnology:《自然—生物技术》,创刊于1996年。隶属于施普林格·自然出版集团,最新IF:68.164
官方网址:https://www.nature.com/nbt/
投稿链接:https://mts-nbt.nature.com/cgi-bin/main.plex


本期文章:《自然—生物技术》:Online/在线发表

分享到:

0