LncPepAtlas:探索lncRNA翻译潜力综合资源
长链非编码 RNA(Long non-coding RNA,lncRNA) 是一类非蛋白质编码转录本,已成为各种细胞过程的关键调控因子。在癌症中,lncRNA 表现出多种功能,包括调控基因表达和调控细胞周期进程,这可能致癌或促进肿瘤转移。lncRNA 的失调在各种恶性肿瘤中很常见,它们可以充当致癌基因或肿瘤抑制因子,从而影响癌症的发展和进展。lncRNA 的上游调控通过超级增强子(super enhancer,SE) 可以显著影响癌症发生发展。例如,SE 可导致 lncRNA LINC01503过表达,从而对鳞状细胞癌的发展产生影响。了解各种 lncRNA 在癌症中的确切作用可能会发现新的治疗靶点或确定诊疗的生物标志物。此外,对lncRNA的深入研究表明,其中一些序列可以翻译成新的蛋白质。此外,lncRNA编码肽被发现对细胞过程和疾病机制产生重大影响。已经开发了多种生物技术方法和计算算法来研究这些转录本的翻译。这些方法包括预测lncRNA序列编码潜力的生物信息学工具,例如编码-非编码指数(CNCI)、编码潜力计算器2(CPC2)和编码潜力评估工具(CPAT)。高通量技术和检测翻译肽的实验技术,包括核糖体分析和质谱(MS),对于提供lncRNA翻译的实质性证据也很有价值。同时,内部核糖体进入位点 (IRES) 和 N6-甲基腺苷 (m6A) 机制均被认为是 lncRNA 翻译的潜在驱动因素 。最后,评估 lncRNA 翻译肽的 Pfam 结构域注释也可作为其功能潜力的指标。
先前研究为开发多个专注于检测 lncRNA 翻译和注释数据库铺平了道路,为深入分析 lncRNA 提供了全面的框架。例如,cncRNAdb、FuncPEP和 ncEP提供了经过实验验证的 lncRNA 衍生肽,而 sORFs.org 则专注于根据核糖体分析数据寻找开放阅读框(ORF)。SmProt还利用核糖体分析数据检查了长度小于 100 个氨基酸的肽。然而,一些 lncRNA 编码的功能肽长度大于 100 个氨基酸。同时,包括 PacBio和 Oxford Nanopore Technologies (ONT)在内的先进长读长测序技术已经发现了许多新的全长 lncRNA。因此,迫切需要提供对 lncRNA 上游调控的全面注释,以及整合跨不同物种 lncRNA 编码肽的多种翻译证据来源的资源。
为了满足这些需求,Zhou等人开发了 LncPepAtlas 平台 (http://www.cnitbiotool.net/LncPepAtlas/),旨在提供经过实验验证和预测的 lncRNA 编码肽的综合存储库。该平台通过分析来自九个物种的 2655 个核糖体分析数据集,汇编了大量翻译的 lncRNA 肽库,包括人类、老鼠、褐家鼠、拟南芥、秀丽隐杆线虫、斑马鱼、果蝇、大肠杆菌和酿酒酵母。作者们采用了九种方法来评估来自 Ensembl 数据库的 lncRNA 衍生肽的翻译证据 。这些包括手动管理、核糖体占有率、IRES、m6A、MS、Pfam、CPC2、CPAT 和 CNCI。除了探索翻译证据外,LncPepAtlas 还为 lncRNA 提供广泛的注释,旨在识别上游调控注释,例如转录因子 (TF)、SE、典型增强子(TE) 和沉默子,以及跨多种癌症类型、组织或细胞系的 lncRNA 表达注释。除此之外,LncPepAtlas 还分析 lncRNA 编码的肽,包括它们与实验验证蛋白质序列的比对,并提供它们作为抗原肽与 I 类和 II 类主要组织相容性复合体(MHC) 分子相互作用的结合亲和力评估。LncPepAtlas 提供了一个直观界面,方便搜索、浏览和下载可翻译 lncRNA 及其编码肽的全面信息(图 1)。
图1 LncPepAtlas数据库内容和建设。LncPepAtlas提供可翻译lncRNA的全面数据,包括编码肽、功能和表观遗传注释,以及浏览、搜索和下载功能
研究人员可以探索与影响 lncRNA 翻译的特征和编码肽的功能特征相关的注释。LncPepAtlas 具有多种优势,包括(i)基于九种独立证据形式对蛋白质翻译进行详细预测,(ii)对 lncRNA 周围调控区域的全面注释,(iii) 九种物种的 Ribo-seq 数据集描述,(iv)三种用于访问 lncRNA 信息的搜索方法和 (v) 用户友好的浏览界面。
尽管有这些优势,LncPepAtlas 也有其局限性。由于数据和软件方法的特殊性,当前版本中的九种 lncRNA 翻译证据并不适用于每个物种。在未来的更新中,作者们将整合更全面证据和 Ribo-seq 数据,以解决更多物种的这一问题。作者们将扩大调控数据集的规模,添加可翻译 lncRNA 及其编码小肽的可用注释。此外,作者们将通过构建基于 lncRNA 序列的内在特征、翻译机制特征(IRES 和 m6A)和保守特征的机器学习模型(随机森林)和深度学习模型(Bert)来开发 lncRNA 翻译算法。最后,作者们将该算法应用于 LncPepAtlas,并提供一个相对准确的概率值来反映 lncRNA 翻译成肽的潜力。总之,LncPepAtlas 是一个用户友好的数据库,允许搜索、浏览和下载可翻译 lncRNA 及其编码肽的信息。LncPepAtlas将成为探索可翻译lncRNA及其编码肽在疾病状态和生物过程中的潜在功能和调控的有用且有效的平台。
参考文献
[1] Zhou X, Qin Y, Li J, Fan L, Zhang S, Zhang B, Wu L, Gao A, Yang Y, Lv X, Guo B, Sun L. LncPepAtlas: a comprehensive resource for exploring the translational landscape of long non-coding RNAs. Nucleic Acids Res. 2024 Oct 22:gkae905. doi: 10.1093/nar/gkae905.
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
转载本文请联系原作者获取授权,同时请注明本文来自张俊鹏科学网博客。
链接地址:https://wap.sciencenet.cn/blog-571917-1469576.html?mobile=1
收藏