1 、 FASTA 文件的格式 在生物信息学中,FASTA格式(又称为Pearson格式)是一种基于文本的、用于表示核苷酸序列或氨基酸序列的格式。在这种格式中碱基对或氨基酸用单个字母来表示,且允许在序列前添加序列名及注释。 FASTA 文件以序列表示和序列作为一个基本单元,各行记录信息如下: 第一行是由大于号 ...
我看到GATK的best practice中说道“ Duplicately sequenced molecules shouldn't be counted as additional evidence for or against a putative variant. By marking these reads as duplicates the algorithms in the GATK know to ignore them. ” 我在网上也查过好多次了,可是还是不太明白这个duplicate是 ...