缺少规范的后果就是,每用一个文件都得去确认它的标准。
基因组文件也是个烦人的问题,有些格式是的第一个碱基是0,有些又是1,要做精确到碱基的分析时,就比较烦恼了。
现在把常用的坐标起始问题记录一下。
UCSC注释文件的起始坐标都是0,参见https://cgwb.nci.nih.gov/goldenPath/gbdDescriptions.html
ENCODE peak文件起始坐标也是0,参见http://genome.ucsc.edu/FAQ/FAQformat.html#format13
GFF格式起始坐标是1,说明同上。
MACS输出文件储xls格式外,其余也都是0起始,参见https://github.com/taoliu/MACS/
NCBI genbank文件起始坐标应该是1.
https://wap.sciencenet.cn/blog-824692-649267.html
上一篇:
UCSC genome browser 镜像搭建下一篇:
随机取fastq序列