zhangmj123的个人博客分享 http://blog.sciencenet.cn/u/zhangmj123

博文

我的第一个转录组分析

已有 2699 次阅读 2020-4-29 15:54 |个人分类:Transcriptome|系统分类:科研笔记| 不回博客消息

###准备工作:Linux服务器,window操作系统/MAC/linux 虚拟机


读文献,找到GEO编号对应的SRR。此次流程中用到的是SRR1039510 SRR1039511 SRR1039512。

实际分析中可能有多个SRR样本对应着多个SRR编号,那么要找到accession list, 将其下载下来,通过 filezilla/winscp等ftp传输软件上传到Linux服务器,使用的终端是X-SHELL /PUTTY。


#进入服务器后,新建转录组上游分析的项目文件夹,并自定义工作目录变量

mkdir -p project/airway
workdir=$HOME/project/airway


#进入项目文件夹,并在项目文件夹内新建项目分析流程的各个文件夹

cd ${workdir} 或者直接cd project/airway
mkdir -p {01.sra, 02.fq, 03.clean, 04.fastp, 05.mapping, 06.counts}


#下载GEO数据

conda activate rna
cat accesion_list |while read id; #在读取accession_list 文件时将SRR编号赋值给自定义变量id
do prefech ${id}; #使用SRAToolkit 软件的prefetch 下载数据
done 结束while 循环


#将SRR数据批量转换成fastq文件

conda activate rna #使用rna 小环境中的软件每次都需要激活
ls -lh #查看文件夹下的三个SRR文件
ls *.sra|while read id; do fastq-dump --gzip --split-e -X 25000 -O ./  ${id}; done #使用SRAToolkit中的fastq-dump进行转换


#在03.fq文件夹下新建qc 结果文件夹,并使用fastqc软件对fastq.gzip 文件批量进行质控分析

conda activate rna
fastqc -t 4 -o ./qc *.fastq.gzip #使用*通配符就可以实现批量修改
multiqc -o ./ *.zip #使用multiqc 统计fastqc的质控分析结果


#使用trim-galore软件对reads进行批量化修剪并进行fastqc分析

conda activate rna
cd ${workdir}/03.clean
ln -s ${workdir}/01.sra/ *.fastq.gz ./ #将01.sra文件夹下的fastq.gz文件通过软连接的方式链接到04.clean文件下
cat >trim.sh 
for i in $(ls *._1.fastq.gz); 
do i={i%_1.fastq.gz} 
trim_galore --phred33 -q 20 --length 36  --stringency 3 --fastqc --paired -o ./ \
${i}_1.fastq.gz ${i}_2.fastq.gz 1>${i}.trim.log 2>&1; done 

nohup sh trim.sh &

#建立修剪后的数据结果文件夹clean_qc,并将trim-galore 软件运行结果文件转移至这个文件夹

mkdir -p clean_qc
mv *.{html, zip} clean_qc

#再次使用multiqc软件整合修剪后的fastqc运行的结果文件

multiqc ./clean_qc/*.zip -o ./clean_qc/

#使用fastp软件进行数据的第二次修剪,并将结果存入新文件夹fastp_qc,之后用fastqc进行质控分析后用multiqc整合其结果

conda activate rna
cd ${workdir}/04.fastp
ln -s ${workdir}/01.sra/*.fastq.gz ./
cat >fastp.sh
for i in $(ls *_1.fastq.gz)
do
	i=${i/_1.fastq.gz/}
	fastp -i ${i}_1.fastq.gz -o ${i}_1.fastp.fq.gz \
			-I ${i}_2.fastq.gz -O ${i}_2.fastp.fq.gz \
			-l 36 -q 20 --compression=6 \
			-R ${i} -h ${i}.fastp.html -j ${i}.fastp.json \
			1>${i}.fastp.log 2>&1
done
nohup sh fastp.sh &
mkdir -p fastp_qc
mv *.{zip,html} ./fastp_qc
fastqc -t 4 -o ./fastp_qc *.fastp.fq.gz
multiqc -o ./fastp_qc/ ./fastp_qc/*.fastp.fq.gz

######至此,已得到可以进行后续分析的clean reads。










https://wap.sciencenet.cn/blog-3414136-1230791.html

上一篇:GEO分析第一弹
收藏 IP: 178.128.102.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-20 00:14

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部