|||
###准备工作:Linux服务器,window操作系统/MAC/linux 虚拟机
读文献,找到GEO编号对应的SRR。此次流程中用到的是SRR1039510 SRR1039511 SRR1039512。
实际分析中可能有多个SRR样本对应着多个SRR编号,那么要找到accession list, 将其下载下来,通过 filezilla/winscp等ftp传输软件上传到Linux服务器,使用的终端是X-SHELL /PUTTY。
#进入服务器后,新建转录组上游分析的项目文件夹,并自定义工作目录变量
mkdir -p project/airway workdir=$HOME/project/airway
#进入项目文件夹,并在项目文件夹内新建项目分析流程的各个文件夹
cd ${workdir} 或者直接cd project/airway mkdir -p {01.sra, 02.fq, 03.clean, 04.fastp, 05.mapping, 06.counts}
#下载GEO数据
conda activate rna cat accesion_list |while read id; #在读取accession_list 文件时将SRR编号赋值给自定义变量id do prefech ${id}; #使用SRAToolkit 软件的prefetch 下载数据 done 结束while 循环
#将SRR数据批量转换成fastq文件
conda activate rna #使用rna 小环境中的软件每次都需要激活 ls -lh #查看文件夹下的三个SRR文件 ls *.sra|while read id; do fastq-dump --gzip --split-e -X 25000 -O ./ ${id}; done #使用SRAToolkit中的fastq-dump进行转换
#在03.fq文件夹下新建qc 结果文件夹,并使用fastqc软件对fastq.gzip 文件批量进行质控分析
conda activate rna fastqc -t 4 -o ./qc *.fastq.gzip #使用*通配符就可以实现批量修改 multiqc -o ./ *.zip #使用multiqc 统计fastqc的质控分析结果
#使用trim-galore软件对reads进行批量化修剪并进行fastqc分析
conda activate rna cd ${workdir}/03.clean ln -s ${workdir}/01.sra/ *.fastq.gz ./ #将01.sra文件夹下的fastq.gz文件通过软连接的方式链接到04.clean文件下
cat >trim.sh for i in $(ls *._1.fastq.gz); do i={i%_1.fastq.gz} trim_galore --phred33 -q 20 --length 36 --stringency 3 --fastqc --paired -o ./ \ ${i}_1.fastq.gz ${i}_2.fastq.gz 1>${i}.trim.log 2>&1; done nohup sh trim.sh &
#建立修剪后的数据结果文件夹clean_qc,并将trim-galore 软件运行结果文件转移至这个文件夹
mkdir -p clean_qc mv *.{html, zip} clean_qc
#再次使用multiqc软件整合修剪后的fastqc运行的结果文件
multiqc ./clean_qc/*.zip -o ./clean_qc/
#使用fastp软件进行数据的第二次修剪,并将结果存入新文件夹fastp_qc,之后用fastqc进行质控分析后用multiqc整合其结果
conda activate rna cd ${workdir}/04.fastp ln -s ${workdir}/01.sra/*.fastq.gz ./ cat >fastp.sh for i in $(ls *_1.fastq.gz) do i=${i/_1.fastq.gz/} fastp -i ${i}_1.fastq.gz -o ${i}_1.fastp.fq.gz \ -I ${i}_2.fastq.gz -O ${i}_2.fastp.fq.gz \ -l 36 -q 20 --compression=6 \ -R ${i} -h ${i}.fastp.html -j ${i}.fastp.json \ 1>${i}.fastp.log 2>&1 done nohup sh fastp.sh & mkdir -p fastp_qc mv *.{zip,html} ./fastp_qc fastqc -t 4 -o ./fastp_qc *.fastp.fq.gz multiqc -o ./fastp_qc/ ./fastp_qc/*.fastp.fq.gz
######至此,已得到可以进行后续分析的clean reads。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-10-20 01:34
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社