文献RNA-seq复现第3期——数据质控、序列比对及sam文件的处理

前两期根据文献准备了mRNA测序数据、基因组索引文件、参考基因组及基因注释文件。

参考文献RNA-seq复现第1期——文献中mRNA测序数据的获取

文献RNA-seq复现第2期——sra数据转换、参考基因组及注释信息的准备

此时我们工作路径理应准备了三种数据:

①.fastq格式的测序数据

②基因组索引(人类hg19为例)

③参考基因组及基因注释(gencode.v41lift37._.gtf)

其中第2种hg19索引文件在第2期内容未提及,在此补充。现行高通量测序都是将长序列打断成多个短序列进行测序以提高测序效率和结果的准确率,因此我们得到的数据中都是成千上万条被打乱位置的reads短序列。序列比对实质上就是将这些reads比对到参考基因组的正确位置上。为了提高比对效率,可根据参考基因组序列,将其转换成index,用于read的比对,而不是直接拿参考序列进行比对。人类的索引文件index一般都有现成的,无需自行建立,可在hisat2官网直接下载使用(Download>Index>H.sapiens>UCSC hg19)

wget https:/