是时候来一波RNA-Seq差异表达分析实操了

2018-05-03

　　下载完RNA-Seq数据后，我们还需要下载一个拟南芥cDNA序列(记住是组，而不是全基因组，好了，你别说了，我记住了)

　　当然你完全不必真的去睡午觉，我们可以程序运行的时候准备一下tximport所需要的输入文件。

　　tximport可以纠正不同样本基因长度的潜在改变（比如说differential isoform usage）；能够用于导入 (Salmon,Sailfish,kallisto)程序的输出文件；能够避免丢弃那些比对到多个基因的同源序列，从而提高灵敏度

　　虽然tximport的参数看起来很多，但其实需要我们准备的就是两个files和tx2gene

　　吐槽: 原本的我以为sample从1到16会和194到206是一一对应，但是万万没想到，他的对应关系居然是下图这个样子的。看来凡是都不能想当然，一定要仔细看他们的对应关系。

　　由于后续要用DESeq2包做差异表达分析，所以需要用DESeqDataSetFromTximport这个函数，当然你还需要说明你的实验设计

　　最后找到了208个差异表达基因，105上调，103个下调；而文章是298个，148上调，156下调。

　　由于这个画图过程，后续会用大很多次，为了避免重复操作，我写成了一个函数，我你根据的流程自己写一个函数，不要用我的。

　　和文章的结论基本一致，早花同源异形基因在我的流程中只能检测到CAL, 而发育中期和后期的基因基本上表达量也特别低。不过文章说CAL3这个基因能被稳定被检测到，实际上表达量与这些基因没有明显区别（< 100)，我也不知道他如何得到这个结论的。

　　很尴尬，显著性上调的基因也都在我的列表中，但是显著性下调的，一个都没有，于是我把水平从0.01提高到0.05，重新检查下

　　好吧还是只找到一个，毕竟ELF4这个表达量实在是太低了，除非水平变成是0.1，不然是难以发现的啦。但是这个还是证明作者的猜想是对的。

　　为了验证这个结果是不是正确的，我使用Y叔之作clusterProfiler，进行GO富集分析。

　　结果在上调中并没有找到富集基因，但是在下调（day1 vs day0 和 day3 vs day0)中却发现了好多富集基因，虽然场面十分尴尬，但是至少说明下调的基因大多属于ribosome

　　或许我可能需要用文章说的AmiGO 2 versions 2.3.2 and 2.4.24进行GO富集分析，或许用DAVID，其他工具分析一遍，感觉又要许多主观能动性了。

　　在这次实战中，我学习了用tidyr, dplyr对数据进行预处理，重新看了一下ggplot2的图形语法，复习了之前差异表达分析的基本操作。

手机正文底部