是时候来一波RNA-Seq差异表达分析实操了

  下载完RNA-Seq数据后,我们还需要下载一个拟南芥cDNA序列(记住是组,而不是全基因组,好了,你别说了,我记住了)

  当然你完全不必真的去睡午觉,我们可以程序运行的时候准备一下tximport所需要的输入文件。

  tximport可以纠正不同样本基因长度的潜在改变(比如说differential isoform usage);能够用于导入 (Salmon,Sailfish,kallisto)程序的输出文件;能够避免丢弃那些比对到多个基因的同源序列,从而提高灵敏度

  虽然tximport的参数看起来很多,但其实需要我们准备的就是两个files和tx2gene

  吐槽: 原本的我以为sample从1到16会和194到206是一一对应,但是万万没想到,他的对应关系居然是下图这个样子的。看来凡是都不能想当然,一定要仔细看他们的对应关系。

  由于后续要用DESeq2包做差异表达分析,所以需要用DESeqDataSetFromTximport这个函数,当然你还需要说明你的实验设计

  最后找到了208个差异表达基因,105上调,103个下调;而文章是298个,148上调,156下调。

  由于这个画图过程,后续会用大很多次,为了避免重复操作,我写成了一个函数,我你根据的流程自己写一个函数,不要用我的。

  和文章的结论基本一致,早花同源异形基因在我的流程中只能检测到CAL, 而发育中期和后期的基因基本上表达量也特别低。不过文章说CAL3这个基因能被稳定被检测到,实际上表达量与这些基因没有明显区别(< 100),我也不知道他如何得到这个结论的。

  很尴尬,显著性上调的基因也都在我的列表中,但是显著性下调的,一个都没有,于是我把水平从0.01提高到0.05,重新检查下

  好吧还是只找到一个,毕竟ELF4这个表达量实在是太低了,除非水平变成是0.1,不然是难以发现的啦。但是这个还是证明作者的猜想是对的。

  为了验证这个结果是不是正确的,我使用Y叔之作clusterProfiler,进行GO富集分析。

  结果在上调中并没有找到富集基因,但是在下调(day1 vs day0 和 day3 vs day0)中却发现了好多富集基因,虽然场面十分尴尬,但是至少说明下调的基因大多属于ribosome

  或许我可能需要用文章说的AmiGO 2 versions 2.3.2 and 2.4.24进行GO富集分析,或许用DAVID,其他工具分析一遍,感觉又要许多主观能动性了。

  在这次实战中,我学习了用tidyr, dplyr对数据进行预处理,重新看了一下ggplot2的图形语法,复习了之前差异表达分析的基本操作。

手机正文底部

您可以还会对下面的文章感兴趣:

  • 不搞清这7个关键问题,别说你会治「幽门螺杆菌感染」
  • 上海师大与康奈尔大学两校教授联合发布菠菜栽培种基因组草图
  • 质粒提取:质粒实验常见问题分析
  • Sci Rep:突破!利用CRISPR-Cas9技术开发出帕金森疾病新型筛选工具
  • DNA提取与纯化:琼脂糖凝胶中的DNA的回收:DEAE-纤维素膜电泳
  • 最新评论