450K甲基化芯片数据处理传送门

  Illumina甲基化芯片目前仍是很多实验室做甲基化项目的首选,尤其是对于大样本研究而言,其性价比相当高。这种芯片的发展主要经历了27K、450K以及850K,目前积累的数据主要是450K芯片的,未来850K可能会成为主流。之前我写过一篇450K芯片预处理的帖子,其中也介绍了这种芯片的基础知识以及流程图和代码,大家可以先看看。芯片的处理流程一般就是:数据读入——数据过滤——数据校正——下游分析。

  与测序相比,芯片的处理可能对计算资源的要求是不算高,主要使用的工具就是R,R的使用比较耗内存,尤其是处理大批量数据的时候。

  R本身是支持各种系统的,所以不管是mac、windows还是linux理论上都是可以的,只要下载对应版本即可。当然,如果你会linux最好在linux操作。其实数据分析很多都是相通的,所以之前群主推荐的配置和工具都是可以拿来用的。

  看文章里的methods部分,把它的分析步骤摘抄下来,然后理解GEO数据库的数据存放形式,把规律和笔记发在论坛,类似于RNA-seq数据处理入门和CHIP-seq数据处理入门

  需要阅读相关的资料,比如illumina的官网介绍及相关的文献,对甲基化及该芯片的技术核心有一定了解,对于存在的问题也要知道,这对于后面分析时理解校正的意义非常重要!

  在GEO或者illumina下载450K注释文件,理解每一列的意义及探针的分类。或者下载官网的manifest文件并且理解。

  处理甲基化芯片的R包其实很多,我之前用的是minfi,现在用ChAMP应该更加方便,它整合了很多分析处理数据的方法,例如过滤和校正等,所以大家可以以ChAMP为主。

  数据过滤主要是根据p值和bead数,probe还需要注意过滤snp和multiple-hit,样本过滤可以考虑PCA或MDS,很多时候R包会直接帮我们做了,但是需要对过滤的标准做到心中有数。

  根据p值和bead数过滤探针和样本,过滤SNP和multiple-hit的探针,使用BMIQ校正探针类型,使用combat校正批次效应,使用lm校正混杂因素。

手机正文底部

您可以还会对下面的文章感兴趣:

  • 不搞清这7个关键问题,别说你会治「幽门螺杆菌感染」
  • 上海师大与康奈尔大学两校教授联合发布菠菜栽培种基因组草图
  • 质粒提取:质粒实验常见问题分析
  • Sci Rep:突破!利用CRISPR-Cas9技术开发出帕金森疾病新型筛选工具
  • DNA提取与纯化:琼脂糖凝胶中的DNA的回收:DEAE-纤维素膜电泳
  • 最新评论