用大数据预测疾病趋势 小心踩到雷区

  前言:“谷歌流感趋势”项目成功吗?捧杀和打杀都不足以客观说明问题。为健康谋求福祉,只有大数据是不够的,还要看怎么应用。

  在大数据被热炒的今天,你一定从哪里听说过,谷歌用搜索和大数据技术来预测流感发生。大数据粉丝们对此捧红得不得了,这就是著名的“谷歌流感趋势”(Google Flu Trends)项目。粉丝们认为,利用大数据预测疾病发生,是健康的福祉。

  不过,身在美国的卫生经济学家陈茁向健康界介绍,这一始于2008年的项目如今在美国到了很大质疑。

  他介绍,尽管“谷歌流感趋势”在2009年的成功表现让吃一惊,但接下来,项目高估了类流感的发病率,有时甚至比美国疾控中心的数据高出一倍以上。

  不过,熟悉统计学的陈茁结合他过去的一些研究,对“谷歌流感趋势”与美国疾控中心数据偏差产生的原因进行了分析,并对谷歌项目提出了改进。

  他的观点很明确,类似项目应该在数据准确方面有所改进,不切实际的过高期望有可能会“捧杀”大数据。但他相信,如果方法得当,大数据对疾病预测依旧有巨大的潜能,还可以在疾病监测防控之外发挥难以比拟的作用。

  中国卫生领域对大数据的支持者最近大概是喜忧参半。一方面,中国国家疾病预防控制中心与百度合作,进行疾病预测防控;另一方面,美国“谷歌流感趋势”项目的准确性遭受到质疑。

  “谷歌流感趋势”是谷歌公司2008年上马的一个项目。它的想法是,根据美国各州和主要城市对流感短语的搜索,来预测流感的暴发。

  项目背后的原理也很简单:如果某地流感开始流行,那么相关疾病的谷歌搜索就会增多。谷歌研究团队2009年在《自然》上发表的文章引起很大反响。他们准确预测了2009年流感流行,让吃一惊。

  其实,对于利用搜索引擎及相关数据预测卫生领域指标,业内早有相关研究。哈佛大学陈怡玲和合作者利用Yahoo的搜索数据,曾预测过肺炎和流感相关死亡数,相关研究于2008年发表在《Clinical Infectious Disease》上。

  2009年以后,“谷歌流感趋势”项目的表现一直不尽如人意。2011年~2013年间,项目多数高估了类流感发病率,有时候甚至比美国疾控中心的数据超出一倍以上。原因到底是什么?

  我个人认为,其中一个原因就是大家被“谷歌流感趋势”2009年的成功了,寄予了它过高的期望值。

  现实要远比原理复杂。谷歌搜索的结果和使用者人群“估计”的流感发病率相关。“估计”实际上很有问题。这是因为,普通感冒在不同个体身上的严重程度上会有差别,有些患者因为担心,便搜索了相关信息。这些搜索构成了类流感“估计”中的“噪声”。所以,“谷歌流感趋势”模型中的“噪声”需要谨慎对待。

  另外,美国疾控中心的数据来自各地实验室或医疗服务提供商,反映的是就诊发病率。由于不是每个类流感患者都会去看病,美国疾控中心的数据跟真实发病率也会有差别。

  某种意义上说,谷歌流感趋势的预测和美国疾控中心数据是两个不同的指标,两者不一样并不奇怪。相对于就诊发病率,我认为“谷歌流感趋势”结合动力学来预测流感暴发概率,可能会更好一些。

  “谷歌流感趋势”项目失误的另外一个原因是在数据分析方面存在欠缺。哈佛大学GaryKing和搭档的研究就指出了谷歌项目在分析上的不足。

  其次,“谷歌流感趋势”忽略了其他数据的作用。如果结合美国疾控中心的数据,谷歌的预测其实有可能被大大改善。我曾在明尼苏达大学杨宇宏教授的指导下做过“预测合并”的研究,“预测合并”可以改善预测精度,这或许是一个可行的改进方向。

  另外,有推测认为,随着项目开始广为人知,很多人开始跟进研究。大家都搜索流感相关短语,也增加了不少“噪声”。这个问题相对来说比较容易解决,因为谷歌可以确定搜索是否源于研究机构子网中,然后进行排除。

  而且,Gary King等也委婉地对谷歌研究团队提出了,认为其数据分析不够透明,没有将完全的“搜索短语集”公布出来。

  尽管谷歌的项目质疑,但我个人认为这种质疑不足以否定大数据对国民健康的潜在贡献。我也相信,大数据还可以在疾病监测防控之外发挥难以比拟的作用。

  根据美国2010平价医疗法案(ACA)建立的循患果效研究所(Patient-centered Outcome Research Institute)曾经资助了一个大数据项目。该项目旨在利用11个不同医疗服务网络的数据,来找出医学干预有可能产生的不同效果,并为找到合适的随机临床试验受试者提供线索。

  此外,随着信息技术的发展和相关软硬件性价比的提高,相当多的数据服务商和地区医疗服务网络已开始利用大数据,寻找最有效和最具成本效益的医学、预防和干预手段。老牌MarketScan等数据服务机构受到新兴机构的挑战,如医疗成本研究所等。

  我相信,中国国家疾病预防控制中心与百度的合作前景可期。百度的数据结合中国国家疾病预防控制中心观测点的数据,可提供更多更全面的原始信息。如果配合严谨的分析,这有可能开辟疾病监测防控的新天地。

  一个是应该更加重视分析方法,不能因为有了大数据就放弃对分析方法的重视和探索。没有合适的方法,大数据也可能导致错误的结论。比如,百度的使用人群会有不同的特征,利用百度数据进行推测疾病,就需要考虑这些特定人群与一般人群之间的差异。

  最后,对标准化的重视会减少大数据应用过程中的错误。这一点对医院和各地疾控机构信息化建设尤为重要。

  (本文作者为大学卫生促进研究中心博士后学者,资深卫生经济学者,主要研究领域为卫生经济学、健康不均等的分析,及政策和项目评估。《中国卫生评论》创刊主任编辑,现任《家庭和经济问题》编辑委员会委员。本文仅代表作者个人观点。)

手机正文底部

您可以还会对下面的文章感兴趣:

  • 专属DNA手环:定制你的独一无二
  • 在家呆着别动,这两款APP把协和医院专家带到你身边
  • 移动健康时代即将到来
  • 缺血性卒中影像检查做什么?
  • 中南大学将合作开发医疗大数据和移动医疗应用
  • 最新评论