流行病爆发可以被预测吗?

1

文:ESPNTUFU

流行病是人类历史中最可怕的恶魔之一,时至今日,它的威胁也从未解除,SARS、H1N1、埃博拉、MERS……每一个都令人闻之色变。而人类在与流行病的对抗上始终都处在一个被动的地位,只有在疾病爆发了之后才去应对,难道我们就不能提前进行预测,正面迎战吗?

的确,有非常多的研究小组正在做这一方面的工作。但理想是丰满的,而现实却很骨感。就目前而言,对下一次流行病进行预测是无法做到的。

比如,加尼福尼亚大学的研究人员在去年建立了名为Global Virome Project(GVP)的疾病预测项目,他们计划对所有的病毒进行抽样和遗传排序,以此来对未来可能发生的疾病大爆发做出预测。

2

可以通过大数据进行预测和监控。所谓大数据就是指网络监控。大数据对流感的监测和防控起到了巨大的作用,但这是因为最近数十年,流感多是地区性流行。按照大流感的流行周期,威胁全球的大流感出现的几率越来越高。

这也对流感监测提出了更高的要求:如何更早更准确地发现流感流行的苗头?有一群谷歌工程师也有同样的想法。作为全球最大的搜索引擎,每时每刻都有上百万用户在使用谷歌提供的搜索服务,其中搜索健康信息的人亦不在少数。这些用户行为提供了海量的有宝贵价值的分析数据。可以想见,流感流行季,搜索流感症状的人会飙升,而在流感高发地带,这一比例会相应提高。这意味着流感相关关键词的搜索趋势与流感的流行趋势及严重程度存在某种程度的相关性。尽管并不是每个搜索这类关键词的人都有流感症状或患有流感,但把这些搜索结果汇总到一起时,或许可以从中建立起一个准确可靠的模型,实时监控时下的流感疫情,并对未来疫情状况进行估测。工程师们首先面临的任务是选择流感相关的关键词。这一步看似简单,但却非常棘手。虽然可以肯定包含“流感”字样的关键词一定会入选,但语言的组织形式多种多样,具体应纳入哪些关键词,依然难以确定。工程师索性将关键词的选择权“粗暴”地交给了机器。他们挑出谷歌搜索量最大 5000 万个关键词,分别代入到事先建好的一个模型中,而后将这一模型产生的曲线与美国疾病预防与控制中心(以下简称美国 CDC)的流感流行曲线进行拟合,进而筛选到拟合度最高 100 个关键词。事已至此,罗马的一半已经建成。接下来就要去芜存菁,从这 100 个预测性最好的关键词中,优选出与流感有关的部分,并将其综合起来完成预测模型的建立。最终有 45 个关键词落入工程师的法眼。实践是检验真理的唯一标准,预测模型好坏的最佳评价标准一定是在实战中观察其能否通过考验。在回溯验证中,谷歌工程师将美国纽约市 2003 年至 2007 年的季节性流感数据与模型计算出的数据进行了比较,发现相关系数达 0.90。对于这一模型,更有用的是“未来”验证的结果。在回溯结果的鼓励之下,谷歌工程师从 2008 年初开始,将模型导出的结果与两周后美国 CDC 公布的数据进行对照。结果依然令人振奋,相关性同样达到了 0.90。最终,工程师们还将这一模型的建立过程撰写成论文发表在《自然》杂志上。很快,谷歌根据这一结果推出了名为“流感指数(Google Flu Trends)”的产品,据称能够提前两周提供精确度不低于疾控中心的结果。目前这一指数已推广到全球 29 个国家,并由检测流感拓展到另一种感染性疾病登革热。谷歌工程师对这一产品如此自豪,以至于在产品推介视频中,CDC 的结果完全沦为陪衬,但事实果真如此么?由于“流感指数”的高低在很大程度上取决于用户的搜索行为,有观察家认为,如果一些事件会影响到用户的搜索,那么指数就有可能出现假阳性或假阴性。果不其然,在谷歌流感指数运行期间,人们逐渐观察到原有模型的缺陷。早在 2009 年,谷歌流感指数就暴露出了算法可能存在问题。那年在主要国家流行的流感病毒株是 H1N1 型。该毒株传播力惊人,不过毒力较弱。也就是说,相当一部分人感染了H1N1后多表现轻微的典型流感症状,并不会引发更严重的并发症。也许是这一原因导致谷歌用户并未过多关注当时流感的流行状况,致使流感指数的估值严重低于 CDC 的上报数量。这一假阴性错误迫使谷歌工程师第一次大幅修改了算法。时至 2013 年,流感再一次引起了世人的广泛关注。在中国,H7N9 型禽流感引起 130 余人感染,并致使 44 人死亡,且有人传人的迹象。而在美国,流感流行状况也十分严峻。纽约州在 2013 年 1 月还特地发布“公共健康紧急状态”的通告,以警示民众。这些消息获得大众媒体的广泛报道。然而,谷歌流感指数的表现再次让人大跌眼镜:指数估值出现了假阳性,即远高于 CDC 的统计数量。尽管谷歌方面对此并未置评,但大部分关注这一指数的研究者认为,流感疫情获得媒体连篇累牍的报道,影响了谷歌用户的搜索行为,导致指数估值出现偏差。在谷歌流感指数启发之下,很多研究者试图利用其他渠道(比如社交网站)的数据来预测流感。纽约罗切斯特大学的一个数据挖掘团队就曾利用 Twitter 的数据进行了尝试。利用团队开发的文本分析工具,研究者在一个月内收集了 60 余万人的 440 万条 Twitter 信息,挖掘其中的身体状态信息。最终的分析结果表明,研究人员可以提前 8 天预报流感对个体的侵袭状况,而且准确率高达 90%。不过研究者也承认,这一算法并非完美,比如 Twitter 的使用者大部分是年轻人,而季节性流感的袭扰对象多为抵抗力较弱的老年人和儿童。另外噪音信息的干扰也很难去除。比如研究者在监测 Twitter 上关于流感的信息时,突然发现一个峰值,而那时完全不是流感的流行季,进一步分析显示,原来是纽约湖人队的篮球巨星科比·布莱恩特在那时罹患流感,但仍带病上场,从而引起球迷在 Twitter 上热议所致。
大数据视角下的甄别手段利用搜索引擎的检索词以及推特的文本挖掘来提前感知流感的脉搏,的确是一种有效的手段,虽然目前仍处于“进化”阶段,但至少可以作为现有监测网络的补充。就大流感的流行周期来看,下一波流感的全球流行很快就会到来。科学家估测,全球流感暴发的导火索很可能是肆虐于禽鸟间的高致病性禽流感具备了人际间传播能力,而 H7N9 或许就是大流感来临前的警钟。而现在通过大数据可以进行一定程度上的对流感进行监控。

3

可以被预测。但是实际上存在一定困难:

1.易变异,不仅难以用疫苗预防,还随时存在变异出致命毒株的风险。

2.人们不够重视流感,导致病毒肆意传播,专家也无法对其进行详细研究。

但是美国研究人员利用他们所开发的新工具,成功预测了当时即将到来的流感季将是甲型H3N2流感的高发季。

当然,我认为既然是预测,就有可能出现误差。流感病毒在不断地变异,那么即使注射了流感疫苗的亲们,仍有可能感染,导致患上流感。所以注射了疫苗,也不能100%预防流感了。

关于作者: 网站小编

码农网专注IT技术教程资源分享平台,学习资源下载网站,58码农网包含计算机技术、网站程序源码下载、编程技术论坛、互联网资源下载等产品服务,提供原创、优质、完整内容的专业码农交流分享平台。

热门文章