Google的流感预测网站确实是个好主意,但最近却弄错了-所有这些都是由于您可能认为媒体效果很容易考虑在内。
就数据挖掘或统计数据而言,这是一个非常简单的想法-流感病例数与流感主题搜索量之间存在相关性。这是一个非常合理的想法。当然,并非所有关于流感主题的搜索都来自患有流感的人,但是如果您收集一些数据,似乎信噪比非常好。实际上,Google拥有一个站点可以向您显示流感的当前流行程度真是太好了,《自然》杂志上甚至有一篇论文介绍了该系统的优越性。
重要的一点是,根据报告的案例,Google做出的预测领先CDC的数据长达14天-这足以使人们对信息做出反应。
您可以在以下视频中看到此潜在客户:
但是,根据《自然》杂志的一篇报道,今年情况还不太理想。美国的流感从2012年11月开始上升,并在圣诞节后达到顶峰。Google的曲线似乎追随趋势,但它高估了CDC的数字,在某些地区甚至更高。
问题似乎很明显-媒体效应。Google数据中的噪音与有关流感的搜索次数有关,而并非因为进行搜索的人实际上患有流感。如果此数字保持恒定,则应该可以将其排除在外。今年的问题是,媒体对流感话题一直非常活跃,这很可能导致人们搜索有关流感的一般新闻或搜索Google流感趋势提供的数据。
流感越红
因此,尽管Google的技术可以更好地跟踪流行病,但其技术还是比昂贵的方法更好,但它却由于非常明显的原因而失败。
当然这是可以解决的。Google所要做的就是找到一个基于搜索的变量,或任何容易获得的变量,并将其与媒体的关注程度相关联,并建立一个将其作为影响因素的模型。这在原理上很容易,但会带来实施中常见的实际问题
还有一个更一般的教训要学习。社交媒体和搜索数据可能会提炼出人群的当前利益,但是这些利益的原因可能会以不稳定的方式变化。关于关联与因果关系不存在什么……
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。