Google Flu Tracker【头脑风暴组】

 

Google Flu Tracker’s PPT

一.教学目标

通过讲解谷歌流感趋势的原理、应用实例、瓶颈问题等内容,来强调数据与事件之前的关联性,启发同学利用计算思维解决问题。同时了解大数据时代下新的预测流感方法的优缺点。

二.计算思维概念

关联、可视化、数据干预

三.教学方法

PPT讲解为主,辅以相关案例与数字化案例法相结合

四.教学准备

教案和教学PPT

五.教学过程与设计

1.导入主题

(1)今天我们想给大家介绍Google Flu Tracker——谷歌流感追踪。这是一家网站对GFT的评价:如果你想知道现在的流感情况,你可以选择GFT,也可以选择世界卫生组织的办公室,但他们的数据可能已经是几个星期前的了。

(2)众所周知,我们这个时代,是互联网的时代。“互联网+”也是当下一个非常热门的词汇。这还是一个大数据的时代,这是国际数据公司对大数据的特征概括:①海量的数据规模(vast)②快速的数据流转和动态的数据体系(velocity)③多样的数据类型(variety)④巨大的数据价值(value)。

那么,这样一个时代我们究竟能给我们的生活带来怎样的变化?我们每个人在这个时代应当充当怎样的角色?那些企业巨头们又是如何抓住机遇,利用互联网和大数据推陈出新的呢?

2.主题讲解

(1)下面我们就要为大家介绍Google Flu Tracker.一家外文网站对它的定义是——An attempt to track flu outbreaks based on search terms。谷歌作为全球第一大搜索网站,每日的搜索量是一个巨额的数字。如果把全部搜索信息进行整合,这本身也是一种巨大的资源。

(2)首先为大家介绍GFT的原理。谷歌工程师发现:在流感季节,与流感有关的搜索会明显增多;其他情况也是类似的。因为如果一个人患了流感,那么他很可能上网搜索流感的相关信息。

(3)那么,GFT的基本原理就是:分析谷歌搜索引擎中与流感相关条目数量,利用关键词追踪技术搜集大量有价值的数据,通过监测一个地区某些与流感相关检索词的数量,就可以估计出该地区流感流行的情况。当然,并不是每个检索流感的人都会患流感,但将所有的流感相关的检索词汇总后,就会发现有一些词汇在流感流行的高峰检索总数目明显升高

(4)GFT的原理是可行的,它在实践中也取得过良好的效果。2009年,甲型H1N1流感暴发的几周前,“谷歌流感趋势”成功预测了流感在美国境内的传播,其分析结果甚至具体到特定的地区和州,并且非常及时,令公共卫生官员备感震惊。因为传统上,美国疾病控制中心要在流感暴发一两周之后才可以做到这些。

(5)but,sometimes quicker doesn’t means better,or more accurate.从2011年开始,GFT接连出错。2013年2月,《自然》杂志发文指出,GFT预测的流感样病例门诊数超过了美国疾病预防控制中心(Centers for Disease Control and Prevention,CDC)根据全美各实验室监测报告得出的预测结果的两倍!

那么问题来了,如此海量的统计为何会出错呢?

  • 相关研究人员认为主要有以下两个原因:大数据傲慢(Big Data Hubris)和算法变化。
  • 大数据傲慢认为大数据可以完全取代传统的数据收集方法,而非作为后者的补充。而大数据很可能会出现如下几个问题:①很多关键词只是看似与流感相关,但实际上却并无关联。比如,我昨晚唱歌太久现在喉咙痛,于是我搜索喉咙痛该如何缓解。而GFT却认为你的喉咙痛与流感有关。②媒体对于流感流行的报道会增加与流感相关的词汇的搜索次数。比如新闻联播报道墨西哥出现流感疫情,你就很有可能去搜索墨西哥现在的状况。③搜索建议(recommended search)也会进一步增加某些热门词汇的搜索频率。比如输入喉咙痛后,下面就会出现一系列的建议选项。这一点,其实也就是刚才提到的第二个原因:算法变化。
  • 大数据为研究人类行为和人与人之间大规模的互动提供了新的方式。然而,由于大数据的搜集做不到像“小数据”那样精确,因此分析解读大数据是一件十分复杂的事。维克托·迈尔·施恩伯格在《大数据的时代》一书中指出:数据量的大幅增加会造成结果的不准确,一些错误的数据会混进数据库。(我们可以类比DNA复制来理解,大量的遗传信息同时交汇,很容易出现错误的配对)
  • 此外, Google’s approach is no substitute for lab tests, hospital reports and on-the-ground data. And it’s important to note that it’s not tracking actual flu caused by influenza viruses — rather, it’s identifying common symptoms like fever, cough and sore throat.实证明,很大一部分与CDC流感发生率数据相关的搜索词,并非是得流感的人引起的,而是由季节产生的——那些特定的搜索词是随时间而发生变化的,但这些搜索显然与病毒无关。比如换季期间人们很容易着凉感冒,那么此时对于“流感症状”的搜索就不能体现出流感的情况。
  • 综上所述,我们可以看出:大数据=更多的信息=更多虚假关系的信息。在互联网时代,无法否认大数据在帮助公共卫生事业方面具有巨大的潜力但如果没有足够的背景信息,仅仅靠数字可能是会误导人的。可以说,是大数据本身的缺陷+公众搜索的偶然变化+谷歌的统计方法共同造成了GFT的错误。

3.延伸拓展

(1)那么,我们该如何解决GFT出现的问题呢?在21世纪,我们不能否认互联网的巨大作用,也无法拒绝大数据所带来的冲击。唯有抓住机遇,迎接挑战,方能求生存,求发展。

(2)或许我们可以试着去改变追踪机制。GFT监测的对象一直是“流感症状”,而“流感”与“流感症状”是完全不同的概念。不知道大家有没有听过一个名词:榨菜指数。它是指根据畅销全国的涪陵榨菜这几年在各地区销售份额变化情况,推断人口流动趋势。这也是一个大数据的应用模型。我们可以注意到:榨菜一定是人买的,而且销量基本不会随着经济变化出现太大的波动,所以它可以比较好地反映人口流动趋势。那我们是不是也可以改变对流感的追踪机制,找到更为直接有效的评判标准呢?

或许还有更好的方法——最好的结果来自两个来源的信息和技术,即将大数据与小数据(传统的控制数据集)结合起来。所以,取代谈论“大数据革命”的应该是“全数据革命”(all data revolution),应该用全新的技术和方法对各种问题进行更多更好的分析。

(3)到这里,想必大家对GFT,互联网与大数据都有了更加深刻的认识。让我们回到今天一开始提出的问题:互联网时代,人类究竟应当去向何方?究竟如何让互联网为人类所用?我觉得,这是每个人都应当思考的问题。

 

谢谢大家。

anyShare分享到:
This entry was posted in Health Computing. Bookmark the permalink.

23 Responses to Google Flu Tracker【头脑风暴组】

  1. 宋鑫达 says:

    看完PPT我对Google Flu Tracker有了很详细的了解,调理很清晰,实例和创新上都略显不足。如果能加入自己的创意就更好了

  2. 张梦培 says:

    通过这个作品我比较清楚的了解了Google Flu Tracker,有一种豁然开朗的感觉。之前我看到它的时候,总像在雾里看花。谢谢你们的作品。总之,内容很不错,但是总觉得PPT不是太吸引人,而且应用实例和数据出错那两张是不是有点问题啊。(27组)

  3. 林贝欣 says:

    内容很丰富,讲解很充分,说明准备工作做得很足,加油~~~来自39组

  4. 胡凡 says:

    虽然上课的时候没有讲完,但是这不影响案例的分析,可以把上台用的ppt缩减,但案例的分析就应该完善且切中要害,所以我觉得这点失策了,个人也准备重新做个简练的ppt上台,但是最后由于一些原因还是没有,所以个人觉得做的很好,只是发挥问题。

  5. 白雨tong says:

    叙述逻辑很清晰明了,资料搜集得也很丰富。语言也比较口语化,平实易懂~
    39组白雨桐

  6. 刘恩生 says:

    第二组,胜夕队
    PPT的内容和教案都很详细,很有层次,很容易让人理解,但是缺少了介绍讲解的视频,如果做了视频进行进一步的讲解相信会更好!

  7. 张博皓 says:

    第二组,胜夕队
    邪恶的想了想如果你们做视频跟另一组碰碰会怎么样,两组相争必有一伤,他们也会有紧迫感滴呦,唔哈哈哈~
    PPT是符合大小的,为什么不干脆传上来呢?文章的结构很有层次感,我感觉很容易就懂了,但是提高的空间主要在案例那里,多提一些实际案例我感觉效果会好很多。另外,再多运用一些多媒体的素材会不会能达到更好的效果呢?

  8. 艾孜提艾力•麦麦提敏 says:

    个人比较喜欢PPT制作的通俗易懂。但是,既然是以PPT讲解为主,那么需要制作的更完美才好。总体上很不错,最后要是加上内容来源就更好了。
    ——第33组(蚁族)

  9. 徐晓龙 says:

    内容很完整,知识点也很多,介绍的比较全面,但感觉好像没重点。来自fighting组

  10. 江梓良 says:

    案例说的完全不懂不知道和主题有什么关系,但是介绍的还不错,不过主题不够突出,内容太少不能很好的介绍其功能

  11. 姚俊 says:

    上一条来自19组

  12. 姚俊 says:

    看这个ppt之前也只是听说过google这个项目,并不太清楚他的工作原理,看过之后感觉自己又学习到了新的知识。ppt的第一页就是全英文,看起来就觉得高大上。不过其中提到了一些专业术语:大数据傲慢之类的,还是自己事后百度才知道啥意思。总体来说还是很成功的。鼓励鼓励

  13. 赵耀 says:

    ppt开门见山,但是有点突兀和单调,其他的感觉不错。38组【美丽的杏树林】

  14. 王昱博 says:

    38组【美丽的杏树林】

  15. 刘言言 says:

    楼上说的是极其在理的。另外此案例我们组的启发及借鉴之处是有很多的。在此,良辰多谢了。条理清晰,直入主题,思维方式很好。但应多寻找一些有趣的例子,语言幽默一点,PPT活泼一点。【美丽的杏树林】

  16. 王昱博 says:

    案例的结构严谨,条理清晰,内容也几乎没有冗杂的部分,让看官很顺畅地看下去,但其中缺少了一些能让看官提起兴趣的技巧,能让看官顺畅又愉快得看完ppt就近乎完美了!

  17. 徐周上 says:

    同意楼上观点,其实我对于PPT的看法还是我自己的问题,对于所介绍的方面还是不够了解,看了PPT和楼上的说法再加上查的知识我感觉内容很好调理很好,结构方面再整理一下就好了。
    27组

  18. 徐周上 says:

    同意楼上观点,其实我对于PPT的看法还是我自己的问题,对于所介绍的方面还是不够了解,看了PPT和楼上的说法再加上查的知识我感觉内容很好调理很好,结构方面再整理一下就好了。

  19. 胡志毅 says:

    呐,我是边看PPT边写评语的。1、PPT的开头很直白,直奔主题,这点很好。2、PPT很有条理,可以看出案例制作很熟悉,对谷歌流感预测也十分了解。3、全程采用了批判的思维看待问题,并在结尾提出了自己的解决方案。但个人觉得还有几点不足之处:PPT制作略显单调,理工气息十足;谷歌成功预测流感方面篇幅过小,不能起到很好的对比,Google Flu Trends的原理介绍还是少了点,作者可适当增加一点。——来自飞鹰战队

  20. 刘宇轩 says:

    首先我英语四级没过,导致ppt第一页就有一点点伤心。建议还是用中文吧。另外ppt的字尽量少一点,字多了就字小了,在演示的时候看不大清。
    对于一些专业名词应该有些通俗易懂的解释,比较说大数据傲慢之类的,对于行业外的小白这些东西没有听说过~
    GTF和另外一个组比各有千秋~给赞!
    来自fighting组

    • 陈馨雨 says:

      嗯嗯谢谢!用英文主要是这些是我在外文网站上找到的,感觉会客观一些。我在现场展示的时候有翻译,PPT就没放进去了。字确实多了点,主要是想把问题说清楚,以后尽量精简些!

  21. 杨美佳 says:

    这个案例内容完整,且案例教完整,里面的知识对于我来说也受益匪浅,但一个十分钟的PPT做得太过详细使得每个着力点都不是很详尽,比如出现的泡菜定律,没有解释,让人看完还得打开手机去搜索,但总得来说做得很不错,条理性也很清晰。

发表评论