大数据对教育意味着什么?
2013年度诺贝尔经济学奖得主罗伯特希勒教授最喜欢在耶鲁新生的课堂上使用这一教学工具进行经济学阐述和启蒙,教学效果让人对大数据生成的教学工具侧目。

早在2010年,谷歌与哈佛大学的两名研究人员共同开发了一套数据库,可以对历年的单词和短语使用频率进行统计。简单来说,就是所有电脑用户都可以输入不超过5个单词的字符串,从而了解其历年来使用频率的折线图。最重要的是,如今这是这种规模的数据库和搜索工具首次面向博士、中学生以及所有电脑用户开放。
诺贝尔经济学家青睐大数据教学
让我们看看大数据教学的忠实拥趸罗伯特希勒教授是怎么做的。这位2013年度诺贝尔经济学奖得主在他的讲座中,最喜欢展示的就是谷歌开发的这套数据库系统Google Ngrams。
Google Ngrams可以显示一个单词或词组在历年经济学著作中出现的频率。比如,输入“滞涨(stagflation)”一词,我们可以看到这个词在上世纪60年代出现,而使用频率在1984年达到顶峰,而后回落……希勒教授每节课都要展示几个与当天讲授内容有关的Ngrams,以此作为讲述一些经济学概念和现象的起源及其发展的线索。这样的讲述,实际上是向学生展示经济学的一种研究角度和方法。
Google Ngrams的结果是抽象的,但经济学冰冷数字及其图表所对应的现实却是具象而生动的。几乎每节课,希勒教授都巧妙地把Google Ngrams的结果与人们身边存在着、发生着和继续着的经济学现象联系起来。在展示“萧条(depression)”的Google Ngrams结果后,希勒教授在课堂上展示了一组记录大萧条时凄苦场景的照片,以此让学生们透过数字与文字,感受经济危机给社会大众带来的苦难,体会和理解宏观经济学的社会价值以及学习宏观经济学知识的人所应担当的社会责任。
尽管有些炫耀的成分,但谷歌的确已经对近520万本可供用户免费下载和搜索的数字图书进行了摘选,从而建立起了庞大的数据库,为人文科学的研究和教育开启了全新的篇章。
数据的实际应用
仍以谷歌开发的这个数据库为例。这个数字宝库汇集了大量的单词和短语及其每年出现的频率。这也是这种规模的数据库和搜索工具首次面向博士、中学生以及所有电脑用户开放。该数据库包含的5000亿个单词选自1800至2000年出版的各种书籍,语种包括英语、法语、西班牙语、德语、汉语、俄语和希伯来语。
该数据库的目标受众是学者,但同时也提供了一款简单的网络工具,使得所有电脑用户都可以输入不超过5个单词的字符串,从而了解其历年来使用频率的折线图——这将很快成为像热门游戏《愤怒的小鸟》一样使人上瘾的消遣方式。
通过该服务,用户可以发现,与“men”相比,在女权主义上世纪70年代初获得立足之地前,“women”很少被提及。而且这两条线的走向刚好相反,并在1986年左右相交。你还可以借此了解到,米老鼠(Marilyn Monroe)和玛丽莲•梦露(Marilyn Monroe)在纸媒上的出现频率不及吉米•卡特(Jimmy Carter)。除此之外,还可以对其他一些生活中常用词汇的变迁进行研究。
目前,谷歌对已出版的书籍资料的扫描率已经超过11%,扫描量大约为2万亿个单词。发表在《科学》杂志上的论文涵盖约4%的资料。按照它的扫书计划,终将建成全世界第一大图书馆。
如此庞大的单词库使得科研人员能够以前所未有的方式对文化影响进行统计分析。米歇尔是应用数学和系统生物学领域的专家,他认为,具有文化参考意义的词汇在出版物中出现的频率远低于日常用语。要获得精确的结果,就必须借助庞大的样本。
“该项目的目标是让8岁的孩子也有能力根据书本记录了解文化历史趋势。”美国哈佛大学教授埃雷兹•里伯曼•艾登对媒体说。艾登和哈佛大学博士后让•巴普蒂斯特•米歇尔与谷歌共同收集了这些数据,并带头开展了一个研究项目,证明庞大的数字数据库如何改变我们对语言、文化和思想传播的理解。