大数据面面观

作 者:

作者简介:
何克抗(1937- ),男,广东大埔人,北京师范大学教育信息技术协同创新中心教授,主要从事教育技术理论与应用研究,E-mail:hekkbnu@163.com,北京 100875

原文出处:
电化教育研究

内容提要:

从“大数据”一词的起源与大数据的生成、关于大数据的描述及类型、大数据如何改变人类的教育方式、大数据如何改变人类的学习方式、大数据如何改变教育技术的研究范式,以及大数据能否改变人类的思维方式等多个方面,对当前国内外学术界关于大数据给人类社会的工作、学习和生活的方方面面造成何种影响的各种不同观点,进行了比较系统、深入的梳理与分析;对其中的正确论述给予充分的肯定,对于一些过激的片面观点则在科学论证的基础上予以辩驳,以正视听。


期刊代号:G1
分类名称:教育学
复印期号:2015 年 01 期

字号:

       [中图分类号]G434 [文献标志码]A

       目前国内外学术界普遍认为,“大数据”是继云计算、物联网之后IT产业的又一次重大技术变革,甚至有学者把挖掘、应用大数据的意义提到与20世纪90年代初倡导“信息高速公路”相并列的高度——认为美国政府2012年3月发布的《大数据研究与发展倡议》是继1993年宣布“信息高速公路”以来的又一次重大科技部署,[1]甚至会像一场飓风那样,“摧枯拉朽地给教育、乃至整个社会带来一场变革”,从而使人类探索和认识世界的思维方式发生改变。

       可见,人们对大数据寄予多么高的期望。下面,我们就对近年来国内外学术界对于大数据最为关注的若干问题进行比较系统的梳理与分析,看看大数据正在哪些方面改变着人类社会,从而形成关于“大数据”的面面观。

       一、“大数据”一词的起源与大数据的生成

       通过文献研究,我们了解到“大数据”一词最早是由美国NASA的研究人员Michael Cox和David Ellsworth于1997年提出,是他俩第一次用该词描述20个世纪90年代出现的数据方面的挑战——即超级计算机所生成的巨大数据量。在实验过程中,Cox和Ellsworth对产生于飞机周围的大量模拟气流数据觉得无法处理,也难以可视化,他们对自己当时的感受是这样描述的:“数据集相当大,对主机内存、本地磁盘甚至远程磁盘都造成挑战,我们称此问题为大数据。”[2]这就是“大数据”一词的由来(或起源)。

       一般认为,大数据的产生与以互联网为标志的信息技术密切相关。例如著名的Facebook拥有超过9亿的用户,并且用户量仍在不断增长;Google每天都有不少于30亿条的搜索查询;而Twitter则每天要处理4亿次以上的短信(相当于12TB的数据量)。[3]

       而大数据的具体生成过程,涉及大量数据的挖掘、存储、计算与分析,其前提是人手一机;[4]这个“机”通常不是PC机,而是简单的移动终端(也称云终端)——每个学习者从“云终端”输入自己的学习行为数据,并存储到“云”里。这些记录每一个个体行为的数据,表面上看好像是杂乱无章,但当数据累积到一定程度时,群体的某种行为规律和某个时间段内的个体行为规律就一定会在这些数据上呈现出来。

       二、关于大数据的描述及类型

       到底什么是大数据?目前,众说纷纭。有的学者认为,大数据是指太大或种类太多,以至于传统工具无法有效管理的数据。[5]也有人认为,大数据即一般软件工具难以捕捉、管理和分析的海量数据;通过对这些海量数据的交换、整合、分析,可以发现新知识、创造新价值,从而带来大知识、大科技、大利润和大发展。[6]

       此外,大数据与传统数据相比,还有非结构化、分布式、数据量巨大、数据分析由专家层变化为用户层、大量采用可视化展现方法等特点,而这些特点正好适应了当前学习方式逐渐向个性化和人性化转变的需求,也使大数据时代的教育学,变成一门实实在在的实证科学。[7]

       迄今为止,学术界对于“大数据”还没有规范、统一的定义。学者们只是用这一术语描述难以用传统软件技术和方法分析的超大型复杂数据。

       关于对大数据的定量描述,最早由Laney提出的方法是通过三个维度描述——也称3V(Volume,Velocity,Variety)。[8]在此基础上,IBM的研究人员作了补充,认为应当用4V——即容量(Volume)、速度(Velocity)、多样性(Variety)和真实性(Veracity)等四个维度来描述大数据。[9]其中,容量在大数据情况下应是大容量,是指增长到百万兆字节甚至千兆兆字节的信息;速度在大数据情况下要求高速度,因为及时、快速处理大数据往往起着关键性的作用(例如分析大量当日呼叫的详细记录,可实时预测客户流失程度);多样性是指数据形式多种多样(包括文本、图像、音频、视频);真实性则是指大数据提供信息的可信度,以及据此作出决策的可靠程度。

       关于大数据的类型,目前学术界认为大致有三种:[10]即非结构化数据、半结构化数据和结构化数据。[11][12][13]非结构化数据是指没有固定格式的数据,如PDF、E-mail和一般文档。半结构化数据是指类似XML和HTML的、有一定加工处理的数据。结构化数据则是指具备一定格式,便于存储、使用,并可从中提取信息的数据,例如传统的各种事务型数据库中的数据。

       三、大数据如何改变人类的教育方式

       大数据对人类教育方式的改变,结合目前国内外大数据的应用状况,可以从以下五个方面去考察。

       (一)美国教育部关于“大数据教育应用”的报告

       2012年10月,美国教育部发布了题为《通过教育数据挖掘和学习分析技术来提高教与学:问题简述》(Enhancing Teaching and Learning through Educational Data Mining and Learning Analytics:An Issue Brief)的报告(以下简称为:美国教育部关于“大数据教育应用”报告),[14]为教育中如何利用大数据指明了方向。该报告认为,大数据无处不在,教育中也是如此。主张通过教育数据挖掘、学习分析和可视化数据分析来改进自适应学习系统,实现个性化学习。并指出,大数据在教育中的应用主要有两大领域:教育数据挖掘(Educational Data Mining,简称EDM)和学习分析技术(Learning Analytics,简称LA)。[15]

相关文章: