[中图分类号]G40-03 [文献标识码]A [文章编号]1009-718X(2015)01-0024-07 维克托·迈尔-舍恩伯格(Viktor Mayer-Sch
nberger)是最早洞见大数据时代发展趋势的数据科学家之一,2012年出版的《大数据》一书是“大数据”系统研究的先河之作。进入21世纪第二个十年,人类正式拉开了从小数据时代进入大数据时代的序幕。英国学者维克托·迈尔-舍恩伯格和肯尼思·库克耶在其著作中提出世界进入大数据时代:“大数据开启了一次重大的时代转型。”“这仅只是一个开始,大数据时代对我们的生活,以及与世界交流的方式都提出了挑战。最惊人的是,社会需要放弃它对因果关系的渴求,而仅需关注相关关系。也就是说只需要知道是什么,而不需要知道为什么。这就推翻了自古以来的惯例,而我们做决定和理解现实的最基本方式也将受到挑战。”[1]与全球大数据景象相比,教育信息化、数据化相对滞后,教育领域或成为大数据时代的“慢热领域”。教育特别是教育研究面临大数据时代的新的数据挑战和数据困惑。 一、从小数据时代进入大数据时代 人类原始时代早期所创造的数的概念、数的方法和数的科学,为东西方文化的发展提供了共同的智慧财富。人类对于数据价值的认识可以粗略地分为三个阶段:一是以经验科学为基础判断数据价值的“小数据”时代;二是以计算机为基础追求数据精细化时代——从小数据向大数据过渡时期;三是以系统性数据资源为基础深入挖掘数据关系的大数据时代。 (一)以经验科学为基础判断数据价值的“小数据”时代 早在数千年以前人类就开始计量数据、运用数据和分析数据。人类有记载的、最早的计数发生在公元前8000年。中国古书《易·系辞下》有记载:“上古结绳而治,后世圣人易之以书契。”古书《易九家言》记载为:“事大,大结其绳;事小,小结其绳,之多少,随物众寡。”在西方,自圣经时代开始,政府就通过人口普查来建立大型的国民数据库。[2]同样,在古代波斯也有结绳记事的记载。据说波斯王大流士给他的指挥官们一根打了60个结的绳子,并对他们说:“爱奥尼亚的男子汉们,从你们看见我出征塞西亚人那天起,每天解开绳子上的一个结,到解完最后一个结那天,要是我不回来,就收拾你们的东西,自己开船回去。”[3] 从古代人结绳记事起,人类数十万年依靠数量概念和数量科学推动着社会经济与人类自身的发展。人类的先知们凭借自身与观察到的经验,发现了数据对于自然界的物质生产、社会界的精神生产以及人类自身的自我生产、存在与发展的重要价值。 人口普查是一种国家层次的重要的“数据指标行动”。据有关资料记载,中国是世界上最早统计人口的国家之一。相传最早在公元前210多年前的夏禹时代就有过人口统计。中国古代封建王朝设立户部,“户部”主管户口、赋税等,是负责统计人口的机构。西周的人口统计不但有公开的人口调查,还有专司人口统计的官吏,称为“司民”。《周礼·秋官》载:“司民,掌登万民之数,自生齿以上,皆书于版,辨其国中,与其都鄙,及其郊野,异其男女,岁登下其死生。”这里,我们不难看出,周朝时人口普查就已经初步设立了年龄、“国别”、城乡、男女、生死等人口的重要指标。东汉时期的户口调查进一步制度化,称为“案比”,即案验、比较,在每年的八月进行。中国魏晋时期皇甫谧著《帝王世纪》有记载:“禹平水土,还为九州,今禹贡是也。是以其时九州之地,凡二千四百三十万八千二十四顷,定垦者九百三十万六千二十四顷,不定垦者千五百万二千顷。民口千三百五十五万三千九百二十三人。”南朝宋范晔《后汉书》与宋元之际马端临《文献通考》,都有同样记载。有的统计学者认为这是“我国最早的统计数字资料”。在数千年的农业社会中,人类不断探索新的科学技术,但是对于统计数据的收集、挖掘和使用始终处于较低水平。 (二)以计算机为基础追求数据精细化时代 计算机技术的发展与进步,成为20世纪影响经济社会和科技发展最为重要的事件之一。以计算机技术为引领的信息化、数字化时代,为数据收集、整理、分析和使用提供了前所未有的便利——数据收集更加便捷,数据整理更加科学,数据分析更加深入,数据使用更加广泛。但是,这一阶段计算机技术的主要应用范围局限在数值领域,追求数据的丰富性和精细化,成为这一阶段数据发展的典型特点。 1997年《经济合作与发展组织教育要览》明确指出:“在现今的教育可比数据管理上仍有不足之处。因而,迄今所取得的进步已清楚表明在指标的涵盖范围、有效性、可比性、精确性和及时性上,还需要做很大的进一步改进。”[4]从更加科学的角度分析,在计算机出现之前,人类的经济和政治生活根本就不是以数据为基础的时代,进一步说“小数据时代是计算机背景下以数据为基础的时代”。小数据时代,由于数据的紧缺,研究者更加追求数据的精确性。中国学者张芳认为:“传统的统计数据质量仅仅指其准确性,通常用统计估计中的误差来衡量。但‘质量’的概念被拓宽以后,‘统计数据质量’的概念也有必要拓宽。从ISO关于质量的定义出发,把用户的需求作为衡量统计数据质量高低的首要因素,那么可以把统计数据质量定义为‘影响统计数据满足用户需求的特征’。”[5]