中图分类号:G40-01 文献标识码:A 文章编号:1001-4519(2017)05-0008-07 一、大数据与教育数据挖掘 大数据时代催生了教育数据挖掘(EDM)领域的发展。教育数据挖掘是为了探索来自教育场景的独特且日益庞大的数据,并使用这些方法更好地了解学生以及他们学习的环境。①教育数据挖掘为从大量教育数据中发现潜在有用的信息提供了手段,学习分析(LA)成为教育数据挖掘的核心,传统的教育技术、智能教学系统、教育游戏、学习管理系统等均产生持续增长的大量数据,成为分析研究的可用数据。种种变化表明,学生、教师、教育科研人员和管理者都不同程度地参与到该领域的发展,并受到影响。教育研究在预测学生学习行为、发现和改进既有的学生发展和教学策略模型、增强教育实验的评价效果等方面的努力和探索,似乎借力于大数据概念的兴起,给人们带来无限的憧憬和希望。 然而必须看到,迄今为止,基于大数据的学术研究取得的突飞猛进的进展多是在计算机并行处理、数据挖掘方法、云计算、互联网和存储系统等技术领域。教育数据挖掘,教育中的人工智能、智能辅导系统和用户建模等虽然受到了不少关注和应用,但真正属于使用大数据的教育科学研究还鲜有突破性进展。实际上,探索和推进大数据的分析和手段,基本是计算机行业、统计和数学专业的工作者的科研地盘。作为教育相关领域的研究者,我们只需坐享搜索、计算和存储技术进步带来的科技成果就可以了。然而,教育研究的发展不单纯是方法和技术的进步,因为方法和技术始终是为研究目的服务的,教育研究的进步需要教育研究人员与大数据开发技术人员的密切合作,在解决研究问题中应用新方法,在应用新方法中提出并回答新的研究问题。所以数据规模的“大”对教育研究者而言并不是最本质的,我们需要认真思考的是大数据对传统研究范式带来的机遇和挑战究竟是什么。下文按照研究设计的几个环节来谈谈我对大数据对教育科研真正意义的理解。 二、大数据对教育研究的影响 1.关于研究议题 教育数据挖掘研究的选题大体聚焦在以下方面②:(1)完善学生模型。学生模型反映了学生的特征或状态的信息,如学生知识掌握、动机、元认知和态度等方面的情况。对这些领域的学生个人差异进行模式归纳和提炼,使相关的教育软件能够针对个体差异提供措施,显著提高学生的学习能力。虽然以往的教育研究一直关注这类主题,但大数据驱动的教育数据挖掘方法的发展使研究人员能够引入更广泛的、潜在的学生属性,并进行实时建模。一些角度是过去传统研究不可能深入到的层面,例如,研究人员使用教育数据挖掘方法来推断学生在学习过程中是否经历了过低的自我效能阶段,是否分心,是否感觉无聊或沮丧,并结合教育软件之外的数据扩展学生模型,以确定哪些因素可能预测学业失败。(2)探索和改善知识结构模型。例如通过心理计量方法与机器学习中空间搜索算法的结合,一些研究人员开发了可以直接从数据中寻找有关领域知识结构的计算机自动表述方法。(3)教学支持和管理(包括学习软件和诸如协作学习行为等领域),旨在发现哪种类型的教学支持和管理最有效。(4)寻找经验证据来改进和扩展教育理论及众所周知的教育现象,以便更深入地了解影响学习的关键因素,进而改善学习系统和学习方法。 从以上议题分类可以看出,教育数据挖掘除继续教育研究的传统议题外,确实因大数据而可以切入一些过去教育研究不可能进行的新的研究问题和角度,例如,游戏系统(gaming the system)就是一个有趣的例子,研究人员利用大数据,研究学生是如何利用系统设计的漏洞来“游戏”系统的:在教学智能系统中,一些使用者试图利用系统的特性而不是对知识的掌握,投机取巧地获取高分。研究者可以通过使用者在传感器上留下的行为痕迹,对这类现象进行深入研究,而以往传统的分析方式很难获取相关信息,当然就更谈不上深入地实证研究。类似的例子比比皆是。 2.关于测量工具 以往我们靠传统的调查数据进行定量研究,其调查是有明确的目的和针对性的。研究者需要使用特定的测量工具,对要研究的概念进行测量,而很多概念是研究者建构出来的,是现实世界中原本不存在的。人们用这些概念进行交流,但是对概念的内涵并没有共识,因此测量这些概念所产生的信度和效度偏误会或多或少地威胁到研究的内部和外部的信、效度。大数据则不同。有许多大数据是人们活动行为的实时的和真实的记录,鲜受人类记忆、偏好和情感的干扰,这将会在很大程度上排除人们因主观性以及对概念的误解等因素对调查内容的误填和烂填。从这个角度看,大数据可以在一定程度上减少测量误差,提高基于数据资源的研究结果的效度和信度。例如传统研究中我们通过抽样调查了解学生在校发展状况,这些调查内容常常是靠学生的主观自评和不准确的记忆回溯获得的,于是研究者始终会挣扎于论证这种调查工具的信、效度。而教育系统的大数据主要包括了学生成长过程中留下的行为和活动等各类数据,比如他们在各类传感器上留下的时间分配和各类活动的信息,这些记录会实时地和如实地被记录汇集,真实而客观。于是人们可以把学生在校期间的所有“有痕”信息拼接起来,构成一幅较为完整的“学生画像”。不仅如此,人们还可以将学生进入劳动力市场之后留下的各种“痕迹”记录下来,并与学生时代的行为续拼起来,构成一幅更加完整的“人生画像”,这为深入认识和探讨教育与人的发展的复杂关系提供了新的可能性。 大数据时代拓宽了传统教育研究对测量数据的界定,历史文本、在线课堂、社交媒体、多媒体等结构化、非结构化、关系型的数据都可以成为研究对象,这使得研究可以突破传统研究测量结果囿于文字和数字的局限性。如今人工智能、机器阅读、机器识别和机器学习等领域突飞猛进的方法进步,使得传统定量研究极不擅长,而主要靠质性研究分析和处理的非结构化和半结构化的信息数据的能力得到了极大发展,其前景值得期待。