多模态数据融合：破解智能教育关键问题的核心驱动力

收藏 |打印|下载word

作者：

王一岩/郑永和

作者简介：

王一岩，北京师范大学教育学部博士研究生（北京 100875）；郑永和（通讯作者），教授，博士生导师，北京师范大学科学教育研究院院长（北京 100875）。

原文出处：

现代远程教育研究

内容提要：

多模态数据融合旨在利用不同模态数据之间的信息互补机制提升数据分析的准确性，实现对学习主体和学习情境的精准刻画，进而还原教学过程全貌，挖掘深层次的教育规律，其已逐渐成为智能教育领域重要的技术方法和研究思想。智能教育领域常见的多模态数据类型包括外在行为表征数据、内在神经生理信息数据、人机交互数据以及学习情境感知数据。多模态数据的融合策略主要包括数据级融合、特征级融合和决策级融合，在数据分析的不同阶段选取恰当的融合策略，可以提升数据分析的准确性。在智能教育领域，多模态数据融合主要应用在人机交互分析、学习者情绪识别、学习投入分析、学业表现预测、学习情境感知五个方面。充分发挥多模态数据在学习过程感知和建模中的核心作用，可以实现对学习过程的有效还原和对学习规律的科学解释。多模态数据融合充分体现了基于数据密集型科学的教育科学研究范式变革，未来应着力于面向多元学习主体和学习情境的全时空多维度数据采集、基于多模态数据融合的学习者认知发展规律研究、基于多模态数据感知与融合的智能教育产品研发以及多模态数据采集的技术伦理问题等四个方面，构建智能时代教育科学研究的新样态。

期刊代号：G1

分类名称：教育学

复印期号：2022 年 07 期

关键词：

多模态数据融合智能教育情绪识别学习投入情境感知人机交互　　Multimodal Data Fusion Intelligent Education Emotion Recognition Learning Engagement Context Awareness Human-Computer Interaction

字号：大中小

中图分类号：G434文献标识码：A 文章编号：1009-5195(2022)02-0093-10

doi：10.3969/j.issn.1009-5195.2022.02.011

物联网、大数据、人工智能等新兴技术与教育教学的深度融合推动了智能教育研究的实践进程，逐渐勾勒出以学习主体和学习情境的数据化表征为依托、以数据密集型科学的研究思想为指导、以智能时代教育现象的解释和教育规律的发现为目标的教育科学研究新样态。在此背景下，多模态数据融合逐渐受到智能教育领域相关研究人员的重视，其作为一种新的技术手段和研究思想被应用于智能教育研究的诸多场景。研究者通过对学习者和学习情境多种模态数据的采集分析，以及利用多模态数据之间的信息互补来提升数据分析的准确性，还原教学过程全貌，探究深层次教育发展规律，以此推动智能时代的教育科学研究。那么，为什么要使用多模态数据？什么样的数据能被称为多模态数据？多模态数据之间怎样融合？多模态数据在智能教育领域的应用场景有哪些？它能为智能教育研究的开展带来怎样的影响？本文通过对智能教育领域多模态数据融合的应用潜能、研究现状和实践进路的梳理，尝试对以上问题进行解答，以期为后续相关研究的开展提供借鉴。

一、智能教育领域多模态数据融合的应用潜能

多模态数据融合是近年来智能教育领域关注的热点话题，并逐渐成为智能教育领域重要的技术方法和研究思想。模态是一个横跨自然科学和社会科学的概念，关于模态的解释主要有查理斯的符号系统说和克瑞斯的交互方式说(王慧君等，2015)。前者认为模态是可以被具体的感知过程解释的社会符号系统(Kress，2010)，例如声音、图像、文字等；后者认为模态是人类通过感觉器官建立的与外部环境之间的交互方式，如视觉、听觉、触觉、嗅觉、味觉等。人工智能领域对于模态的解释偏向于“机器对外界信息的感知模式或信息通道”(Lahat et al.，2015)，认为“每一种信息的来源或者形式”都可以称为一种模态，既包含信息的表征形态和感知通道，又包含基于多种感知设备的数据采集方式。例如：用于表征学习者情绪、专注度等特征的话语、表情、身体姿态等数据可以被视为多模态数据；用于表征构成完整教育情境的学习者、教师、教学资源、教学媒体、教学活动等数据也可以被视为多模态数据。

1.多模态数据融合是一种感知和理解世界的新视角

关于多模态数据融合的科学依据可以从以下几个维度展开讨论：第一，事物的存在方式是多模态的。从社会符号系统的角度看，任何事物的存在方式都可以用声音、文字、图像来表示，而综合文本、语音、图像等的多模态符号系统可以在更大程度上表征事物存在的基本样态。比如要表示一幅图画，人们可以单纯地将图画呈现给观众(图像模态)，也可以辅之以相应的文字对图画中的内容加以解释(图像+文本模态)，还可以通过语音讲解对图画的内容进行描述(图像+文本+语音模态)。第二，人对世界的感知方式是多模态的。人对世界的感知主要通过视觉、听觉、嗅觉、触觉、味觉等感知通道来实现。“察言观色”表达的就是听人说话，不仅要“听其言”，更要“观其行”，只有调动多种感知通道，才能够形成对事物存在方式的良好感知。第三，人工智能的学习是多模态的。人工智能是通过对外部信息的加工、处理和意义建构来模拟人类智能的技术，其核心研究领域中的自然语言处理、语音识别、计算机视觉分别是模拟人类对文本、语音和图像数据的感知、加工和处理机制的智能计算逻辑。因此，要形成对事物存在方式的深度理解，只利用某一种模态的数据是远远不够的，这就需要利用多模态数据融合的方法对不同模态数据表征的信息进行融合分析，以此形成对外界事物完整的意义建构(王一岩等，2021a)。基于此，有学者认为多模态学习是未来人工智能发展的必然趋势，关于多模态机器学习的相关研究也越来越受到人工智能领域相关学者的关注(Baltru

aitis et al.，2018)。

2.多模态数据融合是智能技术教育应用的关键落脚点

物联网、大数据、人工智能等新兴技术的发展为多模态数据的感知与融合提供了理论和技术支持，多模态数据融合也在一定程度上促进了相关领域的研究进程。多模态数据的感知与融合是智能技术教育应用的核心，能够凝聚物联网、人工智能、大数据等技术的核心效用，共同助力教育研究的数据化、科学化、智能化发展(郑永和等，2021)。

(1)“多模态”之于物联网教育应用

物联网和智能感知技术的发展为多模态信息感知提供了底层技术支持。利用智能感知设备实现对事物存在状态和运动方式的多通道智能感知，为多模态数据的采集提供底层硬件支持，在很大程度上实现了对学习者和学习情境的多元化数据表征。智能感知技术和物联网技术在教育领域的应用包括：一是利用摄像机、眼动仪、脑电仪、皮肤电、智能手环等设备对学习者的外在行为和内在生理信息进行多通道的数据采集，并以此为依据对学习者的行为、情绪、专注度等状况进行精准分析。二是利用温度传感器、光线传感器、红外感应器、摄像机等设备实现对课堂教学情境的全方位感知与智能分析，利用多模态数据实现对课堂教学情境的智能感知与融合计算。三是利用物联网技术构建面向智慧校园的全方位监测体系，对学生的体育运动、身体健康、出行轨迹、食堂消费、课堂表现、学业成绩等数据进行实时监测，实现面向学习者的多场景、多通道、多维度的数据采集，并以此为依据实现对学习者全方位的测评分析。

(2)“多模态”之于人工智能教育应用

多模态数据融合和人工智能教育应用之间的联系较为紧密。一方面，以自然语言处理、计算机视觉、语音识别、生理信息识别为代表的人工智能前沿技术的快速发展为教育领域的多模态数据融合研究的开展奠定了基础，多模态机器学习技术的成熟更是为多模态数据的融合提供了良好的技术解决方案。另一方面，以教育智能体、智能导学系统、教育机器人、自适应学习系统为代表的智能教育产品的设计与实现均需借助多模态数据感知与融合的方法实现机器与学习者之间的自然交互(王一岩等，2021b)。通过对学习者学业测评、心理测评、外在行为、生理信息等数据的融合分析，可以实现对学习者行为、情感、学习投入、学习动机等的精准测评，从而帮助机器更好地理解学习者的学习意图，并为其提供适切性的学习支持服务。

(3)“多模态”之于大数据教育应用

多模态数据对于大数据教育应用的深入开展具有重要的导向作用。其一，多模态数据丰富了大数据的表征形态。多模态数据能够从多个视角、多种形态、多个信息来源对事物的存在方式进行表征和计算，利用面向个体、群体、资源、环境的多源异构数据对真实的教育情境进行精准建模分析，在最大限度上还原教学生态系统的全貌。其二，多模态数据提升了大数据的价值密度。当前，大数据已被诸多领域关注，它在带来真实、多样、海量数据的同时，其相对较低的价值密度也引发了一定的诟病。多模态数据融合为该问题的解决提供了良好的理论和技术支持，它能够借助智能感知技术对事物的存在方式进行多个维度的量化表征，从而利用不同模态数据之间的信息互补机制提升数据的价值密度。

共10条结果上一页12 3 4 5 下一页全部展开

多模态数据融合：破解智能教育关键问题的核心驱动力

相关文章：