PISA阅读素养测试阅卷程序之启示

——PISA 2009阅读素养测试与上海语文中考的比较分析

作 者:

作者简介:
邹一斌,上海市静安区教育学院(200040); 吴勇,上海市卢湾区教育学院(200020)。

原文出处:
上海教育科研

内容提要:


期刊代号:G351
分类名称:初中语文教与学
复印期号:2011 年 07 期

关 键 词:

字号:

      PISA是近10年来出现的较具权威性的国际学生评价项目之一,是一项针对15周岁在校学生的国际性评价项目。2009年上海第一次正式参加此次测试,其中阅读为本次测试的主项。笔者有幸被聘为本次测试的阅卷专家参与了整个阅卷过程,对PISA阅读素养测试(以下简称PISA)的阅卷程序留下了深刻印象。本文希望通过PISA与上海初中语文学业水平考试(以下简称上海语文中考)阅卷程序的对比分析,为上海建立科学有效的学业质量监测和评价体系提供一定的思路。

      一、PISA阅读素养测试阅卷程序分析

      (一)阅卷程序

      为保证测试内容的公正,PISA建立了严格的命题、选题、阅卷的程序。尤其是在阅卷环节上,致力于保证评价结果的公正性。

      PISA阅卷环节可以用图1表示:

      

      图1 PISA的阅卷程序

      这样的阅卷程序,体现的是程序公正的原则。

      所谓程序公正,本义是指制定和实施法律、法规、条例及其他政策时应遵循公正合理的程序(流程)安排,即“正义不仅要实现,而且要以看得见的方式实现”。将此概念借用到阅卷过程中,目的是为了体现PISA的每一个环节都有严格的规范,都是可控的,是“看得见的”。这样的程序公正就能保证PISA测试结果的公正性和科学性。

      (二)程序解读

      在PISA阅卷程序中,“提供评分标准”和“评分者培训”是整个阅卷环节最重要的两个组成部分。

      首先看评分标准。PISA 2009阅读测试的评分标准由检测的能力点(题旨)、评分原则的描述、参考答案、其他有代表性的符合要求的答案及错误的答案五部分内容构成。其中“评分原则的描述”是评分标准的核心内容,不但明确了得分的具体要求,而且对答案的开放程度也做出了规定。有些难度较高或答案开放程度较高的题目,对正确或错误的答案依据评分原则还给出了为什么对或错的描述,其实际意义是明确评分的临界线。由于评分标准比较复杂,评分者需要花一定的时间进行研读。只要在培训过程中评分者真正领悟和掌握这一标准,不同的评分者就能较好地达成评分的一致性。

      PISA阅读测试评分标准的形成基础是PISA对阅读素养的界定和水平量表,“检测的能力点(题旨)”和“评分原则的描述”由此生成。对于阅读测试来说,主观性试题对考查学生的阅读素养往往是不可缺少的,因为它可以考查学生对文章的理解感悟等较高层次的心智活动,并且能够给予学生自由表达个人阅读感受的机会,但这种题目的使用也带来一系列问题,例如“评分者效应”难于控制便是主观性试题的一大弊端。由于有前测,PISA测试可以在制定评分标准的过程中参考已有的学生答题情况,并选择具有典型意义的不同答案作为评分标准的组成部分,为评分者更好地掌握评分尺度提供清晰的参照,从而确保了评分标准的科学性和可解释性。

      其次是评分者培训。经上海市教委教研室推荐和上海PISA测试研究中心的相关测试选拔,共确定评分专家16人,最低教龄不少于10年,年龄上限不超过45岁,区教研员占80%,高级职称占60%,从而确保了评分队伍的高素质。负责培训的专家均在国际PISA会议上经过严格培训。为保证评分质量,评分严格按照国际规范,每天评分时间不超过6小时,每两小时必须休息10分钟。整个评分过程有21天,而评分者培训的时间就达到6天,占整个评分时间的近三分之一,PISA对评分者培训的重视可见一斑。

      在具体培训过程中,PISA测试为培训提供了《评分指南》、《国内样例》、《国际样例》和《工作坊材料》四份材料,按照专有的程序进行培训。培训专家首先带领评分专家仔细解读《评分指南》,《评分指南》在搜集国际国内体现不同答题思路的数量众多的样例的基础上,按照“阅读素养的5级水平概述”量表的要求将评分标准分层、细化,根据不同的层次或角度赋以不同的评分代码,可操作性强。评分过程中,《评分指南》的评分标准不可随意更改,评分专家必须严格遵照执行;实际评分时站在考生的角度,在答题成功的前提下尽量去理解学生的答案。当然,因为试题来源于不同国家或组织,各国提供的评价标准在操作时也有不完全平衡的地方,有的标准严,有的题目又相对比较松。

      《评分指南》解读完毕,评分专家必须研习《国际样例》、《国内样例》两套练习卷,前者提供的是国内学生在试测过程所做的回答样例,后者提供的则是国际学生在以往测试中的回答样例。设计这两套练习卷的目的,是使评分专家对不同文化背景的学生所做出的最通常的回答样例,以及那些可能接近评分等级分界线的答案,都能做出恰当和具有一致性的评判,,作为培训的总结,评分专家必须完成《工作坊材料》中的所有例题,并根据先前所确定的评分标准来检查各自的评分情况,只有准确率达到80%以上才能参与正式评分。在最终确定的评分标准中,《工作坊材料》是作为评分标准的重要补充,它提供了各个回答水平的更加详细的描述和更多的具体样例,是为了说明所期望的一系列回答以及学生回答主观性试题的最通常的答案。为了使评分者在具体阅卷中对答案有更清晰的认识,练习卷中的回答样例都有明确的注释,以此来解释给分的根本原因。

      为进一步保证评分的有效性,PISA还设置了多次评分环节。16位阅卷专家依次编号,编号最后4位的专家参与多次评分。学生答题本的封面上都贴有专门设计的表格,内容包括评分专家编号、题目编号等,单次评分与多次评分的题目均用不同颜色标识,多次评分的题目组约占总题量的三分之一。在终端计算机输入时,会及时生成某位评分专家的评分准确率,评分监督会根据统汁情况及时决定是否终止其评分资格。

相关文章: