<TITLE>教育心理学概论

（第十三章）第二节教学评价的方法与技术

学校教学评价中使用最多的是教师自编测验。为了保证教师自编测验的信度和效度，在课堂测验的编制、准备、实施及分数解释等方面必须遵循一定的方法和原则。下面就是有关的具体指导。

一、课堂测验的问题类型与编制技术

传统的课堂测验通常采用纸笔考试的形式来测量学生对课程内容的掌握情况。典型的纸笔测验题包括论文式问题、多重选择题、匹配题、是非题和填空题。

论文式问题（essay question）是指要求学生用文字论述方式回答的题目，其目的在于评价学生的表达能力、组织能力以及对各种不同领域的知识的综合能力。

论文式问题的优点是：第一，提出问题很容易而且很迅速，不像客观测验题需要很长时间去考虑和设计；第二，可以使教师去评价学生对所学知识的组织和分析、综合、评价等较高级的认知能力，而不仅仅是对知识的简单记忆。

然而，论文式问题也有许多缺点：首先，论文式问题的最大缺点是评分困难，费时太多。学生对一个问题的回答常常不是一两句话，而是一大段或几大段话。教师去阅卷时，不仅要考虑回答内容和观点的准确性，还要考虑表达观点的方式的妥当与否，卷面是否整洁，书写是否漂亮，文字和标点是否正确等等。教师也要考虑和决定如何处理回答中的错误的观点或不准确的观点。答错一个观点与漏答一个观点哪一个更不好呢？是否答错比漏答要扣更多的分呢？其次，论文式问题评分主观性较强，信度较差。两个不同的评分者对于一份相同的论文式答卷的评分可能是十分不同的。即使是同一个评分者，对于同一份论文式答卷的评分在不同的情况下给的分数也可能不同。评分可能会受到先前答卷的质量的影响，还会受到评分者对学生成绩的期待的影响。学生的卷面特征、性别、种族等因素均会影响评分的客观性。再次、论文式问题的取样范围较窄，只能涵盖教学内容中较小的百分比。仅仅通过论文式测验就无法考查和评价学生应该掌握的所有的、大量的知识点。

为了克服论文式问题的不足之处，必须在命题技术上加以改进。下面是教育心理学家们对如何编写论文式问题的建议：

1.论文题的用语必须简单、清楚、明确。

清楚、明确的用词可以减少学生对问题模棱两可的理解，避免出现歧义。不要在问题中使用含糊的、泛泛的表达方式。要用诸如叙述的两种方法，比较的相同点与不同点等明确、具体的表达方式。

2.标出每一问题的分值和限定回答的时间

在论文式问题的后面应该标示出该题的分值、限定回答的大概时间以及回答内容的大概长度（用留出的答题的空白多少去限定）。这样使学生在答题时能合理地分配时间和充分利用时间。要避免出现任选题（如两题中任选一题作答），因为两个任选题很难做到等值，试题的效度就会受到影响。

3.事先拟出每题的答案要点和评分标准

在出题的同时拟出各题的答案要点及相应的评分标准，将来评卷时就有了明确的依据，就可以提高评分的信度。

论文式问题可按题意的限制与否分为两种。一种为限制反应题，要求学生在所限制的范围内发表自己的意见，例如，“说明戊戌变法中的重要人物、事实经过及结果”。另一种为引申论述题，给学生较大的自由，学生可以根据给定的主题自由发表见解，例如“试分析知识在经济发展中的重要性”。这两种类型的问题在制定评分标准时宜采用不同的方法。对于限制反应题，应事先准备好一个范文的纲目或答案要点并给每一个要点分配适当的分数。评分时按学生是否答对各题的要点给予分数，最后将各要点的得分相加，作为学生该题的成绩。对于引申论述题，由于没有固定的答案要点，所以不能按要点给分，只能采用评等法评分，即将学生的答案分为优、良、中、差或A、B、C几个等级。具体操作时，教师首先总体浏览学生的答案，确定一个分等的一般标准，然后按此标准将每个学生的答案分成好、中、差三堆，然后再重新阅读一遍答案，将每一堆再分成两三个更小的堆。通过这种比较给予学生较客观和具体的评分。

4.对同一试题的评分集中一次完成

对同一试题的评分集中一次完成，可以避免对同一试题在不同的时间评分而发生的评分标准的变化，也可避免对不同试题在同一时间依次评分时可能产生的光环效应（halo effect）即第一题答得出色会影响对第二题的评分，觉得第二题答得也会同样出色。具体操作时，可采取分题阅卷的方式。当同一试题的卷子不能一次连续评完而必须间断时，当再次开始评分前，先浏览几份已经评过的卷子，以确保在评分标准上保持一致。

5.评分时不看学生的姓名

评分时不看学生的姓名，可以避免因看到姓名而导致的评分偏差，层管这种偏差可能是无意的。比如，对于平时学习成绩好的学生或自己喜欢的学生，教师可能会在评分时给出比其应得的分数要高的分数；相反，对于平时学习成绩不好的学生或自己不太喜欢的学生，教师可能会在评分时给出比其应得分数更低的分数。因此，为保证评分的客观、公正，教师去评分时应将学生试卷上的姓名封上后进行。

（二）多重选择题

多重选择题（multiple-choice item）是指针对某一问题，让学生从多个可能的答案中选择一个正确答案作为回答的试题形式。

选择题由题干和选项两个部分组成。题干是要求学生回答的问题，通常用直接问句或不完全陈述句来表达；选项包括一个正确答案和几个干扰项（错误答案）。干扰项一般为3-5个。干扰项越多，学生猜测正确答案的概率越小。例如，若有三个干扰项，学生猜对的概率是1/4（0.25），若有四个干扰项，学生猜对的概率下降为1/5（0.20）。选择题可适用于文字、数字、图形、表格等各种形式的信息资料。

一般认为多重选择题只能让学生完成一些较低水平的认知活动，问题通常要求学生再认在课堂上或书本中学过的概念定义。例如，下面的这个多重选择题要求学生再认本章第一节学过的一个定义：

个体的操作成绩要与其他人的操作成绩相比较的评价是：

A．常模参照评价

B．标准参照评价

C．形成性评价

D．总结性评价

（答案为：A）

然而，多重选择题并非只能评价学生对定义的再认，教师也可以通过设计多重选择题来评价学生高级的思维技能，提出布鲁姆教育目标分类学中较高层次的认知问题，比如，让学生比较不同点、寻找相同点、应用知识、做出因果关系的预测或推论等。在数学等学科中，学生要首先在题干中解决一个问题或完成一个计算任务，然后从选项中选择一个正确答案。例如，下面的一个多重选择题还要学生将本章第一节学过的一个定义应用在一个真实的生活情境中：

一个大公司每年都要对全体雇员施行进级考试。考试分数处于前10%的雇员将得到晋升的机会，而考试分数处于后10%的雇员将被降级为见习生，留公司查看一年。这种进级考试运用的是：

A．常模参照评价

B．标准参照评价

C．形成性评价

D．总结性评价

(答案为：A)

多重选择题的优点是：第一，评分客观、可靠。每一问题都有客观的标准答案，避免了论文式问题在评分时的主观性和信度较低的缺点。第二，试题取样范围广，能够涵盖课程的主要内容，保证测验的有效性。第三，答题和阅卷均较方便、高效，在较短的时间里就可以施测较多的项目，学生答卷时只需在几个选项中做出一个选择，教师阅卷时只需判断学生选择的正误即可。因而效率很高。正因为有这样一些优点，因此，多重选择题应用广泛，被认为是客观测验中最好的一种方法。

然而，多重选择题也有其缺点：第一，编写困难、费时。将课程内容设计成一个又一个的多重选择题，仔细考虑选项中正确答案与各干扰项之间的各种微妙的关系，是一项费时而困难的工作。第二，由于选择题的答案是固定的，因而不易测量学生的创造力、组织和综合能力。

如何编写出既容易理解又实用的多重选择题呢？下面是一些心理学家提出的建议。

下面是一个用词不当或编写得不好的多重选择题样例：

下面的哪一项与编写多重选择题的建议不相符：

A．用词要简明。

B．运用看起来似乎正确的干扰项。

C．不要运用否定的陈述

D．常见的误解是有效的干扰项并将吸引那些对所测验的正确概念知之甚少的学生的注意力。

E、以上几项都不是

这样编写的多重选择题的毛病是：题干是否定性陈述，选项C和E也是否定性陈述，使问题变得更加混乱；选项D的长度与其它几个选项相差太大，而且选项D实际上包含了选项B的内容。

一个多重选择题编写出之后，教师如何才能确定该题使用起来是否有效呢？怎样知道一个多重选择题是否需要修改呢？项目分析能够帮助回答这些问题。

项目分析（item analysis）包括对项目的难度、项目的区分度以及干扰项的分析。一些商业性软件程序可以迅速而容易地完成项目分析任务。即使没有这样的软件可用，广大教师也可以用手来操作的方法完成一些基本的项目分析。下面介绍的便是项目分析的具体操作方法。

项目难度（item difficnlty）是通过项目分析可以决定的一个测验项目的重要特征。确定项目难度的一个方法是计算学生正确回答一个项目的百分比。“好”的项目难度的标准是什么呢？对这个问题不能简单地做出回答，因为项目难度的适当性因教师使用测验的目的而变化。如果一个项目被正确回答的百分比是10％，那么该项目的难度为0.1，表明该项目是很难的；如果一个项目被正确选择的百分比是90%，那么该项目的难度为0.9，表明该项目是很容易的。在常模参照测验中，大多数测验项目的难度既不能太容易又不能太难，而应处于中等水平。在标准参照测验中，项目难度可以在较大范围内变化，某些测验项目几乎所有的学生都能正确回答，而某些项目几乎所有的学生都可能答错，然而，大多数的项目难度应在0.8或在0.8以上。

通过项目分析可以确定的另一个测验项目的重要特征是项目区分度。项目区分度（item discrimination）是指一个测验问题能够将学得较好的学生与学得较差的学生区分开来的能力。也就是说，在一个测验中得分最高的学生应该能够正确回答的一个项目，而在此测验中得分最低的学生应该不能正确回答该项目。下面是教师可以用来计算项目区分度的具体方法和步骤（Hopkins & Stanley，1981；Popham，1995）：

首先，将所有的试卷按总分从高到低排序。然后，自上而下将所有的试卷分成四组，每组里的试卷份数相同。对于每一个测验项目，计算出在总分最高的1/4学生中答对的百分比和在总分最低的那1/4学生中答对的百分比。用成绩最好的组的答对的百分比减去成绩最差组答对的百分比，所得结果就是一个测验项目的区分度。例如，对于测验项目1，如果在成绩最好的那1/4学生中，有90%答对了，而在成绩最差的1/4学生中只有20%答对了，那么，测验项目1的区分度为0.90-0.20=0.70。这意味着测验项目1能够成功地区分成绩好的学生和成绩不好的学生。只要测验项目的区分度能够达到0.40或0.40以上，那么该测验项目就能够较好地将那些在整个测验中答得好的学生与在整个测验中答得差的学生区分开。如果成绩最好的1/4学生中的25%答对了测验项目1，而成绩最差的1／4学生中的20％答对了项目1，那么，测验项目1的区分度为0.25-0.20=0.05。这个区分度意味着试题1不能将成绩好的学生与成绩差的学生区分开，因此，该试题需要修正。如果成绩最好的1/4学生中的20%答对了项目1，而成绩最差的1/4学生的70%答对了项目1，那么，测验项目1的区分度为0.20-0.70=-0.50。这个区分度意味着虽然能够将成绩差的学生与成绩好的学生区分开，但成绩差的学生更容易正确回答。这是不正常的，因此，当项目区分度为负值时，该试题需要修正。有一点非常重要，那就是，我们必须意识到项目区分度与项目难度是联系在一起的。如果一个测验项目非常难，或者非常容易，那么，这个项目的区分度会很低，难以将成绩好的学生和成绩差的学生区分开。

对多重选择题进行项目分析的第三个内容是干扰项分析（item distractor analysis）。通过干扰项分析教师可以评价一个干扰项设计得是否适当。如果高成绩组的学生都一致地选择了某个干扰项，把它当作了正确答案，那么，教师需要检验这个干扰项正确的可能性并予以修正。如果一个干扰项没有被任何一个学生选择，那么这个干扰项也应被修正或替换。

（三）匹配题

匹配题（matching item）是选择题的一种变式，让学生将一栏前提项（通常是左侧的一栏单词或短语）与一栏反应项（右侧的一栏单词或短语）相互匹配。

匹配题是评价某种类型的事实性知识（例如，人物与他们的业绩、日期和历史事件、范畴和实例等）的一种可靠的、客观的、有效的方式。例如，从下面右栏所列的书名中找出左栏所列的每位作者的作品，并把相应的字母填在括号中：

1．吴承恩（） A 《窦娥冤》

2．蒲松龄（） B 《三国演义》

3．关汉卿（） C 《红楼梦》

4．曹雪芹（） D 《梦溪笔淡》

5．罗贯中（） E 《水浒传》

6．施耐奄（） F 《聊斋志异》

G 《西游记》

编制匹配题时，既要注意减少学生寻找的时间，提高答题效率，又要注意降低学生猜测的可能性，因此要运用适当的命题技术。

（四）是非题

是非题（true/false items）是要求学生对一则陈述的命题给予是非（正误）判断的一种试题形成，也叫正误题或判断题。

例题：请判断下列各项陈述是否正确，并将√或×写在后面的括号中：

1．叶绿素是植物进行光合作用的重要物质。（）

2．各种植物的生长都离不开光合作用。（）

是非题的优点是：编写相当容易，回答和评分都很方便，取样范围较广，可以有效地测量学生对一些知识点的掌握情况。

是非题的缺点是：第一，是非题测量的常常是一些较低水平的细节性的知识点，而不易测量一般原理或对知识的应用、分析、综合、评价等。第二，是非题的猜测正确的概率是50%，因此，它的可靠性较差。有时教师要求学生将判断为错误的题改正过来，但这样做使是非题答起来更加困难而且评分也更费时间。

如何更好地编写是非题呢？心理学家（Mehrens & Lehmann，1991；Eggen等，1992；Ory等，1993）提出了一些具体建议

（五）填空题

填空题（fill-in-the-blank items）是要求学生在一个留有空白的未完成句子中填上适当的词或短语以构成一个完整的句子。

例题：在下面的句中填上适当的词：

植物体内用来进行光合作用的重要物质是。

填空题的优点是比选择题容易编写，凭猜测作答的机会也较少；答案规范、简短，使得评分可靠而容易。填空题的不足之处与是非题一样，测量的是较低水平的对知识的记忆，而不易测量较高水平的认知能力。一些教师用填空题测验词汇知识或者用于平时的形成性测验中寻找学生经常填错的答案，然后将这些错误的答案作为编写多重选择题的干扰项，最后将编好的多重选择题用于期末的总结性测验中。

编写填空题时要注意以下几点：

1．填空题让学生填的应该是一些关键字句，并与上下文有着密切的关系。

2．在一个题内不要留有过多的空白，否则会失去意义上的连贯性，使学生无法理解题意。一般留有一个或两个空白为宜。

3．各题留出的空白的长度应相符，而不要有长有短，以免空白的长度对正确答案的字数产生暗示作用。

4．避免直接引用教科书中的词句