第五章教育测量与评价概述

第五章教育测量与评价概述

　　[内容导读]
　　本章主要探讨教育测量与评价的基本问题，包括教育测量与评价的基本概念、学科地位、应用价值，教育测量与评价的类型和功能等问题。
　　学生在学习本章内容时，应当注意理解概念，了解教育测量与评价的基本分类，开动脑筋去思考教育测量与评价的若干基本问题，不要死记硬背概念和名词。学完本章后,学生应当能够:
　　定义教育测量和教育评价；认识教育测量与教育评价之间的关系；认识教育测量与评价的学科地位及社会价值；了解基础教育课程改革精神及对教育测量与评价的要求；认识教育测量与评价对教师职业专业化的重要性；按不同分类标准对教育测量与评价进行分类；了解形成性、诊断性和总结性测验（评价）之间的区别和联系；初步了解常模参照测验和标准参照测验的意义与区别；认识潜力参照测量与评价的意义和特点；认识最佳行为评价和典型行为评价的意义及其区别；能够阐述教育测量与评价的判断功能；能够阐述教育测量与评价在改进教师教学方面的功能；能够阐述教育测量与评价在促进学生学习方面的功能；能够阐述教育测量与评价在行使教育管理方面的功能。

第一节教育测量与评价的基本问题

　　教育测量与评价是所有成功教学的基础，也是诸多教育决策的重要依据。正因为如此，在教育领域乃至社会各界已有越来越多的人士在关注着教育测量和教育评价的学科发展。那么，什么是教育测量与评价？它们与教育测验、教育考试、教育评估等概念有什么联系和区别？在这一节中，我们将对这些基本问题作一探讨。

一、教育测量与评价的含义

（一）测量的含义与要素

1.测量含义

　　唯物辩证法告诉我们，任何事物都是质与量的统一体。研究事物时，人们总是希望既能够从质的规定性又能够从量的规定性两方面去研究它们，以便更全面、客观、准确地把握事物。所谓测量（measurement），从广义上讲，就是根据某些法则与程序,用数字对事物在量上的规定性予以确定和描述的过程。例如，我们依据事先约定的长度单位，用标准化的长度量具测量人或物体的高度；根据力学中的杠杆原理，或者根据作用力与反作用力之间的关系，用杆秤、磅秤或天平秤等量具测量人的体重或物体的重量；按照热胀冷缩的规律,借助标准化的温度量具测量物体的温度等。这些都是物理特性的测量例子。

2.测量要素

　　上述种种物理特性的测量，无论是直接测量（如测量人的身高）,还是间接测量（如测量地球与月亮之间的距离），要实现这些测量一般需要具备如下一些基本条件：
　　首先，必须依据某些科学原理和法则，发展出合适的量具，或制定出科学的测量方案。试想一下，倘若没有公认的长度单位和标准化的量具,怎么可能准确地测量物体的长度。
　　其次，必须有意义相对明确的测量单位。也就是说，无论是直接的还是间接的物理测量,通常都需要有意义明确的并为大家所公认的测重单位。如“1厘米”、“1米”、“1秒”、“1千克”、“1立方米”、“1光年”、“1纳米”等。有了明确的测量单位,就可以使测量结果有意义,并使测量结果可以让人理解。例如，当人们明确了长度单位“1厘米”的内涵后,说某人的身高是170厘米,则意味着这个人的身高正是“1厘米”单位长度的170倍。
　　最后，要用数字对事物在量上的规定性予以确定，就需要有一个测量或计算的起点，这个起点叫参照点。参照点不同，其测量结果也就不同，而且测量结果之间也无法进行直接比较。例如，测量大山的高度，以山底下某标志为测量起点和以某个海平面为测量起点，所测的高度显然是不同的。在国内通常说某个山峰的海拔高度，指的就是以我国黄海的平均海平面为测量起点来测量山峰的垂直高度。再如,用温度计来测量水温，可以用“摄氏”温度计，也可以用“华氏”温度计，但它们的测量参照点是不同的。摄氏温度为零度时，华氏温度则不是零度。就广义的测量来讲，参照点有两种,一种是绝对的零点，另一种则是相对的零点。例如，测量物体的重量、长度等都是以“绝对零”为起点的；而以海平面为测量山峰高度的起点、以摄氏零度作为水温的测量起点时，就是一种相对的参照点，这是人为确定的参照点。
　　总之，测量的量具、单位和参照点，是测量的三个基本要素或三个基本条件。测量结果是否准确可信，依赖于科学规范的测量程序、有效的测量工具、意义明确的测量单位和测量的参照点。

（二）教育测量的含义与特点

　　人们不仅能对事物的许多物理、化学属性如长度、重量、距离、体积、温度等做出准确的测量,也能够对人的知识水平、能力、气质、性格、兴趣、态度等精神特性进行测量，这些精神特性方面的测量，不仅表现在学校教育领域，而且涉及到社会许多部门。

1.教育测量概念

　　关注学校教育教学的效果，这是理所当然的事。教育测量，就是针对学校教育影响下学生各方面的发展，侧重从量的规定性上予以确定和描述的过程。学校教育实践活动的客观需要，促进了教育测量科学研究及学科发展。教育测量学是一门发展较早、应用较多、内容较丰富的教育科学分支。
　　第一，教育测量是为促使学生发展，包括为学生评定学习成绩而进行的测量活动。这是教育测量活动最原始的动机，也是教育测量学科发展的最早的立足点。在学校教育背景下教师和学生通过课程、相互作用，无论是教育者还是受教育者，都需要了解学习者学到些什么？掌握程度如何？学习者有哪些变化？用什么方式加以考核记载？所有这些基本的原始的教育需要，都要借助于教育测量活动加以实现。
　　第二，教育测量关注学校的教学效果，而教学效果是教与学双方共同作用的结果。因此，教育测量结果在用于评定学生学习效果的同时，还被用于了解教师的课堂教学效果。一句话，教育测量反馈的是课堂教与学两方面的信息。
　　第三，教育测量关注学生的发展，而学生的发展是多方面的。除了掌握学科的知识与技能外，还要发展学生的道德、情感、态度、价值观、兴趣、思维能力、实践能力、创造能力等方面。一句话，教育测量涉及到学生在德育、智育、体育、美育、劳动技能以及个性心理素质等许多方面。然而，由于许多身心特性存在着复杂性和模糊性，使得教育测量比物理测量有更多的困难，因此教育测量的结果也不像物理测量的结果那么容易理解。

2.教育测量特点

　　物质与精神是哲学范畴中的两个基本概念，质与量的矛盾统一是所有事物的基本特性之一。从总的方面看，教育测量是属于精神特性的测量。这种测量活动的实现，当然也要满足一般测量的三个基本条件，即前面所说的测量的单位、测量的工具和测量的参照点。但与物理（物质）特性的测量相比，教育测量具有如下一些鲜明的特点。
　　第一，教育测量的间接性和推断性。虽然教育测量无一例外地涉及到人类自身，但测量内容主要是关于人的种种非物质属性，如人的知识水平，人的聪明才智、人的气质性格、人的心理素质、人的创造能力等。而今天的科学技术还无法支持教育测量科学发展到能用某种量具直接进入人脑或人体内去测量人的这些属性。目前，我们只能通过人的外显行为或通过人对来自外界的一组刺激所作出的反应结果，对人的知识技能、智力水平、思维品质、创造能力、心理素质、情感态度、思想道德等作出间接性的推断性的测量。
　　第二，教育测量对象的模糊性和测量误差的不可避免性。测量的误差一般有系统误差和随机误差。通过采用精良的测量工具，按照科学的测量法则和规范的测量程序，我们完全有可能把物理特性的测量误差控制在人定的误差范围内。但教育测量则不然，我们所测的精神特性，如知识水平，智力水平、社会适应能力、创造能力、创新精神、人际关系技能等，一方面它们不像桌子的长度或人的重量等物理特性那样明确，另一方面它们又一直受人的心理活动的影响，第三方面它们的测量只能是对外显行为与反应的取样分析加以推断，这就使教育测量的对象具有模糊性和不确定性。教育测量的误差除了随机误差、系统误差之外，还存在抽样误差。尽管按照科学规范的教育测量过程能让我们尽最大努力减少这些误差，但我们无法消灭这种误差，而且与物理特性的测量相比，教育测量的误差相对较大。因此，教育测量的结果只是学校各种教学决策的依据之一，凭借学生之间成绩的微小差异，判定或排列学生的能力高低名次，其证据是不充分的。
　　第三点，教育测量的量表具有多样性，教育测量的结果具有相对抽象性。所谓量表（Scale）或量尺,指的是确定了测量单位和参照点并采用具有取值系统的测量工具。例如，有刻度的尺子，是测量物体长度的量表或量尺。在教育测量中，按照标准化程序命制的试卷就是教育测量的一种量表。由于教育测量对象的复杂性和多样性，以及制定教育测量量表的类型与精确度不同，使得教育测量量表具有多样性。心理学家史蒂文斯（S.Stevens）根据测量的精确程度,把量表从低级到高级分成称名量表、顺序量表、等距量表和比率量表4种水平。

二、教育评价的基本问题

（一）评价含义

　　在我们的日常生活和文化活动中,经常用到“评价”(evaluation)这个词语。从评价某人的“烹调手艺”，到评价某人的为人处世；从评价某学生的科技作品，到评价某作家的文学新作；从评价学生的学习结果，到评价课程的有效性和教师课堂教学的质量；从评价某高校的办学指导思想是否明确以及学校定位是否合理，到评价一所高校的整体办学水平等；可以说，“评价”这个词语无处不在使用，我们每个人自觉不自觉地参与评价活动或处于被评价的位置上，学校教育工作者尤其如此。
　　那么，何谓评价？广义地讲，评价泛指衡量、判断人物或事物的价值。评价活动的过程是对人物或事物的价值进行分析、衡量和判断的过程。在评价过程中，无论是事实判断还是价值判断，都需要以事实为依据，通过收集多方面的资料证据，对人类社会活动的效果、物质产品和精神产品的质量及价值等作出判断。

（二）教育评价的概念

　　当把“评价”一词特别地用于学校教育领域或课堂教学情境时，在一些情况下，“评价”就是“教育评价”一词的简称；在另一些情况下，它指的是教育目标分类中最高层次的认知能力水平--评价。下面是国内外一些学者对“评价”一词在教育教学活动情境下的若干典型的解释：

　　（1）格兰朗德（N.E.Gronlund）认为,评价是为了确定学生达到教学目标的程度，收集、分析和解释信息（课堂）的系统过程；评价包括对学生的定量描述（测量）和定性描述（非测量）两方面。根据格兰朗德的观点，评价总是包括对测量结果需求程度的价值判断（例如，玛丽学习数学取得了长足的进步），一个完整的评价计划将包括测量和非测量两种方法，用公式加以形象地表达，即：
评价 = 测量（定量描述）+非测量（定性描述）+ 价值判断
　　（2）斯塔费尔比姆（L. D. stufflebeam）等人认为，“评价是一种划定、获取和提供叙述性和判断性信息的过程。这些信息涉及研究对象的目标、设计、实施和影响的价值及优缺点，以便指导如何决策、满足教学效能核定的需要，并增加对研究对象的了解。”斯塔费尔比姆还说，“评价最重要的意图不是为了证明，而是为了改进。”
　　（3）美国教育评价标准委员会曾对“评价” 给出一个简明的的定义：“评价是对某些现象的价值如优缺点的系统调查，为教育决策提供依据的过程”。
　　（4）泰勒（R. W. Tyler）指出：“评价过程在本质上是确定课程和教学大纲在实际上实现教育目标的程度的过程”。
　　（5）布鲁姆（B.S.Bloom）在其《教育评价》一书中对“评价”这个概念作了两种不同的解释。第一种解释在本质上是针对“教育评价”来说的，他说：“据我看来，评价乃是系统收集证据用以确定学习者实际上是否发生了某些变化,确定学生个体变化的数量或程度。”第二种解释实际上是针对教育目标分类来说的。他把教育目标分成认知、情感和动作技能三大领域，又把认知领域的教育目标分成知识、领会、应用、分析、综合、评价这六个能力层次或学习水平。对此，布鲁姆指出：“评价是为了某个目的而进行的，对各种想法、作品、解答、方法、资料等的价值作出判断的活动。评价涉及应用准则和规格来估量各种具体事物的准确性、有效性、经济性和令人满意的程度。判断可以是定量，也可以是定性的；准则可以由学生决定，也可以向他们规定。”
　　纵观上述对“评价”一词的描述，除了布鲁姆的第二种解释外，包括布鲁姆的第一种解释在内的其余种种定义，我们认为都可以看成是对“教育评价”概念所作出的不同描述。事实上，由于教育评价活动的内容丰富、情况复杂，因此，要对“ 教育评价”概念提出一个没有争议的定义，是一件很困难的事。但从上述对“评价”概念的各种描述中，我们也不难发现，教育评价包含如下几个共同的要点：
　　第一，强调以教育目标为标准的价值判断过程；
　　第二，强调用多种方法（测量和非测量）系统收集资料与信息；
　　第三，教育评价的内容既可以是教育计划，也可以是课程；既可以是学生的学习结果，也可以是某种教育现象、教学活动、教育目的或教育程序；
　　第四，强调为学生发展和教育决策服务，“评价最重要的意图，不是为了证明，而是为了改进”，“评价是对某些现象的价值如优缺点的系统调查，为教育决策提供依据的过程”等；
　　总之，我们可以这样来描述“教育评价”概念，所谓教育评价（educational evaluation）,是指按照一定的价值标准和教育目标，利用测量和非测量的种种方法系统地收集资料信息，对学生的发展变化及其影响学生发展变化的各种要素进行价值分析和价值判断，并为教育决策提供依据的过程。我们不妨把这个定义看成是广义的教育评价。在实际工作中，我们可以从不同的角度出发，选用不同的定义。

三、教育评价相关概念辨析

　　随着教育实践活动和教育科学文化交流活动范围的不断增大，近十几年来,我国对教育评价的科学研究与实践取得明显的进展。但是，当人们使用“教育评价”概念时，常与其他一些概念如教育测量、教育测验、教育考试、教育评估等交叉使用，甚至存在一些误解。因此，弄清这些概念之间的关系、澄清一些模糊的认识，对本书内容的理解乃至实际应用都是非常有意义的。

（一）教育测量与教育评价

　　测量与评价既有联系又有区别。从句法意义上讲，测量是按照一定的法则和程序，对事物或现象在量上的规定性加以确定和描述的过程。教育测量则是对教育效果或者学生各方面的发展予以测量和描述的过程，旨在获得有一定说服力的数量事实，是一种以量化为主要特征的事实判断。而教育评价是根据一定的标准，对教育事物或现象的价值进行系统的调查，在获取足够多的资料事实（定性资料与定量资料）基础上，作出价值分析和价值判断。因此，教育测量可以为教育评价提供价值判断的基本数量事实，教育测量是教育评价的基础；而教育评价往往是教育测量过程的延续，是对测量结果的解释与应用，并朝着价值判断与释放教育功能的方向拓展。
　　虽然从整体上看教育评价比教育测量所包含的内容更广、更综合,但非得把教育测量活动与教育评价活动看成是泾渭分明的两种活动，或者说教育评价非得以教育测量为基础，这也不符合事实。正如格朗兰德所说的，“当把评价一词特别地用于课堂教学情境时，其含义存在一些混乱。在一些情况下,它与测量是同义词。在另外一些情况下，它与测验是同义词。例如，当教师进行一次成绩测验时，他们可以说他们在'测验'学生的成绩、”测量“学生的成绩，也可以说在”评价“学生的成绩。此时，人们很少会想到这三个术语有什么不同。但在一些情况下，评价是指不依赖于测量的各种评价方法，它是一个集合名词，此时，评价与测量的区别在于，'评价是对学生行为的定性描述'（例如，对学生行为的轶事记录），而测量则相反，'它是对学生行为的定量描述'（例如，测验分数）。”此外，王汉澜教授也指出：“测量的数量化结果，如果不依据测量的目的进行分析、解释和评价，就是无意义的东西，所以测量包含有一定的评价。”事实上，一些标准化的教育测量过程，由于测验经过标准化过程，使原先意义不明确的原始分数有了科学的分数解释系统，这实际上就是对测量结果进行有意义的价值判断（价值判断虽然强调定性描述，但也不排除定量描述）比如，应用个性诊断测验、职业能力倾向测验、心理健康诊断测验、态度测验以及道德不良者诊断测验等测量过程，其本身就包含有一定的价值判断。有些教育测量在社会公认的价值标准下，其本身也隐含着价值分析与价值判断。如通过高考制度来选拔与评价人才，实际上隐含着一种颇有争议的价值判断标准，即“高分=优秀的考生=高素质”。
　　总之,教育测量与教育评价既有区别又有联系。但在一些情况下，两者之间是一致的，许多教育测量本身就含有价值判断。国内外一些教育测量方面教科书，有的用“教育测量与评价”作书名，有的仍用“教育测量”，还有的用“教育评价”作书名，正说明了这一点。

（二）教育评价与教育评估

　　教育评价和教育评估是两个常用的概念。有些学者认为这两个概念意义不一样，“评价”即评定价值，而“评估”并不表示价值。因此，建议在教育实践活动中使用“评价”这个概念,不要使用“评估”这个概念。有学者认为，“教育评估与教育评价通常没有严格的区别。但是被评的事物往往都是相当复杂的，不可能用纯客观的标准加以测定，而且在'评'的过程中已经加入了主观因素，评的结果不可能是绝对客观的，而有主观推测、估量和估价的主观判断成分。对教育的评定更是如此，因为这是对精神的度量，很难是纯客观的。所以'教育评估'比'教育评价'更确切。”此外，有些人在引用他人的定义时把“评价”改成“评估”,另一些人则把“评估”改成“评价”，为己所用。可见，到目前为止，这些概念的使用还存在着一些混乱。
　　我们认为，教育评价与教育评估这两个概念既有联系又有区别。　　首先，教育评价和教育评估的英语表示不同，前者通常用“educational evaluation” 表示，而后者通常用“educational assessment ”表示。既然英语词源不同，那么,其意义也有所差别。国内有些文献以及有些人把“assessment”译成“评价”，严格说来是不够准确的。其次，从目前国内出版有关教育评估或教育评价的著作来看，无论是主张用“教育评价”这个概念，还是主张用“教育评估”这个概念,研究者都把这些学科的起源追朔到教育测量运动、美国著名的“八年研究”及其相应的人物（如泰勒等人）。既然教育测量、教育评价、教育评估源出一处，那么，它们必有相通与交叉之处。第三，考究“评估”一词,含有“评判”、“评量”、“估测”、“估算”等意思，因而，也就包括对事物的质量、价值、程度、数值等进行估测判断。有些人认为，“评估”没有价值判断，而“评价”才有价值判断。其实，这种认识也是不全面的。如果说对事物的经济价值作判断也是一种价值判断的话，那么，企业资产评估、房地产评估等也含有价值判断的成份。因此，教育评估和教育评价是两个相近的词语，它们在内容上有交叉，也有区别；教育评估可能有的价值判断，也可能没有价值判断。当教育评估过程含有价值判断时，它和教育评价是一样的；当教育评估过程没有包含价值判断时，它和教育评价就有一定的差别。假如教育评估的重点是对教育现象在数量上做出测量或估算，此时，教育评估与教育测量就可能处于同一层次的意义上。
　　第四，从概念及习惯用语上讲，所谓教育评估，如同美国国家评估委员会主任迪肯（F.G.Dikey）所讲,评估就是“由一个组织或机构对这所学校或学科是否符合某一事先确定的质量标准作出鉴定的过程。” 因此,把“教育评估”概念用于产量评估、资产评估、房地产评估、实验室建设评估、办学水平评估、课堂教学水平评估、人的心理评估等，比较符合评估一词的本意。
　　总之，我们认为教育评价、教育评估、教育测量这三个概念之间是两两既有联系又有区别、既有交叉重叠又有相对独立的关系。如果硬要用一个概念来取代另一个概念，恐怕是不合宜的。

（三）教育测验与考试

　　测验（test）是测量的工具，用它能引起人的有代表性的行为，以便对人的行为特性或心理特性进行测量与评价。因此，测验一词往往是教育测验或心理测验的简称。教育测验是教育测量的一个工具，在教育评价或教育评估过程中常被用来收集资料（如有关态度测验、民意问卷测验、学科成就测验等）。考试（examination）有广义与狭义之分。广义的考试，泛指人类社会一切测度和甄别人的身心各个方面之群体或个体差异的活动。狭义的考试，则指由主试根据一定社会的要求，在一定场所，采取一定的方式方法，选择适当的内容，对应试者的德、学、才、识、体诸多方面或某方面进行有组织、有目的测度或甄别的活动。在学校教育与人才选拔过程，教育考试是根据教育内容和目标，学者选择有代表性的内容与问题，按照一定的方式，对应试者的知识、技能等进行测量与评价的过程。因此，考试也是一种教育测验。
　　总之,测验的概念比考试的概念更广大；教育测验包含教育考试。测验或考试都是教育测量与评价的一种工具。在某些情境下，教育测验活动或教育考试活动本身就是一种教育评价（评估）活动。

（四）教育统计与测量评价

　　教育统计、测量与评价之间存在非常密切的关系。一方面，教育统计分析所处理的数据资料，大多是教育调查、实验、观察、测量或评估所得的数据，教育统计方法包括描述统计与推断统计两部分。另一方面，开展教育测量与评价实践活动，或者从事教育测量与评价研究工作，通常要借助教育统计学有关方法，才能实现教育测量与评价的目的。如今，教育统计学、教育测量学和教育评价学已成教育科学的重要分支，它们虽然有各自相对独立的研究内容和方法，但无论是过去还是现在，它们的内容都是相互联系的。因此，我们根据这些学科的内容特点以及内容整合的趋势，构建了教育统计与测量评价综合课程的内容框架。