第二节 教育评价表的构成及编制一、教育评价表构成要素
教育评价表在结构上是由评价指标、指标权重及评价标准三部分组成的。
1.评价指标
指标是综合反映社会现象某一方面情况的绝对数、相对数和平均数。它是社会经济统计中的术语。评价领域借用这一术语来表示以目标为中心,层层分解,将目标分解成一些具体的、可操作的因素,通过评定这些因素来反映目标的整体特征。所以评价指标就是根据评价的目标,由评价指标的设计者分解出来的,能够反映评价对象某方面本质特征的具体化、行为化的主要因素,它是对评价对象进行价值判断的依据。指标与目标是密切相关的。目标是指标的根据和基础,没有目标的指标,或脱离了目标的指标,是没有意义的指标。指标是目标的具体化和操作化,是操作化了的目标,没有指标的目标,或脱离了指标的目标,是无法实现的目标。尽管评价指标与评价目标的关系十分密切,但两者之间还是有区别的。从内涵来看,目标反映全貌,指标反映局部。前者总带有某种程度的原则性、抽象性,后者则具有较高的具体性、针对性。从稳定性来看,目标比较稳定,不轻易变动;而指标就可以在反映目标的前提下,根据各个时期工作的侧重点不同作适当的变动。
2.指标权重
在教育评价表中,不同的评价指标,在判断评价对象达到预定目标的程度中,所起的作用是不相同的。为了使每项指标发挥其应有的作用,就必须赋予不同的评价指标以不同的权重。所谓指标权重,就是表示每项评价指标在指标体系中所占的重要性程度,并有相应的值,这个数值就叫做对应指标的权数,也叫权重。确定权数的过程叫加权。加权是评价工作计量体系中常用的数学手段,在评价工作中,它具有十分重大的意义,对它必须予以充分的重视。它能较客观地反映各项指标在实现目标中所起作用的大小,因而评价的结果比较客观。根据评价对象的历史条件和环境条件,适当地调整某些指标的权数,就能引导人们重视工作中某些薄弱环节;便于人们在工作中抓重点、抓关键,区分主次、轻重缓急,集中精力抓好主要工作,安排全面工作。
3.评价标准
评价标准是衡量评价对象达到评价指标要求的尺度,是由强度和频率、标号、标度三个要素构成的。标度是指指标达到项目要求的程度或各种规范行为的优劣程度,又称定性标准。例如,在等级评定中,达到什么要求评为好、较好、一般或差,都要有一定的规定。频率则是指达到指标项目要求的数量或各种规范化行为的相对次数,也称定量标准。例如,学生各科成绩及格有多少人次、及格率多少,班集体才算达标;学生操行成绩优良的有多少人次、优良率多少,班集体才可以评先进,等等。标号是不同强度和频率的标记符号,通常用字母(如A、B、C)、文字(如甲、乙、丙)或数字(如1、2、3)来表示。它没有独立的意义,只表示一种分类。标度是评价的档次。它可以是定性的(如优、良、中、差),也可以是定量的(用数字表示各个档次)。但定性时必须赋值,使定性标度转换成定量标度,以便做统计处理。评价标准的三个要素之间相互依存、相互配合而构成一个统一的整体。其中,强度和频率是具体的内容和主要的组成部分,标号是辅助部分,标度则是基础部分。
二、制定教育评价表的方法
制定教育评价表是一项政策性和技术性强、涉及面广的工作,为保证评价表编制过程有条不紊,使指标和标准的内容都达到较为理想的程度,除必须遵守以上的基本原则之外,还必须采用一定的科学程序与技术进行操作:
(一)确定教育评价的对象和目标
前面已经说过,教育评价表包括评价指标、指标权重、评价标准,而评价指标的确定,又必须依据一定的对象和目标。因此,制定评价表的第一步就是要确定评价对象,即确定评价谁(什么)的问题,评价对象可以是人,如校长、教师、学生;也可以是事,如学校评价、地区评价、教材评价等。评价对象大可大到一个国家、一个地区的教育评价;小可小到学生知识、技能评价,教师教学方法评价等。在确定评价对象后,还必须明确评价的目标。评价目标是通过评价达到的目的,是编制评价表要解决的主要问题,没有评价目标就没有编制评价表的依据,就无法设计评价指标,不同的评价目标对评价表有不同的要求。评价的目标是根据中小学教育实践中所需要解决的问题确定的,这样,通过评价将会对教育工作发生较大的促进作用。如需要解决办学效益的问题,评价目标就可定为“对办学效益状况作出评价”,如需要解决德育问题,就可把评价的目标定为对德育效果作出判断。
(二)初拟评价指标
评价目标明确以后,制定者的任务就是要依据评价目标,提出初拟评价指标。提出初拟评价指标的方法主要有以下几种:
1.头脑风暴法
头脑风暴法是利用头脑积极思维,进行智力碰撞,激发智慧灵感,而提出评价指标的一种常用方法。在预测学中,头脑风暴法作为一种预测方法,在本世纪70年代就得到了广泛应用。根据人数的多少,头脑风暴法,可分为个人头脑风暴法和多人头脑风暴法。评价指标设计者借助自己的实践经验,提出评价指标的初稿,就是这样一个思维过程。多人头脑风暴法经常通过专家会议实施。会议的议题要限定为讨论某项评价的指标,不要分散精力。在讨论中要求各抒已见,只讲自己的意见,不对别人的意见作批评,发言只讲观点,不详细展开论述,鼓励已经提出设想的人对自己的设想进行修改和综合,参加会议不应事先准备发言稿,主要是即席发言,初拟评价指标。
头脑风暴法还可以分为直接头脑风暴法和质疑头脑风暴法。直接头脑风暴法是指按照统一要求从正面论述自己的观点;质疑头脑风暴法是同时召开两个会议,第一个会议按直接头脑风暴法要求进行讨论,而第二个会议却专门对第一个会议提出的指标进行质疑。
2.因素分解法
因素分解法是一种将评价指标按照评价对象本身的逻辑结构逐级进行分解,把分解出来的主要因素作为评价指标的方法。应当注意的是分解出来的因素,从高到低逐层次缩小内涵,越往下,层次的指标越明确、越具体、范围越小、越可以观测。上一层次的指标应当包含下一层次的指标,而下一层次的指标,决不可包括上一层次的指标。因素分解的对象是评价目标,分解的目的是指标可见可测。运用因素分解法提出初拟指标,应当注意几个问题:
(1) 必须使用统一的分解原则。只有保持分解原则的统一性、稳定性,才能找到各指标的本质属性和各指标之间的固定联系。
(2) 分解出来的指标,上下层次之间必须相应和相等。就是说上一层次的指标必须包含下一层次的指标,下一层次的指标之和必须与上一层次的指标相等,否则就会出现分解过宽或过窄的逻辑错误。
(3) 因素分解,必须逐级进行,就是要按照由高到低的层次逐层分解,不能越级,也不能不到级,否则就不能保持评价指标体系的等价性。
3.理论推演法
理论推演法是根据有关学科的理论推演出评价指标的方法,例如根据心理学理论,智力是一般的认识能力,包括观察力、注意力、记忆力、思维力、想象力;能力是运用智力解决问题的实际本领,包括运用知识的能力、独立获取知识的能力、创造能力、表达能力、交往能力等。根据心理学关于智力、能力的理论,我们便可以推演出评价中小学生智力、能力的指标,同时我们还可以借鉴这些理论对评价指标的内涵作出明确的界定,使评价指标更加严密。
4.典型研究法
这是一种通过对少数典型事例进行研究而设计评价指标的方法。典型研究可分为正向研究、负向研究和正负向结合研究三种类型。正向研究是通过对成功的典型事例研究,提出评价指标;负向研究是通过研究失败的典型,提出评价指标;正负向结合研究是通过成功的典型事例与失败的事例进行比较,提出评价指标。运用典型事例研究提出评价指标有两点必须注意:
(1)选择的事例必须具有典型性和代表性,两者缺一不可,没有典型性就不成之为典型研究,没有代表性就缺乏普遍意义。
(2)要与类推法相结合。 通过典型研究所取得的典型评价指标要运用理论推演,将其扩展为我们所要评价的对象的评价指标。
(三)筛选评价指标
在初拟指标所分解出来的因素中,有的能反映评价对象的本质,有的则未必;有的算得上主要因素,有的可能只是次要因素。各因素之间出现交叉、重复、包含、矛盾、因果等关系,也难以避免。因此,必须对初拟指标进行归类合并和筛选,以达到“少而精”的要求。经过这一程序,指标项目可以得到精简,指标质量可以提高。不仅便于施评,也能保证评价的有效性。筛选指标,目前大多采用以下方法:
1.经验法
经验法是凭设计者的学识修养和工作经验进行筛选的一种简便实用的方法。可以掌握以下几个要点:
(1) 理由是否充分或必要。判断每项指标是否是必要的,缺失是否会造成不良效果,保留它有什么理由。被保留的要有充分的依据,属于非要不可的因素。
(2) 取主舍次。区分每项指标反映评价对象本质的程度,保留能反映本质的主要因素,舍弃不能充分反映本质的次要因素。
(3) 从各指标之间的关系上进行比较。内涵相同或近似的合并;内容交叉的,保留其一;有因果关系的,保留“因”而去掉“果”;相互矛盾的,选留既符合方针、政策规定,又切合当地实际的指标。
(4) 去难存易,删繁就简。确实难测的指标,可以舍去。指标内涵复杂的,尽量要求单一。
经验法主要凭设计者自身的经验,科学性、客观性要差一些。
2.调查统计法
这是在调查获得资料的基础上进行统计的方法。其具体做法是:把初拟指标制成问卷,发给有关专家和有经验的教育工作者,请他们对初拟指标的每一项作出判断。一般分为5档,即很重要、重要、一般、可要可不要、不要。答卷者在每项指标后记上自己判断该项指标相比之下的重要程度(只能定一个档次)。然后,收回问卷,统计“很主要”、“重要”两档的人数比例(百分比),按评为“很重要”、“重要”人数比例和的高低,由高到低顺序排列。把低于某数值的指标删除(一般以低于三分之二或四分之三处作为划界),就得到经过筛选的指标。当然,也可采用后面即将介绍的所谓关键特征调查法,既可筛选评价指标,也可得到相应的权重。
(四) 确定评价指标权重
对每项评价指标分配权重,确定其相对重要程度,是制定教育评价表必不可少的一项工作。一般有以下几种常见的确定权重的方法。
1.关键特征调查法
关键特征调查法是先请被调查者从所提供的备择指标中找出最关键、最有特征的指标,再对指标进行筛选并求出其权重的方法。
下面以对新时期高校干部政治素质评价指标进行筛选为例,说明其操作步骤:
(1) 提出备择指标。调查者根据经验或理论分析为高校干部的政治素质提出了10个备择指标见表8-1。表8-1 高校干部政治素质备择指标调查结果
备择指标(1)
荐贤与
知人善任事业心
原则性
求实精神
进取心
廉洁性
民主性
服务性
政策水平
无派性
选择人数(2)
228
517
265
389
121
86
117
89
329
18
选择人数的百分比t(3)
40.8
92.5
47.4
69.6
21.6
15.4
20.9
15.9
58.9
3.2
重要性次序(4)
5
1
4
2
6
9
7
8
3
10
(2) 请被调查者从备择指标中找出一定数量的关键指标。调查者通过问卷请559名各高校干部从备择的10个指标中每人选出最重要的4个指标。
(3) 计算人数和百分比。调查者计算选择各指标的人数(表中第2行)及其百分比(表中第3行),并将其从高到低排出次序(表中第4行)。
(4) 按一定的规则选取指标。若以选择各指标的人数百分比(用t表示)为尺度,将75≤t≤100作为第一重要指标,50≤t<75为第二重要指标,25≤t<50为第三重要指标,t<25予以忽略,那么高校干部政治素质应由下表中的5个指标组成(参见表8-2)。表8-2 高校干部政治素质各指标权重
选择人数的百分比(t)
指标名称
重要性等级
权重系数
92.5
69.6
58.9
47.4
40.8
事业心
求实精神
政策水平
原则性
荐贤与知人善任
一
二
二
三
三
0.30
0.22
0.20
0.15
0.13
(5) 计算各指标的权重系数。
公式(8-1)
在这里,表示筛选后第i个指标的权重系数;
表示选择该指标人数的百分比;
n表示筛选后指标的个数;
例如,上表中第一个指标(事业心)的权重系数为:
w1= 92.5÷(92.5+69.6+58.9+47.4+40.8)=0.299≈0.30
2.两两比较法
为了确定各指标的权重,可对指标进行逐对比较,并加以评分,重要者记为1分,次重要者记为0分;然后分别计算各指标得分之和,再除以所有指标得分之总和。这种方法叫两两比较法。 例如确定A、B、C、D、E 5个指标的权重:先将A与B相比,B比A重要,给B记1分,给A记0分……以此类推,结果如表8-3; 然后计算各指标得分之和,如A指标得分为1,B指标得分为3……,再将各指标得分分别除以各指标得分的总和10,就得出各指标权重值,如,A指标权重值为1÷10=0.1,其他指标依次类推,如下表第4列所示。表8-3 两两比较法的各指标权重计算表
指标(1) 逐对指标比较的次数(2)得分(3)
指标权重(4)
1
2
3
4
5
6
7
8
9
10
A
0
0
0
1
1
0.1
B
1
0
1
1
3
0.3
C
1
1
1
1
4
0.4
D
1
0
0
0
1
0.1
E
0
0
0
1
1
0.1
10
1.0
3.专家评判平均法
对于已经确定的指标,分别请专家评判其权重,然后以专家评判结果的平均数作为各指标权重。这种方法叫专家评判平均法。例如以先进性、科学性、系统性、启发性4个指标来评价一本教材,请5位专家对各指标权重进行评判,评判结果如表8-4。表中5位专家评判结果的平均数就是各指标的权重。
表8-4 教材评价指标权重(用专家评判平均法)计算用表
专家序号
先进性
科学性
系统性
启发性
1
2
3
4
5
0.15
0.10
0.10
0.15
0.10
0.55
0.60
0.55
0.50
0.60
0.20
0.15
0.25
0.30
0.20
0.10
0.15
0.10
0.05
0.10
平均数
0.12
0.56
0.22
0.10
公式(8-2)
在这里表示第i位专家赋予第j个指标的权重值
k 表示专家人数
如,先进性这一指标的权重为:
w1 =(0.15+0.10+0.10+0.15+0.10)÷5=0.12
这种方法的特点是简便易行,能够充分交流意见。所以目前各基层单位组织的评价,大部分采用这种方法来确定权重,评价效果也比较满意。这种方法的主要不足之处是:主观随意性较大,容易受专家的素质、水平等因素的影响。因此,要保证权重确定的合理性和准确性,使确定的权重具有一定的信度和效度,关键在于专家的素质和水平。一般来说,如果专家人员的素质好、水平高,就能够确定出具有较高信度和效度的权重。
4.倍数比较法
对已确定的指标,以每一级指标中重要性程度最小的指标为基础,记为1, 然后将其他指标与它相比,作出重要性程度是它多少倍的判断,再经归一化处理,即获得该级各指标权重。这种方法称倍数比较法。例如,确定学生干部评价指标为品德表现、学习成绩、办事能力、工作态度、群众威信;经一组专家评判(专家组讨论决定),认为重要性程度最小的一个指标是办事能力,将其记为1;再将其他各指标与它相比,其重要性程度的倍数如表8-5;然后进行归一化处理,即用各指标权重倍数之和去除各指标权重倍数。
表8-5 学生干部评价指标权重(用倍数比较法)计算用表
指标
品德表现
学习成绩
办事能力
工作态度
群众威信
权重倍数
权重系数
2.5
0.227
4.0
0.364
1.0
0.091
2.0
0.182
1.5
0.136
该例各指标权重倍数总和为2.5+4.0+1.0+2.0+1.5=11,品德表现的权重系数为2.5/11=0.227,其他指标的权重可依次类推。
(五)设计教育评价标准
这是建立教育评价表的又一项重要工作。设计教育评价标准的方法是:
(1)分解教育评价表中指标所包含的主要内容。例如:“教学组织”是教师教学工作评价表中的一项指标,经分解,认为“科学利用教学时间,教学过程安排合理;严格要求,教书育人;教态和蔼,师生精神饱满,课堂秩序良好”,可作为衡量教师上课“教学组织”的尺度,这些内容就是“教学组织”的主要内容。
(2)确定标度。 标度是达到标准的程度,它说明什么样的程度属于什么等级。表示标度的方式有二:一是用描述性语言表示。例如:用“很好”、“较好”、“一般”、“较差”4个等级表示评价对象到达的程度;用“完全达到”、 “基本达到”、 “大部分达到”、“小部分或全未达到”区分教育活动到达的等级程度。二是用量化形式表示,经常用分数阈来划分程度。例如衡量学生掌握知识技能到达教学目标要求的程度,可用测验的分数阀表示。100~90分为优秀程度;89~75分为良好程度;74~60分为及格程度;59~0分为不及格程度。
(3)确定等级数量。 评价标准设多少等级为好,没有统一的规定,可根据需要而定。等级数量越多,分等精确度就越高。不过,据心理学研究,超过五等级划分,一般人就较难做到。因此,评价标准一般确定3~5个等级为宜。
为了便于使用,需要将上述内容编制成表格形式,其中还要专设一栏“评价结果”,供评价者填写各项评价指标的得分或等级见表8-6。最后,在评价表拟定后,还必须通过论证、征询意见和试评,对评价表进一步修改、充实和完善,这才能制定出比较科学而又可行的教育评价表。为此,可举行论证会进行论证;也可召开座谈会,征询群众意见;还可进行访问调查或问卷调查法;最后可通过试评来验证、修改与完善教育评价表。表8-6 课堂教学质量评价表
指 标A
(85~100)
非常符合B
(70~84.9)
比较符合C
(55~69.9)
不太符合D
(54以下)不符合A级
B级指标
权重
A1
目的
(0.10)B1智能、思想的目的,符合大纲要求和学生实际(0.5) 0.05
B2明确、具体,指导教学全过程(0.5) 0.05
A2
内容
(0.25)B3内容正确,无知识性错误,技能熟练(0.30) 0.075
B4发挥思想教育因素,教书育人(0.25) 0.062
B5条理清楚,重点突出,难点突破(0.25) 0.063
B6分量、速度适当,学生能接受(0.20) 0.050
A3
方法
(0.40)B7重点启发学生思维,培养能力,学生有思考操作机会(0.16) 0.064
B8精讲巧练,讲练结合好,重视学生智能动手(0.16) 0.064
B9方法灵活,课堂活跃,能激发学生兴趣,集中学生注意力(0.16) 0.064
B10面向全体,控制课堂,维持秩序,注意反馈调节,机敏处理偶发事件(0.14) 0.056
B11使用仪器、教具,熟练、恰当、效益高(0.14) 0.056
B12教学结构紧密,时间分配恰当,不拖堂(0.12) 0.048
B13教师语言简洁、生动,教态自然,板书规范(0.12) 0.048
A4
效果
(0.25)B14课堂气氛热烈,学生兴味浓厚,师生均有满足感(0.15) 0.037
B15课堂口头答问,书面作业,正确率高(0.3) 0.075
B16达到教学目的,按时完成教学任务,课外作业量适度(0.15) 0.033
B17好、中、差学生都各有所得,对教学反映良好(抽问、抽测)(0.4) 0.10
(资料来源:季明明,叶齐炼.学校教师工作评估实用手册,中央民族学院出版社,1994年,第314~315页。表8-6 说明:
(1) 本方案B级指标(评语式)代替评估标准,评课时,根据教师课堂教学中的实际情况,比照指标,视其符合程度打分(在该等的分值幅度内),直接量化。如为了简便,将每个等级赋以定值(如A等为100,B等为80,C等为60,D等为40),评估时只定等级,不打分;再按等级值将等级折合为分数,实行二次量化。
(2) B级指标权重,已折合为总评估权重,只需用权重栏内权重值,直接与所评等级的值相乘,就可以直接求得该项指标评估值。最后,将各指标值总加求和,即为总评估值。
(3) 评课分值。可折合为等级向被听课者反馈,并将意见(即评等依据)集中起来,适当反馈给被听课者。若有多人同去听课,可求其平均值。
(4)在实际评价时,若能将上表中的评价标准进一步具体化,则会更容易操作。