第二节 次数分布表
数据是我们了解事物和研究事物的第一手宝贵资料,含有许多有用的信息,有待人们采用特定的方式进行揭示和开发。从技术上讲,就要采用一些必要的统计手段对数据进行整理与分析,以便揭示数据内部规律性,获取有价值的教育信息。这一节我们首先介绍次数分布表,它是常用于整理数据的一种方法。
一、次数分布
显然,研究一批数据时,我们首先关心的是这批数据中最小的是多小、最大的是多大,以及这批数据从小到大是如何演变的,这就是数据的分布。例如,我们要研究某班52名学生在一项拼写测验上的分数,最基本、最自然的一种想法是把这52名学生的测验成绩按照分数高低依次排列,见表1-1。
从表1-1中,我们固然可以了解到诸如最高分和最低分是多少,所有的分数分布区间多大,不同的分数各自重复出现的次数多少,大多数学生的分数分布在什么区间等等;但这种单间地把所有数据按照高低顺序一一排列加以整理的方法,难以简要地表达一批数据的次数分布,使人阅读后难以达到印象深刻、一目了然的统计效果。特别是对于一批为数众多的数据来讲,这种方法更是不能有效地达到整理数据的目的。为此,我们常从计数角度统计与整理出数据的次数分布。表1-1 某班52名学生拼写测验分数(从高到低依次排列)
59 56 52 50 50 47 46 44 43 43 42 42 40 39 38 38 38 37 37 37 36 36 36 36 35 35 34 34 33 32 32 32 31 31 31 30 30 29 29 28 27 27 27 25 24 22 22 21 21 20 17 17 所谓次数分布,指的是一批数据中各个不同数值所出现次数多少的情况,或者是这批数据在数轴上各个区间内所出现的次数多少的情况。
由于次数分布是对数据分布最简单、最直接的描述,因此,在许多情形下,我们将把数据分布和次数分布看成同义词。从次数分布的操作性定义来看,统计一批数据的次数分布有两种方法:第一种方法是按不同的测量值逐点统计次数。例如表1-2就是根据表1-1的原始数据,从高到低详细地统计不同得分点次数所得到的次数分布表。 在心理测验和教育考试分数转换过程中 (如高考的标准分数转换),常使用这种方法统计次数分布。第二种方法是为了缩简数据,以区间跨度来统计次数,如平时人们常提到的分数段统计,就是这一类。下面介绍这类次数分布表的编制方法。表1-2 某班52名学生拼写测验成绩次数分布
分数 次数 分数 次数 分数 次数 59 1 39 1 29 2 56 1 38 3 28 1 52 1 37 3 27 3 50 2 36 4 25 1 47 1 35 2 24 1 46 1 34 2 22 2 44 1 33 1 21 2 43 2 32 3 20 1 42 2 31 3 17 2 40 1 30 2
二、次数分布表编制
统计学中的次数分布表有简单次数分布表、相对次数分布表、累积次数分布表以及累积相对次数分布表等多种形式。
(一)简单次数分布表
简单次数分布表,通常简称为次数分布表,其实质是反映一批数据在各等距区组内的次数分布结构。 下面以表1-1中的数据为例,简述编制次数分布表的主要步骤。
1.求全距
所谓全距乃是一批数据中最大值与最小值之间的差距。观察全部数据,找出其中的最大值(Xmax)和最小值(Xmin),以符号R表示全距,则全距的计算公式为:
R= Xmax-Xmin (1-1)
故,全距在有的书中也称为两极差。以表1-1中的数据为例,显然这批数据的全距是:
R=59-17=42
2.定组数
定组数就是要确定把整批数据划分为多少个等距的区组。组数用符号K表示,它的大小要看数据的多少而定。一般来说,当一批数据的个数在200个以内时,组数可取8~18组。如果数据来自一个正态的总体,则可利用下述经验公式来确定组数,即:
(1-2)
上述公式中的N为数据个数,就表1-1中的数据而言,N=52,若按公式(1-2)计算后取整,则K=9。
3.定组距
在知道全距R和组数K之后,就可以来确定分组的组距。用符号i 表示,其一般原则是取奇数或5的倍数,如1,3,5,7,9,10等。具体的取值办法,可通过全距R与组数K的比值来取整确定。对于本例来讲,由于R/K=42/9 4.67,故可把组距i确定为整数5。
4.写出组限
组限是每个组的起止点界限,有表述组限和实际组限之区别。在教育与心理统计学文献中,组限的表述方法主要有两种, 如表1-3所示。两种组限表述方法意义不尽相同。表1-3 组限的表述方法及实际区间范围
方法一 方法二 表述组限 区间范围 表述组限 区间范围 30~35 [30,35﹚ 30~34 [29.5,34.5﹚ 25~30 [25,30﹚ 25~29 [24.5,29.5﹚ 20~25 [20,25﹚ 20~24 [19.5,24.5﹚ 15~20 [15,20﹚ 15~19 [14.5,19.5﹚ 10~15 [10,15﹚ 10~14 [9.5,14.5)第一种方法以连续的形态表述组限,每一组实际组限是“左闭右开”的区间范围。如“10~15”和“15~20”这两组,其实际组限是指[10,15)和[15,20)的区间范围。
第二种方法以跳跃的形态表述组限,在相邻组别中形成“缺口”,例如,“10~14”和“15~19”这两组在相邻处不连续,从14跳跃到15时留下的“1”个单位缺口。对于这种表述组限,其实际组限分别是指[9.5,14.5﹚和[14.5,19.5﹚的区间范围 。本课程中的数据分组采用表1-3中的第二种表述方法。
5.求组中值
组中值是各组的组中点在量尺上的数值,其计算公式为:
组中值=(组实上限+组实下限)÷2 (1-3)
例如,在表1-3中第二种组限表述方法下的“15~19”这一组,其实上限为19.5,实下限为14.5,故该组的组中值为
(19.5+14.5)÷2=17。
不同的组距以及不同的组限,必然会产生不同的组中值。如果希望每组的组中值恰好为整数便于后继运算,那么,组距选择为奇数是最好的。
6.归类划记
完成上述各个步骤后,我们就可以设计一个表的格式来记录上述有关结果并对数据进行 归类划记(如表1-4)。具体方法可以类似唱票的方式依次把每个数据准确地划归所属的组别,并以某种记录方式体现在表 1-4的第3栏内,便于计数检查。表1-4 52名学生拼写测验成绩分布统计结果
组别 组中值 划记 次数()
相对次数 累积次数 累积相对次数 累积百分数 (1) (2) (3) (4) (5) (6) (7) (8) 55~59 57 2个数据 2 0.04 52 1.00 100 50~54 52 3个数据 3 0.06 50 0.96 96 45~49 47 2个数据 2 0.04 47 0.90 90 40~44 42 6个数据 6 0.11 45 0.86 86 35~39 37 13个数据 13 0.25 39 0.75 75 30~34 32 11个数据 11 0.21 26 0.50 50 25~29 27 7个数据 7 0.14 15 0.29 29 20~24 22 6个数据 6 0.11 8 0.15 15 15~19 17 2个数据 2 0.04 2 0.04 4 N=52 1.007.登记次数
根据表1~4中第3栏里的划记结果,点计各组的次数,记入表1~4中的第4栏。
当我们把表1-4中的第1栏、第2栏和第4栏拼在一起时,就构成本例所指的“52名学生拼写测验成绩次数分布表”。在这里,我们把更多的内容项目合并在同一张表中(见表1-4),是因为基于这个统计表的内容,我们将更为方便地编制一些其他形式的次数分布表。
(二)相对次数分布表
相对次数就是各组的次数与总次数N之间的比值,若以
表示相对次数,则相对次数的计算公式为:
(1-3)
表1-4中第5栏里的数值就是各组的相对次数。 当我们把表1-4中的第1栏、第2栏和第5栏拼在一起时, 便构成一个相对次数分布表。当我们阅读相对次数分布表时,相对次数(当然是小数)较大的组,则说明落入该组内的数据个数占全部数据个数的比例也较多;反之,则较少。
相对次数分布表与简单次数发布表各有不同的用途,它们既可单独使用,又可联合使用。当我们主要对各组的绝对次数感兴趣时,则可编制简单次数分布表。
例如,在教育发展规划研究中,若我们按年龄段把某个地区的师资队伍进行统计归类,编制成一个次数分布表,那么我们可能会发现位于某些年龄段之间的教师人数出现低谷(即断层现象),也可能从次数分布表的数据中发现,位于某些高年龄段之间的教师将在未来的几年中相继退休,其绝对人数似乎比往年正常年份退休的人数多得多。这些来自次数分布统计结果中的重要信息,将为师资队伍规划工作提出一系列重要的问题。
再如,制定基础教育发展规划以及社会发展规划中,必须对一个时期内的人口按年龄组进行统计 归类并对其发展趋势进行预测 。过去,国内有些人员就从某地区人口按年龄组统计的次数分布表中,发现人口的年龄结构中有“双高峰”现象。人们从人口年龄结构的“双高峰”现象认识到,某些时期的小学入学人数将出现高峰,某些时期的“婚育”将出现高峰等。这些重要的信息,虽来自简单次数分布表的统计结果,但它对于我们搞好基础教育发展规划和社会发展规划,具有非常重大的意义。可见,我们不能小看简单次数分布表的作用。
相对次数分布表主要能反映各组数据的百分比结构,当我们侧重关心各组次数的相对比例结构时,通常要编制相对次数分布表。例如,我们在研究高教自学考试合格率问题时,可能对一些课程的考试成绩按分数段进行统计归类。由于不同的课程和不同的专业其自学考生人数可能相差很大,而研究各分数段里的考生人数简单次数分布意义不大,因些,我们要编制相对次数分布表,以便进行比较研究。当然,在上述所举的例子中,也可以同时考察一批数据的简单次数分布和相对次数分布。
(三)累积次数分布表
假如我们希望通过一个统计表,就能较方便地了解到处于某个数值以下的数据个数有多少时,就可编制一个累积次数分布表。从简单次数分布出发,可以容易地做到这一点。实际上,在表1-4中,只要把第1栏、第2栏、第6栏拼在一起,就构成一个累积次数分布表。例如,从表1-4统计的结果中,我们不难看出测验成绩在49.5分以下的人数有47人,在39.5分以下的人数还有25人,等等。
累积次数分布表还分成“以下”累积次数分布表与“以上”累积次数分布表两种。本例阐述的是 “以下” 累积次数分布表,其目的在于反映位于某个分数“以下”的累积次数共有多少。故在编制“以下”累积次数分布表时,我们是从表1-4中下面最低组往最高组方向依次累积。同样,读者可以想一想如何编制“以上”累积次数分布表,以及为什么要编制“以上”累积次数分布表等问题。
(四)累积相对次数分布表和累积百分数分布表
前面介绍的累积次数分布是对简单次数进行累积的结果。与此相对应的是,还可对相对次数进行累积。如表1-4第7栏里的数值,便可看成是从最低组往最高组的方向依次把有关各组的相对次数进行累加的结果,而把表1-4中的第1栏、第2栏和第7栏拼在一起,就构成一个累积相对次数分布表。由于累积相对次数仍然是小数(但累加到最后一组的结果必然为1);因此把这些小数乘上100,便得到“百分数”,从而可把累积相对次数分布表等价地转换为“累积百分数分布表”。若把表1-4中的第1栏、第2栏和第8栏拼在一起,便编制成了一个累积百分数分布表。
累积相对次数分布和累积百分数分布在心理与教育测量研究中有广泛而又重要的应用。
值得一提的是,累积相对次数分布和累积百分数分布均有“以下”分布和“以上”分布两种,在应用时,应根据具体情况决定选用其中的一种。
三、次数分布表阅读理解
在现代信息社会中,大量的信息往往是用统计资料来反映的。教育工作者要提高综合分析和开发利用统计资料的能力,不仅要懂得如何编制各种次数分布表,而且要提高对各种次数分布表的阅读技能和理解能力。下面结合一个具体例子来说明阅读理解次数分布表的一般要求。
[例1] 某区甲、乙两所中学 的高二学生参加一项语言阅读能力测验,其次数分布统计结果如表1-5所示, 请根据表中数据,逐项回答下列各个问题:
(1)甲校参加测验的学生人数比乙校参加测验的人数多几个人?
[分析解答] 从表1-5最下面的“合计”一行可知, 甲校学生人数为160人,乙校为120人,故甲校比乙校多40人。
(2)在分组归类统计数据中, 甲、乙两校学生测验数据各划分成几组?
[分析解答] 从表1-5第1栏中看,共有8组,但是,由于该表数据是两个次数分布放在同一张表格上,注意到甲校数据在最高分的一组上次数为0,而乙校数据在最低分一组上次数为0,因此,甲乙两校数据实际上各分成7组。表1-5 甲、乙两校学生测验成绩次数分布表
原分数 组中值 次数 相对次数(%) 甲 乙 甲 乙 80~85 82 0 12 0 10.0 75~80 77 9 20 5.6 16.7 70~75 72 12 32 7.5 26.6 65~70 67 32 24 20.0 20.0 60~65 62 48 18 30.0 15.0 55~60 57 27 8 16.9 6.7 50~55 52 20 6 12.5 5.0 45~50 47 12 0 7.5 0 合计 160 120 100.0 100.0(3)在数据分组归类时,各组的实际组限是怎样确定的?各组的组距是多少?
[分析解答] 根据本章前面有关组限表达方面的特别规定,表1-5中各组的表达组限和实际组限是基本一致的,如“70~75”这组的实际下限是70,实际上限是75, 其区间是一个左闭右开的区间,即包含70这个点但不包含75这个点。该但若用代数区间来表示,则为[70,75)。故各组的组距是5。
当然,针对表1-5中的次数分布统计资料, 我们可以提出和了解一些更深入的问题,而要回答和认识这些问题一方面有赖于后续统计学知识的增加,另方面则需基于对次数分布表数据资料的阅读理解。为达到这一目的,主要应掌握如下几个方面:
第一,认清和明确本章对组限表达方法的规定,特别注意表达组限和实际组限在不同表示方式下的关系。
第二,在理解各组组限的内涵之下,能够对各组的简单次数、相对次数、累积次数等数据作出正确的解释。
第三,在两组数据进行比较时,需要留意两组数据的总个数和是否大体相等。在总个数相差较大情况下,一般宜从相对次数的数据出发进行比较。
第四,在有累积次数的统计资料中,阅读过程要注意到这种次数(或相对次数)累积的方向。累积方向不同,其相应数据的解释也有所不同。
总之,通过次数分布表编制方法的了解与实践,通过对上述较规范的次数分布表统计资料的阅读理解,可以提高学习者阅读理解其他各类(包括规范的和非规范的、单项的或综合的)统计表资料的能力。