频数分布表
1.什么是频数分布表
将一组计量资料按观察值大小分为不同组段,然后将各观察值归纳到各组段中,最后清点各组段的观察值个数(称频数),以表格形式表示之,称为频数分布表又称“频次分布表”,简称“频数表”。
2.频数分布表的用途
1、描述资料的分布特征和分布类型。
频数分布有两个重要特征:集中趋势和离散趋势。大部分观察值向某一数值集中的趋势称为集中趋势,常用平均数指标来表示,各观察值之间大小参差不齐。频数由中央位置向两侧逐渐减少,称离散趋势,是个体差异所致,可用一系列的变异指标来反映。
2、便于进一步计算有关指标或进行统计分析。当数据较多且需手工计算时,常先编制频数表,再进行统计计算。
3、发现特大、特小的可疑值。
如果频数表的一端或两端出现连续几个组段的频数为零后,又出现少数几个特大值或特小值,使人怀疑其是否准确,需进一步检查和核对并做相应处理。
4、据此绘制频数分布图。
3.频数分布表的原则及编制方法
制作频数分布表的两个基本原则:
第一,用来制作频数分布表的原始数据都能出现在该表中;第二,任一个原始数据只能出现在该表的一个组中,不能同时兼属两个组中。
根据第二原则,制作频数分布表时,组与组之间应该有明确的界限,即组限,每组的起点称为组下限,而每组的止点称为组上限。由此可见,对计量资料而言,组限应是闭一开区间,而对计数资料而言,组限应是闭区间。根据第一原则,如果组限是由小到大的顺序排列的,则第一组的下限应小于等于原始数据资料的最小值,最后一组的上限应大于等于原始数据资料的最大值。反之则相反。
频数分布表的编制方法:
例:某市1982年50名7岁男童的身高(cm)资料如下,试编制频数表。
- 114.4117.2122.7124.0114.0110.8118.2116.7118.9118.1
- 123.5118.3120.3116.2114.7119.7114.8119.6113.2120.0
- 119.8116.8119.8122.5119.7120.7114.3122.0117.0122.5
- 119.7124.9126.1120.0124.6120.0121.5114.3124.1117.2
- 120.2120.8126.6121.5126.1117.7124.1128.3121.8118.7
1、找出观察值中的最大值(largest value)、最小值(smallest value),求极差(range)。
极差等于最大值减最小值。本例最大值=128.3,最小值=110.8,则极差=128.3-110.8=17.5(cm )
2、确定分组数和组距(class interval)。
组数的多少是根据例数的多少来确定的,以能够反映出频数分布的特征为原则,一般分10—15组。组距为相邻两组的间隔,组距=极差/组数。本例拟分10组,则组距=17.5/10=1.75≈2,为划记方便,可取稍大或稍小的数(当然本例组距也可取1.5)。
3、确定组段。
第一组段包括要最小值,取较最小值稍小且划分方便的数,本例取“110~”。最后组段包括最大值并写出其上限值。
4、划记。
将各观察值以划“正”字的方法,一笔代表一例,划在相应组段中。例如第一个数l14.4应在组段“114~”处划,第二个数117.2应在“116~”处划,以此类推。
5、统计各组段的频数。全部数据划记完后,清点各组段的人数。
根据编制出的频数表即可了解该数值变量资料的频数分布特征。