统计数据分组的原则和方法是什么?
(一)分组标志的选择
分组标志的选取是统计分组的核心问题,分组标志是统计总体分组的标准或依据。选择正确的分组标志是统计分组充分发挥作用的前提。整体单元一旦分组,就突出了分组标志下各个单元的差异,而隐藏了整体单元在其他标志下的差异。所以,同一个人群,因为分组标志不同,可能会得出不同甚至相反的结论。为保证统计分组的科学合理,分组标志的选择必须遵循穷尽、互斥和反映事物本质的原则。
(二)统计分组法
一旦选定分组标记,就需要在分组标记的变化范围内划定相邻组之间的自然边界和数量边界。根据分组标记的不同特征,统计总体可以按质量标记或数量标记分组。
1按质量标志分组。
按质量标志分组是根据对象的属性特征进行分组,分为简单质量分组和复杂质量分组。
(1)简单质量标志分组简单质量分组是指分组标志一旦确定,分组的名称和数量也就确定了,明确了每个单元应该属于哪个组,没有区分组与组之间界限的困难分组。比如人口按性别分男女两组,大家应该分哪一组一目了然。
(2)质量标志分组复杂有些现象按质量标志分组很复杂,如工业部门分类、人口职业分类等。这些复杂问题的分组在统计学上称为分类。统计分类不仅涉及复杂的分组技术,还涉及国家政策和科学理论。为保证各类分类的科学性、统一性和完整性,便于各部门掌握和使用,国家统计局会同有关部门制定了统一的分类目录,并在全国范围内实施。如商品分类目录、工业产品分类目录、工业部门分类目录等。
在统计分类中,反映国民经济结构的基本分类主要包括以下几类。
①经济形态分类,是以生产资料所有制形式为基础的重要经济分类。
②国民经济部门(行业)分类。中国实行部门、大类、中类、小类四级分类体系。
③三个行业分类,以部门(行业)分类为基础。
(4)社会生产部门A和B的分类..根据马克思的再生产原理和产品的主要经济用途进行分类。
⑤产业部门分类。它先把行业分为采掘业和制造业两部分,再分为大类、中类、小类三个层次。
⑤隶属关系的分类。按照企业的业务隶属关系和行政领导进行分类。
⑦区域分类。是按照我国现行的行政区划分类的。
(8)劳动人口的职业分类。它是根据劳动人口所从事的工作性质的身份来分类的。
2按数量符号分组
按数量标记分组,是指选择反映事物数量差异的数量标记,根据其变化范围来区分各组的界限,将整体分成若干个性质不同的成分。
比如,在研究家庭的贫富状况时,按照恩格尔系数(即食品支出占整个家庭消费支出的比重)进行分组,超过60%的家庭被归为贫困家庭;50% ~ 60%是衣食无忧的家庭;40% ~ 50%是小康家庭;不到40%是富裕家庭。
再比如,在中国研究人的成长时,按年龄分组,0-6岁是婴幼儿;7至17岁儿童;18 ~ 59岁为中青年;老年为60周岁以上(含女性55周岁)。
数量标志反映了事物具体内容的数量特征,其概念具体明确。但是,根据数量标志进行分组,并不是简单地确定组与组之间的数量差异,而是通过分组所反映的数量变化来确定现象的不同性质和类型。因此,根据变量值准确划分不同群体的界限并不容易,这就要求在用数量标记进行分组时,首先分析群体中可能存在多少不同性质的组分,然后再研究确定组分之间的数量界限。
根据各单位一定数量标志值的变化特点,有单项分组和组间距分组两种分组方式可供选择。
(1)单项分组单项分组是指按照每个具体变量值对现象总体进行分组。
单项分组一般适用于离散变量,变量值少,变化范围小。当离散变量的取值范围比较大,整个总体中单位较多时,如果采用单项分组,把每个变量值作为一个组,必然导致组数过多,每个组的时间过于分散,不能反映整个总体中各部分的性质和差异,从而失去统计分组的真正意义。对于连续变量,由于其变量值无法枚举,更不用说按单项分组,所以在这些情况下需要采用组间距分组法。
(2)群距分组群距分组是指按照一定范围的变量值对现象人群进行分组。在现象总体的变化范围内,分为若干个区间,每个区间内的所有变量值作为一组,其性质相同,但组间性质不同。与单项分组相比,每组的变量值不是一个具体的点值,而是一个区间。例如,一个城市工人家庭的平均收入分组如表3.2所示。
在变量值变化较大的情况下,一般采用组间距分组。在组距分组中,有组限、组距、组数、组中值等分组要素。
(1)群限群限是用来表示群之间界限的变量值,是决定事物质量的数量界限。其中,每组中变量值最小的为组下限,简称下限;最大变量值为组上限,简称上限。
②组间距是指一组变量值的区间长度,即每组的上限与下限之间的距离。即:组距=上限-下限。
在组距分组中,根据各组的组距是否相等,可分为等距分组和异距分组。组距相等的组称为等距组,组距不相等的组称为不等组距,或不等组距。
③组数组数就是组数。在群体一定的条件下,群体的数量与群体之间的距离密切相关。一般来说,组数与组距成反比,即组数少,组距大;如果组的数量很大,则组之间的距离很小。如果组数过多,组间距离过小,分组后的数据就会庞杂,难以显示整体现象的特征和分布规律;如果组数太少,组间距离太大,可能会失去分组的意义,不能正确反映客观事实。在确定组距和组数时,要注意保证每个组能有足够的单元,组数不宜过多也不宜过少,以充分准确地反映现象的分布特征为宜。
(4)组中位数组中位数是组距的中点值,是各组变量值的代表水平。在重叠组限的分组中,是各组上下限的简单平均;在不重合组限的分组中,是本组下限和后一组下限的简单平均。
在组区间分组中,组区间掩盖了组内分布的各个单元的实际变量值,因此需要用组中位数来表示组的大致水平,这也是组中位数在统计分析中被广泛使用的原因。