本文运用Fraley 和Raftery 的模型聚类方法,利用2005 年全国1%人口抽样调查数据,对北京、上海、重庆、广州四大城市常住人口收入的阶层不平等进行测量。
首先,利用基尼系数来分析收入总体不平等。四个城市的基尼系数按不平等从高到低排列依次为: 重庆( 0. 456) 、广州( 0. 424) 、北京( 0. 423) 、上海( 0. 391) 。仅从基尼系数来看,各大城市之间的基尼系数非常接近,差异并不大。然而,这样的分析完全忽略了分层这一问题。
用MCLUST 软件包进行进一步阶层测量,以北京为例,该模型假设变方差比等方差更加适合大部分可能的群,并且计算出分为三个潜在集群的模型最适合( 图1) ,不确定性图清晰地表明三个不确定的区域。北京三个收入阶层的人数比例分别为55. 87%,36. 76% 和7. 37%。对于上海来说,三个集群的变方差模型最为适合( 图2) 。三个阶层的占比分别为48. 64%、45. 07%和6. 29%。对于重庆来说,三个集群的变方差模型同样最为适合( 图3) ,通过观察不确定图和密度图,可以看出有三个阶层,其容量占比分别为66. 79%、28. 61%和4. 60%。对比发现,北京、上海、重庆虽然都划分为三个收入阶层,但在各个阶层的容量比例上仍存在一定的差异,重庆低收入者的占比更高。对于广州来说,四个集群的变方差模型最为适合( 图4 ) ,四个阶层的占比分别为27. 41%、39. 41%、27. 38%和5. 81%。因此,基于模型的聚类分析为不同城市分层模式上的差异提供了更多的细节。这些细节正是被传统的基尼系数或是其他总体测度或是极化测度方法所忽略的,因为传统方法更着重于“个体不平等”。
四、阶层不平等解释了多少总体不平等?
不平等可以描述为两类,“个体不平等”和“阶层不平等”。前者通过个体间的两两差异来衡量,后者则被设想成样本中存在着阶层或者个体的集群,并且个体之间的绝对差值只能部分地反映阶层之间的差异。那么,阶层不平等到底对总体不平等有多少的解释力度呢? 这里我们遵循Dagum( 1997) 和Mussard,Alperin,Seyte 和Terraza( 2005) 分解方法: 当阶层有序时,通过基尼系数将数据组进一步分解为层间基尼系数和层内基尼系数,测算分层度,并以此作为衡量收入阶层不平等测量方法是否有效的办法。整个基尼计算方法如式( 4) 所示,层内不平等和层间不平等的计算方法如式( 5) 、式( 6) 所示:
其中,nj是j 层或群的大小,K 是估计的层或群的个数,以及:
基于本数列是有序阶层,没有必要考虑转移变量或者重叠分解。一旦不平等的总量被分配到个人( 层内) 和组( 层间) 的成分中,一个相对分层指数可以被简单地计算为:
当所有的不平等都是个体不平等,没有分层,该值为0; 当所有不平等都为阶层不平等,而各层内数值无差异,则该值为1。这个度量法是相对的,它把阶层不平等表示为占基尼系数不平等总量的比例。
表2 中呈现了四列数据,分别是基尼系数,层内基尼系数和层间基尼系数,以及相对分层的指数。我们发现,这四个城市的相对分层指数都在0. 8 以上,也就是说基尼系数大部分被层间的成分所解释,即阶层不平等在整个不平等总量中占到了很大的比例。再以城市间的比较来看,北京和广州通过基尼系数测量有近乎相同的不平等总量,但是广州有更高的层间不平等量,层间基尼系数为0. 389,北京则为0. 361,因此从阶层分化的角度来看,广州的收入分化高于北京,而不是总体基尼系数中所表现出的几乎相同。重庆也是如此,重庆的基尼系数位居四城市之首,但重庆的层间基尼系数为0. 381,低于广州的0. 389,因此从阶层的角度来说,广州的收入分化仍旧更为严重些。
所以,基于分层聚类模型的收入阶层测量方法,有助于我们了解收入的阶层集群分布模式,且这种集群模式并不是事先选择集群分类的原则或是确定群的数量,它不受人为的主观判断而干扰了数据集群的准确度,能把最准确的分层信息刻画出来。从这点来说,它更优于传统总体不平等测量方法和极化测量的方法。