【内容摘要】目前收入差距的测量方法都对阶层不平等与阶层划分的描述缺乏敏感性。本文提出了基于模型的潜在分层聚类方法去突破传统测量方法的局限。利用中国2005 年1%人口抽样调查数据,对北京、上海、重庆、广州四个特大城市的收入数据进行实证分析。根据模型聚类的结果考察四大城市收入的阶层分布模式、每个阶层的占比,发现四城市间的总体收入不平等差异虽不大,但聚类模型法所得到的这些城市间的收入分层结构却存在着显著差异。最后指出模型聚类的阶层测量方法不是事先选择集群分类的原则或是确定群的数量,它还原了数据的真实性,是对现有收入差距测量方法的一个很好的补充,并对研究社会分层有着更深远的意义。
【关键词】 收入;阶层;不平等;聚类模型
【中图分类号】 F162. 2 【文献标识码】A 【文章编号】1005 - 1309( 2013) 05 - 0054 - 009
改革开放以来,中国在收获经济高速增长的同时,收入差距也不断扩大并愈演愈烈。作为一个发展中大国,警惕收入分化的巨大负面影响,已然成为政府、学者、民众共同关注的问题。因此合理有效地测度收入差距,尤其是测度收入不平等的阶层分化,可以为更好地调节收入差距提供有力的技术支撑。
一、研究背景
分析国内外文献,在收入差距的实际测度中,大体分为两类路径,一是收入总体不平等的测度,另一类是收入分布的极化测度。在收入总体不平等的实际测度过程中,最常用的有变异系数、基尼系数和广义熵指数( 一般熵指数) 三种指标。变异系数,又称离散系数,是统计学上用来度量总体分布的变异状况或离散程度的相对指标,它是一组数据的标准差与均值之比。基尼系数是研究社会和经济不平等领域中使用最为广泛的指标,它为收入不平等度量提供了较为易懂的两种解释: 一是与基尼平均差一致,表征的收入不平等由个体两两之间的收入差距度量得到,符合人们度量收入不平等的直觉; 二是与洛伦茨曲线紧密联系,借助于洛伦兹曲线,基尼系数能够通过图形得到直观的理解。广义熵指数是一般化的平均信息量族,而泰尔指数只是其特殊的形式( Guo,2011) 。
我们由一个简单的模拟分布开始,用yi来指定一种随机分配( 例如收入) ,包括6 个yi数据( i= 1…6) 。假设有如下的初始分布:
分布1: [1000,1000, 1000, 4000, 4000, 4000]
这些数值只是简单的收入分布。这列分布的基尼系数为0. 3000,广义熵为0. 205,泰尔熵为0. 193,变异系数为0. 657。同时,只要自然的不平等仍然保持不变,系数的值将不受样本大小的影响。即,重复很多次1000 和4000 会得到一个相同的基尼系数、广义熵、泰尔熵等,也就是0. 30000。
分布2: [1000,2500, 4000, 5500, 7000, 8500]
基尼系数为0. 30702,广义熵为0. 180,泰尔熵为0. 162,变异系数为0. 591。在分布2 中,每个观察值相比前一个都增加了1500,没有显示出清晰的阶层形成模式而仅仅是规模上的一个平均分布。这个分布可以被视为所有的值归为一个阶层或者归属于六个独立的阶层。
分布3: [1000,1000, 3000, 3000, 5000, 5000]
基尼系数为0. 29630,广义熵为0. 176,泰尔熵为0. 162,变异系数为0. 596。在分布3 中,所有数值可以形成三个不同的阶层。
可见,虽然上述三个分布有着几乎相同的基尼系数,分布2 和分布3 有着相同的泰尔熵等,不过,这三个分布中不平等的形式却有着很大的不同。也就是说,传统的收入总体不平等测度方法研究的是样本中单个数据之间两两差距,所以真正影响的是总的个体平均差,而不是这些个体是否会合成一个阶层或是集群。因此这类方法并不能把数据集群的本质还原出来,而数据的集群对于研究社会分层是非常重要的一点。
两极分化也是收入不平等的一种表现形式。如果说上述收入总体不平等指标,其本质上测度的是一群人收入分布的离散程度,它强调的是所有个体与总体均值的平均偏离程度,那么极化测量指标就是描述个体在局部的聚集程度。上世纪七八十年代,以美国为代表的西方国家的居民收入分配出现了“中产阶级萎缩”现象,学者开始将这一现象与两极分化联系起来,并积极探寻两极分化的测度方法。现有的收入两极分化测度方法,基本可以分为两大类,一类方法由Wolfson( 1994) 提出,以后Wang 和Tusi ( 2000) 、Chakravarty 和Majumde ( 2001) 以及Rodriguez 和Salas( 2003) 等进行了拓展,这一类型的测度指数统称为W 型指数。该类指数是以中位数为界限将所有成员分为高收入和低收入两组,分别测算两组中各成员的收入对中位数收入的偏差,最后将所有偏差加总。W 型指数虽然专门用来测度两极分化,但以中位数为界限分为两组并不总是最恰当的。以分布2 为例,W 型指数把前三个值归为一组,后三个值归为一组; 在分布3 中,由于中位数为3000,因此就将前四个值归为一组,后两个值归为一组。可见,这类极化测度方法从研究阶层分化的角度来说,也并不合理。
另一类方法由Esteban 和Ray( 1994) 提出,称为ER 型指数,是在定义认同感( identification) 和疏远感( alienation) 的基础上给出了一个测度方法。认同感是组内人数的增函数,对任何组来说,同组的人数越多,他们的认同感就越强烈; 而疏远感表示由于不同组之间收入不同产生的对抗,一个组与其他组的收入差距越大,疏远感就越强烈。ER 型指数后经Esteban、Grad? n 和Ray( 1999)及Duclos、Esteban 和Ray( 2003) 等改进。该类方法首先按照一定标准对所有成员进行分组,然后测定组与组之间的差异程度以及各个组内成员的相似程度,最后采用一定的形式构造测算指数( 洪, 2007) 。所以,如果说W 型指数是专门测度两极分化的,ER 型指数还可以用来测度多极化,看似有点阶层分化的意味在里面。
但是ER 型指数能准确测度两极/多级分化的前提是正确的分组,它要求我们对所研究现象进行认真细致地分析,选择最相关的分组标志以更好地体现组间的差异性和组内的同质性,或是通过某些外生变量进行分组,比如性别、户籍、民族、不同地区等。洪兴建等( 2007) 用ER 指数、EGR指数等对中国1990 ~ 2005 年城乡收入两极分化、城镇及农村内部的收入两极分化、沿海与内陆的收入两极分化以及行业收入两极分化作了测度,结果表明两极分化程度大多呈现上升趋势。罗楚亮( 2010) 根据DER 指数提出中国居民收入分布具有比较严重的两极分化,城乡合并样本下的极化主要由于城镇内部基尼系数和城乡收入差距所解释。可见,目前的方法依旧只能给出总体判断,没能对收入阶层的具体形式作出描述。
综上所述,目前收入差距的测量方法,都对阶层不平等与阶层划分的描述缺乏敏感性。因此,本文提出了基于模型的潜在分层聚类方法去突破传统测量方法的局限。通过贝叶斯后验模型选择,依据组内差距最小,组间差距最大的原则,将收入进行聚类分组。并使用中国2005 年1%人口抽样调查数据中北京、上海、重庆、广州四个特大城市的收入数据进行实证分析。根据模型聚类的结果考察四大城市收入的阶层分布模式、每个阶层的占比。再借用基尼系数分解为层内和层间的成分,形成一个相对分层指数,用该指数描述收入的阶层不平等占整个收入不平等总量的比重。最后提出基于分层聚类模型的收入不平等的阶层测度方法是对目前收入差距测量方法的一个很好的补充,并对研究社会分层有着更深远的意义。
二、基于模型的阶层聚类分析
聚类分析可以被看作将相似个体群聚起来的一种方式,但是组的数量和形式都是未知的( Kaufman and Rousseuw 1990) 。这一观点传达了分析社会不平等的要点,即研究者想寻找了解分组或社会阶层划分的方式,通过类似收入的属性数据,将个体进行分组,使其组内个体尽可能相似,组间差异尽可能大。而不是事先人为地确定组的数量和组的划分形式。
基于模型的聚类分析方就具有以下优势( Vermunt and Magidson 2002) : ①聚类标准的选择使群内差别最小化,并且使群间的差别最大化,这点相比传统的聚类分析更加客观; ②以模型为基础的聚类是灵活可变的,它允许观测变量以多种简单和复杂的形式分布到聚类中,而不是传统的简单机械分类; ③在基于模型的聚类分析中,观测变量没有必要做缩放,而在传统的聚类分析中缩放是必不可少的。
基于模型的聚类分析同样允许观测变量是连续的或者是分类变量,因为群可以被看作潜在的阶层,因此这个方法可以被视为潜在阶层的分析。本文的着眼点是收入,所以在模型中只考虑连续观测变量,基本的模型聚类分析的公式为:
这里yi代表在一系列观测变量中的一个个体值,K 代表群的个数,πk表示一个事件属于k 群( 或者k 群的大小) 的先验概率,θ 表示模型的参数( Vermunt and Magidson 2002) 。是指当特定集群的混合密度θ 作为模型参数时,yi的分布情况。同样的,我们可以将式( 1) 中的模型表现为下述的相似形式( Fraley and Raftery 2002) :
其中,符合多元正态( 高斯) 分布,参数包括平均值μk和方差矩阵Σk。Banfield 和Raftery( 1993) 提出通过特征值分解来参数化特定集群的协方差矩阵Σk:
Dk为正交矩阵的特征向量,Ak为对角矩阵,其元素与特征值成比例,λk是一个比例的相关标量。更具体地说,,其中d 是数量指标,Ak被按比例变化使。这三个参数提供了一个很好的解释: Dk描述了混合数据中的第k 个集群的方向,Ak是它的形态,λk是它的容量。换句话说,如果一个潜在的类或集群被看作一个在多维空间中的组或点集,那么容量就是集群的大小。这些参数格式的组合确定了相适应的具体统计模型。例如,像收入分布这样的一维数据,只有两个模型可以估计,等方差( equal variance) 用E 表示,变方差( varying variance) 用V 表示。估计群的数量以及群中个体的数量是基于模型的聚类分析方法最为主要的目的。
三、我国部分特大城市的收入阶层不平等分析
在传统聚类分析中,数据分析者必须选择集群方法并且确定群的数量。在基于模型的聚类分析中,这两个问题被归为对于模型的选择。在Fraley 和Raftery( 2002) 的研究中,采用了贝叶斯后验模型选择。在R 软件平台MCLUST 软件包的实际操作过程中,通过贝叶斯信息准则( BIC) 来计算。( Fraley and Raftery 1999, 2002) 。
估计群的数量以及群中个体的数量是基于模型的聚类分析方法最为主要的目的。同时,还能得到密度估计。Roeder 和Wasserman( 1997) 用正态混合模型进行单变量密度估计,用贝叶斯信息准则( BIC) 确定分层数。Fraley 和Raftery( 1999, 2002) 的方法可以被看作是多元扩展,通过最优模型的参数估计描述了数据的多元混合密度。
Fraley 和Raftery( 1999) 用EM 算法编写了运用模型聚类方法的MCLUST 软件包。这个软件同时计算了不确定性。不确定性是通过一个数值来表征,这个数值的计算是由1 减去每个观测值最有可能属于某个组或集群的概率。不确定性的计算可以很好地说明观测值分组的好坏程度。