文/陳強 劉春雨 郝煜
中華姓氏文化源遠(yuǎn)流長,影響深遠(yuǎn)。隨著幾千年的人口增長,中國的姓氏數(shù)量與姓氏人口也不斷增加,僅徐鐵生編著的《中華姓氏源流大辭典》所收漢姓即高達(dá)10 523個。但中國不同姓氏的人口分布十分不均勻,大量人口集中于少數(shù)的大姓,從而“同姓率”遠(yuǎn)高于歐美國家。就漢族人口而言,2012年前100名的姓氏人口占漢族總?cè)丝诘?7.0%。而法國前100名常見姓氏僅占總?cè)丝诘?.1%,美國前100名常見姓氏僅占總?cè)丝诘?6%。
究竟哪些因素驅(qū)動了中國姓氏人口的巨大差異?為何中國姓氏人口的同姓率遠(yuǎn)高于歐美國家?對于這些問題的解答無疑可增進(jìn)對于中國姓氏文化乃至中國文化與歷史的理解,并揭示東西方差異的來源。本文使用歷史計量方法,首次深入地定量分析中國姓氏人口的典型特征、決定因素與作用機制。
在理論上,影響姓氏人口的因素可分為兩大類,即生育率與采用率。生育率指某姓氏人口本身的增長率,采用率指原來無姓的人采用某姓或改姓。2012年中國最大的幾個姓氏依次為王、李、張、劉、陳等。觀察這幾個姓氏何以成為超級大姓,不難發(fā)現(xiàn)以下幾個特點:首先,它們的起源時間都很早,其中張姓與劉姓起源于三皇五帝時期,王姓與陳姓起源于商朝,而李姓則起源于周朝。姓氏起源越早,則累積生育率越高,人口數(shù)量也會越多。其次,它們中有些建立過中國歷史上的統(tǒng)一政權(quán)(劉漢、李唐),有些則建立過分裂(非統(tǒng)一)政權(quán)(王、張、陳)。一個自然的假設(shè)是,作為國姓的姓氏,占有更多的經(jīng)濟和政治資源,其生育率高于人口平均水平。最后,起源較早的姓氏和作為國姓的姓氏,更有可能被其他姓氏或無姓氏的民眾所采用??傊帐掀鹪摧^早和曾作為國姓都可能對該姓氏的人口有顯著的正向影響。當(dāng)然,姓氏人口可能也受姓氏本身的固有特征所影響,例如,姓氏的復(fù)雜程度(是否復(fù)姓、筆畫)與聲音特性(聲調(diào))。
本文使用2012年中國漢族人口排名前500位的姓氏數(shù)據(jù)(占漢族總?cè)丝诩s99.8%),在大量描述性分析的基礎(chǔ)上,通過深入的回歸分析揭示了中國姓氏人口的典型特征。首先,中國姓氏人口的分布大致服從齊普夫定律,但也有明顯偏差,人口集中于大姓,且集中度高于該定律的預(yù)測。其次,姓氏誕生朝代越久遠(yuǎn),姓氏作為國姓時間越長,則平均而言姓氏人口越多。這些實證結(jié)果通過了一系列穩(wěn)健性檢驗,包括控制姓氏的筆畫、聲調(diào)、是否復(fù)姓,使用子樣本,區(qū)分統(tǒng)一與分裂政權(quán)的國姓,以及針對國姓組與非國姓組進(jìn)行傾向得分匹配。最后,我們發(fā)現(xiàn)姓氏采用率(以姓氏起源數(shù)目與少數(shù)民族姓氏人口為代理變量)與人口遷移率(以姓氏人口的地理集中度為代理變量)是驅(qū)動以上結(jié)果的兩大作用機制。作為對比,歐洲的大部分姓氏歷史只能追溯到中世紀(jì),“國姓”也沒有被大量人口采用,所以姓氏人口的集中度遠(yuǎn)遠(yuǎn)低于中國。
我們從全國公民身份證號碼查詢服務(wù)中心(NCIIC)獲得了2012年漢族人口排名前500位的姓氏人口數(shù)量,記為變量pop;并記相應(yīng)的姓氏人口排名為變量rank。
一般地,姓氏誕生的朝代越久遠(yuǎn),經(jīng)過更多年的繁衍生息,且有更多機會被無姓民眾或他姓民眾改姓時所采用,故姓氏人口通常更多。本文根據(jù)徐鐵生編著的《中華姓氏源流大辭典》將姓氏起源時間劃分為五個時期,分別為夏朝之前(即三皇五帝時期)、夏朝、商朝、周朝、周朝之后,并設(shè)置相應(yīng)的虛擬變量prexia、xia、shang、zhou、postzhou,取值均為0或1。
在中國歷史的長河中,有些姓氏建立過政權(quán),在其統(tǒng)治期間則為“國姓”。國姓的生育率一般更高,而且可能更多人愿意采用國姓。為此,定義虛擬變量royal_dummy。如果該姓曾建立過政權(quán),取值為1;反之,則取值為0。在前500個姓氏中,只有33個姓氏曾作為國姓,占6.6%。
進(jìn)一步,可將中國的歷史政權(quán)分為統(tǒng)一政權(quán)與分裂(非統(tǒng)一)政權(quán)。我們將九個朝代視為統(tǒng)一政權(quán),即秦、漢、晉、隋、唐(含武周)、宋、元、明、清。由于統(tǒng)一政權(quán)的國姓之影響力可能大于分裂政權(quán)的國姓,故定義虛擬變量royal_u_dummy。如果該姓曾建立過統(tǒng)一政權(quán),取值為1;反之,則取值為0。類似地,定義虛擬變量royal_d_dummy。如果該姓曾建立過分裂(非統(tǒng)一)政權(quán),取值為1;反之,則取值為0。
國姓的影響力也可能與其作為國姓的年限有關(guān),故定義變量royal表示該姓氏所建立政權(quán)的存在時間,而定義變量royal_u與royal_d為該姓氏所建立統(tǒng)一政權(quán)與分裂政權(quán)的存在時間。
一個姓氏的復(fù)雜程度也可能影響民眾對該姓氏的采用率。為此,定義虛擬變量compound。如果該姓為復(fù)姓,取值為1;反之,則取值為0。
作為對姓氏復(fù)雜程度的另一度量,我們將姓氏繁體字寫法的筆畫數(shù),記為變量stroke。在計算時,先找出姓氏繁體字的寫法,然后確認(rèn)其筆畫數(shù)。
姓氏的聲音特性也可能影響姓氏人口。我們設(shè)置姓氏聲調(diào)的相應(yīng)虛擬變量tone1(是否為第一聲)、tone2(是否為第二聲)、tone3(是否為第三聲),以及tone4(是否為第四聲)。
1932年,哈佛大學(xué)語言學(xué)家齊普夫在研究英文單詞出現(xiàn)頻率時,發(fā)現(xiàn)如果把單詞出現(xiàn)頻率按由大到小的順序排列,則每個單詞出現(xiàn)的頻率與其頻率排名存在反比關(guān)系,稱為“齊普夫定律”。它表明在英語單詞中,只有極少數(shù)的詞被經(jīng)常使用,而絕大多數(shù)詞很少使用。此定律后來在很多領(lǐng)域得到驗證。為驗證中國姓氏人口是否符合齊普夫定律,我們把lnpop對lnrank進(jìn)行線性回歸,結(jié)果發(fā)現(xiàn)lnrank的系數(shù)估計值為-1.73,且在1%水平上顯著,此回歸的擬合優(yōu)度達(dá)到91.8%。
中國姓氏人口大致服從齊普夫定律,但對于線性擬合線也有明顯偏離。特別地,排名前三的姓氏人口數(shù)量過于接近,其中2012年漢族王姓人口為9 290.23萬(占總?cè)丝?.59%),李姓人口為8 997.9萬(占總?cè)丝?.35%),而張姓人口為8 762.07萬(占總?cè)丝?.16%)。在通常滿足齊普夫定律的數(shù)據(jù)中,第1名的數(shù)量比第2名大很多(甚至多達(dá)2倍),而第1名的數(shù)量也比第3名大很多(甚至多達(dá)3倍)。由此可見,中國姓氏人口的集中度,高于齊普夫定律的一般預(yù)測,導(dǎo)致同姓率較高。
一方面,中國姓氏人口大致服從齊普夫定律,這意味著中國人在選擇姓氏時,也更傾向于首選大姓。在常人印象中,祖?zhèn)鞯男帐纤坪跻怀刹蛔?,很難更改。事實上,在中國歷史上,改姓經(jīng)常發(fā)生,而改姓原因則包括避禍、避仇、避諱、避嫌、帝王賜姓、少數(shù)民族改為漢姓,以及入贅、過繼、收養(yǎng)、隨母親姓等。個體在改姓時,則面臨姓氏選擇問題,此時“吸引力偏好”即可能起作用。例如,帝王賜姓,幾乎都賜予大姓。
另一方面,中國姓氏人口顯然還受到其他特殊因素的影響,比如王朝的國姓。以姓氏人口排名第二的李姓為例,其姓氏誕生于周朝,相對而言并不古老。在所有誕生于周朝的姓氏中,李姓之所以能異軍突起,成為離群的極端值,顯然與近三百年李唐王朝的強盛有關(guān)。類似地,劉姓成為中國的大姓之一,主要應(yīng)歸功于歷史上長達(dá)四百年的劉姓漢朝統(tǒng)治。一個合理的猜想是,由于國姓等特殊因素的影響,使得中國姓氏人口雖大致服從齊普夫定律,但也產(chǎn)生了明顯的偏離。
由于姓氏歷史久遠(yuǎn)度可視為外生變量,故我們首先集中考察姓氏誕生朝代對于姓氏人口的影響。被解釋變量為“姓氏人口對數(shù)”,核心解釋變量為“姓氏誕生朝代”,而控制變量包括“是否復(fù)姓”“姓氏筆畫”,以及“聲調(diào)變量”??紤]到國姓變量可能的內(nèi)生性,故本節(jié)暫時未包括國姓變量。
回歸結(jié)果發(fā)現(xiàn),姓氏誕生朝代的虛擬變量均在1%水平上顯著為正,而回歸系數(shù)則呈現(xiàn)遞減的趨勢。在控制變量中,虛擬變量“是否復(fù)姓”在1%水平上顯著為負(fù),復(fù)姓的人口劣勢很明顯。其他控制變量則均不顯著。在穩(wěn)健性檢驗中,依次去掉不顯著變量,使用排名前250個姓氏的子樣本,所得回歸結(jié)果均類似。
首先考察“國姓年限”對于姓氏人口的作用,在回歸方程增加關(guān)鍵變量“姓氏作為國姓的年限”。若將中國歷史政權(quán)區(qū)分為統(tǒng)一政權(quán)與分裂政權(quán),則可進(jìn)一步將“國姓年限”細(xì)分為“統(tǒng)一國姓年限”與“分裂國姓年限”。
由于人口眾多的大姓在概率意義上也更有機會成為國姓,故可能存在從姓氏人口到國姓的逆向因果關(guān)系,從而導(dǎo)致國姓年限變量為內(nèi)生變量。但究竟哪個姓氏成為一個朝代的國姓,畢竟具有很強的隨機性。另一方面,由國姓所帶來的姓氏人口增長則更為具體而直接,包括皇族的繁衍、帝王賜予功臣國姓、少數(shù)民族改國姓(后融入漢族)等。
回歸結(jié)果發(fā)現(xiàn),“國姓年限”變量僅在10%水平上顯著為正。但去掉“姬姓”的離群觀測值后,“國姓年限”變量變得在1%水平上顯著為正?!靶帐险Q生朝代”變量均在1%水平上顯著為正,且相應(yīng)系數(shù)估計值依次遞減?!皬?fù)姓”變量在1%水平上顯著為負(fù),其余控制變量則不顯著。其次,將“國姓年限”細(xì)分為“統(tǒng)一國姓年限”與“分裂國姓年限”,所得結(jié)果類似。將國姓設(shè)為虛擬變量,所得結(jié)果仍類似。
作為穩(wěn)健性檢驗,也為了部分緩解國姓變量可能的內(nèi)生性,將曾是國姓的樣本作為處理組,而將不是國姓的樣本作為控制組,進(jìn)行傾向得分匹配。
結(jié)果發(fā)現(xiàn),無論使用1對1乃至1對5的傾向得分匹配,參與者平均處理效應(yīng)均在1%水平上顯著為正,且通過了重疊檢驗與平衡性檢驗。
本節(jié)探討國姓以及姓氏誕生朝代對于姓氏人口的作用機制,著重于姓氏采用率與人口遷移率兩個方面。
徐鐵生編著的《中華姓氏源流大辭典》記載了每個姓氏的不同來源。計算每個姓氏有記載的起源數(shù)目,即可得到變量“姓氏起源數(shù)目”。對于一個姓氏而言,除了最早的姓氏起源為原創(chuàng),其他姓氏起源一般可視為“姓氏采用”。因此,姓氏起源數(shù)目可作為姓氏采用率的一個代理變量。
在中國歷史上,少數(shù)民族經(jīng)常采用漢姓。有些少數(shù)民族逐漸融入漢族,但也有些少數(shù)民族依然保持了其獨特的民族身份。因此,可以使用少數(shù)民族的姓氏人口作為姓氏采用率的另一代理變量。
如果一個姓氏的人口主要居住在某個局部區(qū)域(地理集中度較高),則該姓氏人口的增長可能受到該區(qū)域資源的限制,且在戰(zhàn)亂時面臨更高的風(fēng)險。反之,如果一個姓氏更積極地參與跨區(qū)域的人口移民(地理集中度較低),則該姓氏人口更可能開枝散葉,且不易受戰(zhàn)亂沖擊。我們從2005年全國1%人口抽樣調(diào)查數(shù)據(jù)獲得地級市層面的漢族姓氏人口,并通過赫芬達(dá)爾指數(shù),計算每個姓氏的地理集中度變量。
將以上三個機制變量加入回歸分析,結(jié)果發(fā)現(xiàn)國姓變量與姓氏誕生年代變量要么失去統(tǒng)計顯著性,要么經(jīng)濟顯著性大幅下降。這說明在相當(dāng)程度上,國姓變量與姓氏誕生年代變量通過這些機制變量而起作用。
基于本文的研究,對于中國人口集中于少數(shù)大姓而同姓率遠(yuǎn)高于歐美國家的原因,可作一些對比和分析。
首先,由于中國姓氏起源非常早,加上歷史上的王朝更替并沒有造成語言文字甚至文化的斷裂,這使得更古老的姓氏有更多機會被民眾采用,從而成為大姓。中國歷史上的少數(shù)民族,不管是作為征服者還是被征服者,大都放棄了原有的語言文字和姓氏,而采用了漢族的語言文字和姓氏。相比而言,歐洲歷史上的“蠻族入侵”帶來了語言文字甚至文化的斷裂?!靶U族”帶來了新的語言文字和姓氏,而沒有采用原住民的語言文字和姓氏,所以大部分姓氏的歷史只能追溯到中世紀(jì),大姓沒有足夠的時間去積累人口上的優(yōu)勢。
其次,在中國歷史上,作為國姓的姓氏,在綿延數(shù)百年的朝代中得以發(fā)揚光大(譬如劉漢、李唐),使得姓氏人口更為集中。相比而言,“國姓效應(yīng)”在歐洲幾乎不存在。在貴族分封制度下,社會等級森嚴(yán),姓氏作為社會地位和身份的標(biāo)識,其所有權(quán)和使用權(quán)具有排他性。因此,像都鐸(Tudor)、蘭開斯特(Lancaster)、哈布斯堡(Habsburg)這樣的王族姓氏不可能被平民大量采用,而成為大姓的姓氏。而中國的社會流動機制和西方不同,很多國姓家族本身來自平民(比如劉邦、朱元璋),所謂“王侯將相寧有種乎”,也沒有任何制度障礙阻止平民采用國姓。
總之,中國更高的姓氏集中度,可能是歷史上政治穩(wěn)定性高、文化延續(xù)性強、社會流動的制度性障礙少的結(jié)果。