政光景 梁玉成
(中山大學(xué) 社會(huì)學(xué)與人類學(xué)學(xué)院,廣東 廣州 510275)
辛亥革命以來,中國(guó)社會(huì)經(jīng)歷了劇烈的社會(huì)變遷,對(duì)人口結(jié)構(gòu)與分布形態(tài)構(gòu)成了強(qiáng)烈的影響,最直接的就是對(duì)死亡人口分布形態(tài)的影響。但是,在歷史人口學(xué)領(lǐng)域,雖然對(duì)近代人口變動(dòng)有一些研究分析,但對(duì)20世紀(jì)初中國(guó)人口特征的研究則明顯不足[1]。然而,要想全面深刻了解中國(guó)20世紀(jì)中國(guó)人口變遷狀況,必須結(jié)合建國(guó)前后兩個(gè)不同的時(shí)代同時(shí)進(jìn)行分析[2]。然而,對(duì)這一時(shí)段的人口進(jìn)行分析,其最主要的障礙是缺乏數(shù)據(jù),并且數(shù)據(jù)的缺乏幾乎是絕對(duì)的[3]。而近代中國(guó)流離的社會(huì)形態(tài),也嚴(yán)重影響了人口統(tǒng)計(jì)數(shù)據(jù)的科學(xué)性[4]。
民國(guó)政府雖然在1908-1911年、1928年進(jìn)行過兩次人口普查,但其規(guī)范性和科學(xué)性都存在很大問題。Ho的研究認(rèn)為,1908-1911年人口普查和新中國(guó)早期的人口普查在大多數(shù)地方都是由縣政府和當(dāng)?shù)厥考澾M(jìn)行的,或者說是被操縱的;而1928年的人口普查中,只有16個(gè)省提交了報(bào)告,截至1931年仍有12個(gè)省沒有提交報(bào)告,對(duì)于大多數(shù)省份來說,國(guó)民黨時(shí)期的人口數(shù)字幾乎純粹來自猜測(cè)[5]。米紅等認(rèn)為1912年的人口調(diào)查資料雖然包含了一些資料,但由于出生數(shù)與死亡數(shù)的漏報(bào),使得這些資料嚴(yán)重失真[6]。
與其他人口統(tǒng)計(jì)資料相比,死亡人口數(shù)據(jù)的缺失和低質(zhì)量問題則顯得更為嚴(yán)重[7-8]。民國(guó)時(shí)期的中國(guó)人口死亡率記錄來源于本就質(zhì)量不高的普查、人口登記和民間的一些抽樣調(diào)查,這些數(shù)據(jù)質(zhì)量不一,也不具備全國(guó)代表性[9]。 中華人民共和國(guó)建立后,從1954年開始對(duì)死亡人數(shù)做過統(tǒng)計(jì),但對(duì)死亡率的深入研究不夠:一是對(duì)死亡人口年齡調(diào)查的次數(shù)太少; 二是調(diào)查的范圍只在局部地區(qū)[10]。長(zhǎng)期以來,中國(guó)未建立完善的生命統(tǒng)計(jì)制度,以致分年齡死亡率資料很不健全[11]。新中國(guó)用于決策和績(jī)效評(píng)估的死因數(shù)據(jù)主要來自基于抽樣的死亡率監(jiān)測(cè)系統(tǒng),包括中國(guó)疾病預(yù)防控制中心(CDC)的全國(guó)代表性疾病監(jiān)測(cè)點(diǎn)系統(tǒng)和中國(guó)衛(wèi)生部的人口動(dòng)態(tài)登記系統(tǒng),而前者直到1978年才建立,后者雖然在1950年代得以應(yīng)用,但只收集了13個(gè)城市的死亡率數(shù)據(jù)[12]。在1980年代前,中國(guó)官方的年度死亡率都是從公安登記系統(tǒng)中得出的,然而,由于登記的死亡人數(shù)沒有按年齡、性別或死因報(bào)告,因此該系統(tǒng)唯一可用的死亡率統(tǒng)計(jì)數(shù)據(jù)是粗死亡率[13]。
總的來看,20世紀(jì)上半頁中國(guó)社會(huì)的動(dòng)蕩,外加統(tǒng)計(jì)制度與統(tǒng)計(jì)體系的長(zhǎng)期不完善導(dǎo)致人口統(tǒng)計(jì)數(shù)據(jù)的大量缺失與不完善,而其中死亡人口數(shù)據(jù)的缺失則尤為嚴(yán)重。因此,中國(guó)現(xiàn)代一直缺乏一張百年來的完整的死亡人口歷史分布形態(tài)圖。本研究則試圖通過采用海量的在線逝者紀(jì)念數(shù)據(jù),并對(duì)其進(jìn)行加權(quán)調(diào)整,得到中國(guó)100年來的死亡人口歷史分布形態(tài)。
過往對(duì)解放前中國(guó)死亡人口的研究主要集中在死亡率、嬰幼兒死亡率、死亡規(guī)模、預(yù)期壽命的研究上,并且大部分都是短時(shí)點(diǎn)的、局部的研究。從對(duì)死亡率的研究來看,20世紀(jì)早期中國(guó)總體呈現(xiàn)高死亡率的特征。Janet的研究認(rèn)為在1930年代和1940年代,在沒有霍亂流行的年份,粗死亡率介于18‰到30‰之間,在流行年份,受影響地區(qū)的粗死亡率高達(dá)50‰[14]。Judith依據(jù)1929-31年的農(nóng)村調(diào)查研究了中國(guó)農(nóng)民家庭的死亡人口問題,認(rèn)為1929-31年中國(guó)農(nóng)民家庭的生育率適中,但估計(jì)死亡率非常高,為每千人口41.5人,略高于粗出生率,特別是嬰兒死亡率極高:據(jù)估計(jì),大約30%的嬰兒在第一年死亡[15]。Barclay等學(xué)者認(rèn)為,中國(guó)在二十世紀(jì)早期的死亡率很高,出生時(shí)預(yù)期壽命估計(jì)不到25歲[16]。Clive認(rèn)為在1949年之前的中國(guó),新生兒破傷風(fēng)已導(dǎo)致高達(dá)10%的嬰兒死亡[17]。謝曉博認(rèn)為,在 1900-1943 年,中國(guó)人口出生率維持在 37.0‰,死亡率約為 33.4‰,自然增長(zhǎng)率為3.6‰[18]。
還有部分研究探索了抗日戰(zhàn)爭(zhēng)期間中國(guó)的死亡人口問題。Janet的研究認(rèn)為1937-1949年戰(zhàn)爭(zhēng)期間的總死亡人口估計(jì)超過2500萬[19]。姜濤和卞修躍認(rèn)為在抗日戰(zhàn)爭(zhēng)期間,除國(guó)共兩軍抗戰(zhàn)人員傷亡損失有歷年統(tǒng)計(jì)相對(duì)可靠外,平民傷亡皆都只是初步性的統(tǒng)計(jì)??箲?zhàn)時(shí)期,中國(guó)人口直接死于戰(zhàn)爭(zhēng)者為2062萬,期間的人口損失則超過5000萬[20]。孟國(guó)祥和張慶軍認(rèn)為,八年抗戰(zhàn)中,中國(guó)軍民傷亡總數(shù)為數(shù)2226萬,如果加上“九一八事變”至“七七事變” 期間及日本抓捕勞工等造成的傷亡則遠(yuǎn)不止這個(gè)數(shù)[21]。袁成毅(1999)認(rèn)為,從1931年到1945年中國(guó)最低限度的人口傷亡數(shù)為22828469[22]。總的來看,大部分研究對(duì)抗日戰(zhàn)爭(zhēng)期間直接死亡人口的估計(jì)在2000-2500萬之間,而由于戰(zhàn)爭(zhēng)導(dǎo)致的人口損失數(shù)則沒有一個(gè)確切的研究進(jìn)行驗(yàn)證。
1949年后,中國(guó)的人口死亡形態(tài)則發(fā)生了急劇的變化。在不到十年的時(shí)間里,人口的粗死亡率幾乎減半,這主要得益于戰(zhàn)爭(zhēng)的停止、土地改革、糧食的分配、傳染病的控制和醫(yī)療水平的提高[23]。建國(guó)前后死亡率發(fā)生下降的另一個(gè)主要原因就是傳染病的控制[24-25]。在1949年之前的中國(guó),新生兒破傷風(fēng)已導(dǎo)致高達(dá)10%的嬰兒死亡,但到1981年,這種疾病已是罕見。在1960年至1980年間,中國(guó)人口的總預(yù)期壽命增加了27歲[26]??傮w上,建國(guó)后中國(guó)人口發(fā)展呈現(xiàn)為三個(gè)階段:死亡率下降驅(qū)動(dòng)的人口轉(zhuǎn)型期(1970年之前)、生育率下降驅(qū)動(dòng)的人口轉(zhuǎn)型期(1970-1999年)和后人口轉(zhuǎn)型期(2000年之后)[27]。
對(duì)建國(guó)后的死亡人口的研究主要集中在對(duì)困難時(shí)期的損失人口與死亡人口的估計(jì)上。曹樹基采用了1953、1964和1982年全國(guó)各市縣人口普查數(shù)據(jù)作為分析的基礎(chǔ),通過各地地方志中記載的歷年人口數(shù),計(jì)算出各地災(zāi)前、災(zāi)后的人口增長(zhǎng)速度[28]。 李若建利用公安系統(tǒng)1957 年的大規(guī)模分年齡人口和分年齡死亡人口數(shù)據(jù),建構(gòu)了分年齡人口在1953-1964年間的生存率,并進(jìn)一步計(jì)算出1964年的預(yù)期人口,將其與1964年人口普查時(shí)實(shí)際的分年齡人口進(jìn)行比較,證實(shí)了當(dāng)年確實(shí)有大量的人口損失存在[29]。米紅、賈寧基于改進(jìn)的Lee-Carter 死亡率預(yù)測(cè)模型,以官方統(tǒng)計(jì)的分年齡別死亡率數(shù)據(jù)為基礎(chǔ),重構(gòu)了“三年困難”時(shí)期歷年單歲組死亡率,并逆向估計(jì)在沒有饑荒的情況下,當(dāng)時(shí)正常狀態(tài)下的死亡人口數(shù)量[30]。
總而言之,關(guān)于中國(guó)近現(xiàn)代的死亡人口研究呈現(xiàn)研究結(jié)論與研究方法上的兩個(gè)突出特征。一是具體研究結(jié)論上的階段性、碎片化特征。大部分研究都是基于某一個(gè)特定時(shí)間段的某一個(gè)死亡特征進(jìn)行的分析與研究,缺乏長(zhǎng)時(shí)段的跨歷史時(shí)期的整體死亡人口圖景。二是研究方法上主要是基于不同的官方的人口統(tǒng)計(jì)數(shù)據(jù)相互進(jìn)行推測(cè)與驗(yàn)證。大部分研究都是基于有限的官方統(tǒng)計(jì)數(shù)據(jù)進(jìn)行的,一方面,官方數(shù)據(jù)在這個(gè)時(shí)期本就非常缺乏,另外數(shù)據(jù)質(zhì)量也不高;另一方面,官方數(shù)據(jù)具有較強(qiáng)的政治性,也會(huì)導(dǎo)致其一定程度的失真。
正因?yàn)橹袊?guó)近現(xiàn)代的死亡人口統(tǒng)計(jì)數(shù)據(jù)存在大量缺失與失真問題,研究者需要通過其他調(diào)查數(shù)據(jù)、檔案文獻(xiàn)等等進(jìn)行回溯修正[31]。通過民間的檔案文獻(xiàn)資料進(jìn)行修正的方法的本質(zhì)是根據(jù)老百姓在日常生產(chǎn)生活中產(chǎn)生的真實(shí)的歷史資料去分析宏觀的人口社會(huì)歷史變遷狀況。過往就有一些根據(jù)族譜、墓碑等民間歷史資料進(jìn)行死亡人口歷史分析的研究。如Zhao根據(jù)中國(guó)王姓106卷族譜,研究了1000多年來王姓家族人口的長(zhǎng)期死亡率模式[32]。李凡選擇《遼寧海城尚氏家譜》和《江西宜豐淮康蔡氏族譜》兩部家譜,整理了家譜中的人口數(shù)據(jù),對(duì)清朝時(shí)期的的人口的出生時(shí)間和人口死亡率進(jìn)行了分析[33]。楊林英依據(jù)湖南省鳳凰縣白果村家族墓碑資料,結(jié)合家譜資料,研究了該村百年間的人口結(jié)構(gòu)變遷[34]。
通過民間檔案文獻(xiàn)資料對(duì)統(tǒng)計(jì)數(shù)據(jù)進(jìn)行修正具有幾方面的優(yōu)勢(shì):一是不受統(tǒng)計(jì)制度與統(tǒng)計(jì)技術(shù)的影響,不存在因統(tǒng)計(jì)過程的不完善而導(dǎo)致的偏差;二是受宏觀政治經(jīng)濟(jì)環(huán)境影響相對(duì)較小;三是來源于日常生活實(shí)踐,具有較高的客觀性和真實(shí)性;四是具有大量的細(xì)顆粒度信息,一般能具體到個(gè)人;五是具有較長(zhǎng)的歷史跨度,如族譜等資料可以輕松跨越百年[35]。但民間檔案文獻(xiàn)資料也存在著一定的缺陷與不足:一是區(qū)域性、局部性資料比較多,缺乏具有全國(guó)代表性的資料。如前文列舉的基于族譜和墓碑的研究就是具有非常明顯的局部性特征的;二是統(tǒng)計(jì)資料的信息有限,不如專門的官方統(tǒng)計(jì)資料全面;三是數(shù)據(jù)的產(chǎn)生存在著特定的社會(huì)選擇機(jī)制,可能是有偏誤的。
在網(wǎng)絡(luò)時(shí)代和數(shù)字時(shí)代,人們?yōu)榱思o(jì)念逝世的親朋好友,會(huì)在線上建立逝者紀(jì)念館,以表示對(duì)逝者的哀思和紀(jì)念,這些逝者紀(jì)念資料一般包含了逝者的出生日期、逝世日期、性別、生平簡(jiǎn)介等信息,是很好的用于研究死亡人口的原始資料。線上逝者資料一方面具有傳統(tǒng)的民間統(tǒng)計(jì)檔案資料的優(yōu)勢(shì),另一方面又突破了區(qū)域性的限制,在全國(guó)范圍內(nèi)具有較廣的覆蓋面。因此,線上逝者紀(jì)念數(shù)據(jù)這種具有長(zhǎng)歷史跨度的、連續(xù)的、相對(duì)真實(shí)死亡人口資料為準(zhǔn)確、全面地還原中國(guó)近現(xiàn)代死亡人口分布提供了可能性。
本研究采用的逝者紀(jì)念文本數(shù)據(jù)是采用網(wǎng)絡(luò)爬蟲從多個(gè)中文逝者紀(jì)念網(wǎng)站爬取的數(shù)據(jù),基本涵蓋了所有的中文逝者紀(jì)念網(wǎng)站。不過因?yàn)檫@類數(shù)據(jù)屬于用戶生成性內(nèi)容(user generated content),不可避免的帶有樣本選擇性偏誤的問題,本研究將采用依據(jù)外部死亡人口數(shù)據(jù)校準(zhǔn)加權(quán)的方式來進(jìn)行修正。在將采集的線上逝者數(shù)據(jù)中不帶有對(duì)逝者的生平描述的樣本去除后,最終本研究的樣本量為152662個(gè)。該樣本中還包含有一部分烈士的紀(jì)念數(shù)據(jù),在后面的分析中會(huì)做專門的處理與說明。
在學(xué)術(shù)研究采用的互聯(lián)網(wǎng)數(shù)據(jù)中,一般包括線上概率數(shù)據(jù)和非概率數(shù)據(jù)。前者是概率的招募方法,采用RDD(random-digit dial)或ABS(address-based sample )數(shù)據(jù)框;后者則是互聯(lián)網(wǎng)用戶主動(dòng)進(jìn)入這類數(shù)據(jù)中,他們沒有已知的選擇概率,因?yàn)樗麄兪窃凇盎ヂ?lián)網(wǎng)上的人”的池中自我選擇的人,這使得沒有互聯(lián)網(wǎng)接入的人群被排除在外[36]。UGC數(shù)據(jù)是典型的互聯(lián)網(wǎng)非概率數(shù)據(jù),因此有必要對(duì)本研究收集的線上逝者數(shù)據(jù)與真實(shí)的死亡人口統(tǒng)計(jì)數(shù)據(jù)進(jìn)行對(duì)比分析。從理論意義方面來看,對(duì)比分析可以用來明確具有哪些屬性的逝者群體更可能被其他人進(jìn)行線上紀(jì)念;從方法意義方面來看,這種對(duì)比分析能為數(shù)據(jù)選擇性偏誤糾偏和加權(quán)提供依據(jù)。
因?yàn)樵摼€上逝者數(shù)據(jù)包含了不同時(shí)代逝世的逝者數(shù)據(jù),因此本研究收集到了1929-1931、1945-1949、1953、1964、1981、1989、2000、2010和2019年的統(tǒng)計(jì)或估計(jì)數(shù)據(jù)來與同時(shí)代的線上逝者數(shù)據(jù)進(jìn)行比對(duì)分析。其中,1929-1931和1945-1949死亡人口分年齡、性別統(tǒng)計(jì)數(shù)據(jù)來自《中國(guó)人口史(第六卷)》[37];1953年死亡人口分年齡、性別統(tǒng)計(jì)數(shù)據(jù)來自翟振武研究的估計(jì)[38];1964年死亡人口分年齡、性別統(tǒng)計(jì)數(shù)據(jù)來自 Banister和Hill研究的估計(jì)數(shù)據(jù)[39],其他年份數(shù)據(jù)均來自《中國(guó)人口(與就業(yè))統(tǒng)計(jì)年鑒》。
為了與上述外部統(tǒng)計(jì)數(shù)據(jù)(S)進(jìn)行對(duì)比,本研究將線上逝者數(shù)據(jù)(s)的逝世年份劃分為1911—1940年、1940年代、1950年代、1960年代、1970年代、1980年代、1990年代、2000年代和2010年代,并分別與上述統(tǒng)計(jì)數(shù)據(jù)的分年齡性別死亡人口統(tǒng)計(jì)數(shù)據(jù)進(jìn)行比對(duì)分析。為了能更好的分析哪些分性別年齡段的死亡人口更可能被線上紀(jì)念。本研究設(shè)計(jì)一個(gè)樣本-總體比例比(ratio)的自然對(duì)數(shù)指標(biāo)()對(duì)其進(jìn)行分析,其中分子Rs表示線上逝者數(shù)據(jù)某年齡段人口比例,分母Rs表示外部數(shù)據(jù)中某相應(yīng)年齡段死亡人口比例。若Y>0,則表示該年齡段死亡人口更可能被線上紀(jì)念;Y<0,則表示該年齡段死亡人口更不可能被線上紀(jì)念,Y越大,則該年齡段死亡人口被線上紀(jì)念的可能性越大。
分年齡段死亡人口被線上紀(jì)念概率分布如圖1所示,樣本-總體ratio對(duì)數(shù)越高,表示該年齡段死亡人口更可能被線上紀(jì)念。從年齡的分布來看,大部分年代的分布呈現(xiàn)“倒U型”,中青年人逝者被線上紀(jì)念的概率最大,并且中年以后,年齡越大,被線上紀(jì)念的可能性越小。從年代的差異來看,隨著時(shí)代發(fā)展,少年兒童逝者被線上紀(jì)念的可能性越來越大。從1980年代到2010年代,時(shí)間越靠后,中老年死亡人口有可能被線上紀(jì)念轉(zhuǎn)變?yōu)椴豢赡鼙痪€上紀(jì)念的年齡拐點(diǎn)越小(1980年代、1990年代為65歲;2000年代為55歲;2010年代為50歲)。從性別差異來看,在大部分年代,女性被線上紀(jì)念的可能性要高于男性。并且隨著時(shí)代的發(fā)展,女性高于男性概率的年齡段越來越多。
圖1 不同時(shí)代死亡人口分年齡、性別被線上紀(jì)念概率分布
因線上數(shù)據(jù)存在選擇性偏誤,因此應(yīng)該對(duì)該數(shù)據(jù)進(jìn)行校準(zhǔn)加權(quán),校準(zhǔn)加權(quán)提供了一種系統(tǒng)的方法來比較兩個(gè)樣本之間的不同,并根據(jù)輔助信息進(jìn)行加權(quán)調(diào)整,以提高調(diào)查估計(jì)的準(zhǔn)確性[40]。本研究采用的方法是根據(jù)具有總體代表性的外部統(tǒng)計(jì)數(shù)據(jù)對(duì)線上逝者數(shù)據(jù)進(jìn)行加權(quán)校正,以減少無響應(yīng)和覆蓋誤差[41-43]。校準(zhǔn)加權(quán)的輔助數(shù)據(jù)來源可以多樣,也可以是總體匯總數(shù)據(jù)或個(gè)人層次的數(shù)據(jù)[44]。校準(zhǔn)加權(quán)的主要思路是利外部的數(shù)據(jù),通過調(diào)整權(quán)重的方式,使被加權(quán)調(diào)整的數(shù)據(jù)的分布符合外部數(shù)據(jù)的分布[45-46]。與其他降低覆蓋和響應(yīng)誤差的方法相比,校準(zhǔn)加權(quán)的一個(gè)優(yōu)點(diǎn)是其不需要對(duì)數(shù)據(jù)或建模進(jìn)行假設(shè)[47]。
校準(zhǔn)加權(quán)的第一步是分不同時(shí)代,按各個(gè)時(shí)代的分年齡、性別死亡人口聯(lián)合分布概率對(duì)不同時(shí)代的線上逝者數(shù)據(jù)進(jìn)行加權(quán)。因該線上逝者數(shù)據(jù)包含了長(zhǎng)期的跨歷史時(shí)期的逝者數(shù)據(jù),每個(gè)時(shí)代的死亡人口分布有很大差異,因此應(yīng)該區(qū)分不同時(shí)代分別進(jìn)行加權(quán)調(diào)整。因此本研究將1929-1931、1945-1949、1953、1964、1981、1989、2000、2010和 2019年的統(tǒng)計(jì)或估計(jì)數(shù)據(jù)作為校準(zhǔn)加權(quán)的外部數(shù)據(jù)。將以上數(shù)據(jù)分別轉(zhuǎn)換為分年齡、性別死亡人口比例后可得到表1。
表1 1910年以來9個(gè)時(shí)期分年齡、性別死亡人口分布比例
在獲得9個(gè)時(shí)期的分年齡、性別死亡人口分布比例后,本研究將線上逝者數(shù)據(jù)的逝世年份劃分為1911-1940年、1940年代、1950年代、1960年代、1970年代、1980年代、1990年代、2000年代和2010年代共9個(gè)子樣本,并分別將以上9個(gè)子樣本依據(jù)上述9個(gè)時(shí)期的外部統(tǒng)計(jì)數(shù)據(jù)的分年齡、性別死亡人口統(tǒng)計(jì)數(shù)據(jù)進(jìn)行校準(zhǔn)加權(quán)。具體的加權(quán)算法采用的是Deming和Stephan 提出的迭代比例擬合算法,其基本思路是逐步調(diào)整調(diào)查抽樣權(quán)重,以達(dá)到已知的人口特征的邊際分布(例如性別、教育、年齡等)。直到給定變量的邊際分布與樣本數(shù)據(jù)的分布小于一個(gè)閾值或迭代次數(shù)足夠時(shí),以上調(diào)整過程才會(huì)停止[48]。
續(xù)表1 1910年以來9個(gè)時(shí)期分年齡、性別死亡人口分布比例
在第一步加權(quán)調(diào)整的基礎(chǔ)上,第二步是分不同時(shí)代的死亡人口規(guī)模對(duì)過去百年的線上逝者數(shù)據(jù)進(jìn)行校準(zhǔn)加權(quán)。在1949年前,中國(guó)沒有一個(gè)相對(duì)準(zhǔn)確的死亡人口數(shù)字。根據(jù)Fang的研究,中國(guó)在1919年的人口為5.28億,1925年的人口為4.85億[49],1935年的人口為4.42億,這三個(gè)年份的人口均值為4.85億,正好是1925年的人口,因此本研究利用1925年的4.85億人口作為推算1911-1940年死亡人口的依據(jù)。Fang認(rèn)為在1949年前,中國(guó)的人口死亡率在25-33%間[50],因此本研究使用25‰與33‰的中位值29‰計(jì)算得到1925年的死亡人口為15312000。因1925年處于1911-1940的中間點(diǎn),本研究將15312000乘以30得到了1910年代-1930年代的死亡人口總數(shù)為421950000。根據(jù)Fang的研究,1944年的中國(guó)人口為4.25億,依據(jù)同樣的29‰死亡率水平,1944年的死亡人口為12325000[51]。本研究用其代表1940年代的死亡人口均值,將其乘以10得到的死亡人口為123250000。1949年以后各個(gè)時(shí)代的死亡人口數(shù),均根據(jù)The World Factbook提供的各年份實(shí)際死亡數(shù)加總獲得[52]。因此,可以得到以下1910年以來9個(gè)時(shí)代的死亡人口規(guī)模及比例統(tǒng)計(jì)表。基于各個(gè)時(shí)代的死亡人口規(guī)模比例,依據(jù)迭代比例擬合算法進(jìn)行第二階段校準(zhǔn)加權(quán)即可得到最終的具有全國(guó)代表性的長(zhǎng)時(shí)期死亡人口歷史數(shù)據(jù)。
表2 1910年以來9個(gè)時(shí)代的死亡人口規(guī)模及比例統(tǒng)計(jì)
在進(jìn)行校準(zhǔn)加權(quán)后,本研究通過繪制加權(quán)前后的線上被紀(jì)念逝者的人口金字塔圖可以有效對(duì)比哪些性別年齡階段的死亡人口被進(jìn)行了怎樣的調(diào)整。由圖2可見,5歲以下和60歲以上的逝者比例被明顯調(diào)高了。10-50歲的逝者比例被調(diào)低了,尤其是20-40歲的逝者比例被明顯調(diào)低了。
圖2 加權(quán)-未加權(quán)線上被紀(jì)念逝者的人口金字塔對(duì)比
從逝世年的分布來看(見圖3),加權(quán)調(diào)整后的逝世年分布與未加權(quán)的分布密度有著完全不同的分布。加權(quán)后的分布體現(xiàn)了過去110年(1911年以來)中國(guó)的死亡人口分布情況,其中在解放前出現(xiàn)了兩個(gè)死亡人口高峰,一個(gè)就是抗日戰(zhàn)爭(zhēng)時(shí)期的1937-1940年左右,第二個(gè)高峰是1949年左右的解放戰(zhàn)爭(zhēng)時(shí)期。其他年份的死亡人口大體平穩(wěn),除了在2010年附近受線上紀(jì)念高峰(未加權(quán)數(shù)據(jù)中死亡人口集中在該年份)的影響,導(dǎo)致死亡人口略微偏高。
圖3 加權(quán)-未加權(quán)線上被紀(jì)念逝者的密度分布對(duì)比
通過與未加權(quán)線上紀(jì)念逝者數(shù)據(jù)對(duì)比,可以發(fā)現(xiàn),1949年解放戰(zhàn)爭(zhēng)的線上紀(jì)念密度分布要高于實(shí)際死亡人口的密度分布。因此,通過排除烈士和不排除烈士的加權(quán)密度分布對(duì)比可以發(fā)現(xiàn)(見圖4),不排除烈士的死亡人口分布導(dǎo)致1949年解放戰(zhàn)爭(zhēng)期間的密度增高很多,而抗日戰(zhàn)爭(zhēng)時(shí)期則僅有少部分增加。這一定程度反應(yīng)了社會(huì)對(duì)解放戰(zhàn)爭(zhēng)烈士的線上紀(jì)念概率要高于對(duì)抗日戰(zhàn)爭(zhēng)烈士的線上紀(jì)念概率。
圖4 加權(quán)調(diào)整后線上被紀(jì)念逝者排除烈士樣本前后密度分布對(duì)比
從不同性別的死亡人口分布形態(tài)來看(見圖5,圖6:因1910年代缺失量較多,圖中略去該年代的男性比),在1935-1945的抗日戰(zhàn)爭(zhēng)期間,男性死亡人口明顯高于女性,這符合戰(zhàn)爭(zhēng)會(huì)導(dǎo)致男性大量死亡的普遍規(guī)律。在1960-1965年,男性的死亡人口也要高于女性,這說明災(zāi)害也會(huì)更多地導(dǎo)致男性死亡。從改革開放后,男性死亡比例一直保持上升的趨勢(shì)。在2015年后,男性死亡人口明顯高于女性。在從1950至改革開放前的時(shí)段,女性死亡人口多數(shù)時(shí)候要明顯高于男性。
圖5 加權(quán)調(diào)整后線上被紀(jì)念逝者(排除烈士樣本后)的分性別密度分布對(duì)比
圖6 加權(quán)調(diào)整后線上被紀(jì)念逝者(排除烈士樣本后)的男性比例分布
從不同年齡段的死亡人口對(duì)比來看,理論上一個(gè)合理的死亡人口分年齡分布模式應(yīng)該是老年人最高,青壯年人口次之,青少年及兒童人口最低。青少年及兒童死亡人口較高,往往是由于營(yíng)養(yǎng)衛(wèi)生條件較差導(dǎo)致,最能反應(yīng)死亡人口的結(jié)構(gòu)是否合理。從過去一個(gè)多世紀(jì)的變化來看(見圖7),解放前青少年及兒童死亡人口占比始終處于高位,建國(guó)后有一個(gè)明顯的下降趨勢(shì)。另一個(gè)明顯的下降趨勢(shì)是從1980年改革開放之后。青壯年的死亡往往是由于戰(zhàn)爭(zhēng)或社會(huì)劇烈變遷引起的。在抗日戰(zhàn)爭(zhēng)期間,青壯年的死亡人口確實(shí)最高,在改革開放后的20年內(nèi),因?yàn)樯鐣?huì)劇烈變遷,青壯年死亡人口比例也較高。從2005年后,中國(guó)人口的死亡模式開始回歸正常狀態(tài)。
圖7 加權(quán)調(diào)整后線上被紀(jì)念逝者(排除烈士樣本后)的分年齡段密度分布對(duì)比
從過去百年的死亡人口壽命來看(見圖8),1930-1950年間,死亡人口平均壽命在40歲左右,處于過去一個(gè)世紀(jì)的最低位。這段時(shí)間的低死亡人口平均壽命顯然與戰(zhàn)亂、疾病、低生活水平、較差的衛(wèi)生條件緊密相關(guān)。建國(guó)后,死亡人口壽命有一個(gè)明顯的增加趨勢(shì)。而在2000年-2005間逝世的人口有一個(gè)短暫的壽命下降的趨勢(shì),隨后在2010年后,死亡人口壽命有一個(gè)急劇的上升。
圖8 加權(quán)調(diào)整后線上被紀(jì)念逝者(排除烈士樣本后)的壽命分布對(duì)比
總體來看,本研究以線上逝者紀(jì)念數(shù)據(jù)為基礎(chǔ),采用外部的具有全國(guó)代表性的總體死亡人口數(shù)據(jù)對(duì)其進(jìn)行加權(quán)調(diào)整,使得近現(xiàn)代中國(guó)死亡人口歷史分布形態(tài)既具有長(zhǎng)歷史跨度的連續(xù)性,又能突破局部性限制,具有全國(guó)的代表性。所以,從理論上看,本研究得到了中國(guó)近現(xiàn)代歷史上第一張完整的、連續(xù)的、具有全國(guó)代表性的死亡人口歷史分布形態(tài)圖,并能基于此得到詳細(xì)的死亡人口的性別分布形態(tài)和壽命分布形態(tài)。這也是本研究相比于以往的歷史人口學(xué)關(guān)于中國(guó)近現(xiàn)代死亡人口研究最大的貢獻(xiàn)所在。具體來看,通過該分布圖能較為完整地恢復(fù)抗日戰(zhàn)爭(zhēng)期間的死亡人口分布,能看到中國(guó)近現(xiàn)代的死亡人口分布形態(tài)具有明顯的階段性特征,其大致可以分為解放前的高死亡率階段、解放后到改革開放前的死亡模式調(diào)整動(dòng)蕩階段、改革開放后至2005年間的轉(zhuǎn)型階段和2005年后的穩(wěn)定階段這樣一種“四階段”的中國(guó)近現(xiàn)代死亡人口階段模式。從研究資料的使用和方法論上來看,在歷史人口學(xué)領(lǐng)域,本研究依據(jù)外部數(shù)據(jù)對(duì)海量大數(shù)據(jù)進(jìn)行校準(zhǔn)加權(quán)的方法也具有一定的開創(chuàng)性(尤其在當(dāng)前采用大數(shù)據(jù)方法進(jìn)行人口學(xué)研究還比較少的情況下),可以作為人口學(xué)研究的一種方法思路上的借鑒。
當(dāng)然,本研究也存在一定的局限性。如加權(quán)調(diào)整使用的外部數(shù)據(jù)資料的可靠性本研究并未進(jìn)行深入驗(yàn)證;用某一個(gè)時(shí)點(diǎn)的死亡人口統(tǒng)計(jì)數(shù)據(jù)去推測(cè)一個(gè)時(shí)間段的數(shù)據(jù)本身也存在一定的誤差;進(jìn)行校準(zhǔn)加權(quán)的變量參數(shù)是有限的等等。另一方面,基于本研究的方法和結(jié)論,也還可以進(jìn)行更多的后續(xù)的人口學(xué)的研究,如在人口老齡化趨勢(shì)下的死亡模式預(yù)測(cè)研究、人口死亡模式變遷的社會(huì)經(jīng)濟(jì)動(dòng)力機(jī)制研究等。借本研究的機(jī)會(huì),也呼吁人口學(xué)學(xué)者更多地應(yīng)用大數(shù)據(jù)方法來開展人口學(xué)的研究。