聶淑媛
(洛陽(yáng)師范學(xué)院 數(shù)學(xué)科學(xué)學(xué)院,河南 洛陽(yáng) 471934)
作為世界上著名的統(tǒng)計(jì)學(xué)會(huì)和英國(guó)唯一的專業(yè)統(tǒng)計(jì)學(xué)術(shù)團(tuán)體,英國(guó)皇家統(tǒng)計(jì)學(xué)會(huì)RSS歷來(lái)高度重視基礎(chǔ)理論和創(chuàng)新實(shí)踐的同步發(fā)展,尤其推崇理論方法新穎、技術(shù)水平高超的實(shí)證研究。統(tǒng)計(jì)學(xué)家尤爾(George Udny Yule,1871—1951)1895年即成為皇家統(tǒng)計(jì)學(xué)會(huì)的會(huì)員,自1907年起擔(dān)任學(xué)會(huì)秘書(shū)達(dá)12年之久,并于1924—1926年任學(xué)會(huì)主席,他虔誠(chéng)地參加學(xué)會(huì)會(huì)議,熱衷于學(xué)會(huì)活動(dòng)——論文宣讀后的討論交流。學(xué)會(huì)期刊JRSS是尤爾學(xué)術(shù)交流的主陣地,他一生發(fā)表的80多篇論文中,有30多篇都發(fā)表在JRSS上,因此尤爾的統(tǒng)計(jì)研究受到皇家統(tǒng)計(jì)學(xué)會(huì)的深刻影響。尤爾和學(xué)會(huì)成員社會(huì)統(tǒng)計(jì)學(xué)家吉芬(Robert Giffen,1837—1910)、經(jīng)濟(jì)統(tǒng)計(jì)學(xué)家鮑利(Arthur Lyon Bowley,1869—1957)等,致力于開(kāi)發(fā)利用各類統(tǒng)計(jì)方法去調(diào)查、搜集、分析居民收入和消費(fèi)等經(jīng)濟(jì)數(shù)據(jù),此謂尤爾從事社會(huì)統(tǒng)計(jì)學(xué)研究的根本緣由和學(xué)術(shù)背景。
縱觀尤爾的研究方向,1895年尤爾首次涉足統(tǒng)計(jì)學(xué)領(lǐng)域,起因是社會(huì)學(xué)家、慈善家布斯(Charles James Booth,1840—1916)和慈善組織協(xié)會(huì)秘書(shū)勞池(Charles Stewart Loch,1849—1923)關(guān)于貧窮制度的爭(zhēng)議:1900年,尤爾以天花發(fā)病率和接種疫苗的關(guān)聯(lián)性、高爾頓關(guān)于自然遺傳、達(dá)爾文關(guān)于個(gè)體受精的各種案例以及兒童和成人缺陷的分布等社會(huì)問(wèn)題為研究對(duì)象,解釋了2×2維列聯(lián)表等隨機(jī)分布理論;1906年,尤爾調(diào)查了英國(guó)婚姻率和出生率的變化緣由;1909年前后,尤爾陸續(xù)研究了價(jià)格、貿(mào)易等諸多社會(huì)現(xiàn)象,系統(tǒng)探討了相關(guān)、回歸方法在社會(huì)和經(jīng)濟(jì)統(tǒng)計(jì)學(xué)中的應(yīng)用;1924年,尤爾就職皇家統(tǒng)計(jì)學(xué)會(huì)主席,其演講主題是“以邏輯斯蒂曲線預(yù)測(cè)未來(lái)的人口增長(zhǎng)態(tài)勢(shì)”;1921—1927年,也正是為了探究太陽(yáng)黑子序列的周期,尤爾才提出“偽相關(guān)”和“自回歸”等概念;尤爾晚年利用句子長(zhǎng)度進(jìn)行作者身份識(shí)別研究、利用尤爾圖研究單詞頻率,對(duì)計(jì)量風(fēng)格學(xué)大有啟迪。概言之,尤爾涉足多元回歸和相關(guān)、隨機(jī)分布、人口統(tǒng)計(jì)和時(shí)間序列分析等諸領(lǐng)域,基本上都是基于社會(huì)統(tǒng)計(jì)學(xué)的獨(dú)特視角,是一位真正融理論研究和實(shí)際應(yīng)用為一體的社會(huì)統(tǒng)計(jì)學(xué)家。
二、尤爾利用回歸、相關(guān)等統(tǒng)計(jì)工具實(shí)證研究貧窮問(wèn)題
數(shù)據(jù)的可靠性和真實(shí)性是實(shí)證分析的基礎(chǔ)和前提,與現(xiàn)代實(shí)證研究文獻(xiàn)類似,尤爾在1895—1899年研究貧窮問(wèn)題的6篇論文中,不僅詳細(xì)說(shuō)明了所用數(shù)據(jù)的來(lái)源,而且盡可能列出真實(shí)數(shù)據(jù),明確解釋統(tǒng)計(jì)變量的含義,表1歸納總結(jié)了尤爾研究貧窮問(wèn)題的過(guò)程中,對(duì)所用資料的細(xì)致陳述。
表1 尤爾研究貧窮問(wèn)題中對(duì)原始數(shù)據(jù)的陳述和解釋歸納表
無(wú)論是國(guó)家發(fā)布的最新材料還是借助統(tǒng)計(jì)學(xué)家的第二手資料,尤爾首先檢驗(yàn)數(shù)據(jù)的穩(wěn)定性和異常情況。比如,當(dāng)計(jì)算貧窮率和戶外救助的相關(guān)系數(shù)時(shí),威爾士區(qū)域出現(xiàn)了兩例戶外救助對(duì)戶內(nèi)救助的數(shù)量比高達(dá)100∶1的情形,遠(yuǎn)遠(yuǎn)大于一般案例中二者的比例,尤爾將其視為異常值單獨(dú)進(jìn)行討論,以減小變量相關(guān)表的整體誤差;同時(shí),尤爾特別強(qiáng)調(diào)對(duì)原始數(shù)據(jù)的預(yù)處理,以形成可供實(shí)證分析的數(shù)據(jù)序列。例如,當(dāng)討論65歲以上男性救助人口的百分比時(shí),可用數(shù)據(jù)包括每日數(shù)據(jù)和年度數(shù)據(jù)兩類情形,但前者僅列出了全部窮人的救助信息,于是尤爾根據(jù)65歲以上男性占全部人口的比例,對(duì)每日數(shù)據(jù)序列進(jìn)行轉(zhuǎn)換,再與相應(yīng)的年度數(shù)據(jù)進(jìn)行對(duì)比分析。類似的技術(shù)處理在尤爾的研究中很常見(jiàn),與現(xiàn)代實(shí)證研究中數(shù)據(jù)預(yù)處理的思路和方式高度吻合,確保了數(shù)據(jù)序列的規(guī)范性和完備性。
為探究貧窮率和戶外救助是否相關(guān),尤爾深度剖析了布斯的統(tǒng)計(jì)推斷:根據(jù)工業(yè)特征指標(biāo),布斯將全國(guó)的500個(gè)區(qū)域分成20個(gè)組,每個(gè)組的樣本或者集中于農(nóng)村和農(nóng)業(yè),或者偏重于城市;布斯單獨(dú)分析每個(gè)小組,在組內(nèi)按照整體貧窮率對(duì)區(qū)域進(jìn)行排序,通過(guò)比較排在頂部和底部區(qū)域的平均水平,布斯認(rèn)定貧窮率和戶外救助無(wú)關(guān)。尤爾指出,布斯以兩個(gè)極端情形為研究對(duì)象,樣本分類不具有普遍性和代表性。尤爾重新計(jì)算了布斯表格中頂部和底部一半數(shù)據(jù)的平均值,結(jié)果表明底部的一半有較低的平均貧窮率,也正對(duì)應(yīng)著較低的平均戶外救助比例。為駁斥尤爾,1896年布斯進(jìn)一步細(xì)致分析了自己的分組,對(duì)包含50個(gè)較多農(nóng)村區(qū)域的第1組按照貧窮程度進(jìn)行降序排列,并在同一個(gè)表格中列出了貧窮率和戶外救助比例兩列數(shù)據(jù),顯示二者沒(méi)有對(duì)應(yīng)關(guān)系。對(duì)此,尤爾深入挖掘到:這50個(gè)區(qū)域中,前25個(gè)幾乎完全來(lái)自于南方和西方,后25個(gè)幾乎全部來(lái)自于北方,而前者農(nóng)村勞動(dòng)力的周工資是10~13先令,后者是16~17先令,正是這種巨大的財(cái)富差異掩蓋了管理效果。
正是通過(guò)與布斯的嚴(yán)格辯論和實(shí)證研究,尤爾逐漸認(rèn)識(shí)到分析貧窮率的變化需要考慮“其他因素”,這正是尤爾創(chuàng)建多元相關(guān)、偏相關(guān)的實(shí)踐基礎(chǔ)。尤爾的數(shù)據(jù)分析非常全面、詳盡,對(duì)不同類型的區(qū)域?qū)?yīng)的小組,他分別計(jì)算貧窮和戶外救助的二元相關(guān)系數(shù),利用實(shí)際數(shù)據(jù)詮釋兩個(gè)變量的正相關(guān)性[6]。同時(shí),通過(guò)對(duì)大量案例的剖析,尤爾最終得到下述5類變量是影響貧窮率變化的直接原因:(1)政策或管理方式;(2)經(jīng)濟(jì)狀況(包括工資、交易水平、失業(yè)情況等);(3)社會(huì)或工業(yè)特征(包括人口密度);(4)道德水平(如犯罪、教育程度、非婚生育等);(5)年齡分布,并列出多元回歸方程:
尤爾使用戶外救助變化率、老齡人口變化率、整體人口變化率3個(gè)解釋變量,分別把1871—1881年、1881—1891年的577和580個(gè)區(qū)域的數(shù)據(jù),劃分為農(nóng)村、混合、城市和大主教教區(qū)4塊,估算了各情形下貧窮變化率的多元回歸方程,比較分析了8個(gè)方程中的所有系數(shù),最終證實(shí)管理政策即戶外救助比例是影響貧窮率的核心要素。
三、尤爾創(chuàng)建時(shí)間序列模型源于對(duì)太陽(yáng)黑子周期的研究
時(shí)間序列分析包括時(shí)域分析和頻域分析兩大類,早期重點(diǎn)關(guān)注平穩(wěn)時(shí)間序列的自相關(guān)和隨機(jī)序列的周期問(wèn)題,任務(wù)之一是探尋隱周期和顯周期的準(zhǔn)確結(jié)合,在幾乎同步進(jìn)行的兩條主線中,尤爾都是核心人物。
不帶殼烘焙種籽衣的制備:將松籽去殼,在130 ℃條件下烘焙,取出冷卻至室溫。手工從松仁表面剝離種籽衣,密封,避光保存?zhèn)溆谩?/p>
第一條線索的研究思路是,在處理社會(huì)數(shù)據(jù)和經(jīng)濟(jì)序列時(shí),尤爾等統(tǒng)計(jì)學(xué)家經(jīng)常會(huì)得到一些奇怪的相關(guān)——根據(jù)一般的統(tǒng)計(jì)檢驗(yàn),兩個(gè)變量是高度相關(guān)的,但實(shí)際上完全不符合邏輯關(guān)系,尤爾稱之為“偽相關(guān)”或無(wú)意義相關(guān)?;趯?duì)該問(wèn)題的困惑,1921年尤爾立足于對(duì)變量差分相關(guān)方法的討論,闡述時(shí)間相關(guān)的含義。1926年以在英國(guó)國(guó)教會(huì)結(jié)婚的人數(shù)占全部結(jié)婚人數(shù)的比例與每千人標(biāo)準(zhǔn)死亡率之間的相關(guān)關(guān)系為例,尤爾進(jìn)一步探究無(wú)意義相關(guān)的本質(zhì),并對(duì)時(shí)間序列進(jìn)行分類。通過(guò)實(shí)證分析著名的貝弗里奇小麥價(jià)格指數(shù)序列和格林威治降雨量序列,尤爾證實(shí):正是第三類序列——序列自身和一階差分都是正相關(guān)但二階差分是隨機(jī)序列,特別容易產(chǎn)生虛假相關(guān)。至此,尤爾斷言:不是所有的時(shí)間序列都可以看作是時(shí)間的函數(shù),與其滯后變量相關(guān)的經(jīng)濟(jì)時(shí)間序列是大量存在的,“回歸”概念拓展到序列的“自回歸”是精確反映變量關(guān)系的客觀需求[7-8]。1927年尤爾運(yùn)用序列相關(guān)和自回歸的創(chuàng)新技術(shù),以受擾動(dòng)的單擺運(yùn)動(dòng)類比于太陽(yáng)黑子序列,證明振蕩時(shí)間序列的周期ux與其滯后項(xiàng)ux-1、ux-2滿足關(guān)系式[9]:
ux=(2-μ)ux-1-ux-2+ε
其中μ為常數(shù),ε是擾動(dòng)項(xiàng)。
需要說(shuō)明,這是平穩(wěn)時(shí)間序列線性自回歸的第一個(gè)完整公式,是被奉為現(xiàn)代時(shí)間序列分析基礎(chǔ)與起源的經(jīng)典AR(2)模型。更值得強(qiáng)調(diào)的是,1931年英國(guó)統(tǒng)計(jì)學(xué)家沃克(Gilbert Thomas Walker,1868—1958)給出的一般化自回歸AR(s)模型,完全建立在上述模型的基礎(chǔ)上,只是把滯后項(xiàng)從2期擴(kuò)充到了s期。
另一條線索是,1921年和1926年尤爾研究發(fā)現(xiàn),擲骰子等得到的純隨機(jī)序列,進(jìn)行數(shù)次差分之后所形成的序列將趨向于規(guī)則性波動(dòng)。以此為基礎(chǔ),1927年斯盧茨基(Evgeny Evgenievich Slutzky,1880—1948)系統(tǒng)探討了隨機(jī)擾動(dòng)疊加后的模型及其性質(zhì),創(chuàng)建了移動(dòng)求和MA(n)模型。斯盧茨基特別說(shuō)明自己引用了尤爾的研究,和尤爾共同開(kāi)始關(guān)注擾動(dòng)因素。也就是說(shuō),對(duì)隨機(jī)成分的認(rèn)識(shí),由原來(lái)的觀察誤差轉(zhuǎn)變?yōu)閿_動(dòng)項(xiàng),并且擾動(dòng)也是數(shù)據(jù)產(chǎn)生過(guò)程中的一個(gè)重要組成部分。因此,在頻域分析領(lǐng)域的周期圖方法過(guò)渡到時(shí)域分析領(lǐng)域的線性自回歸模型時(shí),尤爾的社會(huì)統(tǒng)計(jì)研究發(fā)揮著不容忽視的理論鋪墊作用,從而亦開(kāi)啟了現(xiàn)代時(shí)間序列分析之學(xué)科方向。
利用統(tǒng)計(jì)思想分析社會(huì)經(jīng)濟(jì)現(xiàn)象的歷史源遠(yuǎn)流長(zhǎng),至少要追溯到17世紀(jì)威廉·配第(William Petty,1623—1687)的政治算術(shù)以及19世紀(jì)初以凱特勒(Lambert Adolphe Jacques Quetelet,1796—1874)為首的經(jīng)濟(jì)統(tǒng)計(jì)學(xué)研究,但學(xué)界通常認(rèn)為嚴(yán)格的定量社會(huì)科學(xué)源于回歸、相關(guān)的應(yīng)用,故尤爾是現(xiàn)代統(tǒng)計(jì)理論融入社會(huì)科學(xué)和經(jīng)濟(jì)領(lǐng)域的真正先驅(qū)[10]。尤爾研究貧窮問(wèn)題的思路和方法,當(dāng)前在公共政策決策、管理制度修訂等方面仍不失其指導(dǎo)性地位,很多國(guó)家仍然利用以多元回歸為基礎(chǔ)的統(tǒng)計(jì)模型評(píng)價(jià)國(guó)民需求、分配政府供給、度量政策影響等[11]。
從技術(shù)層面而言,尤爾的社會(huì)統(tǒng)計(jì)研究不是用統(tǒng)計(jì)技術(shù)去適應(yīng)社會(huì)科學(xué),而是尤爾的根本興趣集中于社會(huì)問(wèn)題,這一方面說(shuō)明了基于生物學(xué)、優(yōu)生學(xué)背景創(chuàng)建的新理論和新方法可以有更廣泛的應(yīng)用,同時(shí)也迅速開(kāi)發(fā)和引領(lǐng)了社會(huì)統(tǒng)計(jì)學(xué)的發(fā)展:1901年鮑利出版教科書(shū)《統(tǒng)計(jì)學(xué)原理》,具體講解了統(tǒng)計(jì)理論分析實(shí)際問(wèn)題的案例;1901—1905年,庫(kù)克(Reginald Hawthorn Hooker,1867—1944)向皇家統(tǒng)計(jì)學(xué)會(huì)提交3篇論文,系統(tǒng)研究?jī)r(jià)格、婚姻率和貿(mào)易的時(shí)間序列數(shù)據(jù);諾頓(John Norton,1858—1916)利用相關(guān)和一階差分研究紐約錢(qián)幣市場(chǎng)的結(jié)余、儲(chǔ)蓄和貸款;法國(guó)的馬馳(Lucien March,1859—1933)討論了銀行金銀和儲(chǔ)蓄等經(jīng)濟(jì)序列以及婚姻率、出生率的相關(guān)性等。通過(guò)尤爾本人的直接影響,結(jié)合1909年在法國(guó)巴黎舉辦的國(guó)際統(tǒng)計(jì)學(xué)會(huì)的會(huì)議傳播以及皇家統(tǒng)計(jì)學(xué)會(huì)的學(xué)術(shù)擴(kuò)散等,到20世紀(jì)初,回歸相關(guān)理論已在社會(huì)科學(xué)領(lǐng)域建立了堅(jiān)實(shí)的應(yīng)用基礎(chǔ),到了20世紀(jì)20年代,則轉(zhuǎn)向了以時(shí)間序列分析方法為主體的統(tǒng)計(jì)應(yīng)用。繼尤爾實(shí)證分析推出AR(2)模型后,斯盧茨基通過(guò)分析蘇維埃彩票抽獎(jiǎng)數(shù)字,創(chuàng)建了MA模型;沃克在研究世界天氣時(shí),探討了印度達(dá)爾文港口的壓力問(wèn)題而擴(kuò)建了AR模型;1938年計(jì)量經(jīng)濟(jì)學(xué)家沃爾德(Herman Wold,1908—1992)研究離散平穩(wěn)時(shí)間序列時(shí),討論了貝弗里奇小麥年價(jià)格指數(shù)序列、維納恩湖水位量和降雨量序列、瑞典生活費(fèi)用指數(shù)序列等,最終創(chuàng)建了ARMA模型;到20世紀(jì)七八十年代,博克斯(George Edward Pelham Box,1919—2013)和詹金斯(Gwilym Meirion Jenkins,1933—1982)討論ARIMA模型、恩格爾(Robert Fry Engle,1942—)提出ARCH模型以及眾多統(tǒng)計(jì)學(xué)家衍生GARCH族模型時(shí),更是以大量具體的實(shí)際的社會(huì)經(jīng)濟(jì)序列為本,因此當(dāng)前才有社會(huì)統(tǒng)計(jì)學(xué)和金融時(shí)間序列分析等學(xué)科分支。
綜上所述,尤爾以回歸、相關(guān)等統(tǒng)計(jì)學(xué)的基本概念為出發(fā)點(diǎn),通過(guò)對(duì)社會(huì)問(wèn)題的批判與探討、對(duì)數(shù)值數(shù)據(jù)的謹(jǐn)慎應(yīng)用與理性解釋,一方面逐步擴(kuò)展、延伸、開(kāi)拓到自回歸等時(shí)間序列新理論,同時(shí)也極大地促進(jìn)了統(tǒng)計(jì)技術(shù)在社會(huì)、經(jīng)濟(jì)、金融等領(lǐng)域的創(chuàng)新應(yīng)用,可謂是社會(huì)統(tǒng)計(jì)學(xué)的先鋒和樞紐。
參考文獻(xiàn):
[1]Yule G U.On the Correlation of Total Pauperism with Proportion of Out-Relief I [J].The Economic Journal,1895(5).
[2]Yule G U.On the Correlation of Total Pauperism with Proportion of Out-Relief II [J].The Economic Journal,1896(6).
[3]Yule G U.Notes on the History of Pauperism in England and Wales from 1850,Treated by the Method of Frequency-Curves,with an Introduction on the Method [J].Journal of the Royal Statistical Society,1896,59(2).
[4]Yule G U.On the Theory of Correlation [J].Journal of the Royal Statistical Society,1897,60(4).
[5]Yule G U.An Investigation into the Causes of Changes in Pauperism in England,Chiefly During the Last Two Intercensal Decades (Part I) [J].Journal of the Royal Statistical Society,1899,62(2).
[6]Yule G U.On the Significance of Bravais' Formulae for Regression,&c.,in the Case of Skew Correlation [C].Proceedings of the Royal Society of London,1896-1897.
[7]Yule G U.On the Time-Correlation Problem,with Especial Reference to the Variate-Difference Correlation Method[J].Journal of the Royal Statistical,1921,84(4).
[8]Yule G U.Why Do We Sometimes Get Nonsense-Correlations between Time-Series?-A Study in Sampling and the Nature of Time-Series[J].Journal of the Royal Statistical,1926,89(1).
[9]Yule G U.On a Method of Investigating Periodicities in Disturbed Series,with Special Reference to Wolfer's Sunspot Numbers[J].Philosophical Transactions of the Royal Society of London,Series A,1927,226.
[10] Hepple L W.Multiple Regression and Spatial Policy Analysis:George Udny Yule and the Origins of Statistical Social Science[J].Environment and Planning D:Society and Space,2001,19(4).
[11] 張迎春.社會(huì)統(tǒng)計(jì)學(xué)30年發(fā)展與若干前沿問(wèn)題[J].統(tǒng)計(jì)與信息論壇,2011,26(11).