胡良平
(1.軍事科學院研究生院,北京 100850;2.世界中醫(yī)藥學會聯(lián)合會臨床科研統(tǒng)計學專業(yè)委員會,北京 100029*通信作者:胡良平,E-mail:lphu812@sina.com)
1.1.1 模型的概念
人們經常提及兩類模型,即數(shù)學模型與統(tǒng)計模型。那么,首先要知道什么是“模型”?;\統(tǒng)地說,“模型”就是描述一個單一變量或向量如何隨另一個變量或向量變化而變化的依賴關系的表達式或“函數(shù)”或“方程式”。當“模型”揭示的是“總體”中變量之間的關系時,稱其為“模型”更恰當;而當“模型”揭示的是“樣本”中變量之間的關系時,稱其為“方程”更恰當。所謂“更恰當”是指:當表達式中帶有“隨機誤差項”時,表達式呈現(xiàn)的是變量之間的“精確”數(shù)量關系;而當表達式中不帶有“隨機誤差項”時,表達式呈現(xiàn)的是變量之間的“近似”數(shù)量關系。
1.1.2 數(shù)學模型的概念
“數(shù)學模型”是描述確定性事物或現(xiàn)象之間數(shù)量關系的表達式。換言之,它是一個“函數(shù)”,即給定自變量一個特定取值,因變量就有一個確定的值與其對應。事實上,可以這樣認為:數(shù)學模型描述的是一般變量之間的數(shù)量依賴關系。
1.1.3 統(tǒng)計模型的概念
“統(tǒng)計模型”是描述隨機變量隨其他隨機變量或隨機過程或一般變量變化而變化的依賴關系的表達式或“方程式”或“模型”。事實上,可以這樣認為:在統(tǒng)計模型中,因變量或是隨機變量、或是隨機變量的函數(shù)(被稱為隨機過程);而自變量可以是一般變量、隨機變量或隨機過程。
在經典統(tǒng)計模型中,假定總體上的回歸系數(shù)(含截距項)為常量,基于樣本信息構建的樣本回歸系數(shù)(含截距項)被視為總體回歸系數(shù)的估計值;而在貝葉斯統(tǒng)計模型中,假定總體上的回歸系數(shù)(含截距項)是隨機變量,通常,需要通過總體信息、樣本信息和先驗信息(有時還需借助隨機模擬)來推斷回歸系數(shù)的估計值。
1.2.1 概述
統(tǒng)計模型不計其數(shù),如何對其進行分類呢?事實上,從不同的角度來考量,就會有不同的分類結果。顯然,這樣分類的結果之間具有“交叉重疊”現(xiàn)象;然而,這或許是引導讀者認識“統(tǒng)計模型”的最簡易、最直接的思路或方法。
1.2.2 基于統(tǒng)計思想分類
基于統(tǒng)計思想可分為經典統(tǒng)計模型(可進一步劃分為“參數(shù)統(tǒng)計模型”“半參數(shù)統(tǒng)計模型”和“非參數(shù)統(tǒng)計模型”)、貝葉斯統(tǒng)計模型、蒙特卡羅(隨機模擬)統(tǒng)計模型和機器學習統(tǒng)計模型。
1.2.3 基于統(tǒng)計模型是否有解析式分類
基于是否有解析式可分為有解析式的統(tǒng)計模型(絕大部分統(tǒng)計模型都屬于這一類)與無解析式的統(tǒng)計模型(機器學習和深度學習方法建?;旧蠈儆谶@一類,還有所謂的“概率圖模型”)。
1.2.4 基于統(tǒng)計功能分類
基于統(tǒng)計功能可分為廣義差異性分析模型、相關與關聯(lián)分析模型、回歸分析模型、判別分析模型、聚類分析模型、綜合評價模型和多元統(tǒng)計分析模型(包括通徑分析模型、主成分分析模型、探索性與證實性因子分析模型、結構方程模型、典型相關分析模型、對應分析模型、多維尺度分析模型、結合分析模型等)。
1.2.5 基于模型的個數(shù)分類
基于模型個數(shù)可分為單一結局變量的統(tǒng)計模型(或稱為一元統(tǒng)計模型)與多結局變量的統(tǒng)計模型(或稱為聯(lián)立方程組模型)。
1.2.6 基于模型的水平數(shù)分類
基于模型的水平數(shù)可分為單一水平統(tǒng)計模型(即通常的統(tǒng)計模型)與多水平統(tǒng)計模型(也稱為隨機系數(shù)統(tǒng)計模型)。
1.2.7 基于因變量與自變量之間的幾何關系分類
基于因變量與自變量之間的幾何關系可分為一般線性與非線性統(tǒng)計模型、廣義線性與非線性統(tǒng)計模型。
1.2.8 基于回歸系數(shù)的效應關系分類
基于回歸系數(shù)的效應關系可分為固定效應統(tǒng)計模型、隨機效應統(tǒng)計模型與混合效應統(tǒng)計模型。
1.2.9 基于時間變量分類
基于時間變量可分為時點統(tǒng)計模型(包括所有不以“時間”為自變量的統(tǒng)計模型或與“時間”無關的統(tǒng)計模型)與時序統(tǒng)計模型(包括各種線性與非線性時間序列統(tǒng)計模型、Cox比例風險與非比例風險回歸模型、生存資料的各種參數(shù)模型、縱向追蹤或稱為重復測量設計混合效應統(tǒng)計模型)。
1.2.10 基于因變量是否為“顯變量”分類
在常規(guī)的“回歸分析”中,在“經典統(tǒng)計思想和貝葉斯統(tǒng)計思想”框架下,人們所討論的統(tǒng)計模型中的因變量基本上都是“顯變量”或由“顯變量變換所得到的結果”;在很多多元統(tǒng)計分析中,很少采用“統(tǒng)計模型”去描述所獲得的最終結果,而是采用“典型變量”或“主成分變量”等去描述。本質上,它們就是以“隱變量”為因變量的“統(tǒng)計模型”。具體地說,在典型相關分析中,采用“顯變量”來線性表達“典型變量(本質上就是隱變量)”。一個“典型變量對”就是一個“二元多重線性回歸模型”或視為由兩個“一元多重線性回歸方程(注意:因變量為隱變量)”組成的回歸方程組;假定在所研究的問題中,有m個“顯變量(即定量結果變量)”,于是,在主成分分析中,用“顯變量”的不同線性組合分別表達m個“主成分變量(本質上就是隱變量)”,實際上,全部m個主成分表達式就是由m個“一元多重線性回歸方程(注意:因變量為隱變量)”組成的回歸方程組;在探索性因子分析中,“因子得分模型”也是由m個“一元多重線性回歸方程(注意:因變量為隱變量)”組成的回歸方程組;同理,在定量資料對應分析(有公因子變量)、多維尺度分析(有公因子變量)和變量聚類分析(有類成分變量)中,都有“以隱變量為因變量”的統(tǒng)計模型。
1.2.11 基于統(tǒng)計模型中是否包含“未知參數(shù)”分類
一般來說,統(tǒng)計模型中會包含“未知參數(shù)”。然而,若按上述“基于因變量是否為‘顯變量’來劃分”,“廣義差異性檢驗”可被視為“基于概率分布”的“統(tǒng)計模型”,因為檢驗統(tǒng)計量,如Z、t、F、χ2等,都可被視為“隱變量”,通過相應的“概率分布”把握其變化規(guī)律,而基于“樣本信息”提取的是一般統(tǒng)計量,如樣本均值、標準差、樣本含量、觀察頻數(shù)與理論頻數(shù)等,它們并不包含“未知參數(shù)”。由此可知,基于某種概率分布的“檢驗統(tǒng)計量”應屬于“最簡單的統(tǒng)計模型”,其他統(tǒng)計模型可被概括為反映“依賴關系的統(tǒng)計模型”。
1.2.12 基于統(tǒng)計模型是否為“最終模型”分類
若模型本身就是最終要求的模型,則該模型應被稱為“目標模型”;若模型本身只是在計算過程中起一個“橋梁”作用,通過它來獲得最終要求的模型中“未知參數(shù)”的估計值,則該模型可被稱為“過程模型”。
事實上,所有以“檢驗統(tǒng)計量為別名的統(tǒng)計模型(它們在統(tǒng)計學教科書上被稱為‘檢驗統(tǒng)計量’)”和反映“變量間依賴關系的統(tǒng)計模型”都是研究者希望構建的、具有解析式的統(tǒng)計模型,故它們都屬于“目標模型”;而為了求解“目標模型”中的“未知參數(shù)”,需要先構造一個“目標函數(shù)”,再依據某種原則(如最小平方法或最大似然法)經由“目標函數(shù)”導出一個“正規(guī)方程組”或直接構建一個“廣義估計方程組”,進而求出“目標模型”中的未知參數(shù)。為后續(xù)指代方便,不妨把“正規(guī)方程組”或“廣義估計方程組”都統(tǒng)稱為“過程模型”。
前面“從不同角度劃分統(tǒng)計模型”給出了11種具有“交叉重疊”的分類結果,為讀者了解和認識“統(tǒng)計模型”奠定了必要的基礎。下面,再分別基于“統(tǒng)計特性”“統(tǒng)計功能”和“預測結果”三個角度,給出更具有實際意義的“統(tǒng)計模型分類結果”。其中,基于“統(tǒng)計特性”劃分統(tǒng)計模型,其種類最多,而且,其數(shù)目會隨著所找出的“統(tǒng)計特性”的數(shù)目增加而成倍增加;而基于“預測結果”劃分統(tǒng)計模型,其種類最少,或許也是最有實用價值的分類方法。
根據同時考察模型是否具有下列9種“統(tǒng)計特性”(說明:事實上,可能還存在其他統(tǒng)計特性,此處歸納的僅是最常見的),可將統(tǒng)計模型歸納為1 152大類。9種“統(tǒng)計特性”分別指“模型的水平數(shù)(2種情況)、因變量的個數(shù)(2種情況)、因變量的性質(3種情況)、自變量的個數(shù)(2種情況)、是否含隱變量(2種情況)、是否考慮抽樣權重(2種情況)、因變量觀測值是否獨立(2種情況)、因變量與自變量前回歸系數(shù)是否為線性關系(2種情況)以及是否基于‘參數(shù)’構建模型(3種情形)”,于是,統(tǒng)計模型可被分解為以下1 152類,現(xiàn)概述如下:①模型的水平數(shù)(2種情況)指“一水平模型”與“多水平模型”;②因變量的個數(shù)(2種情況)指“一個因變量或稱一元模型”與“多個因變量或稱多元模型”;③因變量的性質(3種情況)指“計量因變量”“計數(shù)因變量”和“定性因變量”;④自變量的個數(shù)(2種情況)指“一個自變量或稱一重模型”與“多個自變量或稱多重模型”;⑤是否含隱變量(2種情況)指“不含隱變量”與“含隱變量”;⑥是否考慮抽樣權重(2種情況)指“不考慮抽樣權重”與“考慮抽樣權重”;⑦因變量觀測值是否獨立(2種情況)指“相互獨立”與“相依(如‘時間序列資料’與‘具有重復測量的資料’)”;⑧因變量與自變量前回歸系數(shù)是否為線性關系(2種情況)指“線性”與“非線性”;⑨是否基于“參數(shù)”構建模型(3種情況)指“參數(shù)法”“半參數(shù)法”和“非參數(shù)法”。
將上述9種“統(tǒng)計特性”全面組合起來構建統(tǒng)計模型,就有27×3×3=1 152類。
基于“統(tǒng)計功能”對統(tǒng)計模型進行分類,至少可以劃分為以下7類:①差異性分析的線性模型;②相關分析模型;③關聯(lián)分析模型;④回歸分析模型;⑤判別分析模型;⑥聚類分析模型;⑦多元統(tǒng)計模型。
2.4.1 概述
基于統(tǒng)計模型的“預測結果”劃分統(tǒng)計模型的種類,可將統(tǒng)計模型劃分為以下4類:①觀測結果的預測值;②觀測結果的概率值;③觀測結果的綜合值;④觀測結果的統(tǒng)計量。
2.4.2 基于“觀測結果的預測值”劃分統(tǒng)計模型
何為“觀測結果的預測值”?由模型計算的結果為觀測結果Y的預測值,兩者的屬性和單位完全相同。例如:①計量資料線性與非線性回歸分析模型;②時序資料線性與非線性時間序列分析模型;③通徑分析或路徑分析模型。
其中,“計量資料線性與非線性回歸分析模型”包括一般線性與非線性回歸分析模型、主成分回歸分析模型、嶺回歸分析模型、基于正交化方法的回歸分析模型、穩(wěn)健回歸分析模型、反應曲面回歸分析模型、分位數(shù)回歸分析模型、加性與廣義加性回歸分析模型、局部模型回歸分析和有限混合模型回歸分析模型等。
2.4.3 基于“觀測結果的概率值”劃分統(tǒng)計模型
何為“觀測結果的概率值”?由模型計算的結果為觀測結果Y取某特定值(對離散型隨機變量而言)或某個小的取值區(qū)間內的值(對連續(xù)型隨機變量而言)的概率,兩者的屬性和單位完全不同。例如:①生存資料回歸分析;②計數(shù)資料回歸分析;③定性資料回歸分析。
2.4.4 基于“觀測結果的綜合值”劃分統(tǒng)計模型
何為“觀測結果的綜合值”?由模型計算的結果為觀測結果Y1-Yk的綜合值,前者為隱變量、后者為顯變量。例如:①主成分分析模型;②因子分析模型;③結構方程模型;④對應分析模型;⑤多維尺度分析模型;⑥典型相關分析模型;⑦結合分析模型;⑧判別分析模型;⑨經典綜合評價模型。
其中,“經典綜合評價模型”包括三十多種方法,主要有如下幾種,即熵值法、Topsis法、秩和比法、基于標準化變換的求和法、投影尋蹤法、模糊綜合評價法和層次分析法等[5]。
2.4.5 基于“觀測結果的統(tǒng)計量”劃分統(tǒng)計模型
何為“觀測結果的統(tǒng)計量”?由模型計算的結果為“檢驗統(tǒng)計量”的值,它是由觀測結果Y的一般統(tǒng)計量構造出來的檢驗統(tǒng)計量。例如:①Z、t、F、χ2、W等;②T2、Wilks’λ等。
值得一提的是:對于最后一種分類結果,人們通常并不認為它們是“統(tǒng)計模型”,而認為它們只是假設檢驗的“檢驗統(tǒng)計量”。事實上,在統(tǒng)計學上,可以認為:一般線性模型包含了“假設檢驗”,或者說,假設檢驗屬于“統(tǒng)計模型”的“特例”。