王文萍 張琪浙江理工大學(xué)經(jīng)濟管理學(xué)院
幾種橫截面數(shù)據(jù)多元回歸分析的方法與分類
王文萍 張琪
浙江理工大學(xué)經(jīng)濟管理學(xué)院
橫截面數(shù)據(jù)是在同一時間,不同統(tǒng)計單位相同統(tǒng)計指標組成的數(shù)據(jù)列。與時序數(shù)據(jù)相比較,其區(qū)別在于數(shù)據(jù)的排列標準不同,時序數(shù)據(jù)是按時間順序排列的,橫截面數(shù)據(jù)是按照統(tǒng)計單位排列的。因此,橫截面數(shù)據(jù)不要求統(tǒng)計對象及其范圍相同,但要求統(tǒng)計的時間相同。也就是說必須是同一時間截面上的數(shù)據(jù)。與時間數(shù)據(jù)完全一樣,橫截面數(shù)據(jù)的統(tǒng)計口徑和計算方法(包括價值量的計算方法)也應(yīng)當(dāng)是可比的。在分析橫截面數(shù)據(jù)時,應(yīng)主要注意兩個問題:一是異方差問題,由于數(shù)據(jù)是在某一時期對個體或地域的樣本的采集,不同個體或地域本身就存在差異;二是數(shù)據(jù)的一致性,主要包括變量的樣本容量是否一致、樣本的取樣時期是否一致、數(shù)據(jù)的統(tǒng)計標準是否一致。
橫截面數(shù)據(jù) 多元回歸
分位數(shù)回歸是一種根據(jù)給定影響事物的因素來估計事物條件分位數(shù)的基本方法,它不僅具有同變性、漸進性、穩(wěn)健性等優(yōu)良的性質(zhì),還可以度量給定因素在不同分位點對事物的影響程度,對事物的解釋更加全面。
分位數(shù)回歸具有同變性、漸進性、穩(wěn)健性利用分位數(shù)回歸的數(shù)學(xué)模型對文中的掌趣科技股票數(shù)據(jù)進行處理,由顯著性檢驗和Wald檢驗結(jié)果,可知在各個分位點建立的模型效果都不佳,對因變量的解釋沒有指導(dǎo)意義,沒有體現(xiàn)出分位數(shù)回歸的優(yōu)勢,最后證明是數(shù)據(jù)之間的多重共線性影響了模型的結(jié)果。
Tobit模型也稱為樣本選擇模型、受限因變量模型,是因變量滿足某種約束條件下取值的模型。
這種模型的特點在于模型包含兩個部分,一是表示約束條件的選擇方程模型;一種是滿足約束條件下的某連續(xù)變量方程模型。受限制的連續(xù)變量方程模型研究者往往更加感興趣,但是由于因變量受到某種約束條件的制約,忽略某些不可度量(即:不是觀測值,而是通過模型計算得到的變量)的因素將導(dǎo)致受限因變量模型產(chǎn)生樣本選擇性偏差。
兩部模型(two-part model)與Tobit模型有很大的相似之處,也是研究受限因變量問題的模型;但是這兩種模型在模型結(jié)構(gòu)形式、估計方法、假設(shè)條件等方面也存在一定的區(qū)別。Tobit模型的估計方法與模型結(jié)構(gòu)形式有密切關(guān)系,不同類型的模型估計方法存在較大的差異,本文按照三種屬性特征對Tobit模型進行了分類。
但是,Tobit模型的缺點在于,Tobit模型估計要求兩部分模型中解釋變量不完全相同,另外系統(tǒng)模型假設(shè)隨機變量是服從聯(lián)合正態(tài)分布的,違背這兩個基本假設(shè),可能導(dǎo)致模型不可估計。
鑒于統(tǒng)計模型的多樣性和各種模型的適應(yīng)性,針對因變量和解釋變量的取值性質(zhì),可將統(tǒng)計模型分為多種類型。通常將自變量為定性變量的線性模型成為一般線性模型,將因變量為非正統(tǒng)分布的模型成為廣義線性模型。如Logistic回歸模型、對數(shù)線性模型、Cox比例風(fēng)險模型
Logistic回歸采用極大似然估計方法估計模型參數(shù),依據(jù)回歸函數(shù)值對觀測數(shù)據(jù)進行分類。Logistic回歸不僅給出具體的分類算法,還能描述影響分類結(jié)果的影響因素。這種方法簡單實用,很多統(tǒng)計軟件可以完成有關(guān)的計算,它們應(yīng)用很廣,特別是醫(yī)學(xué)生物學(xué)領(lǐng)域和經(jīng)濟管理等研究領(lǐng)域。
聚類分析顧名思義是要“物以類聚”,是對樣本或者指標進行分類的一種多元統(tǒng)計分析方法,它處理的對象是大量的樣本,要能合理的按照各自的特性來進行合理的分類,在沒有先驗知識指導(dǎo)的情況下聚類是將數(shù)據(jù)分到不同類的一個過程,要求同一類中的樣本(對象)有很強的相似性,而不同類之間的樣本(對象)有很大的差異性。聚類分析將大量數(shù)據(jù)劃分為性質(zhì)相同的子類,便于了解數(shù)據(jù)的分布情況,目前應(yīng)用于模式識別,圖像處理,數(shù)據(jù)壓縮等諸多領(lǐng)域,如在市場分析中,通過聚類分析能幫助決策者識別不同特征的客戶群以及各客戶群的行為特征;在生物工程研究中,聚類分析能夠用于推導(dǎo)動植物的分類,按照功能對基因進行劃分并獲取種群中的固有結(jié)構(gòu)特征;在web信息檢索領(lǐng)域,聚類分析能夠?qū)eb文檔進行分類,以便于提高檢索的效率。在分析實際問題是使用的聚類方法有很多,如模糊聚類算法,系統(tǒng)聚類法,有序樣品聚類法,動態(tài)聚類法等,在本章主要介紹系統(tǒng)聚類法和動態(tài)聚類法中的K-means法,以及這兩種方法的不同之處。
截面數(shù)據(jù)按照規(guī)模變量進行排序,并利用這一排序引入時序數(shù)據(jù)動態(tài)建模的設(shè)定方法,即采用差分方程模型形式,對于模擬截面數(shù)據(jù)中規(guī)模變量間隱含的非線性效應(yīng)具有很大的潛力。使用橫截面數(shù)據(jù)的實證建模中,建模者非常需要考慮先驗?zāi)P驮O(shè)計在表述變量間規(guī)模或空間相關(guān)性、亦即函數(shù)形式問題方面的不足。數(shù)據(jù)排序方法使我們能夠利用各種現(xiàn)有的時間序列計量經(jīng)濟學(xué)技術(shù)。當(dāng)然,對截面數(shù)據(jù)的排序?qū)嶒灢⒉贿`反統(tǒng)計學(xué)中隨機抽樣的基本假定。數(shù)據(jù)排序的處理是基于已經(jīng)通過隨機抽樣方法而收集的數(shù)據(jù)。所進行的數(shù)據(jù)排序是為了嘗試更有效地按經(jīng)濟規(guī)律組織隨機數(shù)據(jù)樣本,從而從中獲得更多的有用信息。
[1]許玲. 區(qū)域高等教育與經(jīng)濟發(fā)展水平協(xié)調(diào)性研究--基于2004年和2011年橫截面數(shù)據(jù)的分析 [J]. 高等教育發(fā)展, 2014.01:24~29
[2]秦 朵、劉一萌. 橫截面數(shù)據(jù)變量的規(guī)模特征:特征價格建模分析[J]. 統(tǒng)計研究,2015.02, 97~103
[3]唐紅濤、朱晴晴. 我國高等教育投入效率實證研究--基于橫截面數(shù)據(jù)的因子分析[J].湖南商學(xué)院學(xué)報, 2016.02, 101~108
[4]張立軍,王瑛,劉菊紅.基于貝葉斯判別分析的上市公司財務(wù)危機預(yù)警模型研究[J].商業(yè)研究, 2009(4):112- 114.
[5]田素華. 商務(wù)成本的地區(qū)間差異與獨資FDI進入中國--基于省級橫截面數(shù)據(jù)的實證分析 [J]. 中央財經(jīng)大學(xué)學(xué)報,2011.12,91~96