劉德平 羅盛 陳麗娟 陳景武
對(duì)應(yīng)分析(Correspondence Analysis),又稱相應(yīng)分析,其基本思想首先由理查森(Richardson)和庫(kù)德(Kuder)在1933年提出,后來(lái)法國(guó)統(tǒng)計(jì)學(xué)家Jean-Paul Benzecri和日本統(tǒng)計(jì)學(xué)家Hayashi Chikio對(duì)該方法進(jìn)行了發(fā)展[1],主要用于分析二維數(shù)據(jù)陣中行因素和列因素間的關(guān)系。目前對(duì)應(yīng)分析已被廣泛地應(yīng)用于自然科學(xué)和社會(huì)科學(xué)的各個(gè)領(lǐng)域,取得了可喜的成果[2-6]。
對(duì)應(yīng)分析的基本思想是對(duì)數(shù)據(jù)陣進(jìn)行適當(dāng)?shù)淖儞Q,使變換后的數(shù)據(jù)對(duì)行與對(duì)列是相對(duì)應(yīng)的,從而可以同時(shí)對(duì)行和對(duì)列進(jìn)行分析,以發(fā)現(xiàn)行列因素間的關(guān)系[7]。
設(shè)有n×m的數(shù)據(jù)陣X={xij},行列分別表示兩個(gè)不同因素的n個(gè)水平和m個(gè)水平。為同時(shí)對(duì)行和對(duì)列進(jìn)行分析,首先對(duì)數(shù)據(jù)陣進(jìn)行如下變換:
其中xij是數(shù)據(jù)表中第 i行第 j列出現(xiàn)的頻率,x.j是第j列的累計(jì),xi.是第i行的累計(jì)。再對(duì)變換后的數(shù)據(jù)陣Z=(zij)n×m進(jìn)行R型和Q型因子分析,進(jìn)行R型因子分析是從矩陣Am×m=Z'Z出發(fā),求其特征根和特征向量;進(jìn)行Q型因子分析是從矩陣Bn×n=ZZ'出發(fā),求其特征根和特征向量。然后將A的第1因子和第2因子及B的第1因子和第2因子同時(shí)繪在同一坐標(biāo)軸上,則可揭示行因素的不同水平及列因素的不同水平之間的關(guān)系,此即對(duì)應(yīng)分析方法的基本思想[8]。
2.1 一般資料 本次調(diào)查對(duì)象是2010年青州市小學(xué)1~6年級(jí)在校學(xué)生。采用橫斷面的隨機(jī)抽樣調(diào)查方法,對(duì)學(xué)校按地理分布分為城區(qū)、平原丘陵地區(qū)、山區(qū)三層,以學(xué)校為抽樣單位,進(jìn)行分層整群按十分之一比例抽樣,對(duì)抽取學(xué)校的小學(xué)生進(jìn)行調(diào)查。共調(diào)查12個(gè)學(xué)校7169人,其中城區(qū)2個(gè)學(xué)校2404人,平原丘陵7個(gè)學(xué)校2515人,山區(qū)3個(gè)學(xué)校2250人。實(shí)查7086人,實(shí)查率為98.86%。所有被調(diào)查的學(xué)生了解本調(diào)查的目的,并在知情同意書上簽字。
2.2 資料的整理 對(duì)原始數(shù)據(jù)用EXCEL2003雙人雙份錄入、校對(duì),以保證錄入數(shù)據(jù)的正確、完整。表1是12所學(xué)校小學(xué)生主要眼病患病資料,其中主要眼病是:H10.4慢性結(jié)膜炎、H52.1近視(單純性、病理性)、H53.0弱視、H53.5色覺(jué)缺陷、H13.1衣原體性沙眼、H52.0遠(yuǎn)視、H50.0內(nèi)斜視、H50.1外斜視、H02.0瞼內(nèi)翻和倒睫、H10.2急性結(jié)膜炎、S05眼外傷、H55眼球震顫、H52.3屈光參差、Q12.0先天性白內(nèi)障、Q10.0先天性上瞼下垂。地區(qū)用英文字母表示。12所學(xué)校分別為城區(qū):團(tuán)結(jié)小學(xué)tj、職工子弟小學(xué)zg;農(nóng)村平原:大王小學(xué)dw、大尹小學(xué)dy、東壩小學(xué)db、貫店小學(xué)gd、黃樓小學(xué)hl、潘劉小學(xué)pl、陽(yáng)河小學(xué)yh;農(nóng)村山區(qū):蓮花盆小學(xué)lh、邵莊小學(xué)sz、五里小學(xué)wl。應(yīng)用SAS 8.0對(duì)資料進(jìn)行對(duì)應(yīng)分析。
對(duì)表1進(jìn)行對(duì)應(yīng)分析發(fā)現(xiàn),前兩個(gè)特征根λ1、λ2累計(jì)貢獻(xiàn)率僅僅為54.4%,說(shuō)明前2個(gè)因子只能解釋原始資料的54%的信息,此時(shí)用前2個(gè)因子表示的二維因子載荷圖不能充分表達(dá)原始資料中眼病與學(xué)校兩屬性變量間的關(guān)系。因此考慮用分組對(duì)應(yīng)分析法來(lái)分析資料[5]。先對(duì)表1進(jìn)行R型因子分析,將眼?。幸蛩兀┓譃?組,從而將原始資料分為3個(gè)二維數(shù)據(jù)表(表2、表3、表4)分別進(jìn)行對(duì)應(yīng)分析。
3.1 特征根及累計(jì)貢獻(xiàn)率 對(duì)表2、表3和表4數(shù)據(jù)分別進(jìn)行對(duì)應(yīng)分析,前兩個(gè)特征根λ1、λ2累計(jì)貢獻(xiàn)率分別為83.4%、87.9%和100%,解釋了原始資料的絕大部分的信息, 因此用2個(gè)公因子表示的二維因子負(fù)荷圖可以表達(dá)表2、表3和表4中眼病患病率與地區(qū)兩屬性變量間的關(guān)系。
表1 12所小學(xué)學(xué)校15種主要眼病患病率(%)
表2 12所小學(xué)7種主要眼病患病率(%)
表3 5種眼病患病率(%)
表4 3種眼病患病率(%)
3.2 因子載荷 表2、表3和表4資料的行因素(學(xué)校)及列因素(眼?。┑牡谝灰蜃迂?fù)荷(Dim1)和第二因子負(fù)荷(Dim2),分別列于表5和表6。
表5 學(xué)校(行因素)的因子負(fù)荷
表6 眼?。幸蛩兀┑囊蜃迂?fù)荷
將表5、表6行因素及列因素的第1、第2因子負(fù)荷分別繪在同一因子圖上,得因子載荷圖圖1、圖2和圖3。
圖1 表2資料因子載荷圖
由圖1可以看出除了職工小學(xué),連花盆小學(xué)外,其他10所小學(xué)聚集性非常大。H13.1衣原體性(沙眼)和H50.0內(nèi)斜視有聚集性,提示它們之間可能有關(guān)聯(lián)性,職工、大尹、邵莊小學(xué)是高發(fā)區(qū);H10.2急性結(jié)膜炎、H50.1外斜視、Q10.0先天性上瞼下垂、S05眼外傷有一定的聚集性,提示它們之間可能有關(guān)聯(lián)性,蓮花盆小學(xué)(農(nóng)村山區(qū))是高發(fā)區(qū);H10.4慢性結(jié)膜炎其高發(fā)區(qū)是五里(農(nóng)村山區(qū))、團(tuán)結(jié)(城區(qū))、潘劉、大王、貫店、陽(yáng)河、東壩、黃樓(農(nóng)村平原區(qū))。
圖2 表3資料因子載荷圖
圖2顯示陽(yáng)河小學(xué)(農(nóng)村平原)與H53.0弱視相關(guān)性比較大;五里、蓮花盆(農(nóng)村山區(qū))、大王、大尹、東壩、貫店(農(nóng)村平原)、職工、團(tuán)結(jié)小學(xué)(城區(qū))是H52.1近視(單純性、病理性)、H53.5色覺(jué)缺陷的高發(fā)區(qū),另外H52.1近視(單純性、病理性)、H53.5色覺(jué)缺陷可能有關(guān)聯(lián)性。
圖3 表4資料因子載荷圖
圖3顯示貫店、東壩、潘劉小學(xué)(農(nóng)村平原)、職工、團(tuán)結(jié)小學(xué)(城區(qū))、蓮花盆、邵莊小學(xué)(農(nóng)村山區(qū))是H02.0瞼內(nèi)翻和倒睫的高發(fā)區(qū)。
每所學(xué)校的主要高發(fā)眼病見(jiàn)表7。
表7 12所小學(xué)對(duì)應(yīng)的主要眼病
對(duì)應(yīng)分析主要用于處理二維列聯(lián)表,用以分析行因素與列因素之間的關(guān)系及一些分類問(wèn)題。分析時(shí)主要取前兩個(gè)因子,且累積貢獻(xiàn)率大于75%為宜。當(dāng)因子累計(jì)貢獻(xiàn)率較小時(shí),說(shuō)明兩個(gè)因子不足以概括出行列因素的最基本的分布特征,不能較好地反映數(shù)據(jù)陣的主要信息。此時(shí)我們可以根據(jù)研究目的和資料特點(diǎn)進(jìn)行“分組”對(duì)應(yīng)分析,即先對(duì)原數(shù)據(jù)資料進(jìn)行R型因子分析或者R型聚類分析,如本例,先對(duì)列因素(眼病)進(jìn)行R型因子分析,結(jié)合統(tǒng)計(jì)分析結(jié)果和流行病學(xué)知識(shí)將其分成3個(gè)組別,然后每個(gè)組別分別與行因素(學(xué)校)做對(duì)應(yīng)分析,這樣可以解決直接對(duì)原始數(shù)據(jù)表作對(duì)應(yīng)分析時(shí)遇到的前2個(gè)因子累積貢獻(xiàn)率較小的問(wèn)題,從而表達(dá)原始資料的主要信息。本文經(jīng)過(guò)3組對(duì)應(yīng)分析發(fā)現(xiàn),前2個(gè)因子的累積貢獻(xiàn)率分別提高為83.4%、87.9%和100%,可以基本表達(dá)原始資料的信息。
由因子負(fù)荷圖可以直觀地看出12所小學(xué)與眼病的對(duì)應(yīng)關(guān)系以及不同眼病間的聚集性,從而可以發(fā)現(xiàn)不同眼病患病率的高發(fā)學(xué)校和低發(fā)學(xué)校及不同種類眼病間的關(guān)聯(lián)性。每所學(xué)校的主要高發(fā)眼病見(jiàn)表7,針對(duì)每所學(xué)校的主要眼病,我們可以制定相應(yīng)的防治眼病措施,降低學(xué)校相關(guān)眼病的患病率,并為進(jìn)一步做流行病學(xué)病因調(diào)查提供科學(xué)依據(jù)。
[1]何曉群.多元統(tǒng)計(jì)分析.中國(guó)人民大學(xué)出社,2004,195-219.
[2]Alain F.Canonical correspondence analysis of lowland pasture vegetation in the humid tropics of Mexico .Statistics for Biology and Health.2007:561-547.
[3]Mao Duan-qian .Correspondence analysis on images of Jiangxi Province as a tourist destination.Chinese Geographical Science.2005,15(3):275-280.
[4]Ken Reed.The use of correspondence analysis to develop a scale to measure workplace morale from multi-level data.Social Indicators Research.2002,3:339-351.
[5]何先平,周全.對(duì)應(yīng)分析方法在環(huán)境污染中的應(yīng)用[J].宜賓學(xué)院學(xué)報(bào),2012,12(12):36-38.
[6]黃素琴.對(duì)應(yīng)分析法在保險(xiǎn)市場(chǎng)細(xì)分中的應(yīng)用[J].經(jīng)濟(jì)研究導(dǎo)刊,2010(23):149-150.
[7]羅盛,陳景武,馬峻嶺.分組對(duì)應(yīng)分析在流行病學(xué)中的應(yīng)用[J].中國(guó)衛(wèi)生統(tǒng)計(jì),2008,25(3):280-282.
[8]劉德平,羅盛,陳景武.青州市小學(xué)生眼病患病情況的對(duì)應(yīng)分析[J].當(dāng)代醫(yī)學(xué),2013,19(25):161-163.