陳巍巍, 張 雷, 陳世平, 劉秋皊
(1.上海理工大學(xué) 管理學(xué)院,上海 200093;2.上海理工大學(xué) 信息化辦公室,上海 200093)
信息化建設(shè)是一個新興的課題,高校信息化也是如此.其建設(shè)內(nèi)容包括基礎(chǔ)設(shè)施建設(shè)、資源建設(shè)、應(yīng)用系統(tǒng)建設(shè)、標(biāo)準(zhǔn)規(guī)范建設(shè)等.聚類分析作為一種基于相似性的子群劃分方法,可先將調(diào)研地區(qū)進行分類,再根據(jù)分類情況對各類地區(qū)的信息化基礎(chǔ)設(shè)施建設(shè)情況提出建議和指導(dǎo),可有效地避免建設(shè)的不均衡和盲目性.按分類對象的不同,聚類分析可分為R 型和Q 型兩大類,R 型聚類分析用于指標(biāo)的分類處理,Q型聚類分析則用于樣品的分類處理[1].在聚類的過程中,一方面,為度量樣本間的相似性會采用如Euclidean距離、Man-h(huán)attan距離、Minkowski距離等.如果將距離的計算過程看成黑盒,那么這一過程就是從多維空間到一維空間的過程;另一方面,距離閾值d0該如何確定也是一件困難的事,且在很大程度上決定了簇類的數(shù)量和大小.從以上兩方面來考慮,筆者試圖先降維作特征提取,然后再進行比較,得到各個簇類.比較常用的特征提取方法主要有主成分分析(PCA)[2]和線性鑒別分析(linear discriminant analysis,LDA)[3].PCA基于這樣一種思想:方差最大的方向包含最多的類間信息,而LDA則是在最大化類間信息的同時最小化類內(nèi)信息,并最大化兩者之比.然而,降維必定會導(dǎo)致信息丟失,而且這些具有較高復(fù)雜度的方法在動態(tài)、多變的環(huán)境中并無優(yōu)勢[4].因此,本文根據(jù)調(diào)研數(shù)據(jù)情況直接應(yīng)用Q型聚類的方法,同時根據(jù)主成分降維聚類的結(jié)果對前面的聚類結(jié)果加以修正.以我國部分基礎(chǔ)設(shè)施建設(shè)的數(shù)據(jù)為研究對象,通過對部分?jǐn)?shù)據(jù)的分析和研究,以小見大,試圖探索和總結(jié)高校整體信息化建設(shè)情況的分析方法與手段,并為如何更好地發(fā)揮信息化的作用提供理論參考.
2008年2月22日,教育部教育改革和發(fā)展戰(zhàn)略與政策研究重大課題“教育信息化建設(shè)與應(yīng)用研究”啟動工作在教育部展開.第一工作組是“教育信息建設(shè)與應(yīng)用狀況調(diào)研組”,負(fù)責(zé)調(diào)研教育信息化建設(shè)與應(yīng)用現(xiàn)狀.本次調(diào)研區(qū)域包含:北京市、上海市、廣東省、湖南省、湖北省、陜西省、甘肅省、內(nèi)蒙古自治區(qū)、云南省、吉林省10個省、市、自治區(qū).調(diào)研范圍為這些區(qū)域的高校,包括高等職業(yè)技術(shù)學(xué)院[5].
信息化基礎(chǔ)設(shè)施是信息化建設(shè)的基礎(chǔ)條件,也是信息化的“命脈”.從一個社會組織的內(nèi)部機構(gòu)到一個組織的所有機構(gòu),從一個地區(qū)到一個國家,只有有了一條條暢通無阻的“信息高速公路”,形成了一個信息通信的網(wǎng)絡(luò),才有可能實現(xiàn)各種信息化應(yīng)用.我國高校信息化基礎(chǔ)設(shè)施的建設(shè)內(nèi)容主要包含信息化基本設(shè)備配置、校園網(wǎng)建設(shè)、網(wǎng)絡(luò)與信息安全建設(shè)、高性能計算環(huán)境建設(shè)四方面內(nèi)容.本文由于可用的樣本數(shù)據(jù)有限,主要從信息化基本設(shè)備配置數(shù)據(jù)著手進行研究和分析.
信息化設(shè)備包含服務(wù)器、個人計算機、交換機、路由器、掃描儀、錄像機、投影機等.調(diào)研數(shù)據(jù)主要從服務(wù)器、個人計算機、多媒體教室的擁有現(xiàn)狀三方面考察.服務(wù)器主要從價值方面來考察,統(tǒng)計計入固定資產(chǎn)的服務(wù)器總價值及10萬元以上的服務(wù)器的臺數(shù).個人計算機主要從計入固定資產(chǎn)的個人計算機臺數(shù)(包含筆記本電腦)及學(xué)生擁有個人計算機比例兩方面考察.多媒體教室主要是考察配備多媒體設(shè)備(如投影儀)的教室占教室總數(shù)的比例及多媒體教室的利用率.綜上,得信息化基本設(shè)備配置的6個指標(biāo)X1,X2,……,X6,分別表示服務(wù)器的總價值/萬元、10萬以上服務(wù)器的數(shù)量/臺、個人計算機數(shù)量/臺、擁有個人計算機數(shù)量的比例、多媒體教室配備比例和多媒體教室的利用率.具體數(shù)據(jù)是以省和直轄市為單位,求出其所轄學(xué)??傮w數(shù)據(jù)的平均值.
用于數(shù)據(jù)分析的樣品往往包含有多個(間隔)變量,較多的變量會帶來分析問題的復(fù)雜性.然而,這些變量彼此之間常常存在著一定程度的、有時甚至是相當(dāng)高的相關(guān)性,這就使含在觀測數(shù)據(jù)中的信息在一定程度上有所重疊.正是這種變量間信息的重疊,使得變量的降維成為可能,從而使問題的分析得以簡化[6].
主成分分析是設(shè)法將原來眾多具有一定相關(guān)性(比如P個指標(biāo)),重新組合成一組新的互相無關(guān)的綜合指標(biāo)來代替原來的指標(biāo).通常數(shù)學(xué)上的處理就是將原來P個指標(biāo)作線性組合,作為新的綜合指標(biāo).最經(jīng)典的做法就是用F1(選取的第一個線性組合,即第一個綜合指標(biāo))的方差來表達,即var(F1)越大,表示F1包含的信息越多.因此在所有的線性組合中選取的F1應(yīng)該是方差最大的,故稱F1為第一主成分.如果F1不足以代表原來P個指標(biāo)的信息,再考慮選取F2,即選第二個線性組合.為了有效地反映原來信息,F(xiàn)1已有的信息就不需要再出現(xiàn)在F2中,用數(shù)學(xué)語言表達就是要求cov(F1,F(xiàn)2)=0,則稱F2為第二主成分,依此類推可以構(gòu)造出第三、第四,……,第P個主成分.
聚類分析至今,有許多種不同的聚類方法.其中應(yīng)用得最多最成熟的方法為系統(tǒng)聚類法,也是本文將采用的方法.其思路為首先將每個數(shù)據(jù)對象各視為一類,根據(jù)類與類之間的距離或相似程度將最相似的類加以合并,再計算新類與其它類之間的相似程度,并選擇最相似的類加以合并,這樣每合并一次就減少一類,不斷繼續(xù)這一過程,直到所有數(shù)據(jù)對象合并為一類為止[7].
定義類與類之間的距離的方法有很多,應(yīng)用歐幾里得距離(Euclidean distance),即
由于納入分析的各變量方差相差太大時,變異度的差異會影響結(jié)果的正確性,所以一定要進行變量的標(biāo)準(zhǔn)化.類的個數(shù)可以綜合系統(tǒng)聚類的結(jié)果和前面主成分分析的圖形聚類分析共同確定.
根據(jù)主成分分析的思想,應(yīng)用SPSS 16.0軟件作為統(tǒng)計分析工具,首先將原始數(shù)據(jù)做標(biāo)準(zhǔn)正態(tài)變換(Z-Scores),消除數(shù)量級和量綱差異的影響[8],其次建立相關(guān)系數(shù)矩陣如表1所示.
表1 相關(guān)矩陣Tab.1 Correlation matrix
通過數(shù)據(jù)處理得相關(guān)系數(shù)矩陣,從矩陣可看出指標(biāo)間存在較強的相關(guān)性.進而對原始數(shù)據(jù)進行因子分析的可行性檢驗(KMO 值和巴特利特球形檢驗).KMO 的值為0.760>0.6;而巴特利特球形檢驗的顯著性水平小于0.05,因此拒絕巴特利特球形檢驗的零假設(shè).以上種種分析結(jié)果都表明樣本適合主成分分析.進而求得主成分分析的方差累計貢獻率如表2所示.
表2 特征值與貢獻率[9]Tab.2 Eigenvalue and contribution
可見得到的前兩個因子提取了原始數(shù)據(jù)的86.287%的數(shù)據(jù)信息,因此可以提取前兩個因子作為主成分.同時也要注意,第一個主成分提取了73.187%的數(shù)據(jù)信息,相對于第二個主成分,它占有絕大多數(shù)的比例.而且從第二個主成分的主要數(shù)據(jù)源X6(根據(jù)表3)的原始數(shù)據(jù)分析,各省市的多媒體教室利用率的數(shù)值差異并不大(最小為86.58%,最大為94.64%).通過以上分析本文認(rèn)為,從反映原始數(shù)據(jù)的角度來說第一主成分是更加重要和需要首要考慮的.
兩個主成分與原始變量指標(biāo)之間的關(guān)聯(lián)程度由因子載荷值來體現(xiàn),如表3所示.從表中可以看出第一主成分在前5個指標(biāo)上具有較大的載荷值,第二主成分在第6個指標(biāo)上具有較大的載荷值.聯(lián)系實際指標(biāo)意義可知,第一個主成分主要反映的是信息化設(shè)施配置水平,第二個主成分主要反映的是信息化設(shè)施的利用情況(這里主要是考察多媒體教室).顯然這兩個主成分是互為消漲的.
表3 成分的因子載荷和得分系數(shù)表Tab.3 Component’s factor loading and factor score
為了更直觀的查看考察對象的兩個主成分得分情況,采用線性回歸的方法得到了成分得分的系數(shù)矩陣如表3 所示.由此可得到主成分得分的表達式為
將各省、直轄市的標(biāo)準(zhǔn)化后的數(shù)據(jù)帶入上式可計算出它們兩個主成分的得分,進而可以畫出如圖1(見下頁)所示的散點圖,由于第一主成分比較重要,故意將橫軸(第一主成分)的單位長度適當(dāng)加大,以方便觀察.
從圖1看到北京的數(shù)據(jù)在基本設(shè)備配置水平方面遠(yuǎn)遠(yuǎn)高于其它省份,上海和廣東省分居其后.吉林省和上海市在信息化設(shè)施的利用率方面相對較低,說明在現(xiàn)有的教學(xué)模式下,信息化設(shè)施基本滿足使用要求.
圖1 主成分散點圖Fig.1 Main components scatter chart
應(yīng)用SPSS軟件的系統(tǒng)聚類方法,得到圖2 的聚類結(jié)果.
圖2 系統(tǒng)聚類圖Fig.2 System cluster chart
結(jié)合圖1 的情況考察對象劃分為4 類比較合理.第一類為第一主成分較低的省市,分別為內(nèi)蒙古自治區(qū)、云南省、甘肅省、陜西省和湖南省,這些省份應(yīng)該首要考慮提高轄內(nèi)高校的信息化基本設(shè)備的配置水平,其次要考慮轉(zhuǎn)變教學(xué)模式,靈活運用多媒體等信息化手段來改善教學(xué)效果.第二類為第二主成分比較高的湖北省,由于信息化基礎(chǔ)設(shè)施的利用率相對較高,說明該省內(nèi)高校信息化設(shè)備的利用處于飽和狀態(tài),所以進一步提高信息化設(shè)施的配置是當(dāng)務(wù)之急.第三類為第一主成分相對較高,第二主成分相對較低的吉林省、廣東省和上海市,它們所轄的高?,F(xiàn)有信息化基本設(shè)備配置基本滿足要求.但是從圖1中注意到吉林省和上海市的信息化基礎(chǔ)設(shè)施的利用率偏低,應(yīng)進一步關(guān)注其高校的教學(xué)方式,及利用信息化先進技術(shù)的情況.最后一類為北京市,其所屬高校無論在信息化基本設(shè)備配置的水平上,還是在信息化基礎(chǔ)設(shè)施的利用上都表現(xiàn)較好.
通過上述分析,得出我國高校的信息化基本設(shè)備配置方面存在著不平衡表現(xiàn)的結(jié)論.東部沿海地區(qū)在信息化基礎(chǔ)設(shè)施建設(shè)方面要遠(yuǎn)遠(yuǎn)優(yōu)于中西部地區(qū),這不利于我國高等教育的均衡發(fā)展.國家應(yīng)當(dāng)考慮從多方面扶持內(nèi)陸貧困地區(qū)的高等教育信息化基本設(shè)備配置建設(shè).從調(diào)研的10個省市來看,北京市的信息化基礎(chǔ)設(shè)施建設(shè)最好,內(nèi)蒙古自治區(qū)、云南省、甘肅省、陜西省和湖南省的基礎(chǔ)設(shè)施建設(shè)還有待改善.從信息化基礎(chǔ)設(shè)施的利用率來看,吉林省和上海市的利用率較低,可以進一步考察其在教學(xué)方式方法上是否有待改善.
[1]楊小平.統(tǒng)計分析方法與SPSS應(yīng)用教程[M].北京:清華大學(xué)出版社,2008:227-228.
[2]Jolliffe I T.Pricipal component analysis[M].New York:Springer-Verlag,1986.
[3]Wang X C,Paliwal K K.Feature extraction and dimensionality reduction algorithms and their applications in vowel recognition[J].Pattern Recognition,2003,36(10):2429-2439.
[4]陳清華,李林錦,翁正秋.基于新聚類算法的推薦系統(tǒng)的研究 與 實 現(xiàn)[J].電 腦 知 識 與 技 術(shù),2010,6(6):1523-1525.
[5]“教育信息化建設(shè)與應(yīng)用研究”課題組.我國教育信息化建設(shè)與應(yīng)用專題研究報告[M].北京:高等教育出版社,2010.
[6]王學(xué)民.統(tǒng)計分析方法及應(yīng)用[M].上海:上海財經(jīng)大學(xué)出版社,2010.
[7]唐敏,陳道平.基于因子分析和聚類分析的重慶市經(jīng)濟發(fā)展?fàn)顩r研究[J].現(xiàn)代商貿(mào)工業(yè),2008(9):130-131.
[8]張文彤.SPSS11統(tǒng)計分析教程[M].北京:北京希望電子出版社,2002.
[9]柯兵,錢省三.聚類分析和因子分析在股票研究中的應(yīng)用[J].上海理工大學(xué)學(xué)報,2002,24(4):371-373.