曹 奇
(常州紡織服裝職業(yè)技術(shù)學院 創(chuàng)意學院,江蘇 常州 213164)
目前對高校資助政策進行評估的主要是相關(guān)政府部門,學生很少有機會參與政策的評估,其資助政策決策缺少外部的制約,相關(guān)的資助政策評估機制缺乏相應的技術(shù)支持[1]。目前高校受資助學生貧困程度決策主要以定性為主,輔之以定量分析。定性分析研究更加偏向于主觀的價值判斷,由于沒有運用數(shù)理統(tǒng)計分析方法,缺乏客觀性與科學性,容易造成高校資助部門無法從量化的角度了解學生資助政策實施的實際情況,不利于學生資助政策評估工作的正常開展。
高校資助政策對家庭貧困學生能夠享受到公平的受教育權(quán)和均等的個人發(fā)展權(quán)具有重要意義[2-3]。但在實施過程中,存在對部分真正困難學生的資助落實不到位,一些學生的貧困等級定得過高,部分失信學生助學貸款拖欠嚴重等問題,這些問題直接影響高校助學政策的有效實施。
受資助學生庫涉及的貧困指標變量很多,并且變量之間相關(guān)性明顯,所包含的信息有所重疊[4]。主成分分析方法可以對原始變量進行降維,抓住事物的主要矛盾,在繁雜冗余的數(shù)據(jù)中盡可能多地提取重要真實的學生貧困信息[5-6],選擇若干個有意義的主成分進行序列重建,降低冗余信息干擾,使問題得到簡化。本文利用常州紡織服裝職業(yè)技術(shù)學院創(chuàng)意學院400名受資助學生庫中的貧困信息,采用主成分分析的方法進行系統(tǒng)建模,建立該院學生貧困程度綜合評估模型,為學院資助系統(tǒng)提供決策支持。
主成分分析又稱主分量分析(Principal Component Analysis,PCA),是一種通過降低維度的技術(shù)使多個具有一定相關(guān)性的變量重新組合成為幾個互不相關(guān)的主成分(綜合變量)的多元統(tǒng)計方法[7]。這些主成分包含了原始變量中大部分的有效信息,通常表示為原始變量的線性組合。
1) 將一個樣本量為n,指標個數(shù)為p的原始數(shù)據(jù)進行標準化得到矩陣[8-9]
(1)
2) 將標準化矩陣X進行時間正交函數(shù)展開,得到協(xié)方差陣
(2)
3) 確定與選擇主成分。S是對稱矩陣且主對角線為同一常數(shù)(Toeplitz矩陣)[10],其全體特征值
λ1≥λ2≥…≥λp≥0,
(3)
其中{λ1,λ2,…λm}所對應的第1,第2,…,第m(m≤p)個主成分,計算其主成分貢獻率
(3)
累計貢獻率
(4)
一般取累計貢獻率達到85%—95%的特征值所對應的主成分。
4) 根據(jù)選擇的主成分個數(shù)對樣本數(shù)據(jù)重新進行綜合匯總
Fi=A1X1+A2X2+…+AiXi(i=1,2,…,p),
(5)
其中Ai表示λi所對應的特征向量,
Ai=(a1i,a2i,…,aii)T(i=1,2,…,p),
Xi表示為樣本行向量,
Xi=(xi1,xi2,…,xip) (i=1,2,…,p)。
5) 主成分分析用于系統(tǒng)評估,以主成分Fi的貢獻率Ti為權(quán),利用主成分的表達式F1,F(xiàn)2,…,F(xiàn)p進行線性組合,構(gòu)造綜合評價函數(shù),即
(6)
其中Y成為評價指數(shù),可以對系統(tǒng)計算出來的Yi(i≤n)排序,從而進行有效的分類劃級。
以筆者所在的創(chuàng)意學院受資助學生庫中篩選的包含大一、大二、大三年級的405名學生數(shù)據(jù)進行貧困程度模型分析,用其中400名學生的資助數(shù)據(jù)進行基礎建模,用建立的貧困程度診斷模型對新入庫的5位學生貧困程度進行評價分析。
學生受資助庫中存放大量數(shù)據(jù),但大部分數(shù)據(jù)是定性描述,而且定量記錄的數(shù)據(jù)很少,這些數(shù)據(jù)很難進行統(tǒng)計分析。要準確評估受資助學生貧困程度,其指標的建立至關(guān)重要:
1) 選取的貧困程度測評指標必須是學生、教師、家長認為重要的,從前期的調(diào)查問卷中可以準確選擇大家認為最關(guān)鍵、最重要的測評指標。
2) 部分測評指標必須能夠控制,若某些指標學生在某一時間段還不能夠完成或者能夠繼續(xù)改進的,則暫時不采用,比如大一學生剛?cè)霂鞎r的義工時間完成率指標、操行等級、成績指標等。
3) 選擇的貧困程度指標必須是可以測量的,最后對400名學生建立的貧困程度測評結(jié)果是量化的值,因此選擇的貧困指標必須是可以進行四則運算、統(tǒng)計分析的。
4) 選取的貧困指標必須具有代表性,防止部分指標出現(xiàn)強相關(guān)造成數(shù)據(jù)冗余。
基于上面4條原則,在深度網(wǎng)絡調(diào)查、學生問卷調(diào)查、家長抽訪與師生進行座談等定性研究中得到以下8類指標:家庭月收入X1,家庭成員狀況X2,家庭基本屬性X3,家庭貧困原因X4,年資助金額X5,學生月消費X6,證明材料X7,成績排名X8。將選擇的貧困測評指標影響程度分為5級,從毫無影響到影響極重分別記為1,2,3,4,5分,即不貧困1分、輕度2分、中度3分、重度4分、極重5分。對這8類指標根據(jù)實際情況給予量化,可以消除量綱對指標變量的影響,具體量化指標見表1。
表1 受資助學生貧困程度量化表
(7)
對學院400名受資助學生8類測評指標進行貧困程度量化,并將量化數(shù)據(jù)進行標準化處理,可以計算出8類貧困指標之間的相關(guān)系數(shù)矩陣R。
加權(quán)相關(guān)系數(shù)的絕對值從0到1,相關(guān)性從弱到強,從相關(guān)系數(shù)分布來看,除家庭基本屬性X3與證明材料X7相關(guān)系數(shù)為0.746外,其他貧困指標之間相關(guān)系數(shù)的絕對值都小于0.5,說明該貧困指標體系中選取的指標較好、重復性較少、相關(guān)性較低、獨立性較高。
對測評指標數(shù)據(jù)進行主成分分析,可以得到測評數(shù)據(jù)相關(guān)系數(shù)矩陣的各主成分所對應的特征值、主成分貢獻率以及累積貢獻率(見表2)。
表2 受資助學生貧困數(shù)據(jù)主成分分析提取分析表
特征值選取常用的方法有兩種,分別為觀察法則和經(jīng)驗法則。觀察法則:觀察特征值序列的變化,選擇排在前面較大的特征值為有效特征值,其余的置零;經(jīng)驗法則:主成分的特征值盡量大于1,主成分的累計貢獻率在85%~95%之間[7-9]。
事實上,在庫學生貧困程度受各種貧困指標的影響,單純從特征值的變化上很難區(qū)分真實的貧困信息與冗余信息,但由于真實的貧困信息與冗余信息的統(tǒng)計性質(zhì)不同,特征值的變化趨勢不同,即會出現(xiàn)拐點,表現(xiàn)在特征值曲率上會出現(xiàn)峰值[10]。根據(jù)這一特點,基于特征值曲率譜峰值選取重建有效特征值的方法,表示利用特征值曲率譜最大峰值點選擇有效特征值個數(shù):若特征值曲線在曲率譜最大峰值點k處是凸出來的,則有效特征值個數(shù)為k;如果特征值曲線在k處是凹進去的,則有效特征值的個數(shù)為k-1(見圖1)。
圖1 受資助學生貧困測評指標曲率譜全景和特征值直方圖
圖1為學院受資助學生貧困測評指標曲率譜全景和特征值直方圖,直方圖中第5,第6特征值所占比例接近,在無法進行有效特征值區(qū)分情況下,根據(jù)曲率譜峰值對特征值曲線拐點的反映狀況發(fā)現(xiàn):
1) 曲率譜在前面6個奇異值時存在峰值且譜值較大,呈現(xiàn)出的特征值曲線上下波動明顯。
2) 在第5個特征值上存在曲率譜峰值點,特征值曲線是凹進去的。故有效主成分為4。
前4個特征值累積貢獻率達到74%,說明前4個主成分基本包括了全部貧困指標的有效信息,表3為取前4個特征值計算的受資助學生貧困數(shù)據(jù)的特征向量。
表3 受資助學生貧困數(shù)據(jù)特征向量分布
前4個主成分分量模型表達式
其中i=1,2,3,4。
第一主成分表達式中X3,X7指標起主要作用,可以把第一主成分看成是受資助學生家庭固有貧困程度的綜合指標。
第二主成分表達式中X1,X2,X5指標影響大且均衡,X4,X8指標所占比例較大,可以把第二主成分看成是受資助學生品學兼優(yōu)評價的重要指標。
第三主成分表達式中X1,X5指標影響較大,可以把第三主成分看成是受資助學生家庭總體收入的重要指標。
第四主成分表達式中X6指標起最大作用,可以把第四主成分看成是受資助學生消費的重要指標。
利用主成分模型表達式F1,F(xiàn)2,F(xiàn)3,F(xiàn)4進行組合,以方差貢獻率作為權(quán)重可以建立學院受資助學生貧困程度綜合評價模型:
利用此貧困程度模型可以對學生的貧困指數(shù)Y進行計算,并且進行排名,名次越高,說明學生貧困程度越嚴重。
對新入庫的5名學生進行貧困程度分析,確定相應的貧困等級與資助等級。表4為學院新入庫5名學生貧困測評指標量化情況,為保護學生隱私,表中不是真實姓名。利用貧困程度綜合評估模型對5名學生貧困指數(shù)Y進行計算,藏族女孩卓瑪貧困程度綜合測評分Y最高,在總貧困生庫中排在前10%,最高貧困等級Ⅰ級;柳榮、劉歡貧困程度綜合測評排在2,3名,在總貧困生庫中排在20%~50%之間,貧困等級Ⅱ級;五茂、愛平貧困程度綜合測評排在4,5名,在總貧困生庫中排在50%之后,貧困等級Ⅲ級。
表4 新入庫5名學生貧困測評指標量化情況(名字已化名)
利用學院400名受資助學生庫中的貧困信息,采用主成分分析的方法進行系統(tǒng)建模,建立學院學生貧困程度綜合評估模型,歸納結(jié)論如下:
1) 結(jié)合相關(guān)系數(shù)矩陣構(gòu)建了助學幫扶決策支持8類貧困測評指標的5級量化標準和量化分析模型。
2) 采用主成分分析方法建立學生貧困程度模型,在定性的指標數(shù)據(jù)中加入了定量分析,對量化指標進行了降維,有效降低了人為評定貧困等級的失誤。
3) 主成分分析中有效特征值的選擇一直是研究的難點,本文利用特征值曲率譜最大峰值點選擇有效特征值個數(shù),有效保留了受資助學生真實的貧困信息,減少通過觀察或者經(jīng)驗模型帶入冗余信息。
4) 建立的貧困程度綜合評估模型可以為學院資助系統(tǒng)提供決策支持,對學生獎助學金發(fā)放、學費減免、生源地貸款、臨時困難補助以及對新入庫的學生進行貧困程度定級具有積極作用,有利于高校對困難學生進行“精準幫扶”。