雷良燦
摘要:針對傳統(tǒng)高斯過程分類失衡數(shù)據(jù)的低精度和低效率,通過引入樣本權重系數(shù)的似然函數(shù)、后驗概率中的誘導變量及誘導因子重構研究,解決原始方法的分類向少數(shù)類偏移和計算復雜問題,本文重點闡述分類模型的構建內容和研究技術路線,并給出模型的具體應用和評價辦法,結果表明本文提出的大學生知識能力分類模型的構建方法切實可行。
【關鍵詞】大數(shù)據(jù) 分類模型 高斯過程分類似然函數(shù)
針對大量數(shù)據(jù)分類問題,國內外學者開展了大量研究工作,取得了很好的效果。目前,這個領域內的研究主要集中在三個方而的改進:數(shù)據(jù)集、算法和評價標準。數(shù)據(jù)集方而,主要是對數(shù)據(jù)預處理以改善數(shù)據(jù)集中各類樣本之問數(shù)目的不平衡,但隨著大數(shù)據(jù)思維及運用的普及,規(guī)范統(tǒng)計工作推進增強了數(shù)據(jù)的高維計量性,用于探討行為規(guī)律、預測發(fā)展方向等領域的數(shù)據(jù)挖掘、時序跟蹤、關聯(lián)分析、網(wǎng)絡聚類等大數(shù)據(jù)處理技術與相應軟件不斷完善,并逐步被集中于大數(shù)據(jù)管理系統(tǒng),以服務大數(shù)據(jù)分析,方便政府數(shù)據(jù)挖掘、形勢預測與調整措施提出。因此,針對高校大學生知識能力分類與評價智能處理研究顯得十分必要,本文在大數(shù)據(jù)背景下,給出分類模型的主要研究內容、研究方法及實驗方案。這對于高等學校、企事業(yè)等單位的人才分類與評價均具有重要的現(xiàn)實意義。
1 分類模型的構建內容分析
本模型的構建內容主要包括如下三個方而的內容,具體如下:
1.1 大規(guī)模失衡數(shù)據(jù)的高斯過程模型似然函數(shù)重構研究
基于傳統(tǒng)高斯過程分類模型,通過對似然函數(shù)的重構,建立似然函數(shù)及在似然函數(shù)基礎上構建的聯(lián)合似然函數(shù)與大規(guī)模數(shù)據(jù)集中少數(shù)類的敏感關系模型,使得錯分少數(shù)類樣本的代價大于錯分多數(shù)類樣本的代價,最終改善少數(shù)類樣本的分類預測精度。
1.2 高斯過程模型后驗概率誘導變量及誘導子
在傳統(tǒng)高斯過程模型基礎上,構建誘導變量Fu,繼而探索引入Fu的后驗概率P,在大規(guī)模正負類中,最終合成誘導變量Fu中的誘導子集,使得誘導變量和子集趨于最優(yōu),籍此降低計算復雜度和提升失衡數(shù)據(jù)的分類精度。
1.3 基于高校大學生知識能力的大規(guī)模失衡數(shù)據(jù)的高精度分類方法的實驗性驗證和應用
本文設計一個基于寧德師范學院大學生知識能力特征的大規(guī)模數(shù)據(jù)分類驗證平臺,驗證上述各項研究內容的結論,逐步完善各個環(huán)節(jié)在整體中的性能要求,建立性能評價模型,通過評價模型迭代完善分類模型性能和分類精度。
2 模型構建的技術路線分析
存牛頓方法、粗糙集、內外P集、K均值聚類算法等相關理論技術,對高斯過程模型的似然函數(shù)重構設計和實驗、后驗概率分布計算中的誘導變量及誘導因子構建方法進行研究,然后對核心算法進行實驗仿真和驗證。最后進行系統(tǒng)級設計,建立系統(tǒng)模型,完成系統(tǒng)驗證。具體的研究路線如圖1所示。
下而闡述解決主要問題的技術路線,具體如下:
2.1 大規(guī)模失衡數(shù)據(jù)的高斯過程模型似然函數(shù)重構研究技術路線
第一步:建立不少于10組的規(guī)模不一的失衡數(shù)據(jù)集,根據(jù)高校貧困學生的分布狀況,應控制這10組數(shù)據(jù)的規(guī)模控制比例,正負樣本的比例控制在1:10000以內,其中小于1:5000的實驗數(shù)據(jù)組不少于3組。
第二步:在傳統(tǒng)高斯過程潛變量函數(shù)基礎上,定義在訓練本上的似然函數(shù),并建立而向第一步多組數(shù)據(jù)集上的聯(lián)合似然函數(shù),這里的聯(lián)合似然函數(shù)的構建將根據(jù)實驗數(shù)據(jù)組的變化,構建多個聯(lián)合似然函數(shù),實驗驗證聯(lián)合似然函數(shù)的與實驗數(shù)據(jù)組的最佳關系,同時驗證聯(lián)合似然函數(shù)的、實驗數(shù)據(jù)組、各組正負樣本比例三者之問的關系。
第三步:充分驗證錯分一個少數(shù)類樣本的代價與錯分一個多數(shù)類樣本的代價對比結果,并驗證聯(lián)合似然函數(shù)對于少數(shù)正樣本類的敏感性。
第四步:在聯(lián)合似然函數(shù)中的正負類樣本對應的似然函數(shù)上引入不同的權重系數(shù),進行迭代式重構實驗,使得錯分少數(shù)類樣本的代價大于錯分多數(shù)類樣本的代價,在該步研究中,可能會遇到權重系數(shù)取值問題,對于問題解決辦法為:總體上應確保少數(shù)類樣本對應的權重系數(shù)要大于1,而多數(shù)類樣本對應的權重系數(shù)要小于1,兩類樣本數(shù)目越懸殊,權重的差距應根據(jù)實驗迭代驗證結果設定在一個合理值,總體目標是保證聯(lián)合似然函數(shù)中正負類樣本在整體上具有一樣的話語權。
2.2 高斯過程模型后驗概率誘導變量及誘導子集的構建研究技術路線
為構建一個最佳化的誘導變量和誘導子集,采用如下研究技術路線:
第一步:首先對樣本集使用粗糙集和P集理論方法進行連續(xù)數(shù)據(jù)離散化處理,繼而進行樣本集的篩選和屬性約簡研究。
第二步:構建誘導變量Fu,通過微積分推導出含有誘導變量Fu的后驗概率,在構建變量和后驗概率推導中,采用有限儲存牛頓方法、Gauss-Hermite求積公式、稀疏矩陣等計算得出高斯函數(shù)逼近參數(shù)值。
第三步:在第一步基礎上,進一步利用K均值聚類算法或改進的聚類算法、分別從正負類中選取相同數(shù)目的樣本來構成最佳誘導子集,在本步研究過程中,將會遇到的問題是:當均值聚類算法的迭代次數(shù)設定為某數(shù)值時,該算法有時會存在生成的聚類中心數(shù)目小于設定的數(shù)目的情況,從而造成聚類失敗,針對這種問題,采用的辦法是將隨機從樣本較多的聚類中選取相應數(shù)目的樣本來補齊。
3 實驗方案
在實驗方法上,可采用如下實驗方案:
(1)對比實驗:設置四個或四個以上同傳統(tǒng)高斯過程分類模型及目前優(yōu)秀的分類算法對比實驗,通過實驗結果的對比分析,找出本研究方法存在的問題,改正不足,逐步完善分類方法。
(2)驗證實驗:在高校大學生消費、購買等行為大規(guī)模特征數(shù)據(jù)基礎上,對集成后的分類方法進行驗證性實驗,通過驗證性實驗,主要驗證本課題的研究能否達到預期的設計目標。
在實驗工具上,采用如下實驗方案:
(1)在實驗階段,對于似然函數(shù)重構、誘導變量及誘導因子的構建、及與其它分類算法的對比實驗主要采用Matlab仿真軟件進行實驗分析與處理。此外,部分對比驗證性實驗借用sPss分析工具進行分析與評價。
(2)在驗證性應用階段,在本課題研究的分類方法基礎上,進一步使用VC工具開發(fā)出高校大學生知識能力輔助決策平臺。
4 結論
本文根據(jù)高校大學生知識能力評價業(yè)務的需求,結合海量數(shù)據(jù)樣本實際情況,介紹了大規(guī)模失衡數(shù)據(jù)的高斯過程模型似然函數(shù)重構、高斯過程模型后驗概率誘導變量及誘導子集的構建兩個重點研究內容及其研究技術路線,繼而闡述了分類模型的實驗方案和評價方法,文中介紹的模型構建方法具有較好的借鑒性,為了進一步提供模型的精確度,后續(xù)將開展樣本數(shù)據(jù)的關于大學生知識能力敏感特征選擇研究。
參考文獻
[1]邢勝,王熙照,王曉蘭,基于多類重采樣的非平衡數(shù)據(jù)極速學習機集成學習[J].南京大學學報(自然科學), 2016, 52(01): 203-209.
[2] Kim Hyun-chul, Ghahramani Z. Bayesian Gaussian process classification with the EM-EP algorithm[J].IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 28 (12): 18-2 0.
[3]H. Han,W.Y.Wang,B.H.Mao, Borderline-SMOTE:A new over-sampling method inimbalanced data sets learning. The 2005 International Conference on Advances in Intelligent Computing(ICIC' 05), 2014: 878-887.endprint