呂宗磊 陳國明
(1.中國民航信息技術科研基地 天津 300300)(2.中國民航大學計算機科學與技術學院 天津 300300)
?
基于觀察學習的概率分布預測模型研究*
呂宗磊1,2陳國明2
(1.中國民航信息技術科研基地天津300300)(2.中國民航大學計算機科學與技術學院天津300300)
論文結合松弛屬性約束和生成虛擬數(shù)據(jù)的思想,提出了基于觀察學習的概率分布預測模型。傳統(tǒng)上觀察學習主要用于單點預測和分類問題,論文將觀察學習機制應用到小樣本集下的概率分布預測問題。該模型利用松弛屬性約束分離出數(shù)據(jù)子集,三次樣條插值的方法構建基學習器,并借助虛擬數(shù)據(jù)使各基學習器達成一致。為了更好地應用模型,給出了信任度設定方法,完善了算法的退出機制。在人工數(shù)據(jù)和UCI公共數(shù)據(jù)集的相關實驗表明,基于觀察學習的概率分布預測模型解決了小樣本集下的概率分布預測問題,且優(yōu)化置信度后的算法具有更好的泛化能力和更高的精度。
觀察學習算法; 概率分布; 小樣本問題; 虛擬數(shù)據(jù)生成
Class NumberTP311
如何預測概率分布是機器學習領域中常遇到的一類問題,與單點預測相比,概率分布預測可以更精確地刻畫數(shù)字特征,如置信度、置信區(qū)間等。概率分布是描述隨機變量的一個有效工具,廣泛應用于各領域,如雷電流幅值[1]、風速趨勢檢測[2]、生物多聚體系統(tǒng)[3]等。通常樣本集足夠大時,分組統(tǒng)計頻次可近似替代概率分布函數(shù)。然而在一些新興領域,數(shù)據(jù)本身不足或者獲取數(shù)據(jù)的代價過高,不可避免地在小樣本集上研究概率分布。
小樣本問題(Small Sample Size Problem,SSSP)是一個廣泛存在的問題,在人臉識別[4]、語音情感識別[5]和3D動態(tài)手勢個性化交互[6]等領域備受關注,也是當前學術研究熱點之一。許多領域的研究結果表明,松弛屬性約束條件[7]和生成虛擬數(shù)據(jù)[8]是克服小樣本問題的有效思路。Li Der-Chiang等綜合考慮松弛屬性約束和生成虛擬數(shù)據(jù)的方法提出了基于遺傳算法的虛擬數(shù)據(jù)生成方法[9]。Zhang Cuicui等提出了一種基于泛化學習的集成框架,該框架基于泛化分布產(chǎn)生新數(shù)據(jù)以緩解小樣本問題的影響[10]。Jang Min等提出觀察學習算法[11],該算法生成的虛擬數(shù)據(jù)既用于擴充樣本集,又促使各學習器之間互相學習并達成一致,最終提高了算法的泛化能力。但這些方法主要針對數(shù)值預測,并不能直接作用于概率分布。
為了預測小樣本集的概率分布問題,本文采用松弛屬性約束的思想擴充有效樣本,采用改進的三次樣條擬合的概率分布作為基學習器。將觀察學習機制拓展到概率分布集成問題上,完善了概率分布預測模型的參數(shù)設置和退出機制。
觀察學習(Observational Learning)概念最早來自于1971年Bandura的社會學習理論[12],其核心思想是觀察者可以僅通過觀察榜樣的行為而自己不需要實際模仿,就能夠在日后表現(xiàn)出新的行為。1999年Jang Min將該思想引入到集成學習領域并提出了觀察學習算法(Observational Learning Algorithm,OLA)[11]。OLA采用生成虛擬數(shù)據(jù)的方式模擬觀察者學習榜樣的過程,這些虛擬數(shù)據(jù)中隱含了達到學習目標的輔助規(guī)則信息。隨后將觀察學習應用到多儲層滲透率預測[13],在訓練數(shù)據(jù)不充足的情況下仍然取得了良好的應用效果。2002年,Jang Min在原始的觀察學習的基礎上,進一步優(yōu)化了虛擬數(shù)據(jù)生成策略并分析了虛擬數(shù)據(jù)提高回歸算法泛化能力的原理。同時得出結論,OLA在集成的多樣性和平均誤差方面均優(yōu)于其他集成學習算法[14]。
觀察學習主要包括準備過程(P-step)、訓練過程(T-step)和觀察過程(O-step)。以回歸模型為例,原始的觀察學習采用BP神經(jīng)網(wǎng)絡作為其基學習器。在P-step設定學習器的數(shù)目k并采用Bootstrapping方法從數(shù)據(jù)集D中提取出相應子集D1,D2,…,Dk。在T-step通過子集Di訓練選定的學習器模型Li(如BP神經(jīng)網(wǎng)路);由于各個學習器并沒有強制要求類型相同,因此觀察學習機制也能拓展到異構集成學習問題。在O-step,實質是各個學習器Li提取其他學習生成虛擬數(shù)據(jù)的過程。在回歸模型中學習器先進行“-i”集成,即不含學習器Li的組合[14]。然后在真實樣本附近增加服從正態(tài)分布的隨機數(shù),由集成后的模型生成虛擬樣本,并添加到子集Di為新一輪訓練做準備。最后不斷重復訓練-觀察-再訓練過程,直至結束。
原始觀察學習并沒有規(guī)定停止訓練的條件,只是經(jīng)過充分大的訓練次數(shù)G后,停止觀察學習,將不同的新學習器按照一定比例(通常相同比例)組合成最終模型并輸出結果。其基本訓練框架如算法1所示,其中Step1~Step3是準備過程,Step4是準備過程,Step5~Step6是觀察過程。
算法1觀察學習集成框架
輸入:數(shù)據(jù)集D,基學習器模型L1,L2,…,Lk輸出:最終模型LGStep1:Li,i=1,2,…,k表示集成學習框架中的k個基學習器模型。Step2:Di,i=1,2,…,k表示用bootstrapping方法從原始數(shù)據(jù)集D中抽取的子集。Step3:G表示不斷訓練觀察的次數(shù),t=0Step4:對于每一個學習器Li,i=1,2,…,k,根據(jù)子集Di訓練學習器Li的參數(shù)。參數(shù)由各自基學習器類型不同,形式有所不同,但在集成模型中必須有相同的目標輸出。Step5:對于每一個學習器Li,i=1,2,…,k,虛擬數(shù)據(jù)產(chǎn)生方式如下:Lt-i=∑kj=1,j≠iβijLtj其中Ltj表示第j個學習器在第t次迭代時的模型;βij表示第j個學習器對第i個學習器的虛擬數(shù)據(jù)生成的影響因子;Lt-i表示第t次迭代后的“-i”集成的模型。第t次循環(huán)生成的虛擬數(shù)據(jù)Dti結合相應的輸出由Lt-i根據(jù)某種虛擬數(shù)據(jù)生成策略生成本次迭代的虛擬數(shù)據(jù)Dti。Step6:更新子集Di=Di∪Dti,t=t+1Step7:如果t?G,返回Step4;否則,執(zhí)行Step8。Step8:輸出LG=∑ki=1αiLGi,算法結束。
在Jang Min工作的基礎上,Yu Fan等將觀察學習機制從同構集成模型推廣到了異構集成模型,并分析了觀察學習提高分類性能的原因[15]。陳曦等提出了一種“基于學習成果優(yōu)異度加權”的觀察學習算法,克服了機場噪聲監(jiān)測點關聯(lián)預測中小樣本引起的欠擬合問題[16]。但這些預測并不涉及對概率分布的集成。文獻[17]將觀察學習拓展到預測概率分布,并分析了異構集成學習下的該概率分布預測模型同樣適用,但其置信度的設置依賴經(jīng)驗并不通用,且多學習器退出機制理論并不完善。
小樣本集下的概率分布預測問題主要研究在一組約束條件下目標屬性的概率分布問題。所謂小樣本并不單純指樣本總數(shù)少,而是指滿足約束條件,與研究目標相關的有效樣本少。出現(xiàn)這種情況也容易理解:之前收集的數(shù)據(jù)并不是針對當前研究的。因此,面對一個有效樣本少、相關數(shù)據(jù)豐富,同時存在無關數(shù)據(jù)的樣本集不可避免。針對此,提出了一種可行的概率分布預測算法。
3.1準備過程
數(shù)據(jù)集是條件屬性和目標屬性的笛卡爾積的子集,即D=A1×A2×…×As×T,其中s為條件屬性個數(shù),T為目標屬性。條件集C是約束條件的集合,預測概率分布實質是研究滿足特定條件集下的概率分布函數(shù)。
定義1有效集
數(shù)據(jù)集D中選擇所有滿足條件集C的記錄,其目標屬性值構成的集合稱為有效集,記作σC(D)。
其中有效集是多重集,允許有重復元素。例如表1數(shù)據(jù)集D在條件集C={A1=a,A2=b,A3=c}下的有效集σC(D)={2,2,4}。
表1 數(shù)據(jù)集D
當條件集C下的有效集足夠大時,采用傳統(tǒng)方法擬合概率分布函數(shù),然而有時有效集很小,無法滿足算法要求。數(shù)據(jù)集一方面有效樣本少,另一方面存在大量相關樣本,松弛屬性約束的目標在于如何利用這些“不太有效”樣本。
松弛屬性約束的本質是犧牲一定的精度,增強算法的泛化能力。以條件集C為例,同時滿足三個約束條件的樣本小于閾值ξ時,可以降低要求,選取同時滿足兩個約束的樣本。以此類推,若樣本數(shù)仍然小于ξ時,只選取滿足一個約束條件的樣本。逐步松弛過程如圖1所示。松弛的程度取決于原始數(shù)據(jù)集大小和閾值的選擇:當初始數(shù)據(jù)集過小時或閾值過大,會導致條件集松弛為空集,此時無意義;當初始數(shù)據(jù)充足但閾值過小時,不需要松弛屬性約束,即大樣本情況下,可以采用傳統(tǒng)統(tǒng)計方法直接擬合。
圖1 逐步松弛條件集的過程
確定松弛條件集后,如何抽取數(shù)據(jù)子集是準備過程的重要一步。在觀察學習的回歸模型中采用Bootstrapping的方法抽取子集,該方法認為各個學習器本質上是無區(qū)別的,抽取哪些樣本點也沒有區(qū)別,只需構建出相應學習器即可。然而在小樣本下的概率分布預測并不適合。這里學習器數(shù)量等于松弛屬性后新條件集的個數(shù),因而各個學習器代表的含義并不完全相同,這里抽取的子集Di設定為各自條件集下的有效集。
不同條件集下的有效集下會產(chǎn)生不同的概率分布函數(shù)。每個概率分布函數(shù)都在一定程度上代表最終概率分布,但真實的分布只有一個。也就是說,如何用多個條件分布組合出最終分布是核心問題,觀察過程將詳細介紹如何組合最終分布。
3.2訓練過程
訓練過程實質是將離散的點集擬合出概率分布函數(shù)。這里考慮兩種情況:一種情況是根據(jù)數(shù)據(jù)背景已知這些數(shù)據(jù)的分布類型,如正態(tài)分布。然后根據(jù)最大似然原理計算未知參數(shù)。另一種情況是不知道參數(shù)類型,這種情況在新問題中更常見??紤]到多項式函數(shù)能夠逼近任意形式的函數(shù),因此多項式插值是可行的方法。
插值的方法有多種,如拉格朗日插值、分段插值等,但高次多項式差值容易產(chǎn)生Runge現(xiàn)象,分段線性插值不能保持光滑性。一種較理想的方式是采用三次樣條插值,既可以保持分段插值的穩(wěn)定性,又可以保證插值函數(shù)的光滑性。
式(1)為分段三次樣條插值結果,其中xi為插值點,ai、bi、ci、di為待定系數(shù)i=0,1,…,n。
(1)
考慮到分布函數(shù)上的每一點都應該為正數(shù),而標準的三次樣條插值方法無法保證插值點處為正數(shù)的條件下,整條曲線也為正數(shù)。為此對插值函數(shù)進行調(diào)整,要求插值函數(shù)不僅過插值點,而且在插值點的一階導數(shù)為零。第i段的調(diào)整結果如式(2)所示。
(2)
訓練階段的學習器既可以是基于參數(shù)學習或基于非參數(shù)的插值函數(shù),也可以是二者混合。因此,基于觀察學習的概率分布預測模型同樣適用于異構集成。
3.3觀察過程
觀察過程主要通過生成虛擬數(shù)據(jù),使各個概率分布逐步趨于一致。在回歸模型中,可以通過文獻[14]中的“-i”集成方式組合新學習器生成虛擬數(shù)據(jù);但由于概率分布模型的各個學習器代表的含義不同,因此,虛擬數(shù)據(jù)應根據(jù)各自分布特點自行產(chǎn)生。虛擬數(shù)據(jù)體現(xiàn)了學習器的觀點,但學習器接受其他觀點的程度是不同的。為此給出信任度的定義。
定義2信任度
令A和B是兩個學習器,所謂A對B的信任程度θAB就是指一個0~1之間的實數(shù)來表示每一次A接受B觀點的程度。
為了便于分析,假設A對B的信任程度與A、B自身的觀點之間是獨立的,即θAB和θBA不必相等,也不必滿足特定約束。事實上,信任程度可以看作是一個在學習器進行討論前就已經(jīng)存在的先驗知識。因此,A對B的信任程度可以看作是一個常數(shù)。
在概率分布模型中,每個學習器都代表一組約束下的分布函數(shù),因此屬性間的數(shù)量關系反映了兩個學習器間的信任程度。因此,定義第i個學習器對第j個學習器的置信度如式(3)所示。
(3)
其中,Ci,Cj表示松弛后對應第i個和第j個學習器的條件集。信任度決定了觀察過程中一個學習器吸收其他學習器產(chǎn)生虛擬數(shù)據(jù)的比例。另一個問題是虛擬數(shù)據(jù)如何生成。
虛擬數(shù)據(jù)可以是服從各自概率分布的隨機數(shù),只要數(shù)目足夠多就能夠代表自身分布。但若每個學習器按照自身模式隨機生成,無法保證最終概率分布的一致性。為此,虛擬數(shù)據(jù)的另一部分隨自身概率分布特點固定的產(chǎn)生虛擬點。兩種虛擬數(shù)據(jù)生成的數(shù)據(jù)集可以由V1+αV2表示,其中V1=σ1(f,N),表示隨機生成N個服從f的虛擬數(shù)據(jù),V2=σ2(f,N),表示固定生成N個服從f的虛擬數(shù)據(jù),α為比例函數(shù),初始為0,隨迭代次數(shù)的增加逐步增加到1。
這種混合生成虛擬數(shù)據(jù)的機制,既保證了算法的泛化能力,又保證了算法的收斂性。特別的當α≡1時,相當于幾個概率分布的組合輸出。
3.4退出機制
在回歸模型中,并未給出退出訓練-觀察的條件,當學習器觀點一致,或者當分布函數(shù)差異度為零時,則可以代表數(shù)據(jù)集下的泛化分布函數(shù)。分布函數(shù)的差異度是指任意兩個概率分布函數(shù)差的積分值,如式(4),或者用1-Div〈fi,fj〉/2表示二者的相似性。為了提高運算效率,迭代過程采取統(tǒng)計隨機點的均方誤差來衡量兩個分布的差異,如式(5),其中x1,x2,…,xm為隨機點。
(4)
(5)
若任意兩個分布的差異度都小于退出閾值ζ后,則任意分布函數(shù)都是最終的泛化分布函數(shù)。算法2給出了基于觀察學習的概率分布預測模型的完整運算過程。
算法2基于觀察學習的概率分布預測模型
輸入:數(shù)據(jù)集D,條件集C,閾值ξ,退出閾值ζ輸出:最終模型fStep1:比較|σC(D)|和ξ,若|σC(D)|<ξ,則松弛C,并比較每一個子條件集|σCi(D)|和ξ,直至對每個條件集都有|σCi(D)|?ξ;此時對應的條件集分別為C1,C2,…,Ck。Step2:從數(shù)據(jù)集中抽取子集Di=σCi(D),其中i=1,2,…,k。Step3:計算信任度矩陣θ,其中每個元素的計算方法如下θij=|σCi∪Cj(D)||σCj(D)|Step4:用三次樣條插值方法將子集Di擬合概率分布函數(shù)fi其中,i=1,2,…,k。Step5:for(i=1;i?k;i++)begin for(j=1;j?k;j++) D*j=σ1(fj,θij|D|)+ασ2(fj,θij|D|) Di=Di∪D*i endStep6:更新后的子集Di擬合新的fi,i=1,2,…,k。Step7:隨機生成m個隨機數(shù)x1,x2,…,xm。并計算DivDiv=max1?i,j?n∑mk=1(fi(xk)-fj(xk))2。Step8:若Div>ζ回到Step5,否則下一步。Step9:輸出結果一致的概率分布f,算法結束。
其中Step1~Step3是準備過程,尋找有效集的復雜度為O(kn),其中n表示樣本數(shù)目,k表示屬性個數(shù);當k不大時,松弛屬性約束的過程可以視為常數(shù)。Step4~Step6是訓練-觀察-再訓練過程,其復雜度主要受到生成虛擬數(shù)據(jù)個數(shù)的影響,觀察-訓練的迭代次數(shù)與退出閾值ζ相關。Step7~Step9判斷算法是否終止并輸出最終分布,其時間復雜度為O(m),其中m為隨機數(shù)的個數(shù)。
為了驗證基于觀察學習的概率分布預測模型的有效性,選取樣本充足的人工數(shù)據(jù)及UCI上的公共數(shù)據(jù)集,設計了以下幾組實驗。
實驗一:三次樣條插值效果分析。實驗隨機生成10000個服從正態(tài)分布N(0,1)的隨機點,然后采用分八段的三次樣條插值進行擬合。并檢驗三次樣條插值與標準正態(tài)分布的相似性,實驗結果如圖2所示。
實驗表明,用三次樣條插值方法得到的正態(tài)分布與標準正態(tài)分布的相似性高達98.91%。說明在樣本充足時,直接通過三次樣條插值擬合概率分布是可行的。因此,在未知數(shù)據(jù)分布的情況下,采用直接三次樣條插值獲得的概率分布函數(shù)作為基準分布是合理的。
圖2 三次樣條插值效果圖
實驗二:退出機制分析。選取UCI數(shù)據(jù)集quake,該數(shù)據(jù)集包含三個條件屬性(震源深度,緯度,經(jīng)度)和一個目標屬性(地震等級)。根據(jù)震源深度可以分為淺源地震(60km以下)、中源地震(60到300km)和深源地震(300km以上)。實驗輸出為中國及周邊地區(qū)的淺源地震的概率分布,因此條件集為C={0≤focal_depth≤60,4≤latitude≤53,73≤longitude≤135}。為了驗證混合虛擬數(shù)據(jù)生成機制保證最終分布的一致性,設置系數(shù)函數(shù)α如式(6)所示,其中t表示迭代次數(shù);退出閾值ζ=0.001。迭代過程的差異度如表2所示。
(6)
表2 迭代過程表
從表2中可知,在前20次循環(huán)時,差異度整體上逐漸減小,由于隨機因素的影響,出現(xiàn)個別差異度增大的情況。但隨著迭代次數(shù)到20次以后,隨機因素影響減小,不同分布之間的差異度穩(wěn)定地逐漸減小,直到趨同。
實驗三:驗證基于觀察學習概率分布預測模型的預測效果。數(shù)據(jù)集及參數(shù)設置與實驗二相同,選擇直接用三次樣條擬合的分布為標準fS,比較概率分布的平均相加fA、置信度參數(shù)相同(當i≠j時,θij=0.1;否則,θij=1)的觀察學習fO1、改進置信度的觀察學習方法fO2。對應的單約束的條件分布曲線(初始基學習器)和最終的分布曲線對比圖如圖3、4所示。
其中圖4中fS與fA、fO1、fO2的相似性分別為86.87%、94.02%,97.76%。該實驗結果表明,基于觀察學習的概率分布預測模型顯著優(yōu)于概率分布的簡單疊加,并且優(yōu)化置信度后的觀察學習算法具有更高的精度。
圖3 各條件分布圖
圖4 不同方法對比圖
實驗四:其他數(shù)據(jù)集上的分析。選取不同屬性,不同條件集下的大樣本數(shù)據(jù)集,對改進的觀察學習與三次樣插值得到的標準分布進行比較分析,結果如表3所示,其中相似性是指實驗三中fA與fO2的相似性。
表3 不同數(shù)據(jù)集的相似性
實驗表明,觀察學習算法在不同數(shù)據(jù)集上具有廣發(fā)的適用性,無論條件集約束是離散屬性、連續(xù)屬性或者混合型的;并且在樣本充足時,與三次樣條插值算法預測的概率分布具有高度的相似性,基本在95%以上。
本文將觀察學習集成機制應用到了預測概率分布問題上。該模型利用松弛屬性約束和生成虛擬數(shù)據(jù)的思想極大地擴充了樣本集,使其能夠應用在小樣本數(shù)據(jù)集上。而后改進了觀察學習的置信度參數(shù)設置并優(yōu)化了退出機制。在UCI公共數(shù)據(jù)集的相關實驗表明,基于觀察學習的概率分布預測模型解決小樣本下的概率分布預測問題,并且在樣本充足是其預測結果與三次樣條預測的概率分布有95%以上的相似性。
[1] 劉剛,張弦,陳錫陽,等.雷電流幅值概率分布函數(shù)的分段擬合方法[J].華南理工大學學報(自然科學版),2014,42(4):40-45.
LIU Gang, ZHANG Xian, CHEN Xiyang, et al. Sectioned fitting method of probability distribution function of lightning current amplitude[J]. Journal of South China University of Technology(Natural Science Edition),2014,42(4):40-45.
[2] Shamshirband S, Petkovic D, Tong Chong Wen, et al. Trend detection of wind speed probability distribution by adaptive neuro-fuzzy methodology[J]. Elsevier,2015,45(10):43-48.
[3] Albert J, Rooman M. Probability distributions for multimeric systems[J]. Journal of Mathematical Biology,2015,72(1-2):157-169.
[4] Wang C P, Zhang J S, Chang G D, et al. Singular value decomposition projection for solving the small sample size problem in face recognition[J]. Journal of Visual Communication and Image Representation,2015,26(10):265-274.
[5] 毛啟容,趙小蕾,白李娟,等.結合過完備字典與PCA的小樣本語音情感識別[J].江蘇大學學報(自然科學版),2013,34(1):60-65.
MAO Qirong, ZHAO Xiaolei, BAI Lijuan, et al. Recognition of speech emotion on small samples by over-complete dictionary learning and PCA dimension reduction[J]. Journal of Jiangsu University(Natural Science Edition),2013,34(1):60-65.
[6] 武匯岳,王建民,戴國忠.基于小樣本學習的3D動態(tài)視覺手勢個性化交互方法[J].電子學報,2013,41(11):2230-2236.
WU Huiyue, WANG Jianmin, DAI Guozhong. Personalized interaction techniques of vision-based 3D dynamic gestures based on small sample learning[J]. Acta Electronica Sinica,2013,41(11):2230-2236.
[7] Yang Y, Wang X Q. Attribute reduction based on the grey relational analysis and dynamic programming[C]//Natural Computation (ICNC), 2013 Ninth International Conference on. IEEE,2013:697-701.
[8] Li D C, Lin L S, Peng L J. Improving learning accuracy by using synthetic samples for small datasets with non-linear attribute dependency[J]. Decision Support Systems,2014,59:286-295.
[9] Li D C, Wen I H. A genetic algorithm-based virtual sample generation technique to improve small data set learning[J]. Neurocomputing,2014,143:222-230.
[10] Zhang C C, Liang X F, Matsuyama T. Generic learning- based ensemble framework for small sample size face recognition in multi-camera networks[J]. Sensors,2014,14(12):23509-23538.
[11] Jang M, Cho S. Ensemble learning using observational learning theory[C]//Proc of the International Joint Conference on Neural Networks (IJCNN),1999:1287-1292.
[12] Bandura. Social leaning theory[M]. General Learning Press. New York, USA,1971.
[13] Wong P M, Jang M, Chos S, et al. Multiple permeability predictions using an observational learning algorithm[J]. Computers & Geosciences,2000,26(8):907-913.
[14] Jang M, Cho S, Observational learning algorithm for an ensemble of neural networks[J]. Pattern Analysis & Applications,2002,5(2):154-167.
[15] 虞凡,楊利英,覃征.異構集成學習中的觀察學習機制研究[J].廣西師范大學學報(自然科學版),2006,24(4):54-57.
YU Fan, YANG Liying, QIN Zheng. Observational learning algorithm for heterogeneous ensembles[J]. Journal of Guangxi Normal University(Natural Science Edition),2006,24(4):54-57.
[16] 陳曦,王建東,陳海燕.基于觀察學習的機場噪聲監(jiān)測點關聯(lián)預測研究[J].計算機工程與科學,2015,37(2):335-341.
CHEN Xi, WANG Jiandong, CHEN Haiyan. Research on the associated prediction of airport-noise monitoring nodes based on observational learning[J]. Computer Engineering & Science,2015,37(2):335-341.
[17] Lu Z L, Xu T. A new method to predict probability distribution based on heterogeneous ensemble learning[J]. International Journal of Advancements in Computing Technology,2012,4(14):17-25.
Prediction Model of Probability Distribution Based on Observational Learning
LV Zonglei1,2CHEN Guoming2
(1. Information Technology Research Base of Civil Aviation Administration of China, Tianjin300300) (2. College of Computer Science and Technology, Civil Aviation University of China, Tianjin300300)
A new prediction model of probability distribution based on observational learning has been proposed in this paper, which is combined with the concept of loosening control conditions and virtual sample generation. Observational learning algorithm is expanded to research the probability distribution under small sample in this model, which is applied to point prediction and classification traditionally. The model extracts the subsets with loosening attribute conditions and creates base learners with cubic spline interpolation function. The virtual samples are used to promote the consistency of base learners eventually. The model provides calculation formula for trust of learner and optimizes the exit mechanism to apply the model better. The results from manual dataset and real world problems from UCI repository shows that the model solves the problem of probability distribution prediction under small samples and the optimized observational learning algorithm is better and higher in generalization and precision than before.
observational learning algorithm, probability distribution, small sample size problem, virtual sample generation
2016年3月18日,
2016年4月27日
中央高?;究蒲袠I(yè)務中國民航大學專項基金項目(編號:3122013z004);中國民用航空科技基金項目(編號:MHRD20140315)資助。
呂宗磊,男,博士,副教授,碩士生導師,研究方向:數(shù)據(jù)挖掘、機器學習與知識工程等。陳國明,男,碩士研究生,研究方向:數(shù)據(jù)挖掘、機器學習等。
TP311DOI:10.3969/j.issn.1672-9722.2016.09.002