李俊華,白鶴舉
(1.河北大學(xué) 數(shù)學(xué)與信息科學(xué)學(xué)院,河北 保定 071002;2.承德石油高等??茖W(xué)校 基礎(chǔ)教學(xué)部,河北 承德 067000)
?
基于Hybrid樣本的學(xué)習(xí)過程一致收斂速度的界
李俊華,白鶴舉
(1.河北大學(xué) 數(shù)學(xué)與信息科學(xué)學(xué)院,河北 保定071002;2.承德石油高等??茖W(xué)校 基礎(chǔ)教學(xué)部,河北 承德067000)
學(xué)習(xí)過程收斂速度的界是統(tǒng)計學(xué)習(xí)理論的重要組成部分,這些界決定了學(xué)習(xí)機(jī)器的推廣能力.以機(jī)會理論和Hybrid變量的概念為基礎(chǔ),討論了基于Hybrid樣本的學(xué)習(xí)過程一致收斂速度的界,并給出了這些界和函數(shù)容量之間的關(guān)系.
Hybrid變量;Hybrid經(jīng)驗風(fēng)險最小化原則;一致收斂速度的界
MSC 2010:28E10
統(tǒng)計學(xué)習(xí)理論(statistical learning theory,簡稱SLT)是專門針對小樣本情況研究機(jī)器學(xué)習(xí)規(guī)律的理論,學(xué)習(xí)理論的關(guān)鍵定理和學(xué)習(xí)過程收斂速度的界在SLT中起著非常重要的作用,學(xué)習(xí)理論的關(guān)鍵定理給出了基于經(jīng)驗風(fēng)險最小化原則的學(xué)習(xí)過程一致性的充分必要條件,而通過對學(xué)習(xí)過程收斂速度的界的討論則可以進(jìn)一步研究基于經(jīng)驗風(fēng)險最小化原則的學(xué)習(xí)機(jī)器的推廣能力.文獻(xiàn)[1]給出了基于Hybrid樣本的學(xué)習(xí)理論的關(guān)鍵定理,本文將在此基礎(chǔ)上,進(jìn)一步討論基于Hybrid樣本的學(xué)習(xí)過程一致收斂速度的界.
定義1[2]設(shè)(Θ,P,Cr)是可信性空間,(Ω,A,Pr)是概率空間,則(Θ,P,Cr)×(Ω,A,Pr)稱為機(jī)會空間.
性質(zhì)1[2]設(shè)(Θ,P,Cr)×(Ω,A,Pr)是機(jī)會空間,則機(jī)會測度Ch滿足以下性質(zhì):
1)Ch{?}=0,Ch{Θ×Ω}=1;2)對任意事件Λ,有0≤Ch{Λ}≤1;3)若事件Λ1?Λ2,則Ch{Λ1}≤Ch{Λ2};4)對任意事件Λ,有Ch{Λ}+Ch{Λc}=1;5)對任意事件Λ1和Λ2,有Ch{Λ1∪Λ2}≤Ch{Λ1}+Ch{Λ2}.
定義2[2]設(shè)ξ是一個從機(jī)會空間(Θ,P,Cr)×(Ω,A,Pr)到實數(shù)集R的可測函數(shù),若對任意R上的Borel 集B,都有{ξ∈B}={(θ,ω)∈Θ×Ω|ξ(θ,ω)∈B}是一個事件,稱ξ是一個Hybrid變量.
定義3[2]若對任意R上Borel集B,Hybrid變量ξ和η滿足Ch{ξ∈B}=Ch{η∈B},稱ξ和η是同分布的.
定義5[2]設(shè)Hybrid變量ξ1和ξ2的機(jī)會密度函數(shù)分別是f1(x)和f2(x),f(x,y)是(ξ1,ξ2)的聯(lián)合密度函數(shù).若對任意x,y∈R,都有f(x,y)=f1(x)f2(y),稱ξ1和ξ2是相互獨立的.
證明由ξ的非負(fù)性及機(jī)會測度的單調(diào)性,則
證明對任意實數(shù)λ>0,由引理1,得
證明由引理2和引理3得
統(tǒng)計學(xué)習(xí)理論中關(guān)于經(jīng)驗風(fēng)險和實際風(fēng)險之間的關(guān)系的重要結(jié)論被稱為推廣性的界,它是分析學(xué)習(xí)機(jī)器性能和發(fā)展新的學(xué)習(xí)算法的重要基礎(chǔ)[3-5].學(xué)習(xí)過程一致收斂速度的界是推廣性的界的重要組成部分,通過對這些界的討論可以得到在經(jīng)驗風(fēng)險最小化原則中經(jīng)驗風(fēng)險與實際風(fēng)險的關(guān)系,進(jìn)而可以研究學(xué)習(xí)機(jī)器的推廣能力[3-7].
設(shè)z1,z2,…,zl是獨立同分布的Hybrid樣本,Q(z,α),α∈Λ是可測損失函數(shù)集合.
定義7[1]機(jī)會空間上基于Hybrid樣本的期望風(fēng)險泛函和經(jīng)驗風(fēng)險泛函分別定義為
定義8[1]把Hybrid期望風(fēng)險泛函替換為Hybrid經(jīng)驗風(fēng)險泛函,并用使Hybrid經(jīng)驗風(fēng)險泛函最小的函數(shù)Q(z,αl)逼近使Hybrid期望風(fēng)險泛函最小的函數(shù)Q(z,α0),這一原則稱作Hybrid經(jīng)驗風(fēng)險最小化原則(Hybridempiricalriskminimizationprinciple,簡稱HERM原則).
要估計經(jīng)驗風(fēng)險最小化的推廣能力,需要回答以下2個問題:
1)取到最小經(jīng)驗風(fēng)險的函數(shù)Q(z,αl)所取得的真實風(fēng)險Rch(αl)是什么?
假設(shè)函數(shù)集合包含有限的N個元素Q(z,αk),k=1,2,…,N,且A≤Q(z,αk)≤B.
定理3對于函數(shù)集Q(z,αk),k=1,2,…,N的所有N個函數(shù),不等式
(1)
依至少1-η的機(jī)會測度成立.
證明利用引理4,有
由定理3,特別地,對于函數(shù)Q(z,αl),不等式
(2)
依至少1-η的機(jī)會測度成立.式(2)通過估計Rch(αl)的值,給出了函數(shù)Q(z,αl)所提供的真實風(fēng)險Rch(αl)的上界,從而回答了第1個問題.
定理4對于函數(shù)集合Q(z,αk),k=1,2,…,N的所有N個函數(shù),不等式
依至少1-2η的機(jī)會測度成立.
證明對于最小化Hybrid期望風(fēng)險泛函的函數(shù)Q(z,α0),因為
(3)
依至少1-2η的機(jī)會測度成立.
在基于Hybrid樣本的學(xué)習(xí)理論關(guān)鍵定理的基礎(chǔ)上,討論了基于Hybrid樣本的學(xué)習(xí)過程一致收斂速度的界,給出了所選函數(shù)風(fēng)險的上界以及這一上界與函數(shù)集的最小可能風(fēng)險值之間的接近程度和誤差,為進(jìn)一步建立基于Hybrid樣本的統(tǒng)計學(xué)習(xí)理論并構(gòu)建相應(yīng)的支持向量機(jī)奠定了理論基礎(chǔ).
[1]SUN Xiaojing,WANG Chao,HA Minghu,et al.The key theorem of learning theory based on hybrid variable[C]//Guilin:Proceedings of the International Conference on Machine Learning and Cybenetics,2011:1141-1145.
[2]LIUBaoding.Uncertaintytheory[DB/OL].(2010)[2015-09-20].http://www.doc88.com/p-34688422/032.html.
[3]VAPNIKVN.Statisticallearningtheory[M].NewYork:AWiley-IntersciencePublication,1998.
[4]張學(xué)工.關(guān)于統(tǒng)計學(xué)習(xí)理論與支持向量機(jī)[J].自動化學(xué)報,2000,26(1):32-44.
ZHANGXuegong.Introductiontostatisticallearningtheoryandsupportvectormachines[J].ActaAutomaticaSinica,2000,26(1):32-44.
[5]哈明虎,王超,張植明,等.不確定統(tǒng)計學(xué)習(xí)理論[M].北京:科學(xué)出版社,2010.
[6]哈明虎,王鵬.可能性空間中學(xué)習(xí)過程一致收斂速度的界[J].河北大學(xué)學(xué)報(自然科學(xué)版),2004,24(1):1-6.
HAMinghu,WANGPeng.Boundsontherateofuniformconvergenceoflearningprocessonpossibilityspaces[J].JournalofHebeiUniversity(NaturalScienceEdition),2004,24(1):1-6.
[7]田景峰,張植明.可信性空間上基于復(fù)模糊變量的學(xué)習(xí)過程一致收斂速度的界[J].華北電力大學(xué)學(xué)報,2009,36(5):106-112.
TIANJingfeng,ZHANGZhiming.Theboundsontherateofuniformconvergenceoflearningprocessbasedoncomplexfuzzyvariableoncredibilityspace[J].JournalofNorthChinaElectricPowerUniversity,2009,36(5):106-112.
(責(zé)任編輯:王蘭英)
Bounds on the rate of uniform convergence of learning process based on Hybrid samples
LI Junhua1,BAI Heju2
(1.College of Mathematics and Information Science,Hebei University,Baoding 071002,China;2.Basic Teaching Department,Chengde Petroleum College,Chengde 067000,China)
Bounds on the rate of uniform convergence of learning process are important component part of statistical learning theory and the bounds determine the generalization abilities of learning machines.Based on the chance theory and the definition of Hybrid variable,bounds on the rate of uniform convergence of learning process based on hybrid samples are discussed and the relationship between the bounds and the capacity of the set of functions is given.
Hybrid variable;Hybrid empirical risk minimization principle;the rate of uniform convergence
10.3969/j.issn.1000-1565.2016.02.001
2015-07-01
國家自然科學(xué)基金資助項目(11201110);河北省教育廳資助項目(QN20131055)
李俊華 (1979—),女,河北衡水人,河北大學(xué)講師,主要從事不確定統(tǒng)計學(xué)習(xí)理論研究.E-mail:junhuali2008@126.com
TP18
A
1000-1565(2016)02-0113-04