王振武 何關(guān)瑤
摘 要:核函數(shù)的選擇對(duì)支持向量機(jī)的分類結(jié)果有著重要的影響,為了提高核函數(shù)選擇的客觀性,提出了一種以錯(cuò)分實(shí)例到支持向量所在界面的距離來(lái)表示錯(cuò)分程度,并基于此進(jìn)行秩和檢驗(yàn)的核函數(shù)選擇方法.通過(guò)與K折交叉驗(yàn)證、配對(duì)t測(cè)試等參數(shù)檢驗(yàn)的統(tǒng)計(jì)方法進(jìn)行對(duì)比分析,對(duì)9種常用核函數(shù)的分類能力在15個(gè)數(shù)據(jù)集進(jìn)行了定量研究.與參數(shù)檢驗(yàn)方法不同,秩和檢驗(yàn)并未假定數(shù)據(jù)的分布情況(很多情況下數(shù)據(jù)并不滿足假定的分布),而且數(shù)據(jù)實(shí)驗(yàn)證明,秩和檢驗(yàn)不但能夠?qū)撕瘮?shù)的分類能力進(jìn)行客觀評(píng)估,而且在某些數(shù)據(jù)集上還能產(chǎn)生更好的核函數(shù)選擇效果.
關(guān)鍵詞:核函數(shù);支持向量機(jī); 秩和檢驗(yàn); K折交叉驗(yàn)證; 配對(duì)t測(cè)試
中圖分類號(hào):TP301.6 文獻(xiàn)標(biāo)志碼:A
Abstract:The selection of kernel functions has an important influence on the classification results of support vector machines. This paper proposed a kernel functions selection method based on rank sum test in order to enhance the selection objectivity, where the error degree adopted in the rank sum test was represented by the distance between the error instance and the interface of support vectors. By comparing with other statistical methods, such as Kfolding cross validation and paired t test, the classification abilities of nine common kernel functions were quantitatively studied based on 15 datasets. Different from parameter test methods, the rank sum test does not assume the data distribution(in some cases data cannot satisfy the assumed distribution), the experimental data proves that the rank sum test not only can objectively evaluate the classification abilities of kernel functions, but also can produce better selection results on some data sets.
Key words:kernel function; support vector machines; rank sum test; K folding cross validation; paired t test
支持向量機(jī)(Support Vector Machine,SVM)[1]的使用與核函數(shù)的正確選擇是密不可分的,核函數(shù)技術(shù)巧妙地解決了在高維特征空間中計(jì)算的“維數(shù)災(zāi)難”等問(wèn)題,直接決定了SVM的非線性處理能力[2].當(dāng)前對(duì)核函數(shù)選擇方法的研究主要集中在構(gòu)造新的核函數(shù)[3-7]、核函數(shù)參數(shù)選擇[8-13]以及核函數(shù)的評(píng)估[1,14-16]上.由于在使用SVM進(jìn)行分類的過(guò)程中只定義了核函數(shù)(并不顯式地定義映射函數(shù)),所以在同一分類問(wèn)題上選擇不同的核函數(shù)對(duì)分類效果影響較大,另外映射函數(shù)的類型是多變的,在沒(méi)有先驗(yàn)知識(shí)的情況下人們更多地是憑借主觀經(jīng)驗(yàn)進(jìn)行核函數(shù)的選擇,具有較大的隨意性.
諸多文獻(xiàn)從不同的角度給出了構(gòu)造核函數(shù)的新方法.文獻(xiàn)[3]針對(duì)多標(biāo)簽數(shù)據(jù)集的特點(diǎn)構(gòu)造了新的核函數(shù),文獻(xiàn)[45]結(jié)合切比雪夫多項(xiàng)式構(gòu)造出新的核函數(shù)并以此解決回歸問(wèn)題,而文獻(xiàn)[6]對(duì)RBF核進(jìn)行極分解,并結(jié)合全局多項(xiàng)式核構(gòu)造混合核函數(shù),文獻(xiàn)[7]則針對(duì)電力系統(tǒng)的風(fēng)速概率估計(jì)這一具體問(wèn)題,構(gòu)造了一種由若干核密度和權(quán)重系數(shù)組成的混合核函數(shù),消除了傳統(tǒng)核密度模型選擇最優(yōu)帶寬的問(wèn)題.核函數(shù)的參數(shù)選擇方法研究也較多,有些文獻(xiàn)[8]針對(duì)具體應(yīng)用問(wèn)題對(duì)核函數(shù)參數(shù)進(jìn)行選擇,有些文獻(xiàn)則致力于研究通用的核函數(shù)選擇方法.例如,文獻(xiàn)[9]提出了基于代價(jià)函數(shù)最大化的核函數(shù)參數(shù)選擇方法,文獻(xiàn)[10]通過(guò)研究邊緣正態(tài)樣本和內(nèi)部正態(tài)樣本之間重構(gòu)誤差的差異來(lái)尋找滿足條件的核函數(shù)參數(shù),文獻(xiàn)[11]則通過(guò)每個(gè)樣本的最遠(yuǎn)和最近鄰信息來(lái)選擇核函數(shù)參數(shù)的方法,文獻(xiàn)[12]采用梯度下降法將類內(nèi)散度矩陣的退化問(wèn)題轉(zhuǎn)化為跡運(yùn)算準(zhǔn)則,以此來(lái)尋找最優(yōu)參數(shù),而文獻(xiàn)[13]則提出了廣義核極化準(zhǔn)則用來(lái)解決分類問(wèn)題中的高斯核參數(shù)優(yōu)化問(wèn)題.
一般來(lái)說(shuō),核函數(shù)的評(píng)估指標(biāo)分為四類:一類來(lái)自理論分析所給出的界[1],一類是通過(guò)考慮數(shù)據(jù)的分布特征進(jìn)行核函數(shù)的選擇[14],第三類是通過(guò)研究核函數(shù)核矩陣的特征信息來(lái)指引核函數(shù)的選擇[15],第四類則是通過(guò)實(shí)際數(shù)據(jù)的驗(yàn)證結(jié)果來(lái)指導(dǎo)核函數(shù)的選擇[16].遺憾的是,目前還沒(méi)有成熟的理論來(lái)計(jì)算推廣性的界的范圍,只能給出估計(jì)值,因此理論分析在實(shí)際應(yīng)用中并不實(shí)用;考慮數(shù)據(jù)的分布特征來(lái)選擇核函數(shù)也有較大的局限性,例如,如果數(shù)據(jù)的分布特征不符合特定的幾何特征(如類圓特征和類球特征)便無(wú)法對(duì)核函數(shù)進(jìn)行選擇;而通過(guò)研究核矩陣的特征信息能給出估計(jì)的泛化誤差界,但算法過(guò)于復(fù)雜,在實(shí)踐中很難被應(yīng)用,因此通過(guò)實(shí)驗(yàn)結(jié)果來(lái)評(píng)估核函數(shù)是最常用的核函數(shù)選擇方法.文獻(xiàn)[16]采用參數(shù)檢驗(yàn)的方法對(duì)SVM分類結(jié)果的準(zhǔn)確率、召回率等性能評(píng)估準(zhǔn)則進(jìn)行分析,通過(guò)將其他核函數(shù)與徑向基核函數(shù)(Radial Basis Function,RBF)進(jìn)行對(duì)比,來(lái)完成對(duì)核函數(shù)的綜合評(píng)估,但文獻(xiàn)[16]的方法有兩個(gè)明顯的缺陷:1)由于采用參數(shù)檢驗(yàn)的方法,需要假定分類結(jié)果服從正態(tài)分布,而實(shí)際上并不是所有數(shù)據(jù)集都滿足此假定;2)對(duì)數(shù)據(jù)集中某一實(shí)例的分類結(jié)果判斷均是非對(duì)即錯(cuò),并沒(méi)有考慮被錯(cuò)誤分類的實(shí)例的錯(cuò)分程度,因此對(duì)核函數(shù)的比較粒度較粗.針對(duì)上述問(wèn)題,本文提出了一種以錯(cuò)分實(shí)例到支持向量所在界面的距離來(lái)表示錯(cuò)分程度,并基于此進(jìn)行秩和檢驗(yàn)的核函數(shù)選擇評(píng)估方法.
本文第1節(jié)對(duì)比地分析了三種模型預(yù)測(cè)性能評(píng)估的統(tǒng)計(jì)方法,即K折交叉驗(yàn)證[17],配對(duì)t測(cè)試[18]與秩和檢驗(yàn)[19],并對(duì)秩和檢驗(yàn)進(jìn)行預(yù)測(cè)性能評(píng)估的優(yōu)勢(shì)進(jìn)行了討論;核函數(shù)選擇的實(shí)驗(yàn)結(jié)果在第2節(jié)進(jìn)行了詳細(xì)分析和討論;第3節(jié)對(duì)研究?jī)?nèi)容進(jìn)行了總結(jié).
1 模型預(yù)測(cè)評(píng)估方法
文獻(xiàn)[16]指出不同評(píng)估準(zhǔn)則在具體數(shù)值上存在差異,但應(yīng)用統(tǒng)計(jì)方法所獲得的核函數(shù)排序大體上是一致的,這說(shuō)明傳統(tǒng)的性能評(píng)估準(zhǔn)則(如準(zhǔn)確率、召回率和Fmeasure等)對(duì)核函數(shù)分類性能的影響不大,因此本文主要對(duì)模型評(píng)估方法進(jìn)行比較.
在3種模型預(yù)測(cè)評(píng)估方法的實(shí)驗(yàn)中,K折交叉驗(yàn)證采用的10折交叉驗(yàn)證,配對(duì)t測(cè)試和秩和檢驗(yàn)則是在每個(gè)數(shù)據(jù)集上分別進(jìn)行核函數(shù)的兩兩對(duì)比實(shí)驗(yàn).另外,所有實(shí)驗(yàn)的統(tǒng)計(jì)顯著性水平均為5%,實(shí)驗(yàn)結(jié)果會(huì)出現(xiàn)某核函數(shù)在某數(shù)據(jù)集上得不到實(shí)驗(yàn)結(jié)果的情況,此時(shí)判定為“無(wú)”.
對(duì)3種模型預(yù)測(cè)評(píng)估方法實(shí)驗(yàn)結(jié)果的處理方式為:K折交叉驗(yàn)證統(tǒng)計(jì)9個(gè)核函數(shù)在15個(gè)數(shù)據(jù)集上的排名順序并將其累計(jì)求和,排名依據(jù)為:置信區(qū)間有重疊則判斷相等,“無(wú)”則被判斷為排名最后,否則按錯(cuò)誤率Errcv(T,D)大小來(lái)排序.而配對(duì)t測(cè)試和秩和檢驗(yàn)則是根據(jù)兩兩對(duì)比獲勝的次數(shù)相加,其中“相等”次數(shù)均增加,“無(wú)”次數(shù)均不增加,統(tǒng)計(jì)結(jié)果如表5所示,括號(hào)內(nèi)的數(shù)字是經(jīng)統(tǒng)計(jì)后該核函數(shù)在當(dāng)前檢驗(yàn)方法下的排名.
根據(jù)表5的統(tǒng)計(jì)結(jié)果可以看出,三種方法對(duì)核函數(shù)的分類能力進(jìn)行排序時(shí)存在一定差異,但大體是一致的,核函數(shù)可以大致分為三級(jí):RBF、Linear、CF效果最好,PF、SF其次,STF、LF、HSF、FTF效果最差.
雖然3種方法對(duì)9種核函數(shù)的分類能力在15個(gè)數(shù)據(jù)集上得到了大體一致的綜合排名結(jié)果,但如果針對(duì)具體的數(shù)據(jù)集做仔細(xì)分析,會(huì)發(fā)現(xiàn)K折交叉驗(yàn)證和配對(duì)t測(cè)試方法存在較大的局限性.例如,如圖2和圖3所示,在處理數(shù)據(jù)集monks2.train和monks3.train時(shí),使用K折交叉驗(yàn)證在所有的核函數(shù)上得出的錯(cuò)誤率的置信區(qū)間都十分接近,全部存在重合的情況,在統(tǒng)計(jì)核函數(shù)排名時(shí)只能判定它們排名一樣,而使用配對(duì)t測(cè)試則得出所有核函數(shù)的兩兩對(duì)比結(jié)果全為“相等”,這說(shuō)明對(duì)于此類數(shù)據(jù)使用參數(shù)檢驗(yàn)的方法無(wú)法給出比較結(jié)果,針對(duì)這種情況,秩和檢驗(yàn)卻能夠很好的處理.
如圖4和5所示,9個(gè)核函數(shù)(用編號(hào)表示)被兩兩對(duì)比,順序?yàn)椋?,2),(1,2),(1,3),…,(8,9),依次對(duì)應(yīng)橫坐標(biāo)中的36個(gè)點(diǎn)(1~36).對(duì)于上述括號(hào)中的兩個(gè)核函數(shù),若前者更好則標(biāo)記為“1”,若后者更好則標(biāo)記為“-1”,若兩者相等則標(biāo)記為“0”, HTF核函數(shù)參與對(duì)比的點(diǎn)的橫坐標(biāo)為8,15,21,26,30,33,35,36 ,而這些橫坐標(biāo)的值均為“-1”,這說(shuō)明在monks2.train和monks3.train數(shù)據(jù)集上分類效果最好的為HTF核函數(shù),而且基于錯(cuò)誤距離的秩和檢驗(yàn)在絕大多數(shù)的核函數(shù)兩兩對(duì)比實(shí)驗(yàn)中均能給出明確的判定結(jié)果,這是配對(duì)t測(cè)試和K折交叉驗(yàn)證方法所無(wú)法得到的.
根據(jù)上面的分析,由表5和圖4~5可以得出:1)K折交叉驗(yàn)證、配對(duì)t測(cè)試與秩和檢驗(yàn)得到的核函數(shù)的綜合排序在大體上是一致的,說(shuō)明秩和檢驗(yàn)可以對(duì)核函數(shù)的分類能力進(jìn)行客觀評(píng)估;2)在數(shù)據(jù)集的Errcv(T,D)不適合使用參數(shù)檢驗(yàn)方法的情況下,秩和檢驗(yàn)卻可以對(duì)核函數(shù)分類能力進(jìn)行更好的評(píng)估.因此,與K折交叉驗(yàn)證和配對(duì)t測(cè)試等方法相比,基于錯(cuò)分實(shí)例到支持向量所在界面的距離的秩和檢驗(yàn)方法具有更高的可行性.
3 結(jié) 論
核函數(shù)的選擇是核方法研究及應(yīng)用的核心內(nèi)容,選擇的準(zhǔn)則和方法目前并沒(méi)有成型的理論方法,研究人員更多地是憑借主觀經(jīng)驗(yàn)進(jìn)行選擇,因此具有較大的隨意性.通過(guò)實(shí)際數(shù)據(jù)的驗(yàn)證結(jié)果來(lái)指導(dǎo)核函數(shù)的選擇是最常用的方法之一,本文針對(duì)參數(shù)檢驗(yàn)方法的局限性,將秩和檢驗(yàn)這一非參數(shù)檢驗(yàn)方法引入核函數(shù)選擇中,提出了基于分類錯(cuò)誤的實(shí)例與支持向量所在的決策界面的距離進(jìn)行秩和檢驗(yàn)的核函數(shù)選擇方法,實(shí)驗(yàn)結(jié)果驗(yàn)證了該方法的合理性,并在某些數(shù)據(jù)集上給出了更好的選擇效果.
參數(shù)檢驗(yàn)方法需要對(duì)總體分布進(jìn)行假定,因此可能會(huì)引起推斷結(jié)果的錯(cuò)誤.本文提出的以錯(cuò)分實(shí)例到支持向量所在界面的距離來(lái)表示錯(cuò)分程度,并基于此進(jìn)行秩和檢驗(yàn)的核函數(shù)選擇方法,并不需要考慮樣本期望和方差,而只需比較其總體位置,因此與參數(shù)檢驗(yàn)方法相比其適應(yīng)性更強(qiáng).另外,錯(cuò)分程度也是參數(shù)檢驗(yàn)中所沒(méi)有考慮的因素,在數(shù)據(jù)集的Errcv(T,D)不適合使用參數(shù)檢驗(yàn)方法的情況下,所提方法能得到較好的結(jié)果.另外,本文的方法可以和其他參數(shù)檢驗(yàn)(如K折交叉驗(yàn)證、配對(duì)t測(cè)試等)方法配合使用、相互驗(yàn)證核函數(shù)選擇的準(zhǔn)確性,并且可以在參數(shù)檢驗(yàn)方法無(wú)法分辨核函數(shù)優(yōu)劣的情況下進(jìn)一步區(qū)分核函數(shù)的分類性能.
參考文獻(xiàn)
[1] VAPNIK V. The nature of statistical learning theory [M]. The second edition. New York: SpringerVerlag, 2000:1-314.
[2] 丁世飛,齊丙娟,譚紅艷. 支持向量機(jī)理論與算法研究綜述[J]. 電子科技大學(xué)學(xué)報(bào),2011, 40(1):2-10.
DING S F, QI B J, TAN H Y. An overview on theory and algorithm of support vector machines [J]. Journal of University of Electronic Science and Technology of China, 2011, 40(1):2-10.(In Chinese)
[3] GHOUTI L. A new kernelbased classification algorithm for multilabel datasets [J]. Arabian Journal for Science and Engineering, 2016, 41(3):759-771.
[4] 趙金偉,馮博琴,閆桂榮. 泛化的統(tǒng)一切比雪夫多項(xiàng)式核函數(shù)[J]. 西安交通大學(xué)學(xué)報(bào), 2012,46(8):43-48.
ZHAO J W, FENG B Q, YAN G R. Generalized uniform Chebyshev polynomial kernel[J]. Journal of Xian Jiaotong University, 2012,46(8):43-48. (In Chinese)
[5] ZHAO J W, YAN G R. FENG B Q, et al. An adaptive support vector regression based on a new sequence of unified orthogonal polynomials[J]. Pattern Recognition, 2013, 46(3):899-913.
[6] 業(yè)巧林,業(yè)寧,張訓(xùn)華. 基于極分解下的混合核函數(shù)及改進(jìn)[J]. 模式識(shí)別與人工智能, 2009,22(3):366-373.
YE Q L, YE N, ZHANG X H. Extremun decom position based mixteres of kernels and its improvement[J]. Pattern Recognition and Artificial Intelligence, 2009,22(3):366-373. (In Chinese)
[7] MIAO S W, XIE K G, YANG H J, et al. A mixture kernel density model for wind speed probability distribution estimation [J]. Energy Conversion and Management, 2016, 126(15):1066-1083.
[8] TIAN J, YU W Y, XIE S L. On the kernel function selection of nonlocal filtering for image denoising[C]// Proceedings of the Seventh International Conference on Machine Learning and Cybernetics. Kunming, 2008:2964-1969.
[9] ZHU B, CHENG Z D, WANG H. A kernel function optimization and selection algorithm based on cost function maximization[C]// 2013 IEEE International Conference on Imaging Systems and Techniques (IST). 2013:259-263.
[10]WANG S F, NIE B, YUE K, et al. Protein subcellular localization with Gaussian kernel discriminant analysis and its kernel parameter selection[J]. International Journal of Molecular Sciences, 2017, 18(12):1-16.
[11]XIAO Y C, WANG H G, ZHANG L, et al. Two methods of selecting Gaussian kernel parameters for oneclass SVM and their application to fault detection[J]. Knowledgebased System, 2014, 59:75-84.
[12]XIONG H L, SWAMY M N S, AHMAD M O. Optimizing the kernel in the empirical feature space[J]. IEEE Transactions on Neural Networks, 2005, 16(2):460-474.
[13]田萌,王文劍. 高斯核函數(shù)選擇的廣義核極化準(zhǔn)則[J]. 計(jì)算機(jī)研究與發(fā)展, 2015,52(8):1722-1734.
TIAN M, WANG W J. Generalized kernel polarization criterion for optimizing Gaussian kernel[J]. Journal of Computer Research and Development, 2015,52(8):1722-1734. (In Chinese)
[14]梁禮明,馮新剛,陳云嫩,等. 基于樣本分布特征的核函數(shù)選擇方法研究[J]. 計(jì)算機(jī)仿真, 2013, 30(1):323-328.
LIANG L M, FENG X G, CHEN Y N, et al. Method of selection kernel function based on distribution characteristics of samples [J]. Computer Simulation, 2013, 30(1):323-328. (In Chinese)
[15]LIU Y, LIAO S Z. Kernel selection with spectral perturbation stability of kernel matrix [J]. Science China(Information Sciences),2014,57(11):112103.
[16]胡包鋼,王泳. 應(yīng)用統(tǒng)計(jì)方法綜合評(píng)估核函數(shù)分類能力的研究[J]. 計(jì)算機(jī)學(xué)報(bào),2008,31(6): 942-952.
HU B G, WANG Y. A study on integrated evaluating kernel classification performance using statistical methods [J]. Chinese Journal of Computers, 2008,31(6):942-952. (In Chinese)
[17]BROWNE M W. Crossvalidation methods [J]. Journal of Mathematical Psychology, 2000, 4(1):108-132.
[18]SINCICH T. Business statistics by example [M]. The fifth edition. New Jersey: Prentice Hall, 1996:1-1179.
[19]茆詩(shī)松,程依明,濮曉龍. 概率論與數(shù)理統(tǒng)計(jì) [M].第二版.北京:高等教育出版社, 2011:1-523.
MAO S S, CHENG Y M, PU X L. Probability theory & mathematical statistics [M]. The second edition. Beijing: Higher Education Press, 2011:1-523. (In Chinese)
[20]NEWMAN D J, HETTICH S, BLAKE C L, et al. UCI repository of machine learning databases[D]. Department of Information and Computer Science, University of California, Irvine, CA, 1998.
[21]Statlib—Data, Software and News from the Statistics Community. [http://lib.stat.cmu.edu/datasets/]