錢(qián)冬,王蓓,張濤,王行愚
(1.華東理工大學(xué) 信息科學(xué)與工程學(xué)院,上海 200237; 2.清華大學(xué) 自動(dòng)化系,北京 100086)
結(jié)合Copula理論與貝葉斯決策理論的分類(lèi)算法
錢(qián)冬1,王蓓1,張濤2,王行愚1
(1.華東理工大學(xué) 信息科學(xué)與工程學(xué)院,上海 200237; 2.清華大學(xué) 自動(dòng)化系,北京 100086)
摘要:傳統(tǒng)的貝葉斯決策分類(lèi)算法易受類(lèi)條件概率密度函數(shù)估計(jì)的影響,可能會(huì)對(duì)分類(lèi)結(jié)果造成干擾。對(duì)此本文提出來(lái)一種改進(jìn)的貝葉斯決策分類(lèi)算法,即Bayesian-Copula判別分類(lèi)器(BCDC)。該方法無(wú)需對(duì)類(lèi)條件概率密度函數(shù)的形式進(jìn)行假設(shè),而是將Copula理論和核密度估計(jì)相結(jié)合進(jìn)行函數(shù)構(gòu)建,利用核密度估計(jì)平滑特征的概率分布,概率積分變換將特征的累計(jì)概率分布轉(zhuǎn)化為均勻分布,Copula函數(shù)構(gòu)建2個(gè)類(lèi)別的邊緣累積分布之間的相關(guān)性。隨后,用極大似然估計(jì)方法確定Copula函數(shù)的參數(shù),貝葉斯信息準(zhǔn)則(BIC)用于選擇最合適的Copula函數(shù)。通過(guò)生物電信號(hào)的仿真實(shí)驗(yàn)進(jìn)行模型驗(yàn)證,結(jié)果表明相比傳統(tǒng)的概率模型,提出的分類(lèi)算法在分類(lèi)精度和AUC兩個(gè)性能指標(biāo)上表現(xiàn)較好,魯棒性更強(qiáng),說(shuō)明了BCDC模型充分利用Copula理論和核密度估計(jì)的優(yōu)點(diǎn),提高了估計(jì)的準(zhǔn)確性和靈活性。
關(guān)鍵詞:機(jī)器學(xué)習(xí);貝葉斯決策理論;Copula理論;核密度估計(jì);生物電信號(hào)
中文引用格式:錢(qián)冬,王蓓,張濤,等.結(jié)合Copula理論與貝葉斯決策理論的分類(lèi)算法[J]. 智能系統(tǒng)學(xué)報(bào), 2016, 11(1): 78-83.
英文引用格式:QIAN Dong, WANG Bei, ZHANG Tao, et al. Classification algorithm based on Copula theory and Bayesian decision theory[J]. CAAI Transactions on Intelligent Systems, 2016, 11(1): 78-83.
機(jī)器學(xué)習(xí)在人工智能領(lǐng)域的研究中具有十分重要的地位。目前,其應(yīng)用已遍及人工智能的各個(gè)分支,如模式識(shí)別、計(jì)算機(jī)視覺(jué)、數(shù)據(jù)挖掘、醫(yī)學(xué)診斷、自然語(yǔ)言處理等領(lǐng)域[1-6]。概率模型則是模式識(shí)別中被研究較多的一類(lèi)模型,它給予了數(shù)據(jù)產(chǎn)生的復(fù)雜現(xiàn)象和內(nèi)在機(jī)理的描述方式。其中,貝葉斯理論是基于概率表達(dá)的機(jī)器學(xué)習(xí)的主要工具,其認(rèn)為:先驗(yàn)信息反映了試驗(yàn)前對(duì)總體參數(shù)分布的認(rèn)識(shí),在觀(guān)察到樣本信息后,對(duì)此認(rèn)識(shí)有了改變,其結(jié)果反映在后驗(yàn)信息中,后驗(yàn)信息綜合了樣本信息和參數(shù)的先驗(yàn)信息[7]。
產(chǎn)生式模型(generative model)和判別式模型(discriminative model)是2個(gè)比較常見(jiàn)的有監(jiān)督學(xué)習(xí)的分類(lèi)模型。產(chǎn)生式模型可以指定數(shù)據(jù)結(jié)構(gòu)的先驗(yàn)信息,但需要對(duì)觀(guān)測(cè)數(shù)據(jù)建立正確的模型,而不是對(duì)類(lèi)別分布進(jìn)行建模,如貝葉斯決策理論;判別式模型則是通過(guò)最大化類(lèi)別的概率學(xué)習(xí)模型,如Logistic Regression (LR)[8-9]。然而,在實(shí)際使用中,貝葉斯決策理論仍然存在著一定的局限性。
貝葉斯決策理論是解決模式分類(lèi)問(wèn)題的一種基本統(tǒng)計(jì)方法。該理論的出發(fā)點(diǎn)是利用概率的不同分類(lèi)決策與相應(yīng)的決策代價(jià)之間的定量折中;目的則是對(duì)未知的數(shù)據(jù)所屬的類(lèi)別做出判決[10]。由于缺乏對(duì)于數(shù)據(jù)結(jié)構(gòu)的信息,貝葉斯決策理論中類(lèi)條件概率密度函數(shù)通常是很難準(zhǔn)確估計(jì)的。
目前,估計(jì)類(lèi)條件概率密度函數(shù)的方法主要有2種,但兩者都是基于一定的假設(shè)條件。第一種是假設(shè)類(lèi)條件概率密度函數(shù)服從多元高斯分布,簡(jiǎn)稱(chēng)為高斯判別分類(lèi)器(Gaussian discriminant classifier, GDC)[11]。然而,多元高斯分布的邊緣分布是一元高斯分布,該一元高斯分布并非和實(shí)際特征的概率分布相吻合。所以,該假設(shè)條件并不能準(zhǔn)確地表現(xiàn)出多元變量的依賴(lài)結(jié)構(gòu)。更重要的是,多元高斯分布中的協(xié)方差矩陣只能反映出各個(gè)特征之間的線(xiàn)性關(guān)系,難以精確地描述特征之間的非線(xiàn)性關(guān)系。第2種則是基于樸素貝葉斯條件獨(dú)立的特點(diǎn),假設(shè)類(lèi)條件概率密度函數(shù)服從若干個(gè)一元高斯分布,簡(jiǎn)稱(chēng)為高斯樸素分類(lèi)器(Gaussian naive Bayes classifier, GNBC)[12]。該假設(shè)條件雖然可以有效地減少參數(shù)估計(jì)的個(gè)數(shù),但它過(guò)于簡(jiǎn)單,直接忽略了各個(gè)特征之間的依賴(lài)結(jié)構(gòu)。因此,該方法也不能準(zhǔn)確地估計(jì)出多個(gè)特征的聯(lián)合分布。
由上述可知,現(xiàn)有的估計(jì)方法都存在著一定的不足和局限性。本文考慮了特征之間存在的依賴(lài)關(guān)系,提出了將貝葉斯決策理論和Copula理論相結(jié)合的分類(lèi)器,簡(jiǎn)稱(chēng)為Bayesian-Copula判別分類(lèi)器。該模型將Copula函數(shù)和核密度估計(jì)相結(jié)合構(gòu)建類(lèi)條件概率密度函數(shù)。Copula函數(shù)能夠描述變量間的線(xiàn)性或者非線(xiàn)性相關(guān)性,該理論表明多元聯(lián)合分布函數(shù)可以通過(guò)Copula函數(shù)和任意的隨機(jī)變量的邊緣分布函數(shù)構(gòu)建[13-15]。而核密度估計(jì)則是一種非參數(shù)估計(jì)方法,它不需要假設(shè)概率分布的形式,可以直接計(jì)算得到概率密度值[16]。最后,將改進(jìn)的BCDC算法用于生物電信號(hào)分類(lèi)識(shí)別的實(shí)際問(wèn)題中進(jìn)行模型的驗(yàn)證。由于從生物電信號(hào)中提取的特征之間存在依賴(lài)關(guān)系,在分類(lèi)精度和AUC兩個(gè)指標(biāo)上,相比于傳統(tǒng)的GDC、GNBC和LR模型,所提出的方法呈現(xiàn)出更好的分類(lèi)效果。因此,該模型可以被用于處理特征間存在一定的相關(guān)性的實(shí)際問(wèn)題,為機(jī)器學(xué)習(xí)問(wèn)題提供了一種新的方法。
1Bayesian-Copula 判別分類(lèi)器
1.1貝葉斯決策理論
貝葉斯決策理論表明對(duì)未知的數(shù)據(jù)x所屬的類(lèi)別做出判決,可以通過(guò)計(jì)算x屬于某一個(gè)類(lèi)別的概率值得到,因此通過(guò)貝葉斯公式,該概率值可表示為
(1)
式中:x表示特征向量,即x={x1,x2,…,xn},n為特征的個(gè)數(shù),K為類(lèi)別個(gè)數(shù),P(Ck)是類(lèi)別Ck的先驗(yàn)概率,P(Ck|x)則是相應(yīng)的后驗(yàn)概率,p(x|Ck)是類(lèi)條件概率密度函數(shù)。此外,p(x)僅僅是一個(gè)標(biāo)量,以保證各類(lèi)別的后驗(yàn)概率總和為1。貝葉斯公式表明,通過(guò)觀(guān)察數(shù)據(jù)x,先驗(yàn)概率可以轉(zhuǎn)換為后驗(yàn)概率。
根據(jù)最小化誤差概率的準(zhǔn)則,未知數(shù)據(jù)x將被歸于后驗(yàn)概率P(Ck|x)最大的類(lèi)別??紤]到p(x)只是一個(gè)標(biāo)量因子,所以式(1)可以簡(jiǎn)化為
(2)
注意到,在式(2)中,后驗(yàn)概率P(Ck|x)主要由先驗(yàn)概率P(Ck)和類(lèi)條件概率密度函數(shù)p(x|Ck)的乘積所決定。先驗(yàn)概率P(Ck)可以經(jīng)驗(yàn)性地獲得,計(jì)算在訓(xùn)練數(shù)據(jù)中屬于某一類(lèi)別的數(shù)據(jù)個(gè)數(shù),再除以訓(xùn)練數(shù)據(jù)的總個(gè)數(shù)即可得到。
在下面小節(jié)中,我們將通過(guò)Copula函數(shù)和核密度估計(jì)的方法來(lái)構(gòu)建類(lèi)條件概率密度函數(shù)。
1.2Copula理論
近年來(lái),在統(tǒng)計(jì)領(lǐng)域里,Copula理論引起了研究者的關(guān)注。該理論可以理解為:多維隨機(jī)變量的聯(lián)合分布函數(shù)可以分解成若干個(gè)一維的分布函數(shù)和一個(gè)Copula函數(shù),而Copula函數(shù)則將若干個(gè)分布函數(shù)連接起來(lái),它可以描述隨機(jī)變量間的依賴(lài)關(guān)系。目前,該理論被廣泛應(yīng)用于經(jīng)濟(jì)、金融等領(lǐng)域[17-18]。Sklar定理是Copula理論的核心部分,也是Copula理論在統(tǒng)計(jì)學(xué)中應(yīng)用的基礎(chǔ),在建立聯(lián)合分布函數(shù)和它們相應(yīng)邊緣分布函數(shù)之間的關(guān)聯(lián)中起著關(guān)鍵的作用。
定理 (Sklar定理 (1959)):令H為n個(gè)隨機(jī)變量X1,X2, …,Xn的聯(lián)合分布函數(shù),令F1(x1),F2(x2), …,Fn(xn)為隨機(jī)變量的邊緣分布函數(shù),如果所有的邊緣分布函數(shù)都是連續(xù)的,那么存在唯一一個(gè)Copula函數(shù)C滿(mǎn)足:
(3)
聯(lián)合密度函數(shù)h被定義為
(4)
(5)
式中:c(F1(x1), …,Fn(xn))是一個(gè)n維的Copula密度函數(shù),fi(xi)則是每個(gè)隨機(jī)變量的密度函數(shù)。
推論如果C是一個(gè)Copula函數(shù),C的值域?yàn)閇0,1]n,F(xiàn)1(x1),F2(x2), …,Fn(xn)為隨機(jī)變量的邊緣分布函數(shù),那么C(F1(x1), …,Fn(xn))可以定義一個(gè)聯(lián)合分布函數(shù)。
通過(guò)Copula理論,式(2)可以被推導(dǎo)出
(6)
式中:θ是Copula密度函數(shù)的參數(shù),右邊第1項(xiàng)表示屬于類(lèi)別Ck的Copula密度函數(shù),右邊第2項(xiàng)表示屬于類(lèi)別Ck的核密度函數(shù)。
Copula函數(shù)連接的是每個(gè)特征的累積分布函數(shù)Fi(xi),而累積分布函數(shù)的值域是[0,1],因此,當(dāng)每個(gè)特征都是連續(xù)的隨機(jī)變量時(shí),需對(duì)數(shù)據(jù)進(jìn)行概率積分變換,計(jì)算出每個(gè)特征的經(jīng)驗(yàn)累積分布,該方法可以使任意給定的分布轉(zhuǎn)換為均勻分布。
1.3邊緣分布估計(jì)
式(4)表明,一個(gè)聯(lián)合概率密度函數(shù)可以分解為一個(gè)Copula密度函數(shù)和n個(gè)邊緣密度函數(shù)。非參數(shù)估計(jì)的方法,如直方圖和核密度估計(jì),可以直接利用樣本來(lái)估計(jì)變量的密度函數(shù)??紤]到直方圖的缺點(diǎn),核密度估計(jì)被用來(lái)估計(jì)每個(gè)特征的概率密度函數(shù)。假設(shè)有N個(gè)樣本xi,對(duì)于一個(gè)新來(lái)的樣本x,核密度估計(jì)的方法可以定義為
(7)
式中:K(·)是核函數(shù),h是平滑參數(shù),本文中,采用高斯核函數(shù),因此,式(7)可以表示為
(8)
1.4Copula函數(shù)參數(shù)估計(jì)
采用極大似然估計(jì)的方法對(duì)Copula密度函數(shù)的參數(shù)θ進(jìn)行估計(jì),可以得到θ的估計(jì)值:
(9)
此外,為了校準(zhǔn)參數(shù)θ,我們充分使用了隨機(jī)數(shù)的性質(zhì),從估計(jì)的Copula密度函數(shù)中生成10 000個(gè)隨機(jī)數(shù),然后用極大似然估計(jì)的方法對(duì)生成的隨機(jī)數(shù)重新進(jìn)行參數(shù)擬合,估計(jì)出最終的參數(shù)θ。
1.5模型選擇
目前廣泛使用的Copula密度函數(shù)主要分為兩大類(lèi):elliptical Copulas和Archimedean Copulas。在本文中,主要使用的是elliptical Copulas中的多元Gaussian Copula函數(shù)和多元Student-t Copula函數(shù)。
通常,Copula模型的選擇會(huì)對(duì)后續(xù)步驟造成一定的影響。因此,貝葉斯信息準(zhǔn)則(Bayesian information criterion, BIC)用來(lái)對(duì)Copula模型進(jìn)行選擇,它是模型擬合程度和模型復(fù)雜度之間的權(quán)衡,BIC值較小的Copula密度函數(shù)會(huì)被用于構(gòu)建類(lèi)條件概率密度函數(shù)。
(10)
式中:L(θ*)是估計(jì)的似然值,m表示Copula密度函數(shù)中參數(shù)的個(gè)數(shù),k表示數(shù)據(jù)的個(gè)數(shù)。
2生物電信號(hào)的分類(lèi)識(shí)別
通過(guò)檢測(cè)受試者在白天短時(shí)睡眠過(guò)程中的困倦狀態(tài)(drowsiness)和覺(jué)醒狀態(tài)(alertness)這一個(gè)實(shí)際問(wèn)題,驗(yàn)證所提出方法的有效性。通常對(duì)生物電信號(hào)問(wèn)題進(jìn)行分析和識(shí)別,需要經(jīng)過(guò)信號(hào)的數(shù)據(jù)采集、特征提取和模式分類(lèi)3個(gè)步驟[19-22]。考慮到從生物電信號(hào)中提取的特征參數(shù)能反映人的生理狀態(tài),而且特征之間可能存在一定的相關(guān)性,所以BCDC模型可以用于進(jìn)行狀態(tài)檢測(cè)。
2.1數(shù)據(jù)采集
共有8名受試者參與了白天短時(shí)睡眠的實(shí)驗(yàn),將受試者安排在一個(gè)安靜舒適的環(huán)境內(nèi),記錄其午后30分鐘的睡眠數(shù)據(jù)。原始睡眠數(shù)據(jù)的采集按照多導(dǎo)睡眠描記圖(PSG, Ploysomnograph)的標(biāo)準(zhǔn)記錄方式,包括了4導(dǎo)腦電信號(hào)(C3-A2,C4-A1,O1-A2,O2-A1),并同步采集了2導(dǎo)眼電信號(hào)(LOC-A1, ROC-A2),1導(dǎo)肌電信號(hào)和1導(dǎo)心電信號(hào)。其中腦電、眼電和心電信號(hào)的采樣頻率為100 Hz,肌電信號(hào)的采樣頻率為200 Hz,高頻截至頻率是30 Hz,時(shí)間常數(shù)是0.3 s。本文主要分析4導(dǎo)腦電信號(hào)(EEG)和2導(dǎo)眼電信號(hào)(EOG)。
2.2特征提取
考慮到在20 s的時(shí)間內(nèi),受試者的狀態(tài)可能有所變化,因而特征參數(shù)可能也會(huì)有較大的波動(dòng),所以將受試者原始每段20 s的腦電和眼電信號(hào)進(jìn)一步劃分為5 s一段和2.5 s的重疊窗,提高特征參數(shù)的準(zhǔn)確性,并對(duì)5 s的數(shù)據(jù)進(jìn)行512個(gè)點(diǎn)的快速傅立葉變換(FFT),計(jì)算每個(gè)5 s內(nèi)腦電信號(hào)和眼電信號(hào)的特征,對(duì)所有5 s的特征參數(shù)取平均值,將其作為20 s數(shù)據(jù)的特征參數(shù),以減少干擾。選取的特征分別對(duì)應(yīng)于C3/C4導(dǎo)聯(lián)的θ波(4~8 Hz)和O1/O2導(dǎo)聯(lián)的α波(8~13 Hz)的腦電能量占空比和左、右眼電信號(hào)的頻域能量和(2~10 Hz),即特征向量x={Dθ,Dα,SLOC,SROC}。特征參數(shù)計(jì)算公式如表1。
表1 腦電信號(hào)和眼電信號(hào)中提取的特征參數(shù)
表1中θ(4~8Hz),α(8~13 Hz),T(0.5~25 Hz);LOC, ROC(2~10 Hz)。
2.3模式分類(lèi)
2.3.1參數(shù)優(yōu)化和模型選擇
首先,對(duì)數(shù)據(jù)集做歸一化處理,隨機(jī)選取70%的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),30%的數(shù)據(jù)作為測(cè)試數(shù)據(jù)進(jìn)行分析。然后,針對(duì)每一個(gè)類(lèi)別,通過(guò)概率積分變換計(jì)算訓(xùn)練數(shù)據(jù)中4個(gè)特征的經(jīng)驗(yàn)累積分布,并用kendall秩相關(guān)系數(shù)表示兩兩特征之間的相關(guān)性。相關(guān)性如下所示:
(11)
從以上2個(gè)矩陣可知,每一個(gè)類(lèi)別的特征之間存在正、負(fù)相關(guān)性,有些特征間的相關(guān)性比較微弱,這主要是由于不同的受試者對(duì)2個(gè)狀態(tài)存在一定的差異性。
隨后,對(duì)Copula密度函數(shù)的參數(shù)θ進(jìn)行極大似然估計(jì),并用隨機(jī)數(shù)的性質(zhì)重新校準(zhǔn)參數(shù)θ。最后,采用BIC選取最合適的Copula密度函數(shù),并與核密度估計(jì)相結(jié)合,構(gòu)建類(lèi)條件概率密度函數(shù),BIC選取的模型如表2所示。
表2基于BIC選取的2個(gè)類(lèi)別的Copula 密度函數(shù)
Table 2Copula density functions for two categories based on BIC
Copula密度函數(shù)覺(jué)醒狀態(tài)(A)困倦狀態(tài)(D)GaussianCopula-451.63-477.25Student-tCopula-459.46-471.83
BIC值較小的Copula函數(shù)會(huì)被選擇,所以針對(duì)alertness類(lèi)別選取的是Student-t Copula函數(shù),而drowsiness類(lèi)別選取的是Gaussian Copula函數(shù)。
2.3.2模式分類(lèi)和模型比較
將改進(jìn)的BCDC算法與GDC、GNBC和LR對(duì)測(cè)試數(shù)據(jù)進(jìn)行分析和比較。ROC曲線(xiàn)被用來(lái)表現(xiàn)分類(lèi)器的性能,它通過(guò)將連續(xù)變量設(shè)定出多個(gè)不同的閾值來(lái)揭示真陽(yáng)率(true positive rate, TPR)和假陽(yáng)率(false positive rate, FPR)的相互關(guān)系。其橫軸表示真陽(yáng)率,縱軸表示假陽(yáng)率,曲線(xiàn)下面積越大,分類(lèi)器分類(lèi)的能力越強(qiáng)。圖1呈現(xiàn)出4個(gè)分類(lèi)器在測(cè)試數(shù)據(jù)上的ROC曲線(xiàn),其中連接點(diǎn)(0,0)和(1,1)的直線(xiàn)表示隨機(jī)猜測(cè)。相比其他3個(gè)方法,BCDC算法的曲線(xiàn)處于左上角,所以該方法表現(xiàn)出較好的分類(lèi)能力。
圖1 GDC、GNBC、BCDC、LR的ROC曲線(xiàn)Fig.1 ROC curves obtained by GDC, GNBC, BCDC, LR, respectively
為了進(jìn)一步定量地檢驗(yàn)4個(gè)分類(lèi)器識(shí)別的準(zhǔn)確性,通過(guò)分類(lèi)精度和AUC兩個(gè)性能指標(biāo)對(duì)分類(lèi)器進(jìn)行評(píng)價(jià)。考慮到訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)是隨機(jī)選取的,數(shù)據(jù)中存在的個(gè)體差異性可能會(huì)影響分類(lèi)器的性能評(píng)估,所以將隨機(jī)實(shí)驗(yàn)循環(huán)50次,得到分類(lèi)器的平均分類(lèi)精度和平均AUC,如表3所示。
表3GDC、GNBC、BCDC、LR的平均精度、平均AUC值和相應(yīng)的標(biāo)準(zhǔn)差
Table 3Average Accuracy, Average AUC and corresponding standard deviation obtained by GDC, GNBC, BCDC and LR, respectively
分類(lèi)器平均精度(標(biāo)準(zhǔn)差)平均AUC(標(biāo)準(zhǔn)差)GDC0.8559(0.0257)0.9408(0.0129)GNBC0.8588(0.0258)0.9253(0.0169)LR0.8382(0.0239)0.9120(0.0173)BCDC0.9026(0.0179)0.9634(0.0103)
從表3可知,本文提出的BCDC算法在兩個(gè)分類(lèi)指標(biāo)上呈現(xiàn)出更好的分類(lèi)表現(xiàn)。就平均精度而言,BCDC識(shí)別的精度高于其他3個(gè)分類(lèi)器大約5%左右,同時(shí)標(biāo)準(zhǔn)差也小于其他3個(gè)分類(lèi)器。而對(duì)于AUC,盡管GDC相對(duì)接近于BCDC,但BCDC的AUC值大于其他3個(gè)方法,且標(biāo)準(zhǔn)差也較小,呈現(xiàn)出更強(qiáng)的穩(wěn)定性。
為了了解不同分類(lèi)器在不同數(shù)量的數(shù)據(jù)集上的分類(lèi)能力,從數(shù)據(jù)中分別隨機(jī)選取10%、30%、50%、70%和90%的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),用剩余的測(cè)試數(shù)據(jù)評(píng)估4個(gè)分類(lèi)方法,結(jié)果如圖2所示。
(a)平均精度 (b)平均AUC圖2 GDC、GNBC、BCDC、LR在不同訓(xùn)練數(shù)據(jù)個(gè)數(shù)下的平均精度和平均AUCFig.2 Average accuracy and average AUC obtained by GDC, GNBC, BCDC, and LR based on the different subsets of the training data
分析數(shù)據(jù)可得:當(dāng)訓(xùn)練數(shù)據(jù)較少時(shí)(10%),4個(gè)方法表現(xiàn)出幾乎相同的平均精度,BCDC并沒(méi)有產(chǎn)生顯著的識(shí)別精度。當(dāng)訓(xùn)練數(shù)據(jù)增加(30%),提出的方法的分類(lèi)表現(xiàn)很快超越了其他3個(gè)分類(lèi)器。當(dāng)數(shù)據(jù)量大于30%,BCDC表現(xiàn)出更高的分類(lèi)表現(xiàn)??偠灾?,當(dāng)30%、50%、70%和90%作為訓(xùn)練數(shù)據(jù)時(shí),相比較GDC、GNBC、LR,改進(jìn)的BCDC的分類(lèi)能力更強(qiáng)。由圖2表明,增加訓(xùn)練數(shù)據(jù)個(gè)數(shù)能夠提供更多的某種特定類(lèi)別的信息,從而更加準(zhǔn)確地判斷類(lèi)別。
作為一種監(jiān)督式學(xué)習(xí)方法,BCDC算法通過(guò)參數(shù)優(yōu)化和模型選擇提高了類(lèi)條件概率密度函數(shù)估計(jì)的準(zhǔn)確性。雖然訓(xùn)練時(shí)間大約是10 s,但是在不同數(shù)據(jù)量的條件下,BCDC算法呈現(xiàn)出更好的平均分類(lèi)精度和平均AUC。
3結(jié)束語(yǔ)
本文提出了基于貝葉斯決策理論和Copula理論的分類(lèi)算法。該算法在實(shí)際運(yùn)用過(guò)程中,參數(shù)Copula模型和核密度估計(jì)相結(jié)合提升類(lèi)條件概率密度函數(shù)估計(jì)的準(zhǔn)確性。相比較其他傳統(tǒng)的貝葉斯決策模型,Bayesian-Copula判別分類(lèi)器能夠在實(shí)際的生物電信號(hào)分類(lèi)識(shí)別問(wèn)題中得到較好的分類(lèi)效果。
Copula模型的優(yōu)勢(shì)主要是不需要對(duì)邊緣分布的形式進(jìn)行假設(shè),在模型中,我們僅僅計(jì)算每個(gè)特征的經(jīng)驗(yàn)累積分布,用不同的Copula函數(shù)建立特征間的依賴(lài)結(jié)構(gòu)。該模型簡(jiǎn)單、易懂,在對(duì)未知數(shù)據(jù)建立模型時(shí),具有更多的靈活性。對(duì)于許多實(shí)際問(wèn)題,概率模型中獨(dú)立同分布的假設(shè)通常是不成立的。所以,通過(guò)Copula理論能夠提高對(duì)聯(lián)合分布估計(jì)的準(zhǔn)確性。
參考文獻(xiàn):
[1]TIPPING M E. Sparse Bayesian learning and the relevance vector machine[J]. Journal of machine learning research, 2001, 1(3): 211-244.
[2]XUE Jinghao, HALL P. Why does rebalancing class-unbalanced data improve AUC for linear discriminant analysis?[J]. IEEE transactions on pattern analysis and machine intelligence, 2015, 37(5): 1109-1112.
[4]RODRIGUEZ A, LAIo A. Clustering by fast search and find of density peaks[J]. Science, 2014, 344(6191): 1492-1496.
[5]李宏偉, 劉揚(yáng), 盧漢清, 等. 結(jié)合半監(jiān)督核的高斯過(guò)程分類(lèi)[J]. 自動(dòng)化學(xué)報(bào), 2009, 35(7): 888-895.
LI Hongwei, LIU Yang, LU Hanqing, et al. Gaussian processes classification combined with semi-supervised kernels[J]. Acta automatica sinica, 2009, 35(7): 888-895.
[6]BLEI D M, NG A Y, JORDAN M I. Latent dirichlet allocation[J]. Journal of machine learning research, 2001, 3(4-5): 993-1022.
[7]BISHOP C M. Pattern Recognition and Machine Learning[M]. New York: Springer, 2006: 21-31.
[8]NG A Y, JORDAN M I. On discriminative vs. generative classifiers: a comparison of logistic regression and na?ve Bayes[C]//Advances in Neural Information Processing Systems. Vancouver, British Columbia, Canada, 2002, 14: 841-848.
[9]李航. 統(tǒng)計(jì)學(xué)習(xí)方法[M]. 北京: 清華大學(xué)出版社, 2012: 77-91.
[10]JAIN A K, DUIN R P W, MAO Jianchang. Statistical pattern recognition: a review[J]. IEEE transactions on pattern analysis and machine intelligence, 2000, 22(1): 4-37.
[11]DUDA R O, HART P E, STORK D G. Pattern Classification[M]. 2nd ed. New York: Wiley, 2001: 20-45.
[12]MURPHY K P. Machine Learning: A Probabilistic Perspective[M]. England: MIT, 2012: 82-87.
[13]NELSEN R B. An Introduction to Copulas[M]. 2nd ed. Springer: Berlin, 2006.
[14]GENEST C, FAVRE A C. Everything you always wanted to know about Copula modeling but were afraid to ask[J]. Journal of hydrologic engineering, 2007, 12(4): 347-368.
[15]EBAN E, ROTHSCHILD G, MIZRAHI A, et al. Dynamic Copula networks for modeling real-valued time series[C]//Proceedings of the 16th International Conference on Artificial Intelligence and Statistics. Scottsdale, AZ, USA, 2013, 4: 247-255.
[16]KRISTAN M, LEONARDIS A, SKOC AJ D. Multivariate online kernel density estimation with Gaussian kernels[J]. Pattern recognition, 2011, 44(10-11): 2630-2642.
[17]CHERUBINI U, LUCIANO E, VECCHIATO W. Copula Methods in Finance[M]. England: John Wiley & Sons, 2004.
[18]PATTON A J. A review of Copula models for economic time series[J]. Journal of multivariate analysis, 2012, 110: 4-18.
[19]AUBASI A. Classification of EMG signals using PSO optimized SVM for diagnosis of neuromuscular disorders[J]. Computers in biology and medicine, 2013, 43(5): 576-586.
[20]TAGLUK M E, SEZGIN N, AKIN M. Estimation of sleep stages by an artificial neural network employing EEG, EMG and EOG[J]. Journal of medical systems, 2010, 34(4): 717-725.
[21]CICHOCKI A, MANDIC D, DE LATHAUWER L, et al. Tensor decompositions for signal processing applications: from two-way to multiway component analysis[J]. IEEE signal processing, 2015, 32(2): 145-163.
[22]KHUSHABA R N, KODAGODA S, LAL S, et al. Driver drowsiness classification using fuzzy wavelet-packet-based feature-extraction algorithm[J]. IEEE transactions on biomedical engineering, 2011, 58(1): 121-131.
Classification algorithm based on Copula theory and Bayesian decision theory
QIAN Dong1, WANG Bei1, ZHANG Tao2, WANG Xingyu1
(1. School of Information Science and Engineering, East China University of Science and Technology, Shanghai 200237, China; 2. Department of Automation, Tsinghua University, Beijing 100086, China)
Abstract:Traditional Bayesian decision classification algorithm is easily affected by the estimation of class-conditional probability densities, a fact that may result in incorrect classification results. Therefore, this paper proposes an improved classification algorithm based on Bayesian decision, i.e., Bayesian-Copula Discriminant Classifier (BCDC). This method constructs class-conditional probability densities by combining Copula theory and kernel density estimation instead of making assumptions on the form of class-conditional probability densities. Kernel density estimation is used to smooth the probability distribution of each feature. By performing probability integral transform, continuous distribution is converted to random variables having a uniform distribution. Then, Copula functions are used to construct the dependency structure between these probability distributions for two categories. Moreover, the maximum likelihood estimation is applied to determine the parameters of Copula functions, and two well-fitted Copula functions for two categories are selected based on Bayesian information criterion. The BCDC method was validated with experimental datasets of physiological signals. The obtained results showed that the proposed method outperforms other traditional methods in terms of classification accuracy and AUC as well as robustness. Moreover, it takes full advantage of Copula theory and kernel density estimation and improves the accuracy and flexibility of the estimation.
Keywords:machine learning; Bayesian decision theory; Copula theory; kernel density estimation; physiological signals
DOI:10.11992/tis.201509011
收稿日期:2015-09-06. 網(wǎng)絡(luò)出版日期:2016-01-05.
基金項(xiàng)目:上海市科委科技創(chuàng)新行動(dòng)計(jì)劃-生物醫(yī)藥領(lǐng)域產(chǎn)學(xué)研醫(yī)合作資助項(xiàng)目(12DZ1940903).
通信作者:王蓓. E-mail:beiwang@ecust.edu.cn.
中圖分類(lèi)號(hào):TP391.4
文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1673-4785(2016)01-0078-06
作者簡(jiǎn)介:
錢(qián)冬,男,1990年生,碩士研究生,主要研究方向?yàn)闄C(jī)器學(xué)習(xí)、生物電信號(hào)。
王蓓,女,1976年生,副研究員,主要研究方向?yàn)橹悄苄畔⑻幚砗湍J椒诸?lèi)、復(fù)雜系統(tǒng)及其在人工生命科學(xué)中的應(yīng)用。曾參與國(guó)家自然科學(xué)基金、上海市科委科技創(chuàng)新行動(dòng)計(jì)劃等項(xiàng)目。發(fā)表學(xué)術(shù)論文50余篇,被SCI、EI檢索30余篇。
張濤,男,1969年生,教授,博士生導(dǎo)師,主要研究方向?yàn)榭刂评碚摷皯?yīng)用、信號(hào)處理、機(jī)器人控制等。主持或參與國(guó)家973項(xiàng)目、國(guó)家863項(xiàng)目、國(guó)家自然科學(xué)基金項(xiàng)目多項(xiàng)。曾獲得教育部自然科學(xué)獎(jiǎng)、軍隊(duì)科技進(jìn)步獎(jiǎng)、中國(guó)電子信息科學(xué)技術(shù)獎(jiǎng)等。發(fā)表論文200余篇,其中被SCI檢索40余篇,EI檢索120余篇。
網(wǎng)絡(luò)出版地址:http://www.cnki.net/kcms/detail/23.1538.TP.20160105.1526.002.html