劉遵雄,許金鳳,曾麗輝
(華東交通大學(xué)信息工程學(xué)院,江西南昌 330013)
經(jīng)典的Logistic回歸(Logistic Regression,LR)是一種統(tǒng)計分析方法,根據(jù)一個或多個連續(xù)性或?qū)傩孕偷淖宰兞縼矸治龊皖A(yù)測0/1二值型因變量的多元量化分析方法,屬于概率型非線性回歸。與線性回歸不同,LR是一種非線性模型,普遍采用的參數(shù)估計方法是最大似然估計法??梢宰C明,在隨機樣本條件下,LR模型的最大似然估計具有一致性、漸進性和漸進正態(tài)性[1]。LR模型所用假設(shè)簡單,不要求滿足誤差分布趨于正態(tài)分布的假設(shè),也不要求自變量符合正態(tài)分布的條件,模型對識別變量的分布未作任何要求;能用于因變量二值的判別并計算出其歸屬的概率,而且可以給出判別結(jié)果在概率意義上的解釋。目前,該方法已廣泛應(yīng)用于經(jīng)濟、社會科學(xué)以及醫(yī)學(xué)等諸多科學(xué)領(lǐng)域。
LR通過二元取值,直接利用樣本所屬類別的后驗概率來進行分類[2]。由于采用的是線性模型,所以對概率估計的精度有限,因此一些學(xué)者利用SVM中的核技巧手法將經(jīng)典的Logistic回歸(Logistic Regression,LR)推廣到RKHS(Reproducing Kernel Hilbert Space)空間從而得到非線性的核Logistic回歸(Kernel Logistic Regression,KLR)[3-4],以提高概率估計的精度。
音頻自動分類是解決音頻結(jié)構(gòu)化問題和提取音頻內(nèi)容語義的重要手段之一,是當(dāng)前基于內(nèi)容的音頻檢索領(lǐng)域的研究熱點。目前,該領(lǐng)域的研究重點主要在以下兩個方面:音頻特征分析與抽取以及分類器的設(shè)計。在音頻分類的問題上,國內(nèi)外的研究人員進行了大量的研究。為了提高分類精度,研究者們提出了不同的分類方法,包括最近鄰準則(NN),支持向量機(SVM),高斯混和模型(GMM),神經(jīng)網(wǎng)絡(luò),隱形馬爾科夫模型(HMM)[5-10]等。上述方法處理的分類問題比較單一,通常只是對語音、音樂及環(huán)境音等進行分類,在簡單的分類中分類精度比較滿意,但是在相似度較高的音頻信號例如同類型的樂器音樂等音頻分類精度不高。
本文通過在KLR模型中采用不同的核函數(shù)、線性核函數(shù)、多項式核函數(shù)和徑向基核函數(shù),建立多類KLR模型[11]。通過對弦樂器中小提琴、中提琴、大提琴的音樂信號進行特征提取,運用多類KLR模型進行分類試驗,從而實現(xiàn)對同類別樂器信號的辨識。使用傳統(tǒng)的LR多分類模型和SVM進行對比試驗,比較算法之間的分類性能差別。
在音頻分類中,所選取的特征應(yīng)該能充分刻畫音頻在時域和頻域上的重要分類特性[12],對環(huán)境的改變具有魯棒性和一般性。
一般來說,音頻特征提取是基于兩種不同的時間長度:一種是基于音頻幀(audio frame)的特征提取,時間為幾十毫秒;另一種是基于音頻段(audio clip)的特征提取,持續(xù)時間一般是幾秒。本文通過將原始的音頻信號切分成每3 s的音頻段,然后將音頻段通過加23.21 s(512個采樣點)的漢寧窗(hanning)處理形成音頻幀(audio frame),幀間重疊25%。計算每一幀的傅里葉變換系數(shù)F(ω)和頻域能量E。然后對每一音頻幀進行特征提取,最后再根據(jù)所獲得的幀層次上的特征來計算音頻段層次上的特征,從而獲得一個長度為3 s音頻樣本的特征數(shù)據(jù)集。
本文選擇的音頻幀(frame)上的特征:
(3)關(guān)鍵子帶能量比(Critical Sub-band Power Ratios):在頻域中劃分子帶區(qū)間,選取部分關(guān)鍵子帶區(qū)間。關(guān)鍵子帶能量比定義為每個關(guān)鍵子帶的能量對數(shù)值與整個音頻幀的能量對數(shù)值之比。
基于音頻段(audio clip)上的特征:
(1)子帶能量比均值定義為片段(clip)中每個關(guān)鍵子帶能量比的均值。
(2)帶寬均值與方差定義為clip中各個幀的帶寬均值。
(3)頻譜中心均值和方差定義為clip中亮度均值和方差。
在Logistic回歸中,我們用一個線性函數(shù) f(X)=βTX+β0去估計 f(X)。
由此得到后驗概率i=1
加入正則化項后(為避免訓(xùn)練數(shù)據(jù)的過擬合,加入懲罰項以防止估計參數(shù) β出現(xiàn)較大的波動),得到最小化下面的目標泛函:
在核Logistic回歸中,樣本概率估計的負對數(shù)似然可以寫成:
λ為平衡回歸函數(shù)光滑性與損失函數(shù)的系數(shù)(正則化項的參數(shù))。求解回歸參數(shù)是一個無約束的凸優(yōu)化問題,利用Newton-Raphson規(guī)則解等式,得到回歸參數(shù) αnew:
P是擬合概率向量,它的第i個元素是P(αold,Xi),W是N×N權(quán)重矩陣,對角線上元素為 P(αold,Xi)(1-P(αold,Xi))。
本文從標準樂器錄音數(shù)據(jù)庫[14]中獲取三類樂器原始音樂信號樣本:小提琴、中提琴和大提琴。所有原始音頻樣本均為單聲道,采樣頻率為44.1 kHz,精度為16位,AIFF格式。利用音頻格式轉(zhuǎn)換軟件轉(zhuǎn)化為WAV格式后,將原始音頻樣本在時域上分割成每3 s的片段(clip),每個類別獲得100個音頻片段,共300個音頻信號樣本。再對每段加23.21(512個采樣點)的漢寧窗(hanning)形成幀,幀間重疊25%。
選取clip中每一音頻幀中的22個關(guān)鍵子帶,獲得各個子帶的子帶能量比,然后基于幀層次上計算音頻段中22個關(guān)鍵子帶能量比均值和標準差共44維特征;根據(jù)每一幀的頻率和帶寬,然后計算音頻段上的頻率均值和標準差,帶寬均值和標準差共4維向量,最終構(gòu)建48維的分類特征數(shù)據(jù)集。
最終實驗特征數(shù)據(jù)集組成如表1所示。
表1 音頻實驗數(shù)據(jù)集組成
本文在Matlab平臺下,使用核Logistic回歸模型對上述特征數(shù)據(jù)集進行分類仿真實驗,為評價本文算法提出的有效性使用傳統(tǒng)的Logistic回歸和支持向量機SVM完成相同的音頻分類任務(wù)。其中核Logistic回歸和SVM中核函數(shù)分別選擇線性核、多項式核和RBF核進行實驗。
通過大量實驗統(tǒng)計,在核Logistic回歸和SVM中多項式核函數(shù)參數(shù)均取d=2;logistic回歸中RBF核函數(shù)的參數(shù)取σ=2,正則化項參數(shù)λ=1E-5;SVM中RBF核函數(shù)的參數(shù)σ=2,懲罰因子λ=1E-2。
本文采用分類準確度評價分類器的性能。其定義如下:分類準確率=分類正確的樣本數(shù)/樣本總數(shù)。實驗結(jié)果如表2所示。
表2 不同分類器下的分類準確率 %
從實驗結(jié)果來看,應(yīng)用核Logistic回歸算法建立的分類模型分類性能良好,準確度均在90%以上。分析表1中數(shù)據(jù),可以得到如下結(jié)論:(1)在訓(xùn)練樣本尺寸相同時,KLR算法的分類準確率要高于支持向量機(SVM)和傳統(tǒng)的LR回歸。(2)三類算法在訓(xùn)練樣本尺寸增加的情況下,分類準確度隨之提高。(3)總體看來,KLR和SVM中選取RBF核函數(shù)時,分類準確率和穩(wěn)定性要高于選擇線性核函數(shù)和多項式核函數(shù)。
三類算法的準確度的曲線如圖 1所示,其中KLR和SVM中的核函數(shù)均選擇RBF核函數(shù)。
在訓(xùn)練樣本尺寸不同的情況下,KLR算法的分類性能始終優(yōu)于或等于LR算法,因為在KLR算法將廣義線性模型LR擴展為RKHS空間的非線性模型,較好的解決了在特征空間中相似度較大音頻樣本線性不可分的問題。KLR算法分類性能與SVM相比,在每個類別的訓(xùn)練樣本尺寸為50時,二者的分類性能相等,只有在訓(xùn)練樣本尺寸為70時SVM的分類準確度要高于KLR,KLR通過學(xué)習(xí)能給出樣本所屬類別在概率意義上的解釋,更具實際意義。
圖1 三種分類算法的準確度曲線圖
本文使用核Logistic回歸(KLR)算法進行音頻分類。利用對樣本數(shù)據(jù)的后驗驗概率估計判定樣本所屬的類別,并對三類弦樂器音頻信號:小提琴、大提琴、中提琴進行分類實驗,實驗結(jié)果表明:KLR算法分類的誤差明顯小于傳統(tǒng)的LR算法和SVM算法,取得了較為滿意的分類準確度。
在KLR中,由于其解不存在稀疏性,意味著計算新樣本后驗概率時需要所有的訓(xùn)練樣本參與運算,計算量較大,這樣就限制了KLR在大規(guī)模數(shù)據(jù)集中的應(yīng)用。下一步的工作是對KLR解的稀疏性問題進行研究。
[1]王濟川,郭志.Logistic回歸模型方法與應(yīng)用[M].北京:高等教育出版社,2001.
[2]HASTIE T,TIBSHIR ANI R,FRIEDMAN J.The Elements of Statistical Learning:Data Mining,Inference,And Prediction[M].Berlin:Springer Verlag,2002.
[3]JAAKKOLA T S,HAUSSLER D.Probabilistic Kernel RegressionModels[C]//Proceedings of the Conference on AI and Statistics.San Francisco.USA:Morgan Kaufmann,1999:99-108.
[4]OTH V.Probabilistic Discriminative Kernel Classifiers for Multi-class Problems,Lecture Notes in Computer Science[R].London,UK:Springer Verlag,2001:246-253.
[5]WOLD E,BLU M T,KEISLAR D,et al.Content-based classification,search and retrieval of audio[J].IEEE Multimedia Magazine,1996,3(3):27-36.
[7]MUBARAK O M,AMBIKAIRAJAH E,EPPS J.Novel Features for Effective Speech and Music Discrimination[C]//Proc of the IEEE Int'l Conf on Engineering of Intelligent Systems.2006:22-23.
[8]盧堅,陳毅松,孫正興,等.基于隱馬爾可夫模型的音頻自動分類[J].軟件學(xué)報,2002,13(8):1 593-1 597.
[9]孟永輝,蔣冬梅,付中華,等.一種新穎的語言/音樂分割與分類方法[J].計算機工程與科學(xué),2009,31(4):106-109.
[10]MAR QUES J,MORENO P J.A Study of Musical Instrument Classification Using Gaussian Mixture Models and Support Vector Machines[R].COMPAQ:Cambridge Research Laboratory,1999.
[11]HASTIE T,TIBSHIRANI R.Classification by pairwise coupling[J].Ann Statist,1998,26(2):451-471.
[12]AUCOUTURIER J,PACHET F,SANDLERM.“ The way it sounds” :timbre models for analysis and retrieval of music signals[J].IEEE Transactions onMultimedia,2005,7(6):1-8.
[13]李濤,王俊普,吳秀清,唐金輝.后驗概率估計及其應(yīng)用:基于核Logistic回歸的方法[J].模式識別與人工智能,2006,19(16):589-695.
[14]FRITTS L.Musical Instrument Samples[DB/OL].[2009-12-26],http://theremin.music.uiowa.edu/.