王 宸,陶 毅,吳劍明
(1. 廈門大學(xué)海洋與地球?qū)W院,福建省廈門361102;2. 廈門大學(xué)水聲通信與海洋信息技術(shù)教育部重點實驗室,福建廈門361102)
海豚的發(fā)聲信號可以分為:通訊信號(whistle)、回聲定位信號(click),和應(yīng)急突發(fā)信號(burst pulse)。海豚的click信號是一種寬頻的脈沖信號,利用click信號可以進(jìn)行海豚種類自動識別,這種方法對海豚的保護(hù)和研究具有重要作用。
現(xiàn)階段已經(jīng)有一些方法可以根據(jù)海豚的click信號來識別海豚種類。Jarvis等[1]提出了一種分類器,它由多個二進(jìn)制支持向量機(jī)(Support Vector Machine, SVM)組成,稱為特定類支持向量機(jī)(Class Specific Support Vector Machine, CS-SVM),利用這種模型對四種類型的 click進(jìn)行分類;Roch等[2]通過提取 click信號的倒譜特征,比較了高斯混合模型(Gaussian Mixture Model, GMMs)和支持向量機(jī)模型(SVM)在鯨豚類識別中的性能,發(fā)現(xiàn)GMM分類器的錯誤率略低于SVM分類器,其中GMM模型和SVM模型的平均識別準(zhǔn)確率分別為 93.5%和92.9%左右。
近年來,關(guān)于機(jī)器學(xué)習(xí)方法的研究日益繁盛,機(jī)器學(xué)習(xí)可以利用大量數(shù)據(jù)或者經(jīng)驗,通過電腦編程來優(yōu)化某個性能評價指標(biāo),從而對事物進(jìn)行分類和預(yù)測。隨著硬件的快速發(fā)展,計算機(jī)的計算能力得到了極大的提高,將機(jī)器學(xué)習(xí)方法運用于識別海豚的click信號當(dāng)中能極大提升工作的效率。因此,本文將以click信號為分類標(biāo)準(zhǔn),使用3種機(jī)器學(xué)習(xí)方法(K 近鄰法,決策樹法和樸素貝葉斯法)識別中華白海豚,并比較同種海豚識別和不同種海豚識別的差異性。
該實驗中首先用時頻濾波器定位 click信號大致的開始時間和結(jié)束時間,然后用Teager-Kaiser能源算子(Teager-Kaiser Energy Operator, TKEO)方法和Gabor濾波器進(jìn)行click信號的自動檢測,接著通過倒譜法提取 click信號的特征,最后通過機(jī)器學(xué)習(xí)方法識別中華白海豚,流程圖如圖1所示。
圖1 中華白海豚識別方法流程圖Fig.1 Flow chart of recognition method for Sousachinensis
首先采用時頻濾波器定位 click信號的大致開始時間和結(jié)束時間,然后用Teager-Kaiser能源算子(TKEO)和Gabor濾波器用于精確定位click信號起始點和結(jié)束點,這極大地提高了提取中華白海豚click信號的效率[3]。
利用倒譜的方法可以對海豚 click信號進(jìn)行特征提取。倒譜的原理如下:先將 click信號經(jīng)過傅里葉變換及對數(shù)運算,再經(jīng)過傅里葉反變換得到特征提取后的信號。
從3種海豚中,各隨機(jī)抽取5個click信號,畫出經(jīng)過倒譜方法進(jìn)行特征提取后的 click信號,從而驗證3種海豚經(jīng)過特征提取后信號存在顯著差異。特征提取后的click信號如圖2所示。
圖2 特征提取后的click信號Fig.2 Click signal after feature extraction
由圖2可以看出,雷州灣海域中華白海豚的信號幅值在-8~0之間(見圖2(a));廈門海域中華白海豚幅值在-2.8~0.3之間(見圖2(b));廈門海域?qū)捨呛k喾翟?5.3~0.2之間(見圖 2(c))。3種海豚經(jīng)過特征提取后的 click信號存在顯著性差異,可以用于后續(xù)模型的訓(xùn)練。
利用3種機(jī)器學(xué)習(xí)方法識別中華白海豚。以下為三種機(jī)器學(xué)習(xí)算法的原理:
1.4.1 K近鄰
K 近鄰(K-Nearest Neighbor, KNN)算法是機(jī)器學(xué)習(xí)中一種常見的分類方法。該算法由3個條件組成,即K值的大小、距離長度和分類決策規(guī)則。在輸入新的數(shù)據(jù)前,需要確定這3個條件,從而可以確定數(shù)據(jù)的類別。原理如下:
(1) 輸入:訓(xùn)練集
其中:xi∈X∈RN為數(shù)據(jù)的特征向量,yi∈Y={c1,c2,??,ck} 為數(shù)據(jù)的類別,i= 1 ,2,??,N。
(2) 輸出:數(shù)據(jù)x所屬的類y
通過計算距離長度,找到訓(xùn)練集T中最接近x的K個點,覆蓋K個點的x的區(qū)域表示為Nk(x)。
在Nk(x)中根據(jù)分類決策規(guī)則(如多數(shù)表決)決定x的類別y:
其中:I為指示函數(shù),即當(dāng)時,I為1,否則為0。
1.4.2 決策樹-分類回歸樹
決策樹-分類回歸樹(Classification and Regression Tree, CRAT)是一種重要機(jī)器學(xué)習(xí)分類算法,可以用于分類和回歸[4]。
設(shè)訓(xùn)練樣本集為
當(dāng)創(chuàng)建回歸樹時,Y為連續(xù)值;當(dāng)創(chuàng)建分類樹時,Y為離散值。通過算法將樣本集分成兩個子樣本集,使生成的決策樹的每個非葉結(jié)點僅具有兩個分枝。在每個節(jié)點處,找到最優(yōu)分裂變量和對應(yīng)的分裂值,其可以使下一代子節(jié)點數(shù)據(jù)集中的非純度下降最大[4]。在這里非純度指標(biāo)用基尼指數(shù)來衡量,其定義為
其中:i(t)是節(jié)點t的基尼指數(shù),p(i/t)表示在節(jié)點t中屬i類的樣本比例,p(j/t)是節(jié)點t中屬于j類的樣本比例。用該分裂變量和分裂閾值把根節(jié)點t1分裂成t2和t3,如果在某個節(jié)點t1處,不可能再進(jìn)一步顯著降低非純度,則該點稱為葉結(jié)點,否則繼續(xù)尋找它的最優(yōu)分裂變量和對應(yīng)的分裂值進(jìn)行分裂[4]。
1.4.3 樸素貝葉斯
樸素貝葉斯(Navie Bays, NB)分類是以貝葉斯定理為基礎(chǔ),是貝葉斯分類中常見的一種分類方法。
假設(shè)訓(xùn)練集為m個樣本,n個維度,如下:
雷州灣中華白海豚的發(fā)聲數(shù)據(jù)集來自中國廣東雷州灣海域的中華白海豚。實驗過程中,調(diào)查船與中華白海豚之間需要保持一定的距離,等到中華白海豚活動狀態(tài)相對穩(wěn)定時,關(guān)閉調(diào)查船的發(fā)動機(jī),并迅速安排實驗儀器記錄中華白海豚的發(fā)聲數(shù)據(jù)[6]。整個記錄過程中,在研究區(qū)域中沒有發(fā)現(xiàn)其他鯨豚物種。實驗儀器采用丹麥B&K公司生產(chǎn)的8105水聽器(電壓靈敏度為 56 μV/Pa)作為前端輸入,利用B&K2692NEXUS適配放大器對信號進(jìn)行放大,然后通過 NIDAQ6062E高速數(shù)據(jù)采集卡進(jìn)行中華白海豚聲信號的數(shù)據(jù)采集,最后把數(shù)據(jù)儲存在電腦中,用于終端信號存儲與處理[7]。
廈門灣中華白海豚的發(fā)聲數(shù)據(jù)集來自中國福建廈門海域的中華白海豚。在廈門浯嶼島海域中記錄到1段中華白海豚群體的發(fā)聲信號。這個群體一共包括4只中華白海豚。在下午13:00~15:00這段時間,每隔30 s記錄一段數(shù)據(jù),共記錄了16段中華白海豚發(fā)聲的數(shù)據(jù)[7]。整個記錄過程中,在研究區(qū)域中沒有發(fā)現(xiàn)其他鯨豚物種。實驗儀器由 Reson公司的全方向性水聽器TC 4014(含前置放大,頻率響應(yīng)為15~480 kHz),高通濾波放大器VP1000(放大增益0~32 dB),NI公司的高頻采集卡USB6351和Lenovo公司的PC機(jī)T61組成[7]。
廈門灣寬吻海豚的發(fā)聲數(shù)據(jù)集來自中國福建省廈門海域的寬吻海豚。在廈門五緣灣海域中,共記錄了 19段寬吻海豚的發(fā)聲數(shù)據(jù),時長總計37 min 39 s。整個記錄過程中,在研究區(qū)域中未發(fā)現(xiàn)其他鯨豚物種出現(xiàn)。實驗中采用丹麥B&K公司生產(chǎn)的8105水聽器和NIDAQ9216數(shù)據(jù)采集卡。
2.2.1 信號處理
利用倒譜的方法對自動識別出的海豚回聲定位信號進(jìn)行特征提取。
2.2.2 數(shù)據(jù)集準(zhǔn)備
經(jīng)過處理后的3組各1 200個click信號,通過交叉驗證分為訓(xùn)練集和測試集,其中訓(xùn)練數(shù)據(jù)的click信號數(shù)量為1 080個,測試集的click信號數(shù)量為120個,如表1所示。
表1 3類海豚的訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)Table 1 Training data and test data of three species of dolphins
將廈門灣中華白海豚和雷州灣中華白海豚設(shè)為第一組,進(jìn)行同種海豚識別。將廈門灣中華白海豚和寬吻海豚設(shè)為第二組,進(jìn)行不同種海豚識別。
2.2.3 測試過程
用測試集中的測試數(shù)據(jù)對訓(xùn)練后的模型進(jìn)行測試,共測試10次,測試集結(jié)果如表2、3所示。將不同模型的預(yù)測準(zhǔn)確率以箱線圖的形式進(jìn)行畫圖,結(jié)果如圖3、4所示。
2.2.4 實驗結(jié)果
第一組實驗結(jié)果可以看出廈門灣中華白海豚和雷州灣中華白海豚的識別準(zhǔn)確率,平均值均在98%以上,其中K近鄰模型和決策回歸樹模型平均識別準(zhǔn)確率分別為0.992和0.991,方差分別為0.005和 0.006,樸素貝葉斯模型的平均識別準(zhǔn)確率較低為0.982,方差為0.012。
表2 第一組實驗的準(zhǔn)確率和方差Table 2 The accuracy and variance of the first group of experiments
表3 第二組實驗的準(zhǔn)確率和方差Table 3 The Accuracy and variance of the second group of experiments
圖3 第一組實驗的準(zhǔn)確率Fig.3 The accuracy of the first group of experiments
圖4 第二組實驗的準(zhǔn)確率Fig.4 The accuracy of the second group of experiments
由第二組實驗結(jié)果可以看出廈門灣海域中華白海豚和寬吻海豚的識別準(zhǔn)確率,平均值均在94%以上,其中 K近鄰模型平均識別準(zhǔn)確率最高為0.980,方差為 0.007,CART模型和樸素貝葉斯的平均識別準(zhǔn)確率較低分別為0.949和0.960,且方差較大,分別為0.010和0.017。
本文中分別利用3種常見的機(jī)器學(xué)習(xí)算法對廈門海域和雷州灣的中華白海豚以及廈門海域的中華白海豚和寬吻海豚進(jìn)行識別,平均識別準(zhǔn)確率分別達(dá)到98%和94%以上。其中K近鄰算法具有最高的平均識別準(zhǔn)確率。在兩組實驗結(jié)果中,樸素貝葉斯算法具有相對較低的準(zhǔn)確率和較大的方差,這是因為樸素貝葉斯模型中總體的概率分布和各類概率分布函數(shù)常常是未知的,獲取這一數(shù)值需要足夠大的樣本量。另外,第二組的平均識別準(zhǔn)確率相對于第一組下降了 2%,這與采集數(shù)據(jù)的質(zhì)量有一定的關(guān)系,其中決策樹模型的平均識別準(zhǔn)確率降低了4%,這與設(shè)置的決策樹參數(shù)有關(guān)。
由于采集到的海豚發(fā)聲信號數(shù)據(jù)集有限,未來工作需要更多的數(shù)據(jù)進(jìn)行驗證,提高對廈門海域的中華白海豚和寬吻海豚的識別準(zhǔn)確率。