鄭婉蓉,謝凌云
(中國(guó)傳媒大學(xué) 傳播聲學(xué)研究所,北京100024)
傳統(tǒng)的聲音信號(hào)(無(wú)論是樂(lè)音還是語(yǔ)音)處理中,一般都是獲取一維的波形數(shù)據(jù),進(jìn)行與聲音有關(guān)的特征分析或數(shù)字信號(hào)處理。同樣地,在圖像信號(hào)處理中,所采用的特征和方法也是直接和二維圖像相關(guān)的。這兩種視聽(tīng)覺(jué)模態(tài)的輸入信息,一直以來(lái)都是在各自的領(lǐng)域進(jìn)行獨(dú)立的研究。近年來(lái),視聽(tīng)交互和融合的心理感知現(xiàn)象在視聽(tīng)覺(jué)的信號(hào)分析領(lǐng)域得到越來(lái)越多的重視,研究人員的分析視角也逐漸地從一維聲音信號(hào)和二維圖像信號(hào)的獨(dú)立分開(kāi)處理轉(zhuǎn)向創(chuàng)造性的跨模態(tài)處理。聲音(圖像)的信號(hào)處理方法,被運(yùn)用到另一模態(tài)的圖像(聲音),從而試圖從一個(gè)模態(tài)上挖掘有用的信息后再應(yīng)用到另一個(gè)模態(tài)上。其中最重要的中介就是語(yǔ)譜圖。
語(yǔ)譜圖將聲音的頻譜隨時(shí)間變化的信息展現(xiàn)在一個(gè)二維平面圖上,其中橫軸是時(shí)間,縱軸是頻率,某一點(diǎn)處顏色的深淺代表了對(duì)應(yīng)時(shí)刻和頻率的信號(hào)能量大小,也被稱為聲譜圖(spectrogram)。它雖然反映了聲音信號(hào)的特征,但是卻和二維圖像具有相同的屬性。以它為中介,可以完成圖像到聲音和聲音到圖像的雙向轉(zhuǎn)換,達(dá)到跨模態(tài)處理的目的。
本文接下來(lái)一方面介紹了從語(yǔ)譜圖的角度進(jìn)行聲音分類的研究?jī)?nèi)容及進(jìn)展情況,包括用于音樂(lè)流派分類圖像特征類型及其分類的精確度,對(duì)普通聲音事件分類的方法及其結(jié)果。另一方面對(duì)圖像到聲音的相互轉(zhuǎn)換及關(guān)系等相關(guān)工作進(jìn)行了介紹,包括通過(guò)修改聲音來(lái)改變圖像或者通過(guò)圖像處理來(lái)改變聲音等。同時(shí)提出了基于語(yǔ)譜圖的圖像處理重建語(yǔ)音,以達(dá)到語(yǔ)音增強(qiáng)目的的處理方法。
信息時(shí)代早期以來(lái),數(shù)字音樂(lè)已成為消費(fèi)類型最多的媒體之一,對(duì)于音樂(lè)數(shù)據(jù)的自動(dòng)分析相應(yīng)的越來(lái)越重要。音樂(lè)流派是人類為確定音樂(lè)風(fēng)格而創(chuàng)建的分類標(biāo)簽,是提高音樂(lè)檢索的一個(gè)重要描述信息。傳統(tǒng)音樂(lè)流派分類的方法大多都以音樂(lè)信號(hào)為基礎(chǔ),近幾年來(lái),相當(dāng)一部分關(guān)于音樂(lè)的自動(dòng)流派分類工作大部是基于內(nèi)容的,即從數(shù)字音頻信號(hào)中提取有代表性的短時(shí)音頻特征,較為頻繁使用的特征中有音色、節(jié)拍、音高等,再利用模式識(shí)別以及分類算法處理特征達(dá)到音樂(lè)流派分類的目的。例如Tzanetakis[1]根據(jù)聲音的音色、節(jié)奏、韻律、MFCC系數(shù)等特征對(duì)10個(gè)音樂(lè)流派進(jìn)行分類,達(dá)到了61%的分類識(shí)別率。國(guó)內(nèi)外有相當(dāng)一部分研究如Kosina、Grimaldi都做了類似的工作。2011年Costa[2]提出了一種新的音樂(lè)流派分類方法。
Costa提出的音樂(lè)流派分類方法是將聲音信號(hào)的時(shí)頻表示轉(zhuǎn)換為紋理圖像,提取圖像特征來(lái)構(gòu)建新的音樂(lè)流派分類系統(tǒng)。具體是將音頻信號(hào)轉(zhuǎn)換為語(yǔ)譜圖,然后從視覺(jué)表示中提取特征,對(duì)圖像特征向量進(jìn)行訓(xùn)練分類,從而達(dá)到音樂(lè)流派分類的目的。音樂(lè)信號(hào)可能包括類似的樂(lè)器和類似的節(jié)奏模式,使得語(yǔ)譜圖圖像中有相似區(qū)域。通過(guò)對(duì)圖像進(jìn)行分區(qū),提取出局部特征信息,獲得每種音樂(lè)流派的突出特點(diǎn)再進(jìn)行分類。
接著,Costa又利用灰度共生矩陣(Gray-Level Co-occurrence Matrix,GLCM)來(lái)對(duì)音樂(lè)信號(hào)進(jìn)行分類訓(xùn)練,GLCM是特定空間(包括距離和角度)中兩個(gè)灰度出現(xiàn)的聯(lián)合概率分布,得到的結(jié)果與Lopes[3]的結(jié)果相比,分類正確率提高了7個(gè)百分點(diǎn)。
2012年,Costa[4]從語(yǔ)譜圖提取了圖像特征:灰度共生矩陣和局部二值模式(Local Binary Patterns,LBP)。LBP是用來(lái)描述圖像局部紋理特征的算子,它反映的內(nèi)容是每個(gè)像素點(diǎn)與其周圍像素點(diǎn)的對(duì)比信息,或者說(shuō)差異。結(jié)果表明用LBP訓(xùn)練的SVM分類器能夠?qū)崿F(xiàn)80%的識(shí)別率,優(yōu)于用GLCM訓(xùn)練。具體見(jiàn)表1。
表1 流派分類的結(jié)果對(duì)比
2013年Costa[5]進(jìn)一步利用Gabor濾波器和LPQ(Local Phase Quantization,局部相位量化)描述符來(lái)表示圖像紋理特征,得到新的音樂(lè)流派分類識(shí)別率。Gabor函數(shù)是一個(gè)用于邊緣提取的線性濾波器。Gabor濾波器的頻率和方向表達(dá)同人類視覺(jué)系統(tǒng)類似。用LPQ訓(xùn)練的SVM分類器達(dá)到高于80%的識(shí)別率。結(jié)果參見(jiàn)表2和表3。
實(shí)驗(yàn)的過(guò)程方法都是類似的,數(shù)據(jù)集使用的是LATIN MUSIC DATABASE(LMD),圖像取自歌曲前中后三個(gè)片段的語(yǔ)譜圖,分別采用全局和局部?jī)煞N特征進(jìn)行訓(xùn)練分類,訓(xùn)練分類使用了三重交叉驗(yàn)證。
表2 不同圖像特征的結(jié)果對(duì)比
表3 不同圖像特征的結(jié)果與傳統(tǒng)方法及比賽結(jié)果對(duì)比
由結(jié)果可以看出,提出的基于語(yǔ)譜圖圖像特征的方法表現(xiàn)出了良好的分類效果,特別是LBP和LPQ,存在的不足是使用的特征向量維數(shù)過(guò)多,造成計(jì)算時(shí)的冗雜,例如LBP的特征向量唯獨(dú)為59。因此在優(yōu)化識(shí)別率的基礎(chǔ)上,算法效率也需要加強(qiáng)。
聲音事件通常具有更獨(dú)特的時(shí)間頻率表示,能量集中在少量的頻譜分量上。這使得它們更適合于基于它們的視覺(jué)特征進(jìn)行分類,因此可以從圖像處理的相關(guān)領(lǐng)域中得到啟發(fā)。2014年,Dennis[6]介紹了最近6種根據(jù)語(yǔ)譜圖進(jìn)行聲音事件分類的方法,包括一個(gè)基于幀的直方圖特征(Histogram of Oriented Gradients,HOG),三個(gè)全局特征語(yǔ)譜圖圖像特征(Spectrogram Image Feature,SIF)、子帶功率分布圖像特征(Subband Power Distribution Image Feature,SPD-IF)、聲譜縫模式(Spectrographic Seam Patterns,SSP),兩個(gè)局部特征包括時(shí)頻有序BOVW(Ordered Spectro-Temporal Bag-of-Visual-Words)和尺度不變特征變換BOVW(SIFT BOVW)。Dennis分析了這6種方法在對(duì)50種不同環(huán)境聲音中的表現(xiàn)的性能,聲音數(shù)據(jù)來(lái)自RWCP(Real Word Computing Partnershi),所選擇的聲音事件涵蓋了廣泛,包括木制,金屬和瓷器撞擊,摩擦聲以及其他聲音如鈴聲,電話和哨聲等。使用了NOISEX’92中的語(yǔ)噪、工廠噪聲、飛機(jī)駕駛艙噪聲作為環(huán)境噪聲。表4給出在不同方法在聲音事件分類任務(wù)中的效果比較。
表4 不同聲音分類方法結(jié)果對(duì)比
其中ETSI Advanced Front End(AFE)和Multi-Conditional Training(MCT)是基于幀的MFCC-HMM系統(tǒng),兩個(gè)分類系統(tǒng)都使用基于39維的基于幀的MFCC特征,后六個(gè)方法是基于語(yǔ)譜圖圖像處理方法的。使用有序BOVW方法的性能明顯優(yōu)于無(wú)序SIFT BOVW技術(shù)。整體性能表現(xiàn)最好的方法是SPD-IF,SPD-IF方法是通過(guò)頻譜圖的子帶分布捕獲時(shí)間信息,與SIF相比,信號(hào)和噪聲信息在SPD表現(xiàn)中更容易分離。SPD方法沒(méi)有精確捕獲聲音中時(shí)間信息的排序,但它可以為特征提取提供一個(gè)魯棒和區(qū)分性的基礎(chǔ),優(yōu)于現(xiàn)有MCT技術(shù)??偟膩?lái)看將語(yǔ)譜圖信息結(jié)合到特征中對(duì)于聲音事件分類是有益的。
Kawamura[7]在2016年發(fā)表在《applied acoustics》上的文章里討論了關(guān)于“圖像-聲音-圖像”的變換方法。他把一般圖像視為某個(gè)聲音的語(yǔ)譜圖進(jìn)行處理,將任意的圖像進(jìn)行IFFT變換得到一個(gè)一維的聲音數(shù)據(jù),對(duì)該聲音數(shù)據(jù)進(jìn)行相應(yīng)的音頻信號(hào)處理,如延時(shí)、濾波、改變相位等技術(shù)來(lái)修改聲音,再將一維的聲音數(shù)據(jù)進(jìn)行FFT,得到產(chǎn)生相應(yīng)改變的語(yǔ)譜圖圖像,具體過(guò)程如圖1。
圖1 圖像-聲音-圖像的轉(zhuǎn)換
圖像經(jīng)過(guò)IFFT后得到聲音,對(duì)聲音進(jìn)行的基本運(yùn)算,包括乘、延遲、疊加等。結(jié)果發(fā)現(xiàn)乘法算子可以改變信號(hào)幅度,由此改變圖像的明亮度。信號(hào)乘的系數(shù)越大,重建圖像亮度越高。時(shí)域延遲會(huì)使圖像右移,特定情況圖像會(huì)減損。聲音疊加時(shí),相位對(duì)結(jié)果影響很大,當(dāng)且僅當(dāng)兩信號(hào)相位相同時(shí),信號(hào)相加得到的頻譜(圖像)也是相加的,否則圖像會(huì)產(chǎn)生失真。作者還對(duì)聲音進(jìn)行了常見(jiàn)的音頻信號(hào)處理,經(jīng)過(guò)不同類型的濾波器(高通、低通、帶寬)后恢復(fù)的圖像有相應(yīng)不同的遮擋效果,經(jīng)過(guò)FIR或IIR濾波器后恢復(fù)的圖像有延遲重疊效果,陷波濾波器可以產(chǎn)生寬度和位置可變的黑線條。脈沖聲經(jīng)過(guò)圖像重建產(chǎn)生豎直線;正弦信號(hào)則顯示水平線,這與傅里葉變換結(jié)果一致。
以上的研究把圖像與聲音信號(hào)處理之間關(guān)聯(lián)起來(lái),采用聲音信號(hào)處理的方法來(lái)改變圖像。實(shí)際應(yīng)用上也可以借此利用通感,讓盲人經(jīng)過(guò)訓(xùn)練后,通過(guò)聲音來(lái)感受圖像的變化。這種思維角度值得進(jìn)一步研究。
基于以上研究,我們提出了一種新的基于譜圖的語(yǔ)音增強(qiáng)方法。其主要思想是將帶噪語(yǔ)音聲音經(jīng)過(guò)STFT之后得到語(yǔ)譜圖數(shù)據(jù),將語(yǔ)譜圖轉(zhuǎn)換成灰度圖像后,對(duì)其進(jìn)行圖像處理后再進(jìn)行逆短時(shí)傅里葉變換得到重建的聲音。實(shí)驗(yàn)中采用的方法均基于灰度變換(Gray-Scale Transform,GST)。GST是對(duì)圖像像素直接進(jìn)行處理,可以根據(jù)實(shí)際需要來(lái)擴(kuò)展或者壓縮灰度,起到圖像增強(qiáng)的作用。實(shí)驗(yàn)主要采用了兩種灰度變換方法,一種是gamma變換,一種是對(duì)比度拉伸。
實(shí)驗(yàn)語(yǔ)料采用IEEE語(yǔ)料庫(kù)中的10個(gè)句子,每個(gè)句子7~12個(gè)單詞。噪聲類型選擇了3種,分別為白噪聲、speech-shaped noise和babble噪聲。所有信號(hào)設(shè)置采樣率16kHz,16位深度。噪聲和語(yǔ)音設(shè)置了3種信噪比:-5dB,0dB,5dB。圖像處理方法使用了gamma變換和對(duì)比圖拉伸兩種,并使用維納濾波、譜減以及最小均方誤差估計(jì)三種傳統(tǒng)增強(qiáng)方法作為對(duì)照。
經(jīng)過(guò)圖像處理方法重建的語(yǔ)音以及經(jīng)過(guò)傳統(tǒng)方法增強(qiáng)語(yǔ)音不同方法處理后得到的語(yǔ)音后,分別對(duì)處理后的語(yǔ)音進(jìn)行信噪比(SNR)、分段信噪比(SEG-SNR)以及主觀語(yǔ)音質(zhì)量評(píng)估(PESQ)的計(jì)算,并對(duì)結(jié)果進(jìn)行分析,其中PESQ的結(jié)果見(jiàn)圖2。
圖2 不同語(yǔ)音增強(qiáng)方法下的PESQ
PESQ是 ITU-T P.862建議書(shū)提供的客觀MOS值評(píng)價(jià)方法。如圖2所示,在PESQ的表現(xiàn)上,圖像處理方法的去噪效果明顯好于傳統(tǒng)方法。傳統(tǒng)去噪方法信噪比越低,對(duì)PESQ提升的效果越差,而圖像處理方法對(duì)PESQ的提升則相對(duì)穩(wěn)定。
SNR是語(yǔ)音信號(hào)的整體信噪比,從長(zhǎng)時(shí)信噪比的提高的結(jié)果上來(lái)看,通過(guò)圖像處理方法重建的聲音雖然相對(duì)于原始加噪語(yǔ)音有所提升,但相比于傳統(tǒng)方法沒(méi)有表現(xiàn)出明顯的優(yōu)勢(shì),在SNR為5dB的情況下表現(xiàn)稍差,其他情況與傳統(tǒng)方法的效果近似。SEG-SNR是對(duì)信號(hào)的每一幀進(jìn)行計(jì)算得出的平均信噪比值。圖像處理方法在這個(gè)參數(shù)的表現(xiàn)上相對(duì)傳統(tǒng)方法沒(méi)有優(yōu)勢(shì)。
由于不同的窗口大小得到的語(yǔ)譜圖具有不同的時(shí)間分辨率和頻率分辨率,考慮的到這種特性可能會(huì)影響GST方法的結(jié)果,在實(shí)驗(yàn)中用分別使用了6種大小的窗長(zhǎng)64/128/256/512/1024/2048進(jìn)行了測(cè)試,發(fā)現(xiàn)窗口大小對(duì)增強(qiáng)語(yǔ)音質(zhì)量沒(méi)有顯著影響。
這種聲音到圖像的映射方法,連接了圖像信號(hào)處理方法和聲音數(shù)據(jù)。在這種情況下,時(shí)間的維度在聲音處理中消失,被引入到圖像處理中,形成了圖像二維矩陣的一個(gè)維度。從一個(gè)新的角度去處理問(wèn)題,得到了意想不到的效果,這對(duì)聲音的處理有了新的啟發(fā)。
利用語(yǔ)譜圖的圖像特征對(duì)音樂(lè)流派或聲音事件進(jìn)行分類具有良好的效果;通過(guò)修改聲音可以達(dá)到改變圖像特征的目的;實(shí)驗(yàn)證明了從圖像角度來(lái)處理數(shù)據(jù)可以達(dá)到語(yǔ)音去噪效果。這種聲音-圖像跨模態(tài)的處理思想,連接了圖像處理技術(shù)和聲音處理技術(shù)。從聲音被識(shí)別為圖像或圖像被識(shí)別為聲音的全新視角來(lái)看待視聽(tīng)覺(jué)信號(hào)處理,這種新的方法會(huì)為數(shù)字信號(hào)處理中的跨模態(tài)研究提供新的思路,也能夠幫助視聽(tīng)交互心理感知研究的量化建模。