孫夢青
(華北水利水電大學(xué),河南 鄭州 450000)
計算機科技和網(wǎng)絡(luò)科技在高速發(fā)展,數(shù)字音樂信息的信息量也隨著不斷增大,用戶對數(shù)字音樂信息的需求也日益增長?;ヂ?lián)網(wǎng)的發(fā)展使人們越來越方便快捷的接觸到了數(shù)字媒體,對娛樂產(chǎn)品也提出了更高的要求,數(shù)字音頻的獲取變得更加容易。如何從海量的數(shù)字音樂中快速獲取蘊含著用戶所需情感與較高音質(zhì)的音樂,已成為當(dāng)前待解決的問題之一。
文獻[1]提出一種音式階的合理性模識別方法。首先根據(jù)頻率域和時間域確定轉(zhuǎn)錄音符,通過諧振濾波器獲得瞬時頻率與中心頻率之間存在的差值,在此基礎(chǔ)上引入頻譜圖、譜平滑性和調(diào)和性估計建立HMM模型。再利用對閾值的合理運算,完成數(shù)字音頻的識別與校對。該方法識別能對數(shù)字音頻進行識別,但是該方法對樂音處理信號量雜亂無序現(xiàn)象不具有改善作用,無法完成音式階有效識別。文獻[2]提出一種基于魯棒音階特征和測度學(xué)習(xí)SVM的音樂和弦識別方法,能夠降低人聲對和弦進程的影響,且恢復(fù)和弦所對應(yīng)的諧波信息。對頻譜中和弦相對應(yīng)的諧波信息和人聲信息建立模型,構(gòu)建雙目標(biāo)優(yōu)化問題,使和弦所對應(yīng)的諧波信息進行有效重建,同時去除人聲。對諧波信息進行降維處理,獲得魯棒性的音階輪廓特征。運用測度學(xué)習(xí)的方法得到馬氏距離,再將其進行合理替換,促使支持向量機的判別函數(shù)包含有數(shù)據(jù)的空間分布信息,現(xiàn)實和弦識別的目的。該方法對音頻信號的雜亂現(xiàn)象有的很好的抑制作用,但是音符識別效果不理想。
上述兩種方法在對音頻進行提取時的準(zhǔn)確率較低,不能夠很好的去除干擾。此次研究方法通過數(shù)字音頻標(biāo)準(zhǔn)音的匹配濾波器,進行去噪處理,根據(jù)Goertzel算法將離散譜線能量歸一化處理,從而在更大程度上實現(xiàn)樂音的高效識別。
電子樂器數(shù)字接口與音樂樂譜文件中均不具有真實的聲音數(shù)據(jù),所以能將音樂文件作為字符串做進一步處理[3]。但在部分格式的音樂文件中存在少許真實的聲音數(shù)據(jù),需對其進行信號分析,提取相應(yīng)特征并進行處理。
基音作為語音信號中較為重要的一部分,是根據(jù)聲音信號中聲源振動形成的周期性特征,基音周期所描述的是聲源振動頻率的倒數(shù)。音頻信號中基音的高低與音頻文件中音調(diào)的高低是相互對應(yīng)的,因此對其進行特征提取極其重要[4]。
音頻信號的主要特征分別是時域特征與頻域特征兩部分。時域特征能夠?qū)r域波形進一步處理分析,從而獲得時域參數(shù),其中具有短時平均能量、過零率以及線性預(yù)測系數(shù)等。
短時平均能量作為在較短音頻信號幀內(nèi)的采樣點信號聚集,以此作為平均能量,它會隨時間的增長而增加,可以準(zhǔn)確的展現(xiàn)出信號在時域中的主要特征,其表達式為
(1)
在式(1)中,x(n)所描述的是音頻信號幀內(nèi)存在的第n個信號值,w(n-m)所描述的是長度為N的窗口函數(shù),t所描述的是信號時域取值。
信號過零次數(shù)所描述的是信號幅度值由正變負(fù)或由負(fù)變正的次數(shù)[5]。短時過零率是指短時段內(nèi)信號通過零值的次數(shù),其表達式為
(2)
在式(2)中,x(n)所描述的是第m個音頻信號幀內(nèi)的第n信號值,w(n)所描述的是長度為N的窗口函數(shù)。在x(n)≥0的情況下,那么sign[x(n)]=1,若與其相反,那么sign[x(n)]=0。
線性預(yù)測系數(shù)能將有限參數(shù)的數(shù)學(xué)模型進行線性近似作為音頻信號x(n)(1≤n≤N),其參數(shù)作為x(n)的有效特征,x(n)作為模擬音頻信號x(n)的數(shù)學(xué)模型,其表達式為
(3)
在式(3)中,x(n-N)所描述的是音頻采樣時的信號,P所描述的是模型的階數(shù),{ak}所描述的是線性預(yù)測系數(shù)。運用延時信號采樣值進一步實施加權(quán)處理,并疊加生成音頻信號序列x(n)(1≤n≤N)。線性預(yù)測系數(shù)能夠準(zhǔn)確地呈現(xiàn)出音頻信號不同的變化,可以作為通用的音頻信號特征。
頻域特征主要根據(jù)音頻信號實施傅立葉轉(zhuǎn)換,然后將原始信號轉(zhuǎn)變至頻域后[6]。再對其中所包含的數(shù)據(jù)信息進一步分析,從而提取到準(zhǔn)確、有效的頻域參數(shù)。其中具有能譜特征。平均功率、功率譜以及熵特征等。
熵特征作為度量音頻信息復(fù)雜程度的重要標(biāo)準(zhǔn),其表達式為:
(4)
在式(4)當(dāng)中,M(i)所描述的是將音頻幀額頻帶進行區(qū)分,使其成為N個頻率子帶后,其中的第i個能量。
Mel作為成立在傅立葉轉(zhuǎn)換和倒譜分析的情況下的系數(shù)。音頻幀信號通過傅立葉經(jīng)轉(zhuǎn)變后,之中的頻譜寬度是音頻采樣頻率的二分之一。合理將其進行劃分,將整體頻帶分割成N個子帶,并運算出其中的總體能量,從而生成短音頻幀的N個Mel系數(shù)[7]。通過上述公式能對時頻域信息進行有效提取。
在一段音頻中,出現(xiàn)一組連續(xù)的樂音,可以判斷其是依據(jù)大部分高低不同的音符按照時間順序組成的。音符的頻域主要是根據(jù)基音頻率與泛音頻率形成的,其中基音頻率能夠準(zhǔn)確判斷樂音的聲線高低,泛音頻率能夠準(zhǔn)確判斷聲線的音色。泛音是根據(jù)基音頻率的各個整數(shù)倍頻率形成的,兩者間存在的諧波幅度比不發(fā)生改變[8]。因此,采用合理的方式運用音符的特定頻譜特性,可以較好的完成對音頻的有效識別,其具體算法如圖1所示。
圖1 音頻識別算法
樂音信號通常作為一種狀態(tài)不穩(wěn)定的信號,其處理方式也與傳統(tǒng)處理方法大不相同。但它可以保證在較短時段內(nèi)的頻譜特性趨于穩(wěn)定,從而得出其具有短時平穩(wěn)的特性[9]。
十二平均律通常被稱為1/12的倍頻程,能對音階進行有效分割,一個頻程的音高為八度音,然后把頻程劃分為12個半度音階,在樂音符合十二平均律的基礎(chǔ)上,用數(shù)學(xué)表示為:每2個臨近半度音階的頻率比值為2的1/12次方,其表達式為:
(5)
式(5)作為臨近半度音階的頻率比值。
伴隨網(wǎng)絡(luò)信息科技的快速發(fā)展,數(shù)字化音樂也隨之大量增加,如何對其進行有效識別十分重要。首先將數(shù)字音頻標(biāo)準(zhǔn)音通過匹配濾波器進行轉(zhuǎn)化,去除干擾。大幅度提高音樂制作效率,同時確保了音樂的品質(zhì)和效果[10]。
根據(jù)Goertzel算法可以獲得整體數(shù)字音頻的標(biāo)準(zhǔn)音,以及較多基音頻率基礎(chǔ)上的頻譜幅度值。利用C4#信號的標(biāo)準(zhǔn)音繪制的離散頻譜,如圖2所示。
圖2 離散頻譜
(6)
最終,將序列翻轉(zhuǎn)過程中轉(zhuǎn)換成M=26路分支的標(biāo)準(zhǔn)音匹配濾波器,與26個標(biāo)準(zhǔn)音模板相對應(yīng)。在該過程中,根據(jù)n=0,1,…,N-1、j=1,2,…,M,得出濾波器的單位沖擊響應(yīng)表達式即
hj[n]=Sj[N-1-n]
(7)
通過式(6)、式(7)得出,匹配濾波器能夠高效地對數(shù)字音頻中冗余噪聲處理,去除外界因素的干擾,使音質(zhì)更加生動、悅耳。
當(dāng)所輸入的數(shù)字音頻信號通過時域管理后被劃分成多個單音信號,此信號再根據(jù)Goertzel算法合理運算后得出離散頻譜序列,再依次經(jīng)過M=26路分支的標(biāo)準(zhǔn)音匹配濾波器[12]。卷積后的序列中心點n=N-1進一步實施采樣和輸出,并以此代表信號之間相互關(guān)聯(lián)的度量,將采樣所得的最大數(shù)值路匹配濾波器相互對應(yīng)的音符進行有效輸出,并以此作為輸入信號的接收與識別,基于此得出的采樣輸出結(jié)果如式(8)所示
Si[n]*hj[n]|n=N-1=rij[0]
(8)
從式(8)中可知,將采樣輸出的整個過程進行相關(guān)運算,并以此作為輸入信號和數(shù)字音頻標(biāo)準(zhǔn)音信號的頻譜,兩者間的相互關(guān)聯(lián)內(nèi)容的度量。故將此相關(guān)性度量稱之為檢測樂音與識別樂音的憑據(jù)。
Si[n]所描述的是輸入單音信號Xi(t)的離散頻譜序列,當(dāng)ri是Si[n]通過Xi(t)相對應(yīng)的標(biāo)準(zhǔn)音匹配濾波器處理后的采樣輸出值,rj所描述的是Si[n]通過其它標(biāo)準(zhǔn)音匹配濾波器處理后i≠j的采樣輸出值,將離散譜線能量歸一化,那么可得出以下公式為
(9)
在經(jīng)過歸一化處理后,所輸入的單音信號頻譜與標(biāo)準(zhǔn)音頻譜兩者之間存在相互關(guān)聯(lián)性,可以實現(xiàn)對數(shù)字音頻樂音的識別。
為了驗證基于時頻域信息提取的數(shù)字音頻樂音識別方法的音符識別準(zhǔn)確率和抗干擾效果,將研究方法設(shè)置為實驗組,將文獻[1]、文獻[2]方法作為對照組,在相同的實驗環(huán)境下進行對比實驗。
實驗涉及的參數(shù)如下:
表1 實驗參數(shù)設(shè)置
將英國傳統(tǒng)兒歌《Twinkle Twinkle Little Star》的《小星星》中 12 個單音符音樂片段作為實驗樣本,并對源音樂進行數(shù)字頻譜音符提取。圖3是源音樂的信號波形,橫坐標(biāo)表示的是音頻數(shù)據(jù)信號點,縱坐標(biāo)表示經(jīng)過歸一處理的信號幅值。
圖3 數(shù)字頻譜音符提取結(jié)果
為了得到研究方法的音符識別性能,在仿真中,首先設(shè)置兩個匹配閾值,分別為能量高閾值和能量低閾值,再運用研究方法分別對兩者相互對應(yīng)的音樂起點與終點的音符進行檢測。檢測準(zhǔn)確率越高,對音符的識別精度越高。在能量中,閾值將作為平均能量,數(shù)值取值為1,高閾值的取值為0.4,之間的距離取值范圍是1.2~0.1。低閾值的取值為0.15,之間的距離取值范圍是0.95~0.1。
針對數(shù)能量而言,其中的閾值也將作為平均能量,數(shù)值取值為1。高閾值的取值為0.9,之間的距離取值范圍是1~0.02,低閾值的取值為0.85,之間的距離取值范圍即0.95~0.02。能量閾值與數(shù)能量閾值的最佳參數(shù)及相應(yīng)的音符識別準(zhǔn)確率如表2和表3所示。
表2 能量最優(yōu)閾值和總準(zhǔn)確率
表3 數(shù)能量的最優(yōu)閾值和總準(zhǔn)確率
從表2和表3中能夠看出,運用研究方法對能量閾值相對應(yīng)的音符識別準(zhǔn)確率高于80%,數(shù)能量閾值對應(yīng)的音符準(zhǔn)確識別率高于85%??梢缘贸?,研究方法的音符識別準(zhǔn)確率高,是因研究方法充分利用了音符的泛音分量,進而增加了檢測結(jié)果的可靠性。
為了驗證研究方法音頻去噪效果,基于上述實驗環(huán)境,與對照組進行音頻去噪對比實驗。在實驗樣本中選取連續(xù)的40個音頻采樣點,幅度波動越小,說明去噪效果越好。具體實驗結(jié)果如圖4所示。
圖4 不同方法音頻識別效果
從圖4的音頻識別結(jié)果圖來看,文獻[1]、文獻[2]方法的音頻識別幅度波動范圍較大,且波形較不穩(wěn)定;而研究方法的音頻識別幅度較小,介于-5~5/V,且波形較為穩(wěn)定。說明研究方法較傳統(tǒng)方法去噪效果好,音頻識別穩(wěn)定。是因研究方法通過匹配濾波器對數(shù)字音頻進行轉(zhuǎn)化,能較好地去除干擾,所以音頻識別效果好,為音頻樂音識別提供了有利依據(jù)。
綜合上述實驗結(jié)果可以得出基于時頻域信息提取方法音頻識別的準(zhǔn)確率更高,并且具較強的抗干擾性能。
音頻信號識別在音樂數(shù)據(jù)庫檢索技術(shù)和計算機自動譜曲等多個領(lǐng)域中都具有較高實用性。此次研究方法首先對樂音信號進行時頻域信息提取,并且采用Goertzel算法獲得整體數(shù)字音頻的標(biāo)準(zhǔn)音,在通過匹配濾波器進行進一步處理,能夠有效去除外界因素干擾以及在運算時的復(fù)雜度。實驗證明,研究方法能有效提高有音無音在識別準(zhǔn)確率,且精確度高,具有良好的抗噪性能和優(yōu)質(zhì)的魯棒性。