【摘要】搜索和組織發(fā)展的數(shù)字音頻收藏需要音頻的自動(dòng)分類。本文建立基于第二代小波變換和二階非齊次隱馬爾可夫(OSGWT-SNHMM)模型的新組合模型。提出了一種將第二代小波變換和離散隱馬爾可夫模型相結(jié)合的音頻分類方法。
【關(guān)鍵詞】音頻分類;第二代小波變換(OSGWT);二階非齊次隱馬爾可夫模型(SNHMM)
為了組織和搜索越來越多的音樂收藏,我們需要自動(dòng)化的工具,可以從音頻直接提取有用的信息有關(guān)的歌曲。此類信息可能包括體裁,語氣,風(fēng)格,和演員。近幾年,音頻分類得到了越來越多的專家學(xué)者的關(guān)注[1-6]。但傳統(tǒng)方法中,有的直接對(duì)小波變換的結(jié)果進(jìn)行矢量量化,這樣就可能導(dǎo)致特征序列過長(zhǎng),使得計(jì)算量增大,以至于其收斂性和分類準(zhǔn)確性都受到影響,有的忽略了文本上下文特征等信息對(duì)抽取性能的作用以及狀態(tài)轉(zhuǎn)移概率和觀察值輸出概率與模型歷史狀態(tài)的關(guān)聯(lián)性。
受文獻(xiàn)[1-6]的啟發(fā),為了解決以上所述缺點(diǎn),本文首先建立一種基于第二代小波變換和二階非齊次隱馬爾可夫(OSGWT-SNHMM)模型的新組合模型,該模型克服原來模型導(dǎo)致特征序列過長(zhǎng)計(jì)算量增大收斂性和分類準(zhǔn)確性降低的問題,又能考慮文本上下文特征等信息對(duì)抽取性能的作用以及狀態(tài)轉(zhuǎn)移概率和觀察值輸出概率與模型歷史狀態(tài)的關(guān)聯(lián)性。二階非齊次隱馬爾可夫模型對(duì)錯(cuò)誤信息有更強(qiáng)的識(shí)別能力,其性能好于傳統(tǒng)的隱馬爾可夫模型。該模型首先使用第二代小波變換對(duì)音頻特征進(jìn)行時(shí)頻分析,給出了一種基于模極大值的小波變換后處理方法,用以提取分析結(jié)果中音頻特征的模極大值,將這些模極大值組成音頻特征量組,經(jīng)矢量量化后得到特征序列,然后將特征序列輸入到由二階非齊次隱馬爾可夫模型構(gòu)建的分類系統(tǒng)中,實(shí)現(xiàn)對(duì)音頻的分類。
一、第二代小波變換
二、二階非齊次隱馬爾可夫模型(SNHMM)
在非齊次隱馬爾可夫模型(NHMM)中,計(jì)算狀態(tài)轉(zhuǎn)移概率時(shí),假設(shè)狀態(tài)序列中的每一個(gè)狀態(tài)只與前一個(gè)狀態(tài)有關(guān);計(jì)算觀察值的輸出概率時(shí),假設(shè)任意時(shí)刻觀察輸出概率只依賴于系統(tǒng)當(dāng)前時(shí)刻所處的狀態(tài),這里我們建立一種二階非齊次隱馬爾可夫模型(SNHMM)。與一階非齊次隱馬爾可夫模型不同的是,二階非齊次隱馬爾可夫模型(SNHMM)滿足下面假設(shè)條件
(B1)隱藏的狀態(tài)序列是一個(gè)二階馬爾可夫鏈。
(B2)輸出概率,不僅依賴于系統(tǒng)當(dāng)前所處的狀態(tài),同時(shí)依賴于系統(tǒng)前一時(shí)刻所處的狀態(tài)。
三、仿真結(jié)果
本文采用 Matlab 生成擾動(dòng)信號(hào),長(zhǎng) 度 為 2.1 s,其中包括 30個(gè)純語音 、34個(gè)音樂 、26個(gè)環(huán)境音。提取小波域特征并使用二階非齊次隱馬爾可夫算法,對(duì)音頻分類,得到了用分類精度表示的分類結(jié)果。
參考文獻(xiàn)
[1] 盧堅(jiān),陳毅松,孫正興.基于隱馬爾可夫模型的音頻自動(dòng)分類[J].軟件學(xué)報(bào),2002,13(8):1593—1597。
[2] 王超,吳亞鋒.基于 EMGD—HMM的音頻自動(dòng)分類[J].電聲技術(shù),2007,11:52-54。
[3] 史東承,韓玲艷,于明會(huì)。基于HMM/SVM的音頻自動(dòng)分類[J].長(zhǎng)春工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版) ,2008,29(2):178-182。
[4] 齊俊英,孫勁光, 高愛東?;趦?nèi)容的音頻自動(dòng)分類方法[J].遼寧工程技術(shù)大學(xué)學(xué)報(bào),2005,24:170-172.
[5] 張新彩,張德同,耿國(guó)華,王小鳳,吳江?;赑CA和CHMM的音頻自動(dòng)分類[J].計(jì)算機(jī)應(yīng)用研究,2009,26(4):1257-1259.
[6] 楊靚,苗振江。WEB音頻自動(dòng)分類的研究[J].第十一屆全國(guó)人機(jī)語音通訊學(xué)術(shù)會(huì)議。
作者簡(jiǎn)介:趙芳(1976—),女,單位:山東省淄博市張店區(qū)馬尚鎮(zhèn)中心學(xué)校,研究方向:音樂學(xué)。