• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于內(nèi)容的音樂語義特征描述方法

      2013-09-19 10:29:30張二芬徐淮杰
      電子設(shè)計工程 2013年1期
      關(guān)鍵詞:特征向量高斯音頻

      張二芬,徐淮杰

      (河海大學(xué) 計算機(jī)與信息學(xué)院,江蘇 南京 211100)

      音樂是能夠代表人們情感、個人風(fēng)格、精神狀況以及有關(guān)人性的其他方面的一種交流方式。盡管很多時候,對于同一首歌,不同的聽眾會給出不同的關(guān)鍵詞來描述,然而聽眾還是常常試圖使用關(guān)鍵詞來描述他們聽到的歌曲。使用關(guān)鍵詞的描述確實能夠反應(yīng)音樂的一些內(nèi)容,比如音樂的旋律、風(fēng)格、表演樂器和用途等[1]。而且,對于聽眾來說,人們并不關(guān)心也不熟悉音樂的較底層音頻特征,而對于較高層的關(guān)鍵詞比較熟悉也比較感興趣。根據(jù)這一觀點,本文提出一種方法,能夠找到音樂的低層特征和高層語義描述之間的聯(lián)系,給出音樂的豐富的關(guān)鍵詞的描述,這將在音樂的相似度比較、基于內(nèi)容的音樂檢索及推薦等方面提供很大的方便。

      1 總體設(shè)計

      該方法實現(xiàn)的總體結(jié)構(gòu)圖如圖1所示,這里的每一個音樂文件都要經(jīng)過短時窗的特征提取,組成一系列音頻特征向量,關(guān)鍵詞的選擇即是選取將要訓(xùn)練的語義關(guān)鍵詞,并找到與關(guān)鍵詞相關(guān)的歌曲,將這些歌曲作為訓(xùn)練集。這里的參數(shù)模型GMM是針對要進(jìn)行訓(xùn)練的每一個關(guān)鍵詞,取得關(guān)于其在音頻特征空間上的一種分布,每一個分布使用混合高斯模型(GMM)建模。每一個關(guān)鍵詞的GMM的參數(shù)估計是由和此關(guān)鍵詞相關(guān)的一系列歌曲組成的音頻內(nèi)容來估計。通過GMM的參數(shù)估計,得到歌曲的關(guān)鍵詞的概率分布,從而得到語義特征向量,完成基于內(nèi)容的音樂語義特征描述。

      圖1 總體結(jié)構(gòu)圖Fig.1 Structure diagram of the overall structure

      2 音樂特征提取

      音樂是一種重要的音頻類型,具有節(jié)奏、旋律和調(diào)性等要素,是人聲、樂器等發(fā)聲體配合所構(gòu)成的聲音。除了聲波形式以外,音樂還可以用樂譜來進(jìn)行表示,基于聲波形式的信號可以得到音樂的低層特征。特征提取是指尋找原始音頻信號的表達(dá)形式,提取能夠代表原始信號的數(shù)據(jù)[2]。一般采用的技術(shù)路線有2條:1)從疊加音頻幀中提取特征,其原因在于音頻信號是短時平穩(wěn)的,所以在短時提取的特征比較穩(wěn)定。2)從音頻片段中提取,因為任何語義都有時間延續(xù)性,在長時間刻度內(nèi)提取的音頻特征可以更好地反映音頻所蘊含的語義信息,一般是提取音頻幀的統(tǒng)計特征作為音頻片段特征,特征參數(shù)提取圖如圖2所示。

      圖2 特征參數(shù)提取圖Fig.2 Diagram of the extracting of characteristic parameters

      文中對基于音頻幀的低層特征進(jìn)行了如下內(nèi)容的提取。

      1)節(jié)奏(tempo)音樂的節(jié)奏是一個廣義詞,包括音樂中與時間有關(guān)的所有因素,它指音樂運動中音的長短、強(qiáng)弱的變化規(guī)律,比如語義關(guān)鍵詞標(biāo)注為 happy,excting,powerful等關(guān)鍵詞,相應(yīng)的tempo值比較高,相反,語義關(guān)鍵詞標(biāo)注為sad,tender,sleeping等關(guān)鍵詞,相應(yīng)的 tempo值比較低。

      2)旋律清晰度(pulseclarity)估算旋律清晰度,揭示了節(jié)拍的強(qiáng)度,強(qiáng)度越強(qiáng),能量越大,信息量就越大。這一特征對于關(guān)鍵詞標(biāo)注為流派的genre-pop,genre-soul,genre-rock等的區(qū)分性意義很大。

      3)主調(diào)(mode)估計音樂的主要感覺,返回 major和minor的值,如果值大于0,且越大于0,預(yù)測的就是 major越多,反之值越小于0,minor越多,主要表征的是音樂信號的頻率信息。

      4)調(diào)性(key)主要包括7個與主因有固定關(guān)系的音色的調(diào)因系統(tǒng)(如E大調(diào))。在西方音樂中,調(diào)性一直是音樂的結(jié)構(gòu)基礎(chǔ)。

      5)清晰度(keyclarity)調(diào)性的清晰程度,找到最好的調(diào)。

      6)音調(diào)中心(tonalcentroid)是在色譜圖的基礎(chǔ)上加入了和弦結(jié)構(gòu)信息(五度循環(huán)圈)得到的六維信息,主要表征的是音樂信號的頻率信息,能夠檢測和弦的變化,反應(yīng)音樂的旋律特征。

      7)調(diào)強(qiáng)度(keystrength)計算key的強(qiáng)度。

      在提取特征參數(shù)過程中,首先將音樂文件轉(zhuǎn)換成單聲道wav格式的音頻,每段音樂的位速是256 kbps,采樣大小是16位,采樣頻率為16 kHz,音頻格式為PCM。參考MIRtoolbox工具包[3],提取時間采用的是幀長5 s,幀移0.5 s,提取以上所述特征參數(shù),得到1維的節(jié)奏(tempo),1維的旋律清晰度(pulseclarity),1維的主調(diào) (mode),1維的音調(diào)(key),1維的音調(diào)清晰度(keyclarity),6維的音調(diào)中心(tonalcentroid),24維的調(diào)強(qiáng)度 (keystrength), 最終組成一個35維的長時特征矢量,這個步驟是在matlab環(huán)境下進(jìn)行的。每首歌曲用一個txt文檔保存其按幀提取出來的的特征矢量。

      3 音樂的語義特征標(biāo)注

      如何描述音樂的語義特征是一個關(guān)鍵問題。隨著生活條件的提高,人們越來越注重精神品味的培養(yǎng),在不同的場合人們將需求不同的音樂,對音樂的用途提出了越來越明確以及細(xì)致的要求,這就要求我們能夠?qū)σ魳愤M(jìn)行全面的剖析和描述。本文使用 Computer Audio Lab 500(CAL500)數(shù)據(jù)集[1]。其具體做法是,通過用戶一邊試聽音樂一邊對音樂進(jìn)行關(guān)鍵詞標(biāo)注的方法,對語義標(biāo)簽給出了一個清晰的定義集本。這些語義詞包括18種表示情感的標(biāo)注,如emotion-happy,notemotion-happy等;36種表示流派的標(biāo)注,如 genre-pop,genrerock等;29種音樂器具的標(biāo)注,如instrument-bass,instrumentpiano等,等等。這個數(shù)據(jù)集要反應(yīng)出語義詞與歌曲之間聯(lián)系的程度,因此對于每一首歌,在給出一系列關(guān)鍵詞標(biāo)簽的同時,也給出了標(biāo)簽對應(yīng)的分值。這樣每一首歌,都由一個數(shù)值向量來表示,其數(shù)值分布在0到1之間,0表示這首歌與這個關(guān)鍵詞不相關(guān),1表示極其相關(guān)。

      對于接下來要做的模型的訓(xùn)練,要進(jìn)行關(guān)鍵詞的選擇,即選擇要進(jìn)行訓(xùn)練的關(guān)鍵詞,找出這個關(guān)鍵詞分值大于0的這些歌曲,作為訓(xùn)練集,生成基于關(guān)鍵詞的模板。

      4 實 驗

      4.1 混合高斯模型(Gaussian Mixture Models,GMM)原理

      GMM[4]訓(xùn)練的過程,首先需要進(jìn)行樣本的選擇。對于每一個單詞來說,要進(jìn)行一個GMM的訓(xùn)練,訓(xùn)練樣本集的選擇即是與這個單詞相關(guān)的歌曲。這里選擇單詞標(biāo)注值大于0的歌曲作為訓(xùn)練樣本集,實驗中,500首歌中隨機(jī)選擇85%作為訓(xùn)練集,剩下的15%作為測試集。

      高斯混合模型由M個多維的高斯概率密度函數(shù)線性加權(quán)求和構(gòu)成,可以用公式表示如下:

      其中X是N維音頻信號特征矢量,M是混合高斯模型的階數(shù),pi(X)是高斯混合模型分量,βi是對應(yīng)高斯混合分量pi(X)的加權(quán)因子。

      在獲得了音樂的低層特征之后,GMM的訓(xùn)練即是估計模型的參數(shù),即通過最大似然估計法,給定訓(xùn)練矢量集的情況下,尋找合適的模型參數(shù),使得GMM的似然函數(shù)最大[5-6]。

      高斯混合模型的似然函數(shù)表達(dá)式如:

      其中 X 為訓(xùn)練矢量集,X={x1,x2,…,xn}。

      對于高斯混合模型的階數(shù)M的選擇,一般情況是M選取的大一些比較好,但也并不是M越大越好,況且隨著M的增大,對于訓(xùn)練的時間成本也造成很大了影響。文中使用M為9的混合高斯模型進(jìn)行訓(xùn)練,得到基于關(guān)鍵詞的模板的均值和方差以及對應(yīng)的權(quán)重。

      4.2 語義特征向量的形成

      經(jīng)過GMM的訓(xùn)練得到詞匯庫中每一個關(guān)鍵詞的均值和方差,接下來使用貝葉斯法則去計算每一個關(guān)鍵詞的先驗概率[1]。i),根據(jù)全概率公式得到

      這樣可得

      使用公式(5)可以計算出每一個單詞在一首歌里出現(xiàn)的概率。對于一首歌,將得到這首歌的所有關(guān)鍵詞模型的概率向量,在這里將這個概率向量稱為語義特征向量,這樣完成了由低層音頻特征向高層語義特征的一個映射。語義特征分布圖如圖3所示,這里是對于air_sexy_boy.wav這首歌的詞匯庫中關(guān)鍵詞的語義特征向量分布,圖中還標(biāo)注出了對于這首歌描述的8個最大概率的關(guān)鍵詞。

      5 結(jié) 論

      文中提出的基于內(nèi)容的音樂語義特征描述方法,采用提取音樂豐富的較低層音頻特征,訓(xùn)練基于語義關(guān)鍵詞的GMM模型,不僅給夠?qū)Ω枨M(jìn)行語義關(guān)鍵詞的描述,而且還能夠給出關(guān)鍵詞的程度。對于一首歌來說,使用語義特征分布來代表一首歌是十分有意義的,這將對于音樂的檢索或是推薦分析工作都提供了很大的方便。使用語義特征向量來表征一首歌,一方面給出了底層音頻特征到高層語義特征的映射關(guān)系,彌補(bǔ)了語義空缺;另一方面,將音頻信息轉(zhuǎn)化成更易于處理的數(shù)值信息,這對于音樂的相似度比較,提供了一個很好的入口。

      圖3 語義特征分布圖Fig.3 Diagram of the Semantic features distribution

      [1]Turnbull D,Barrington L,Torres D,et al.Lanckriet.Towards Musical Query-by-Semantic Description Using the CAL500 Data Set[EB/OL][2012-8-10].http://cosmal.ucsd.edu/cal/pubs/MusicQBSD_SIGIR07.pdf

      [2]韓紀(jì)慶,鄭鐵然,鄭貴濱.音頻信息檢索理論與技術(shù)[M].北京:科學(xué)出版社,2011.

      [3]Lartillot O.MIRtoolbox1.3.2 User’s Manual[M].Finland:Finnish Center of Excellence in Interdisciplinary Music Research University of Jyvaskyla,2011.

      [4]Reynolds A,Rose C.Robust text-independent speaker identification using caussian mixture speaker Models[J].IEEE Transactions on Speech and Audio Processing,1995,3(1):72-83.

      [5]Steve Young,Dan Kershaw,Julian Odell,et al.The HTK Book for HTK Version3.4[M].Cambridge University Engineering Department(CUED),2009.

      [6]Timo Sorsa and Jyri Huopaniemi Nokia Research Center.Speech and Audio Systems Laboratory.Melodic Resolution in Music Retrieval[EB/OL][2012-8-10].http://ismir2001.ismir.net/posters/sorsa.pdf.

      猜你喜歡
      特征向量高斯音頻
      小高斯的大發(fā)現(xiàn)
      二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計——以特征值和特征向量為例
      克羅內(nèi)克積的特征向量
      天才數(shù)學(xué)家——高斯
      必須了解的音頻基礎(chǔ)知識 家庭影院入門攻略:音頻認(rèn)證與推薦標(biāo)準(zhǔn)篇
      基于Daubechies(dbN)的飛行器音頻特征提取
      電子制作(2018年19期)2018-11-14 02:37:08
      一類特殊矩陣特征向量的求法
      EXCEL表格計算判斷矩陣近似特征向量在AHP法檢驗上的應(yīng)用
      音頻分析儀中低失真音頻信號的發(fā)生方法
      電子制作(2017年9期)2017-04-17 03:00:46
      Pro Tools音頻剪輯及修正
      人間(2015年8期)2016-01-09 13:12:42
      开鲁县| 海宁市| 平遥县| 达州市| 定兴县| 海安县| 黄石市| 小金县| 托克托县| 九江市| 白玉县| 武隆县| 台南市| 贺兰县| 安泽县| 休宁县| 周宁县| 汕头市| 勐海县| 达孜县| 子长县| 高碑店市| 广饶县| 肥城市| 衡东县| 商水县| 蚌埠市| 如东县| 洛南县| 子长县| 连云港市| 鄂伦春自治旗| 灯塔市| 丰原市| 双鸭山市| 彭水| 筠连县| 南雄市| 科尔| 乌拉特前旗| 博白县|