• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    音樂(lè)自動(dòng)標(biāo)注分類方法研究綜述

    2023-06-07 08:29:52張如琳王海龍裴冬梅
    計(jì)算機(jī)與生活 2023年6期
    關(guān)鍵詞:特征音樂(lè)方法

    張如琳,王海龍,柳 林,裴冬梅

    內(nèi)蒙古師范大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,呼和浩特010022

    迄今,我國(guó)同時(shí)在線音樂(lè)活躍用戶數(shù)已超7.7億,網(wǎng)絡(luò)用戶大量增長(zhǎng),音樂(lè)作品與日俱增,音樂(lè)類別日益多元化,人們對(duì)音樂(lè)信息檢索(music information retrieval,MIR)的需求達(dá)到前所未有的高度。然而,海量的音樂(lè)作品缺乏不同類別的語(yǔ)義標(biāo)簽,導(dǎo)致用戶無(wú)法便捷、精準(zhǔn)、高效地檢索音樂(lè)作品。音樂(lè)標(biāo)注作為音樂(lè)信息檢索領(lǐng)域的重要分支,可豐富音樂(lè)信息,有效管理音樂(lè)資源,并推動(dòng)音樂(lè)分類、音樂(lè)推薦以及樂(lè)器識(shí)別等其他音樂(lè)信息檢索任務(wù)的深入研究。

    音樂(lè)標(biāo)注是利用手工或自動(dòng)的方式為音樂(lè)賦予不同類別的語(yǔ)義標(biāo)簽,進(jìn)而對(duì)音樂(lè)進(jìn)行合理化分類[1]。手工標(biāo)注又可分為專家型和社會(huì)型。專家型是由專業(yè)音樂(lè)人完成標(biāo)注,其具有權(quán)威性且標(biāo)簽質(zhì)量專業(yè)性強(qiáng)等優(yōu)勢(shì),但存在效率低、時(shí)間及人力成本消耗量大等問(wèn)題。社會(huì)型是由普通聽(tīng)眾完成標(biāo)注,其具備時(shí)間成本小、數(shù)據(jù)量大等優(yōu)勢(shì),但由于帶有很強(qiáng)的個(gè)人主觀性且音樂(lè)專業(yè)性偏低,標(biāo)注易產(chǎn)生模糊性和隨意性,標(biāo)簽質(zhì)量低。音樂(lè)自動(dòng)標(biāo)注方式(automatic music annotation,music auto-tagging)是利用先進(jìn)的計(jì)算機(jī)技術(shù)分析音樂(lè)的旋律、音色、語(yǔ)義并預(yù)測(cè)音樂(lè)描述性的關(guān)鍵詞或標(biāo)簽[2]。該方式結(jié)合手工標(biāo)注中兩種類型的優(yōu)點(diǎn),不僅減少了時(shí)間成本,還提高了標(biāo)注準(zhǔn)確率。通過(guò)音樂(lè)自動(dòng)標(biāo)注技術(shù),人們可高效地進(jìn)行相似性搜索、音樂(lè)流派分類、音樂(lè)情感分類和音樂(lè)推薦等,它是目前的主流標(biāo)注方法。表1對(duì)音樂(lè)標(biāo)注類型進(jìn)行了總結(jié)。

    表1 音樂(lè)標(biāo)注類型總結(jié)Table 1 Summary of music annotation types

    音樂(lè)自動(dòng)標(biāo)注最早可以追溯到2007年,Eck等人[3]使用傳統(tǒng)方法基于AdaBoost分類器對(duì)音頻特征進(jìn)行標(biāo)注,完成多標(biāo)簽音樂(lè)自動(dòng)標(biāo)注,取得開(kāi)創(chuàng)性成果,然而在標(biāo)注過(guò)程中依舊面臨許多挑戰(zhàn)。當(dāng)前業(yè)界普遍聚焦于以下兩個(gè)研究問(wèn)題:(1)特征選擇與提取問(wèn)題。音頻信號(hào)的特征有許多種,每個(gè)特征描述音頻信號(hào)的能力有限,因此針對(duì)特定模型需要選擇合適的特征以及合適的提取方法,以保證音頻信息的完整提取,更好地進(jìn)行標(biāo)注預(yù)測(cè)。(2)模型選擇問(wèn)題。在傳統(tǒng)方法中,選擇的特征越好就意味著對(duì)模型的選擇越簡(jiǎn)單,然而隨著人工智能的不斷進(jìn)步,出現(xiàn)了不同的模型與方法,人們意識(shí)到更有針對(duì)性地選擇模型可影響標(biāo)注性能的進(jìn)一步提升。

    面對(duì)音樂(lè)自動(dòng)標(biāo)注,F(xiàn)u等人[4]圍繞任務(wù)研究進(jìn)展對(duì)當(dāng)時(shí)不同方法進(jìn)行歸納,為后續(xù)相關(guān)工作提供幫助。然而該綜述側(cè)重于對(duì)機(jī)器學(xué)習(xí)方法進(jìn)行梳理,缺乏對(duì)深度學(xué)習(xí)方法的歸類分析,并且由于同時(shí)整理了音樂(lè)流派分類、情感分類與樂(lè)器分類等不同研究方向,并未對(duì)機(jī)器學(xué)習(xí)下的音樂(lè)自動(dòng)標(biāo)注進(jìn)行著重分析。與上述綜述不同,本文既對(duì)機(jī)器學(xué)習(xí)方法進(jìn)行詳細(xì)總結(jié)與歸納,又對(duì)近年來(lái)面向深度學(xué)習(xí)的模型選擇與特征提取方法進(jìn)行分析與總結(jié)。本文貢獻(xiàn)總結(jié)如下:首先,詳細(xì)介紹音樂(lè)自動(dòng)標(biāo)注的相關(guān)知識(shí)。其次,根據(jù)當(dāng)前存在的研究問(wèn)題,從音頻提取、機(jī)器學(xué)習(xí)模型與深度學(xué)習(xí)模型三方面進(jìn)行綜述,分析對(duì)比優(yōu)缺點(diǎn)并比較不同方法的性能。其中,對(duì)特征提取方法研究通過(guò)不同特征輸入的角度進(jìn)行論述,對(duì)面向機(jī)器學(xué)習(xí)的音樂(lè)自動(dòng)標(biāo)注研究通過(guò)不同模型的角度進(jìn)行論述,對(duì)面向深度學(xué)習(xí)的音樂(lè)自動(dòng)標(biāo)注研究通過(guò)不同模態(tài)的角度進(jìn)行論述。然后,列舉音樂(lè)自動(dòng)標(biāo)注領(lǐng)域常用的數(shù)據(jù)集與評(píng)價(jià)指標(biāo)。最后,分析目前音樂(lè)自動(dòng)標(biāo)注所面臨的挑戰(zhàn)與機(jī)遇,并指出未來(lái)的發(fā)展方向。

    1 音樂(lè)自動(dòng)標(biāo)注相關(guān)知識(shí)

    音樂(lè)自動(dòng)標(biāo)注為音樂(lè)預(yù)測(cè)多類別音樂(lè)標(biāo)簽,被視為多標(biāo)簽分類問(wèn)題。與其他單標(biāo)簽分類任務(wù)不同,一首音樂(lè)可同時(shí)與多個(gè)音樂(lè)標(biāo)簽關(guān)聯(lián),而其他分類任務(wù)局限于特定語(yǔ)義的類別標(biāo)簽。例如,在圖1(a)中,音樂(lè)情感分類任務(wù)只能為音樂(lè)分配情感表述標(biāo)簽;然而,圖1(b)中音樂(lè)自動(dòng)標(biāo)注可為音樂(lè)預(yù)測(cè)情感、流派、樂(lè)器等多個(gè)不同類別語(yǔ)義標(biāo)簽,豐富了音樂(lè)信息。因此,當(dāng)在輸入集合上定義k個(gè)二元標(biāo)簽時(shí),單標(biāo)簽分類任務(wù)的輸出集合標(biāo)簽僅k個(gè),而音樂(lè)自動(dòng)標(biāo)注的輸出集合標(biāo)簽則達(dá)到2k個(gè)。

    圖1 音樂(lè)信息檢索領(lǐng)域中單標(biāo)簽分類與多標(biāo)簽分類Fig. 1 Single-label classification and multi-label classification in music information retrieval

    由上可知,對(duì)音樂(lè)進(jìn)行標(biāo)注需通過(guò)音樂(lè)標(biāo)簽定義對(duì)音樂(lè)的理解與感受,因此音樂(lè)標(biāo)簽是音樂(lè)自動(dòng)標(biāo)注的重要組成部分。音樂(lè)標(biāo)簽屬于社會(huì)標(biāo)簽,它能夠表達(dá)音樂(lè)特性的高層次描述性詞語(yǔ)。例如,描述情感的“快樂(lè)”“悲傷”等標(biāo)簽,描述流派的“嘻哈”“搖滾”等標(biāo)簽,描述樂(lè)器的“鋼琴”“小提琴”等標(biāo)簽。音樂(lè)標(biāo)簽是區(qū)分不同音樂(lè)類型最科學(xué)的表示,它具有以下特點(diǎn):

    (1)無(wú)界限性。聽(tīng)眾受不同文化、政治和宗教等復(fù)雜因素的影響,對(duì)相同音樂(lè)有著不同評(píng)判標(biāo)準(zhǔn),為音樂(lè)附上何種標(biāo)簽并沒(méi)有嚴(yán)格的定義與界限。

    (2)共享性。聽(tīng)眾間共享音樂(lè)標(biāo)簽資源,允許查看、添加、使用其他聽(tīng)眾所標(biāo)注的標(biāo)簽,在主體聽(tīng)眾用戶同意的情況下,可修改標(biāo)簽。

    (3)動(dòng)態(tài)更新性。聽(tīng)眾可以利用音樂(lè)平臺(tái)上傳原創(chuàng)歌曲或翻唱歌曲,進(jìn)而使音樂(lè)數(shù)量進(jìn)一步增加,平臺(tái)實(shí)時(shí)對(duì)增加的音樂(lè)進(jìn)行標(biāo)注并更新音樂(lè)標(biāo)簽[5]。

    圖2為音樂(lè)自動(dòng)標(biāo)注通用框架。首先,將音樂(lè)進(jìn)行預(yù)處理操作,預(yù)處理是使用預(yù)加重、加窗、分幀等操作最大化呈現(xiàn)原始音頻的相關(guān)特征,并使后續(xù)操作更加精準(zhǔn)。其次,通過(guò)不同方法提取音頻特征,并找到合適的數(shù)據(jù)集音樂(lè)文本標(biāo)簽,將音頻特征向量與音樂(lè)標(biāo)簽作為模型輸入。對(duì)于機(jī)器學(xué)習(xí)模型來(lái)說(shuō),只需將提取好的音頻特征輸入到分類器模型進(jìn)行標(biāo)注預(yù)測(cè)即可。對(duì)于深度學(xué)習(xí)模型來(lái)說(shuō),則分為兩種方法,一是將預(yù)處理得到的原始波形直接輸入到深度學(xué)習(xí)模型,二是將特征向量送入深度模型中自動(dòng)學(xué)習(xí)音頻特征,以此來(lái)預(yù)測(cè)對(duì)應(yīng)的音樂(lè)標(biāo)簽。特征提取為學(xué)習(xí)模型提供大量的音頻特征數(shù)據(jù),但會(huì)存在冗余特征,使模型無(wú)法學(xué)習(xí)到重要特征,因此對(duì)其進(jìn)行降維處理。例如Nam 等人[6]使用主成分分析(principal component analysis,PCA)來(lái)消除二階依賴性并降低維度。再次,設(shè)計(jì)音樂(lè)自動(dòng)標(biāo)注模型算法,即學(xué)習(xí)模型,通過(guò)學(xué)習(xí)模型將音樂(lè)標(biāo)簽與音頻特征建立聯(lián)系,使模型發(fā)現(xiàn)兩者的相關(guān)性。然后,將待測(cè)音樂(lè)輸入到訓(xùn)練好的標(biāo)注模型中。最后,對(duì)模型是否符合當(dāng)前任務(wù)進(jìn)行最終評(píng)價(jià)[7]。

    圖2 音樂(lè)自動(dòng)標(biāo)注通用框架Fig. 2 Generic framework for automatic music annotation

    音樂(lè)自動(dòng)標(biāo)注問(wèn)題是多標(biāo)簽分類問(wèn)題,形式化定義可描述為:將音樂(lè)自動(dòng)標(biāo)注樣本的音頻特征集合設(shè)為X={xi:i=1,2,…,m},標(biāo)簽集合為Y={γj:j=1,2,…,k},給定多標(biāo)簽訓(xùn)練集合,設(shè)為S={(xi,Lj),i=1,2,…,q},其中xi∈X,Lj∈Y,xi與Lj為一對(duì)多的映射關(guān)系,音樂(lè)自動(dòng)標(biāo)注任務(wù)從訓(xùn)練集S中學(xué)習(xí)到函數(shù)C:X→2Lj,設(shè)計(jì)多標(biāo)簽學(xué)習(xí)模型C(·),對(duì)無(wú)標(biāo)簽樣本音頻測(cè)試集合T={(xq+i,?),i=1,2,…,p}進(jìn)行標(biāo)注,即預(yù)測(cè)C(x)∈Y作為音頻樣本特征的標(biāo)簽集合。

    面對(duì)多標(biāo)簽音樂(lè)自動(dòng)標(biāo)注問(wèn)題,機(jī)器學(xué)習(xí)的核心思想是將多標(biāo)簽分類任務(wù)轉(zhuǎn)換成多個(gè)單標(biāo)簽分類任務(wù)。(1)二元相關(guān)性(binary relevance,BR)[8],多標(biāo)簽分類任務(wù)轉(zhuǎn)換成多個(gè)單獨(dú)的二元分類學(xué)習(xí)任務(wù)。針對(duì)每個(gè)標(biāo)簽均訓(xùn)練分類器,使所有分類器對(duì)音頻樣本進(jìn)行預(yù)測(cè),樣本的預(yù)測(cè)標(biāo)簽就是所有分類器預(yù)測(cè)標(biāo)簽的集合,但該方法忽略了標(biāo)簽的相關(guān)性。(2)分類器鏈(classifier chains,CC)[9]將多標(biāo)簽分類任務(wù)轉(zhuǎn)換成二分類器鏈。在二元相關(guān)性的基礎(chǔ)上加入標(biāo)簽排序,在預(yù)測(cè)當(dāng)前標(biāo)簽時(shí),需考慮當(dāng)前標(biāo)簽的前個(gè)標(biāo)簽。然而當(dāng)音樂(lè)標(biāo)簽與音頻樣本數(shù)量過(guò)于龐大時(shí),會(huì)使計(jì)算效率與性能下降。在深度學(xué)習(xí)中,研究人員使用深度神經(jīng)網(wǎng)絡(luò)模型作為多標(biāo)簽分類算法,將每個(gè)輸出節(jié)點(diǎn)使用sigmoid 激活函數(shù),對(duì)每個(gè)輸出節(jié)點(diǎn)和對(duì)應(yīng)的標(biāo)簽計(jì)算二值交叉熵?fù)p失函數(shù)[10]。

    2 音樂(lè)自動(dòng)標(biāo)注音頻特征提取方法

    音頻特征是區(qū)分音樂(lè)的重要依據(jù),科學(xué)有效的音頻特征可充分表達(dá)出不同特性的音樂(lè)。因此,需合理提取不同類型的音頻特征,將它作為模型輸入進(jìn)而對(duì)音樂(lè)進(jìn)行準(zhǔn)確標(biāo)注。

    2.1 基于領(lǐng)域知識(shí)輸入的特征提取方法

    原始音頻是不定長(zhǎng)的時(shí)序信號(hào),不適合直接作為模型輸入,需轉(zhuǎn)換成專業(yè)音頻知識(shí)的特征表示。

    2.1.1 基于統(tǒng)計(jì)特征的提取方法

    統(tǒng)計(jì)特征是精通音樂(lè)信號(hào)的專業(yè)人士根據(jù)不同特定任務(wù)對(duì)音樂(lè)的原始波形進(jìn)行傅里葉變換、倒譜分析等操作轉(zhuǎn)換成時(shí)頻表示的音頻特征。常用的音頻特征包括音色特征(梅爾頻率倒譜系數(shù)(mel-frequency cepstrum coefficients,MFCC)、頻譜質(zhì)心、頻譜衰減、頻譜帶寬)、節(jié)奏特征(節(jié)拍直方圖、節(jié)拍速度)、音高特征(音高直方圖、音高等級(jí))、和聲特征等。

    單個(gè)特征無(wú)法對(duì)音樂(lè)自動(dòng)標(biāo)注清晰表達(dá),研究人員將多種統(tǒng)計(jì)特征融合。首先將單個(gè)統(tǒng)計(jì)特征進(jìn)行描述性分析操作,其次計(jì)算各個(gè)特征對(duì)應(yīng)的統(tǒng)計(jì)值并將統(tǒng)計(jì)值拼接得到最終特征向量,最后將其輸入至分類器[11]。Wang等人[12]融合音色特征中的頻譜質(zhì)心、頻譜通量、頻譜衰減以及MFCC等特征來(lái)實(shí)現(xiàn)音樂(lè)自動(dòng)標(biāo)注,同時(shí)將融合特征與單一特征MFCC進(jìn)行比較,證明融合特征的性能優(yōu)于單一特征,為捕捉更多特征信息進(jìn)一步添加節(jié)奏特征[13]。Sordo[14]將音色特征(MFCC、頻譜質(zhì)心等)、節(jié)奏特征(節(jié)拍速度、起始點(diǎn)等)、和弦特征進(jìn)行融合,并將特征的均值、方差以及導(dǎo)數(shù)拼接作為整體音樂(lè)的特征向量。Ness等人[15]將MFCC、頻譜質(zhì)心、頻譜通量、頻譜衰減進(jìn)行融合,計(jì)算這些特征的均值和標(biāo)準(zhǔn)偏差,以此來(lái)獲取幀級(jí)音頻特征的整體表示。

    基于統(tǒng)計(jì)特征融合的方法可有效提高音樂(lè)自動(dòng)標(biāo)注性能,但該方法存在一定局限性:(1)需要根據(jù)不同問(wèn)題選取不同特征進(jìn)行融合,消耗大量人力及時(shí)間成本。(2)對(duì)原始音樂(lè)特征做一系列融合會(huì)存在冗余信息。(3)很難全面描述音樂(lè)特點(diǎn)。(4)模型效果與使用不同特征進(jìn)行融合的關(guān)系很大。

    2.1.2 基于圖像特征的提取方法

    由于統(tǒng)計(jì)特征融合的方法耗時(shí)耗力,需要花費(fèi)大量時(shí)間在特征選擇上,研究人員嘗試自動(dòng)找尋與任務(wù)相關(guān)的特征向量形式,將預(yù)處理后的波形信號(hào)通過(guò)傅里葉變換轉(zhuǎn)換成與圖像相似的時(shí)間-頻率二維聲譜圖并作為模型的輸入[16]。

    梅爾頻譜圖符合大多數(shù)人非線性聽(tīng)覺(jué)特征,因此梅爾頻譜圖是目前主要的輸入類型[17-18]。使用梅爾刻度濾波器組對(duì)信號(hào)進(jìn)行處理可獲得梅爾頻譜圖,研究人員將其應(yīng)用于實(shí)驗(yàn)中進(jìn)行測(cè)試[19]。Choi等人[20]使用梅爾頻譜圖與MFCC、STFT(short-time Fourier transform)特征在同一架構(gòu)下進(jìn)行測(cè)試,結(jié)果表明,在MTAT 數(shù)據(jù)集(MagnaTagATune Dataset)下使用梅爾頻譜圖輸入的性能值達(dá)到0.894,使用MFCC與STFT的性能值為0.862、0.846。Ferraro 等人[21]對(duì)比了不同尺寸的梅爾頻譜圖對(duì)模型的影響,證明了當(dāng)減少尺寸時(shí)既可保持良好性能,又可降低訓(xùn)練時(shí)間成本。Choi 等人[22]繼續(xù)對(duì)梅爾頻譜圖進(jìn)行不同的對(duì)數(shù)幅度縮放、頻率加權(quán)等操作,實(shí)驗(yàn)證明對(duì)數(shù)幅度壓縮可提高準(zhǔn)確性。以上均是將梅爾頻譜圖與不同特征進(jìn)行對(duì)比測(cè)試,并未有效捕捉更多音頻信息。Won等人[23]在梅爾頻譜圖前加入了諧波濾波器,使模型提取到更多音頻信息,實(shí)驗(yàn)表明,加入諧波濾波器的標(biāo)注模型在MTAT數(shù)據(jù)集下性能值達(dá)到0.914 1。

    聲音的許多高層次特征與不同頻段的能量有關(guān),梅爾頻譜圖更能表現(xiàn)音頻中時(shí)頻的效用,且效果對(duì)比其他音頻特征向量效果是最好的,然而梅爾頻譜圖也會(huì)存在周期相位變換的問(wèn)題。

    目前,基于圖像特征有以下三種提取方法:

    (1)受限玻爾茲曼機(jī)

    受限玻爾茲曼機(jī)(restricted Boltzmann machine,RBM)是一個(gè)由可視層和隱藏層組成的二分無(wú)定向圖形模型,可視層表示輸入音頻數(shù)據(jù),隱藏層表示通過(guò)RBM 學(xué)習(xí)音頻特征。Nam 等人[24]使用了RBM 算法,將預(yù)處理后的音頻數(shù)據(jù)利用稀疏RBM 獲取音樂(lè)中豐富的局部音色特征,并且用二元評(píng)價(jià)來(lái)判斷模型優(yōu)劣,當(dāng)在CAL500 數(shù)據(jù)集(computer audition lab 500 dataset)下使用RBM+頻譜圖方法時(shí),精確率為0.479,召回率為0.257,F(xiàn)1 值為0.289,是所有對(duì)比方法中效果最佳的。

    RBM 注重訓(xùn)練音頻特征本身特性,表示能力強(qiáng)且易于推理。雖然使用RBM的效果較好,但RBM訓(xùn)練速度慢,算法很難調(diào)整,靈活性不夠強(qiáng)。

    (2)K-均值

    K-均值(K-means)算法是基于歐式距離的聚類算法,兩個(gè)音頻目標(biāo)的距離越近,相似度越大。算法步驟為:首先隨機(jī)選取k個(gè)音頻特征樣本{x1,x2,…,xm},x(i)∈Rn,初始聚類質(zhì)心點(diǎn)為u=u1,u2,…,uk∈Rn;其次計(jì)算音頻特征xi到k個(gè)聚類中心的距離,并將其分配到距離最近聚類中心所對(duì)應(yīng)的標(biāo)簽類中,重新計(jì)算該標(biāo)簽類uj的質(zhì)心;最后重復(fù)上一過(guò)程直至模型收斂。Dieleman 等人[25]與Oord 等人[26]均使用球形K-means算法學(xué)習(xí)特征,并使用多層感知器(multilayer perceptron,MLP)來(lái)標(biāo)注預(yù)測(cè)。不同的是,前者將梅爾頻譜圖劃分為不同幀級(jí)大小的窗口,然后進(jìn)行PCA處理,并提取K-means特征進(jìn)行不同時(shí)間尺度學(xué)習(xí),實(shí)驗(yàn)證明多時(shí)間尺度比單時(shí)間尺度性能更好;而后者則使用遷移學(xué)習(xí)方法,先在MSD 數(shù)據(jù)集(million song dataset)上訓(xùn)練模型并提取特征,轉(zhuǎn)移事先預(yù)訓(xùn)練的MLP 權(quán)重并在其他數(shù)據(jù)集上預(yù)測(cè)標(biāo)簽,實(shí)現(xiàn)音樂(lè)自動(dòng)標(biāo)注。

    K-means 算法為淺層結(jié)構(gòu),相對(duì)于RBM 算法收斂速度快,聚類效果較好,然而采用迭代的方法只能得到局部最優(yōu)解,且該算法需選擇最近的聚類,因此對(duì)噪音點(diǎn)較敏感。

    以上兩種提取方法均是將音頻的局部頻譜圖映射到高維度稀疏空間中,并對(duì)特征進(jìn)行統(tǒng)計(jì)得到音頻單層特征向量,將其輸入到模型中標(biāo)注預(yù)測(cè)。它們可以處理不同長(zhǎng)度的音頻,進(jìn)一步提高模型性能,但音樂(lè)是時(shí)序變化的,在提取音頻特征時(shí)很難控制對(duì)不同變化的音頻進(jìn)行標(biāo)注,不能對(duì)音樂(lè)有層次化的特征向量進(jìn)行學(xué)習(xí)。

    (3)深度神經(jīng)網(wǎng)絡(luò)

    深度神經(jīng)網(wǎng)絡(luò)的架構(gòu)受大腦的分層結(jié)構(gòu)啟發(fā),將前幾層神經(jīng)網(wǎng)絡(luò)充當(dāng)特征提取器,無(wú)需明確的特征選擇或相關(guān)特征的計(jì)算,即特征學(xué)習(xí)。目前,研究人員利用深度神經(jīng)網(wǎng)絡(luò)的隱藏層來(lái)表示音頻數(shù)據(jù)底層結(jié)構(gòu)特征與標(biāo)簽之間的映射關(guān)系。例如,Ju等人[27]使用梅爾頻譜圖作為卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)輸入進(jìn)行音樂(lè)自動(dòng)標(biāo)注學(xué)習(xí),該方法在MTAT 數(shù)據(jù)集下的性能值達(dá)到0.918 7。深度學(xué)習(xí)音頻特征提取方法在音樂(lè)自動(dòng)標(biāo)注中占主導(dǎo)地位,僅需要將音頻信號(hào)轉(zhuǎn)化成二維輸入表示,使模型從中學(xué)習(xí)重要特征即可。該方法一定程度上避免了尋找與任務(wù)相關(guān)的音頻特征問(wèn)題,提取更深層次的特征。然而這種方法的音頻數(shù)據(jù)需要具有一定的專業(yè)音樂(lè)知識(shí),成本過(guò)高。該方法是使用深度神經(jīng)網(wǎng)絡(luò)將特征提取與標(biāo)注預(yù)測(cè)結(jié)合在同一架構(gòu)下進(jìn)行的。

    基于知識(shí)領(lǐng)域的輸入是目前常用的輸入類型,它可更有效地進(jìn)行表示學(xué)習(xí),并且系統(tǒng)性能也隨著改進(jìn)逐步提升,但領(lǐng)域知識(shí)輸入會(huì)消耗大量先驗(yàn)知識(shí),當(dāng)為模型后端增加大量算法提升性能時(shí),會(huì)使整體計(jì)算量急劇加大。表2 總結(jié)了基于領(lǐng)域知識(shí)的特征提取方法對(duì)比。

    表2 基于領(lǐng)域知識(shí)的特征提取方法對(duì)比Table 2 Comparison of feature extraction methods based on domain knowledge

    2.2 基于非領(lǐng)域知識(shí)特征輸入的提取方法

    為進(jìn)一步減少所需要的先驗(yàn)知識(shí),研究人員將原始波形信號(hào)直接輸入模型中。2014 年,Dieleman等人[28]首次使用原始波形輸入端到端對(duì)音頻進(jìn)行標(biāo)注預(yù)測(cè),實(shí)驗(yàn)結(jié)果顯示,原始波形的效果還有待提高,但它可避免梅爾頻譜圖存在周期相位變化問(wèn)題,這也為提高原始波形的輸入性能奠定了基礎(chǔ)。

    基于非領(lǐng)域知識(shí)輸入更少依賴于專業(yè)音頻知識(shí),在音樂(lè)自動(dòng)標(biāo)注領(lǐng)域上取得了顯著成果。然而與梅爾頻譜圖輸入方法相比性能略差,原因有:(1)梅爾頻譜圖需要通過(guò)振幅壓縮方式進(jìn)行提取,而人們無(wú)法在原始波形中找到合適的非線性函數(shù)代替。(2)雖然原始波形減少了先驗(yàn)知識(shí),但后續(xù)操作并未找到合適的模型繼續(xù)學(xué)習(xí)復(fù)雜的音頻結(jié)構(gòu)。Lee等人[29]提出樣本級(jí)卷積神經(jīng)網(wǎng)絡(luò)模型,將卷積神經(jīng)網(wǎng)絡(luò)中第一層濾波器的長(zhǎng)度和步幅減小至兩個(gè)樣本并增加深度進(jìn)行標(biāo)注,卷積核尺寸為1×3,通過(guò)此方法,標(biāo)注性能有所提升。同時(shí),他們更深入地研究分層學(xué)習(xí)濾波器,進(jìn)行多層次、多尺度的特征聚合,對(duì)多個(gè)任務(wù)進(jìn)行遷移學(xué)習(xí)與可視化[30],結(jié)合不同級(jí)別的特征進(jìn)而提高性能。Pons 等人[31]根據(jù)不同數(shù)據(jù)量對(duì)原始波形輸入與梅爾頻譜圖進(jìn)行比較,結(jié)果表明,當(dāng)數(shù)據(jù)量有限時(shí),梅爾頻譜圖將水平[32]與垂直[33]濾波器組合的效果更好,原始波形的效果不盡如人意;使用大量數(shù)據(jù)時(shí),原始波形輸入可勝過(guò)梅爾頻譜圖。

    研究人員對(duì)非領(lǐng)域知識(shí)的輸入做進(jìn)一步探索,使用領(lǐng)域知識(shí)專注提取某種音頻特征可能會(huì)丟失部分音頻信息,使模型無(wú)法對(duì)丟失信息進(jìn)行標(biāo)注,進(jìn)而導(dǎo)致標(biāo)注結(jié)果不準(zhǔn)確。Song等人[34]將原始波形轉(zhuǎn)換成散射系數(shù),將散射變換作為循環(huán)神經(jīng)網(wǎng)絡(luò)模型的輸入,散射變換輸入具有穩(wěn)定性,可以平衡音頻信息的完整獲取與音頻特征的有效提取。他們進(jìn)一步將散射變換輸入與梅爾頻譜圖和MFCC 進(jìn)行比較,實(shí)驗(yàn)結(jié)果表明,散射變換效果最好。該方法使用兩階散射變換。一階散射變換系數(shù)如式(1)所示:

    其中,x表示信號(hào)中的一幀數(shù)據(jù);φ(v)表示低通濾波器;表示小波模數(shù)變換,其目的是將丟失的信息從此變換中恢復(fù);λ為小波的尺度。通過(guò)式(1)可得到長(zhǎng)度為Λ1的向量,Λ是λ的最大值。

    二階散射變換系數(shù)如式(2)所示:

    通過(guò)式(2)得到長(zhǎng)度為Λ2·Λ1的向量。零階散射變換為S0=x(v)*φ(v),該變換系數(shù)為標(biāo)量,長(zhǎng)度為1。將零階散射、一階散射與二階散射系數(shù)堆疊,得到長(zhǎng)度為1+Λ1+Λ2·Λ1的向量,通過(guò)堆疊每幀的散射系數(shù)向量并沿對(duì)數(shù)頻率映射,構(gòu)建CNN 的輸入維度Nf×(1+Λ1+Λ2·Λ1),其中Nf表示從音樂(lè)信號(hào)提取的總幀數(shù)。

    非領(lǐng)域知識(shí)輸入將原始波形直接送入模型中,利用小濾波器的深度堆棧,分層組合上下文信息學(xué)習(xí)音頻特征,一定程度上避免了繁瑣的特征提取與梅爾頻譜圖周期波形相位變化產(chǎn)生的變性問(wèn)題,減少了對(duì)先驗(yàn)知識(shí)的需求,將所提取的音頻特征工程量降到最低,只需根據(jù)專業(yè)知識(shí)調(diào)整學(xué)習(xí)模型的超參數(shù)即可。然而當(dāng)考慮更長(zhǎng)音頻的輸入時(shí),增加學(xué)習(xí)模型深度的方法會(huì)使計(jì)算成本變大,且更長(zhǎng)的輸入意味著在每層都有更大的特征圖,因此GPU 內(nèi)存消耗更多。表3 總結(jié)了基于非領(lǐng)域知識(shí)的特征提取方法對(duì)比。

    表3 基于非領(lǐng)域知識(shí)的特征提取方法對(duì)比Table 3 Comparison of feature extraction methods based on non-domain knowledge

    3 基于機(jī)器學(xué)習(xí)的音樂(lè)自動(dòng)標(biāo)注方法

    基于機(jī)器學(xué)習(xí)的音樂(lè)自動(dòng)標(biāo)注是將特征提取與分類分為兩部分,分類作為音樂(lè)自動(dòng)標(biāo)注的主要步驟之一,選擇合適的分類器是決定性能優(yōu)劣的重要因素。在機(jī)器學(xué)習(xí)中通常將分類器模型分為判別式與生成式。

    3.1 判別式模型

    判別式模型不需要明確學(xué)習(xí)每個(gè)樣本如何生成,僅學(xué)習(xí)不同類別之間的最優(yōu)邊界即可。由于判別模型可直接判斷不同類別之間的差異,進(jìn)一步提高效率,研究人員將不同判別模型應(yīng)用于音樂(lè)自動(dòng)標(biāo)注中。首先將音頻特征與音樂(lè)標(biāo)簽作為模型的輸入,其次訓(xùn)練分類器模型學(xué)習(xí)音頻特征與標(biāo)簽之間的映射關(guān)系,最后對(duì)待測(cè)試的音樂(lè)進(jìn)行標(biāo)注預(yù)測(cè)。

    3.1.1 支持向量機(jī)

    支持向量機(jī)(support vector machine,SVM)分類器的基本訓(xùn)練原理為:首先使用SVM 核函數(shù)將音頻特征映射到高維特征空間,并找到音樂(lè)數(shù)據(jù)點(diǎn)的超平面以及最優(yōu)線性超平面函數(shù)的參數(shù),即確定SVM分類器。其次將測(cè)試的音頻特征輸入SVM 分類器,通過(guò)計(jì)算得到的數(shù)值來(lái)判斷音頻特征位于超平面的某一側(cè),從而預(yù)測(cè)標(biāo)簽。SVM 分類器用于解決二分類學(xué)習(xí)問(wèn)題[35],而音樂(lè)自動(dòng)標(biāo)注為多標(biāo)簽分類問(wèn)題,需訓(xùn)練多個(gè)SVM分類器并使用不同策略來(lái)結(jié)合其結(jié)果,以此完成音樂(lè)自動(dòng)標(biāo)注。常見(jiàn)策略為“one-againstone”與“one-against-all”。若將每個(gè)標(biāo)簽看作一個(gè)類別,“one-against-one”則是選取任意兩個(gè)標(biāo)簽來(lái)訓(xùn)練一個(gè)SVM,構(gòu)造C=k(k-1)/2 個(gè)SVM 分類器,其中k為標(biāo)簽數(shù)量,然后對(duì)待測(cè)試音頻的所有預(yù)測(cè)結(jié)果做投票法組合,投票最多的標(biāo)簽為最終預(yù)測(cè)標(biāo)簽;“oneagainst-all”是對(duì)K個(gè)標(biāo)簽訓(xùn)練K個(gè)SVM,每個(gè)SVM定義一個(gè)分類函數(shù)fi用于區(qū)分該音頻片段屬于標(biāo)簽i或其他標(biāo)簽,待測(cè)試音頻的所屬標(biāo)簽即為最大輸出的分類函數(shù)fi對(duì)應(yīng)的標(biāo)簽類別。最常用的分類函數(shù)公式如式(3)所示:

    其中,x表示音頻特征;wi表示第i個(gè)標(biāo)簽所對(duì)應(yīng)的SVM的權(quán)重;bi表示第i個(gè)標(biāo)簽所對(duì)應(yīng)的SVM的偏置。

    待測(cè)試音頻片段的標(biāo)注如式(4)所示:

    其中,K表示標(biāo)簽個(gè)數(shù)。

    為了尋找標(biāo)簽之間的相關(guān)性,Ness等人[15]將堆疊泛化的方法應(yīng)用到SVM分類器中并進(jìn)行擴(kuò)展。設(shè)詞匯表V由|W|個(gè)單詞組成,音頻片段為S=s1,s2,…,sR,音樂(lè)S中的特征向量表示為X=x1,x2,…,xT,每個(gè)向量xt代表從音頻片段中提取到的音頻特征。每首音樂(lè)的標(biāo)注向量設(shè)為y=(y1,y2,…,y|V|),若wi與音頻片段相關(guān)聯(lián),則yi>0 ;若無(wú)關(guān)聯(lián),則yi=0,即語(yǔ)義權(quán)重。將語(yǔ)義權(quán)重映射到{0,1}范圍中,設(shè)數(shù)據(jù)集為音頻片段與標(biāo)簽的集合D=(X1,Y1),(X2,Y2),…,(X|D|,Y|D|),并對(duì)待測(cè)試的數(shù)據(jù)進(jìn)行標(biāo)注預(yù)測(cè)。由于每個(gè)音樂(lè)片段由多個(gè)標(biāo)簽標(biāo)注,特征向量被多次送到多類SVM中,然后訓(xùn)練SVM 并計(jì)算標(biāo)簽概率輸出,將第一層SVM 的概率輸出作為第二層SVM 輸入,以此類推完成標(biāo)注。相較于單獨(dú)的SVM,堆疊的SVM 性能更好。

    Mandel 等人[36]結(jié)合多實(shí)例學(xué)習(xí)方法,使用實(shí)例嵌入式選擇方法(multiple-instance learning via embedded instance selection,MILES),將音頻片段作為分類的實(shí)例,標(biāo)簽類別為袋。其中,Bi表示第i個(gè)袋,大小為li,袋中第j個(gè)實(shí)例為xij,j∈1…li,Bi的標(biāo)簽為Yi∈{1,-1},實(shí)例xij的標(biāo)簽為yij,設(shè)正袋指數(shù)集合為I+={i:Yi=1},負(fù)袋指數(shù)集合為I-={i:Yi=-1}。使所有音頻實(shí)例對(duì)袋進(jìn)行映射,其次使用1-norm SVM來(lái)進(jìn)行音頻特征選擇與分類,從而完成標(biāo)注。

    SVM 分類器是機(jī)器學(xué)習(xí)最常見(jiàn)的模型,其計(jì)算復(fù)雜度取決于特征向量的數(shù)目并非音頻樣本的維數(shù),這也避免了維數(shù)災(zāi)難問(wèn)題。然而SVM 是二分類模型,面對(duì)音樂(lè)自動(dòng)標(biāo)注任務(wù)時(shí),標(biāo)簽類別存在交叉重疊部分且需對(duì)每個(gè)標(biāo)簽進(jìn)行二元決策,使計(jì)算效率變低,時(shí)間變慢。

    3.1.2 k-近鄰

    k-近鄰(knearest neighbor,kNN)模型的核心思想是:只依據(jù)最鄰近的一個(gè)或者幾個(gè)音頻樣本的標(biāo)簽來(lái)決定待測(cè)試音頻特征所屬的標(biāo)簽。其步驟為:預(yù)測(cè)音頻樣本特征x,首先給出距離度量方法在訓(xùn)練集T中找出與音頻樣本特征x最相近的K個(gè)音頻樣本點(diǎn),記為NK(x),其次根據(jù)多數(shù)投票原則,K個(gè)音頻樣本大多數(shù)對(duì)應(yīng)類別y,則確定音頻特征x對(duì)應(yīng)標(biāo)簽y。投票如式(5)所示:

    其中,i=1,2,…,N,j=1,2,…,K,I表示指數(shù)函數(shù)。

    由此可見(jiàn),kNN有兩個(gè)關(guān)鍵點(diǎn):選取k值,計(jì)算點(diǎn)距離。

    對(duì)于k值的選取:當(dāng)k值較小時(shí),預(yù)測(cè)結(jié)果對(duì)近鄰音頻樣本敏感,若近鄰音頻樣本點(diǎn)為噪音點(diǎn),則預(yù)測(cè)錯(cuò)誤,因此k值過(guò)小會(huì)導(dǎo)致模型過(guò)擬合;當(dāng)k值較大時(shí),雖模型相對(duì)具有魯棒性,但近鄰誤差偏大,距離較遠(yuǎn)且與預(yù)測(cè)音頻樣本不相似的點(diǎn)同樣影響預(yù)測(cè)結(jié)果,使其偏差較大,導(dǎo)致模型欠擬合。因此,需通過(guò)交叉驗(yàn)證的方式,選取較小的k值同時(shí)不斷增加k值并計(jì)算驗(yàn)證集的方差,最終找到合適的k值。

    對(duì)于距離的計(jì)算:音頻樣本空間內(nèi)兩點(diǎn)之間的距離量度表示兩個(gè)音頻樣本點(diǎn)之間的相似度,距離越短,相似度越高,反之,相似度越低。目前常用歐氏距離作為距離量度方式。

    Sordo[14]使用了kNN 模型,首先為待測(cè)音頻檢索一組近鄰音頻樣本,通過(guò)加權(quán)投票方式選擇音頻所對(duì)應(yīng)的標(biāo)簽。對(duì)于樣本的投票權(quán)重如式(6)所示:

    其中,t表示標(biāo)簽,n表示標(biāo)簽排名。該函數(shù)為最遠(yuǎn)的音頻樣本點(diǎn)提供邊際權(quán)重,因此最近的樣本點(diǎn)對(duì)排名較高的標(biāo)簽影響較大。

    kNN 為監(jiān)督學(xué)習(xí)模型,音樂(lè)的標(biāo)簽類別是已知的,其通過(guò)對(duì)已分類的音頻數(shù)據(jù)進(jìn)行訓(xùn)練學(xué)習(xí),找到不同標(biāo)簽的特征后,再對(duì)待測(cè)試的音頻數(shù)據(jù)進(jìn)行分類。對(duì)比SVM 模型,kNN 模型效率更高,復(fù)雜度更低,避免每個(gè)標(biāo)簽均進(jìn)行訓(xùn)練,更適合多標(biāo)簽音樂(lè)自動(dòng)標(biāo)注任務(wù),但音樂(lè)片段由成百上千個(gè)幀組成且不同標(biāo)簽的幀級(jí)特征可能會(huì)彼此相似,這會(huì)限制kNN鑒別的能力且預(yù)測(cè)結(jié)果存在不均衡性。

    3.1.3 條件隨機(jī)場(chǎng)

    條件隨機(jī)場(chǎng)(conditional random field,CRF)模型是無(wú)向概率圖模型,為了獲取更多音頻片段信息且考慮相鄰音頻的標(biāo)簽信息,將CRF 模型引入音樂(lè)自動(dòng)標(biāo)注任務(wù)中以更準(zhǔn)確地表達(dá)標(biāo)簽與音頻片段之間的關(guān)系。普通分類模型是將(x,y)看作一個(gè)樣本,其中x為音頻特征,y為標(biāo)簽;CRF 模型為序列分類問(wèn)題,將(x1,x2,…,xt,y1,y2,…,yt)整體看作一個(gè)樣本,x為音頻特征序列,y為與之對(duì)應(yīng)的不同時(shí)刻或位置標(biāo)簽序列。條件隨機(jī)場(chǎng)如式(7)所示:

    其中,λK、ul表示對(duì)應(yīng)權(quán)值;tk表示轉(zhuǎn)移特征函數(shù),依賴于當(dāng)前與前一個(gè)位置;sl表示狀態(tài)特征函數(shù),依賴于當(dāng)前位置;Z(x)表示歸一化因子。

    局部音頻片段預(yù)測(cè)的標(biāo)簽不能代表整首音樂(lè)的標(biāo)簽,Wang 等人[37]將CRF 模型應(yīng)用于音樂(lè)自動(dòng)標(biāo)注中,首先優(yōu)化CRF 能量函數(shù)來(lái)計(jì)算每個(gè)片段所對(duì)應(yīng)的互斥標(biāo)簽集合,并不斷更新標(biāo)簽直至標(biāo)簽不再變化,將最后一次迭代出現(xiàn)次數(shù)最多的標(biāo)簽作為最終標(biāo)注結(jié)果。能量函數(shù)如式(8)所示:

    其中,wl表示從訓(xùn)練音頻數(shù)據(jù)中學(xué)習(xí)到的標(biāo)簽l的回歸參數(shù)。

    其中,xpwi與xqwi表示加權(quán)數(shù);Dist()表示歐式距離;σ表示計(jì)算距離的尺度超參數(shù);N=NS?N0,NS表示相同音樂(lè)分割的相接片段,N0表示相鄰分割的時(shí)間重疊片段。

    其中,c表示控制音樂(lè)級(jí)標(biāo)注與音樂(lè)片段級(jí)標(biāo)注的一致性強(qiáng)度的權(quán)重參數(shù);η(·)表示指示函數(shù),滿足條件時(shí)值為1,反之為0。

    CRF 模型相較其他判別模型可以通過(guò)序列化的形式對(duì)音樂(lè)進(jìn)行標(biāo)注,且CRF模型為無(wú)向圖,更充分地提取音樂(lè)上下時(shí)刻信息作為特征,然而該模型復(fù)雜度高,訓(xùn)練時(shí)收斂速度較慢。

    對(duì)于音樂(lè)自動(dòng)標(biāo)注任務(wù)來(lái)看,判別模型實(shí)際上是將多標(biāo)簽問(wèn)題轉(zhuǎn)化成二分類問(wèn)題,即對(duì)N個(gè)標(biāo)簽進(jìn)行N次分類,其最大優(yōu)勢(shì)是可以直接學(xué)習(xí)音頻之間的差異進(jìn)行標(biāo)注預(yù)測(cè),相較于生成模型,靈活性較高。但也存在缺點(diǎn):(1)音樂(lè)自動(dòng)標(biāo)注標(biāo)簽類別多,在各學(xué)習(xí)模型上存在不均等表示,有時(shí)會(huì)產(chǎn)生數(shù)據(jù)不平衡的問(wèn)題,導(dǎo)致模型性能下降。(2)音樂(lè)自動(dòng)標(biāo)注需采用一對(duì)多的方法對(duì)每首音樂(lè)進(jìn)行多種標(biāo)簽類別標(biāo)注,然而對(duì)每個(gè)標(biāo)簽進(jìn)行二元決策會(huì)使效率下降,并且導(dǎo)致標(biāo)簽之間相互獨(dú)立并不能互相關(guān)聯(lián)。

    3.2 生成式模型

    生成模型的特點(diǎn)是學(xué)習(xí)數(shù)據(jù)本身特性從而做出分類。在音樂(lè)自動(dòng)標(biāo)注中,生成模型將音頻特征作為特定概率下的樣本,學(xué)習(xí)音頻特征與標(biāo)簽的聯(lián)合概率分布。

    3.2.1 高斯混合模型

    高斯混合模型(Gaussian mixture model,GMM)是一種聚類算法,由K個(gè)子高斯模型混合而成,高斯模型使用高斯概率密度函數(shù)(正態(tài)分布曲線)精確地量化事物,將一個(gè)事物分解為若干高斯概率密度函數(shù)形成的模型。音樂(lè)可被多種類別標(biāo)簽定義,其音頻數(shù)據(jù)的分布并非單一橢圓形狀,單個(gè)高斯模型無(wú)法很好地描述多標(biāo)簽分布,因此將高斯混合模型應(yīng)用于音樂(lè)自動(dòng)標(biāo)注中,以此量化該分布。GMM模型核心思想是將音頻特征數(shù)據(jù)看作從各子高斯概率密度函數(shù)中生成,首先計(jì)算所有音頻特征對(duì)各個(gè)子模型的高斯概率密度函數(shù);其次根據(jù)各子模型的高斯概率密度函數(shù)計(jì)算各子模型參數(shù)并不斷迭代更新直至最優(yōu);最后將音頻特征xi按照GMM模型聚類劃分到子模型概率最大的簇中。GMM 的概率分布如式(13)所示:

    其中,γik表示第i個(gè)音頻特征為第k個(gè)子模型的概率。

    Turnbull等人[38]采用數(shù)據(jù)集標(biāo)簽在音頻特征空間上訓(xùn)練GMM 模型,采用學(xué)習(xí)好的模型直接預(yù)測(cè)標(biāo)注,并將EM算法作為參數(shù)估計(jì)。音頻特征的標(biāo)簽中每個(gè)標(biāo)簽的后驗(yàn)概率如式(15)所示:

    其中,X={x1,x2,…,xT}表示音頻片段s中的特征向量袋;P(i)=1/|V|,i=1,2,…,|V|,表示詞匯wi被標(biāo)注的先驗(yàn)概率,每個(gè)詞匯wi看作一個(gè)標(biāo)簽,wi∈V;P(X)表示音頻的先驗(yàn)概率;P(X|i)表示音頻特征空間中每個(gè)標(biāo)簽wi的概率分布。

    然而該方法并沒(méi)有考慮詞語(yǔ)之間的潛在關(guān)系,Chen等人[39]使用類似方法并針對(duì)每個(gè)詞語(yǔ)的反義詞也學(xué)習(xí)了GMM,從而更進(jìn)一步找到每個(gè)標(biāo)簽之間的相關(guān)性。反義詞集如式(16)所示:

    其中,Y表示標(biāo)注權(quán)重矩陣,根據(jù)標(biāo)注權(quán)重Y對(duì)GMM 進(jìn)行建模;Y(i)與Y(j)是在wi與wj的相關(guān)音頻片段中收集到的標(biāo)注權(quán)重構(gòu)成的標(biāo)注向量;corr(·)表示相關(guān)系數(shù)函數(shù),若1-Y(i)與Y(j)之間相似度大于θ1,則wj屬于wi的反義詞集。定義維數(shù)為|V|×|V|的詞-反義權(quán)重矩陣,以此構(gòu)建反義詞級(jí)GMM。詞-反義權(quán)重矩陣如式(17)所示:

    相較于第2.1.2 小節(jié)中K-means 算法,二者均為聚類算法且均需迭代執(zhí)行,然而二者需計(jì)算的參數(shù)不同,K-means 需計(jì)算質(zhì)心,即直接給出音頻特征屬于哪個(gè)標(biāo)簽;而GMM則是計(jì)算各子模型的高斯分布參數(shù),即給出每一個(gè)音頻特征由哪個(gè)子模型生成的概率。音樂(lè)自動(dòng)標(biāo)注的標(biāo)簽分布不平衡,對(duì)于GMM模型來(lái)說(shuō),可生成不同大小的形狀簇,且少量參數(shù)就能較好地描述音頻特性。然而GMM 模型每一步迭代的計(jì)算量較大,收斂較慢且子模型標(biāo)簽數(shù)量難以預(yù)先選擇。

    3.2.2 狄利克雷混合模型

    狄利克雷混合模型(Dirichlet mixture model,DMM)也是一種聚類算法,即狄利克雷分布混合模型。文獻(xiàn)[39]全面考慮了缺失反義詞標(biāo)簽的問(wèn)題,但沒(méi)有對(duì)每個(gè)標(biāo)簽整體性進(jìn)行關(guān)聯(lián)。Miotto 等人[40]提出使用DMM 模型標(biāo)注音樂(lè)的新方法,基于不同的模型(GMM、SVM 等)生成標(biāo)簽權(quán)重,即語(yǔ)義多項(xiàng)分布(semantic multinomial distribution,SMN),再使用DMM 對(duì)每個(gè)標(biāo)簽的SMN 進(jìn)行建模。DMM 模型可以進(jìn)一步根據(jù)SMN中共同出現(xiàn)標(biāo)簽的可能性調(diào)整每個(gè)標(biāo)簽的SMN 權(quán)重,從而提高模型性能,結(jié)果表明DMM與GMM相結(jié)合效果最好。SMN的DMM概率分布如式(18)所示:

    其中,Γ(·)表示伽馬函數(shù)。

    DMM模型是建模過(guò)程中的第二個(gè)附加階段,通過(guò)對(duì)標(biāo)簽之間的上下文關(guān)系進(jìn)行建模來(lái)提升音樂(lè)自動(dòng)標(biāo)注性能。對(duì)比GMM,在標(biāo)注過(guò)程中,GMM模型僅僅是在對(duì)單獨(dú)標(biāo)簽進(jìn)行獨(dú)立建模,而DMM可以通過(guò)利用上下文相關(guān)信息來(lái)更加細(xì)化第一階段的標(biāo)注,并且DMM模型將在給定由其他共現(xiàn)標(biāo)簽提供上下文信息的情況下調(diào)整(減少或提高)每個(gè)標(biāo)簽的權(quán)重,進(jìn)一步增強(qiáng)后驗(yàn)概率估計(jì),提高標(biāo)注準(zhǔn)確率。

    生成模型下的音樂(lè)自動(dòng)標(biāo)注可以更好地學(xué)習(xí)每個(gè)標(biāo)簽與音頻之間的相關(guān)性,與判別模型相比,生成模型只訓(xùn)練與語(yǔ)義標(biāo)簽相關(guān)的正樣本使模型直接對(duì)音頻分類,進(jìn)而標(biāo)注預(yù)測(cè),而判別模型還需訓(xùn)練負(fù)樣本來(lái)區(qū)分音頻類別,增加了時(shí)間成本。然而生成模型也存在缺點(diǎn):(1)每個(gè)標(biāo)簽都需轉(zhuǎn)化成獨(dú)立的語(yǔ)義模型進(jìn)行訓(xùn)練,當(dāng)標(biāo)簽存在多種類別時(shí)會(huì)使訓(xùn)練過(guò)程復(fù)雜,靈活性較差。(2)不同標(biāo)簽之間有關(guān)聯(lián)時(shí),可能會(huì)丟失上下文音頻信息。(3)數(shù)據(jù)集較大時(shí),生成模型的標(biāo)注性能劣于判別模型。Wang等人[41]結(jié)合生成模型和判別模型的優(yōu)點(diǎn),將生成RBM與判別RBM相結(jié)合組成混合判別玻爾茲曼機(jī)(hybrid discriminative restricted Boltzmann machines,HDRBM)進(jìn)行訓(xùn)練,從原始音頻中提取音色與旋律特征,加入Dropout正則化方法防止過(guò)擬合,對(duì)比SVM與MLP,正則化的HDRBM在MTAT數(shù)據(jù)集上的性能分別提高了2.9%、3.3%。

    雖然機(jī)器學(xué)習(xí)方法目前取得了成功,但仍有一定的局限性:(1)音樂(lè)具有連續(xù)的非線性特點(diǎn)且音樂(lè)語(yǔ)義信息也極為復(fù)雜、抽象,而分類器是淺層結(jié)構(gòu),并沒(méi)有豐富的非線性變換,同時(shí)淺層結(jié)構(gòu)很難提取到復(fù)雜的語(yǔ)義信息,因此通過(guò)分類器來(lái)提高模型性能有一定阻礙。(2)對(duì)于分類器的濾波器選取、參數(shù)調(diào)整等問(wèn)題,有時(shí)需要人工調(diào)整,這會(huì)消耗大量的時(shí)間成本且性能不穩(wěn)定。(3)音樂(lè)以分鐘來(lái)計(jì)算,而短時(shí)信號(hào)的時(shí)間間隔過(guò)短不能包含整首音樂(lè)。同時(shí),單獨(dú)音頻片段的標(biāo)簽不能代表整首音樂(lè),需長(zhǎng)時(shí)間訓(xùn)練才能發(fā)現(xiàn)深層次信息。表4 總結(jié)了基于機(jī)器學(xué)習(xí)的不同模型方法對(duì)比。表5 給出了基于機(jī)器學(xué)習(xí)模型的不同方法性能對(duì)比。

    表4 基于機(jī)器學(xué)習(xí)的不同模型方法對(duì)比Table 4 Comparison of different model methods based on machine learning

    表5 基于機(jī)器學(xué)習(xí)模型的不同方法性能對(duì)比Table 5 Performance comparison of different methods based on machine learning models

    4 基于深度學(xué)習(xí)的音樂(lè)自動(dòng)標(biāo)注方法

    隨著深度學(xué)習(xí)的逐步發(fā)展,如今不同的神經(jīng)網(wǎng)絡(luò)已成功應(yīng)用于自然語(yǔ)言處理[42]與計(jì)算機(jī)視覺(jué)[43]等領(lǐng)域,研究人員使用卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)等不同網(wǎng)絡(luò)提高相關(guān)任務(wù)性能,并逐漸將其應(yīng)用于音樂(lè)自動(dòng)標(biāo)注任務(wù)。

    音樂(lè)數(shù)據(jù)信息通常以多種模態(tài)存在,下面對(duì)不同模態(tài)下的音樂(lè)自動(dòng)標(biāo)注研究成果與特點(diǎn)進(jìn)行梳理和分析。音頻信號(hào)是音樂(lè)主要組成部分,目前大部分工作是在音頻模態(tài)下進(jìn)行,文章重點(diǎn)圍繞面向音頻模態(tài)的音樂(lè)自動(dòng)標(biāo)注進(jìn)行深入探討。

    4.1 面向音頻模態(tài)的音樂(lè)自動(dòng)標(biāo)注

    4.1.1 卷積神經(jīng)網(wǎng)絡(luò)方法

    卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型可以分層學(xué)習(xí)特征且在時(shí)間和空間上具有平移不變性,在音樂(lè)自動(dòng)標(biāo)注中,可利用CNN 不變性來(lái)克服音頻信號(hào)本身的多樣性。大多數(shù)音樂(lè)自動(dòng)標(biāo)注使用CNN或其變體對(duì)音樂(lè)進(jìn)行標(biāo)注預(yù)測(cè)。CNN 主要由輸入層、卷積層、池化層、全連接層和輸出層所構(gòu)成,其中卷積層、池化層與全連接層統(tǒng)稱為隱藏層。通常將音頻信號(hào)的原始特征(梅爾頻譜圖、原始波形等)作為CNN輸入,通過(guò)CNN隱藏層表示音頻原始特征與標(biāo)簽之間的映射關(guān)系。其中,卷積層與池化層可學(xué)習(xí)到深層次且合適的特征向量,全連接層用于預(yù)測(cè)音頻所標(biāo)注的置信度,采用ReLU作為除輸出層之外每層卷積的激活函數(shù),并使用sigmoid函數(shù)將輸入壓縮在[0,1]之間,在每次卷積之后與激活之前添加批歸一化,并在每個(gè)池化層之后添加Dropout。

    使用CNN模型一定程度上避免尋找與任務(wù)相關(guān)的音頻特征問(wèn)題。Dieleman 等人[28]將經(jīng)典1D-CNN模型應(yīng)用于音樂(lè)自動(dòng)標(biāo)注。為了使特征與相關(guān)任務(wù)更好地關(guān)聯(lián),Choi等人[20]提出了一種基于深度全卷積網(wǎng)絡(luò)模型(fully convolutional networks,F(xiàn)CN)。FCN模型僅由卷積層與子采樣組成,卷積核大小尺寸為3×3,沒(méi)有任何全連接層,通過(guò)共享權(quán)值來(lái)減少參數(shù)數(shù)量,更大程度發(fā)揮CNN的優(yōu)勢(shì),該方法的性能值超過(guò)1D-CNN模型的0.012。FCN不僅最大化卷積網(wǎng)絡(luò)優(yōu)勢(shì)且系統(tǒng)不易過(guò)擬合,雖可以減少參數(shù)數(shù)量,但它將全連接網(wǎng)絡(luò)變成卷積層的操作使音頻空間缺乏一致性,進(jìn)而導(dǎo)致模型不能精細(xì)地對(duì)音樂(lè)進(jìn)行標(biāo)注預(yù)測(cè)。Tang[44]為了保留音樂(lè)中的空間特征,將膠囊網(wǎng)絡(luò)應(yīng)用于音樂(lè)自動(dòng)標(biāo)注,相較CNN方法,膠囊網(wǎng)絡(luò)可以通過(guò)協(xié)議路由機(jī)制提取空間特征來(lái)進(jìn)行更全面化預(yù)測(cè)。

    目前,基于CNN 模型的音樂(lè)自動(dòng)標(biāo)注主要對(duì)以下方面進(jìn)行研究與探索:

    (1)提高模型性能與計(jì)算效率。音樂(lè)自動(dòng)標(biāo)注任務(wù)最根本的目標(biāo)是提高模型性能,而一些模型會(huì)存在效率低、計(jì)算量大等問(wèn)題,高效率地提高系統(tǒng)性能也是目前所攻克的問(wèn)題。Kim等人[45]在文獻(xiàn)[29]的基礎(chǔ)上對(duì)樣本級(jí)CNN 模型堆疊ResNet 和SENet,以此來(lái)進(jìn)行多級(jí)特征聚合,對(duì)比原始樣本級(jí)CNN模型,該方法在MTAT 數(shù)據(jù)集上標(biāo)注性能提高到0.911 3。堆疊多層的樣本級(jí)CNN 模型可提高系統(tǒng)性能,但模型的層數(shù)太深使計(jì)算量過(guò)大。Yu等人[46]將WaveNet[47]塊與SENet塊的分層卷積層相結(jié)合,改進(jìn)后的模型不僅可以擴(kuò)大感受野,還可以提高計(jì)算效率,訓(xùn)練時(shí)間更少,模型也獲得更多層次的特征向量。

    (2)獲取更多特征信息。音樂(lè)自動(dòng)標(biāo)注需要對(duì)整首音樂(lè)預(yù)測(cè)標(biāo)簽,僅通過(guò)對(duì)幾秒鐘的音樂(lè)片段附上標(biāo)簽顯然不具有整體性。針對(duì)此問(wèn)題,Lee等人[48]使用不同大小的CNN 捕獲局部音頻特征,并從每一層卷積層中提取音頻特征,將它們聚合為長(zhǎng)音頻,實(shí)驗(yàn)證明這種方法在多層級(jí)、多尺度的音樂(lè)自動(dòng)標(biāo)注上是有效的。Liu等人[49]使用FCN模型架構(gòu),在輸出層前添加累積層,累積層是通過(guò)添加高斯濾波器實(shí)現(xiàn)的,其作用是隨著時(shí)間的推移總結(jié)前一層所做的預(yù)測(cè),更有效地捕獲整體音樂(lè)的上下文信息。

    (3)解決標(biāo)簽噪音問(wèn)題。音樂(lè)標(biāo)簽在音樂(lè)自動(dòng)標(biāo)注中的作用越來(lái)越重要,而在多標(biāo)簽音樂(lè)數(shù)據(jù)集中存在噪音問(wèn)題。Choi 等人[50]對(duì)噪音的產(chǎn)生做深入研究,在MSD數(shù)據(jù)集上對(duì)標(biāo)簽噪音進(jìn)行分析。首先,通過(guò)標(biāo)簽共現(xiàn)方法發(fā)現(xiàn),只有39%的“獨(dú)立搖滾”標(biāo)簽被同時(shí)標(biāo)注為“搖滾”標(biāo)簽,其余標(biāo)簽則會(huì)因缺少標(biāo)注信息被標(biāo)注為“非搖滾”標(biāo)簽,因此缺少標(biāo)簽是造成噪聲的原因之一;其次,對(duì)該數(shù)據(jù)集中子集(正確標(biāo)注)的標(biāo)簽進(jìn)行噪聲統(tǒng)計(jì)與精確率、召回率計(jì)算,實(shí)驗(yàn)表明標(biāo)簽噪聲主要分布在負(fù)標(biāo)簽上,且不同標(biāo)簽的噪聲差異與標(biāo)注能力有關(guān),標(biāo)注能力越低的標(biāo)簽在數(shù)據(jù)集中存在更多錯(cuò)誤的負(fù)標(biāo)注;最后,使用不同網(wǎng)絡(luò)結(jié)構(gòu)對(duì)不同類別的不同標(biāo)簽測(cè)試,證明了標(biāo)簽噪聲會(huì)對(duì)網(wǎng)絡(luò)訓(xùn)練產(chǎn)生不良影響。由上可知,標(biāo)簽分類體系異構(gòu)、不同主觀性標(biāo)注使信息不足等情況會(huì)導(dǎo)致標(biāo)簽缺失、標(biāo)注較差等問(wèn)題,進(jìn)而使標(biāo)簽產(chǎn)生噪聲。并且由用戶標(biāo)注的部分?jǐn)?shù)據(jù)集標(biāo)簽會(huì)出現(xiàn)標(biāo)簽標(biāo)錯(cuò)、某類別標(biāo)簽過(guò)度使用、樣本標(biāo)簽不平衡等問(wèn)題,使其產(chǎn)生弱標(biāo)注,同樣會(huì)導(dǎo)致標(biāo)簽產(chǎn)生噪音。Wang等人[51]提出標(biāo)簽深度分析法,通過(guò)卷積操作與表示學(xué)習(xí)方法來(lái)降低噪聲數(shù)據(jù),以此挖掘標(biāo)簽和音樂(lè)之間更深層的關(guān)系。Lu 等人[52]提出了雙教師-學(xué)生模型,第一個(gè)教師模型過(guò)濾掉明顯標(biāo)簽噪聲,第二個(gè)教師模型防止學(xué)生模型在其余數(shù)據(jù)上過(guò)度擬合標(biāo)簽噪聲。該方法提高了標(biāo)簽準(zhǔn)確性與泛化能力,并且兩個(gè)教師模型監(jiān)督一個(gè)學(xué)生模型的方法最大程度上保護(hù)學(xué)生模型不受標(biāo)簽噪聲的影響。損失函數(shù)如式(20)所示:

    其中,Lmask表示平衡掩蔽方法,其目的是防止模型被負(fù)樣本主導(dǎo),緩解數(shù)據(jù)平衡的問(wèn)題;Lcon表示教師模型所提供的一致監(jiān)督性;β(T)表示隨迭代次數(shù)T變化以平衡噪聲數(shù)據(jù)和一致性約束之間的權(quán)重。Lmask、Lcon、β(T)分別如式(22)、(23)、(24)所示:

    其中,βmax是β(T)的上限;T0表示加速迭代次數(shù);γ表示控制加速曲線斜率。

    以上方法均是對(duì)網(wǎng)絡(luò)模型進(jìn)行改進(jìn),在解決噪音的同時(shí)提高音樂(lè)自動(dòng)標(biāo)注系統(tǒng)的性能,然而這些方法的系統(tǒng)性能均取決于訓(xùn)練數(shù)據(jù)的質(zhì)量,且在測(cè)試時(shí)也僅將“用戶最常使用的”前50 個(gè)標(biāo)簽作為參考,這會(huì)使一些冷門(mén)標(biāo)簽得不到使用,導(dǎo)致標(biāo)簽出現(xiàn)長(zhǎng)尾形狀。為了使每首音樂(lè)與更多潛在相關(guān)的標(biāo)簽關(guān)聯(lián)起來(lái),提高標(biāo)簽利用率,Lin 等人[53]在樣本級(jí)CNN 模型上構(gòu)建標(biāo)簽傳播方法,標(biāo)簽傳播可為音頻生成相關(guān)標(biāo)簽并移除不正確標(biāo)簽,繼而減少噪聲標(biāo)簽的影響。首先利用播放列表這一音樂(lè)背景在相鄰歌曲之間共享標(biāo)簽,并通過(guò)多任務(wù)目標(biāo)函數(shù)優(yōu)化自動(dòng)標(biāo)注模型,該方法將之前經(jīng)常使用的前50 個(gè)標(biāo)簽擴(kuò)展到1 000個(gè)標(biāo)簽。給定輸入音樂(lè)s和被選擇的播放列表,被選擇音樂(lè)s′的概率如式(25)所示:

    其中,d(s′,s)代表輸入音樂(lè)s與被選擇音樂(lè)s′之間的距離;r表示概率搜索范圍,即控制播放列表p~ 中下一個(gè)相鄰音樂(lè)被訪問(wèn)的概率,r=0 即傳播更多附近音樂(lè)標(biāo)簽,反之亦然。

    損失函數(shù)如式(26)所示:

    其中,第一個(gè)求和項(xiàng)表示原始二值交叉熵;第二個(gè)求和項(xiàng)表示支持二值交叉熵;P(s′|s)表示支持目標(biāo)函數(shù),如式(27)所示:

    然而該方法會(huì)部分存在錯(cuò)誤標(biāo)注標(biāo)簽,導(dǎo)致音頻與標(biāo)簽之間存在弱連接問(wèn)題,同義詞標(biāo)簽分配給不同對(duì)象,進(jìn)而使標(biāo)簽在數(shù)據(jù)集中鏈接到不同音頻,導(dǎo)致相關(guān)標(biāo)簽與音頻之前的鏈接丟失問(wèn)題,這些問(wèn)題均會(huì)使標(biāo)簽產(chǎn)生噪聲。Lin等人[54]在樣本級(jí)CNN、FCN與CRNN三種模型上利用所有的音樂(lè)背景來(lái)確定相似歌曲,進(jìn)一步擴(kuò)大標(biāo)簽傳播范圍,并將成本敏感值γ與速率α納入損失函數(shù)中,使損失函數(shù)歸于無(wú)關(guān)(負(fù))鏈接并通過(guò)調(diào)整相關(guān)(正)鏈接對(duì)無(wú)關(guān)(負(fù))鏈接的權(quán)重來(lái)增強(qiáng)魯棒性,繼而減少標(biāo)簽缺失。損失函數(shù)如式(28)所示:

    其中,ys∈{0,1}|T|,若對(duì)應(yīng)標(biāo)簽與音樂(lè)s相關(guān)則為1,反之為0,ys[t]=1(0),則音樂(lè)s與標(biāo)簽t相關(guān)聯(lián)的y~s[t]相關(guān)性增加(減少);α∈[0,1]表示傳播速率;γ∈[0,2]表示正鏈接的敏感值,2-γ表示負(fù)鏈接的敏感值;P(s′|s)表示給出音樂(lè)s,其他音樂(lè)選為s~ 的概率,如式(29)所示:

    其中,U為上下文信息元素集合;Us是U的子集,只包含與s連接的元素;Su是鏈接到u的一組音樂(lè);Us~是鏈接到s~ 的一組上下文元素。

    為驗(yàn)證在不同影響下的標(biāo)注性能,研究人員對(duì)不同模型進(jìn)行對(duì)比實(shí)驗(yàn)。Won 等人[55]針對(duì)音樂(lè)自動(dòng)標(biāo)注中不同模型的軟件版本與數(shù)據(jù)集不同的問(wèn)題,進(jìn)行了有關(guān)時(shí)間拉伸、音調(diào)偏移等泛化能力的實(shí)驗(yàn),實(shí)驗(yàn)表明諧波CNN[56]在所有方面都表現(xiàn)出了最好的性能與泛化能力。通過(guò)以上討論與分析可知CNN可以解決不同問(wèn)題,面對(duì)提高模型性能與獲取更多特征信息問(wèn)題,需通過(guò)堆疊濾波器深度或增加不同濾波器來(lái)擴(kuò)大感受野,進(jìn)而可提取更多復(fù)雜特征,然而這些方式雖在一定程度上提升性能,但會(huì)使層級(jí)太深,需要的硬件設(shè)施需更強(qiáng)大,并且提升效果并不明顯。面對(duì)噪音問(wèn)題,則主要有兩種解決思路:(1)調(diào)整模型架構(gòu),該方法需調(diào)整模型參數(shù)或增加功能性模塊來(lái)提高模型的魯棒性,然而該方法僅是通過(guò)網(wǎng)絡(luò)模型過(guò)濾掉噪音標(biāo)簽,對(duì)于標(biāo)簽的弱標(biāo)注問(wèn)題并未得到根本性解決。(2)改善標(biāo)簽弱標(biāo)注問(wèn)題,該方法在原有模型架構(gòu)的基礎(chǔ)上對(duì)標(biāo)簽的標(biāo)錯(cuò)、標(biāo)少等問(wèn)題進(jìn)行處理或增加標(biāo)簽的使用率來(lái)進(jìn)一步提高標(biāo)注正確性,進(jìn)而解決由弱標(biāo)注產(chǎn)生的噪音問(wèn)題,然而當(dāng)所有標(biāo)簽均與上下文進(jìn)行關(guān)聯(lián)時(shí)會(huì)導(dǎo)致標(biāo)注性能下降,因此還需進(jìn)一步改進(jìn)。CNN 通過(guò)最大池化增加整體感受野的大小,以此來(lái)捕獲局部和全局特征,它需要學(xué)習(xí)的參數(shù)比其他網(wǎng)絡(luò)架構(gòu)要少很多,且可降低模型復(fù)雜度,增強(qiáng)音樂(lè)自動(dòng)標(biāo)注泛化能力,避免手工提取特征帶來(lái)的誤差,提升系統(tǒng)的標(biāo)注性能。但CNN 在特征提取過(guò)程中會(huì)損失結(jié)構(gòu)信息且CNN實(shí)際感受野遠(yuǎn)小于理論感受野。另外音樂(lè)是序列數(shù)據(jù)的形式,一些聲學(xué)特性標(biāo)簽局部出現(xiàn)就可感受到(例如樂(lè)器類別標(biāo)簽),而一些其他特性則需長(zhǎng)序列感受(例如情緒、流派類別標(biāo)簽),CNN更善于挖掘語(yǔ)義中的深層次特征,在捕獲長(zhǎng)距離特征方面性能較弱,并且CNN 模型設(shè)計(jì)成本較高。表6 總結(jié)了基于CNN模型的不同方法。

    表6 基于CNN模型的不同方法對(duì)比Table 6 Comparison of different methods under CNN-based model

    4.1.2 序列建模方法

    音樂(lè)具有關(guān)聯(lián)性與連續(xù)性等特點(diǎn),需對(duì)音頻數(shù)據(jù)進(jìn)行序列化處理,循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neuralnetwork,RNN)將隱藏層之間的節(jié)點(diǎn)連接,保證前一時(shí)刻的信息可以傳遞到下一時(shí)刻,避免信息丟失[57-58],從而更好地處理時(shí)間序列數(shù)據(jù)。Choi等人[59]將RNN應(yīng)用于音樂(lè)自動(dòng)標(biāo)注,使FCN 與RNN 相結(jié)合,得到CRNN。為了獲取全局特征,將RNN 替換最后一層CNN卷積層進(jìn)行特征聚合,剩余的CNN提取局部特征,對(duì)比FCN,該模型系統(tǒng)性能值提升至0.862。雖然CRNN的性能有所提升,但對(duì)于長(zhǎng)時(shí)間的序列建模問(wèn)題,需要CNN堆疊較深的卷積層,這使時(shí)間分辨率下降,且長(zhǎng)序列RNN存在計(jì)算量大、梯度消失或爆炸等問(wèn)題。RNN 的許多衍生模型,例如長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)、門(mén)控循環(huán)單元(gated recurrent unit,GRU)可以避免這些問(wèn)題。Song等人[60]使用五層GRU,并將自注意力機(jī)制添加到最后一層CNN 中提高音樂(lè)自動(dòng)標(biāo)注性能。GRU 作為RNN 的變體,解決了RNN 中梯度消失及爆炸的問(wèn)題并減少參數(shù),更好地處理時(shí)間序列。Wang 等人[61-62]將GRU與CNN 融合,首先將原始波形與梅爾頻譜圖作為模型的輸入,以此對(duì)音樂(lè)進(jìn)行表示學(xué)習(xí),其次使用Bi-LSTM提取兩種輸入之間的時(shí)序相關(guān)性,最后使用注意力機(jī)制聚合音樂(lè)片段特征向量來(lái)預(yù)測(cè)音樂(lè)標(biāo)簽。上述模型均將注意力機(jī)制與RNN及衍生模型結(jié)合來(lái)捕獲更多特征信息,注意力機(jī)制參數(shù)少,復(fù)雜度低,可以捕獲長(zhǎng)時(shí)間特征且關(guān)注長(zhǎng)特征中的特定部分[63],將二者結(jié)合可進(jìn)一步提高標(biāo)注性能,但RNN 及衍生模型存在序列依賴的問(wèn)題,訓(xùn)練速度受到限制,并行計(jì)算能力不強(qiáng)。為此,Won等人[64]提出了Transformer模型架構(gòu),利用半監(jiān)督方法通過(guò)訓(xùn)練學(xué)生模型來(lái)提高標(biāo)注性能,當(dāng)增加知識(shí)擴(kuò)展與知識(shí)蒸餾方法時(shí)可進(jìn)一步增強(qiáng)模型性能,使用知識(shí)蒸餾的性能值在MSD數(shù)據(jù)集上高達(dá)0.921 7,優(yōu)于之前模型。Zhao等人[65]使用Transformer 的衍生模型Swin-Transformer,利用自監(jiān)督方法進(jìn)行預(yù)測(cè)標(biāo)注,Swin-Transformer 可在分層分割的頻譜圖中提取多分辨率的時(shí)頻特征,提取更多有意義特征。Transformer 模型架構(gòu)對(duì)比RNN及衍生模型,訓(xùn)練時(shí)間更少,可以在整體上處理音頻片段而非依賴之前音頻信息,不存在丟失音頻特征信息的問(wèn)題;對(duì)比CNN模型方法,Transformer模型能夠利用自注意力捕獲長(zhǎng)距離依賴關(guān)系,長(zhǎng)距離特性使模型捕獲全局信息的能力更強(qiáng),此外Transformer 模型中的多頭注意力和位置嵌入等功能均可提供不同音頻之間的信息。然而Transformer模型雖然能夠捕獲更加豐富的全局上下文信息,但是不能有效應(yīng)對(duì)音樂(lè)的實(shí)時(shí)變化,且訓(xùn)練需要大量的時(shí)間成本,不能滿足實(shí)時(shí)性需求。

    使用序列建模方法從更符合音頻知識(shí)的角度學(xué)習(xí)音樂(lè)序列特性,對(duì)音樂(lè)自動(dòng)標(biāo)注進(jìn)行改進(jìn)。但由于音樂(lè)具有時(shí)序性,音樂(lè)會(huì)隨著時(shí)間的變換而變化,細(xì)粒度的標(biāo)注很難獲取。表7 總結(jié)了基于序列建模的不同方法對(duì)比。

    表7 基于序列建模的不同方法對(duì)比Table 7 Comparison of different methods under sequence-based modeling

    面向音頻模態(tài)的音樂(lè)自動(dòng)標(biāo)注是目前人們解決問(wèn)題最常使用的方法,但音樂(lè)的多樣性僅通過(guò)音頻提取數(shù)據(jù)信息仍不夠全面。表8 給出了基于深度學(xué)習(xí)的不同方法性能對(duì)比。

    表8 基于深度學(xué)習(xí)的不同方法性能對(duì)比Table 8 Performance comparison of different methods based on deep learning

    4.2 面向多模態(tài)的音樂(lè)自動(dòng)標(biāo)注

    音頻模態(tài)下的音樂(lè)自動(dòng)標(biāo)注只能提取聲音的信息特征,而對(duì)于音樂(lè)來(lái)說(shuō),歌詞的文本信息與音樂(lè)視頻的圖像信息也是關(guān)鍵特征之一,為了提取更全面的特征,研究人員使用音頻與文本結(jié)合的方式對(duì)音樂(lè)進(jìn)行多模態(tài)標(biāo)注。Yang[68]在音頻模態(tài)下使用CNN模型完成流派與樂(lè)器類別的標(biāo)注并提出不同的卷積方式,其中卷積方式K4是將局部橫向卷積核滑動(dòng),其覆蓋區(qū)域包含一個(gè)頻率和多個(gè)時(shí)間幀,實(shí)驗(yàn)證明K4卷積方式的性能最佳。在歌詞文本處理方面使用了ALBERT 得到歌詞向量表示,再通過(guò)注意力機(jī)制和TextCNN 獲得全局信息,通過(guò)標(biāo)簽詞典獲得局部特征,進(jìn)而對(duì)情感進(jìn)行標(biāo)簽標(biāo)注。該方法在文本與音頻模態(tài)均進(jìn)行了標(biāo)注,但并沒(méi)有將兩種模態(tài)做到真正的融合。Han[69]在音頻模態(tài)中將CNN 與LSTM 相結(jié)合形成混合網(wǎng)絡(luò)結(jié)構(gòu),在文本方面使用CBOW(continuous bag of words)模型對(duì)語(yǔ)料庫(kù)進(jìn)行無(wú)監(jiān)督訓(xùn)練,構(gòu)建詞嵌入字典,查找對(duì)應(yīng)詞向量,并按照歌詞內(nèi)容對(duì)詞向量進(jìn)行順序拼接作為神經(jīng)網(wǎng)絡(luò)的輸入,最后為防止兩種模態(tài)在融合時(shí)出現(xiàn)冗余相差較大等問(wèn)題,對(duì)輸入音頻特征加入規(guī)范化操作。結(jié)果表明,多模態(tài)音樂(lè)自動(dòng)標(biāo)注的性能值達(dá)到0.815 6,比音頻模態(tài)的性能提升了0.022,比文本模態(tài)提升了0.102 8。Wang 等人[70]在音頻模態(tài)下使用CRNN 模型,文本模態(tài)使用卷積循環(huán)注意分層注意循環(huán)神經(jīng)網(wǎng)絡(luò)(convolutional recurrent attention hierarchical attention recurrent neural network,CRAHARNN),利用早期融合與晚期融合兩種方法將歌詞特征與音頻提取特征相融合。早期融合是將不同的數(shù)據(jù)特征組合輸入到同一個(gè)模型,晚期融合是用不同來(lái)源的數(shù)據(jù)訓(xùn)練各自的預(yù)測(cè)模型,再利用融合函數(shù)對(duì)預(yù)測(cè)值進(jìn)行融合,最后采取多任務(wù)學(xué)習(xí)方法來(lái)學(xué)習(xí)標(biāo)簽之間的相關(guān)性。實(shí)驗(yàn)證明,該方法比僅使用音頻數(shù)據(jù)的單任務(wù)學(xué)習(xí)性能更好,且早期融合方法性能略優(yōu)于晚期融合。

    以上方法表明,音頻與文本模態(tài)相結(jié)合的多模態(tài)是通過(guò)文本模態(tài)對(duì)標(biāo)簽進(jìn)行處理或者對(duì)情感語(yǔ)義詞進(jìn)行挖掘,音頻模態(tài)主要對(duì)音樂(lè)標(biāo)注流派、樂(lè)器等類別標(biāo)簽,且需通過(guò)整段音頻進(jìn)行標(biāo)注確認(rèn)。多模態(tài)獲取到的特征比單模態(tài)更全面,但當(dāng)兩種模態(tài)相結(jié)合時(shí),音頻信息的冗余度、數(shù)據(jù)量與淺層特征向量維度比文本信息大,學(xué)習(xí)模型會(huì)著重學(xué)習(xí)音頻特征導(dǎo)致文本信息丟失,進(jìn)而使模型成本較大,仍有很大的提升空間。而在電影或音頻視頻中可以通過(guò)視覺(jué)場(chǎng)景來(lái)描繪潛在的音樂(lè)情感,因此Avramidis等人[71]將音頻與圖像模態(tài)結(jié)合,提出VCMR(video-conditioned music representations)模型,使用自我監(jiān)督的多模態(tài)框架在音樂(lè)音頻上進(jìn)行訓(xùn)練,并以官方視頻發(fā)布中的伴隨視覺(jué)背景為條件,利用音樂(lè)視頻的上下文信息來(lái)增強(qiáng)音頻音樂(lè)表征。表9 總結(jié)了多模態(tài)下不同方法對(duì)比,表10給出了多模態(tài)中不同方法性能對(duì)比。

    表10 多模態(tài)下不同方法性能對(duì)比Table 10 Performance comparison of different methods under multimodal

    深度學(xué)習(xí)下的音樂(lè)自動(dòng)標(biāo)注方法與之前的模型相比,具有非線性的特點(diǎn),且基于深度學(xué)習(xí)模型提取到的音頻特征泛化能力很強(qiáng),目前大多數(shù)研究均基于深度學(xué)習(xí)模型展開(kāi)。然而,深度學(xué)習(xí)模型也存在局限性:(1)模型對(duì)硬件設(shè)施的依賴性較大,硬件成本較高。(2)無(wú)法跳出傳統(tǒng)的深度神經(jīng)網(wǎng)絡(luò)模型,很難設(shè)計(jì)性能高、泛化能力高的模型框架。(3)對(duì)模型結(jié)構(gòu)的調(diào)參以及如何使模型收斂缺乏理論指導(dǎo)依據(jù)?;诖?,大部分研究集中于對(duì)模型結(jié)構(gòu)的改進(jìn)。

    根據(jù)上述音樂(lè)自動(dòng)標(biāo)注性能可以看出,最好的系統(tǒng)AUC 值為0.92 左右,且每一次的上升幅度并不明顯,對(duì)比音樂(lè)流派分類的分類準(zhǔn)確率目前已高達(dá)0.967[72],其主觀原因有:(1)評(píng)價(jià)指標(biāo)不同。準(zhǔn)確率是音樂(lè)流派分類的主要評(píng)價(jià)指標(biāo),而AUC 值是目前音樂(lè)自動(dòng)標(biāo)注的主要評(píng)價(jià)指標(biāo)。不同評(píng)價(jià)指標(biāo)對(duì)模型的評(píng)判標(biāo)準(zhǔn)不一樣,且準(zhǔn)確率雖可作為音樂(lè)自動(dòng)標(biāo)注的評(píng)價(jià)標(biāo)準(zhǔn),但音樂(lè)自動(dòng)標(biāo)注的數(shù)據(jù)集樣本存在不平衡問(wèn)題,當(dāng)某一類樣本數(shù)量明顯過(guò)大時(shí),其類別會(huì)成為影響準(zhǔn)確率的最主要因素。(2)數(shù)據(jù)集不同。大多數(shù)音樂(lè)流派分類使用GTZAN 數(shù)據(jù)集[73],而音樂(lè)自動(dòng)標(biāo)注大多在MTAT數(shù)據(jù)集下進(jìn)行。GTZAN數(shù)據(jù)集標(biāo)簽均衡且僅有10 個(gè)流派類別標(biāo)簽,每類流派標(biāo)簽均有100首音樂(lè)作品,MTAT數(shù)據(jù)集有上萬(wàn)條音頻數(shù)據(jù)且標(biāo)簽分配不均勻,因此當(dāng)數(shù)據(jù)量不同時(shí),計(jì)算量與效率也不同。

    其宏觀原因可能有:(1)起步晚。音樂(lè)自動(dòng)標(biāo)注的第一次出現(xiàn)是2007 年,而流派分類早在2002 年就已出現(xiàn),音樂(lè)自動(dòng)標(biāo)注的前期研究較少。(2)類別多。音樂(lè)自動(dòng)標(biāo)注是多標(biāo)簽分類任務(wù),會(huì)出現(xiàn)計(jì)算量大、類別標(biāo)簽互相依賴等問(wèn)題,導(dǎo)致系統(tǒng)性能提升不夠明顯。(3)針對(duì)性弱。由于音樂(lè)自動(dòng)標(biāo)注需要為多種類別進(jìn)行分類,會(huì)出現(xiàn)效率低、輸出空間爆炸增長(zhǎng)等問(wèn)題,因此當(dāng)完成自動(dòng)標(biāo)注任務(wù)時(shí),不會(huì)僅針對(duì)性能方面進(jìn)行改進(jìn),需更全面地考慮可能發(fā)生的情況。雖然音樂(lè)自動(dòng)標(biāo)注系統(tǒng)性能提升效果不夠明顯,但發(fā)展前景與實(shí)際應(yīng)用價(jià)值高,并且逐步提升的系統(tǒng)性能也為此帶來(lái)了很大動(dòng)力。

    5 音樂(lè)自動(dòng)標(biāo)注常用公開(kāi)數(shù)據(jù)集與評(píng)價(jià)指標(biāo)

    5.1 音樂(lè)自動(dòng)標(biāo)注常用公開(kāi)數(shù)據(jù)集

    音樂(lè)自動(dòng)標(biāo)注數(shù)據(jù)集包含大量音頻片段與多種類別標(biāo)簽,是進(jìn)行音樂(lè)自動(dòng)標(biāo)注的數(shù)據(jù)基礎(chǔ)。

    (1)MTAT數(shù)據(jù)集

    MTAT 數(shù)據(jù)集是音樂(lè)自動(dòng)標(biāo)注領(lǐng)域最常使用的公開(kāi)數(shù)據(jù)集[74]。該數(shù)據(jù)集共有25 863條音頻數(shù)據(jù),每條數(shù)據(jù)大約29.1 s,均以MP3 格式發(fā)布,比特率為32 Kbit/s,采樣率為16 kHz,音樂(lè)標(biāo)簽共188個(gè),其中包括流派、情感、樂(lè)器、年代等標(biāo)簽。數(shù)據(jù)集被分為16 個(gè)文件夾,前12 個(gè)文件夾為訓(xùn)練集,第13 個(gè)文件夾為驗(yàn)證集,剩余3 個(gè)文件夾為測(cè)試集[75]。它通過(guò)Tag A Tune闖關(guān)游戲向玩家收集音樂(lè)標(biāo)簽,只有兩名玩家同時(shí)給出相同的音樂(lè)標(biāo)簽,游戲才能通關(guān)。游戲設(shè)計(jì)者通過(guò)該游戲收集到大量音樂(lè)標(biāo)簽并整理成MTAT數(shù)據(jù)集,該方法收集到的標(biāo)簽也提高了標(biāo)注準(zhǔn)確性。

    (2)MSD數(shù)據(jù)集

    MSD 數(shù)據(jù)集是目前世界上最大的音樂(lè)數(shù)據(jù)集,也是目前音樂(lè)自動(dòng)標(biāo)注常用數(shù)據(jù)集之一[76]。該數(shù)據(jù)集是世界各個(gè)音樂(lè)社區(qū)音樂(lè)數(shù)據(jù)集的集合體,包括SecondHandSongs 數(shù)據(jù)集、musiXmatch 數(shù)據(jù)集、Last.fm 數(shù)據(jù)集、tagtraum 流派標(biāo)注數(shù)據(jù)集等,它提供了免費(fèi)的音頻和元數(shù)據(jù)。該數(shù)據(jù)集共有100萬(wàn)條數(shù)據(jù),共占用了280 GB 的存儲(chǔ)空間,其中每條數(shù)據(jù)約1 MB,均以MP3 格式發(fā)布,比特率約64~128 Kbit/s,采樣率約22 kHz或44 kHz。音樂(lè)標(biāo)簽包括流派、年代、藝術(shù)家、專輯封面、歌曲名稱、歌詞、用戶聽(tīng)歌歷史等標(biāo)簽。

    (3)CAL500數(shù)據(jù)集

    CAL500數(shù)據(jù)集由Turnbull等人于2008年創(chuàng)建[77]。由于其他數(shù)據(jù)集是聽(tīng)眾用戶標(biāo)注,用戶的音樂(lè)專業(yè)性不強(qiáng),出現(xiàn)了標(biāo)注錯(cuò)誤、很少情況考慮為音樂(lè)標(biāo)注負(fù)相關(guān)標(biāo)簽等問(wèn)題,這些問(wèn)題使數(shù)據(jù)集產(chǎn)生“弱標(biāo)注”,導(dǎo)致數(shù)據(jù)集中標(biāo)簽-音頻矩陣的0值代表“未知”而非“不適用”,而學(xué)習(xí)模型會(huì)將“未知”標(biāo)簽認(rèn)為是“不適用”的負(fù)相關(guān)標(biāo)簽從而產(chǎn)生噪音。而CAL500數(shù)據(jù)集收錄了由500 名西方藝術(shù)家創(chuàng)作的500 首西方流行音樂(lè),是“強(qiáng)標(biāo)注”數(shù)據(jù)集。該數(shù)據(jù)集共有1 700 條音頻數(shù)據(jù),包含174 個(gè)音樂(lè)標(biāo)簽,分別為流派、情感、樂(lè)器、場(chǎng)景用途、人聲特點(diǎn)等標(biāo)簽,且對(duì)音樂(lè)正相關(guān)與負(fù)相關(guān)的屬性標(biāo)簽均有描述。CAL500數(shù)據(jù)集提供了兩種標(biāo)注規(guī)則:

    ①二元標(biāo)注。根據(jù)基本事實(shí)標(biāo)注標(biāo)簽,若標(biāo)簽已標(biāo)注該音樂(lè),則標(biāo)簽標(biāo)注值為1,反之,值為0。

    ②軟標(biāo)注。每個(gè)音樂(lè)片段均有3 人以上依照標(biāo)注規(guī)則標(biāo)注。首先,標(biāo)注人員認(rèn)為某標(biāo)簽符合音樂(lè)片段(正相關(guān))則將標(biāo)注值附為1,反之(負(fù)相關(guān)),值為-1,若不確定,值為0。其次,將所有的標(biāo)注值取平均,得到音樂(lè)對(duì)應(yīng)標(biāo)簽的最終權(quán)重,若權(quán)值為負(fù),則取值0。

    (4)MTG數(shù)據(jù)集

    MTG 數(shù)據(jù)集是最新用于音樂(lè)自動(dòng)標(biāo)注的數(shù)據(jù)集[78],由Jamendo平臺(tái)在2019年構(gòu)建。該數(shù)據(jù)集包含55 701條數(shù)據(jù),每個(gè)片段數(shù)據(jù)最少在30 s以上且均以比特率為320 Kbit/s的MP3格式發(fā)布,較大的比特率使編碼質(zhì)量更高,音質(zhì)更好。音樂(lè)標(biāo)簽共195 個(gè),包含流派、情感、樂(lè)器等,所有標(biāo)簽均由被收錄音樂(lè)的藝術(shù)家所提供,提高了標(biāo)簽準(zhǔn)確性與專業(yè)性。由于數(shù)據(jù)集是最新發(fā)布,僅有少數(shù)研究人員使用該數(shù)據(jù)集驗(yàn)證模型性能。

    由于多標(biāo)簽音樂(lè)自動(dòng)標(biāo)注的輸出集合標(biāo)簽高達(dá)2k個(gè),如此龐大的數(shù)據(jù)量使計(jì)算成本急劇加大,需限制標(biāo)簽數(shù)量來(lái)緩解該問(wèn)題。因此,在音樂(lè)自動(dòng)標(biāo)注數(shù)據(jù)集中通常使用“前N個(gè)用戶最常使用”的前K個(gè)標(biāo)簽作為標(biāo)注依據(jù)[79]。表11歸納了常用公開(kāi)音樂(lè)自動(dòng)標(biāo)注數(shù)據(jù)集。

    表11 公開(kāi)音樂(lè)自動(dòng)標(biāo)注數(shù)據(jù)集總結(jié)Table 11 Summary of open music automatic annotation datasets

    5.2 音樂(lè)自動(dòng)標(biāo)注評(píng)價(jià)指標(biāo)

    音樂(lè)自動(dòng)標(biāo)注評(píng)價(jià)指標(biāo)是預(yù)測(cè)模型優(yōu)劣最直觀的表達(dá),目前有兩種類型評(píng)價(jià)指標(biāo)。

    (1)二元評(píng)價(jià)

    二元評(píng)價(jià)是將每個(gè)標(biāo)簽均看作一個(gè)二分類問(wèn)題,即判斷標(biāo)簽是正確或錯(cuò)誤,從而預(yù)測(cè)正確的概率。二元評(píng)價(jià)通常采用準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1-measure 值作為模型的評(píng)價(jià)指標(biāo)。

    準(zhǔn)確率定義如式(30)所示:

    其中,TP(true positive)表示音頻樣本屬于正例且預(yù)測(cè)為正例,TN(true negative)表示音頻樣本屬于負(fù)例且預(yù)測(cè)為負(fù)例,F(xiàn)P(false positive)表示音頻樣本屬于負(fù)例但預(yù)測(cè)為正例,F(xiàn)N(false negative)表示音頻樣本屬于正例但預(yù)測(cè)為負(fù)例,TP+TN+FP+FN為音頻樣本總數(shù)。準(zhǔn)確率是衡量測(cè)試集所有音頻預(yù)測(cè)為正例的比例。雖然準(zhǔn)確率可以判斷總體的正確率,但在樣本不平衡的情況下,不能作為準(zhǔn)確的衡量標(biāo)準(zhǔn)。

    精確率定義如式(31)所示:

    精確率是衡量學(xué)習(xí)模型預(yù)測(cè)為正例的音頻中真正正例的比例。精確率可使預(yù)測(cè)結(jié)果準(zhǔn)確性進(jìn)一步提升。

    召回率定義如式(32)所示:

    召回率是衡量真正正例中被學(xué)習(xí)模型預(yù)測(cè)為正例的比例。

    F1值定義如式(33)所示:

    其中,P為精確率,R為召回率。F1 值與精確率和召回率密切相關(guān),二者值越高,F(xiàn)1 值越高,但從上述公式可知,兩者是相互制約的關(guān)系。因此,F(xiàn)1 值是精確率與召回率的調(diào)和均值,且F1值越高,模型越有效。

    二元評(píng)價(jià)是判斷預(yù)測(cè)音頻樣本正例的概率,根據(jù)需求為學(xué)習(xí)模型設(shè)置閥值,若概率大于閥值則為正例,反之為負(fù)例。然而,當(dāng)閥值較小時(shí),預(yù)測(cè)為正例的概率則會(huì)增大,使數(shù)據(jù)產(chǎn)生不平衡性,僅用二元評(píng)價(jià)指標(biāo)不能準(zhǔn)確地評(píng)估音樂(lè)自動(dòng)標(biāo)注任務(wù)的性能。

    (2)多元評(píng)價(jià)

    為了排除閥值對(duì)標(biāo)注預(yù)測(cè)的影響,通常將多元評(píng)價(jià)作為音樂(lè)自動(dòng)標(biāo)注模型性能的評(píng)價(jià)指標(biāo)[80]。

    ROC 曲線又稱接受者操作特征曲線,既可體現(xiàn)閥值不同時(shí)的分類效果,也可衡量模型類別分布的性能。它是以假正率(false positive ratio,F(xiàn)PR)為橫軸、真正率(true positive ratio,TPR)為豎軸構(gòu)成的坐標(biāo)系,將得到的(FPR,TPR)坐標(biāo)點(diǎn)連接起來(lái)形成ROC 曲線。ROC-AUC 是ROC 曲線的下方面積,僅觀察不同ROC 曲線的凸起程度很難判定模型性能,需使用ROC-AUC值來(lái)量化ROC曲線,ROC-AUC的值越大,音樂(lè)自動(dòng)標(biāo)注性能越好。當(dāng)正負(fù)樣本分布變化時(shí),ROC曲線有很強(qiáng)的魯棒性,可避免樣本不平衡問(wèn)題,但正因?yàn)椴粫?huì)由樣本的改變而影響判定,導(dǎo)致數(shù)據(jù)偏差較大,所以引入PR-AUC 作為ROC-AUC的輔助評(píng)價(jià)。

    假正率定義如式(34)所示:

    假正率是音頻樣本屬于負(fù)例但預(yù)測(cè)為正例與負(fù)例實(shí)際數(shù)量的比例。

    真正率定義如式(35)所示:

    真正率是音頻樣本屬于正例且預(yù)測(cè)為正例與正例實(shí)際數(shù)量的比例。

    PR-AUC 則是P-R 曲線的下方面積。PR 曲線是以召回率為橫軸,精確率為縱軸的坐標(biāo)點(diǎn)的連接線。曲線越接近右上角,模型性能越好。PR 曲線對(duì)正樣本較敏感,當(dāng)數(shù)據(jù)樣本不平衡且主要關(guān)心正例時(shí),PR-AUC的性能準(zhǔn)確值優(yōu)于ROC-AUC,然而當(dāng)評(píng)價(jià)指標(biāo)沒(méi)有明確細(xì)分的情況下,通常將AUC 看作ROC-AUC。

    MAP(mean average percision)是均值平均精度,是所有音頻中所有類別的AP 的平均值。AP 為平均精度,是所有音頻中具體某類的PR曲線下的面積。

    對(duì)于音樂(lè)自動(dòng)標(biāo)注任務(wù)來(lái)說(shuō),單個(gè)音樂(lè)標(biāo)簽標(biāo)注所有音頻片段的概率很低,這會(huì)使負(fù)樣本數(shù)量大于正樣本數(shù)量,當(dāng)樣本預(yù)測(cè)錯(cuò)誤時(shí)會(huì)更敏感地影響模型性能。而AUC有較強(qiáng)的魯棒性且可用一維數(shù)字直觀明了地表示模型性能,因此,ROC-AUC 與PRAUC是音樂(lè)自動(dòng)標(biāo)注的常用評(píng)價(jià)指標(biāo)。

    6 挑戰(zhàn)與展望

    通過(guò)上述對(duì)音樂(lè)自動(dòng)標(biāo)注的深入分析可知,音樂(lè)自動(dòng)標(biāo)注是豐富語(yǔ)義標(biāo)簽的有效解決方案之一,也是MIR 領(lǐng)域內(nèi)的研究熱點(diǎn)與實(shí)用技術(shù),但目前還處在前瞻性階段且面臨一些挑戰(zhàn):

    (1)音樂(lè)標(biāo)簽利用率低。根據(jù)歷年實(shí)驗(yàn)發(fā)現(xiàn),所使用的標(biāo)簽往往只有數(shù)據(jù)集的前50 個(gè)常用標(biāo)簽,而超過(guò)80%的標(biāo)簽與不到5%的音樂(lè)相關(guān)聯(lián),導(dǎo)致標(biāo)簽出現(xiàn)長(zhǎng)尾分布形狀。如何使數(shù)據(jù)集中的所有標(biāo)簽都能被音樂(lè)相關(guān)聯(lián),提高標(biāo)簽利用率值得進(jìn)一步研究。在之前方法中,研究人員通過(guò)有監(jiān)督的標(biāo)簽傳播方法提高標(biāo)簽利用率,為此,可使用半監(jiān)督與無(wú)監(jiān)督方法對(duì)標(biāo)簽進(jìn)行傳播,并利用每個(gè)標(biāo)簽之間的相似度獲得上下文信息使標(biāo)簽進(jìn)一步關(guān)聯(lián),最后調(diào)試模型的學(xué)習(xí)率、動(dòng)量或批量大小確定影響因素。

    (2)對(duì)文本標(biāo)簽操作實(shí)施太少。通過(guò)梳理目前音樂(lè)自動(dòng)標(biāo)注研究進(jìn)展可知,研究人員主要對(duì)音頻特征進(jìn)行改進(jìn),對(duì)數(shù)據(jù)集文本標(biāo)簽改進(jìn)甚少,如何處理文本標(biāo)簽使其對(duì)模型性能進(jìn)一步優(yōu)化還有待研究。Chen 等人[66-67]則對(duì)標(biāo)簽進(jìn)行改進(jìn),利用LDA 模型將音樂(lè)標(biāo)簽聚類來(lái)獲取主題類別,運(yùn)用生成對(duì)抗網(wǎng)絡(luò)中的衍生模型infoGAN 進(jìn)行訓(xùn)練,以此找到音頻特征和標(biāo)簽之間的映射關(guān)系,從而實(shí)現(xiàn)對(duì)歌曲標(biāo)簽的標(biāo)注。未來(lái),可以使用標(biāo)簽推理等方法進(jìn)一步使標(biāo)簽學(xué)習(xí)相關(guān)信息,更好地提高標(biāo)注準(zhǔn)確性。

    (3)模態(tài)提取特征單一。通過(guò)分析看出目前大多數(shù)研究人員在單一模態(tài)下提取特征信息,雖然這些方法在該模態(tài)下標(biāo)注效果較好,但應(yīng)用范圍有所限制。僅有少數(shù)研究人員使用多模態(tài)音樂(lè)自動(dòng)標(biāo)注,雖可提取到更加全面的特征,但標(biāo)注性能不盡如人意,進(jìn)行特征融合時(shí)也出現(xiàn)冗余度大等問(wèn)題。在未來(lái)研究中,可同時(shí)增加文本、圖像與視頻模態(tài)信息,例如音樂(lè)發(fā)布時(shí)間、作者所處地理位置或音樂(lè)MV 等信息,挖掘更深層次的語(yǔ)義信息,并且可以在不同維度上進(jìn)行多特征融合,如何在多模態(tài)下既能全面提取特征,又能更好地融合各個(gè)模態(tài)特征,提高標(biāo)注性能值得深入探索。

    (4)數(shù)據(jù)集單體化。目前大多數(shù)數(shù)據(jù)集都基于單一類別或單一模態(tài)進(jìn)行創(chuàng)建,通用的數(shù)據(jù)集已經(jīng)不能對(duì)不同國(guó)家地區(qū)的文化和語(yǔ)言進(jìn)行正確標(biāo)注。例如,蒙古族音樂(lè)在曲風(fēng)、演唱方式等方面都具有較強(qiáng)的民族性與地域性,與主流音樂(lè)有很大區(qū)別。Song[81]對(duì)蒙古族音樂(lè)創(chuàng)建數(shù)據(jù)集,在標(biāo)注的過(guò)程中請(qǐng)專業(yè)蒙古族音樂(lè)人對(duì)音樂(lè)進(jìn)行半結(jié)構(gòu)化標(biāo)注,提高了標(biāo)注準(zhǔn)確率?;诓煌貐^(qū)的差異與文化,構(gòu)建多元化數(shù)據(jù)集還需要進(jìn)一步研究。

    7 結(jié)束語(yǔ)

    通過(guò)音樂(lè)自動(dòng)標(biāo)注,音樂(lè)數(shù)據(jù)信息可與多種類別語(yǔ)義標(biāo)簽相對(duì)應(yīng),它在MIR 領(lǐng)域中的作用至關(guān)重要。即使針對(duì)音樂(lè)自動(dòng)標(biāo)注的研究仍處于探索階段,但它為后續(xù)任務(wù)奠定了基礎(chǔ),具有重要的發(fā)展?jié)摿?,有很大的發(fā)展空間。論文對(duì)目前音樂(lè)自動(dòng)標(biāo)注領(lǐng)域的研究進(jìn)展進(jìn)行了系統(tǒng)梳理。首先,介紹了音樂(lè)自動(dòng)標(biāo)注的相關(guān)知識(shí);其次,對(duì)該領(lǐng)域的音頻特征類型及提取方法進(jìn)行深入探討,并進(jìn)一步分析機(jī)器學(xué)習(xí)與深度學(xué)習(xí)不同模型方法的音樂(lè)自動(dòng)標(biāo)注分類特點(diǎn);然后整理了該領(lǐng)域常用的數(shù)據(jù)集及評(píng)價(jià)指標(biāo)并總結(jié)其特點(diǎn);最后指出音樂(lè)自動(dòng)標(biāo)注所面臨的挑戰(zhàn)以及對(duì)未來(lái)的展望。在數(shù)字音樂(lè)快速發(fā)展的時(shí)代,音樂(lè)自動(dòng)標(biāo)注具有廣闊的發(fā)展前景與應(yīng)用價(jià)值,未來(lái)會(huì)取得一定的成功。

    猜你喜歡
    特征音樂(lè)方法
    如何表達(dá)“特征”
    不忠誠(chéng)的四個(gè)特征
    圣誕音樂(lè)路
    兒童繪本(2017年24期)2018-01-07 15:51:37
    抓住特征巧觀察
    可能是方法不對(duì)
    音樂(lè)
    用對(duì)方法才能瘦
    Coco薇(2016年2期)2016-03-22 02:42:52
    四大方法 教你不再“坐以待病”!
    Coco薇(2015年1期)2015-08-13 02:47:34
    捕魚(yú)
    線性代數(shù)的應(yīng)用特征
    河南科技(2014年23期)2014-02-27 14:19:15
    热99re8久久精品国产| 嫩草影院新地址| 全区人妻精品视频| 成人av在线播放网站| 欧美成人一区二区免费高清观看| 88av欧美| 黄色一级大片看看| 欧美日韩亚洲国产一区二区在线观看| 久久6这里有精品| 亚洲激情在线av| 一进一出抽搐gif免费好疼| 日韩大尺度精品在线看网址| 精品熟女少妇八av免费久了| 欧美日韩乱码在线| 美女免费视频网站| 精品一区二区三区视频在线观看免费| 在线国产一区二区在线| 99热这里只有精品一区| 久久精品国产99精品国产亚洲性色| 一本久久中文字幕| 欧美日韩中文字幕国产精品一区二区三区| 国产三级在线视频| 全区人妻精品视频| 欧美高清成人免费视频www| 亚洲美女搞黄在线观看 | 欧美一级a爱片免费观看看| 成年女人毛片免费观看观看9| 国产单亲对白刺激| 国产av一区在线观看免费| 亚洲不卡免费看| 久久久久九九精品影院| 国产一区二区在线av高清观看| 亚洲精品日韩av片在线观看| 亚洲精品在线观看二区| 黄色一级大片看看| 精品日产1卡2卡| 男人的好看免费观看在线视频| 色综合站精品国产| 日本精品一区二区三区蜜桃| 丁香欧美五月| 一区二区三区高清视频在线| 网址你懂的国产日韩在线| 91在线观看av| 亚洲第一电影网av| 三级毛片av免费| 嫁个100分男人电影在线观看| 免费高清视频大片| 美女大奶头视频| 亚洲成人久久性| 欧美最新免费一区二区三区 | 日本成人三级电影网站| 亚洲中文日韩欧美视频| 国产精品一区二区免费欧美| 亚洲一区高清亚洲精品| 精品久久久久久久末码| 中文字幕熟女人妻在线| 日韩欧美精品免费久久 | 日韩中文字幕欧美一区二区| 国产一级毛片七仙女欲春2| 国产免费男女视频| 色视频www国产| 最近最新免费中文字幕在线| 一个人免费在线观看的高清视频| 久久人人爽人人爽人人片va | 我要看日韩黄色一级片| 五月玫瑰六月丁香| 少妇人妻一区二区三区视频| 1000部很黄的大片| 中文亚洲av片在线观看爽| 成人欧美大片| 亚洲久久久久久中文字幕| 午夜激情福利司机影院| 99在线视频只有这里精品首页| av视频在线观看入口| 哪里可以看免费的av片| 亚洲片人在线观看| 亚洲真实伦在线观看| 欧美又色又爽又黄视频| 动漫黄色视频在线观看| 亚洲经典国产精华液单 | 亚洲av电影在线进入| 97超视频在线观看视频| 男女做爰动态图高潮gif福利片| 99久久久亚洲精品蜜臀av| 精品福利观看| 亚洲成av人片在线播放无| 亚洲三级黄色毛片| 韩国av一区二区三区四区| 老师上课跳d突然被开到最大视频 久久午夜综合久久蜜桃 | 两人在一起打扑克的视频| 一本一本综合久久| 亚洲五月天丁香| 成人午夜高清在线视频| 在线观看美女被高潮喷水网站 | 日韩高清综合在线| 精品免费久久久久久久清纯| 69人妻影院| 久久久久久大精品| 国产精品免费一区二区三区在线| 亚洲精品日韩av片在线观看| 中文字幕av成人在线电影| 我的老师免费观看完整版| 人妻制服诱惑在线中文字幕| 波多野结衣巨乳人妻| 久久久久久久亚洲中文字幕 | 丁香欧美五月| 亚洲片人在线观看| 亚洲成人中文字幕在线播放| 精品国产三级普通话版| 国产真实伦视频高清在线观看 | 身体一侧抽搐| 身体一侧抽搐| 国产高潮美女av| 成人毛片a级毛片在线播放| 国产三级在线视频| 无遮挡黄片免费观看| 午夜影院日韩av| 2021天堂中文幕一二区在线观| 国产午夜精品久久久久久一区二区三区 | 网址你懂的国产日韩在线| 国产欧美日韩精品一区二区| 人妻丰满熟妇av一区二区三区| 又爽又黄a免费视频| 亚洲精品乱码久久久v下载方式| 国产成人欧美在线观看| 国产精品美女特级片免费视频播放器| 成年人黄色毛片网站| 成年人黄色毛片网站| 亚洲人成电影免费在线| 国产精华一区二区三区| 亚洲精品久久国产高清桃花| 久久天躁狠狠躁夜夜2o2o| 男女视频在线观看网站免费| 老鸭窝网址在线观看| 午夜老司机福利剧场| 成人无遮挡网站| 欧美成人性av电影在线观看| 一个人免费在线观看电影| 一级毛片久久久久久久久女| 免费观看人在逋| 欧美激情在线99| 老鸭窝网址在线观看| 18美女黄网站色大片免费观看| 男女视频在线观看网站免费| 给我免费播放毛片高清在线观看| 欧美色视频一区免费| 日韩有码中文字幕| bbb黄色大片| 99热这里只有是精品在线观看 | 波多野结衣高清无吗| 波多野结衣高清无吗| 又粗又爽又猛毛片免费看| 身体一侧抽搐| 日本黄色视频三级网站网址| 悠悠久久av| 日韩欧美精品v在线| 99国产极品粉嫩在线观看| 欧美又色又爽又黄视频| 最好的美女福利视频网| av天堂在线播放| 18禁黄网站禁片免费观看直播| 欧美午夜高清在线| 欧美午夜高清在线| 亚洲,欧美精品.| 变态另类丝袜制服| 亚洲狠狠婷婷综合久久图片| 一级毛片久久久久久久久女| 99国产精品一区二区蜜桃av| 91久久精品国产一区二区成人| 亚洲aⅴ乱码一区二区在线播放| 狠狠狠狠99中文字幕| 在线观看午夜福利视频| 国产亚洲av嫩草精品影院| 国产成人影院久久av| 欧美xxxx黑人xx丫x性爽| 最后的刺客免费高清国语| 午夜福利视频1000在线观看| 成人无遮挡网站| 国产成人影院久久av| 午夜免费激情av| 亚洲欧美清纯卡通| 精品无人区乱码1区二区| 热99re8久久精品国产| 亚洲成人久久爱视频| 免费在线观看亚洲国产| 女人被狂操c到高潮| 亚洲天堂国产精品一区在线| 99热这里只有是精品50| 午夜视频国产福利| 国产精品99久久久久久久久| 人妻制服诱惑在线中文字幕| 99久久久亚洲精品蜜臀av| 又粗又爽又猛毛片免费看| 亚洲成人精品中文字幕电影| 精品久久久久久久久亚洲 | 午夜影院日韩av| 色噜噜av男人的天堂激情| 搡女人真爽免费视频火全软件 | 午夜精品在线福利| 三级毛片av免费| 在线观看舔阴道视频| 丁香欧美五月| 亚洲熟妇中文字幕五十中出| 最近中文字幕高清免费大全6 | 亚洲18禁久久av| 国产一区二区三区在线臀色熟女| 午夜福利在线观看吧| 男人狂女人下面高潮的视频| 淫妇啪啪啪对白视频| 亚洲国产日韩欧美精品在线观看| 大型黄色视频在线免费观看| 宅男免费午夜| 国模一区二区三区四区视频| 国产成人aa在线观看| 欧美国产日韩亚洲一区| 日韩欧美在线乱码| 亚洲中文字幕日韩| 一级a爱片免费观看的视频| 哪里可以看免费的av片| 97热精品久久久久久| 制服丝袜大香蕉在线| 简卡轻食公司| 免费观看精品视频网站| 国产高清视频在线播放一区| 亚洲欧美日韩无卡精品| 亚洲片人在线观看| 国产一区二区三区在线臀色熟女| 亚洲五月天丁香| 国产单亲对白刺激| 亚洲人成网站高清观看| 亚洲国产精品合色在线| 一区二区三区高清视频在线| 亚洲自拍偷在线| 亚洲精品粉嫩美女一区| 亚洲精华国产精华精| 精品人妻熟女av久视频| 欧美日韩亚洲国产一区二区在线观看| 少妇的逼水好多| 日本成人三级电影网站| 国产三级在线视频| 丰满的人妻完整版| 99国产综合亚洲精品| 成人无遮挡网站| 午夜激情福利司机影院| 亚洲天堂国产精品一区在线| 日韩国内少妇激情av| 国产高潮美女av| 亚洲美女视频黄频| 国产精品精品国产色婷婷| 日韩欧美精品免费久久 | 日韩中文字幕欧美一区二区| 自拍偷自拍亚洲精品老妇| 国产成年人精品一区二区| 国产精品久久久久久人妻精品电影| 午夜激情福利司机影院| 国产av一区在线观看免费| 国产精品不卡视频一区二区 | 两个人视频免费观看高清| 久久久国产成人免费| 亚洲不卡免费看| 成人精品一区二区免费| 国语自产精品视频在线第100页| 成人国产一区最新在线观看| 亚洲综合色惰| 哪里可以看免费的av片| 成人无遮挡网站| 亚洲精品456在线播放app | 真实男女啪啪啪动态图| 免费看光身美女| 日韩欧美 国产精品| 88av欧美| 国产精品久久久久久人妻精品电影| 乱码一卡2卡4卡精品| 91在线观看av| 在线观看免费视频日本深夜| 午夜福利在线在线| 国产主播在线观看一区二区| 我的女老师完整版在线观看| or卡值多少钱| 51午夜福利影视在线观看| 麻豆国产av国片精品| 精品99又大又爽又粗少妇毛片 | 久久久久免费精品人妻一区二区| 成年版毛片免费区| 国产精品久久久久久亚洲av鲁大| 狠狠狠狠99中文字幕| 精品久久久久久久久久久久久| 两个人的视频大全免费| 国产欧美日韩精品亚洲av| 国产成人av教育| 亚洲,欧美,日韩| 国产精品,欧美在线| 很黄的视频免费| 一级黄色大片毛片| 亚洲精品粉嫩美女一区| 夜夜夜夜夜久久久久| 亚洲人成网站在线播放欧美日韩| 90打野战视频偷拍视频| 51国产日韩欧美| 色综合婷婷激情| 午夜福利18| 精品免费久久久久久久清纯| 蜜桃久久精品国产亚洲av| 午夜两性在线视频| 天堂动漫精品| 国产亚洲精品久久久com| 国产高清三级在线| 一区二区三区高清视频在线| 欧美性感艳星| 国内久久婷婷六月综合欲色啪| 国产视频一区二区在线看| 欧美bdsm另类| 少妇裸体淫交视频免费看高清| 嫩草影院精品99| 亚洲精华国产精华精| 极品教师在线视频| 成人美女网站在线观看视频| 久久国产精品人妻蜜桃| 在线国产一区二区在线| 色5月婷婷丁香| 日本免费一区二区三区高清不卡| 一进一出好大好爽视频| 精品免费久久久久久久清纯| 很黄的视频免费| 少妇的逼水好多| 一进一出抽搐gif免费好疼| 亚洲自偷自拍三级| 毛片女人毛片| 国产亚洲精品av在线| 香蕉av资源在线| 热99re8久久精品国产| 人妻制服诱惑在线中文字幕| 黄片小视频在线播放| 精品熟女少妇八av免费久了| 免费看光身美女| 88av欧美| 美女 人体艺术 gogo| h日本视频在线播放| 黄片小视频在线播放| 国产中年淑女户外野战色| 91狼人影院| ponron亚洲| 少妇丰满av| 色精品久久人妻99蜜桃| 久久久久久久亚洲中文字幕 | 一夜夜www| 别揉我奶头 嗯啊视频| 一区二区三区高清视频在线| 国产精品久久久久久人妻精品电影| 国产在线男女| 九九久久精品国产亚洲av麻豆| 18美女黄网站色大片免费观看| 看免费av毛片| 村上凉子中文字幕在线| 欧美乱妇无乱码| 国产精品不卡视频一区二区 | 性插视频无遮挡在线免费观看| 亚洲精品乱码久久久v下载方式| 熟女电影av网| 90打野战视频偷拍视频| 亚洲avbb在线观看| 日韩欧美 国产精品| 乱人视频在线观看| 如何舔出高潮| 三级男女做爰猛烈吃奶摸视频| 99久久精品热视频| 国产真实乱freesex| 黄色配什么色好看| 日韩欧美三级三区| 国产中年淑女户外野战色| 日本熟妇午夜| 久久婷婷人人爽人人干人人爱| 给我免费播放毛片高清在线观看| 丁香六月欧美| 亚洲美女黄片视频| 最近最新免费中文字幕在线| 天堂网av新在线| 99国产极品粉嫩在线观看| 丝袜美腿在线中文| 九色国产91popny在线| 97碰自拍视频| 性色av乱码一区二区三区2| 亚洲精品乱码久久久v下载方式| 国产三级中文精品| 国产一区二区在线观看日韩| 18美女黄网站色大片免费观看| 色综合欧美亚洲国产小说| 午夜日韩欧美国产| 亚洲精品一区av在线观看| 男女床上黄色一级片免费看| 国产69精品久久久久777片| 真人做人爱边吃奶动态| 1000部很黄的大片| 99在线人妻在线中文字幕| 亚洲精品久久国产高清桃花| 久久伊人香网站| 每晚都被弄得嗷嗷叫到高潮| 听说在线观看完整版免费高清| 亚洲avbb在线观看| ponron亚洲| 丝袜美腿在线中文| 免费在线观看日本一区| 亚洲真实伦在线观看| 18美女黄网站色大片免费观看| 国产欧美日韩精品一区二区| 18禁黄网站禁片免费观看直播| 一本久久中文字幕| 欧美日韩国产亚洲二区| 一进一出好大好爽视频| 国产精品美女特级片免费视频播放器| 成人高潮视频无遮挡免费网站| 五月玫瑰六月丁香| 久久草成人影院| 国产亚洲精品久久久久久毛片| 日日干狠狠操夜夜爽| 国产在线男女| 亚洲av美国av| 国产视频内射| 女同久久另类99精品国产91| 深爱激情五月婷婷| 99久久成人亚洲精品观看| 午夜福利18| 51国产日韩欧美| 身体一侧抽搐| 男女视频在线观看网站免费| 欧美乱色亚洲激情| 在线免费观看的www视频| xxxwww97欧美| 成人毛片a级毛片在线播放| 美女cb高潮喷水在线观看| 色综合婷婷激情| 国产精品一区二区三区四区久久| 丰满人妻熟妇乱又伦精品不卡| 日韩精品青青久久久久久| 亚洲欧美日韩卡通动漫| 99热精品在线国产| 亚洲成人中文字幕在线播放| 男人和女人高潮做爰伦理| 国产精品亚洲美女久久久| 国产蜜桃级精品一区二区三区| 国产成人影院久久av| 亚洲美女搞黄在线观看 | 亚洲五月天丁香| 精品久久久久久久人妻蜜臀av| 久久精品国产自在天天线| 别揉我奶头~嗯~啊~动态视频| 国产白丝娇喘喷水9色精品| 高清日韩中文字幕在线| 亚洲内射少妇av| 久久草成人影院| 欧美区成人在线视频| 舔av片在线| 国产成人a区在线观看| 国产私拍福利视频在线观看| 欧美极品一区二区三区四区| 久久国产乱子伦精品免费另类| 成人无遮挡网站| 国语自产精品视频在线第100页| 在线观看美女被高潮喷水网站 | 精品久久久久久久久久免费视频| 国产午夜精品久久久久久一区二区三区 | 麻豆成人午夜福利视频| 人妻制服诱惑在线中文字幕| 亚洲黑人精品在线| 91麻豆av在线| 亚洲成人精品中文字幕电影| 中文字幕精品亚洲无线码一区| 免费av不卡在线播放| 天美传媒精品一区二区| 少妇的逼水好多| 亚洲18禁久久av| 国产精品永久免费网站| 日韩成人在线观看一区二区三区| 久99久视频精品免费| 三级男女做爰猛烈吃奶摸视频| 亚洲性夜色夜夜综合| 啦啦啦韩国在线观看视频| 久久精品国产亚洲av香蕉五月| 欧美丝袜亚洲另类 | 白带黄色成豆腐渣| 成人特级av手机在线观看| 成人美女网站在线观看视频| 久久婷婷人人爽人人干人人爱| 最新在线观看一区二区三区| 久久热精品热| 禁无遮挡网站| 婷婷精品国产亚洲av| 91在线精品国自产拍蜜月| 国产午夜精品论理片| 国产黄a三级三级三级人| 欧美另类亚洲清纯唯美| 欧美一区二区精品小视频在线| 毛片一级片免费看久久久久 | 最新在线观看一区二区三区| 亚洲专区中文字幕在线| 日本一二三区视频观看| 成年版毛片免费区| 欧美日韩中文字幕国产精品一区二区三区| 老师上课跳d突然被开到最大视频 久久午夜综合久久蜜桃 | av国产免费在线观看| 亚洲人成电影免费在线| av福利片在线观看| 免费观看人在逋| 99热精品在线国产| av欧美777| 免费在线观看成人毛片| 夜夜看夜夜爽夜夜摸| 最近中文字幕高清免费大全6 | 欧美乱妇无乱码| 内射极品少妇av片p| 少妇的逼好多水| av在线老鸭窝| 久久亚洲精品不卡| 亚洲欧美精品综合久久99| 人人妻,人人澡人人爽秒播| 青草久久国产| 一个人看的www免费观看视频| 露出奶头的视频| 中文字幕久久专区| 精品国产三级普通话版| 亚洲人成伊人成综合网2020| 亚洲中文字幕日韩| 久久午夜福利片| 婷婷精品国产亚洲av| 国产高清有码在线观看视频| 赤兔流量卡办理| АⅤ资源中文在线天堂| 欧美黄色淫秽网站| 日韩免费av在线播放| 一本久久中文字幕| 一个人看的www免费观看视频| av在线天堂中文字幕| 91在线观看av| 亚洲狠狠婷婷综合久久图片| 亚洲中文日韩欧美视频| 亚洲av电影在线进入| 色综合婷婷激情| 国产一区二区三区在线臀色熟女| 少妇的逼水好多| 亚洲av日韩精品久久久久久密| 国产探花在线观看一区二区| 久久精品影院6| 欧美高清性xxxxhd video| av国产免费在线观看| 亚洲avbb在线观看| avwww免费| 中出人妻视频一区二区| 精品人妻1区二区| 别揉我奶头~嗯~啊~动态视频| 亚洲一区二区三区色噜噜| 国产亚洲av嫩草精品影院| 亚洲 欧美 日韩 在线 免费| www.www免费av| 成人特级黄色片久久久久久久| 性色avwww在线观看| 久久香蕉精品热| 国产成人影院久久av| 波野结衣二区三区在线| 久久6这里有精品| 欧美+日韩+精品| 亚洲性夜色夜夜综合| 真人做人爱边吃奶动态| 久久人人爽人人爽人人片va | 91狼人影院| 我要看日韩黄色一级片| 赤兔流量卡办理| 国产一区二区激情短视频| 日韩大尺度精品在线看网址| 亚洲,欧美精品.| 老女人水多毛片| 色综合亚洲欧美另类图片| 精品99又大又爽又粗少妇毛片 | 日韩精品青青久久久久久| 久99久视频精品免费| 久久久久久九九精品二区国产| 精品一区二区三区视频在线| 国产极品精品免费视频能看的| 日韩欧美精品免费久久 | 中亚洲国语对白在线视频| 精品不卡国产一区二区三区| 中国美女看黄片| 成人特级黄色片久久久久久久| 美女cb高潮喷水在线观看| 每晚都被弄得嗷嗷叫到高潮| 亚洲最大成人手机在线| 午夜福利在线观看免费完整高清在 | 日韩欧美精品v在线| 精品日产1卡2卡| 男女做爰动态图高潮gif福利片| 日韩欧美在线二视频| 搡女人真爽免费视频火全软件 | 日韩精品中文字幕看吧| 岛国在线免费视频观看| 日韩国内少妇激情av| 日本a在线网址| 久久久久国产精品人妻aⅴ院| 岛国在线免费视频观看| 欧美激情久久久久久爽电影| 成人午夜高清在线视频| 亚洲av五月六月丁香网| 夜夜爽天天搞| 变态另类成人亚洲欧美熟女| 成人无遮挡网站| 日本黄色视频三级网站网址| 国产亚洲精品久久久com| 永久网站在线| 简卡轻食公司| 欧美又色又爽又黄视频| 桃色一区二区三区在线观看| 村上凉子中文字幕在线| 亚洲第一欧美日韩一区二区三区| 欧美在线黄色| 国产av一区在线观看免费| 变态另类丝袜制服| 亚洲美女搞黄在线观看 |