任偉鑫,車(chē)明錦,汪照文,孟文武,李沁雨,胡佳弋,夏 凡,李 偉,5
(1.四川師范大學(xué) 作曲系,四川 成都 610066;2.四川音樂(lè)學(xué)院 實(shí)驗(yàn)藝術(shù)學(xué)院,四川 成都 610021;3.中央音樂(lè)學(xué)院 音樂(lè)人工智能與音樂(lè)信息科技系,北京 100031;4.復(fù)旦大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,上海 200438;5.復(fù)旦大學(xué) 上海市智能信息處理重點(diǎn)實(shí)驗(yàn)室,上海200433)
音樂(lè)數(shù)據(jù)庫(kù)的建設(shè)可以粗略地分為兩大類(lèi)型: 一是為音樂(lè)數(shù)據(jù)的收集、儲(chǔ)存、分類(lèi)、檢索而建設(shè)的圖書(shū)館、音響檔案館的傳統(tǒng)數(shù)據(jù)庫(kù);二是為使用計(jì)算機(jī)技術(shù)處理大量的數(shù)字音樂(lè),即使用音樂(lè)信息檢索(Music Information Retrieval,MIR)技術(shù)而建設(shè)的音樂(lè)數(shù)據(jù)庫(kù)。19世紀(jì)末20世紀(jì)初,比較音樂(lè)學(xué)柏林學(xué)派的學(xué)者們建立最早的音響檔案館(柏林音響檔案館),錄音技術(shù)為他們的研究提供了客觀(guān)的測(cè)量方法,奠定了體系音樂(lè)學(xué)、音樂(lè)人類(lèi)學(xué)的研究基礎(chǔ)。數(shù)字音頻誕生后,體系音樂(lè)學(xué)、音樂(lè)人類(lèi)學(xué)的學(xué)者開(kāi)始嘗試使用計(jì)算機(jī)技術(shù)處理音樂(lè)數(shù)據(jù)庫(kù),音樂(lè)人類(lèi)學(xué)家、數(shù)學(xué)家和計(jì)算機(jī)工程師這些不同學(xué)科背景的人建設(shè)的數(shù)據(jù)庫(kù)促進(jìn)了計(jì)算音樂(lè)學(xué)(Computational Musicology)、計(jì)算音樂(lè)人類(lèi)學(xué)(Computational Ethnomusicology)等新領(lǐng)域的發(fā)展。
計(jì)算音樂(lè)學(xué)成為系統(tǒng)音樂(lè)學(xué)(Systematic Musicology)新的研究領(lǐng)域。例如,數(shù)字音樂(lè)實(shí)驗(yàn)室[1](Digital music lab)為大規(guī)模的音頻分析提供了一個(gè)交互式的界面,為對(duì)音頻和其他數(shù)據(jù)的分布式處理、受版權(quán)限制的數(shù)據(jù)的遠(yuǎn)程分析、對(duì)提取的信息和原始數(shù)據(jù)的邏輯推理以及用于探索和查詢(xún)音樂(lè)收藏的可視化WEB界面提供了原始數(shù)據(jù)支撐。該系統(tǒng)目前收集了250 000份錄音,其中有來(lái)自大英圖書(shū)館的49 000首音樂(lè),包括約19 000首古典音樂(lè)和約29 000首世界傳統(tǒng)音樂(lè);I Like Music Ltd(ILM)(http:∥www.ilikemusic.com)收集了二十余萬(wàn)首商業(yè)音樂(lè),音樂(lè)風(fēng)格包含: 爵士、搖滾、古典、布魯斯、民謠、雷鬼。這些數(shù)據(jù)庫(kù)為音樂(lè)學(xué)與音樂(lè)信息檢索提供依據(jù),使音樂(lè)研究者能夠探索和分析大量的音樂(lè)音頻集和數(shù)據(jù)集,多角度地理解音樂(lè)并對(duì)不同的音樂(lè)作品進(jìn)行比較分析。
計(jì)算音樂(lè)人類(lèi)學(xué)新領(lǐng)域的探索核心在于使用MIR探索非西方音樂(lè)的審美和風(fēng)格特征。自19世紀(jì)末以來(lái),比較世界音樂(lè)文化一直是音樂(lè)學(xué)家和人類(lèi)學(xué)家感興趣的問(wèn)題,該領(lǐng)域的專(zhuān)家在音樂(lè)數(shù)據(jù)的收集和分析方面取得了很大的進(jìn)展。Lomax是20世紀(jì)60年代主要的比較音樂(lè)學(xué)家之一,他收集了不同風(fēng)格的4 000多張唱片,并開(kāi)發(fā)了一個(gè)記譜注釋系統(tǒng)“Cantometrics”,對(duì)世界上的音樂(lè)文化進(jìn)行分類(lèi)[2-3]。Savage等[4]則使用“Cantocore”系統(tǒng)分析了259首來(lái)自臺(tái)灣12個(gè)土著人口的傳統(tǒng)歌曲,重點(diǎn)關(guān)注節(jié)奏、音高、結(jié)構(gòu)和形式。目前,對(duì)于中國(guó)傳統(tǒng)樂(lè)器音響數(shù)據(jù)庫(kù)的研究較多地出現(xiàn)在博物館學(xué)中,主要針對(duì)樂(lè)器收藏的數(shù)字化建設(shè),目標(biāo)是完善博物館檔案數(shù)據(jù),是實(shí)物收藏的一種補(bǔ)充。如中央音樂(lè)學(xué)院與華中科技大學(xué)、華中師范大學(xué)聯(lián)合創(chuàng)建的“中國(guó)國(guó)家級(jí)樂(lè)器數(shù)字博物館”運(yùn)用信息化手段,實(shí)現(xiàn)了中國(guó)樂(lè)器數(shù)字博物館資源的數(shù)字化建設(shè)與共享[5]。
隨著世界音樂(lè)數(shù)據(jù)庫(kù)建設(shè)需求的增長(zhǎng),音樂(lè)學(xué)家的手工標(biāo)注與計(jì)算機(jī)計(jì)算相結(jié)合,成為數(shù)據(jù)庫(kù)進(jìn)一步探索發(fā)展的方向,并產(chǎn)生了針對(duì)不同對(duì)象的標(biāo)注和計(jì)算方法。世界音樂(lè)文化(包括流行音樂(lè)、古典音樂(lè)、民間和傳統(tǒng)音樂(lè)劇目)各有不同,但也有相似之處,計(jì)算機(jī)可以幫助分析不同音樂(lè)風(fēng)格的差異性。計(jì)算音樂(lè)人類(lèi)學(xué)給非西方音樂(lè)的數(shù)據(jù)建設(shè)、音樂(lè)信息檢索帶來(lái)交叉學(xué)科建構(gòu)的方法論及其相關(guān)研究案例。
中國(guó)民族五聲調(diào)式數(shù)據(jù)庫(kù)(Chinese National Pentatonic Mode Database,CNPM Database)是第一個(gè)可用于計(jì)算音樂(lè)學(xué)的五音數(shù)據(jù)庫(kù),參照了計(jì)算音樂(lè)學(xué)/計(jì)算音樂(lè)人類(lèi)學(xué)的方法論與相關(guān)案例,收集、分類(lèi)、存儲(chǔ)音樂(lè),為進(jìn)一步分析音樂(lè)特征與檢索提供了原始數(shù)據(jù),并找到應(yīng)用場(chǎng)景與技術(shù)模型。數(shù)據(jù)庫(kù)收集曲目工作者以民樂(lè)演奏、音樂(lè)教育、音樂(lè)理論為主的音樂(lè)專(zhuān)業(yè)師生組成音頻收集團(tuán)隊(duì),調(diào)式判斷的結(jié)果由視唱練耳專(zhuān)業(yè)教師逐個(gè)核對(duì),收集的音頻主要以傳統(tǒng)民族的獨(dú)奏、合奏為主,輔以少數(shù)的民歌以及少量電聲樂(lè)器合奏的中國(guó)音樂(lè)。
本數(shù)據(jù)庫(kù)(宮、商、角、徵、羽5種調(diào)式音頻)①暫提供宮、商、角、徵、羽5種調(diào)式各5首,音頻鏈接為https:∥github.com/oozerain/music/blob/main/index.md。中的歌曲作品時(shí)間長(zhǎng)短不一,大部分在4 min以?xún)?nèi),收集的作品大多以五聲調(diào)式為主,六聲調(diào)式以及七聲調(diào)式較少。在收集音頻過(guò)程中,我們發(fā)現(xiàn)中國(guó)民族調(diào)式作品的結(jié)束音在宮音、徵音、羽音比較多,以商音和角音為結(jié)束音的曲目數(shù)量較少。為使音頻數(shù)量平均,我們又創(chuàng)作了一些商調(diào)式和角調(diào)式曲目。需要特別說(shuō)明的是,本數(shù)據(jù)庫(kù)中的大部分作品沒(méi)有出現(xiàn)轉(zhuǎn)調(diào)的情況,即使出現(xiàn)也都屬于同宮系統(tǒng)內(nèi)部的轉(zhuǎn)調(diào),即作品從頭到尾的調(diào)式都是在一個(gè)同宮系統(tǒng)中進(jìn)行的,無(wú)論作品內(nèi)部的音如何變化,始終都是以一共同的宮音作為轉(zhuǎn)調(diào)基礎(chǔ),且出現(xiàn)轉(zhuǎn)調(diào)的情況也在數(shù)據(jù)中進(jìn)行了標(biāo)注。
中國(guó)傳統(tǒng)民族調(diào)式具有獨(dú)特的音樂(lè)文化體系,把按照純五度音程排列的“宮”、“徵”、“商”、“羽”、“角”的五聲音階作為民族調(diào)式理論基礎(chǔ),中國(guó)傳統(tǒng)音樂(lè)廣泛采用無(wú)半音五聲音階,“宮、商、角、徵、羽”五聲稱(chēng)為“正聲”,除了五正聲以外,還有4個(gè)“變聲”(清角、變徵、變宮、閏),在五聲調(diào)式基礎(chǔ)上加入清角音(角音上方小二度)或變宮音(宮音下方小二度)形成六聲調(diào)式;七聲調(diào)式是在五聲調(diào)式基礎(chǔ)上的小三度音程中間加入變徵(徵音下方小二度)和變宮形成雅樂(lè)音階,加入清角和變宮形成清樂(lè)音階,加入清角和閏(宮音下方大二度)形成燕樂(lè)音階。中國(guó)民族風(fēng)格的作品由于受到風(fēng)格的限制,核心音高素材通常都是五聲調(diào)式,因此在進(jìn)行六聲、七聲甚至更為復(fù)雜的旋律調(diào)式聽(tīng)覺(jué)分析時(shí),都需要首先對(duì)于簡(jiǎn)單的五聲調(diào)式旋律進(jìn)行聽(tīng)覺(jué)分析的訓(xùn)練②通過(guò)對(duì)民族作品進(jìn)行譜面的調(diào)式分析,可以較為準(zhǔn)確地判斷出各作品的調(diào)性布局和基本框架結(jié)構(gòu)。然而僅憑聽(tīng)覺(jué)進(jìn)行的民族音樂(lè)作品調(diào)式分析則是一項(xiàng)需要經(jīng)過(guò)特殊專(zhuān)業(yè)訓(xùn)練才能具備的技能,這是視唱練耳課程中的一項(xiàng)訓(xùn)練內(nèi)容。,旋律聽(tīng)覺(jué)分析則依賴(lài)于作品每一句的“落音”,即每一樂(lè)句的結(jié)束音。
民族音樂(lè)作品中常出現(xiàn)轉(zhuǎn)調(diào)的情況,即便是一首很簡(jiǎn)單的五聲調(diào)式旋律,在超過(guò)兩個(gè)樂(lè)句的情況下都有可能由兩個(gè)不同的調(diào)式構(gòu)成。作品內(nèi)部不具有非同宮系統(tǒng)轉(zhuǎn)調(diào)時(shí),不能直接定義為全曲由一個(gè)調(diào)式構(gòu)成。例如由中國(guó)音樂(lè)學(xué)院視唱練耳教研室編著的《視唱練耳分級(jí)教程》第三級(jí)[6]例7-31所示(見(jiàn)圖1),第一樂(lè)句即1~4小節(jié)為E徵五聲調(diào)式,這個(gè)結(jié)論在進(jìn)行聽(tīng)覺(jué)分析時(shí),不是由對(duì)譜面進(jìn)行理論分析得出,而是通過(guò)視唱或內(nèi)心聽(tīng)覺(jué)的判斷得出。視唱既可以用固定唱名法,也可以用首調(diào)唱名法,還可以用哼唱的方式進(jìn)行,需注意的是視唱時(shí)不應(yīng)把注意力全部放在唱名上,而是應(yīng)把注意力放在音與音的音程關(guān)系以及整體調(diào)式感上,重點(diǎn)是當(dāng)視唱進(jìn)行到第一句的“落音”E音時(shí),向上或向下哼唱并產(chǎn)生出E徵五聲調(diào)式音階的調(diào)式感,由此辨認(rèn)為E徵五聲調(diào)式;視唱第二樂(lè)句即5~8小節(jié)為A宮六聲調(diào)式(加清角),如果把8小節(jié)連在一起進(jìn)行整體聽(tīng)覺(jué)分析,直接判定為A宮六聲調(diào)式(加清角)則較為不準(zhǔn)確,這樣論述的原因是因?yàn)橹袊?guó)民族調(diào)式的內(nèi)部通常存在著大量的調(diào)式感交替,通常每一句都可以形成一個(gè)調(diào)式,由于“落音”的變化進(jìn)行調(diào)感的不斷變更,因此若要準(zhǔn)確定義一首民族作品是什么調(diào)式布局,往往需要結(jié)合很多零碎的調(diào)式片段進(jìn)行分析論述。
圖1 視唱練耳譜例Fig.1 Score example of solfeggio and ear training
本數(shù)據(jù)庫(kù)五聲調(diào)式可應(yīng)用于五音療法,隨著醫(yī)學(xué)和科技的發(fā)展,將“五音”[7]與人體的臟腑經(jīng)絡(luò)、氣血陰陽(yáng)等生理病理過(guò)程相聯(lián)系,通過(guò)對(duì)于情志、體質(zhì)等方面的積極影響,改善人體內(nèi)環(huán)境,從而達(dá)到治療疾病及養(yǎng)生保健的目的。越來(lái)越多的學(xué)校、醫(yī)院對(duì)五音療法投入了研究與應(yīng)用,研究表明,五音療法在心理亞健康、抑郁癥、慢性心力衰竭焦慮、腦卒中恢復(fù)期抑郁患者的康復(fù)等[8-10]領(lǐng)域均有明顯的治療效果。本數(shù)據(jù)庫(kù)確立了用于五音療法的音樂(lè)的具體演奏版本,使臨床選曲簡(jiǎn)潔化,并且標(biāo)注了具體的調(diào)式,目前已有300首曲目,后續(xù)還將繼續(xù)擴(kuò)充曲目數(shù)量。
本數(shù)據(jù)庫(kù)可應(yīng)用于MIR領(lǐng)域中的自動(dòng)調(diào)性/調(diào)式識(shí)別任務(wù),該任務(wù)是MIR的核心任務(wù)之一,但目前針對(duì)中國(guó)傳統(tǒng)調(diào)式自動(dòng)識(shí)別的研究卻很少。早期的自動(dòng)調(diào)性識(shí)別使用基于模板的識(shí)別方法[11-13],將該類(lèi)方法應(yīng)用于音頻時(shí),需先從音頻中提取音高類(lèi)特征,再根據(jù)其與各調(diào)性模板的匹配度得到結(jié)果。該類(lèi)方法通常用于識(shí)別全局調(diào)性,對(duì)于不同的音樂(lè)風(fēng)格需要設(shè)計(jì)不同的模板來(lái)進(jìn)行匹配。Peeters[14]和Noland等[15]使用隱馬爾可夫模型(Hidden Markov Model,HMM)進(jìn)行調(diào)性識(shí)別,HMM是一種可用于處理序列問(wèn)題的統(tǒng)計(jì)模型。Korzeniowski等[16-17]使用深度學(xué)習(xí)(Deep learning)中的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)來(lái)構(gòu)建模型進(jìn)行全局調(diào)性識(shí)別,Wei?等[18]使用CNN進(jìn)行局部調(diào)性識(shí)別,以應(yīng)對(duì)音樂(lè)中可能出現(xiàn)的轉(zhuǎn)調(diào)情況。該類(lèi)深度學(xué)習(xí)方法需要大量數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練。
上述自動(dòng)調(diào)性識(shí)別研究主要針對(duì)西方音樂(lè)的大小調(diào)體系,相比于大小調(diào)體系,中國(guó)民族調(diào)式的種類(lèi)更多,且沒(méi)有和聲體系來(lái)輔助調(diào)式識(shí)別。另一方面,也沒(méi)有大量的中國(guó)民族調(diào)式音樂(lè)數(shù)據(jù)來(lái)衡量識(shí)別效果或訓(xùn)練識(shí)別模型。Deng等[19]使用人工設(shè)計(jì)的決策樹(shù)對(duì)中國(guó)民族五聲調(diào)式進(jìn)行識(shí)別,游夢(mèng)琪等[20]使用基于模板匹配的算法對(duì)民族五聲和七聲調(diào)式進(jìn)行自動(dòng)識(shí)別。上述研究都針對(duì)MIDI文件進(jìn)行識(shí)別,測(cè)試樣本數(shù)量較少。本數(shù)據(jù)庫(kù)一方面可用于衡量識(shí)別算法或模型的準(zhǔn)確度,另一方面也可用于識(shí)別模型的訓(xùn)練,對(duì)于中國(guó)民族調(diào)式識(shí)別的研究有重大意義。
使用本數(shù)據(jù)庫(kù)對(duì)中國(guó)民族調(diào)式自動(dòng)識(shí)別進(jìn)行研究時(shí),可以考慮以下3種思路: (1) 使用基于規(guī)則/模板進(jìn)行分類(lèi)的方法。首先從音頻中提取出旋律音高或音高類(lèi)特征,再根據(jù)規(guī)則進(jìn)行判斷分類(lèi),例如通過(guò)宮-角大三度關(guān)系確定宮調(diào)系統(tǒng),通過(guò)結(jié)束音確定主音等。使用數(shù)據(jù)庫(kù)中的音樂(lè)數(shù)據(jù)可以驗(yàn)證該類(lèi)方法的正確性。由于本數(shù)據(jù)庫(kù)中的音樂(lè)大多為民族器樂(lè),音高信息不易提取,且提取時(shí)還應(yīng)當(dāng)考慮樂(lè)曲所用律制并非十二平均律的情況。(2) 使用基于HMM的方法。訓(xùn)練或設(shè)置一個(gè)或多個(gè)HMM模型,使用提取的音高序列作為模型輸入,輸出可以是全局調(diào)式也可以是調(diào)式序列。(3) 使用深度學(xué)習(xí)方法。構(gòu)建基于卷積神經(jīng)網(wǎng)絡(luò)與循環(huán)神經(jīng)網(wǎng)絡(luò)及其變體的神經(jīng)網(wǎng)絡(luò)模型,使用數(shù)據(jù)庫(kù)中的數(shù)據(jù)訓(xùn)練模型,模型提取何種特征及其分類(lèi)標(biāo)準(zhǔn)都由模型自己學(xué)習(xí)得到。該類(lèi)方法的優(yōu)點(diǎn)在于無(wú)需人工設(shè)計(jì)特征,可使用音頻的頻譜圖作為輸入;缺點(diǎn)在于需要大量數(shù)據(jù),若使用本數(shù)據(jù)庫(kù)中的數(shù)據(jù)仍無(wú)法滿(mǎn)足模型訓(xùn)練所需數(shù)據(jù)量,則可以考慮使用數(shù)據(jù)增強(qiáng)的方法,例如對(duì)音頻做移調(diào)處理以得到新的數(shù)據(jù),或是使用遷移學(xué)習(xí)來(lái)解決該問(wèn)題。另外,由于在進(jìn)行中國(guó)民族調(diào)式識(shí)別時(shí),既要識(shí)別出其主音音高,又要識(shí)別出其具體調(diào)式,類(lèi)別較多,應(yīng)考慮使用兩個(gè)或多個(gè)分類(lèi)器進(jìn)行分類(lèi)。
根據(jù)本數(shù)據(jù)庫(kù)進(jìn)行針對(duì)音頻的中國(guó)民族調(diào)式自動(dòng)識(shí)別研究,設(shè)計(jì)調(diào)式識(shí)別系統(tǒng),便能用計(jì)算機(jī)代替人工篩選的過(guò)程,極大地?cái)U(kuò)充中國(guó)民族調(diào)式音樂(lè)數(shù)據(jù)庫(kù),推進(jìn)五音療法等相關(guān)工作。
由于中國(guó)民族調(diào)式名稱(chēng)由主音音名、樣式和種類(lèi)3個(gè)部分組成,共有360種(12×5×6)組合,直接進(jìn)行分類(lèi)較為困難,本文采用分別對(duì)調(diào)式所屬同宮系統(tǒng)、其主音音名、樣式和種類(lèi)進(jìn)行分類(lèi)的方式來(lái)確定最終的調(diào)式名稱(chēng)。例如D徵七聲雅樂(lè)調(diào)式,屬于G宮系統(tǒng),主音音名為D,樣式為徵,種類(lèi)為七聲雅樂(lè)。類(lèi)別的定義如表1所示,對(duì)于其中前3項(xiàng),可由任意兩項(xiàng)推出余下1項(xiàng)。對(duì)數(shù)據(jù)庫(kù)進(jìn)行處理后,得到每首曲目的音頻文件與其類(lèi)別編號(hào)的對(duì)應(yīng)關(guān)系。
表1 調(diào)式類(lèi)別的定義Tab.1 Definition of the mode category
在進(jìn)行調(diào)式識(shí)別時(shí),本文使用了半音類(lèi)(Chroma)特征和常數(shù)Q變換(Constant Q Transform,CQT)頻譜圖兩種音頻特征。Chroma特征的基本原理是將原始音頻信號(hào)的頻譜能量映射至12個(gè)與八度無(wú)關(guān)的音高類(lèi)中,該特征可由一個(gè)12維的向量表示,其中每個(gè)元素與十二平均律中的一個(gè)音名對(duì)應(yīng),包含了該音名在所有八度上的能量。將Chroma特征按照時(shí)間進(jìn)行可視化,如圖2所示。CQT是一種將時(shí)域信息轉(zhuǎn)化為頻域信息的方法,其頻率分辨率隨頻率增大而增大,相比于傅里葉變換(Fourier Transform,FT),CQT更適合音樂(lè)信號(hào)的分解。CQT頻譜圖進(jìn)行可視化后如圖3所示。本文使用Librosa庫(kù)[21]中的chroma_cqt函數(shù)獲得Chroma特征,使用cqt函數(shù)獲得頻譜圖,CQT中頻率范圍設(shè)為C1到C8,每個(gè)八度分為24段。
圖2 《梅花三弄》(項(xiàng)斯華)半音類(lèi)特征(片段)Fig.2 Chroma feature of M ei HuaSan Nong
圖3 《良宵引》(龔一)常數(shù)Q變換頻譜圖(片段)Fig.3 CQT spectrogram of Liang XiaoYin
本文首先提出了一種基于調(diào)式模板的中國(guó)民族調(diào)式識(shí)別方法,調(diào)式模板為12維的向量。用矩陣C表示全曲的Chroma特征,C為12×N的矩陣,N為音頻幀數(shù)。將C的每一行的各元素相加,得到代表全曲Chroma特征的12維向量X,對(duì)X進(jìn)行歸一化,即
式中:X i與分別表示歸一化前后X中的各個(gè)元素;Xmax與Xmin分別表示X中元素的最大值與最小值。進(jìn)行識(shí)別時(shí),計(jì)算歸一化后的X與調(diào)式模板的皮爾森相關(guān)系數(shù)
以得到音頻與模板的匹配程度,最后選擇相關(guān)系數(shù)最大的模板所屬類(lèi)別作為識(shí)別結(jié)果。式(2)中:X、Y分別為X、Y中各元素的均值。
模板可以由兩種方式得到: 第一種是基于調(diào)式定義和經(jīng)驗(yàn)進(jìn)行設(shè)置,將調(diào)式中的正音設(shè)為1,調(diào)外音設(shè)為0,偏音設(shè)為w;第二種是通過(guò)對(duì)數(shù)據(jù)庫(kù)中的音頻特征進(jìn)行統(tǒng)計(jì)得到模板,例如在計(jì)算同宮系統(tǒng)模板時(shí),若一首音頻的同宮系統(tǒng)編號(hào)為s,則將其歸一化后的Chroma特征X循環(huán)左移s位后與模板相加,最后將模板數(shù)值除以音頻數(shù)量得到最終模板?;诮y(tǒng)計(jì)的調(diào)式種類(lèi)模板按照類(lèi)似方法統(tǒng)計(jì)得出。經(jīng)過(guò)初步實(shí)驗(yàn)發(fā)現(xiàn),基于調(diào)式定義設(shè)置的模板比基于統(tǒng)計(jì)設(shè)置的模板表現(xiàn)更好,故后續(xù)實(shí)驗(yàn)采用基于調(diào)式定義得到的模板。模板具體數(shù)值如表2所示,在將w設(shè)為1時(shí),識(shí)別正確率最高。
表2 調(diào)式模板Tab.2 Templates of the mode
使用同宮系統(tǒng)模板時(shí),首先計(jì)算X與該模板的相關(guān)系數(shù),可以得到X與C宮系統(tǒng)調(diào)式的匹配程度,之后將模板循環(huán)右移一位,計(jì)算相關(guān)系數(shù),可以得到X與#C(b D)宮系統(tǒng)調(diào)式的匹配程度。以此類(lèi)推共得到12個(gè)相關(guān)系數(shù),其中數(shù)值最大的結(jié)果對(duì)應(yīng)的類(lèi)別即為音頻所屬同宮系統(tǒng)。使用五、六、七聲調(diào)式種類(lèi)模板時(shí),計(jì)算方式類(lèi)似,共得到60個(gè)相關(guān)系數(shù)結(jié)果,最大值對(duì)應(yīng)的類(lèi)別即為調(diào)式種類(lèi)。若先通過(guò)同宮系統(tǒng)模板得到音頻所屬同宮系統(tǒng),再根據(jù)同宮系統(tǒng)和種類(lèi)模板進(jìn)行種類(lèi)識(shí)別,則只需要計(jì)算6次相關(guān)系數(shù),但在初步實(shí)驗(yàn)中,該方法的正確率低于直接使用種類(lèi)模板進(jìn)行識(shí)別的正確率。在進(jìn)行主音識(shí)別時(shí),采取一種簡(jiǎn)單的方法,計(jì)算音頻最后500幀(約11.6 s)的Chroma特征之和,得到一個(gè)12維向量,將最大值對(duì)應(yīng)的音名作為主音。根據(jù)識(shí)別出的主音t和同宮系統(tǒng)s,可以推測(cè)出調(diào)式的樣式,t與s相同時(shí)為宮調(diào)式,t比s高2個(gè)半音時(shí)為商調(diào)式,高4個(gè)半音時(shí)為角調(diào)式,高7個(gè)半音時(shí)為徵調(diào)式,高9個(gè)半音時(shí)為羽調(diào)式。
在嘗試使用模板進(jìn)行自動(dòng)識(shí)別后,本文又使用了一種基于卷積神經(jīng)網(wǎng)絡(luò)模型的方法來(lái)進(jìn)行中國(guó)民族調(diào)式識(shí)別。模型結(jié)構(gòu)基于Inception Key Net模型[22],如圖4所示。Inception Key Net是Baumann于2021年提出的基于Inception V3[23]的可用于西方大小調(diào)識(shí)別的網(wǎng)絡(luò)模型,是目前自動(dòng)調(diào)性識(shí)別的最優(yōu)模型。模型的輸入為CQT頻譜圖,降采樣至每秒5幀,與文獻(xiàn)[16]中使用的幀率相同。由于模型使用了全卷積結(jié)構(gòu),輸入數(shù)據(jù)既可以是整首音頻的頻譜圖,也可以是音頻片段的頻譜圖,但在訓(xùn)練時(shí)需使用相同大小的輸入,所以本文將每首音頻不重疊地劃分為多段,每段時(shí)長(zhǎng)為20 s,即100幀,作為訓(xùn)練時(shí)的輸入。網(wǎng)絡(luò)模型由多個(gè)卷積層(Conv2D)、批量歸一化層(Batch Normalization layer,BN)和Re LU激活函數(shù)層構(gòu)成,每個(gè)卷積層的卷積核大小以及濾波器數(shù)量都不同,詳見(jiàn)文獻(xiàn)[22]。最后對(duì)提取到的特征圖進(jìn)行一次卷積操作和一次全局平均池化操作,送入Softmax層得到最后的分類(lèi)結(jié)果。
圖4 神經(jīng)網(wǎng)絡(luò)模型的結(jié)構(gòu)Fig.4 Structure of neural network model
在訓(xùn)練模型時(shí),由于數(shù)據(jù)量較少,本文對(duì)音頻進(jìn)行了移調(diào)來(lái)增強(qiáng)數(shù)據(jù)。分別對(duì)每首曲子進(jìn)行升高一個(gè)半音、升高兩個(gè)半音、降低一個(gè)半音和降低兩個(gè)半音的處理,得到4首新的曲子的音頻,同時(shí)調(diào)整對(duì)應(yīng)的主音標(biāo)簽和同宮系統(tǒng)標(biāo)簽。需要注意的是,調(diào)式的樣式和種類(lèi)并不會(huì)因?yàn)樯嫡{(diào)而發(fā)生變化。
本文共訓(xùn)練了3個(gè)模型M1、M2和M3,分別用于識(shí)別同宮系統(tǒng)、主音音名和調(diào)式種類(lèi),調(diào)式樣式則由前兩項(xiàng)進(jìn)行推斷。M1與M2的輸出維度為12,M3的輸出維度為6。在訓(xùn)練模型時(shí),對(duì)于M1和M3,使用訓(xùn)練集中的所有音頻片段進(jìn)行訓(xùn)練,對(duì)于M2則只使用每個(gè)音頻的最后100幀進(jìn)行訓(xùn)練。在使用模型進(jìn)行分類(lèi)時(shí),對(duì)于M1和M3,既可以將整首曲子的音頻作為輸入得到一個(gè)分類(lèi)結(jié)果,也可以將每個(gè)片段分別作為輸入,最后將模型輸出的類(lèi)別概率相加,得到分類(lèi)結(jié)果。在進(jìn)行初步實(shí)驗(yàn)后發(fā)現(xiàn),直接將整首音頻作為模型輸入得到的分類(lèi)正確率更高,故采用此方法進(jìn)行識(shí)別。對(duì)于M2則將音頻的最后100幀作為輸入得到結(jié)果。
本文在數(shù)據(jù)庫(kù)中目前可用的204個(gè)音頻上進(jìn)行了實(shí)驗(yàn)。按照數(shù)據(jù)分布在數(shù)據(jù)集中隨機(jī)劃分了15%的數(shù)據(jù),即31個(gè)音頻,作為測(cè)試集。在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí),使用了Adam優(yōu)化器,初始學(xué)習(xí)率設(shè)為0.001,損失函數(shù)為交叉熵函數(shù),批量大小為32。對(duì)于調(diào)式模板方法,分別在全部數(shù)據(jù)和測(cè)試集上進(jìn)行了測(cè)試,以方便和神經(jīng)網(wǎng)絡(luò)方法進(jìn)行對(duì)比。識(shí)別結(jié)果如表3所示,其中λACC1表示同宮系統(tǒng)的分類(lèi)正確率,λACC2表示主音音名的分類(lèi)正確率,λACC3表示樣式分類(lèi)的正確率,λACC4表示主音音名和樣式同時(shí)正確的分類(lèi)正確率,λACC5表示種類(lèi)分類(lèi)的正確率,λACC6表示同宮系統(tǒng)、主音音名、樣式和種類(lèi)都正確的分類(lèi)正確率。兩種方法對(duì)于同宮系統(tǒng)和主音音名的識(shí)別正確率都較高,對(duì)于主音音名和樣式同時(shí)正確識(shí)別的正確率也都超過(guò)了60%,但對(duì)于具體五、六、七聲的調(diào)式種類(lèi)識(shí)別的正確率偏低。總體而言,基于神經(jīng)網(wǎng)絡(luò)方法的表現(xiàn)更優(yōu)一些。
表3 分類(lèi)的正確率Tab.3 Accuracy of classification
在自動(dòng)調(diào)式識(shí)別方面,由于商調(diào)式和角調(diào)式的整體曲目偏少,可以考慮不以整體曲目作為識(shí)別對(duì)象,而是對(duì)每個(gè)樂(lè)句進(jìn)行識(shí)別。這需要對(duì)數(shù)據(jù)庫(kù)中的音樂(lè)進(jìn)行樂(lè)句劃分的標(biāo)注,并為每個(gè)樂(lè)句標(biāo)注其調(diào)式信息。在對(duì)一首新樂(lè)曲進(jìn)行調(diào)式識(shí)別時(shí),首先使用相應(yīng)的算法或模型對(duì)樂(lè)句進(jìn)行劃分,再對(duì)每個(gè)樂(lè)句進(jìn)行調(diào)式識(shí)別,最后根據(jù)調(diào)式分析理論,獲得最終的結(jié)果。除此之外,還可以先使用其他MIR方法識(shí)別出音頻所使用的樂(lè)器以及其律制,從而更好地進(jìn)行音高檢測(cè)。在數(shù)據(jù)增強(qiáng)方面,除了使用升降調(diào)方法,還可以使用時(shí)間伸縮、加入噪聲、隨機(jī)遮擋等方法。在深度學(xué)習(xí)技術(shù)方面,可以探索遷移學(xué)習(xí)、多任務(wù)學(xué)習(xí)等方法在該領(lǐng)域的應(yīng)用。在實(shí)際的五音療法研究和臨床治療中,可能還會(huì)需要音樂(lè)的更多信息,例如音樂(lè)速度、歌曲情感傾向、演奏樂(lè)器等,則可以和相關(guān)音樂(lè)信息檢索研究相結(jié)合,豐富本數(shù)據(jù)庫(kù),以適應(yīng)更多的實(shí)際場(chǎng)景。