李 偉高智輝
(1.復(fù)旦大學(xué) 計算機科學(xué)技術(shù)學(xué)院,上海 201203;2.復(fù)旦大學(xué) 信息科學(xué)與工程學(xué)院,上海 200433)
早在20世紀(jì)50年代,計算機剛剛產(chǎn)生,美國的一位化學(xué)博士就開始嘗試運用計算機處理音樂。隨后幾十年,歐美各國相繼建立了多個大型音樂科技研究機構(gòu),如1975年建立的美國斯坦福大學(xué)的音樂及聲學(xué)計算機研究中心(Center for Computer Research in Music and Acoustics,CCRMA)、1977 年建立的法國巴黎的聲學(xué)與音樂研究與協(xié)調(diào)研究所(Institute for Research and Coordination Acoustic/Music,IRCAM)、1994年建立的西班牙巴塞羅那龐培法布拉(UPF)大學(xué)的音樂科技研究組(Music Technology Group,MTG)、2001年建立的英國倫敦女王大學(xué)數(shù)字音樂研究中心(Centrefor Digital Music,C4DM)等。此外,在亞洲的日本、中國臺灣等國家和地區(qū)也有多個該領(lǐng)域的公司(如雅馬哈)和科研院所。歐洲由于其濃厚的人文和藝術(shù)氣息成了音樂科技的世界中心。
圖1 音樂科技各領(lǐng)域關(guān)系圖
音樂科技是一個典型的交叉學(xué)科領(lǐng)域,分為藝術(shù)部分和科技部分。(圖1)藝術(shù)部分主要偏向使用各種音頻軟件及硬件進行音樂創(chuàng)作,科技部分主要進行底層計算機技術(shù)的研發(fā),為藝術(shù)創(chuàng)作提供技術(shù)支撐,也叫做聲音與音樂計算(Sound and Music Computing,SMC)。SMC主要包括音頻信號處理(Audio Signal Processing)及計算機聽覺(Computer Audition,CA),音樂信息檢索技術(shù)(Music Information Retrieval,MIR)屬于計算機聽覺中專門分析理解音樂內(nèi)容的部分。
近20年來,互聯(lián)網(wǎng)上出現(xiàn)了海量的數(shù)字音樂。音頻大數(shù)據(jù)與人工智能(Article Intelligence,AI)相結(jié)合,產(chǎn)生了MIR,成為音樂科技領(lǐng)域的重要組成部分。MIR以音樂聲學(xué)為基礎(chǔ),基于音頻信號處理提取音頻特征,后端大量采用AI中的各種機器學(xué)習(xí)技術(shù)。目前,MIR已成為一個很大的科學(xué)研究領(lǐng)域,國內(nèi)外主要的學(xué)術(shù)會議有ISMIR(音樂信息檢索國際會議)、ICMC(計算機音樂國際會議)、CSMT(中國聲音與音樂技術(shù)會議)、ICASSP(聲學(xué)、語言、信號處理國際會議)等。
MIR領(lǐng)域包含數(shù)十個研究課題,這些課題按照與各音樂要素的密切程度可劃分為核心層MIR研究和應(yīng)用層MIR研究。(圖2)
1.音高與旋律(Pitch and Melody)[1]1-5
音樂中每個音符都有一定的音高,而音高由聲波的頻率決定。音高檢測的手段大概分為三種:(1)時域檢測,即在時間上對聲波進行分析,具體有過零率法、自相關(guān)法(如YIN算法)、最大似然法、自適應(yīng)濾波器法、超分辨率法等;(2)頻域檢測,如對信號進行短時傅里葉變換(STFT),由周期性信號在基頻整數(shù)倍處有不同峰值的原理得到該時間段的基頻,從而得到音高;(3)基于聽覺模型檢測,即通過模擬人類感知音高的生理過程,使用耳蝸模型對每一個通道進行獨立的自相關(guān)運算,綜合所有通道信息得到相對的音高。
旋律是經(jīng)過藝術(shù)構(gòu)思,按照節(jié)奏及和聲形成的反映音樂主旨的音符序列。旋律提取指的是從多聲部/多音音樂(Polyphonic Music)信號提取單聲部(Monophonic)旋律的過程,典型方法有音高重要性法、歌聲分離法、數(shù)據(jù)驅(qū)動的音符分類法等三種,可應(yīng)用在音樂搜索、抄襲檢測、歌唱評價、作曲家風(fēng)格分析等方面。
更進一步,音樂識譜(Music Transcription)是識別音樂中每個時刻發(fā)聲的各個音符并形成樂譜的過程。通常首先基于矩陣分解技術(shù)進行歌聲和各種伴奏樂器聲音的分離;接下來在各個音源上尋找每一個音符的起始點并進行分割;隨后進行多音高/多基頻(f0)估計,提取每個音符的基頻,根據(jù)MIDI音符表轉(zhuǎn)換為音符的音名;最后利用音樂領(lǐng)域知識或規(guī)則進行后處理糾錯。
2.音樂節(jié)奏(Music Rhythm)[2]159-171
音符起始點檢測(Node Onset Detection)的目的是檢測音樂中某一音符開始的時間,是各種音樂節(jié)奏分析的預(yù)處理步驟。一個音符在波形上可以體現(xiàn)為Onset(音符起始點)/Attack(音符上升段)/Transient(音符持續(xù)段)/Decay(音符衰減段)等幾個部分。彈撥類樂器為Hard Onset(硬音符起始點),典型算法由子帶分解、檢測各子帶能量峰值、合并后挑選結(jié)果等幾個步驟組成;弦樂器吹奏類樂器為Soft Onset(軟音符起始點),可通過檢測和弦突變點求解。
圖2 MIR領(lǐng)域包含的研究課題
節(jié)拍跟蹤(Beat Tracking)是用計算機模擬人們在聽音樂時無意識地踮腳或拍手現(xiàn)象的過程,是理解音樂節(jié)奏的基礎(chǔ),也是很多MIR任務(wù)的重要步驟。其一般依賴于音符起始點檢測、打擊樂或其他時間局域化時間檢測。如果音樂偏重抒情沒有打擊樂器或者不明顯,則可采用和弦改變點作為候選節(jié)拍點。
速度檢測(Tempo Detection)通常與節(jié)拍跟蹤同時進行,用于判斷音樂進行的快慢,通常以BMP(Beats per Minute)表示。其可以應(yīng)用于音樂情感分析,或者幫助帕金森病人恢復(fù)行走能力。一個經(jīng)典方法是用帶通濾波器計算每個子帶幅度包絡(luò)線,與一組事先定義好的梳狀濾波器卷積,并對所有子帶上的能量進行求和,最高峰值即為速度。
拍子檢測(Meter Detection)、小節(jié)線檢測(BarLine/Measure Detection)、強拍估計(Downbeat Estimation)的技術(shù)路線類似,通常基于節(jié)拍相似性矩陣、節(jié)拍跟蹤和基于音樂知識的啟發(fā)式規(guī)則。節(jié)奏型檢測(Rhythmic Pattern Detection)基于模板匹配方法或者機器學(xué)習(xí)的節(jié)奏型標(biāo)注,可用于音樂流派分析和音樂教學(xué)等。
3.音樂和聲(Music Harmony)[3]1280-1289
自18世紀(jì)后半葉至今,主調(diào)音樂(Homophony)已經(jīng)逐漸取代了復(fù)調(diào)音樂(Polyphony),而和聲正是主調(diào)音樂最重要的要素之一。
和弦識別(Chord Detection)中最重要的音頻特征為半音類(PCP[Pitch Class Profiles],或稱 Chroma),即在12個半音類上與八度無關(guān)的譜能量的聚集。識別模型有模板匹配、隱形馬爾科夫模型(Hidden Markov Model,HMM)、條件隨機場(Conditional Random Fields,CRF)、支持向量機(Support Vector Machine,SVM)、遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)等。
調(diào)檢測(Key Detection)通過PCP特征來描述對調(diào)的感知,還可用調(diào)高分類器平滑減少音高的波動。其可用于音樂識譜、和弦檢測、音樂感情計算、音樂結(jié)構(gòu)分析等。
4.歌聲信息處理(Singing Information Processing)[4]57-60
歌聲檢測(Vocal/Singing Voice Detection)是判定整首歌曲中哪些部分是歌聲,哪些部分是純樂器伴奏的過程。一般通過音頻分幀,提取能夠有效區(qū)分歌聲和伴奏的音頻特征(梅爾頻率倒譜系數(shù)[Mel-Frequency Cepstral Coefficients,MFCC]、譜特征、顫音等),然后進行機器學(xué)習(xí)分類,最后使用平滑后處理去除奇異點。
歌聲分離(Vocal/Singing Voice Separation)是指將歌聲與背景音樂伴奏進行分離的過程。對立體聲錄音,假設(shè)歌聲位于中央信道,可利用聲源的空間差異性來定位和分離;對單聲道錄音,可采用基于音高推理(Pitch-based Inference)獲得歌聲泛音結(jié)構(gòu),或基于矩陣分解技術(shù),或基于計算聽覺場景分析CASA(Computational Auditory Scene Analysis)的方法。其可應(yīng)用于在歌手識別、哼唱/歌唱檢索、卡拉OK伴奏等。
歌手識別(Singer/Artist Identification)判斷一個歌曲是由集合中的哪個歌手演唱的,框架類似于說話人識別/聲紋識別。歌聲與語音之間存在巨大差異,技術(shù)上更困難。其可用于按歌手分類管理大量歌曲、模仿秀。
歌唱評價(Singing Evaluation)含兩部分?;A(chǔ)評價包括計算兩段歌聲各種音頻特征如音量、音高、節(jié)奏、旋律、顫音等之間的相似度,高級評價包括感情、音域、聲音質(zhì)量、音色辨識度、歌唱技巧等。
歌詞識別(Lyrics Recognition/Transcription)與語音識別技術(shù)框架類似,區(qū)別在于:歌詞非勻速進行且音高變化范圍大;歌唱根據(jù)旋律和節(jié)奏的進行、顫音和轉(zhuǎn)音等技巧來控制聲帶的發(fā)聲方式、發(fā)聲時間和氣息穩(wěn)定性;同一個人歌唱和說話音色有很大不同;歌詞具有一定藝術(shù)性需要押韻;等等。其可應(yīng)用于歌曲檢索、歌曲分類、歌詞與音頻或口型對齊等。
1.音樂搜索(Music Retrieval)[5]231-236
音樂識別(Music Identification)錄制一個音樂片段作為查詢片段,計算音頻指紋后與后臺指紋庫進行匹配,將最相似記錄的歌曲名、詞曲作者、演唱者、歌詞等元數(shù)據(jù)返回,其核心是音頻指紋技術(shù)(Audio Fingerprinting)。
哼唱及歌唱檢索(Query by Humming/Singing)錄制一段哼唱或歌唱聲音作為查詢片段,計算音頻特征后在數(shù)據(jù)庫中進行相似性匹配,并按匹配程度高低返回結(jié)果列表,難度比音樂識別更大。一般使用旋律編碼特征(音高輪廓、音程、音長、音高變化、音長變化)等進行旋律匹配,匹配手段有字符串近似匹配、動態(tài)時間規(guī)整、編輯距離、隱形馬爾科夫模型等。[4]57-60
多版本音樂識別或翻唱識別(Cover Song Identification)用于判斷兩首音樂是否具有同樣的本源。特點是主旋律基本相同但音樂結(jié)構(gòu)、音調(diào)、節(jié)奏、配曲、演唱者性別、語言等可能會發(fā)生巨大變化。一般提取穩(wěn)定的音樂中高層特征,在各個版本的整首音樂或音樂片段間進行匹配。
敲擊檢索(Query by Tapping)根據(jù)輸入的節(jié)拍信息,從數(shù)據(jù)庫中返回按節(jié)拍相似度高低排序的音樂列表,沒有利用音高信息。一般提取音符持續(xù)時間向量作為特征,歸一化處理后動態(tài)規(guī)劃比對并排序返回。
音樂借用(Music Borrowing)檢測不同歌曲之間旋律相似的部分。與音樂識別相比,音樂借用也檢測相似短片段,但后者不知道該片段在歌曲中的起始位置及長度。其可用于抄襲檢測。
2.音樂情感識別(Music Emotion Recognition,MER)[6]227-244
音樂情感識別涉及心理學(xué)、音樂學(xué)、AI技術(shù)。其有兩種技術(shù)路線:一是利用Hevner或Thayer情感模型將MER歸結(jié)為單標(biāo)簽或多標(biāo)簽分類問題;二是歸結(jié)為基于Arousal和Valence(AV)值的二維AV情感空間回歸預(yù)測問題。MER廣泛應(yīng)用于音樂選擇、影視制作、音樂推薦、音樂治療等場景。
3.音樂流派 /曲風(fēng)分類(Music Genre Classification)[7]282-289
通過音頻特征提取和統(tǒng)計分類對音樂內(nèi)容進行分析,可將音樂分為流行、搖滾、爵士、鄉(xiāng)村、經(jīng)典、藍調(diào)、嘻哈、迪斯科等類別。
4.作曲家分類(Music Composer Classification)
讀取一段音樂,通過音頻特征和統(tǒng)計分類器(如決策樹、SVM)等方式分析音頻數(shù)據(jù)內(nèi)在的風(fēng)格,可識別出相應(yīng)的作曲家信息,常用于音樂理論分析。
5.智能樂器識別(Intelligent Instrument Recognition)
識別多聲部/多音音樂中的各種樂器/主樂器。傳統(tǒng)技術(shù)框架為音頻特征提取(如LPC[Linear Predictive Coding,線性預(yù)測編碼]、MFCC、常數(shù) Q 變換倒譜系數(shù)、基于頻譜圖時域分析的音色特征、基于稀疏特征學(xué)習(xí)得到的特征)和統(tǒng)計分類器GMM(Gaussian Mixture Model,高斯混合模型)、SVM、貝葉斯決策等,近十年又發(fā)展了基于深度學(xué)習(xí)(Deep Learning)的新方法。
6.音樂結(jié)構(gòu)分析(Music Structure Analysis)[8]625-636
通過自相似矩陣、遞歸圖、子空間聚類等方式把音頻流分割為一系列具有音樂意義的時間區(qū)域,如前奏、主歌、副歌、橋段和結(jié)尾,常用于音樂理解、多版本音樂檢索、樂句劃分、音樂摘要、音頻水印等。
7.音樂摘要 /縮略圖(Music Summary/Thumbnail)
通過初步的音樂結(jié)構(gòu)分析尋找最合適的片段作為摘要,一般以副歌和附近樂句為主,可應(yīng)用在彩鈴、瀏覽、搜索中。
8.音樂推薦(Music Recommendation)[9]1366-1367
分為基于用戶歷史行為的個性化音樂主動推薦,基于情感的推薦和基于場景(如工作、睡覺、運動)的推薦等。音樂推薦一般使用三種技術(shù)框架,即協(xié)同過濾推薦(相似偏好用戶群喜好的音樂)、基于內(nèi)容的推薦技術(shù)(根據(jù)音樂間的元數(shù)據(jù)或聲學(xué)特征的相似性推薦),以及混合型推薦(多模態(tài)數(shù)據(jù))。
9.音樂標(biāo)注(Music Annotation/Tagging/Labelling)
應(yīng)用于復(fù)雜的音樂發(fā)現(xiàn)、建立語義相似的歌唱播放列表、音效庫管理、音樂推薦等場景。首先進行人工標(biāo)注,給音樂和音頻賦予描述性的關(guān)鍵字或標(biāo)簽;之后采用機器學(xué)習(xí)模型學(xué)習(xí)音頻內(nèi)容與標(biāo)簽之間的關(guān)系并進行自動標(biāo)注。困難之處在于實際待標(biāo)注的標(biāo)簽內(nèi)容本身無法確定,且難以客觀評價標(biāo)注質(zhì)量。
10.歌聲與歌詞同步
音樂電視節(jié)目的理想情況是歌聲、口型、歌詞三者精準(zhǔn)同步。這是一個典型的結(jié)合音頻、視頻、文本三種媒體的多模態(tài)研究。截至目前,尚未發(fā)現(xiàn)關(guān)于三者同步的研究,僅有少量關(guān)于歌聲和歌詞同步的研究。
在傳統(tǒng)的MIR技術(shù)中,并不包括算法作曲、歌聲合成、音頻水印、音視頻結(jié)合等內(nèi)容??紤]到這些技術(shù)也屬于音樂科技中十分重要的方面,這里也進行簡要介紹。
指在音樂創(chuàng)作時部分或全部使用計算機技術(shù),減輕人(或作曲家)的介入程度。用編程的方式來生成音樂,一般用語法表示、概率方法、人工神經(jīng)網(wǎng)絡(luò)、基于符號規(guī)則的系統(tǒng)、約束規(guī)劃和進化算法、馬爾克夫鏈、隨機過程、基于音樂規(guī)則的知識庫系統(tǒng)、深度遞歸神經(jīng)網(wǎng)絡(luò)等對時間域旋律進行預(yù)測。
通過共振峰參數(shù)合成法、采樣合成/波形拼接合成等方式,將歌詞按照樂譜合成為歌聲,應(yīng)用于虛擬歌手、玩具、練唱、音色轉(zhuǎn)換等多個場景。由西班牙MTG提供核心技術(shù),日本雅馬哈公司商業(yè)化的“初音未來”即是一個最典型的代表。
數(shù)字音頻水印[10]100-111是在不影響原始音頻質(zhì)量的條件下向其中嵌入具有特定意義且易于提取信息的技術(shù),嵌入的水印能夠經(jīng)受各種時域頻域的音頻信號失真及同步失真。該技術(shù)可用于保護版權(quán)、廣播監(jiān)控、盜版追蹤、內(nèi)容標(biāo)注等。
脆弱/半脆弱音頻水印用于數(shù)字音頻作品的真實性和完整性保護。脆弱水印用于檢測宿主數(shù)據(jù)發(fā)生的任何變化,半脆弱水印融合魯棒水印與脆弱水印的特性,能夠抵抗有損壓縮、噪聲等常規(guī)音頻信號失真,以及對剪切、替換、惡意篡改等非法操作敏感。
音頻取證(Audio Forensics)包括被動音頻認證,基本方式包括聽覺測試、頻譜圖/頻譜分析等,高級方式包括特征提取和統(tǒng)計分類。
人類感知的本能告訴我們,應(yīng)大力開展融合音視頻的跨媒體科技研發(fā)。典型應(yīng)用有音樂可視化、基于視頻速度和音樂情感進行的電影情感事件檢測等。
當(dāng)前的MIR技術(shù)發(fā)展仍然面臨諸多困難。從數(shù)據(jù)角度看,很多數(shù)字音樂涉及版權(quán)無法公開,各種音頻數(shù)據(jù)都源自特定場合和物體,難以搜集和標(biāo)注;從信號角度看,音樂中各種樂器和歌聲在音高上形成和聲,在時間上形成節(jié)奏,耦合成多層次的復(fù)雜音頻流,難以甚至無法分離處理,從而影響后續(xù)各個應(yīng)用。
由于國內(nèi)教育體制原因,藝術(shù)界與科技界割裂嚴(yán)重。20世紀(jì)90年代時開始,各音樂院校逐漸開始設(shè)立音樂科技/音樂工程系。但是直到現(xiàn)在,音樂科技仍然嚴(yán)重依賴引進設(shè)備、軟件進行藝術(shù)創(chuàng)作,重實踐輕理論的觀念根深蒂固,沒有底層計算機軟硬件核心技術(shù)的研發(fā)能力。在理工科領(lǐng)域里進行音樂科技研發(fā)的團隊和相關(guān)公司近十幾年剛剛起步,目前整體力量還不夠強大。
隨著中國經(jīng)濟的快速發(fā)展,近五年來,社會對音樂科技類的計算機軟硬件、互聯(lián)網(wǎng)產(chǎn)品的需求急劇增加。可喜的是,從小接受過音樂訓(xùn)練的理工科大學(xué)生數(shù)量越來越多,為該領(lǐng)域未來的發(fā)展提供了潛在的人力資源。2013年由復(fù)旦大學(xué)和清華大學(xué)創(chuàng)辦的全國聲音與音樂技術(shù)(Conference on Sound and Music Technology,CSMT)會議及交流平臺也對整個領(lǐng)域的發(fā)展起到了巨大的推進作用。
總體來講,在當(dāng)代社會,藝術(shù)與科技相融合是大勢所趨。無論從科技還是文化角度來講,音樂科技領(lǐng)域都具有很強的理論、應(yīng)用、文化及社會價值。在不久的將來,音樂科技一定會迎來它發(fā)展的輝煌時期。