李子晉,江益靚,梁曉晶
(1. 中國音樂學(xué)院 音樂學(xué)系,北京 100101; 2. 復(fù)旦大學(xué) 計算機科學(xué)技術(shù)學(xué)院,上海 201203)
音色被定義為在音高、音強相同的情況下,區(qū)分出不同聲音的聲學(xué)感知.就樂器而言,音色是區(qū)分不同樂器最為重要的依據(jù).最直觀描述音色感知的方式是使用離散的主觀描述詞刻畫音色.在西洋樂團和中國樂團的相關(guān)文獻中,記載了許多形容樂器聲音特點的描述詞匯,例如“亮”、“尖”、“柔”、“暗”、“厚”與“嘶啞”等.研究人員常常通過主觀或客觀選擇方法對音色描述詞進行篩選.例如,主觀選擇方法有詞語選擇法、強制選擇評價法等;客觀選擇方法有相關(guān)性分析、聚類分析、多維尺度分析等[1].使用單個描述詞描述樂器音色的優(yōu)點是直觀、符合人們感知,缺點是沒有描述詞語的程度之分,以及忽略了描述詞語之間的非獨立關(guān)系.
音色通常被認為綜合了多個方面的感知[2].因此音色可以在某一描述詞維度上或相對描述詞維度上進行細化的語義尺度打分,通常以連續(xù)分值的方式表示,這被稱為語義細分法.例如,在明亮度、尖銳度、飽滿度等維度上對音色打分,或在明亮-暗淡維度、單薄-渾厚維度上對音色打分[3].文獻[4]通過主成分分析(Principal Component Analysis, PCA)的方式將其分為幾個相互正交的維度.文獻[5-6]計算出所有音頻之間的主觀得分距離矩陣,再將數(shù)據(jù)映射到低維空間,使得低維空間中的距離與高維空間中的距離一致.語義細分法的優(yōu)點是對音色的描述有程度之分,缺點是僅能在給定的某個或1對描述詞維度上按程度打分,限制了對音色的描述的全面性.
從19世紀70年代開始,學(xué)者們就在尋求魯棒的客觀特征來解釋音色感知,即使用客觀音頻特征來表征音色.早期的音色感知相關(guān)的研究普遍認為譜質(zhì)心是影響音色感知的重要維度之一[7].除此之外,譜偏差、譜密度、起音時間、起音質(zhì)心時間、延音時間、幅度譜包絡(luò)與譜通量都是常見的表征音色特征.
以往有關(guān)中國民族樂器的研究通常集中于定性方法,如文獻[8]使用音色主觀打分的方法驗證笙的物理參數(shù)與音色的關(guān)系,其中音色的標(biāo)簽是由音色主觀打分得到的.Wang等[9]進行了一系列關(guān)于中國民族樂器主觀評價的研究.這些研究集中于聲音感知的1個方面,并且通常以單個或1組中國民族樂器作為研究對象.關(guān)于中國民族樂器音色定量化的研究較少.文獻[10]使用譜特征對笛子的音質(zhì)進行了研究,通過音樂家或?qū)I(yè)人士的主觀音色感知,對笛子的音色在甜美、渾厚、通透與柔和4個方面進行打分.文獻[11]對竹笛音色進行了聲學(xué)分析,研究了頻譜特征構(gòu)成的音色空間與心理聲學(xué)的聯(lián)系.中國音樂學(xué)院于2018年發(fā)布了中國民族樂器多媒體數(shù)據(jù)庫[12],為深入研究中國民族樂器提供了可能[13-14].
綜合所有選擇的描述詞上的感知得分,本文引入了1種可視化的中國民族樂器音色的主觀描述方式;另外,選取文獻中常用來刻畫音色的客觀特征向量表征音色.本文使用這兩種不同的方式來研究不同樂器的音色相似度,此外,還探索了了主觀相似性與客觀相似性之間的相關(guān)性.本研究可以為作曲家和音樂家提供詳細的參考資料,且有助于音樂信息檢索系統(tǒng)和音樂推薦系統(tǒng)的相關(guān)任務(wù).
本實驗使用文獻[11]構(gòu)建的民族樂器音色主觀評價數(shù)據(jù)集.數(shù)據(jù)集包含37種民族樂器的樣本數(shù)據(jù),每種樂器包含1段3~4s的演奏片段.采樣率為44.1kHz,采樣位深為16bit.樂器按照類別可以分為弓弦樂器、管樂器、彈撥樂器和打擊樂器.文獻[11]從調(diào)查問卷和文獻中查找到329個音色描述詞,通過一系列詞語選擇、相關(guān)性分析、聚類分析等,得到16個樂器音色描述詞: 纖細(Slim)、明亮(Bright)、暗淡(Dull)、尖銳(Sharp)、渾厚(Mellow)、單薄(Thin)、厚實(Thick)、清脆(Crisp)、干癟(Dry)、嘶啞(Hoarse)、粗糙(Rough)、純凈(Pure)、協(xié)和(Harmonious)、豐滿(Rich)、柔和(Gentle)、混濁(Muddy).這16個音色描述詞可以較完整地表征整個音色感知.表1列出了研究的中國民族樂器及其分類.主觀評價過程是由34位參與者整體感知每種樂器的3~4s音樂片段,并對16個聽覺屬性進行評分,評分范圍為1~9分.參與者為有專業(yè)學(xué)習(xí)背景的音樂愛好者.
表1 中國民族樂器及其分類列表Tab.1 Chinese musical instruments and their categories
區(qū)別于以往用單個描述詞或者1對描述詞來描述音色的方式,本項工作基于上節(jié)中主觀感知的評價得分提出1種通過可視化的音色蜘蛛圖來描述民族樂器的方法.綜合各個樂器在16個音色描述詞上的評分,繪制出蜘蛛圖.音色蜘蛛圖包含16個主觀音色描述詞,半徑上由內(nèi)至外對應(yīng)的評分為1~9分.4種不類別的樂器的音色蜘蛛圖如圖1,圖2,圖3,圖4所示.不同樂器具有不同的音色蜘蛛圖“形狀”,也可稱之為其音色的“性格”.
圖1 弓弦樂器組的音色蜘蛛圖Fig.1 Timbre spider diagram of bowed string instruments
圖2 管樂器組的音色蜘蛛圖Fig.2 Timbre spider diagram of wind instruments
圖3 彈撥樂器組的音色蜘蛛圖Fig.3 Timbre spider diagram of plucked instruments
圖4 打擊樂器組的音色蜘蛛圖Fig.4 Timbre spider diagram of percussion instrument
不同大類樂器的音色蜘蛛圖有一定區(qū)別.例如彈撥類樂器多在協(xié)和維度有明顯凸起.管樂器多在在清脆維度有明顯凹陷.在同一大類樂器中,不同樂器的音色蜘蛛圖也不盡相同.例如弓弦樂器中,中胡聲音較為柔和,在各個描述詞上平均得分區(qū)別不大,對應(yīng)音色蜘蛛圖形狀圓潤近似圓形;京胡在清脆明亮描述詞上平均得分較高,在暗淡渾厚描述詞上平均得分較低.因而音色蜘蛛圖有明顯的起伏變化.該方法克服了以往使用單個描述詞來描述民族樂器較為單一的缺陷,對音色的描述形象、直觀且較符合人們的感知.
對34位受試者的評分數(shù)據(jù)進行整理、異常值處理操作之后,取得分的平均值作為樂器最終的感知得分.
基于音色感知得分的描述方法,第i種樂器可根據(jù)平均得分結(jié)果表示為向量Vi16,通過計算數(shù)據(jù)中37種樂器之間的歐式距離,可以得到基于主觀感知得分的差異性矩陣Dsub,維度為37×37,下標(biāo)“sub”為subjective縮寫,表明該矩陣是基于主觀感知得分計算出的.為了表示為相似性,本文采取了歸一化、與1作差的方式,得到相似性矩陣Ssub.Ssub的元素數(shù)值可近似為0~1,越接近于1表示兩種樂器的音色得分越相似.圖5為基于主觀聽覺感知的中國民族樂器音色的相似性矩陣,方格的顏色越深表示兩種樂器音色的相似度越高.
圖5 基于主觀聽覺感知的中國民族樂器音色相似性矩陣Fig.5 Timbre similarity matrix of Chinese musical instruments based on subjective auditory perception
圖5中除左上斜向右下的對角線以外,顏色較深的區(qū)域?qū)?yīng)的主觀聽覺感知實驗中的兩種樂器的相似度較高,如曲笛與新笛、京胡與板胡、古琴與古箏等.37種樂器按照4種類別排序,白色實線為不同類別的分界線.由圖看出,在對角線周邊的同一種類別的樂器很多具有較高的相似性.同種類樂器之間,音色相似的可能性更大,例如弓弦類樂器中,除革胡外,其余樂器有在對角線周邊顏色區(qū)域較深的現(xiàn)象,革胡與其他拉弦類樂器明顯不同,尤其是音色蜘蛛圖在尖銳和單薄處較突出的京胡與板胡.而京胡與板胡對應(yīng)的顏色逼近正紅色,這兩種樂器的音色蜘蛛圖也非常相似,進一步證明了這兩種樂器音色在主觀感知上相似.
為了研究樂器的客觀相似性,本文采用了文獻中常用來刻畫音色的客觀特征向量來表征音色,共計21維音頻特征,它們是時域特征(過零率)、頻域特征(頻譜質(zhì)心、頻譜平坦度、頻譜帶寬、復(fù)音特征、譜滾降、12維梅爾頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient, MFCC)(不包含第1個系數(shù))、譜對比度、音調(diào)質(zhì)心)以及諧波特征(諧噪比).使用44.1kHz的采樣頻率對音樂片段進行采樣,每幀包含2048個采樣點.對于每個音頻,計算多幀里每個特征的平均值,然后采用多維標(biāo)度法分析每種樂器的相似性.通過與3.1節(jié)相同的變換,可以獲得基于客觀音頻特征的中國民族樂器音色的相似性矩陣Sob,下標(biāo)“ob”為objective縮寫,表明該矩陣是基于客觀音頻特征計算出的,如圖6所示.
圖6 基于客觀音頻特征的中國民族樂器音色相似性矩陣Fig.6 Timbre similarity matrix of Chinese musical instruments based on objective audio features
基于客觀音頻特征的中國民族樂器音色的相似性矩陣中,同類樂器音色的特征向量相似的特性更加明顯.從圖6中看出,同屬彈撥樂器組的樂器音色整體最為相似.也有少量同類樂器的客觀音色之間有區(qū)別,例如同為管樂器,中音笙、低音笙和簫與中管、低音管和倍低音管的顏色區(qū)域較淺,即音色相似度較小,而這些樂器在基于主觀聽覺感知的音色相似性矩陣中差異性表現(xiàn)得并不明顯.后文對基于主觀聽覺感知的音色的相似性矩陣與基于客觀音頻特征的音色的相似性矩陣的相關(guān)性做進一步分析.
本文進一步分析了每種樂器基于主觀感知得分(Ssub)與基于客觀音頻特征計算出的音色相似性值(Sob)之間的皮爾遜相關(guān)系數(shù),計算公式如下:
式中: cov(Ssub,Sob)表示兩個相似性矩陣的協(xié)方差;σ(S)表示相似性矩陣的標(biāo)準差.計算出的皮爾遜相關(guān)系數(shù)如圖7所示.
圖7 37種樂器的主觀相似性與客觀相似性之間的相關(guān)系數(shù)Fig.7 Correlation coefficient between subjective similarity and objective similarity of 37 musical instruments
實驗結(jié)果表明: 在37種樂器中,有7種樂器(18.9%)的主觀和客觀相關(guān)性達到了0.60,具有較強的相關(guān)性;27種樂器(72.9%)的相關(guān)系數(shù)高于0.40,顯示出中等相關(guān)性,這說明客觀音頻特征與主觀音色感知有一定程度的相關(guān)性;其余10種樂器顯示弱相關(guān)或不相關(guān)性.研究還顯示較強相關(guān)的音頻多在構(gòu)造、演奏音域與技巧等方面與大多數(shù)同類別樂器相近.一方面可能由于提取的特征多為譜特征,和演奏音高技法相關(guān)性較大,而主觀音色感知較復(fù)雜,在感知音色時會結(jié)合多方面因素;另一方面可能由于使用客觀特征研究音色相似性時對所有特征研究的權(quán)重相同,而人在主觀感受音色時,在客觀特征對應(yīng)的物理特性方面會有所偏重.未來工作中可以進一步地研究探究各個特征與主觀音色感知的聯(lián)系,還可以納入更多的音頻特征,計算每個音頻特征時應(yīng)該指定合適的權(quán)重.
本文研究了37種中國民族樂器的主觀聽覺特征,通過樂器的主觀感知得分,提出1種通過可視化的音色蜘蛛圖來描述民族樂器的方法,并計算音色感知向量之間的差異性得到主觀音色的相似性矩陣,然后提取出表征音色的客觀音頻特征,并計算特征之間的差異性得到客觀音色特征的相似性矩陣,最后通過相似性矩陣對比樂器音色的相似性.此外,使用皮爾遜相關(guān)系數(shù)比較了音色的主觀相似性和客觀相似性之間的相關(guān)性,有72.9%的樂器的皮爾遜相關(guān)系數(shù)高于0.40.實驗結(jié)果表明客觀音頻特征與主觀音色感知有一定程度的相關(guān)性.
在未來工作中,我們將進一步擴大數(shù)據(jù)集,根據(jù)上文得到的結(jié)論,使用神經(jīng)網(wǎng)絡(luò)訓(xùn)練模型學(xué)習(xí)出客觀音頻特征與主觀感知得分的對應(yīng)關(guān)系,建立音色感知計算模型.此外,可以進一步研究跨組相似性的原因,以測試播放順序是否對這些樂器的聲音相似性有影響,還可以分別進行低、中、高音區(qū)和極限音域的主觀實驗,計算同種樂器不同音區(qū)的主觀感知和客觀特征的相似性,從而可以獲得不同音區(qū)下每種樂器的主觀特性及其對應(yīng)的客觀特性.這將為中國民族樂器的音樂信息系統(tǒng)提供更詳細的參數(shù).