孫曉雪 魏占勝
摘 要:在快速發(fā)展的數(shù)字市場里,音樂產業(yè)正在進行著從實體到數(shù)字,音樂在數(shù)字市場所占的比例也在逐年增加,其所帶來的經濟收益也越來越可觀。本文主要以音樂視頻(Music Video,MV)為研究對象,概述音頻幾個主要底層特征與聽眾評價的關系。
關鍵詞:音頻;底層特征;聽眾評價
1 頻譜特征與聽眾情緒及評價的關系
頻譜特征對于音頻而言是一個很重要的底層特征。它是通過對音頻信號進行短時傅里葉變換而得到的譜特征,是音頻信號最基本的底層特征。
Krishna Kishore 和Krishna Satish 在其文章中選取SAVEE數(shù)據(jù)庫中的數(shù)據(jù),使用基于倒譜參數(shù)的子帶(Subband based Cepstral Parameter)和MFCC兩種算法識別憤怒、沮喪、害怕、快樂、中性、悲傷六種情感,其最高準確率達到79%。Bhaykar等人在其文章中研究了在演講人固定、不固定以及多種語言交叉的三種情況下進行情感識別,進一步驗證了梅爾頻率倒譜系數(shù)的有效性。研究中選用了IITKGP-SESC和IITKGP-SEHSC兩個語音數(shù)據(jù)庫,并使用高斯混合模型(Gaussian Mixture Model,GMM)和隱馬爾可夫模型(Hidden Markov Model,HMM)作為分類模型進行情感分類,文中共涉及了七種情感,分別為憤怒、厭惡、恐懼、快樂、中立、諷刺和驚喜。研究結果表明基于GMM模型使用MFCC特征識別7種情感的正確率為47.14%,而基于HMM模型的正確率為40.55%。頻譜重心也是一個重要的頻譜特征。Antonio Rodà對古老的音樂唱片進行了研究,使用4種不同尺寸的唱針重新刻錄這些唱片,并選取了年齡在21到26歲間的24個志愿者欣賞重新刻錄的唱片,通過志愿者的評價,利用頻譜重心和聲音的明亮度等音頻特征進行了定量的感知測驗分析,以檢驗唱片重新刻錄的質量。實驗結果表明,不同的唱針類型對刻錄唱片的質量有一定的影響。頻譜通量作為最基本的音頻特征,也有許多研究中使用這個特征。如Wang Xing等人在其研究中利用音樂情感和音樂結構構建音樂數(shù)據(jù)庫,研究中提取的特征有頻譜特征、聲音明亮度、梅爾頻率倒譜系數(shù)、頻譜重心、節(jié)奏等音頻特征,利用這些音頻底層特征構建了情感回歸因子,實驗結果證明音頻底層特征可以建立比較好的情感回歸因子。綜上所述,音頻的頻譜特征影響著聽眾情緒,從而影響著其對該音樂的評價的好壞。
2 節(jié)奏特征與聽眾情緒及評價的關系
節(jié)奏是音樂中不可缺少的一部分,節(jié)奏特征對于音樂的分析也是必不可少的底層特征。常用的節(jié)奏特征有節(jié)拍,節(jié)奏和脈動清晰度。不同的音樂表達著不同的情緒。Aathreya等人在其研究中基于Thayer情感模型,選取了快樂、旺盛、精力充沛、瘋狂、悲傷、憂郁、冷靜、知足8種情緒,提取了節(jié)拍、節(jié)奏、音高、過零率等音頻底層特征,根據(jù)音樂所表達的不同的情緒對歌曲進行分類,分類效率最高達到94.44%。Katsunori Arakawa等人在其文章中研究了聽眾的喜好與音樂特征間的關系。其選用的音頻特征就是節(jié)奏特征。研究結果表明聽眾喜歡的音樂往往集中在某些音樂特征軸上,此外,這些特征軸隨著聽眾與藝術家的不同而改變。節(jié)奏特征還用來對音樂情緒分類。Emiru Tsunoo等人提出了一種從音樂中提取出節(jié)奏和低音線特征的單元模式,將這一單元模式與統(tǒng)計特征提取相結合來對情緒進行分類。實驗結果表明自動地計算這一單元模式信息可以有效地用來對音樂情緒分類。脈動清晰度決定了節(jié)奏的周期性強度及音樂信號的脈動強度,其傳遞著如何使聽眾可以輕易的感知音樂底層的脈動的信息。Santosh Chapaneri等人提取音樂的力度特征、節(jié)奏特征、音色特征、譜特征,其中節(jié)奏特征中就選用了脈動清晰度特征,利用CFS選出重要的特征后對500首歌曲進行流派分類,這500首歌曲共有5個流派,分別為電子、爵士、流行、嘻哈、搖滾,最高的分類準確率達到了82%。
3 音色特征與聽眾情緒及評價的關系
音色特征同樣也是重要的音頻底層特征。聲音的明亮度影響著聽眾的情緒。明亮的音色再加上響亮的聲音會讓人產生活力,動蕩,沖突和豪邁的情緒;同樣的音色若是加上輕柔的聲音則會詩人產生敏感的、熱情的、悲憫的情緒。低沉的音色搭配輕柔的音樂更能激發(fā)聽眾的共鳴感。在不考慮節(jié)奏的飽和度的情況下,音色可以刺激聽眾的能量水平。此外,音頻信號的過零率(zero crossing rate,ZCR)在上文所提到的語音情感識別的研究中也是一個常用的底層特征,憤怒的情感相比于愉快的情感具有較高的震動均值。
4 音高特征與聽眾情緒及評價的關系
除上述幾種特征外,音高特征(pitch)也是人們常用來進行音頻情感識別的特征。Wu liang提出一個新方法用于語音情感識別,該方法是基于多類分類器,使用聲學的韻律信息和語義標簽對中性、愉快、憤怒和悲傷四種情緒進行識別。文中用于情緒識別的音頻特征中有音調、梅爾頻率倒譜系數(shù)、強度等,其采用元決策樹(Meta Decision Tree,MDT)將高斯混合模型、支持向量機和多層神經網(wǎng)絡三種分類器進行融合來提高識別的準確率。研究結果表明使用MDT可以使識別的準確了達到80%,單獨使用LS其平均準確率為80.92%,若將AP和LS結合使用則準確率可以達到83.55%,要高于單獨使用AP或LS進行識別。Shashidhar等人也采用音高和vowel onset points進行憤怒、害怕、高興、中性以及悲傷5種情感進行識別,以高斯混合模型作為分類器,對數(shù)據(jù)庫IITKGP-SESC和Emo-DB進行對比,對兩個數(shù)據(jù)庫的情感識別的準確率分別為92%和89%。
鑒于上述分析,可假設音樂視頻的頻譜特征、節(jié)奏特征、音色特征和音高特征對聽眾的情感狀態(tài)有影響,但是應該考慮哪些具體的特征呢?通過閱讀大量閱讀參考文獻,選取頻譜通量、頻譜質心、梅爾頻率倒譜系數(shù)、音符密度、節(jié)奏、脈動清晰度、聲音明亮度、過零率、音調9個音頻底層特征。
參考文獻:
[1]孫科.中國民族音樂特征提取與分類技術的研究[D].上海:東華大學,2011.
[2]孫鵬玉.波形音樂文件特征提取方法的研究[D].大連:遼寧大學,2013.
項目:吉林農業(yè)科技學院青年基金項目:吉農院合字[2018]第3013號
作者簡介:孫曉雪(1988-),女,滿族,吉林吉林人,碩士,講師,研究方向:機械電子。