戴曉娟
(寧夏師范學院)
音樂是一種借助樂和音來表現(xiàn)情感的藝術,通過不同的元素、巧妙的組合展現(xiàn)給我們一個豐富的情感世界.隨著時代的發(fā)展,人們逐漸將計算機技術應用到音樂領域,將音樂數(shù)字化、生活化,極大豐富了音樂的表現(xiàn)力和感染力.
流行音樂的主要傳播媒介從傳統(tǒng)的電臺和唱片逐漸滲入到網(wǎng)絡下載和網(wǎng)絡電臺等.網(wǎng)絡電臺需要結合收聽者的喜好,自動推薦并播放其他音樂.由于每個人喜好的音樂可能橫跨若干種風格,區(qū)別甚大,需要分別對待.在流行音樂中,傳統(tǒng)的風格概念包括Pop(流行)、Country(鄉(xiāng)村)、Jazz(爵士)、Rock(搖滾)、R&B(節(jié)奏布魯斯)、New Age(新世紀)等若干大類,它們分別又可以細分成許多小類,有些小類甚至可以做更進一步的細分.而每首歌曲只能靠人工賦予風格標簽.但這樣的做法有許多不足:有的類別之間關系不清楚,造成混亂;有的類別過度粗略或精細;有的類別標簽沒有得到公認;有的音樂歸屬則存在爭議或者難以劃歸.沒有一個統(tǒng)一的標準,因而就需要探討如何區(qū)分音樂風格.
針對流行音樂分類方法存在的問題,提出一種基于多分類SVM的流行音樂情感分類的研究.將線性方法和“一對多”方法結合起來.在所構建的情感音樂模型中,將音樂所表達的情感分為四類,分別是“單身的”、“滄桑的”、“媚惑的”、“迷茫的”.
(1)SVM和線型核函數(shù)能將流行音樂情感分類;
(2)多分類SVM能區(qū)分音樂的主旋律;
(3)音程差統(tǒng)計的數(shù)據(jù)能將流行情感音樂的比例進行分類.
音樂分類的處理過程應該符合模式識別應用的一般處理過程,因而可以用模式識別的思想來設計音樂分類技術流程.SVM的理論特色及其在實際應用中的表現(xiàn),已成為機器學習中一個極具前途的研究領域,備受國內(nèi)外學者的關注,也成為繼神經(jīng)網(wǎng)之后機器學習領域的研究熱點.這在很大程度上解決了模型選擇,非線性與維數(shù)問題,局部極小值問題等.對于線性不可分問題有兩種解決途徑,一是一般線性優(yōu)化問題,引入松弛變量;二是V.Vapnik的引入和空間理論即將低維輸入空間中的數(shù)據(jù)通過非線性函數(shù)映射到高位屬性空間H(也稱為特征空間),將分類問題轉化到屬性空間進行.可以證明,如果選用適當?shù)挠成浜瘮?shù),輸入空間線性不可分割問題在屬性空間將轉化為線性可分問題.屬性空間中向量的點積運算與輸入空間的核函數(shù)(kernel function)對應.從理論上講,滿足Mercer條件的對稱函數(shù)K(x,x)都可作為核函數(shù).目前使用的核函數(shù)主要有四類:線性核函數(shù)、p階多項式核函數(shù)、多層感知器核函數(shù)和RBF核函數(shù).
引入核函數(shù)之后,最優(yōu)分類函數(shù)的優(yōu)化問題轉化為:
由此得到最優(yōu)分類函數(shù)為:
這就是所謂的SVM模型.從上面的討論中看出,在模式識別領域具體應用SVM的步驟為:
(1)選擇適當?shù)暮撕瘮?shù).
(2)求解優(yōu)化方程,獲得支持向量及相應的Lagrange算子[6].
(3)寫出最優(yōu)分界面方程.
圖1為SVM的圖樣.
圖1 SVM的圖解
其中:線性判別函數(shù)
一個線性判別函數(shù)(discriminant function)是指由x的各個分量的線性組合而成的函數(shù).
兩類情況:對于兩類問題的決策規(guī)則為
如果g(x)>0,則判定x屬于C1,
如果g(x)<0,則判定x屬于C2,
如果g(x)=0,則可以將x任意分到某一類或者拒絕判定.
常用的核函數(shù)有線性核函數(shù)(Linear),多項式核函數(shù)(Polynomial),徑向基核函數(shù)(Radial Basis Function,RBF),S形核函數(shù)(Sigmoid)等等.該文采用線性核函數(shù),經(jīng)典的線性核函數(shù),分類線方程為x*ω+b=0,可以對其進行歸一化,使得對線性可分的樣本集(xi,yi),i=1,…,n,x∈R,y∈{-1,1}滿足:
在線性不可分的情況下,可以在條件中增加一個松弛項,ξi≥0成為將目標改為:其中ω2是使VC維的上界最小,ξi是松弛項,c>0是一個常數(shù).
音程差統(tǒng)計是解析MIDI并對其進行研究的必要條件之一.以音程差統(tǒng)計得到的數(shù)據(jù)為依據(jù),對MIDI音樂文件進行主音軌定位,主旋律識別和樂段分割等一系列操作.通過分析音程差統(tǒng)計,以不同的音程差值所占的比例為依據(jù),利用一對多思想構造多分類SVM分類器,從而進行流行音樂情感分類研究.仿真實驗結果表明該方法具有更好的抗干擾能力和正確率.
基于音樂特征空間的特征建模問題,對計算機自動識別音樂情感的關鍵技術進行了分析研究.針對多音軌MIDI音樂文檔,提出了一種基于改進型音程差統(tǒng)計算法的主旋律音軌自動定位方法.通過對MIDI文件格式的深入分析,提取了表征各音軌旋律聲學特征的基本參數(shù)(時值,音高,音強等);探討了旋律音符聲學特征與音樂情感描述間的關系,并總結出了基于旋律音符聲學特征的音樂旋律情感描述模型如圖2所示.[7]
圖2 旋律情感特征矢量通用提取模型
基于主旋律的不同,采用音程差統(tǒng)計的方法對不同的MIDI旋律進行了判別,選取100首具有代表性的不同流行歌曲的主旋律進行了音程差統(tǒng)計,如圖3所示,其中系列1為“單身的”,系列2為“媚惑的”,系列3為“滄桑的”,系列4為“迷茫的”.
圖3 不同主旋律的音程差統(tǒng)計分布圖
圖3是對音樂情感分類的研究音程差的統(tǒng)計特征為依據(jù),將流行音樂所表達的主旋律主要分為四類,分別為“單身的”,“滄桑的”,“媚惑的”和“迷茫的”.將由音樂學院學生提供的100首比較有代表性的音樂作為樣本,其中,“單身的”音樂有16首,“滄桑的”音樂有28首,“媚惑的”音樂有24首,“迷茫的”音樂有32首,每首音樂進行音程差統(tǒng)計,并對解析后所得到的樣本數(shù)據(jù)進行對比分析,然后發(fā)現(xiàn)在通過音程差統(tǒng)計得到的數(shù)據(jù)當中,音程差值比較低的數(shù)據(jù)所占的比率越大,則這首音樂的主要情感越趨向于“媚惑的”;而音程差值較低的數(shù)據(jù)所占的比率越小,則這首音樂的主要情感越趨向于“滄桑的”.由于大跨度音程差的頻繁出現(xiàn)并不能給音樂增加流暢感,相反會讓人感到突兀.因此在音主旋律中純一度、小二度、大二度、小三度、大三度的旋律音程差所占比率很高,而八度以上的音程差出現(xiàn)較少,對應的音程差值也主要集中在0到6之間.在音程差統(tǒng)計數(shù)據(jù)中,對于具有不同主旋律的音樂在相同的音程差值上所占的比率范圍也存在差異.具體結果如表1所示.
表1 不同情感音樂的音程差統(tǒng)計對比
其中,消極的包括部分“滄桑的”、“媚惑的”、“迷茫的”,積極的也包括部分“媚惑的”、“迷茫的”、“單身的”、“滄桑的”.
情感音樂的分類在計算機多媒體的應用中有著重要的作用,基于對流行音樂的情感分類,該文采用一種SVM模型和線形核函數(shù)結合的方法對流行音樂的情感進行分類,利用MIDI的音程差統(tǒng)計算法對音樂的主旋律音軌自動定位方法,通過MIDI的深入分析,提取了表征個音軌旋律聲學特征的基本參數(shù).該文的創(chuàng)新點在于采用了一對多的方法,對情感音樂進行了分類,對音樂的主旋律音軌自動定位,難點是核函數(shù)的建立及其公式,重點在于對音樂的音軌旋律聲學特征參數(shù)的提取.音樂情感分類的方法也有許多種,只是采取了其中的一種對音樂進行了劃分,對于核函數(shù)的應用,還有多層感知器核函數(shù)、P階多項式核函數(shù)、RBF核函數(shù).在以后還可以繼續(xù)向這方面發(fā)展.
[1] 張琴琴.音樂與情感[J].菏澤師專學報,1993:36-37.
[2] 曹政,陳寧,王吉軍.基于多分類SVM和MIDI音樂情感分類,遼寧,沈陽.
[3] 李劍.神經(jīng)網(wǎng)絡在音樂分類中的應用研究[D].重慶:重慶工程職業(yè)技術學院,400037.
[4] 彭瓊.計算機自動識別音樂情感的關鍵技術研究.上海交通大學.圖像通信與信息處理研究所,上海.
[5] 姚斯強,胡劍凌.線性判別分析和支持向量機的音樂分類方法.上海交通大學,圖上通信與信息處理研究所.上海交通大學碩士學位論文.
[6] 曹兆龍.基于支持向量機的多分類算法研究[D].華東師范大學碩士論文.
[7] 王鑫,劉軍.音樂情感的語言體計算模型的研究[J].北京郵電大學學報.