劉穎
(咸陽(yáng)師范學(xué)院, 音樂學(xué)院, 陜西, 咸陽(yáng) 712000)
電子音樂是當(dāng)前音樂領(lǐng)域中的一個(gè)主要音樂體系,隨著電子樂器與播放器等設(shè)備的快速發(fā)展,電子音樂內(nèi)樂器數(shù)量顯著提升。電子音樂音質(zhì)評(píng)估是判斷電子音樂制作水平的主要評(píng)價(jià)指標(biāo)[1]。
關(guān)于音質(zhì)評(píng)估的研究有:李子晉等[2]以主觀感知得分為基礎(chǔ)提取出了表征音色的客觀音頻特征,并對(duì)其差值進(jìn)行計(jì)算,得出音色相似性矩陣,實(shí)現(xiàn)了音質(zhì)檢測(cè)與評(píng)估。趙志成等[3]以音樂小節(jié)為依據(jù)劃分了音樂信號(hào),通過音樂信號(hào)的部分特征推斷整體特征,基于李雅普諾夫指數(shù)驗(yàn)證音樂信號(hào)中的混沌特性通過檢測(cè)到的音樂信號(hào)特征評(píng)估其音質(zhì)?,F(xiàn)有的音質(zhì)評(píng)估方法在使用過程中存在音質(zhì)評(píng)估精度較差的問題[2-3]。
為了改善這一問題,本研究提出基于深度神經(jīng)網(wǎng)絡(luò)的電子音樂音質(zhì)評(píng)估方法??紤]電子音樂中最重要的要素為旋律[4],因此在采用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行音質(zhì)評(píng)估前,需先提取電子音樂主旋律,在電子音樂主旋律基礎(chǔ)上分析影響電子音樂音質(zhì)的各項(xiàng)因子,基于這些影響因子構(gòu)建深度神經(jīng)網(wǎng)絡(luò),提升最終評(píng)估精度。
電子音樂預(yù)處理過程由音頻采樣、歸一化、分幀以及時(shí)頻與變換等過程共同組成。一般情況下,電子音樂高于5 kHz的諧波分量占比較低[5],因此在對(duì)電子音樂實(shí)施降采樣處理時(shí)設(shè)定采樣率為10 kHz,以此降低后續(xù)運(yùn)算復(fù)雜度。電子音樂內(nèi)音頻信號(hào)具有短時(shí)平穩(wěn)特性,需選取漢明窗對(duì)電子音樂音頻信號(hào)實(shí)施分幀加窗處理,設(shè)定每幀信號(hào)取樣點(diǎn)數(shù)量為320個(gè)。電子音樂信號(hào)時(shí)頻轉(zhuǎn)換采用短時(shí)傅里葉變換。
電子音樂由各個(gè)具有一定時(shí)值的音符組成,各音符的主要特性表現(xiàn)為具有相對(duì)穩(wěn)定的頻譜。這說明電子音樂內(nèi)各音符在語(yǔ)譜圖上為一系列以段間差異顯著、段內(nèi)差異微弱為特征的頻譜段。基于此,可選用度量距離算法實(shí)施音符分割處理。作為綜合數(shù)據(jù)段間均值與方法的距離度量方法,利用度量距離算法能夠確定電子音樂音頻段落間的差距。設(shè)定數(shù)據(jù)窗長(zhǎng)為5幀,利用式(1)可描述度量距離算法DIS表達(dá)式:
(1)
式中,μ1表示前一段電子音樂音頻特征的均值矢量,μ2表示后一段電子音樂音頻特征的均值矢量,tr(∑1)表示前一段電子音樂音頻特征協(xié)方差矩陣的跡,tr(∑2)表示后一段電子音樂音頻特征協(xié)方差矩陣的跡。在2段電子音樂音頻間特征均值差異較為顯著、段內(nèi)特征方差較為微弱的條件下,度量距離可描述2段電子音樂音頻間距離,兩者之間為正比例相關(guān)[6]。
采用短時(shí)幅度譜確定特征參數(shù)。經(jīng)由依幀滑動(dòng)數(shù)據(jù)窗確定關(guān)于幀數(shù)t的度量距離函數(shù)DIS(t):
(2)
計(jì)算DIS(t)內(nèi)全部的極大值點(diǎn),設(shè)置DIS(t)均值的閾值為T1,刪除 考慮電子音樂中既包含濁音段,也包含非濁音段,因此在切分后需利用濁音段檢測(cè)算法判斷濁音段與非濁音段。濁音段的頻譜方差顯著大于非濁音段,因此在確定電子音樂中濁音段時(shí)可采用頻譜方差作為特征參數(shù)。 通過上述電子音樂預(yù)處理過程可有效降低電子音樂旋律定位虛警率,利用度量距離算法實(shí)現(xiàn)音符切分,通過方差法確定電子音樂濁音段。在此基礎(chǔ)上,利用維特比算法跟蹤濁音段主導(dǎo)基頻軌跡,同時(shí)利用基頻辨別模型確定電子音樂主旋律。 在確定電子音樂內(nèi)各濁音段主導(dǎo)基頻軌跡后,利用基頻辨別模型判斷當(dāng)前主導(dǎo)基頻軌跡為主電子音樂還是伴奏,將不屬于主電子音樂的基頻軌跡刪除。 不同的電子樂器有不同的音色與音質(zhì),這主要是由電子樂器聲音的頻譜決定的,也就是由聲音基因與不同次諧波的相對(duì)強(qiáng)度決定的。 考慮人類聽覺特性的梅爾頻率倒譜系數(shù)是可體現(xiàn)聲音譜包絡(luò)特征的參數(shù)[8],利用神經(jīng)網(wǎng)絡(luò)構(gòu)建基頻辨別模型。同時(shí)電子音樂聲頻均包含諧波結(jié)構(gòu),因此電子音樂頻譜具有近似稀疏性,以某段電子音樂為樣本,提取其中的主導(dǎo)基頻F0,并通過梳齒濾波器采集對(duì)應(yīng)聲源的諧波譜,將提取信號(hào)的梅爾頻率倒譜系數(shù)輸入基頻辨別模型確定對(duì)應(yīng)基頻是否為電子音樂聲。電子音樂主旋律提取的詳細(xì)過程如下。 (1) 利用主導(dǎo)基頻F0構(gòu)造出式(3)所示的梳齒濾波器: (3) 其中,梳齒濾波器頻率單位為0~5 kHz,式(3)中K和b(f)分別表示0~5 kHz范圍內(nèi)諧波數(shù)量和梳齒濾波器基本波形。 (2) 利用梳齒濾波器對(duì)信號(hào)幅度實(shí)施濾波處理,獲取F0對(duì)應(yīng)的諧波譜,并采集其對(duì)應(yīng)的梅爾頻率倒譜系數(shù)參數(shù)。 (3) 將梅爾頻率倒譜系數(shù)輸入基頻辨別模型,確定F0是否為電子音樂聲基頻。 (4) 統(tǒng)計(jì)各濁音段內(nèi)電子音樂基頻的幀數(shù),若統(tǒng)計(jì)結(jié)果大于此濁音段總幀數(shù)的1/2,即可確定此濁音段的主導(dǎo)基頻軌跡為電子音樂主旋律。 一般情況下,與電子音樂音質(zhì)具有緊密相關(guān)性的因子主要有聲源特性、音響器材的信號(hào)特性、聲場(chǎng)特性、聽覺特性、立體感等類型。梁惠恩[9]采用層次分析法分析了電子音樂音質(zhì)的多種影響因素,計(jì)算了不同影響因子的權(quán)重,基于該研究結(jié)果,確定了電子音樂音質(zhì)的15個(gè)影響因子,在提取出的電子音樂主旋律中選取圖1所示的15個(gè)影響因子作為電子音樂音質(zhì)評(píng)估模型的建模基礎(chǔ)。 圖1 影響因子 以確保評(píng)估因子間不具有線性相關(guān)性為目的,選取方差膨脹因子對(duì)圖1所示的各項(xiàng)評(píng)估因子實(shí)施多重共線性檢驗(yàn)。通常情況下,在方差膨脹因子高于15的條件下,不同因子對(duì)應(yīng)的方差膨脹因子均低于15,由此充分表現(xiàn)出圖1內(nèi)所選的15個(gè)因子間不具有明顯的線性相關(guān)性,因此可用于電子音樂的音質(zhì)評(píng)估。 以保障深度神經(jīng)網(wǎng)絡(luò)正常訓(xùn)練為目的,需引入對(duì)照樣本。生成與主旋律中樣本點(diǎn)一致的隨機(jī)對(duì)照點(diǎn),將不同因子層內(nèi)各樣本點(diǎn)與對(duì)照點(diǎn)的屬性值錄入數(shù)據(jù)表內(nèi),生成樣本集,樣本集內(nèi)各數(shù)據(jù)均包含圖1內(nèi)的15個(gè)因子屬性值,將樣本集內(nèi)數(shù)據(jù)作為深度神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù)。 深度神經(jīng)網(wǎng)絡(luò)模型構(gòu)建以開源項(xiàng)目Keras人工神經(jīng)網(wǎng)絡(luò)庫(kù)為基礎(chǔ)[10]。由于樣本數(shù)量較少,因此選取包含4層全連接層、總計(jì)14層的深度神經(jīng)網(wǎng)絡(luò)模型。 圖2 深度神經(jīng)網(wǎng)絡(luò)模型 圖2的全連接層能夠與人工神經(jīng)網(wǎng)絡(luò)內(nèi)隱藏層的功能一致,4層全連接層的單元數(shù)(輸出維度)分別為30、15、7和1。由于訓(xùn)練集內(nèi)樣本數(shù)量較少,維度較低,為了提升深度神經(jīng)網(wǎng)絡(luò)模型對(duì)電子音樂音質(zhì)影響因子的表達(dá)能力,在第1層全連接層內(nèi)擴(kuò)展維度,經(jīng)過3層全連接層后將輸出收縮至一個(gè)單元的全連接層,輸入電子音樂音質(zhì)評(píng)估結(jié)果。 歸一化層位于2個(gè)全連接層間,利用歸一化方法對(duì)數(shù)據(jù)實(shí)施歸一化處理的核心為一致化處理神經(jīng)網(wǎng)絡(luò)各層的輸出與輸入分布,確保各層間數(shù)據(jù)的分布固定化,防止出現(xiàn)訓(xùn)練速度過慢或過擬合的問題,詳細(xì)操作過程如下: 激活層的主要功能為利用激活函數(shù)激活全連接輸出結(jié)果。作為非線性的變換函數(shù),激活函數(shù)可模擬腦神經(jīng)元閾值激活特性,將非線性特征引入深度神經(jīng)網(wǎng)絡(luò)內(nèi),提升模型表達(dá)能力。激活層內(nèi)包含ReLU函數(shù)和Sigmoid函數(shù)。前者為分段函數(shù),可提升模型收斂速度與網(wǎng)絡(luò)稀疏性;后者可將回歸層的輸入映射至[0,1],主要應(yīng)用在模型最后一層完成類別評(píng)估。經(jīng)過Sigmoid函數(shù)處理后,深度神經(jīng)網(wǎng)絡(luò)輸出值即電子音樂音質(zhì)評(píng)估值。2個(gè)函數(shù)的表達(dá)式分別如下: 驗(yàn)證本研究所提方法的實(shí)際應(yīng)用效果,進(jìn)行實(shí)驗(yàn)分析。在互聯(lián)網(wǎng)內(nèi)選取500段電子音樂作為測(cè)試數(shù)據(jù),該數(shù)據(jù)選自酷我電子音樂排行榜中的前500首電子音樂,該音樂集中的電子音樂的發(fā)表時(shí)間較新,且具有一定程度的代表性。從該音樂集的每首音樂中截取音樂特征較為明顯的部分進(jìn)行實(shí)驗(yàn)。從選取的電子音樂主旋律提取與深度神經(jīng)網(wǎng)絡(luò)建模效果兩方面分別進(jìn)行分析,所得結(jié)果如下。 設(shè)定電子音樂主旋律提取實(shí)驗(yàn)環(huán)境:信干比分別為0 dB和10 dB。信干比S/R計(jì)算公式如下: (10) 式中,E1和E2分別表示電子音樂中電子樂器聲音的能量和噪音的能量。 以旋律定位查全率、旋律定位虛警率、原始音高準(zhǔn)確率、原始色度準(zhǔn)確率和整體準(zhǔn)確率為評(píng)價(jià)指標(biāo)。將文獻(xiàn)[2]和文獻(xiàn)[3]方法分別定義為對(duì)比方法1和對(duì)比方法2。對(duì)比信干比分別為0 dB和10 dB的條件下本研究所提方法與2種對(duì)比方法的各項(xiàng)評(píng)價(jià)指標(biāo),結(jié)果如圖3所示。分析圖3得到,本研究所提方法在信干比分別為0 dB和10 dB的條件下的占比分別為0.09%和0.24%,與2種對(duì)比方法相比占比略低。由于本研究所提方法中判斷電子音樂主旋律過程中有較低概率將電子音樂旋律判斷為噪音,因此本研究所提方法的旋律定位查全率略低于對(duì)比方法1。但這種誤判概率較低,因此本研究所提方法的旋律定位虛警率明顯低于2種對(duì)比方法。整體準(zhǔn)確率是最主要的評(píng)價(jià)指標(biāo),本研究所提方法在不同信干比的條件下整體準(zhǔn)確率分別達(dá)到了87.33%和78.5%,高于2種對(duì)比方法。綜合對(duì)比之下,本研究所提方法提取電子音樂主旋律的性能優(yōu)于2種對(duì)比方法。 為驗(yàn)證本研究所提方法中深度神經(jīng)網(wǎng)絡(luò)模型的構(gòu)建效果,對(duì)比本研究所提方法和2種對(duì)比方法的建模效果。選取AUC值作為不同評(píng)估方法建模效果的評(píng)價(jià)指標(biāo)。AUC值的取值范圍為[0,1],其值越大表示評(píng)估效果越好,其值≤0.5表示模型無法實(shí)現(xiàn)分類。 考慮到建模樣本較少,因此采用k-fold交叉驗(yàn)證,具體過程如下:將樣本集內(nèi)全部樣本任意劃分為k份,同時(shí)實(shí)施k次循環(huán),每次選擇第k份樣本用于檢驗(yàn),其余樣本用于訓(xùn)練。大量研究資料顯示10-fold交叉驗(yàn)證可獲取更優(yōu)的效果,因此本研究所提方法采用10-fold交叉驗(yàn)證。不同方法內(nèi)模型10-fold交叉驗(yàn)證結(jié)果如圖4所示。圖4中,虛線為10-fold交叉驗(yàn)證內(nèi)各次檢驗(yàn)對(duì)應(yīng)的受試者工作特征曲線(ROC曲線),實(shí)線所描述的是10次交叉驗(yàn)證的平均ROC曲線。 圖3 電子音樂主旋律提取結(jié)果 分析圖4得到,本研究所提方法、對(duì)比方法1和對(duì)比方法2建模的平均AUC值分別為0.918 7、0.8718和0.867 6。本研究所提方法的平均AUC值顯著高于2種對(duì)比方法,由此說明本研究所提方法建模效果更好。 (a) 本研究所提方法 本研究提出了基于深度神經(jīng)網(wǎng)絡(luò)的電子音樂音質(zhì)評(píng)估方法,在電子音樂主旋律基礎(chǔ)上分析電子音樂音質(zhì)影響因子,將其作為電子音樂音質(zhì)評(píng)估模型的建?;A(chǔ),構(gòu)建深度神經(jīng)網(wǎng)絡(luò)模型評(píng)估電子音樂音質(zhì)。實(shí)驗(yàn)結(jié)果顯示,本研究所提方法中深度神經(jīng)網(wǎng)絡(luò)具有較好的建模效果,可提升模型應(yīng)用效果。但本研究仍存在一定的局限性,未考慮到不同音樂類型音質(zhì)評(píng)估的因子,后續(xù)研究中可以針對(duì)多種音樂類型音質(zhì)的影響因子進(jìn)行研究,以進(jìn)一步提升音質(zhì)評(píng)估技術(shù)的全面性。1.2 主旋律提取
1.3 因子提取
1.4 深度神經(jīng)網(wǎng)絡(luò)評(píng)估模型構(gòu)建
2 實(shí)驗(yàn)結(jié)果與分析
2.1 電子音樂主旋律提取
2.2 深度神經(jīng)網(wǎng)絡(luò)建模效果
3 總結(jié)