張遼艷
(渭南師范學院莫斯科藝術學院,陜西 渭南 714000)
在音頻數(shù)據(jù)多樣化的發(fā)展下,如何檢測相似音樂片段成為了當下的研究熱點[1]。國外使用相似音樂片段檢測的軟件相對成熟,標記音頻特征檢測數(shù)值關系,主要應用于歌曲風格和旋律的區(qū)分。國內(nèi)在對音樂片段檢測上還有許多不足,比如文獻[2]中的檢測方法將音樂片段處理為MIDI文件樣本,結合音頻核驗處理方法構建一個匹配模式,雖然實現(xiàn)了相似音樂片段的檢測,但是匹配模式的精度不夠。文獻[3]的檢測方法利用注意力機制分配相似音樂片段的動態(tài)參數(shù)計算數(shù)值的上下權重,雖然數(shù)值檢測較為精準,但因用時過長在實際應用中效率不高。
本文以特征挖掘作為重點,設計基于特征挖掘的相似音樂片段檢測方法,在實際應用中檢測效率高。
設定音樂片段的采集周期t為0.5 s 后,控制音樂片段的重疊率為0,將音樂片段處理為特征向量集,數(shù)值關系I可表示為:
其中,ci表示索引函數(shù),為了控制噪聲數(shù)據(jù)產(chǎn)生的干擾,引入時序信息[4],拓展函數(shù)E的處理過程可表示為:
其中,D(t)表示周期性相似片段,不同的挖掘周期下產(chǎn)生的音頻損失如下圖所示。
綜合考慮上述音頻損失參數(shù),將該數(shù)值增添至計算得到的拓展處理函數(shù)當中[5],循環(huán)移位處理定制化公式為:
其中,φ、E(t)表示循環(huán)位移處理函數(shù)和周期基調(diào)函數(shù),γ為定值。運用全局閾值策略[6],提取得到相似音樂片段特征數(shù)M(i)的關系為:
其中,S(i)表示相似音樂片段的遞推函數(shù),E(i)表示全局閾值函數(shù)。
引用跳字算法構建一個相似音樂特征的數(shù)值概率關系P可表示為[7]:
其中,wi、wj分別表示不同結構的相似音樂特征函數(shù),C表示映射維度,i、j表示處理的音樂特征。結合該數(shù)值關系,構建一個特征數(shù)值預測過程,可表示為:
其中,vl、ω表示結構相似性函數(shù)和二次項系數(shù),引入適當?shù)膍、k參數(shù)輔助向量[8],控制計算得到的估計參數(shù)vmk為:
利用正態(tài)分布初始化分解上述計算得到的估計參數(shù)[9],選定數(shù)值映射表示為D,評價數(shù)值化處理后的音樂片段相似性,評價函數(shù)Q為:
設置上下文窗口為固定值g的范圍后,U為估計參數(shù)數(shù)據(jù)集,xi激活函數(shù),可數(shù)值化處理形成的相似音樂特征可表示為:
利用上述數(shù)值化處理后的音樂數(shù)值,結合音頻數(shù)值k的特征和加窗處理的變換幀n,采用加窗運算將音頻數(shù)據(jù)轉換為時域參數(shù)[10],得到函數(shù)x(n)為:
相似音樂片段存在多個平滑度相同的幀,調(diào)整時域數(shù)值在音樂信號中相位變化處理為:
其中,M、H表示窗的大小與采樣參數(shù),為消除音頻首尾靜音信號產(chǎn)生的干擾,提取音頻產(chǎn)生的短時能量E為:
其中,Ei、N表示首尾音頻的能量數(shù)值與片段數(shù)值,設定音樂片段的壓縮步長為3,形成的相似片段匹配過程如下圖所示。
對應上圖所示的匹配過程,為控制音樂檢測的精度,對相似片段處理的加權函數(shù)G為:
其中,S和Ri表示壓縮步長和加權函數(shù)。最終完成基于特征挖掘的相似音樂片段檢測方法的研究。
為支持音樂片段的采集,配置如下表所示的服務器,服務器參數(shù)如表1所示。
表1 準備的服務器參數(shù)
對應上表服務器參數(shù),準備20 種音符的音樂文件設拍速為120并提取音軌作為實驗處理對象,采集的音樂主旋律音符信息矩陣如表2所示。
表2 采集的音樂信息矩陣
在下述采集的音樂片段參數(shù)下,begin_tick-end_tick表示音頻的起始結束時間,vol與bpm表示音樂片段的特征,準備兩種傳統(tǒng)檢測方法與所設計的檢測方法進行實驗。
基于上述實驗準備,調(diào)試采集得到的音樂信息矩陣至上位機后,計算三種檢測方法的檢測準確率Pr可表示為:其中,R(u)表示待對比的音樂片段,T(u)表示實際匹配的音樂片段。對應上述的數(shù)值關系,計算并匯總三種檢測方法的準確率結果,實驗結果如表3所示。
表3 三種檢測方法準確率結果
根據(jù)表3所示的準確率結果可知,傳統(tǒng)檢測方法1和檢測方法2得到的準確率數(shù)值在75%左右和87%左右,檢測結果的準確率小,而所設計的檢測方法最終檢測準確率在95%左右,準確率最大,在檢測相似的音樂片段上最為準確。
在上述實驗環(huán)境下,選定YYXX-01~YYXX-05的音樂信息作為處理對象,記錄三種檢測方法可檢測音樂片段的長度,結果如下圖所示。
由圖3可知,傳統(tǒng)檢測方法1、2 的檢測音頻長度在5000tick與6000tick左右,文章設計的檢測方法可檢測的音頻長度在8000tick 左右,長度最大。設定音樂音頻文件的界限數(shù)量為10,重復迭代次數(shù)n為500次后檢測效率關系為:
其中,X表示待處理的音樂片段,對應上述設定的數(shù)值關系,三種檢測方法的檢測效率結果如下圖所示。
如圖4可知,傳統(tǒng)檢測方法1 和檢測方法2 的檢測效率在0.4和0.6左右,檢測效率較小。文章設計的檢測方法實際的檢測效率數(shù)值在0.8左右,并與傳統(tǒng)檢測方法相比檢測效率最大。
本文方法以特征挖掘作為技術支持,以相似音樂片段表現(xiàn)出的互通性,設計相似音樂片段檢測方法。經(jīng)實驗驗證,所設計的檢測方法能夠改善傳統(tǒng)檢測方法檢測效率過小的問題,實用效率高,為今后檢測相似音樂片段提供理論支持。