李 立
(黃淮學(xué)院,河南 駐馬店 463000)
電子音樂是使用電子樂器以及相關(guān)技術(shù)制作的音樂,使用的電子樂器通過(guò)相應(yīng)的數(shù)字接口、合成器、音序器和計(jì)算機(jī)實(shí)現(xiàn)音樂數(shù)據(jù)交換[1]。隨著計(jì)算機(jī)技術(shù)的發(fā)展,對(duì)計(jì)算機(jī)視聽覺信息處理做更細(xì)致而深入的研究,通過(guò)人工智能技術(shù)能夠使計(jì)算機(jī)聽懂音樂。而以往的電子音樂信號(hào)辨識(shí)系統(tǒng)已經(jīng)不能滿足現(xiàn)在的需求,雖然傳統(tǒng)系統(tǒng)中利用音頻識(shí)別軟件可以實(shí)現(xiàn)電子音樂信號(hào)辨識(shí),但是對(duì)于存在過(guò)多轉(zhuǎn)調(diào)的電子音樂,系統(tǒng)解碼需要的時(shí)間過(guò)長(zhǎng)[2]。為了解決傳統(tǒng)的電子音樂信號(hào)辨識(shí)系統(tǒng)中存在的問(wèn)題,本文設(shè)計(jì)了一個(gè)深度學(xué)習(xí)的電子音樂信號(hào)辨識(shí)系統(tǒng)。
人工智能技術(shù)是目前主流發(fā)展技術(shù),它是由計(jì)算機(jī)科學(xué)技術(shù)發(fā)展來(lái)的,以生產(chǎn)出一種新的以人類智能相似的方式對(duì)事物做出反應(yīng)的智能機(jī)器為目的,應(yīng)用領(lǐng)域非常廣泛,對(duì)于不同的領(lǐng)域,應(yīng)用技術(shù)有所不同[3]。對(duì)于電子音樂信號(hào)辨識(shí)系統(tǒng),使用深度學(xué)習(xí)領(lǐng)域中的相關(guān)技術(shù),通過(guò)構(gòu)建具有隱含層和海量訓(xùn)練數(shù)據(jù)來(lái)建立和模擬人腦,布置能分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),模仿人腦的工作機(jī)制而解釋數(shù)據(jù),達(dá)到辨識(shí)電子音樂的目的。
電子音樂信號(hào)辨識(shí)系統(tǒng)由硬件和軟件構(gòu)成,其中,硬件部分主要由音頻采集模塊、音頻處理模塊、存儲(chǔ)模塊以及電源模塊組成[4]。硬件整體結(jié)構(gòu)如圖1 所示。
人類能夠聽到的聲音信號(hào)范圍在20 Hz~20 kHz 之間,是一種模擬信號(hào),在音頻采集模塊中,設(shè)置聲音傳感器,傳感器起到的作用類似于話筒,用來(lái)接收電子音樂音頻信號(hào)[5]。利用接口將接收到的信號(hào)傳輸至音頻處理模塊,經(jīng)過(guò)模數(shù)轉(zhuǎn)換、信號(hào)放大等過(guò)程處理音頻信號(hào),處理完成后存儲(chǔ)至存儲(chǔ)模塊中,同時(shí),通過(guò)音頻設(shè)備接口傳輸至計(jì)算機(jī)中,通過(guò)軟件部分辨識(shí)電子音樂[6]。
圖1 系統(tǒng)硬件結(jié)構(gòu)圖
在電子音樂信號(hào)辨識(shí)系統(tǒng)中,音頻處理模塊的核心是DSP 微處理器,由DSP 核心芯片支撐,音頻采集后的集中處理在該模塊中實(shí)現(xiàn)。從實(shí)際出發(fā),綜合系統(tǒng)的實(shí)際功能需求,選擇使用TI 推出的TLV320AIC23 芯片,也被稱為AIC23 芯片,它是一種支持MIC 和LINE IN 兩種輸入方式的芯片,并且對(duì)于音頻的輸入和輸出,具有可編程增益調(diào)節(jié)。芯片內(nèi)部高度集成了數(shù)模轉(zhuǎn)換和模數(shù)轉(zhuǎn)換,有助于提高音頻處理速度[7]。另外,采用先進(jìn)的過(guò)采樣技術(shù),在8~96 kHz 的頻率范圍內(nèi)提取16 bit,20 bit,24 bit和32 bit的采樣,其中ADC的信噪比可以達(dá)到90 dB,DAC 信噪比可以達(dá)到100 dB。同時(shí),該芯片具有極低的能耗,工作頻率在15~25 mW 之間。相關(guān)實(shí)物圖如圖2所示。
圖2 相關(guān)硬件實(shí)物圖
采集的音頻在音頻處理模塊中的處理過(guò)程有緩沖放大、模數(shù)轉(zhuǎn)換以及程控增益[8]。其中,緩沖放大是將音頻信號(hào)提升至模數(shù)轉(zhuǎn)換入口的幅度要求,同時(shí),還能夠防止音頻信號(hào)放大失真。時(shí)間連續(xù)的模擬信號(hào)不能直接數(shù)字化處理,利用AD7888 模數(shù)轉(zhuǎn)換器將其轉(zhuǎn)換為數(shù)字信號(hào),再傳輸?shù)接?jì)算機(jī)上識(shí)別電子音樂。程控增益是為了用戶更好地控制調(diào)整音頻信號(hào),實(shí)現(xiàn)在線參數(shù)修改,用戶與程序增益功能的交互是通過(guò)編碼開關(guān)來(lái)實(shí)現(xiàn)的,用戶可根據(jù)自己的需求調(diào)整開關(guān)到合適的擋位,使用戶選擇的增益比例精度更高,滿足更精準(zhǔn)的控制要求[9]。
為了消除口唇輻射和聲門激勵(lì)所帶來(lái)的的影響,消除低頻干擾,對(duì)音頻信號(hào)執(zhí)行預(yù)處理操作,提升電子音樂信號(hào)辨識(shí)更為有用的部分,使音頻信號(hào)的頻譜變得更平坦[10]。將音頻信號(hào)通過(guò)一階的數(shù)字濾波器處理:
設(shè)未經(jīng)處理的音頻信號(hào)為s( )t ,經(jīng)過(guò)處理后結(jié)果為:
式中:H( z )表示傳遞函數(shù);ω 表示數(shù)字頻率;z 表示極點(diǎn);c( t )表示t 時(shí)刻的輸出;s( t )表示t 時(shí)刻的輸入;c(t-1)表示上一刻的輸出。
經(jīng)過(guò)數(shù)字濾波處理后,采用可移動(dòng)的漢明窗執(zhí)行加窗分幀處理,使音頻特征始終保持穩(wěn)定[11]。分幀處理采用幀與幀之間交替重疊的方法,其交替部分就是幀移,其目的是使幀與幀之間平滑過(guò)渡,保持連續(xù)性。
在保證幀與幀之間平滑過(guò)渡,減小音頻的截?cái)嘈?yīng)后,進(jìn)入端點(diǎn)檢測(cè)步驟,端點(diǎn)檢測(cè)是電子音樂信號(hào)辨識(shí)的關(guān)鍵,對(duì)后續(xù)特征提取有很大影響[12]。從帶有噪聲的音頻中準(zhǔn)確地找出某個(gè)單音的起始點(diǎn)和終止點(diǎn),抑制無(wú)聲段的噪聲干擾,同時(shí)減少數(shù)據(jù)量和運(yùn)算量,減少處理時(shí)間。
音頻預(yù)處理完成后,利用倒譜參數(shù)提取電子音樂特征參數(shù),轉(zhuǎn)化為特征向量,以此為基礎(chǔ)辨識(shí)電子音樂。
電子音樂音頻特征的提取,可利用人工智能技術(shù)中的機(jī)器學(xué)習(xí),利用提取的特征建立神經(jīng)網(wǎng)絡(luò)模型,同時(shí)訓(xùn)練單音樣本作為輸入,與待辨識(shí)的音頻進(jìn)行對(duì)比[13]。電子音樂信號(hào)辨識(shí)系統(tǒng)需要提取其音頻特征,從原始音頻信號(hào)中提取音頻特征,因不同的電子音樂類型存在各方面的差異,如電子樂器的不同或電子機(jī)械技術(shù)的選擇不同等,導(dǎo)致產(chǎn)生的音頻信號(hào)不同。采用倒譜參數(shù)MFCC 提取特征,其核心思想是利用人耳的感知特性,能夠反映音頻信號(hào)的能量在不同頻帶的分布,不同單音的音頻信號(hào)能量集中在某個(gè)固定頻帶上的情況是一種描述電子音樂中單音的有效手段[14]。MFCC 參數(shù)是按幀計(jì)算的,首先通過(guò)FFT 得到經(jīng)過(guò)預(yù)處理的音頻幀信號(hào)的功率譜,將其轉(zhuǎn)換為Mel 頻率下的功率譜。轉(zhuǎn)換公式如下所示:
式中s表示頻率。
得到功率譜后,計(jì)算功率譜通過(guò)N 個(gè)濾波器后得到的功率值,取自然對(duì)數(shù),得到預(yù)備音頻信號(hào)特征,經(jīng)過(guò)離散DCT 變換,得到MFCC 參數(shù)。獲得了每個(gè)單音的特征參數(shù)后,由于每個(gè)單音的長(zhǎng)度各不相同,而神經(jīng)網(wǎng)絡(luò)上的輸入節(jié)點(diǎn)是固定的,每個(gè)單音的特征參數(shù)需要經(jīng)過(guò)時(shí)間和幅度的歸一化處理[15]。最后得到的單音特征就是提取的音頻特征,將其視為一維向量,作為神經(jīng)網(wǎng)絡(luò)的輸入,用于電子音樂信號(hào)辨識(shí)。
人工智能技術(shù)涵蓋的技術(shù)范圍過(guò)于廣泛,網(wǎng)絡(luò)結(jié)構(gòu)過(guò)于豐富,首先需要確定系統(tǒng)中使用的網(wǎng)絡(luò)結(jié)構(gòu)。假設(shè)獲得的單音信號(hào)特征是60 維特征,則神經(jīng)網(wǎng)絡(luò)的輸入層節(jié)點(diǎn)數(shù)就是60,隱含節(jié)點(diǎn)數(shù)為單音分類數(shù)設(shè)為15,隱含層節(jié)點(diǎn)數(shù)與輸出層節(jié)點(diǎn)數(shù)相同,則神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)確定為60?15?15。在網(wǎng)絡(luò)隱含層設(shè)置一個(gè)固定為1 的偏置,連接各個(gè)輸出節(jié)點(diǎn),參與權(quán)值訓(xùn)練。設(shè)置輸出層到隱含層之間為全連接,無(wú)需給定權(quán)值,可直接計(jì)算。每個(gè)單音對(duì)應(yīng)一個(gè)訓(xùn)練樣本,也就是15 個(gè)訓(xùn)練樣本,將其作為質(zhì)心集輸入,確定隱含層每個(gè)節(jié)點(diǎn)的函數(shù)形式,得到每個(gè)隱含節(jié)點(diǎn)的輸出。再根據(jù)已知的輸出層信息使用線性最小二乘法計(jì)算出隱含層到輸出層之間的連接權(quán)值,建立起完整神經(jīng)網(wǎng)絡(luò)模型,作為電子音樂信號(hào)辨識(shí)的分類器。神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示。
圖3 神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)
分類器確定后,將訓(xùn)練集中的單音輸入其中,每輸入一個(gè)單音數(shù)據(jù)的60 維特征矢量,就可以得到經(jīng)過(guò)隱含層和輸出層計(jì)算后的每個(gè)單音的可能性大小,該值介于0~1 之間,取值最大的就是輸出的結(jié)果,將其與輸入的MFCC 特征對(duì)應(yīng)的音符比較,判斷是否相同,輸出最后結(jié)果,完成電子音樂信號(hào)辨識(shí)。
本次測(cè)試主要針對(duì)存在過(guò)多轉(zhuǎn)調(diào)的電子音樂,使用設(shè)計(jì)的深度學(xué)習(xí)的電子音樂信號(hào)辨識(shí)系統(tǒng),測(cè)試音頻文件解碼時(shí)間,同時(shí),引用傳統(tǒng)的電子音樂信號(hào)辨識(shí)系統(tǒng)獲得測(cè)試結(jié)果,對(duì)比分析。為了使測(cè)試的文件滿足測(cè)試要求,選擇文件大小超過(guò)100 MB的音頻文件,利用Matlab軟件截取部分音頻信號(hào),其波形如圖4 所示。
圖4 原始待測(cè)音頻信號(hào)波形圖
該音頻文件中轉(zhuǎn)調(diào)比較少,利用Adobe Audition 軟件重新編輯音頻,使該音頻文件存在不同的轉(zhuǎn)調(diào),編輯完成后,通過(guò)Matlab 軟件截取相同部分音頻信號(hào),獲得的波形如圖5 所示。
圖5 處理后的音頻信號(hào)波形圖
使用處理后的音頻文件作為輸入,測(cè)試其在不同的電子音樂信號(hào)辨識(shí)系統(tǒng)下所需的解碼時(shí)間。
使用不同的電子音樂信號(hào)辨識(shí)系統(tǒng)測(cè)試的結(jié)果如圖6所示。
圖6 不同辨識(shí)系統(tǒng)測(cè)試結(jié)果
其中,圖6a)是使用傳統(tǒng)的電子音樂信號(hào)辨識(shí)系統(tǒng)測(cè)試的結(jié)果,其解碼速率為1 345.79 Kb/s,完成時(shí)間為76.28 s。圖6b)是使用設(shè)計(jì)的基于人工智能的電子音樂信號(hào)辨識(shí)系統(tǒng)獲得的結(jié)果,解碼速率為2 836.47 Kb/s,解碼時(shí)間為36.11 s,兩者相比,解碼速率提高了2 倍以上,說(shuō)明該系統(tǒng)有效地解決了傳統(tǒng)系統(tǒng)中存在的問(wèn)題。使用建立的神經(jīng)網(wǎng)絡(luò)模型,通過(guò)分布式并行信息處理的方法,依靠?jī)?nèi)部大量節(jié)點(diǎn)之間的關(guān)系,達(dá)到快速處理的目的。
深度學(xué)習(xí)的電子音樂信號(hào)辨識(shí)系統(tǒng)對(duì)電子音樂的發(fā)展具有十分重要的作用,該系統(tǒng)不僅能輔助專業(yè)的等級(jí)考試,而且也適用于非專業(yè)人員學(xué)習(xí)音樂。該系統(tǒng)在硬件設(shè)計(jì)中加入了程控增益功能,更好地控制精度,為后續(xù)提取音頻特征提供了一定的幫助,同時(shí),使用人工智能技術(shù)建立神經(jīng)網(wǎng)絡(luò)模型,將其作為分類器,實(shí)現(xiàn)電子音樂的辨識(shí)。經(jīng)過(guò)對(duì)比測(cè)試,證明了本文系統(tǒng)克服了傳統(tǒng)辨識(shí)系統(tǒng)的缺點(diǎn),對(duì)于轉(zhuǎn)調(diào)過(guò)多的文件,縮減了系統(tǒng)的解碼時(shí)間,適合應(yīng)用在實(shí)際生活中,方便各行各業(yè)學(xué)習(xí)和了解電子音樂,為電子音樂的發(fā)展做出一份貢獻(xiàn)。