摘 要: 針對云計算平臺下的語音信號處理模型進(jìn)行研究。傳統(tǒng)SVM語音信號處理識別模型是在單臺計算機(jī)中完成所有數(shù)據(jù)的處理和運(yùn)算。云計算環(huán)境的Hadoop平臺下使用SVM對語音信號處理,能夠發(fā)揮MapReduce并行計算優(yōu)勢,通過Map和Reduce操作將所需要的數(shù)據(jù)處理和運(yùn)算任務(wù)分配到多個計算機(jī)中同時進(jìn)行。使用中科院自動化研究所建立的CASIA漢語情感數(shù)據(jù)庫中的語音信號數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)。實(shí)驗(yàn)結(jié)果表明,使用云計算平臺下的語音識別模型針對研究的幾種情感的識別率基本在70%以上,識別率可以滿足要求。使用云計算平臺處理這種數(shù)據(jù)比較龐大的計算任務(wù)時,相比傳統(tǒng)單臺計算機(jī)平臺,效率較高,優(yōu)勢比較明顯。
關(guān)鍵詞: 云計算; 語音信號處理; 情感識別; 支持向量機(jī); Hadoop平臺
中圖分類號: TN911.7?34 文獻(xiàn)標(biāo)識碼: A 文章編號: 1004?373X(2016)02?0015?03
Research on speech signal processing in cloud computing platform
LIU Rundong
(College of Communication Engineering, Jilin University, Changchun 130012, China)
Abstract: The speech signal processing model in the cloud computing platform is studied in this paper. The processing and operation of all data is fulfilled by traditional SVM speech signal processing recognition model and in a single computer. SVM is used to process the speech signal in the Hadoop platform in cloud computing environment, which can give play to MapReduce parallel computing advantages, and assign the required data processing and computing tasksed to multiple computers at the same time through the Map and Reduce operation. The speech signal data in CASIA Chinese language sentiment database established by Chinese Academy of Sciences Institute of Automation is employed as the experimental data. The experimental results show that the emotional recognition rate of the speech recognition model based on the cloud computing platform is more than 70%, and the recognition rate can meet the requirements. When dealing with this kind of mass data calculation, the efficiency of the cloud computing platform is higher than that of the traditional single computer platform, and its superiority is obvious.
Keywords: cloud computing; speech signal processing; emotion recognition; support vector machine; Hadoop platform
人類屬于智能生物的一條重要特質(zhì)即人類擁有豐富的情感,在人們?nèi)粘I罱涣髦?,情感必不可少。近些年,隨著人工智能的發(fā)展,人們開始對機(jī)器進(jìn)行訓(xùn)練,一些機(jī)器已經(jīng)能夠懂得人們的語言,科研人員希望機(jī)器能夠更加智能和人性化,希望機(jī)器能夠通過人們的語言判斷人們的情感變化,使得人機(jī)交互變得更加自然和諧。情感識別已然成為情感計算的重要分支,并得到了科研工作者的廣泛關(guān)注[1?3]。
1 語音識別特征
漢語語境下,語言情感識別研究相對較晚,但得到了科研工作者的廣泛關(guān)注。如神經(jīng)網(wǎng)絡(luò)、K近鄰法、支持向量機(jī)、貝葉斯分類器等模式識別分類算法在語言情感識別中得到了使用。本文使用支持向量機(jī)算法建立語音情感識別模型,使用語音信號進(jìn)行預(yù)處理,提取用于識別的特征參數(shù),使用訓(xùn)練數(shù)據(jù)對支持向量機(jī)模型進(jìn)行訓(xùn)練,之后使用測試數(shù)據(jù)對訓(xùn)練好的模型的泛化能力進(jìn)行測試。通過對語音信號的分析以及參考文獻(xiàn),本文使用的用于語音信號識別的語音信號特征參數(shù)如表1所示[4?6]。本文主要針對愉悅、平靜、悲傷、驚奇、恐懼以及憤怒6種情感的語音識別進(jìn)行研究。這6種情感的語音波形如圖1所示[7?8]。
2 MapReduce模型
MapReduce將龐大數(shù)據(jù)操作任務(wù)分配給多個計算機(jī)節(jié)點(diǎn)共同完成,并將多個計算機(jī)節(jié)點(diǎn)的計算結(jié)果合成得到傳統(tǒng)單臺計算機(jī)計算得到結(jié)果。MapReduce包括的過程有:Map,Partition,Shuffle,Combine、Sort以及Reduce。但是可以將該過程合并為Map和Reduce兩個過程。Map過程將任務(wù)分配給多個計算機(jī)節(jié)點(diǎn)共同完成,Reduce過程將多個計算機(jī)節(jié)點(diǎn)的計算結(jié)果進(jìn)行合成。
表1 語音信號特征參數(shù)
注:[frame]代表幀數(shù);[Ei]代表各幀短時能量。
圖1 6種情感的語音波形
Map過程中,系統(tǒng)會把一個龐大的任務(wù)分劃為大小固定的片段,并將各個片段分解為鍵值對[K1,V1]。Hadoop平臺則片段建立Map任務(wù),可以完成用戶自定義的Map函數(shù),并輸入該片段的鍵值對[K1,V1],從而輸出計算結(jié)果[K2,V2]。根據(jù)[K2]將計算的結(jié)果進(jìn)行排序,得到元組[K2,listV2]。Reduce過程中,系統(tǒng)會把Map計算的結(jié)果進(jìn)行排序,輸入為[K2,listV2],輸出為[K3,V3]。MapReduce模型結(jié)構(gòu)如圖2所示[9]。
圖2 MapReduce模型結(jié)構(gòu)
3 云計算環(huán)境下SVM語音信號處理模型
傳統(tǒng)SVM語音信號處理識別模型是在單臺計算機(jī)中完成所有數(shù)據(jù)的處理和運(yùn)算。云計算環(huán)境的Hadoop平臺下使用SVM對語音信號處理,能夠發(fā)揮MapReduce并行計算優(yōu)勢,通過Map和Reduce操作將所需要的數(shù)據(jù)處理和運(yùn)算任務(wù)分配到多個計算機(jī)中同時進(jìn)行。在云計算環(huán)境的Hadoop平臺下使用SVM對語音信號處理時,需要使用Map操作將分割的子計算節(jié)點(diǎn)中的各個訓(xùn)練數(shù)據(jù)的子支持向量SVs求出,之后使用Reduce操作子計算節(jié)點(diǎn)的子支持向量SVs進(jìn)行匯總得到完整的支持向量AllSVs,即建立了云環(huán)境的SVM語音信號處理識別模型。使用SVM語音信號處理識別模型進(jìn)行數(shù)據(jù)測試時,需要使用Map操作將分割的子計算節(jié)點(diǎn)中的各個測試數(shù)據(jù)的測試結(jié)果Rs求出,之后經(jīng)過Reduce操作將子計算結(jié)果合并得到最終的語音信號處理識別結(jié)果。具體流程如圖3所示[10?11]。
圖3 云計算環(huán)境的Hadoop平臺下使用SVM對語音信號處理流程
云計算環(huán)境的Hadoop平臺下建立基于SVM的語音信號處理識別模型過程如下:
(1) 預(yù)處理語音信號數(shù)據(jù),將處理后的數(shù)據(jù)按照HDFS要求進(jìn)行分塊處理,并將分解的數(shù)據(jù)塊存儲到集群的各個計算機(jī)中。
(2) 建立SVM語音識別模型,初始化相關(guān)參數(shù),并選取應(yīng)用廣泛,性能優(yōu)越的RBF核函數(shù)作為SVM的核函數(shù)。
(3) 使用語音信號數(shù)據(jù)的訓(xùn)練樣本對SVM語音識別模型進(jìn)行訓(xùn)練,并將訓(xùn)練后得到的識別模型使用測試數(shù)據(jù)進(jìn)行泛化能力測試[12]。
4 實(shí)驗(yàn)分析
通過實(shí)驗(yàn)對本文研究的云計算平臺語音信號處理識別模型的性能進(jìn)行驗(yàn)證。實(shí)驗(yàn)平臺具有一臺主機(jī)NameNode,CPU為Intel i5 4950,內(nèi)存為8 GB DDR3 1 600 MHz,硬盤為500 GB,數(shù)據(jù)節(jié)點(diǎn)DataNode由三臺計算機(jī)組成集群,CPU為Intel i3 4170,內(nèi)存為4 GB DDR3 1 333 MHz,硬盤為500 GB。Hadoop為1.0.2版本,各個計算機(jī)集群節(jié)點(diǎn)實(shí)驗(yàn)千兆交換機(jī)進(jìn)行連接。本文使用中科院自動化研究所建立的CASIA漢語情感數(shù)據(jù)庫中的語音信號數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)。在此針對愉悅、平靜、悲傷、驚奇、恐懼以及憤怒這6種情感的語音進(jìn)行識別,從數(shù)據(jù)庫中抽取600條情感語句,其中每種情感語句有100條,80條用于對識別模型進(jìn)行訓(xùn)練,另外20條用于對識別模型進(jìn)行測試[13]。使用本文研究的云計算平臺下的語音信號處理識別結(jié)果如表2所示。
表2 云計算平臺語音信號處理識別結(jié)果
實(shí)驗(yàn)結(jié)果表明,使用云計算平臺下的語音識別模型針對研究的幾種情感的識別率基本在70%以上,識別率可以滿足要求。定義傳統(tǒng)單臺計算機(jī)完成任務(wù)所需時間除以云計算平臺完成任務(wù)所需時間為加速度比,本文使用的一臺NameNode和三臺DataNode組成的Hadoop集群平臺在處理語音情感識別任務(wù)時的加速度比達(dá)到了3.6,說明使用云計算平臺處理這種數(shù)據(jù)比較龐大的計算任務(wù)時,相比傳統(tǒng)單臺計算機(jī)平臺,效率較高,優(yōu)勢比較明顯。
5 結(jié) 語
情感識別已然成為情感計算的重要分支,并得到了科研工作者的廣泛關(guān)注。本文在云計算平臺下使用支持向量機(jī)算法建立語音情感識別模型,使用語音信號進(jìn)行預(yù)處理,提取用于識別的特征參數(shù),使用訓(xùn)練數(shù)據(jù)對支持向量機(jī)模型進(jìn)行訓(xùn)練,之后使用測試數(shù)據(jù)對訓(xùn)練好的模型的泛化能力進(jìn)行測試。使用中科院自動化研究所建立的CASIA漢語情感數(shù)據(jù)庫中的語音信號數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù);針對愉悅、平靜、悲傷、驚奇、恐懼以及憤怒6種情感的語音進(jìn)行識別。實(shí)驗(yàn)結(jié)果表明,使用云計算平臺下的語音識別模型針對研究的幾種情感的識別率基本在70%以上,識別率可以滿足要求。使用Hadoop集群平臺在處理語音情感識別任務(wù)時的加速度比達(dá)到了3.6,說明使用云計算平臺處理這種數(shù)據(jù)比較龐大的計算任務(wù)時,相比傳統(tǒng)單臺計算機(jī)平臺,效率較高,優(yōu)勢比較明顯。
參考文獻(xiàn)
[1] 韓文靜,李海峰,阮華斌,等.語音情感識別研究進(jìn)展綜述[J].軟件學(xué)報,2014,25(1):37?50.
[2] 韓一,王國胤,楊勇.基于MFCC的語音情感識別[J].重慶郵電大學(xué)學(xué)報(自然科學(xué)版),2008,20(5):597?602.
[3] 張海燕,唐建芳.基于RBF神經(jīng)網(wǎng)絡(luò)的語音情感識別[J].四川理工學(xué)院學(xué)報(自然科學(xué)版),2011,24(5):552?555.
[4] 陳明義,余伶俐,朱晗,等.基于特征參數(shù)融合的語音情感識別方法[J].微電子學(xué)與計算機(jī),2006,23(12):168?171.
[5] 付丹丹.貝葉斯網(wǎng)絡(luò)學(xué)習(xí)算法研究[J].大慶師范學(xué)院學(xué)報,2011,31(3):36?38.
[6] 劉豫軍,夏聰.連續(xù)語音識別技術(shù)及其應(yīng)用前景分析[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2014(8):15?16.
[7] 黃程韋,趙力.實(shí)用語音情感的特征分析與識別的研究[J].電子與信息學(xué)報,2011,33(1):112?116.
[8] 尤鳴宇.語音情感識別的關(guān)鍵技術(shù)研究[D].杭州:浙江大學(xué),2007.
[9] Tom White. Hadoop權(quán)威指南[M].周敏奇,王曉玲,金澈清,等譯.北京:清華大學(xué)出版社,2011:45?76.
[10] 劉鵬,黃宜華,陳衛(wèi)衛(wèi).實(shí)戰(zhàn)Hadoop[M].北京:電子工業(yè)出版社,2011:126?145.
[11] 汪光慶.基于SVM的網(wǎng)頁分類技術(shù)研究[D].北京:中國石油大學(xué),2011.
[12] 邊肇棋,張學(xué)工.模式識別[M].2版.北京:清華大學(xué)出版社,2002:296?300.
[13] 朱啟敏.基于云計算平臺的神經(jīng)網(wǎng)絡(luò)計算方法及其應(yīng)用研究[D].廣州:華南理工大學(xué),2014.