李曉宇,徐勇,張心蕊,汪倩,武雅利
(安徽財(cái)經(jīng)大學(xué)管理科學(xué)與工程學(xué)院,蚌埠233030)
語音情感識(shí)別是通過分析說話人的語音來識(shí)別人的情緒狀態(tài)。語音情感識(shí)別的主要流程包括選擇情感特征,情感特征的提取與降維和分類[1]。其中的每一步都具有重要的研究?jī)r(jià)值。目前公認(rèn)的與語音情感相關(guān)的聲學(xué)特征有韻律學(xué)特征、音質(zhì)特征、基于譜的相關(guān)特征[2-3],也有學(xué)者提出使用其他特征,如語音的非線性特征[4]。語音情感識(shí)別準(zhǔn)確率與語音特征的選取和提取有直接關(guān)系,對(duì)數(shù)據(jù)降維或者對(duì)提取算法做出改進(jìn),能有效提高情感識(shí)別率[5]。如Sun 等人提出的一種基于最大Teager 能量算子的過零特征提取方法可以更好地反映不同情感狀態(tài)的特征[6]。除了特征外,還需要使用合適的模型對(duì)情感進(jìn)行準(zhǔn)確的分類。比較常用的識(shí)別模型有隱馬爾可夫模型、高斯混合模型、支持向量機(jī)和神經(jīng)網(wǎng)絡(luò)[7-8]。
隨著計(jì)算機(jī)技術(shù)以及人工智能領(lǐng)域的快速發(fā)展,語音情感識(shí)別逐漸在各個(gè)方面發(fā)揮了重要作用,尤其是在人機(jī)交互領(lǐng)域[9]。智能機(jī)器人可以在與用戶進(jìn)行實(shí)時(shí)互動(dòng)時(shí),通過識(shí)別用戶的情緒采取不同的回應(yīng),提升交互間的真實(shí)性與趣味性。在呼叫中心,通過嵌入以語音識(shí)別為核心的智能質(zhì)檢系統(tǒng),可以指引運(yùn)營(yíng)人員發(fā)現(xiàn)服務(wù)過程中的短板,提升客戶滿意度[10]。
基于此,本文以2010 年來知網(wǎng)中有關(guān)語音情感分析的文獻(xiàn)為研究對(duì)象,分析國(guó)內(nèi)主要的研究機(jī)構(gòu)與學(xué)者和關(guān)鍵詞分布。此外,針對(duì)普通的關(guān)鍵詞頻統(tǒng)計(jì)不能很好地突出近幾年的研究趨勢(shì)的問題,對(duì)關(guān)鍵詞頻統(tǒng)計(jì)方法做出改進(jìn),通過計(jì)算文獻(xiàn)重要度,獲取近年來較為重要的關(guān)鍵詞,全面把握國(guó)內(nèi)關(guān)于語音情感分析領(lǐng)域的研究熱點(diǎn)與研究方向。
利用知網(wǎng)數(shù)據(jù)庫(kù)以“語音情感”作為檢索詞進(jìn)行檢索,檢索2010 年至今的中文相關(guān)文獻(xiàn)。具體著作發(fā)表年度及數(shù)量統(tǒng)計(jì)結(jié)果見圖1。
圖1 國(guó)內(nèi)語音情感分析文獻(xiàn)分布
從圖1 可以看出,國(guó)內(nèi)語音分析文獻(xiàn)數(shù)量自從2010 年來有兩個(gè)較大的增長(zhǎng)趨勢(shì)。在2010 年,國(guó)內(nèi)關(guān)于語音情感分析研究還較少,僅有17 篇文獻(xiàn)發(fā)表。2011 年有較大的增長(zhǎng),達(dá)到了37 篇。隨后五年的文獻(xiàn)數(shù)量比較平穩(wěn),每年的文獻(xiàn)發(fā)表數(shù)量維持在40-50 篇之間。而在2017 年,文獻(xiàn)數(shù)量又有了較大幅度的增長(zhǎng),2018 年小幅增長(zhǎng),達(dá)到了近10 年的頂峰,全年共有70 篇文獻(xiàn)發(fā)表。我國(guó)對(duì)于語音情感分析的研究在近十年總體保持著穩(wěn)步增長(zhǎng)的趨勢(shì),從2011 年以來一直都保持著一定的發(fā)文數(shù)量,近幾年則更加熱門。
圖2 作者與機(jī)構(gòu)共現(xiàn)分布圖
圖2 是基于CiteSpace 繪制的作者與機(jī)構(gòu)共現(xiàn)分布圖。可以看出國(guó)內(nèi)語音情感分析主要有兩大團(tuán)隊(duì)。最大的團(tuán)隊(duì)是由東南大學(xué)的趙力帶領(lǐng),在圖2 中形成了一個(gè)復(fù)雜的網(wǎng)絡(luò)關(guān)系圖,表示趙力團(tuán)隊(duì)在國(guó)內(nèi)語音情感分析領(lǐng)域有具有很強(qiáng)的影響力。從節(jié)點(diǎn)的色彩可以看出,趙力等人在每年幾乎均有發(fā)表相關(guān)文獻(xiàn)。從連接線可以看出,趙力與眾多學(xué)者均有合作或指導(dǎo)關(guān)系,聯(lián)系較為緊密的作者有黃程韋、陶華偉、金赟等人。在這個(gè)團(tuán)隊(duì)中,主要有東南大學(xué)信息科學(xué)工程學(xué)院、東南大學(xué)水聲信號(hào)處理教育部重點(diǎn)實(shí)驗(yàn)室、南京工程學(xué)院信息工程學(xué)院等機(jī)構(gòu)。由張雪英和孫穎帶領(lǐng)的團(tuán)隊(duì)僅次于趙力團(tuán)隊(duì),在語音情感分析領(lǐng)域也有一定的影響力。團(tuán)隊(duì)主要學(xué)者有張雪英、孫穎、張衛(wèi)、張波等人,研究機(jī)構(gòu)則主要是太原理工大學(xué)下屬學(xué)院。國(guó)內(nèi)其他團(tuán)隊(duì)規(guī)模相比于趙力和孫雪英等人有較大的差距,一般僅僅局限于同一個(gè)機(jī)構(gòu)下的少數(shù)學(xué)者。
圖3 關(guān)鍵詞時(shí)間分布圖
圖3 是根據(jù)國(guó)內(nèi)語音情感分析相關(guān)文獻(xiàn)關(guān)鍵詞而繪制的時(shí)間圖譜,關(guān)鍵詞分布圖是不同文獻(xiàn)的關(guān)鍵詞共同繪制在一張圖上,兩個(gè)關(guān)鍵詞之間有連線說明出現(xiàn)一篇文獻(xiàn)之中,通過不同的時(shí)間節(jié)點(diǎn)可以反映出語音情感分析研究主題隨時(shí)間變化的趨勢(shì)。圖中的各個(gè)結(jié)點(diǎn)聯(lián)系都比較緊密,說明了語音情感分析的研究方向之間有很強(qiáng)的交叉性。從時(shí)間分布可以看出,近十年支持向量機(jī)、特征提取、特征選擇等研究一直都較為熱門,特征提取與特征選擇等研究大多集中于2011-2015 年間,期間主要有高斯混合模型、基音頻率、模式識(shí)別、參數(shù)優(yōu)化等方面的研究。從2015 年來,研究方向主要轉(zhuǎn)向深度學(xué)習(xí),集成分類器、卷積神經(jīng)網(wǎng)絡(luò)等研究。近兩年研究的主題多為多模態(tài)情感識(shí)別、語譜圖和人工智能等。這體現(xiàn)了語音情感分析的一個(gè)逐步發(fā)展的趨勢(shì)。
表1 是關(guān)鍵詞出現(xiàn)的次數(shù)統(tǒng)計(jì),去除“語音情感”、“語音情感識(shí)別”、“情感識(shí)別”等主題本身的關(guān)鍵詞,列出了出現(xiàn)次數(shù)最高的14 個(gè)關(guān)鍵詞。14 個(gè)關(guān)鍵詞出現(xiàn)頻率均大于5,其中出現(xiàn)頻率大于三十的有四個(gè),分別是“支持向量機(jī)”、“特征提取”、“特征選擇”和“神經(jīng)網(wǎng)絡(luò)”,說明語音情感分析的研究主要集中在特征方面和分類方法上,著重于提升情感分析的準(zhǔn)確度。
表1 關(guān)鍵詞頻率表
關(guān)鍵詞頻分析法通過對(duì)關(guān)鍵詞出現(xiàn)次數(shù)的統(tǒng)計(jì)來揭示該領(lǐng)域研究熱點(diǎn)和發(fā)展動(dòng)向的方法[11]。然而對(duì)于比較新穎的研究方向與內(nèi)容,由于出現(xiàn)較晚的原因,關(guān)鍵詞頻統(tǒng)計(jì)值可能排名較后,不能很好地反映出本領(lǐng)域最新的發(fā)展趨勢(shì),并且領(lǐng)域內(nèi)的一些高質(zhì)量的文章所研究的主題也應(yīng)該被重點(diǎn)關(guān)注。因此,本文提出了文獻(xiàn)重要度來對(duì)關(guān)鍵詞進(jìn)一步分析。通過計(jì)算文獻(xiàn)重要度來篩選文獻(xiàn),相比普通的詞頻統(tǒng)計(jì)能夠更好地反映領(lǐng)域內(nèi)的近幾年的以及高質(zhì)量的研究方向,具有更高的參考價(jià)值。
文獻(xiàn)重要度主要有三個(gè)影響因素:來源期刊影響因子、發(fā)表年份和文章長(zhǎng)度。文獻(xiàn)來源期刊的質(zhì)量可以很好地反應(yīng)文獻(xiàn)的質(zhì)量和影響力,頂級(jí)期刊的文獻(xiàn)一般對(duì)于某個(gè)領(lǐng)域都有重要的影響。因此選取期刊復(fù)合影響因子作為文獻(xiàn)重要度的影響因素。文獻(xiàn)長(zhǎng)度可以衡量文獻(xiàn)對(duì)于相關(guān)領(lǐng)域研究的細(xì)致程度以及實(shí)驗(yàn)內(nèi)容的豐富與否。通常大部分相關(guān)文獻(xiàn)都在6-10 頁之間,因此設(shè)定文獻(xiàn)長(zhǎng)度在6 頁以下、6-10 頁以及10 頁以上的權(quán)重分別為0.6、1、1.5。對(duì)于年份權(quán)重Y,2014年之前發(fā)表的文獻(xiàn)設(shè)置為0.6,2014-2016 年間發(fā)表的文獻(xiàn)設(shè)置為0.8,2016 年后設(shè)置為1。具體的文獻(xiàn)重要度公式如下:
其中Importance 為文獻(xiàn)重要度,I 為文獻(xiàn)復(fù)合影響因子,L 為長(zhǎng)度權(quán)重,Y 為年份權(quán)重。
基于文獻(xiàn)重要度的關(guān)鍵詞統(tǒng)計(jì),不僅僅是對(duì)關(guān)鍵詞出現(xiàn)的次數(shù)進(jìn)行統(tǒng)計(jì),而是結(jié)合上文計(jì)算出的文獻(xiàn)重要度,具體計(jì)算方法是對(duì)出現(xiàn)的每一個(gè)關(guān)鍵詞乘以所在文獻(xiàn)的重要度,然后對(duì)相同關(guān)鍵詞的重要度累計(jì)求和,得出此關(guān)鍵詞的重要度。使用爬蟲爬取每一篇文獻(xiàn)的來源期刊的復(fù)合影響因子,利用重要度公式進(jìn)行計(jì)算,得到每一篇文獻(xiàn)的重要度,并統(tǒng)計(jì)所有關(guān)鍵詞的重要度。表2 是排序前14 位的關(guān)鍵詞及關(guān)鍵詞重要度。
表2 基于重要度的關(guān)鍵詞表
從表2 可知,“支持向量機(jī)”、“特征提取”、“情感特征”、“特征降維”等是語音情感分析領(lǐng)域研究較多或者重要程度較高的關(guān)鍵字。與表1 普通的關(guān)鍵詞頻統(tǒng)計(jì)相比,兩種方法均排在前列的關(guān)鍵字有“特征選擇”、“特征提取”、“支持向量機(jī)”、“神經(jīng)網(wǎng)絡(luò)”、“語譜圖”等,說明這些主題的相關(guān)研究較多,是領(lǐng)域內(nèi)的研究熱點(diǎn)。而兩表不同之處在于,也即重要關(guān)鍵詞排名較前,而關(guān)鍵詞頻統(tǒng)計(jì)排名靠后的關(guān)鍵詞有“情感智能”、“多模態(tài)融合”、“非個(gè)性化特征”和“情感語音合成”等。這體現(xiàn)了這些關(guān)鍵詞出現(xiàn)的頻率相比較低,然而基本出現(xiàn)在近幾年或者重要度較高的文獻(xiàn)中,可能是領(lǐng)域內(nèi)比較新穎的研究方向,對(duì)這些方向需要重點(diǎn)關(guān)注。
本文基于知網(wǎng)文獻(xiàn)運(yùn)用文獻(xiàn)計(jì)量的方法對(duì)目前的語音情感識(shí)別領(lǐng)域的研究進(jìn)行了分析,使用CiteSpace分析了國(guó)內(nèi)主要的研究機(jī)構(gòu)與學(xué)者,發(fā)現(xiàn)國(guó)內(nèi)語音情感分析主要有兩大團(tuán)隊(duì)。對(duì)關(guān)鍵詞時(shí)間分布研究發(fā)現(xiàn),研究主題具有從語音情感特征逐漸向神經(jīng)網(wǎng)絡(luò)再向多模態(tài)識(shí)別發(fā)展的趨勢(shì)。對(duì)關(guān)鍵詞頻統(tǒng)計(jì)法進(jìn)行改進(jìn),使用基于重要度分析關(guān)鍵詞的方法,可以從另一方面發(fā)掘近年來的研究熱點(diǎn)。對(duì)比分析發(fā)現(xiàn),“情感智能”、“多模態(tài)融合”、“非個(gè)性化特征”和“情感語音合成”等都是出現(xiàn)頻率不高,但是重要度較高的關(guān)鍵詞。
通過使用三種方法對(duì)關(guān)鍵詞綜合分析,可以將領(lǐng)域的研究熱點(diǎn)概括為以下幾個(gè)方向:①對(duì)語音情感特征的研究,包括語音情感特征選擇與提取相關(guān)研究,如非個(gè)性化特征研究、語譜圖特征等。②對(duì)分類方法的研究,如支持向量機(jī),神經(jīng)網(wǎng)絡(luò)、多模態(tài)融合識(shí)別等。③語音情感識(shí)別應(yīng)用方向的研究,如在人機(jī)交互領(lǐng)域的不同用途。今后的研究主要考慮對(duì)分類方法做出改進(jìn),進(jìn)一步提升語音情感識(shí)別的準(zhǔn)確率,并探尋語音情感識(shí)別在更廣泛領(lǐng)域的具體應(yīng)用。