趙 力 梁瑞宇,2 謝 躍 莊東哲
(1.東南大學(xué)信息科學(xué)工程學(xué)院,南京, 210096; 2.南京工程學(xué)院通信工程學(xué)院,南京, 211167 ; 3.中國人民公安大學(xué)偵查學(xué)院,北京, 100038)
語音測謊技術(shù)研究現(xiàn)狀與展望*
趙 力1梁瑞宇1,2謝 躍1莊東哲3
(1.東南大學(xué)信息科學(xué)工程學(xué)院,南京, 210096; 2.南京工程學(xué)院通信工程學(xué)院,南京, 211167 ; 3.中國人民公安大學(xué)偵查學(xué)院,北京, 100038)
早期的謊言測試技術(shù)易受個人和環(huán)境影響,同時反測謊技術(shù)對其影響也很大?;谀X電信號的測謊技術(shù)雖然能夠直接觀察撒謊行為發(fā)生時內(nèi)部相關(guān)腦區(qū)的神經(jīng)活動,更加客觀地揭示撒謊活動的內(nèi)部規(guī)律,但是此類技術(shù)所需的專業(yè)設(shè)備龐大而貴重。相比之下,語音測謊技術(shù)具有時空跨越性和高隱蔽性等優(yōu)點。本文介紹當(dāng)前測謊技術(shù)的發(fā)展情況和基本原理,介紹并分析了當(dāng)前的非語音測謊指標和聲學(xué)相關(guān)指標的類型及特點;然后介紹了目前公開的幾種語音相關(guān)的測謊數(shù)據(jù)庫,并重點闡述了語音測謊分類算法的研究進展;最后從漢語測謊語料庫建立、語音特征表達、反測謊技術(shù)研究、理論研究和配套工作開展等方面對語音測謊技術(shù)進行了展望。
謊言;測謊儀;語音信號處理;特征提取
在人類的交往中,謊言檢測一直都是人們比較感興趣的問題[1]。說謊是人類社會普遍的心理現(xiàn)象,是指明知真相的情況下故意對事實進行隱瞞、歪曲或憑空編造虛假信息以誤導(dǎo)他人的行為。研究表明,人類不擅長測謊,通?;谥庇X判斷[2],因此準確率僅比隨機概率高一點點[3],也可以認為人們檢測謊言的能力接近于猜測。因此,設(shè)計一個自動識別系統(tǒng)來識別謊言,可能要比人類自己識別的效果要好。
“測謊”的基本原理是人在說謊時的心理變化必然引起一些生理參數(shù)(如皮膚電、心跳、血壓、呼吸腦電波和聲音)的變化,通常它只受植物神經(jīng)制約而很難受大腦意識控制。因此傳統(tǒng)測謊技術(shù)是將心理學(xué)和生理學(xué)等多種學(xué)科交叉融和,通過電生理參數(shù)測試系統(tǒng)對個體內(nèi)心隱瞞意圖和狀態(tài)進行探測。其基本過程是首先由測謊員根據(jù)案情編題,然后依照題目逐個訊問被試者,同時用測謊儀描記下被試者的生理指標變化,最后測謊員依據(jù)欺騙時生理指標相對于誠實作答時生理指標的改變規(guī)律來推測被試者是否撒謊。測謊所涉及的問題主要有3類:中性問題,相關(guān)或主題問題和不相關(guān)或?qū)φ諉栴}?,F(xiàn)在使用的方法主要是向被測試者提出一些能對其形成不同程度刺激的問題,具體測試方法[4]包括:(1)準繩問題測試法;(2)犯罪情節(jié)測試法[5-6];(3)緊張峰測試法;(4)相關(guān)-不相關(guān)問題交叉測試法;(5)懷疑知情參與測試法;(6)緘默測試法;(7)真假對比測試法(強迫招認測試法)。目前,國際常用方法有犯罪情節(jié)測試法和準繩問題測試法兩種。中國主要應(yīng)用前種,而美國偏重于后者。
在謊言檢測技術(shù)方面,最常見的是測謊儀。早在1895年,意大利犯罪心理學(xué)家C.龍勃羅梭首次使用科學(xué)儀器進行測謊。隨著科學(xué)技術(shù)的發(fā)展,測謊器研究工作不斷擴展,各種各樣的生理指標都被用來進行測謊研究??捎玫臏y謊指標包括:脈搏、血壓、呼吸、皮膚電、皮溫、語音微抖動、腦電、心電、瞳孔、反應(yīng)時、手指不隨意運動和肌電、腎上腺素等[4]。但是直到20世紀70年代,才出現(xiàn)了使用語音來評估被測緊張程度的分析儀。1991年后,中國自行研制的第一臺測謊儀——PG-I型心理測試儀問世。該測試儀使用了包括語音、皮電和呼吸等參數(shù)進行“測謊”。但是,以上的系統(tǒng)只是把聲學(xué)參數(shù)作為測謊儀中一個因素考慮,并沒有完全脫離傳統(tǒng)的“測謊”模式。有代表性的完全利用語音聲學(xué)參數(shù)進行測謊的系統(tǒng)有美國的VSA和以色列的LVA系統(tǒng)。VSA主要利用語音波形測量技術(shù),依據(jù)人說謊時由于壓力會引起肌肉緊張和微顫,而形成聲波中的微顫調(diào)制和次波的產(chǎn)生[7]。LVA主要利用統(tǒng)計分析技術(shù)[8],依據(jù)人說謊時情緒參數(shù)的分布會和正常情況下的不一樣,利用幾百上千個參數(shù)進行統(tǒng)計分析來判斷是否說謊。雖然一些非科學(xué)團體,例如一些地方政府、保險公司、執(zhí)法機構(gòu)、軍方和大眾媒體投入大量資金購買這些系統(tǒng),但是科學(xué)研究表明這些產(chǎn)品的實用效果并不顯著[7-8]。近年來,隨著語音信號處理研究的飛速發(fā)展[9-11],語音測謊技術(shù)必然成為語音研究領(lǐng)域的一個熱點。
據(jù)統(tǒng)計,目前世界上已有50多個國家在不同程度上使用測謊技術(shù)。中國自20世紀80年代初期引進測謊技術(shù)之后,該技術(shù)在公安機關(guān)偵破刑事案件、國安、軍隊保衛(wèi)、民事仲裁及特殊部門人員招聘等領(lǐng)域進行了較為廣泛的應(yīng)用。尤其在刑偵方面,測謊技術(shù)可以有很多的輔助作用[12]:(1)配合偵查排查,較快突出重點嫌疑對象;(2)鑒別犯罪嫌疑人是不是作案者;(3)幫助偵查人員確定偵查和調(diào)查方向;(4)幫助偵查人員分析解決口供與證據(jù)、口供與口供之間的矛盾;(5)支援和驗證其他鑒定工作;(6)可以拓寬提問范圍、超越某些邏輯順序、避免犯罪嫌疑人主觀意志干擾,減少刑訊逼供。美國“9·11”事件之后,測謊技術(shù)的使用也拓展到反恐領(lǐng)域[13]。
(1)多道生理指標
最早的基于生理指標的測謊方法就是以脈搏、呼吸、血壓和皮電活動等多種外周生理指標為依據(jù)的測謊方法,主要由測謊員依據(jù)欺騙時生理指標相對于誠實作答時生理指標的改變規(guī)律來推測被試者是否撒謊。心理及生理學(xué)研究表明,人類在說謊時,恐懼、愧疚等復(fù)雜的心理活動可能會引起外在生理指標的變化主要表現(xiàn)在呼吸、循環(huán)、皮膚、視覺、語言系統(tǒng)及其他器官的變化上[14]。上述變化產(chǎn)生了多種依據(jù)不同生理指標的測謊方法,但是該方法的關(guān)鍵在于撒謊與否所引起的生理指標變化是否具有普遍性和特異性尚無定論[15]。因為這些生理指標經(jīng)常受到各種因素的影響,包括人的身體機能和心理狀態(tài)、測謊對象的配合程度、測謊員的素質(zhì)、測謊的時機和環(huán)境,甚至于任務(wù)刺激強度。由于多道測謊技術(shù)存在上述局限性,因此迫使人們尋求更為客觀有效的手段來彌補不足之處。
(2)腦電波相關(guān)
多道生理指標易受多種因素影響,并且能被心理素質(zhì)強的測試者控制,因此測試結(jié)果往往不準確。但是為了成功掩蓋欺騙行為,說謊者需要計劃自身反應(yīng),注意所處環(huán)境,從而控制自身行為和心理活動。這些活動在一定程度上受大腦的前額葉區(qū)域的管控[16],因此研究者開始借助于腦神經(jīng)成像技術(shù)以及數(shù)字信號處理技術(shù)。由于腦認知神經(jīng)技術(shù)能夠直接觀察撒謊行為發(fā)生時內(nèi)部相關(guān)腦區(qū)的神經(jīng)活動,與依靠外部生理活動變化的傳統(tǒng)的測謊技術(shù)相比更加客觀,更能揭示撒謊活動的內(nèi)部規(guī)律,利用認知腦電技術(shù)進行測謊成為測謊技術(shù)未來的發(fā)展方向[17]。目前,基于腦成像技術(shù)的測謊研究大致可以分為4種:事件相關(guān)電位(Event-related potential,ERP)[18]、正電子發(fā)射斷層成像(Positron emission tomography,PET)[19]、功能磁共振成像(Functional magnetic resonance imaging,fMRI)[20]和功能性近紅外腦成像(Functional near infrared spectroscopy,F(xiàn)NIRS)[21]。
目前,這些認知測謊技術(shù)對測試環(huán)境、過程的要求都比較高,而且要求被測者對測試過程高度配合,加之設(shè)備較為龐大,因此很難在自然情境下對被測者進行測謊。此外,認知神經(jīng)測謊技術(shù)設(shè)備都非常昂貴,因此可推廣難度大,且缺乏客觀的判定標準。
(3)眼動技術(shù)
眼動分析法是研究人類認知加工的有效方法,其無損傷、生態(tài)化和高效化的優(yōu)勢是一般研究技術(shù)難以取代的。心理學(xué)與生理學(xué)研究及實驗成果明確指出眼動與說謊的關(guān)聯(lián)參數(shù)[22],包括瞳孔直徑的變化、眼動軌跡、眼動注視時間[23]和眼跳[24-25]等。但是,單一的眼動指標的測謊效果往往不理想,因此有學(xué)者研究將眼動測謊與其它測謊技術(shù)進行結(jié)合[26],從而提高測謊效率。
(4)其他指標
除了上述指標,微表情、臉部溫度分布[27]、肢體動作以及文本識別[28-29]都有在測謊方面的應(yīng)用。
由上可知,目前絕大多數(shù)的生理學(xué)測謊方法,都采用接觸式的方式來采集被測者的各種生理指標,在需要被測者密切配合的同時,也給被測者帶來在一定程度的心理負荷,導(dǎo)致采集到的數(shù)據(jù)受到影響。而基于語音的測謊技術(shù)隱蔽性高,信號采集方便,不會給被測者帶來額外壓力,因此信號分析比較客觀。
語音中包含著說話人的很多信息,如說話者的身份、性別和年齡,甚至性格[30]。早期的研究顯示語音中包含著說話者的情緒狀態(tài),隱含許多可靠的語音特征與特定情緒間的關(guān)系[31]。當(dāng)人們緊張害怕時,基頻和語速會上升,而當(dāng)人們慌亂時,基頻和語速會下降。因此,利用聲學(xué)特征(基頻,語音持續(xù)時間和共振峰頻率等)可以獲知大量的心理和情緒信息。
說謊是一種復(fù)雜的心理生理過程,人說謊時在說話的語速、語氣等都會有所變化。此外,說謊時往往伴隨著心理的喚起,情緒的改變和生理上的改變,因此在很大程度上決定了發(fā)聲和共振的性質(zhì)。例如害怕增加了喉部肌肉的緊張,并且能增加聲門下方的空氣壓力,導(dǎo)致由聲門產(chǎn)生的聲音的改變,并由此改變聲音的音色。此外,人的語音音調(diào)也是一種低頻調(diào)制,其調(diào)制程度與精神緊張程度成反比。這種出現(xiàn)在7~15 Hz范圍內(nèi)的語音微抖動,正是當(dāng)前語音分析式測謊器所要檢測的指標。語音微抖動可產(chǎn)生語音的幅度調(diào)制和頻率調(diào)制。因此,依賴于說謊時特殊的生理狀態(tài),通過對說謊者的語音分析,有可能根據(jù)語音特征的改變來判斷說話人的狀態(tài)。
專注于以語音特征為線索的測謊技術(shù)的研究起步地相對較晚[32],主要研究方向有3個:情感喚醒/壓力[33]、認知負荷[34]和超控制[35]。2013年,Kirchhuebel采用語音的聲學(xué)和時間特征,從這3個方面深入研究了不同的會談方式對謊言檢測的影響[31]。美國哥倫比亞大學(xué)課題組在進行測謊研究時,采用特征組合的方法,將聲學(xué)特征、韻律特征和詞法特征組合使用,以支持向量機(Support vector machine,SVM)為分類器,得到了64.4%的準確率,結(jié)合說話人的個性特征能得到更高的準確率[29]。蘇州大學(xué)周燕在研究測謊時,以語音的稀疏表示作為深度置信網(wǎng)絡(luò)(Deep belief network, DBN)的輸入獲取深度特征,用SVM來訓(xùn)練和識別,最終獲得 69.83%的準確率[36]。上述研究工作雖然都是關(guān)注聲學(xué)特征對語音測謊的影響,但是仍然存在兩個問題:(1)大部分是心理學(xué)家從事的研究分析工作,而不是以技術(shù)可實現(xiàn)性出發(fā)的;(2)大量的研究工作并沒有確定有效的謊言檢測特征,很多研究工作的結(jié)論互相也是矛盾的。至今為止,并沒有哪一個特征能單獨有效地直接用來測謊。
2.1 聲音及韻律特征
聲音及韻律特征是語音分析的常用特征,在語音情緒分析與識別方面也有重要的應(yīng)用。2009年,Enos在其博士論文中,總結(jié)了大約200種聲音及韻律特征,包括持續(xù)時間、停頓、聲調(diào)和音強特征[37]。特征基于多維時間尺度提取,從幾秒到整個句子。(1)音調(diào)特征從每段語音的濁音區(qū)獲得。此外,大量的二階特征集包括:基音最大值,基音平均值,基音最小值,上升幀/下降幀/整幀/半幀/有聲幀中的基音數(shù),第一/最后一個斜率的長度,從下降到上升的變化數(shù)和第一/最后一個/平均斜率值。對這些特征有5種標準化方法:原始值、除以平均值、減去平均值、特征累計分布函數(shù)值以及減去平均值再除以標準誤差;(2)兩類基本能量特征被計算。每一段的原始能量和濁音的能量。此類特征也包括大量的二階能量特征,如最小值、最大值和平均值等;(3)(音素)持續(xù)特征。音長的最大值和平均值。同樣這兩個特征也表現(xiàn)為三種形式中的一個:原始值,使用說話者的持續(xù)時間進行歸一化,使用整個語音庫的持續(xù)時長來進行歸一化;(4)其他韻律特征。包括發(fā)言的最后一個音節(jié)的基音的斜率、發(fā)言的第一個音節(jié)的持續(xù)時間等。
在語音測謊方面,目前所用的特征都是上述特征的分支,區(qū)別在于特征統(tǒng)計量的求法和個數(shù)的不同。Ekman 等通過采訪影視片段觀后感的方式采集真謊話語料,通過對語料的基頻特征進行統(tǒng)計分析,發(fā)現(xiàn)說謊語音段與說真話語音段相比較,基頻有明顯提升[38]。Hansen等用梅爾頻率倒譜系數(shù)(Mel requency cepstrum coefficients, MFCC),以及MFCC的一階差分、二階差分、自相關(guān)和互相關(guān)構(gòu)造出一組特征,以神經(jīng)網(wǎng)絡(luò)的方法為分類器對特定說話人的聲音分11個壓力等級進行研究。結(jié)果表明,與平和狀態(tài)相比,以上特征在壓力狀態(tài)下的變化反應(yīng)了聲道發(fā)音器官的微抖動[39]。2003年,Depaulo等對現(xiàn)有測謊研究工作中提出的158種特征的元分析研究表明,其中有23種特征表現(xiàn)較為明顯,包括16種語音及語言相關(guān)特征,如相較于說真話,人在說謊話時會出現(xiàn)說話時長變短、表述細節(jié)變少、重復(fù)變多和基頻變高等現(xiàn)象[40]。美國普渡大學(xué)的研究小組利用幅度調(diào)制和頻率調(diào)制模型進行測謊研究,結(jié)果顯示Teager能量相關(guān)特征有區(qū)分真謊話的可能性[41]。
2.2 詞匯特征
大量文獻表明詞匯的用法為謊言的檢測提供了重要的線索[40]。早期研究通過手抄方式,從文本中提取了大約50個詞匯特征[37]。詞匯特征包括簡單的詞性和詞的特點(如不同類型代詞),縮略詞,動詞時態(tài)和特定的短語,如直接否認(如“我沒有”)。此外,一些提示性短語(如事實上、基本上),可以用來標記話語結(jié)構(gòu),并當(dāng)做是欺騙性語音的線索。
詞匯特征包含表現(xiàn)積極和消極情緒的詞匯[42]。其他特征包括發(fā)言是否是一個問句,面對主試的訊問時詞匯的重復(fù)數(shù)量。許多功能可以描述為詞或偽詞,如存在誤讀或莫名其妙的詞語,一段語句中的詞數(shù)以及詞數(shù)與段長的比值。最后的特征是標注面談主題的標簽。一些副語言特征包括笑聲的數(shù)量、說話人噪聲和可聽見的呼吸聲等都是在轉(zhuǎn)錄時手工標注的。
但是,詞匯特征存在一些局限性:(1)從語法上,一些特征容易混淆,比如過去分詞和被動語態(tài),名詞和動名詞等;(2)雖然一些個人特征包含否定結(jié)構(gòu)(hasNot, hasNo),但是并不意味著否定;(3)主題特征是語料庫相關(guān)的,因此獲得與面談主題相關(guān)的相似特征是合理的;(4)這些特征通常無法在實際中有效提取,因此多是心理學(xué)家進行實驗研究,實用化難度較大。
2.3 測試者相關(guān)特征
謊言和謊言檢測還具有個性化因素,這增加了謊言檢測的難度[43]。早期的作研究了5主體依賴性特征:謊言中填充停頓的數(shù)量和真話中填充停頓數(shù)量的比值;謊言中線索性短語和真話中線索短語的數(shù)量比;包含填充停頓或線索短語的語段數(shù)量與整體語段數(shù)量的比值以及性別因素[37]。這些特征的計算方法如下(以謊言中填充停頓的數(shù)量和真話中填充停頓數(shù)量的比值為例):首先計算每個被試者的比值,然后匯總所有被試者數(shù)據(jù),并根據(jù)被試者給出的得分和匯總數(shù)據(jù)設(shè)置被試者的值為4分位數(shù),即被試者的特征值是0~3的整數(shù)。
需要注意的是:(1)使用4分位數(shù)而不是原始比例數(shù)據(jù)的原因在于,每個被試者的原始比例數(shù)據(jù)獨一無二,可以識別單個被試者,但可能會帶入不公平的優(yōu)勢到學(xué)習(xí)算法中;(2)由于這些特征需要進行標定,所以可能不利于學(xué)習(xí)模型學(xué)習(xí)沒有訓(xùn)練數(shù)據(jù)的對象,除非可以使用其他方法獲得被試者的4分位數(shù)據(jù)。
3.1 CSC數(shù)據(jù)庫
影響謊言語音自動檢測的主要障礙是缺少用于訓(xùn)練和測試的高質(zhì)量的謊言和非謊言語音的數(shù)據(jù)。CSC數(shù)據(jù)庫[44]是由語音學(xué)家設(shè)計并用于研究語音謊言檢測的專業(yè)數(shù)據(jù)庫。語料庫包含男女各16名被試者(母語為英語)參與研究,均來自哥倫比亞大學(xué)。被試者被告知參加“交流實驗”,并且欺騙其說是為了尋找符合25個“美國頂級企業(yè)家”要求的人才。首先,設(shè)計者在音樂、互動、生存技能、食品和葡萄酒知識及紐約地理和公民6個方面對被試者進行提問和任務(wù)測試,將被試者得到的分數(shù)與最突出的企業(yè)家相比以判斷他們是否具有優(yōu)秀人才的特質(zhì)。實際中,任務(wù)的難點在于使被試者相信他們在某兩個方面符合該特質(zhì),某兩個方面得分過高,其余兩個方面得分過低。為此,每個主題方面都存在一組“簡單”和“困難”的問題。然后,被試者被告知得分,然后告訴他們不符合目標特質(zhì)。但是也告訴他們可以說服面試官他們是符合要求的。任何成功欺騙受訪者,使其相信他們符合目標特質(zhì)的被試者都可以獲得100美元,并能參與進一步的研究工作。此外,受試者被告知,研究表明能說服有特定能力的人通常享有許多社會福利。這個提議被受試者所接受,并且為受試者提供了動力。
通過初始測試并得到分數(shù)后,所有被試者在雙層隔音棚中與主試進行面談,并試圖通過欺騙讓主試相信其在6個領(lǐng)域的能力都是符合優(yōu)秀人才的特質(zhì)。由于上述的設(shè)計,被試者會在其中兩個領(lǐng)域說實話,而在其他領(lǐng)域說謊。面試官的任務(wù)是確定被試者是如何思考的,其被允許問被試者任何問題,即使不同于他們實際所需執(zhí)行的任務(wù)。每次交談持續(xù)25~50 min,一共包含大約15.2 h的對話;最終生成大約7 h的語音樣本。
3.2 IDIAP Wolf 數(shù)據(jù)集
Idiap Wolf數(shù)據(jù)集是瑞士IDIAP研究機構(gòu)采集的音視頻數(shù)據(jù)集的一部分,也是第一個在多說話人場景下錄制的謊言數(shù)據(jù)庫[45]。數(shù)據(jù)采集背景為狼人游戲,數(shù)據(jù)庫的創(chuàng)新性在于不僅允許調(diào)查欺騙性/非欺騙行為,也包括引起懷疑的行為動作,包括語音。擔(dān)當(dāng)狼人角色的玩家將被歸類為說謊者,而擔(dān)當(dāng)村民角色的玩家將被歸類為誠實者。實驗人員分為四組,每組平均19人,其中兩人始終扮演狼人。實驗進行了15次,所有高品質(zhì)的音頻數(shù)據(jù)通過頭戴麥克風(fēng)采集。除了實驗數(shù)據(jù)外,玩家在非實驗狀態(tài)下的數(shù)據(jù)也被記錄為基準數(shù)據(jù)。
3.3 DyVis數(shù)據(jù)庫
DyViS數(shù)據(jù)庫(語音的動態(tài)變化)來源于英國的一個資助項目,研究認為劍橋大學(xué)的弗朗西斯諾蘭及其團隊在劍橋大學(xué)[46]。該項目旨在從兩個角度探索語音的動態(tài)變化:(1)評估語音信號中的動態(tài)特征的有效性,比如表征說話人的聲音或共振峰的轉(zhuǎn)換特征;(2)關(guān)注更廣泛的聲音或語言的變化,以及如何根據(jù)這些變化中體現(xiàn)出的本質(zhì)來區(qū)別說話人。重點關(guān)注的是體現(xiàn)變化的語音變量。
事實上,盡管該數(shù)據(jù)庫并不是為研究謊言語音而設(shè)計,但是它確實有用于各種研究目的的潛質(zhì)。數(shù)據(jù)庫包含100個標準英語男性的高質(zhì)量對話錄音,對話具有不同的背景,條件和風(fēng)格。對于研究謊言語音特別有價值的是模擬的警察采訪,參與者會被詢問有關(guān)其參與的販毒事件的問題。采訪采用信息收集的風(fēng)格,并為部分需要掩蓋某些事實的應(yīng)聘者構(gòu)建了“認知負荷”的場景。采訪完全復(fù)制現(xiàn)實生活,可以保證參與者能充分參與。但是,設(shè)計復(fù)雜化了其在謊言語音研究方面的應(yīng)用。參與者被要求裝作參與了犯罪。可以說,表演本身都是騙人的。除了扮演他們的角色,參與者被要求在警察采訪時也撒謊。所以,在某種程度上,他們是雙重欺騙的。
3.4 Smell of Fear數(shù)據(jù)庫
Smell of Fear數(shù)據(jù)庫旨在研究生物、生理、心理和行為因素與隱瞞知識行為間的關(guān)系[47]。研究在可控的實驗室中進行,包含多個訪談環(huán)節(jié)。參與者被要求隱瞞擁有的物體,并金錢獎勵作為回報。訪談遵循一個可擴展的審訊協(xié)議進行,包含20個“是/否”的問題。為了采集每個參與者的控制數(shù)據(jù),參與者首先需完成一個關(guān)于家庭和愛好相關(guān)的基本訪談。隨后,為了提高參與者的覺醒水平,接著的兩個會談采用結(jié)構(gòu)化方式。第一次會談的問題集中在社會的可取性和可信性方面,而第二次采訪會談則直接詢問有關(guān)擁有的物體的問題。為了在問題表述上實現(xiàn)一致性,實驗者預(yù)先錄制問題,并通過錄音機播放。在3次會談中,38名母語為英語的男性的音頻和視頻數(shù)據(jù)被記錄下來。
在研究語音相關(guān)因素方面,語料庫的設(shè)計存在一些不足。首先,隱瞞物體被視為一個受試者間的變量。參與人數(shù)的一半(撒謊者)擁有物體,因此不得不欺騙面試官,而另一半(誠實者)沒有該物體,因此沒有欺騙的必要。由于語音和嗓音具有說話人相關(guān)性,因此這兩類人不能相互比較。其次,參與者沒有戴耳機麥克風(fēng)和基本錄音設(shè)備(即標準磁帶錄音機)進行錄音,因此樣本質(zhì)量存在缺陷。
4.1 常用機器學(xué)習(xí)算法
同大部分分類問題一樣,謊言檢測也是采用機器學(xué)習(xí)算法進行分類。目前的模式識別算法有很多種,從研究比較廣泛的SVM到最新的深度學(xué)習(xí)網(wǎng)絡(luò)算法,都有相關(guān)的學(xué)者進行研究。但是,目前那種分類算法效果最好,尚沒有定論,還有很多研究工作需要開展。
在算法比較分析方面,Enos博士做了大量的工作[37],基于4類特征集比較了5種機器學(xué)習(xí)方法。5種機器學(xué)習(xí)方法為:樸素貝葉斯、Ripper[48]、c4.5、邏輯回歸和SVM算法。4種特征集為:(1)基本特征集(文本特征,聲學(xué)和韻律特征,歸一化處理);(2)基本特征集加測試者相關(guān)特征集(包含基本特征集和說話人相關(guān)的特征);(3)所有特征集;(4)Best 39特征集(基本特征集加測試者相關(guān)特征集經(jīng)過卡方排列選出的39個特征)[37]。每一種特征集在所有學(xué)習(xí)算法中進行訓(xùn)練,并對每種特征集都使用十折交叉驗證法來檢驗算法準確度。測試結(jié)果如表1所示。
表1 不同特征集的識別精度測試結(jié)果(括號內(nèi)為均值的標準誤差)
表1給出了一些比較結(jié)果:(1)在基本特征集上,c4.5具有最好的性能,因為c4.5能很容易捕獲到特征之間的復(fù)雜關(guān)系和相關(guān)性,但是與SVM和邏輯回歸分類器并沒有顯著性的差異。(2)在基本特征集加測試者相關(guān)特征集上,c4.5同樣具有最好的性能,這歸因于決策樹學(xué)習(xí)器和歸一化特征的作用。在該特征集上學(xué)習(xí)的決策樹充分利用了葉子節(jié)點中的能量和基因變化特征,以及詞匯特征,尤其是積極和消極的情感詞匯、過去式和第三人稱。中層規(guī)則使用了詞匯特征和副語言特征(笑聲和錯誤發(fā)音)。高層節(jié)點中出現(xiàn)的測試者相關(guān)特征可通過與欺騙行為相關(guān)的策略來幫助區(qū)分說話人。(3)在所有特征集上,同上一特征集的效果幾乎相同,可能是因為特征集已經(jīng)冗余;而c4.5依然是這個特征集下表現(xiàn)最好的學(xué)習(xí)器。(4)在Best 39特征集上,c4.5學(xué)習(xí)器表現(xiàn)最好,分類準確率達到了70.00%。但是,其與Ripper學(xué)習(xí)器并沒有顯著的差異。決策樹的學(xué)習(xí)表明:詞匯特征(again,yes,no和一些積極與消極的情感特征單詞)體現(xiàn)在葉子節(jié)點上,主題特征以及各種詞匯特征出現(xiàn)在中間層,與測試對象相關(guān)的特征則出現(xiàn)在頂層。
表2 CSC數(shù)據(jù)下兩種特征集的檢測精度對比
此外,在相同的CSC數(shù)據(jù)庫上,哥倫比亞的研究團隊做了進一步的研究工作[49]。測試特征包括韻律、詞匯、句法和音位特征;測試算法包括SMO, Bagging, Dagging, BayesNet,NaiveBayes和Majority voting算法。測試結(jié)果如表2所示。表2中的基本特征集為openSMILE[50]的6 373種靜態(tài)特征,包括基頻、強度、譜、倒譜、時間、語音質(zhì)量和銳度等。頂級特征集經(jīng)過Weka屬性評估[51]后,信息增益大于零的172維特征,主要包括音位特征,大部分來自open SMILE的聽覺譜特征,部分語言查詢與字數(shù)統(tǒng)計和情感語言特征[52],基頻變化特征[53]以及一些附加的詞匯特征[37]。從實驗結(jié)果看,NaiveBayes算法能達到64.7的識別率。
此外,蘇州大學(xué)的趙鶴鳴教授的團隊也在從事謊言檢測工作,并提出了引入非線性動力學(xué)特征來研究謊言檢測問題[54-55]。最近的研究成果表明,該團隊提取了30位韻律特征加18維非線性動力學(xué)特征,并基于相關(guān)向量機進行了實驗測試[55]。實驗結(jié)果顯示,該方法可以達到70.7%的識別率,接近于基于腦電數(shù)據(jù)的75.4%的識別率。但是該課題并不是基于開源的數(shù)據(jù)庫進行測試,因此后繼還要進行進一步的實驗驗證。
4.2 深度學(xué)習(xí)網(wǎng)絡(luò)算法
近年來,深度學(xué)習(xí)在圖像與語音領(lǐng)域的巨大成功引起學(xué)界與工業(yè)界的廣泛關(guān)注[56]。一些學(xué)者已開始將卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network, CNN)與循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent neural network, RNN)應(yīng)用于語音信號處理方面[57-58],并取得一定的成果。傳統(tǒng)的CNN由于其網(wǎng)絡(luò)級聯(lián)結(jié)構(gòu),在提取高層次特征時,會舍棄來自底層卷積層的低層次特征,深度網(wǎng)絡(luò)[59-61]通過連接各個卷積層的輸出解決了這一問題,并在人臉識別領(lǐng)域達到99.15%的識別率,超過了人類試驗者。
在語音測謊研究方面,基于深度學(xué)習(xí)網(wǎng)絡(luò)的研究剛剛起步。中國國內(nèi),有學(xué)者采用受限玻爾茲曼機進行測謊研究工作,在自行錄制的數(shù)據(jù)庫上,識別率可以達到60%以上[36]。此外,本課題組也在從事基于深度學(xué)習(xí)的語音測謊方面研究。研究團隊與公安大學(xué)合作,一方面從事漢語謊言數(shù)據(jù)庫的錄制工作,一方面基于CSC數(shù)據(jù)庫進行謊言語音檢測算法研究。目前,借鑒深度學(xué)習(xí)網(wǎng)絡(luò)的相關(guān)研究工作[60],課題組提出一種基于CNN的語音測謊算法[62]。該網(wǎng)絡(luò)共分為6層,具體描述如下:
(1)網(wǎng)絡(luò)前三層為卷積層,使用尺寸不同的卷積濾波器,濾波器參數(shù)在該層共享,每層卷積層均后接池化層,進行維度為2的特征圖降維。第1層卷積層的卷積濾波器尺寸為3×2,第2層為2×3,第3層為2×2。對輸入進行卷積操作,從而得到各個卷積層獨有的特征,即有
(1)
式中:Fl為所述該層的特征圖;l表示層數(shù);Kl表示第l層卷積層的卷積核;Il表示該層的輸入;i,j為第l層特征圖中的特征點位置;m,n表示第l層卷積核的尺寸。
(2)網(wǎng)絡(luò)第4層為聚合層,通過將前3層卷積層的特征圖展平得到
(2)
(3)
(3)網(wǎng)絡(luò)第5層與第6層均為全連層,每層均由2 048個線性修正單元組成。
提取出的語音樣本的梅爾倒譜系數(shù)圖像特征輸入卷積神經(jīng)網(wǎng)絡(luò)后,會得到第六層的2 048維輸出向量,通過計算該向量的后驗貝葉斯概率分布,即
(4)
式中:x(i)為第i個待識別樣本通過網(wǎng)絡(luò)第6層得到的2 048維輸出向量;θ1和θ2為置信度評測參數(shù),均為2 048維的向量;選擇分布中最大的概率,則該概率所屬類別即為網(wǎng)絡(luò)對待識別樣本的評測結(jié)果。在CSC數(shù)據(jù)庫上的測試結(jié)果顯示,該模型對謊言的識別率達到70%左右。
盡管基于語音的測謊技術(shù)已經(jīng)有了一些有效的嘗試和探索,但還有很多問題亟待解決。由于說謊原因的多樣性,每個人說謊有不同的特征表現(xiàn),不同人對說謊時情緒的控制和掩蓋能力不同,加大了測謊的難度。語音測謊的難點主要包括:
(1)測謊語料庫的不完善。說謊語料的特殊性導(dǎo)致了說謊語料采集的難度較高,現(xiàn)今學(xué)者們開展的語音測謊研究多在自己錄制的小語料庫中進行,大多基于情景模擬,或是從影視資料中截取的音頻文件,很少能采集到實際情況下的謊言語料,沒有一個數(shù)據(jù)量較大的、標準的、可靠的和通用的測謊語料庫。且現(xiàn)有測謊語料庫絕大多數(shù)都是英文的,尚沒有漢語的測謊語料庫。因此為了更好地推進語音測謊的研究,測謊語料庫的構(gòu)建是首要任務(wù)。
(2)特征表達問題。學(xué)者們經(jīng)過對多種語音特征的研究,對于某一語音特征對測謊的貢獻尚未達到統(tǒng)一認可的結(jié)論,即單一語音特征對測謊的效果只在特定實驗環(huán)境中成立,其他不一定適用。此外,言語特征和文法特征也是未來測謊的研究方向之一,比如上下文等[63]。因此,許多學(xué)者致力于發(fā)現(xiàn)多種語音特征的組合對測謊的貢獻。
(3)語音測謊的普適性。狀況依存性是語音信息的一個重要特點,各國的語言和民族習(xí)慣不同,語言表達的方式不同。此外,在研究情感和情感狀態(tài)時,個體差異將是研究的一個先決條件,而這種差異存在于欺騙的行為中。某些人格特質(zhì)和智力都可能左右一個人在謊言下的表現(xiàn)出來的特征[64]。因此,研究不具有個體差異的特征或排除個體差異的影響對于語音測謊技術(shù)有重要意義。
(4)如何有效防止反測謊的問題。說謊受心理因素的影響非常大。人說謊時為避免被識別,會控制表述方式,盡量使自己表現(xiàn)得和說真話時一樣。心理素質(zhì)好的人變化較小,特征變化不明顯。因此,如何有效地防止反測謊問題對于提高測謊的識別率至關(guān)重要。
(5)研究工作應(yīng)該理論與實踐并重。建立令人信服的指標與說謊行為間的理論假設(shè),而不是簡單地找出測試指標的變化與是否撒謊之間的簡單聯(lián)系。符合這一理論假設(shè)的測試指標必須應(yīng)該滿足精確性、特異性和推廣性的原則。關(guān)于謊言的心理學(xué)和哲學(xué)理論研究對測謊技術(shù)發(fā)展有重要的指導(dǎo)工作[65]。同時,對謊言檢測的研究應(yīng)該涉及日常生活的各個領(lǐng)域,比如人際關(guān)系、商業(yè)和政治等[66]。而且,未來研究應(yīng)該超越測謊技術(shù),應(yīng)該更加關(guān)注于對“可疑”的檢測。部分研究學(xué)者已經(jīng)在從事相關(guān)工作的研究[67-68]。未來,該項研究可用于邊境控制和安全監(jiān)控等日常檢測方面。
(6)相關(guān)的配套工作需要完善,主要包括高素質(zhì)測謊人員的培養(yǎng)、性能良好的測謊儀器設(shè)備的研制、對測謊技術(shù)的作用的正確認識以及測謊技術(shù)相關(guān)法律規(guī)范操作規(guī)范的制定等。有研究顯示,提問的方式和內(nèi)容也是影響謊言檢測的重要因素之一[65],甚至不同環(huán)境下的真話研究對于分析被測狀態(tài)也是有價值的[69]。
總之,利用語音的聲學(xué)特征來進行說話人說話內(nèi)容的置信度評估,可以實現(xiàn)運程監(jiān)控,并且不易引起說話人的心理防御,和傳統(tǒng)的從心理生理學(xué)角度的研究相比,更具有現(xiàn)實意義和實際意義。其研究成果在計算機科學(xué)、腦科學(xué)、心理學(xué)、信息科學(xué)、教育學(xué)、醫(yī)學(xué)、認知科學(xué)和通信等領(lǐng)域具有廣泛的應(yīng)用價值。同時測謊技術(shù)的發(fā)展還具有廣闊的應(yīng)用前景,因此必將逐漸成為中國軍事、公安、司法、人事及商業(yè)服務(wù)行業(yè)必備的技術(shù)檢測手段。
[1] Fan Cheng, Zhao Heming, Chen Xueqin, et al. Distinguishing deception from non-deception in Chinese speech[C]//2015 Sixth International Conference on Intelligent Control and Information Processing (ICICIP). Wuhan: IEEE, 2016: 268-273.
[2] Hartwig M, Bond C F. Why do lie-catchers fail? A lens model meta-analysis of human lie judgments[J]. Psychological Bulletin, 2011, 137(4): 643-659.
[3] Bond C F,Depaulo B M. Accuracy of deception judgments[J]. Personality and Social Psychology Review, 2006,10(3): 214-234.
[4] 孟魯寧,曾澤民. 多參量心理測試測謊技術(shù)及其應(yīng)用[J]. 人民檢察, 2000(7): 56-58.
Meng Luning, Zeng Zemin. Multi-parameter psychological testing polygraph technology and application[J]. People's Procuratorial Semimonthly, 2000(7):56-58.
[5] Elaad E,Ben-Shakhar G. Finger pulse waveform length in the detection of concealed information[J]. International Journal of Psychophysiology, 2006,61(2): 226-234.
[6] Gamer M, Rill H G, Vossel G, et al. Psychophysiological and vocal measures in the detection of guilty knowledge[J]. International Journal of Psychophysiology, 2006,60(1): 76-87.
[7] Harnsberger J D, Hollien H, Martin C A, et al. Stress and deception in speech: Evaluating layered voice analysis[J]. Journal of Forensic Sciences, 2009,54(3): 642-650.
[8] Eriksson A,Lacerda F. Charlatanry in forensic speech science: A problem to be taken seriously[J]. International Journal of Speech, Language and the Law, 2007,14(2): 169-193.
[9] Mcloughlin I, Zhang Haomin, Xie Zhipeng, et al. Robust sound event classification using deep neural networks[J]. IEEE/ACM Transactions on Audio Speech and Language Processing, 2015, 23(3): 540-552.
[10] Qian Yanmin, Bi Mengxiao, Tan Tian, et al. Very deep convolutional neural networks for noise robust speech recognition[J]. IEEE/ACM Transactions on Audio Speech and Language Processing, 2016, 24(12): 2263-2276.
[11] 鄒采榮, 梁瑞宇,謝躍. 數(shù)字助聽器語音處理算法研究進展與展望[J]. 數(shù)據(jù)采集與處理, 2016,31(2): 242-251.
Zou Cairong, Liang Ruiyu, Xie Yue. Research progress and outlook of speech processing algorithms for digital hearing aids[J]. Journal of Data Acquisition and Processing, 2016,31(2): 242-251.
[12] Jessen M. Forensic phonetics[J]. Language and Linguistics Compass, 2008,2(4): 671-711.
[13] 楊當(dāng),劉洪廣. 多道儀和認知腦電技術(shù)的反測謊研究綜述[J]. 鐵道警察學(xué)院學(xué)報, 2016(1): 11-16.
Yang Dang, Liu Hongguang. Review on counter-lie-detection with multichannel analyzer and cognitive brain potentials[J].Journal of Railway Police College,2016(1): 11-16.
[14] Nieuwenhuis S, De Geus E J,Aston-Jones G. The anatomical and functional relationship between the P3 and autonomic components of the orienting response[J]. Psychophysiology, 2011,48(2): 162-175.
[15] 勾蕾,王小平. 測謊技術(shù)及其應(yīng)用新進展[J]. 國際精神病學(xué)雜志, 2012(4): 240-243.
Gou Lei, Wang Xiaoping. Latest development on lie detection and application[J]. Journal of International Psychiatry,2012(4): 240-243.
[16] Spence S A. The deceptive brain[J]. Journal of the Royal Society of Medicine, 2004, 97(1): 6-9.
[17] 關(guān)楠思, 劉技輝, 張馨元, 等. 事件相關(guān)電位的研究進展及其法醫(yī)學(xué)應(yīng)用價值[J]. 法醫(yī)學(xué)雜志, 2015,31(2): 135-139.
Guan Nansi, Liu Jihui, Zhang Xinyuan, et al. Advances in event-related potential and its forensic application value[J]. Journal of Forensic Medicine, 2015, 31(2):135-139.
[18] Miao J, Wang S, Wan Z, et al. Motion characteristics of the vertebral segments with lumbar degenerative spondylolisthesis in elderly patients[J]. European Spine Journal, 2013,22(2): 425-431.
[19] Abe N, Suzuki M, Tsukiura T, et al. Dissociable roles of prefrontal and anterior cingulate cortices in deception[J]. Cerebral Cortex, 2006,16(2): 192-199.
[20] Ganis G, Rosenfeld J P, Meixner J, et al. Lying in the scanner: Covert countermeasures disrupt deception detection by functional magnetic resonance imaging[J]. Neuroimage, 2011,55(1): 312-319.
[21] Bunce S C, Devaraj A, Izzetoglu M, et al. Detecting deception in the brain: A functional near-infrared spectroscopy study of neural correlates of intentional deception[C]∥Nondestructive Evaulation for Health Monitoring and Diagnostics.[S.l.]:International Society for Optics and Photonics, 2005, 5769:24-32.
[22] Leal S,Vrij A. Blinking during and after lying[J]. Journal of Nonverbal Behavior, 2008,32(4): 187-194.
[23] Peth J, Kim J S,Gamer M. Fixations and eye-blinks allow for detecting concealed crime related memories[J]. International Journal of Psychophysiology, 2013,88(1): 96-103.
[24] Ehrlichman H,Micic D. Why do people move their eyes when they think[J].Current Directions in Psychological Science, 2012,21(2): 96-100.
[25] Vrij A, Oliveira J, Hammond A, et al. Saccadic eye movement rate as a cue to deceit[J]. Journal of Applied Research in Memory and Cognition, 2015,4(1): 15-19.
[26] Kassin S M. Paradigm shift in the study of human lie-detection: Bridging the gap between science and practice[J]. Journal of Applied Research in Memory and Cognition, 2012,1(2): 118-119.
[27] Pavlidis I,Levine J. Thermal image analysis for polygraph testing[J]. IEEE Engineering in Medicine and Biology Magazine, 2002,21(6): 56-64.
[28] Graciarena M, Shriberg E, Stolcke A, et al. Combining prosodic lexical and cepstral systems for deceptive speech detection[C]∥IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP ).[S.l.]:IEEE,2006:1.
[29] Enos F, Shriberg E, Graciarena M, et al. Detecting deception using critical segments[C]//Interspeech 2007. Antwerp: ISCA-INST Speech Communication Assoc, 2007: 2432-2435.
[30] 胡超,傅根躍. 聽音識人——語音頻譜與人格特質(zhì)的關(guān)系初探[J]. 心理科學(xué)進展, 2011,19(6): 809-813.
Hu Chao, Fu Genyue. Perceive one′s character through his voice: The relationship between speech spectrum and personality traits[J]. Advances in Psychological Science, 2011,19(6):809-813.
[31] Kirchhuebel C. The acoustic and temporal characteristics of deceptive speech[D].York England:University of York,2015.
[32] Yap T F, Epps J, Ambikairajah E, et al. Formant frequencies under cognitive load: Effects and classification[J]. EURASIP Journal on Advances in Signal Processing, 2011(1): 1-11.
[33] Kirchhubel C, Howard D M,Stedmon A W. Acoustic correlates of speech when under stress: Research, methods and future directions[J]. Int Journal of Speech, Language and the Law, 2011,18(1): 75-98.
[34] Khawaja M A, Chen F, Marcus N. Measuring cognitive load using linguistic features: Implications for usability evaluation and adaptive interaction design[J]. International Journal of Human-Computer Interaction, 2014, 30(5): 343-368.
[35] Smiljanic R,Bradlow A R. Speaking and hearing clearly: Talker and listener factors in speaking style changes[J]. Language and Linguistics Compass, 2009,3(1): 236-264.
[36] Zhou Y, Zhao H,Pan X. Lie detection from speech analysis based on K-SVD deep belief network model[C]∥International Conference on Intelligent Computing.Fuzhou, China: Springer,2015:189-196.
[37] Enos F. Detecting deception in speech[D]. New York: the Graduate School of Arts and Sciences, Columbia University, 2009.
[38] Ekman P, O'sullivan M, Friesen W V, et al. Invited article: Face, voice, and body in detecting deceit[J]. Journal of nonverbal behavior, 1991,15(2): 125-135.
[39] Hansen J H,Womack B D. Feature analysis and neural network-based classification of speech under stress[J]. IEEE Transactions on Speech and Audio Processing, 1996,4(4): 307-313.
[40] Depaulo B M, Lindsay J J, Malone B E, et al. Cues to deception[J]. Psychological Bulletin, 2003,129(1): 74-118.
[41] Gopalan K, Wenndt S. Speech analysis using modulation-based features for detecting deception[C]//Proceedings of the 2007 15th International Conference on Digital Signal Processing. Cardiff: IEEE, 2007:619-622.
[42] Madsen R E, Larsen J, Hansen L K. Part-of-speech enhanced context recognition[C]//14th IEEE International Workshop on Machine Learning for Signal Processing. Sao Luis: IEEE, 2004 :635-643.
[43] Levitan S I, Levine M, Hirschberg J, et al. Individual differences in deception and deception detection[C]//The Seventh International Conference on Advanced Cognitive Technologies and Applications. Nice:IARIA XPS Press, 2015:52-56.
[44] Enos F, Benus S, Cautin R L, et al. Personality factors in human deception detection: Comparing human to machine performance[C]//Interspeech. Pittsburgh: ISCA-INST Speech Communication Assoc, 2006:813-816.
[45] Hung H,Chittaranjan G. The idiap wolf corpus: Exploring group behaviour in a competitive role-playing game[C]∥Proceedings of the 18th ACM International Conference on Multimedia. New York: ACM, 2010,879-882.
[46] Nolan F, Mcdougall K, De Jong G, et al. The DyViS database: Style-controlled recordings of 100 homogeneous speakers for forensic phonetic research[J]. International Journal of Speech, Language and the Law, 2009, 16(1): 31-57.
[47] Eachus P, Stedmon A,Baillie L. Hostile intent in public crowded spaces: A field study[J]. Applied Ergonomics, 2013, 44(5): 703-709.
[48] Cohen W W. Fast effective rule induction[C]∥Proc of the 12th International Conference on Machine Learning. Tahoe City, CA: Morgan Kaufmann,2000,46:115-123.
[49] Levitan S I, An G, Ma M, et al. Combining acoustic-prosodic, lexical, and phonotactic features for automatic deception detection[C]//Interspeech. San Francisco: Iscainst Speech Communication Assoc, 2016:2006-2010.
[50] Schuller B, Steidl S, Batliner A, et al. The interspeech 2016 computational paralinguistics challenge: Deception, sincerity & native language[C]//Interspeech. San Francisco:ISCA-INST Speech Communication Assoc, 2016:2001-2005.
[51] Lee C,Lee G G. Information gain and divergence-based feature selection for machine learning-based text categorization[J]. Information Processing & Management, 2006,42(1): 155-165.
[52] Whissell C, Fournier M, Pelland R, et al. A dictionary of affect in language: IV. Reliability, validity, and applications[J]. Perceptual and Motor Skills, 1986,62(3): 875-888.
[53] Cui X, Kingsbury B, Cui J, et al. Improving deep neural network acoustic modeling for audio corpus indexing under the IARPA babel program[C]//Interspeech. Singapore:ISCA-INST Speech Commication Assoc, 2014:2103-2107.
[54] Pan X, Zhao H, Zhou Y, et al. A preliminary study on the feature distribution of deceptive speech signals[J]. Journal of Fiber Bioengineering and Informatics, 2015,8(1): 179-193.
[55] Zhou Y, Zhao H, Pan X, et al. Deception detecting from speech signal using relevance vector machine and non-linear dynamics features[J]. Neurocomputing, 2015,151: 1042-1052.
[56] 戴禮榮,張仕良. 深度語音信號與信息處理:研究進展與展望[J]. 數(shù)據(jù)采集與處理, 2014,29(2): 171-179.
Dai Lirong, Zhang Shiliang. Deep speech signal and information processing:Research progress and prospect[J]. Journal of Data Acquisition and Processing, 2014, 29(2): 171-179.
[57] Mcloughlin I, Zhang H, Xie Z, et al. Robust sound event classification using deep neural networks[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2015,23(3): 540-552.
[58] Qian Y M, Bi M X, Tan T, et al. Very deep convolutional neural networks for noise robust speech recognition[J]. IEEE-Acm Transactions on Audio Speech and Language Processing, 2016,24(12): 2263-2276.
[59] Sun Yi, Wang Xiaogang, Tang Xiaoou. Deep learning face representation from predicting 10,000 Classes[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus: IEEE, 2014:1891-1898.
[60] Ouyang W L, Wang X G, Zeng X Y, et al. DeepID-net: Deformable deep convolutional neural networks for object detection[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE, 2015:2403-2412.
[61] Chen X, Liu X Y, Wang Y Q, et al. Efficient training and evaluation of recurrent neural network language models for automatic speech recognition[J]. IEEE-ACM Transactions on Audio Speech and Language Processing, 2016,24(11): 2146-2157.
[62] 梁瑞寧,謝躍,趙力,等.一種基于卷積神經(jīng)網(wǎng)絡(luò)的言語置信度評測方法[P]:中國,201710099098.4,2017/2/23.
Liang Ruiyu, Xie Yue, Zhao Li, et al. An evaluation method of speech confidence beased on convolutional neural network[P]. P.R.China, 201710099098.4, 2017/2/23.
[63] Evans J R, Houston K A,Meissner C A. A positive, collaborative, and theoretically-based approach to improving deception detection[J]. Journal of Applied Research in Memory and Cognition, 2012,1(2): 122-123.
[64] Gutheil T G. Detecting lies and deceit: Pitfalls and opportunities[J]. Journal of the American Academy of Psychiatry & the Law, 2010,38(1): 141-142.
[65] Vrij A,Granhag P A. Eliciting cues to deception and truth: What matters are the questions asked[J]. Journal of Applied Research in Memory and Cognition, 2012,1(2): 110-117.
[66] Depaulo B M,Bond C F. Beyond accuracy: Bigger, broader ways to think about deceit[J]. Journal of Applied Research in Memory and Cognition, 2012,1(2): 120-121.
[67] Warmelink L, Vrij A, Mann S, et al. The effect of question expectedness and experience on lying about intentions[J]. Acta Psychologica, 2012,141(2): 178-183.
[68] Lancaster G L, Vrij A, Hope L, et al. Sorting the liars from the truth tellers: The benefits of asking unanticipated questions on lie detection[J]. Applied Cognitive Psychology, 2013,27(1): 107-114.
[69] Danielewicz-Betz A. Face saving discursive strategies of negation: A Saudi-Japanese comparison[J]. Lodz Papers in Pragmatics, 2016,12(1): 23-51.
Progress and Outlook of Lie Detection Technique in Speech
Zhao Li1, Liang Ruiyu1,2, Xie Yue1, Zhuang Dongzhe3
(1.School of Information Science and Engineering, Southeast University, Nanjing, 210096, China; 2.School of Communication Engineering, Institute of Nanjing Technology, Nanjing, 211167, China; 3.School of Investigation, Chinese People's Public Security University, Beijing, 100038, China)
The early polygraph technology is easily affected by personal factors and external environment, especially the anti-polygraph technology. Although lie detection technology based on electroencephalogram can directly observe neural activity of the relevant brain regions to reveal the internal rules when lies occur, the required professional equipment is too large and expensive to use handle. Compared with the above technologies, lie detection technology in speech has spatio-temporal span and high concealment, etc. The development situation of current polygraph technology and basic principle are described, the types and characteristics of non-speech and speech related indicators are introduced and analyzed. Then, several public speech databases for lie detection are introduced, and the research progress of lie detection algorithm is highlighted. Finally, the future direction of lie detection technology in speech is summarized from five parts, i.e., the Chinese corpus, speech feature extraction, anti-polygraph technology, theoretical research and related auxiliary work.
lie; polygraph; speech signal processing; feature extraction
國家自然科學(xué)基金(61673108,61375028,61571106)資助項目;江蘇省“青藍工程”資助項目;中國博士后科學(xué)基金(2016M601696)資助項目;江蘇省“六大人才高峰”項目(2016-DZXX-23)資助項目;江蘇省博士后科研資助計劃(1601011B)資助項目;江蘇省自然科學(xué)基金(BK20161517)資助項目。
2014-05-09;
2016-10-14
TP912.3
A
趙力(1958-),男,教授,研究方向:語音信號處理,E-mail: zhaoli@seu.edu.cn。
梁瑞宇(1978-),男,博士研究生,研究方向:語音信號處理。
謝躍(1991-),男,博士研究生,研究方向:語音信號處理。
莊東哲(1972-),男,副教授,研究方向:測謊技術(shù)。