關鑫
(肇慶學院,廣東 肇慶 526061)
警方或法庭使用司法話者識別技術確定截獲的罪犯的語音是否源于某一已知嫌疑人,目前為止,鑒定過程中常用的話者識別特征參數(shù)有語音學內(nèi)的音段和超音段特征,如嗓音音質(zhì)、基頻等;有語言學特征,如話語標記語、詞匯語法使用情況等;有非語言學特征,如有聲停頓、笑聲等[1-2]。以上提及的各類型的話者識別參數(shù)中,最常用的是語音聽覺和語音聲學特征。語音學特征的一個特點就是他們易受外界物理環(huán)境和話者生理及心理環(huán)境影響,不可避免地會產(chǎn)生語音變異現(xiàn)象;加之罪犯語音截獲環(huán)境復雜,難以完全掌控,以語音學特征作為話者識別參數(shù)的識別結(jié)論效度和信度都大大降低。為了提高話者識別結(jié)論的效度和信度,相關研究者和從業(yè)者建議結(jié)合不同的識別方法[1,3-4],或者不同學術背景的研究者和從業(yè)者彼此合作[2],或者在試驗中采用自然會話作為實驗材料提取并驗證識別參數(shù)的效度[5]。
在此背景下,本研究采用自然會話為實驗材料,挖掘具有話者識別能力的非語音學特征,并驗證其作為潛在話者識別參數(shù)的效度和信度。
該部分首先闡釋挖掘非語音學話者識別特征參數(shù)的理論依據(jù),并介紹分析方法,提出研究問題。
SAPIR[6]提出話語行為包含由低至高五個層面。第一個層面是聲音本身(the voice as such),即音質(zhì);第二個層面是話語的動態(tài)特征 (speech dynamics),如語調(diào)、韻律、流暢程度、語速;第三個層面是發(fā)音(pronunciation);第四個層面是詞匯(vocabulary),指詞語的選擇;第五個層面是個人話語風格(the style of connected utterance),指“話者個人獨有的遣詞成句和謀篇布局的方法、策略”①定義原文:an individual method of arranging words into groups and of working these up into larger units,SAPIR[6]強調(diào)日常會話也好、深思熟慮的演說也好,每個人都有其個人話語風格,個人話語風格從來都不是隨意和偶然發(fā)生的;SAPIR還認為話語行為的每個層面都有其社會屬性和個人屬性,分別決定話者的社會身份和個性身份。
目前,應用于司法實踐的識別參數(shù)和司法話者識別相關研究挖掘、驗證的識別參數(shù)主要是分布于話語行為前四個層面上的特征。本研究旨在依據(jù)語篇信息理論,采用語篇信息分析法,挖掘位于話語行為最高層面上的具有潛在話者識別能力的個人話語風格特征。
語篇信息理論源于法律語篇樹狀信息結(jié)構(gòu)模式[7]。語篇信息理論認為語篇是一個層級結(jié)構(gòu),表層是語言形式,底層反應語篇生產(chǎn)者的認知,中間是信息——能夠用于交際的最小完整意義單位的命題;相對于靈活多樣的表層語言形式信息結(jié)構(gòu)相對穩(wěn)定,相對于不易觸及分析的語篇生產(chǎn)者認知,信息結(jié)構(gòu)更易于分析,比表層語言形式更能反映語篇生產(chǎn)者的認知。而且,基于體驗哲學和認知語言學的基本思想“現(xiàn)實—認知—語言”,言語人的語言創(chuàng)造力是言語人的認知機能對從現(xiàn)實世界接受到的信息進行加工處理的結(jié)果[8]。也就是說,言語人的個性化言語是言語人對世界的個性化認知的結(jié)果。因此,基于語篇信息理論,采用語篇信息分析法分析話者的話語行為比采用其他分析語篇表層語言形式的分析方法更有可能挖掘出話語行為最高層面上具有潛在話者識別能力的個人話語風格特征。依據(jù)法律語篇樹狀信息結(jié)構(gòu)模式,宏觀上語篇的信息結(jié)構(gòu)是由一個核心命題及其下層信息構(gòu)成的層級結(jié)構(gòu),一個命題就是一個信息單位(information unit),信息單位之間的上下層關系用15類信息點(information knot)標示,用15 個縮寫疑問詞表示:WT(何事)、WB(何據(jù))、WF(何事實)、WI(何推斷)、WP(何處置)、WO(何人)、WH(何時)、WR(何地)、HW(何方式)、WY(何因)、WE(何效果)、WA(何態(tài)度)、WC(何條件)、WG(何變化)、WJ(何結(jié)論)[9]。 以如下語篇[9]為例:
a人類總是將自己的發(fā)展看得高于一切。b(WY)這不外乎兩個原因。 c(WY)人類……;d (WY)人類……。
該語篇包含a、b、c、d四個命題。命題b表達人類將自己的發(fā)展看得高于一切的原因,從原因角度支撐命題a,與命題a之間是何因(WY)關系;命題c和d則發(fā)展命題b,給出兩個原因的內(nèi)容,與命題b之間都是何因(WY)關系。
微觀上信息單位由信息成分構(gòu)成,包括過程、個體和環(huán)境三大類;過程以信息單位命題的謂詞為中心,個體是謂詞所涉及的事物,環(huán)境指以謂詞為中心的過程進行的環(huán)境;過程信息成分下又有8個子類,個體信息成分下有5個子類,環(huán)境信息成分下有12個子類[9]。以信息單位“被告人周某某的行為不構(gòu)成犯罪?!睘槔?,該信息單位由5個信息成分構(gòu)成,依次為環(huán)境信息成分“被告人周某某”、個體信息成分“行為”、過程信息成分“不”和“構(gòu)成”,個體信息成分“犯罪”。兩個個體信息成分和兩個過程信息成分分屬于其下的兩個不同子類。
不難看出,信息成分構(gòu)成信息單位、信息單位構(gòu)成語篇,因此,揭示語篇生產(chǎn)者語篇中的信息結(jié)構(gòu)模式也就是揭示話者遣詞成句、布局謀篇的方式、策略中的范式,所以,理論上講,采用語篇信息分析法分析話語行為有望挖掘個人話語風格層面上的具有潛在話者識別能力的特征。
由于話者識別要確定的是檢材(即罪犯的話語)和樣本(即已知嫌疑人的話語)之間的相似性或差異性究竟是源于同一話者還是不同話者,在國際上以Rose和Morrison為代表、國內(nèi)以張翠玲為代表的專家學者都認為似然率方法符合法庭比較科學證據(jù)鑒定的要求,倡導在似然率框架內(nèi)進行話者識別研究、使用似然率方法表述識別結(jié)果,并取得了豐碩研究成果。
在似然率框架內(nèi)通常采用交叉驗證過程評估某一量化話者識別特征或由多個量化話者識別特征構(gòu)建的話者識別系統(tǒng)的性能[10]。設計交叉驗證過程需要兩組數(shù)據(jù),測試組和背景組。測試組數(shù)據(jù)中的每位話者至少提供兩段會話,用于構(gòu)建同對會話比較對(被比較的兩段會話源于同一話者)和異對會話比較對(被比較的兩段會話源于不同話者);背景組數(shù)據(jù)由能代表背景參考話者群體的話者的會話組成,為了保證似然率計算結(jié)果的信度,至少應該包含30位話者的會話[11]。交叉印證過程似然率的計算應用AITKEN等[12]驗證的多變量核密度(Multivariate Kernel Density,MVKD)似然率計算公式計算,可以采用MORRISON[13]編寫的程序軟件在Matlab中完成計算。
某一話者識別特征或識別系統(tǒng)的性能可以用基于交叉印證程序得出的同對和異對會話比較的一組似然率值繪制的Tippett圖評估[10];其效度可以用基于交叉印證程序得出的同對和異對會話比較的一組似然率值計算的Cllr(log-likelihood-ratio cost)值評估[10,14-16]。
任何類型的話者識別特征參數(shù)都要符合的一條最重要的標準是它應該具有高話者間差異性和低話者內(nèi)變異性[17]。依據(jù)這條標準,首先所挖掘的特征應該具有高話者間差異性;其次所挖掘的特征應該具有低話者內(nèi)變異性。因此本研究要回答的第一個和第二個研究問題分別是:(1)所挖掘的信息特征是否具有高話者間差異性;(2)篩選出的具有高話者間差異性的信息特征是否具有低話者內(nèi)變異性。
挖掘出具有高話者間差異性低話者內(nèi)變異性的體現(xiàn)話者個人話語風格的信息特征后,要在似然率框架內(nèi)驗證其作為話者識別參數(shù)的性能和效度,所以要回答的第三個和第四個研究問題分別是:(3)篩選出的話者個人話語風格特征作為驗證話者識別參數(shù)的總體性能和效度如何;(4)篩選出的話者個人話語風格特征作為驗證話者識別參數(shù)的信度如何。
本研究設計了四個實驗依次回答提出的四個研究問題。實驗所用話語為自然日常會話,即會話在其發(fā)生時的自然狀態(tài)下被錄制,錄制時不對話者、錄制環(huán)境、錄制設備施加任何人為控制。
本研究從法律信息處理系統(tǒng)語料庫(CLIPS)的漢語自然會話子庫中抽取了81位話者的233段自然會話。漢語自然會話子庫中存儲有每段會話的原始音頻文件及標注了語篇信息宏觀結(jié)構(gòu)及微觀結(jié)構(gòu)的text文本文件。根據(jù)會話雙方的親疏程度及社會地位關系,庫中的所有會話被歸入5類會話情境:(1)彼此熟悉,社會地位平等;(2)彼此熟悉,社會地位不平等;(3)陌生人,社會地位平等;(4)陌生人,社會地位不平等;(5)好朋友或家人。
庫中的所有會話都是由話者本人提供并授權用于研究使用。81位話者都是廣東某高校的學生,包括27位年齡在19~21歲之間的本科生,58位年齡在21~25歲之間的碩士研究生,6位年齡在27~39歲之間的博士研究生。所有話者都說普通話,沒有明顯的地方方言口音。
取樣的會話包括電話會話和面對面會話兩種形式。話者確認所提供的會話是在其和對話人不知情的情況下用智能手機自動錄音功能錄制,或由第三人用錄音筆、MP3播放器等錄制工具錄制;會話時沒有刻意選擇環(huán)境、話題及對話人;所提供會話音頻沒有經(jīng)過任何編輯處理。
首先,采用語篇信息分析法分析會話語篇信息的宏觀結(jié)構(gòu)和微觀結(jié)構(gòu),挖掘可能具有潛在話者識別能力的個人話語風格信息特征。因為15類信息點的分布與語篇的長度密切相關,所以較短語篇中某些類信息點不會出現(xiàn)[9],為了保障所挖掘的語篇信息特征的高頻出現(xiàn)率,先統(tǒng)計所抽樣的233段會話語篇中信息點的分布情況。統(tǒng)計結(jié)果顯示,所有會話中都包含WT(何事)信息點;而且WT(何事)信息點在233段會話包含的2 887個信息點中所占份額為51%,遠遠高于其他類型信息點;此外,所有會話語篇中都包含個體、過程和環(huán)境三類信息成分。
基于以上統(tǒng)計結(jié)果,本研究主要考察與WT(何事)信息點和信息成分相關的信息特征。JOHNSTONE[18]和BIBER[19]都指出,體現(xiàn)某一語言特征的有規(guī)律持續(xù)出現(xiàn)的絕對頻率(absolute frequencies)能反映言語人的個性身份特征;AITKEN等[20]認為,相對頻率(relative frequencies)作為統(tǒng)計數(shù)據(jù)證據(jù)更加有效;HOLLIEN[21]發(fā)現(xiàn),語篇生產(chǎn)者無法有意識地控制語篇內(nèi)的類次比(type-token ratio)②語篇類次比指語篇內(nèi)不同類型的字的數(shù)量與字總數(shù)的比率。如某一語篇共包含81個字,其中“他”出現(xiàn)5次,“是”出現(xiàn)7次,“和”出現(xiàn)3次,其他字都只出現(xiàn)1次;則語篇中共包含69類字,類次比為69÷81≈0.85。特征,也就是語篇內(nèi)的類次比特征可能具有驗證語篇生產(chǎn)者的識別能力?;谝陨涎芯砍晒狙芯客ㄟ^考察語篇信息的頻率特征和類次比特征,共挖掘了26個語篇信息頻率和類次比特征。
2.3.1 實驗1
實驗1的目的是回答第一個研究問題,檢測所挖掘的信息特征是否具有高話者間差異性。具體實施步驟如圖1所示,包括特征訓練和特征驗證兩個基本步驟。
圖1 實驗1實施步驟
從233段會話中選取一組數(shù)據(jù),訓練所挖掘的信息特征;選取另外兩組數(shù)據(jù),用于驗證經(jīng)過訓練的信息特征。訓練數(shù)據(jù)由5位女性本科生話者的5段會話組成;第一組驗證數(shù)據(jù)由22位女性研究生話者的22段會話組成;第二組驗證數(shù)據(jù)包括4位男性研究生話者,每位話者貢獻2段會話,同一話者的兩段會話錄制間隔時間最短為一個月。實驗1數(shù)據(jù)的所有35段會話中,時長最短的會話長度為10 s③會話時長指會話錄音的長度,包括會話雙方的言語、會話過程中的沉默、停頓。,被考察話者會話語篇中包含4個信息點,共39個漢字;時長最長的會話長度為2 min 50 s;被考察話者會話語篇最多的包含25個信息點,共413個漢字。
選取具有高話者間差異性的潛在話者識別特征的常用方法是采用方差分析統(tǒng)計方法 (也稱為F-test),以待考察特征值為因變量,考查方差分析結(jié)果中的F檢驗值(F-ratio),如果F值大于1,說明該特征值的組間差異大于組內(nèi)差異,該特征可能具有潛在的話者識別能力[17,22-24]?;诖耍瑢嶒?中采用單因素方差分析統(tǒng)計方法,分別以挖掘的26個待驗證信息特征為因變量,使用訓練數(shù)據(jù)和驗證數(shù)據(jù),在SPSS21統(tǒng)計分析軟件中進行分析,篩選出符合如下零假設的信息特征。
零假設:該信息特征可以驗證訓練組數(shù)據(jù)和驗證組數(shù)據(jù)中的會話都具有高話者間差異性。
如果以某一特征為因變量,分析測試數(shù)據(jù)組和驗證數(shù)據(jù)組的3個單因素方差分析過程得出的F值都大于1,則說明如上零假設成立,表明被測試信息特征具有較高話者間差異性,具有潛在的話者識別能力;反之,則如上零假設被推翻,說明同一數(shù)據(jù)組中的多段會話可能源于同一話者,表明被測試信息特征不具有高話者間差異性,不具有潛在的話者識別能力。
2.3.2 實驗2
實驗2的目的是回答第二個研究問題,測試實驗1中被驗證具有具有高話者間差異性的信息特征是否具有低話者內(nèi)變異性。從81位話者的233段會話中抽取24位話者的149段會話作為實驗2的數(shù)據(jù);每位話者的多段會話為一組數(shù)據(jù),共24組數(shù)據(jù);每個數(shù)據(jù)組中最多包含同一話者的11段會話,最少包含同一話者的4段會話;同一話者的多段會話錄制間隔時間都在一周以上;源于同一話者的多段會話至少發(fā)生在2類會話情境中,最多發(fā)生在5類會話情境中,而且即使源于同一話者的發(fā)生情境相同的多段會話,它們的發(fā)生時間、對話人、話者的交際意圖都不相同。
實驗2采用單因素方差分析統(tǒng)計方法,以待驗證的信息特征為因變量,使用SPSS21統(tǒng)計分析軟件逐一分析每組數(shù)據(jù),篩選出符合如下零假設的信息特征:
零假設:該信息特征可以驗證所有24個數(shù)據(jù)組中的多段會話都源于同一話者。
圖2 實驗2實施步驟
如果以某一信息特征為因變量,分析24組數(shù)據(jù)的所有24個單因素方差分析過程得出的相伴概率p值都大于顯著水平0.01,則如上零假設成立,證明該信息特征不但具有高話者間差異性還具有低話者內(nèi)變異性,能體現(xiàn)話者的個人話語風格,可以作為潛在的話者識別特征參數(shù);如果24個單因素方差分析過程中的任何一個得出的相伴概率p值小于等于顯著水平0.01,則如上零假設被推翻。
具體分析步驟如圖2所示,首先把比率形式的語篇信息特征值轉(zhuǎn)換成自然對數(shù),以保證數(shù)據(jù)的正態(tài)分布[12];接下來,清洗數(shù)據(jù),排除不符合條件的極端界外值;而后在SPSS21中檢測清洗后數(shù)據(jù)的同質(zhì)性和正態(tài)性,并根據(jù)驗證結(jié)果采用相應的單因素方差分析過程進行分析。如果單因素方差分析過程的相伴概率p大于顯著水平0.01,則證明利用該特征可以驗證數(shù)據(jù)組中的多段會話源于同一話者。如果單因素方差分析過程的相伴概率小于等于顯著水平0.01,則繼續(xù)進行事后檢驗比較;如果事后檢驗比較過程結(jié)果顯示,數(shù)據(jù)組中的任意兩段會話間就待檢驗特征值而言都無顯著差異,則說明單因素方差分析過程得出的小于等于顯著水平0.01相伴概率p是由其他偶然性因素造成的,數(shù)據(jù)組中的會話還是源于同一話者。
2.3.3 實驗3
實驗3的目的是回答第三個研究問題,評估實驗II篩選出的具有高話者間差異性、低話者內(nèi)變異性的信息特征作為潛在話者識別特征的性能和效度。
為了實現(xiàn)這一研究目的,選用兩組數(shù)據(jù)設計一個交叉驗證過程。測試數(shù)據(jù)組中有24位話者,每位話者貢獻兩段會話,背景數(shù)據(jù)組中有30位話者,每位話者貢獻一段會話。測試數(shù)據(jù)組中每位話者的第一段會話與自己的第二段會話配對比較,并分別與其他23位話者的第二段會話配對比較,也就是說,評估每一個信息特征值作為潛在話者識別特征的性能和效度的交叉驗證過程共包含24對同對比較會話和552對異對比較會話。接下來,采用AITKENi等[12]提出的似然率計算公式(Multivariate Kernel Density LR),應用MORRISON[13]編寫的程序軟件在Matlab2012a中計算,得出每對比較會話的似然率值;而后,利用計算所得似然率值繪制每個信息特征Tippett圖,評估其作為潛在話者識別特征的總體性能;并計算其Cllr值,評估其作為潛在話者識別特征的效度。
2.3.4 實驗 4
實驗4的目的是檢驗實驗3中篩選出的具有潛在話者識別能力的信息特征的信度。為了實現(xiàn)該實驗目的,首先利用實驗3中性能和效度經(jīng)過驗證的信息特征構(gòu)建一個由多個信息識別特征構(gòu)成的話者識別系統(tǒng),并評估所構(gòu)建的話者識別系統(tǒng)的性能和效度。比較新構(gòu)建的話者識別系統(tǒng)和以效度經(jīng)過驗證的雙合元音或三合元音共振峰軌跡量化特征[25-26]為識別參數(shù)的話者識別系統(tǒng)的性能與效度。
首先分析所有81位話者的233段會話,找出出現(xiàn)頻率最高的二合元音或三合元音,確定用于話者識別系統(tǒng)信度分析的數(shù)據(jù)組。通過統(tǒng)計發(fā)現(xiàn)74位話者的118段中包含了9個二合元音④ai, ao, ei, ou, ia, ua, uo, ie, üe和4個三合元音⑤iao,iou,uai,uei;接下來,繼續(xù)考察這118段會話,找出一個出現(xiàn)頻率最高的二合元音或三合元音。通過考察分析,最后確定[ɑu214] 為待考察的元音,含有該元音的源于9位話者的18段會話作為測試數(shù)據(jù)組,含有該元音的源于20位話者的20段會話作為背景數(shù)據(jù)組。
其次,提取共振峰軌跡特征。共振峰數(shù)據(jù)的提取,采用Praat語音分析軟件人工手動測量的方法測量共振峰在起點、中點、終點的頻率值,如圖3所示。因為所選取會話中多數(shù)[ɑu214] 音節(jié)的第四個共振峰邊界非常模糊或缺失,數(shù)據(jù)提取時只測量每段會話中[ɑu214] 的前三個共振峰的頻率。 每段會話中[ɑu214] 測量的音節(jié)數(shù)為2。之后,把從38段會話中提取的共振峰頻率值轉(zhuǎn)換為標準分數(shù)(z-scores),依據(jù)TABACHNICK 等[27]的研究方法,排除 z>±3.29(p<0.01)范圍內(nèi)的極端界外值,完成數(shù)據(jù)清洗。
第三步,設計一個交叉驗證過程。交叉驗證過程中,測試數(shù)據(jù)組中每位話者的第一段會話和其第二段會話配對比較,共產(chǎn)生9對同對比較會話;每位話者的第一段會話和排序在其前面的話者的第二段會話配對比較,共產(chǎn)生36對異對會話比較。而后,采用AITKEN等[12]提出的似然率計算公式,應用MORRISON[13]編寫的程序軟件在Matlab2012a中進行計算,分別得出構(gòu)建的由多個信息特征構(gòu)成的話者識別系統(tǒng)和以元音共振峰軌跡特征為識別特征的話者識別系統(tǒng)中每對比較會話的似然率值;之后利用所得似然率值繪制Tippett圖,評估比較兩個識別系統(tǒng)的總體性能;計算Cllr值,評估比較兩個識別系統(tǒng)的效度。
圖3 [ɑu214] 共振峰測量方法
實驗1采用單因素方差分析過程訓練并驗證所挖掘的26個語篇信息頻率特征和類次比特征。統(tǒng)計分析結(jié)果顯示,挖掘的26個特征中有18個相對頻率特征和類次比特征可以驗證一個訓練組和兩個驗證組數(shù)據(jù)中的話者都具有高話者間差異性,即對于這18個信息特征而言零假設成立,它們可能具有潛在的話者識別能力。
實驗2分別以實驗1中篩選出的18個信息特征為因變量進行的432(18×24)個單因素方差分析過程結(jié)果顯示,其中的12個信息特征可以驗證所有24個數(shù)據(jù)組中的多段會話源于同一話者,即這12個符合實驗2所提出的零假設的信息特征具有低話者內(nèi)變異性,體現(xiàn)話者的個人話語風格,它們的計算公式見表1。
圖4是實驗2中篩選出的12個信息特征的Tippett圖。Tippett圖中的實心曲線記錄的是同對會話比較對的以10為底的似然率值,虛線記錄的是異對會話比較對的以10為底的似然率值。被正確識別的同對會話比較對,其以10為底的似然率值應該大于0,值越大,支持正確認定的證據(jù)效力越強;被正確識別的異對會話比較對,其以10為底的似然率值應該小于0,值越小,支持正確排除的證據(jù)效力越強。基于此,某一識別特征的Tippett圖上,實心曲線和虛線交叉點以上的部分分得愈開,交叉點以下部分靠得愈近,交叉點的值(等誤率)越低,說明這個特征作為話者識別特征總體性能越好。從圖4中的Tippett圖的總體形態(tài)特征可以看出,信息特征P1和P3的總體性能最差,而P8、P10、P12的總體性能優(yōu)于其他信息特征。此外,表2中的12個特征的Cllr值也顯示P1和P3的效度最低。
基于對12個信息特征總體性能和效度的評估,選取除P1、P3之外的10個信息特征,嘗試構(gòu)建一個由多個識別特征構(gòu)成的話者識別系統(tǒng)。
表3記錄了擬用于構(gòu)建話者識別系統(tǒng)的10個信息特征之間的Pearson相關系數(shù)。該表顯示,信息特征P2和P9顯著相關,P8分別與P5和P12顯著相關。基于Pearson相關分析的結(jié)果,首先,把總體性能和效度最優(yōu)的 P4、P8、P10、P11 和 P12 特征分為兩組,以保證每組內(nèi)的特征不顯著相關。第一組包括P4、P10、P11、P12,第二組包括 P4、P8、P10、P11;接下來,分別以這兩組參數(shù)為核心識別特征,構(gòu)建話者識別系統(tǒng)。先把總體性能較好和效度較高的P2和P7依次與兩組核心特征組合(鑒于P5、P6、P9的效度較低,因此不依次與兩組核心特征組合),而后再依次加入其他特征,共構(gòu)建了如表4所示的11個候選話者識別系統(tǒng)。
圖4 實驗2中篩選出12個信息特征的Tippett圖
表1 實驗2篩選出的具有高話者間差異性和低話者內(nèi)變異性的信息特征參數(shù)及計算公式
表2 實驗2中篩選出的12個信息特征的Cllr值
表3 擬用于構(gòu)建話者識別系統(tǒng)的10個信息特征的相關關系
表 4 11個候選話者識別系統(tǒng)的識別特征構(gòu)成
為了評估所構(gòu)建的候選話者識別系統(tǒng)的總體性能和效度,把實驗3中計算所得的識別系統(tǒng)內(nèi)成員信息特征的似然率值相乘,即得出該話者識別系統(tǒng)的似然率值[17];而后在Matlab2012a中繪制每個話者識別系統(tǒng)的Tippett圖(圖5),并計算其Cllr值(表 5)。
表 5 11個候選話者識別系統(tǒng)的Cllr值
圖5中的Tippett圖顯示,首先包含多個特征的11個候選話者識別系統(tǒng)的總體性能都大大優(yōu)于單個信息特征;其次所有候選識別系統(tǒng)的等誤率都低于28%,高于性能最優(yōu)的特征P12的等誤率(EER=31%)。此外,圖5中的Tippett圖的整體形態(tài)顯示,以P4、P10、P11、P12為核心特征的候選話者識別系統(tǒng)(第 1~6 號識別系統(tǒng))性能略優(yōu)于以 P4、P8、P10、P11為核心特征的候選話者識別系統(tǒng)(第7~11號識別系統(tǒng));而且,在以 P4、P10、P11、P12 為核心特征的6個候選話者識別系統(tǒng)中,第1、3、4號系統(tǒng)的總體性能優(yōu)于其他3個系統(tǒng);在第1、3、4號候選話者識別系統(tǒng)中,第4號系統(tǒng)的等誤率為23%,低于其他兩個系統(tǒng)(EER=26%),表明第4號話者識別系統(tǒng)的準確度略高于第1、3號識別系統(tǒng)。
圖5 11個候選話者識別系統(tǒng)的Tippett圖
此外,表5中的11個候選話者識別系統(tǒng)的Cllr值也顯示,第3、4號識別系統(tǒng)的效度略高于其他候選識別系統(tǒng)。綜合考慮候選話者識別系統(tǒng)的總體性能和效度,選定第4號系統(tǒng)為要建立的話者識別系統(tǒng)。
圖6分別是基于9對同對會話比較和36對異對會話比較的交叉驗證過程計算所得的似然率值繪制的基于信息特征的4號話者識別系統(tǒng)和基于[ɑu214] 共振峰軌跡特征的話者識別系統(tǒng)的Tippett圖。左側(cè)的是以[ɑu214] 共振峰軌跡特征為識別特征的話者識別系統(tǒng)的Tippett圖,右側(cè)是以6個信息特征為識別特征的4號話者識別系統(tǒng)的Tippett圖。不難看出,以信息特征為識別特征的話者識別系統(tǒng)的總體性能優(yōu)于以共振峰軌跡特征為識別特征的話者識別系統(tǒng)。而且前者的等誤率約為46%,后者的約為30.5%,表明以信息特征為識別參數(shù)的話者識別系統(tǒng)準確性更高些。
圖6 基于信息特征和基于共振峰軌跡特征的話者識別系統(tǒng)Tippett圖
而且,以信息特征為識別特征的話者識別系統(tǒng)的 Cllr值為 0.775,以[ɑu214] 共振峰軌跡特征為識別特征的話者識別系統(tǒng)的Cllr值為3.145,不但遠遠高于以信息特征為識別特征的話者識別系統(tǒng)的Cllr值,而且遠遠大于1,說明以共振峰軌跡特征為識別特征的話者識別系統(tǒng)的效度很低。
張翠玲等[26]測試二合元音和三合元音共振峰軌跡特征是比單元音效度更高的話者識別聲學語音學特征,這與本研究實驗結(jié)果相差甚遠。導致本研究實驗中共振峰軌跡特征的總體性能和信度都不理想的根本原因是本實驗所用會話材料為自然話語。張翠玲等[26]實驗所用元音[ɑi55] 源于同一個字“哀”,由被試朗讀指定含有被測試音節(jié)的詞組,并在實驗室完成錄制;而本研究所用會話是在不控制任何條件下錄制的自然日常會話,該研究實驗中的被測試音節(jié)[ɑu214] 并不是源于同一個字,在此條件下,為了保證取樣音節(jié)的語音環(huán)境盡量相近似,在該實驗數(shù)據(jù)中最多能保證每段對話中抽取2個音節(jié)。 張翠玲等[26]測試的元音為[ɑi55] 和[iɑo55] ,而本研究實驗如果選用這兩個元音,則會導致用作交叉驗證過程的測試組數(shù)據(jù)和背景組數(shù)據(jù)樣本量過小,嚴重影響實驗結(jié)果的效度和信度。本實驗選取[ɑu214] 作為被測試音節(jié),首先是因為它是118段含有二合元音和三合元音會話中出現(xiàn)頻率高,又能保證數(shù)據(jù)樣本量的元音;其次,ZHANG等[28]的實驗證明[iɑu55] 是比[ai55] 效度更高的識別參數(shù)。
以上實驗數(shù)據(jù)和分析一方面證明語音學特征話者識別參數(shù)受現(xiàn)實環(huán)境諸多因素影響,話者內(nèi)自身變異性大,另一方面也說明本實驗挖掘的信息特征經(jīng)驗證體現(xiàn)話者的個人話語風格,受現(xiàn)實環(huán)境諸多因素影響小,話者內(nèi)自身變異性小,可以作為話者識別特征。
本研究的目的是挖掘在現(xiàn)實環(huán)境條件下話者內(nèi)變異性低的量化話者識別特征。基于SAPIR提出的話語行為構(gòu)成層面及它們的屬性和語篇信息分析理論,采用語篇信息分析方法,以不人為施加任何控制的日常自然會話為實驗材料,挖掘并驗證話者的個人話語風格特征作為話者識別特征的總體性能、效度和信度。
本研究基于研究目的設計了四個環(huán)環(huán)相扣的實驗,先篩選出具有高話者間差異性的信息特征,再從中篩選出具有低話者內(nèi)變異性的信息特征,而后在似然率框架內(nèi)檢驗所篩選出的具有潛在話者識別能力的個人話語風格特征作為話者識別特征的總體性能和效度,構(gòu)建話者識別系統(tǒng)。最后比較所構(gòu)建的話者識別系統(tǒng)和效度經(jīng)過驗證的元音共振峰軌跡特征的總體性能和效度,驗證所挖掘的個人話語風格特征作為話者識別參數(shù)的信度。
該研究發(fā)現(xiàn),首先話語行為的個人話語風格層面上的話者識別特征可以采用語篇信息分析方法分析挖掘;其次實驗驗證影響語音學特征的現(xiàn)實環(huán)境等因素和話者個人因素對個人話語風格特征基本無影響。此外,該研究還發(fā)現(xiàn)現(xiàn)實環(huán)境因素對語音學參數(shù)的影響主要表現(xiàn)在兩方面,一是由于無法控制話者的交際意圖,無法保證待考察音段的高頻出現(xiàn)率;二是無法控制物理環(huán)境因素,使受傳輸信道、錄制設備等影響較大的高效度語音學識別特征的信度大大降低。
基于以上發(fā)現(xiàn),在司法實踐中如果非語音學的個人話語風格特征能與話語行為其他層面上的高性能高效度識別特征,尤其是語音學特征,相互印證、互為補充,符合整體論原理,識別結(jié)論的信度會大大提高。