□耿浦洋,盧啟萌,郭 弘,施少培,卞新偉
(司法鑒定科學研究院聲像和電子數據鑒定研究室,上海 200063)
語音同一性鑒定(也稱聲紋鑒定),是指對檢材語音和樣本語音進行比對和分析,確定二者是否出自同一說話人的技術。在目前的司法鑒定實踐中,檢材語音的采集設備主要包括錄音筆、電話錄音、手機錄音等。值得注意的是,檢材語音的采集設備不同會對語音特征(如共振峰)的比對和分析造成一定影響。例如,固定電話的采樣頻率范圍為300-3400Hz,超出這個范圍的語音特征都無法被記錄,因此在對檢材語音和樣本語音進行比對時,應著重關注此頻率范圍內的特征。有學者提出,為了更科學的進行語音同一性鑒定,在實踐中應當充分考慮語音采集設備對語音特征可能造成的影響,或使用檢材語音的采集設備來采集樣本語音。[1]
近年來,隨著智能手機和互聯網技術的飛速發(fā)展,通訊、短視頻和直播等手機軟件已經成為人們日常生活和娛樂活動中不可缺少的工具。微信語音、網絡直播、短視頻也在一定程度上替代了傳統通訊和營銷方式,占據了主導地位。然而,隨著這些軟件的不斷成熟和推廣,一些不法分子也開始使用相關軟件進行違法活動,例如電信詐騙、網絡賭博、裸聊等。因此,微信語音、視頻也越來越多的以證據形式出現在法律訴訟案件中。
通常,一些手機軟件為了提高語音信號的傳遞效率、減少相關文件的空間占用率,會對語音信號采取有損壓縮手段。這種手段不會改變語音的可懂度,但可能會對語音的特征造成一定影響。那么,微信、直播等軟件在信號傳輸過程中是否存在有損壓縮、其記錄的語音特征是否完整?如果存在上述現象,那么在語音同一性鑒定的案件中,作為證據的微信語音或視頻是否與使用無損錄音設備(如專業(yè)錄音機)采集的樣本語音具有可比性?二者又存在哪些差異?對于這些問題的答案,尚缺乏系統的實驗研究。
因此,為了解決上述問題,本文將對微信、短視頻、直播三種手機軟件與專業(yè)錄音機采集的語音信號進行對比分析,考察上述軟件和錄音機采集信號的差異及可比性。
研究招募了男女各一名發(fā)音人,普通話標準。錄音設備包括三部華為手機(HUAWEI P30 Pro)和專業(yè)錄音機(型號:SONY PCM-D50)。其中,手機錄音的軟件包括:微信(版本:8.0.2)、抖音(版本:16.2.0)、花椒直播(版本:7.8.5.1028)。
錄音材料為中文版《北風與太陽》。錄音開始前,發(fā)音人花3-5分鐘熟悉錄音材料。錄音設備置于發(fā)音人面前25cm,三部手機(分別運行微信、抖音和花椒直播軟件)和錄音機同時開始錄音。錄音機采樣率為48.0 kHz,采樣精度16 bit。要求發(fā)音人使用平時說話的方式朗讀錄音材料。
此外,為考察微信傳輸對視頻中音頻信號的壓縮情況,錄音結束后,將抖音和花椒直播軟件錄制的視頻通過微信發(fā)送至某微信賬號。
最后,對手機錄制的音/視頻文件進行提取,錄音文件如表1所示:(1)微信語音通過手機鏡像進行提取(即微信-女和微信-男);(2)抖音/花椒錄制的視頻使用三種方式提取,錄制手機相冊中視頻原始文件提取(即抖音-女、抖音-男、花椒-女、花椒-男)、微信電腦客戶端提取(微信-抖音-女-客戶端、微信-抖音-男-客戶端、微信-花椒-女-客戶端、微信-花椒-男-客戶端)、手機鏡像提取(即微信-抖音-女-鏡像、微信-抖音-男-鏡像、微信-花椒-女-鏡像、微信-花椒-男-鏡像)。
表1 錄音文件
錄音文件的屬性信息如表2所示。微信語音的采樣率為16.0kHz,采樣精度16bit,2聲道錄制;抖音錄制視頻中音頻信號的采樣率均為44.1kHz,無采樣精度信息,錄制原始文件為2聲道、微信傳輸后文件為1聲道;花椒錄制視頻中音頻信號的采樣率均為44.1kHz,無采樣精度信息,1聲道。
表2 錄音文件屬性信息
頻譜特征是說話人個體特征的重要反映,與咽腔、口腔和鼻腔等生理器官存在密切關系。[2]在語音同一性鑒定中,頻譜特征(如共振峰、基頻等)是進行同一認定的重要依據。因此,要考察手機軟件錄音和錄音機錄音之間是否具有可比性,需要對二者采集語音的頻譜特征進行對比分析。
從頻譜采集的范圍看,錄音機、抖音和花椒錄制音頻的頻譜特征采集范圍為0-12 kHz;微信語音的頻譜特征采集范圍為0-8 kHz,8-12 kHz范圍未采集到頻譜特征,這說明微信在采集語音信號的過程中存在壓縮現象,過濾了8 kHz以上的頻譜特征。
進一步對0-8 kHz范圍內的頻譜特征進行觀察比對發(fā)現,男、女發(fā)音人在所有錄音的頻譜特征顯示上均表現一致(即頻率分布及走向、過渡音段形態(tài)、振幅強弱、時長以及背景噪音)。如圖1和圖2所示,以“在那里爭論誰的本事更大”為例,不同手機軟件和錄音機錄制語音的頻譜特征未發(fā)現差異,這說明在0-8 kHz范圍內手機軟件和錄音機采集的語音信號一致。
圖1 “在那里爭論誰的本事更大”的頻譜圖(女)
圖2 “在那里爭論誰的本事更大”的頻譜圖(男)
為了定量考察手機軟件和錄音機采集語音的頻譜特征是否存在差異,使用Praat軟件對錄音文件的頻譜特征進行提取,[3]即前四個共振峰(F1、F2、F3和F4)、基頻和嗓音參數(jitter、shimmer、HNR)。其中,每個錄音文件生成的基頻文件均經過手工校正,并進行平滑和插入。最后,對提取的所有參數分別求平均值。
聲譜特征的均值如表3所示。對于前四個共振峰的均值,不同手機軟件和錄音機之間的差異均小于100 Hz,F1、F3的差異相對較大,F2、F4更穩(wěn)定,男發(fā)音人的差異小于女發(fā)音人。對于基頻和嗓音參數的均值,不同手機軟件和錄音機之間的差異較小,具有較高的穩(wěn)定性。
表3 聲譜特征的均值
本文對微信、抖音和花椒直播軟件與專業(yè)錄音機采集的語音信號進行對比分析,發(fā)現:1.微信語音的有效頻譜顯示范圍為0-8 kHz,抖音和花椒錄制視頻中音頻信號的有效頻譜顯示范圍為0-12 kHz;2.通過微信傳輸的視頻中音頻信號未見壓縮或削減;3.微信、抖音和花椒采集語音與錄音機采集語音在0-8 kHz范圍內的頻譜特征表現一致;4.微信、抖音和花椒采集語音與錄音機采集語音在前四個共振峰(F1、F2、F3和F4)、基頻和嗓音參數(jitter、shimmer、HNR)的統計數據上未見顯著差異。
本研究的結果與南兆營的發(fā)現截然相反。南兆營提出,微信語音在頻譜特征上和錄音機錄制存在顯著差異。[4]然而,這個差異實際是由頻譜顯示范圍的設置差異造成的,如圖3所示,原始錄音的頻譜顯示范圍(即縱軸)為0-4 kHz,而微信和抖音語音的顯示范圍則為0-5 kHz,三者在0-4 kHz范圍內的頻譜特征表現一致(即紅線以下部分)。因此,微信、抖音語音和錄音機現場采集的說話人的語音信號不存在顯著差異。
圖3 微信語音和錄音機錄音的頻譜圖
此外,對于抖音和花椒錄制的語音,采樣精度信息不可見。這可能是視頻錄制軟件的信號采集特性造成的。本文還發(fā)現,微信語音未對8 kHz以上的頻譜特征進行采集。由于8kHz以上的頻譜特征不會對語音的聽覺感知、可懂度等造成顯著影響,為了提高傳輸效率、減少文件占用空間,微信語音未采集這部分頻譜特征。然而,值得注意的是,通過微信傳輸的視頻中音頻信號并未被壓縮,音頻采樣率、聲道等信息與原視頻文件均保持一致。
最后,盡管通過手機軟件和錄音機錄制的語音在8個聲譜特征的統計數據上基本保持一致,但是仍能發(fā)現個別聲譜特征(如F3)存在相對大的差異。造成這個現象可能的原因有Praat軟件在參數提取過程中的誤差,不同軟件的音頻傳輸質量差異,以及背景或本底噪聲干擾等??傮w來說,不同手機軟件和錄音機錄制的語音在聲譜特征的統計數據上不存在顯著差異。
本研究發(fā)現,微信、抖音、花椒直播等手機軟件和錄音機采集的語音信號在頻譜特征顯示(如頻率分布及走向、過渡音段形態(tài)、振幅強弱等)以及統計數據上均表現一致。因此,不同手機軟件采集的語音信號和錄音機現場采集的語音信號具有可比性。在語音同一性鑒定中,不同手機軟件采集的語音信號可以作為有效檢材或樣本進行同一鑒定。本文的研究結果對于語音同一性鑒定實踐具有較高的應用價值。同時,對于進一步推進司法鑒定公正性和科學性也具有重要意義。