□ 文/徐建明
智慧城市的發(fā)展中,視覺(jué)計(jì)算、海量視頻監(jiān)控的廣泛應(yīng)用,催生了AI人工智能搶先在智慧城市建設(shè)中公共安全領(lǐng)域形成全閉環(huán),作為人工智能的先鋒,生物識(shí)別技術(shù)由于技術(shù)研究的同源性和中國(guó)智慧城市的廣泛樣本量,也使得AI新貴企業(yè)從技術(shù)研究同源的師承脈絡(luò)中不斷演進(jìn),形成了人臉識(shí)別等生物識(shí)別技術(shù)的繁榮應(yīng)用,而作為語(yǔ)音識(shí)別細(xì)分領(lǐng)域中的聲紋識(shí)別也逐漸在智慧城市應(yīng)用中扮演了人機(jī)交互的重要橋梁,并初步形成了和人臉識(shí)別一樣開(kāi)拓出智慧城市新市場(chǎng),作為中國(guó)智慧城市的建設(shè)理念的踐行者,行業(yè)內(nèi)已經(jīng)形成并達(dá)成智慧城市建設(shè)的三步并行的路線:“公共安全立體化、行業(yè)管理效率化、民生服務(wù)智慧化”。我們今天從AI賦能下的智慧城市深度應(yīng)用中選取新貴垂直領(lǐng)域的AI賦能應(yīng)用——聲紋識(shí)別來(lái)闡述智慧城市中的AI賦能新應(yīng)用的現(xiàn)狀和發(fā)展應(yīng)用。
生物特征是指每個(gè)個(gè)體所獨(dú)有的、可以通過(guò)技術(shù)有效測(cè)量、甄別、鑒定與驗(yàn)證的某類(lèi)生理上的特征或行為上的方式。從生物特征的來(lái)源進(jìn)行區(qū)分,可初步分為兩大類(lèi),一是生理特征,二是行為特征。生理特征通常指的是人臉、掌靜脈、指紋、聲紋、虹膜等;行為特征通常指的是筆跡、步態(tài)等。
生物特征識(shí)別技術(shù)就是利用各類(lèi)傳感與采集技術(shù)、深度學(xué)習(xí)等人工智能技術(shù),通過(guò)對(duì)個(gè)人生理特征和行為特征進(jìn)行計(jì)算,建立數(shù)學(xué)模型,并進(jìn)行識(shí)別與區(qū)分的技術(shù)。
近年來(lái),隨著智慧城市建設(shè)的不斷加速、以及人工智能技術(shù)的深度發(fā)展,越來(lái)越多的領(lǐng)域?qū)ι锾卣髯R(shí)別技術(shù)產(chǎn)生了應(yīng)用需求。而在各類(lèi)生物特征識(shí)別技術(shù)中,智能語(yǔ)音類(lèi)技術(shù)是應(yīng)用得最廣泛的技術(shù)之一。
智能語(yǔ)音類(lèi)技術(shù)從應(yīng)用廣度來(lái)分,首屈一指的當(dāng)屬語(yǔ)音識(shí)別與聲紋識(shí)別兩大類(lèi)。其中,語(yǔ)音識(shí)別技術(shù)主要是以計(jì)算機(jī)來(lái)識(shí)別語(yǔ)音描述的內(nèi)容,并自動(dòng)將語(yǔ)音內(nèi)容轉(zhuǎn)換為文字;聲紋識(shí)別技術(shù)是通過(guò)對(duì)聲音頻譜等特征的全面分析,建立計(jì)算機(jī)對(duì)聲音特征的描述,并基于此分辨聲音的發(fā)出者的身份。兩者原理上類(lèi)似,都是通過(guò)對(duì)采集到的語(yǔ)音信號(hào)進(jìn)行分析和處理,提取相應(yīng)的特征或建立相應(yīng)的模型,然后據(jù)此做出判斷。但二者的根本目的,提取的特征、建立的模型是不一樣的。
語(yǔ)音識(shí)別技術(shù)當(dāng)前已廣泛的運(yùn)用在智慧城市的方方面面,例如地鐵站的智能語(yǔ)音售票、運(yùn)營(yíng)商或銀行的智能語(yǔ)音客服、智能手機(jī)上的語(yǔ)音輸入法、各類(lèi)語(yǔ)音助理與智能音箱等等,都運(yùn)用了語(yǔ)音識(shí)別技術(shù)。
而聲紋識(shí)別的應(yīng)用領(lǐng)域則更加專(zhuān)業(yè)與細(xì)分,主要集中在公安、司法等需要利用聲紋鑒定人員身份的領(lǐng)域中?,F(xiàn)代語(yǔ)音同一認(rèn)定(聲紋鑒定)技術(shù)是隨著語(yǔ)圖儀(聲譜儀)的發(fā)明而發(fā)展起來(lái)的。20世紀(jì)40年代初期,美國(guó)貝爾實(shí)驗(yàn)室發(fā)明了聲譜儀,這個(gè)儀器是一個(gè)動(dòng)態(tài)聲波分析儀,通過(guò)對(duì)語(yǔ)音信號(hào)的時(shí)間、頻率和強(qiáng)度(t-f-a)三種參數(shù)的實(shí)時(shí)分析,產(chǎn)生一個(gè)連續(xù)可視的語(yǔ)音頻譜。當(dāng)時(shí)在貝爾實(shí)驗(yàn)室工作的物理學(xué)家波特(Potter)等人開(kāi)始研究利用聲譜儀來(lái)分析語(yǔ)音。
最早進(jìn)行語(yǔ)音同一認(rèn)定(聲紋識(shí)別的主要分支)研究的是美國(guó)的克斯塔(L·G·Kersta)。他于1962年研究并發(fā)表了名為《聲紋鑒定》(Voiceprint Identification)的研究報(bào)告。他對(duì)123名健康美國(guó)人的“I,You,It”等聲樣的25000個(gè)聲紋圖進(jìn)行了50000多項(xiàng)分析,實(shí)驗(yàn)準(zhǔn)確率為97%-99.65%。
而在我國(guó),早在上世紀(jì)80年代末就已由上世紀(jì)八十年代末,中國(guó)刑警學(xué)院文檢系和公安部物證鑒定中心先后引進(jìn)相關(guān)儀器設(shè)備并分別建立了聲紋鑒定實(shí)驗(yàn)室,并進(jìn)一步成立了聲紋鑒定研究課題組,開(kāi)展了聲紋鑒定技術(shù)的研究工作。到現(xiàn)在,在全國(guó)各地公安機(jī)關(guān)的多年共同努力下,針對(duì)漢語(yǔ)這一世界最大語(yǔ)種獨(dú)有的特點(diǎn)與規(guī)律,已然總結(jié)出一套科學(xué)的鑒定與甄別方法,聲紋識(shí)別已成為公共安全領(lǐng)域鑒定人員身份的主要手段之一。
傳統(tǒng)的聲紋識(shí)別的主要應(yīng)用一是在民事糾紛、刑事案件等訴訟環(huán)節(jié),針對(duì)各類(lèi)錄音文件鑒定其身份,是各類(lèi)案件的偵辦、審理環(huán)節(jié)確認(rèn)嫌疑人身份及證據(jù)真?zhèn)蔚闹饕侄沃?;二是?yīng)用在智能手機(jī)助理、智能音箱、智能客服等生活服務(wù)場(chǎng)景,用于識(shí)別用戶(hù)身份,并提供針對(duì)性的服務(wù)。
在公共安全領(lǐng)域,隨著互聯(lián)網(wǎng)的高速發(fā)展,新型犯罪手段層出不窮,非接觸式、跨地域、大型組織、高度分工等特點(diǎn),均是新型犯罪的主要特點(diǎn),以最為典型的電信詐騙為例,犯罪團(tuán)伙往往是多層級(jí)單線聯(lián)系、跨省甚至跨國(guó)作案、與被害人零接觸。這類(lèi)案件靠傳統(tǒng)的接觸式偵查手段往往難以為繼,需要更高實(shí)時(shí)性的技術(shù)手段予以支持,是對(duì)案件偵破工作提出的新挑戰(zhàn),也正是AI賦能下的聲紋識(shí)別技術(shù)所擅長(zhǎng)的領(lǐng)域。
在這種背景下,聲紋識(shí)別在公共安全領(lǐng)域的應(yīng)用特征與變化主要有如下幾點(diǎn):
近年來(lái),隨著人工智能,深度學(xué)習(xí),大數(shù)據(jù)分析等技術(shù)的發(fā)展,配合國(guó)家現(xiàn)有的指紋庫(kù)和人臉庫(kù)等成熟的生物特征庫(kù),業(yè)內(nèi)已經(jīng)逐步研發(fā)出不少切合實(shí)戰(zhàn)需求的聲紋應(yīng)用系統(tǒng)。
其主要的應(yīng)用場(chǎng)景是為非接觸性犯罪案件偵破提供高效準(zhǔn)確的偵查手段——在電信詐騙、恐嚇勒索等虛擬空間的犯罪案件里,犯罪分子與被害人接觸會(huì)比較少,所以聲音成為了最主要的破案線索,這類(lèi)場(chǎng)景需要在線對(duì)特定場(chǎng)所采集的聲音,與涉詐騙人員庫(kù)等專(zhuān)題庫(kù)進(jìn)行實(shí)時(shí)比對(duì),以期及時(shí)發(fā)現(xiàn)身份可疑人員,提高偵查效能。
傳統(tǒng)的聲紋識(shí)別應(yīng)用場(chǎng)景多為認(rèn)定,即判斷指定的聲音是否由某個(gè)特定的人發(fā)出的,然而隨著大數(shù)據(jù)、深度學(xué)習(xí)技術(shù)的發(fā)展,技術(shù)上已能支撐大體量聲紋庫(kù)的建立,并實(shí)現(xiàn)聲紋數(shù)據(jù)的大規(guī)模檢索與比對(duì),協(xié)助公安機(jī)關(guān)快速確認(rèn)掌握的聲音線索的身份。
聲紋識(shí)別的應(yīng)用已為公安打擊虛擬空間犯罪提供了一種行之有效的技術(shù)手段,可進(jìn)一步配合已有的人臉識(shí)別、指紋識(shí)別等生物特征識(shí)別技術(shù),現(xiàn)實(shí)空間和虛擬空間相結(jié)合,更全面的刻畫(huà)犯罪嫌疑人的全息畫(huà)像,對(duì)犯罪行為進(jìn)行多角度、多方位的監(jiān)控和打擊,保衛(wèi)國(guó)家和社會(huì)的安全。
聲紋識(shí)別在公共安全領(lǐng)域的主要應(yīng)用瓶頸與問(wèn)題如下:
從根本上說(shuō),語(yǔ)音的個(gè)體穩(wěn)定性主要是由語(yǔ)音的生理基礎(chǔ)決定的。當(dāng)一個(gè)人的發(fā)音器官發(fā)育成熟以后,他的呼吸器官、喉系統(tǒng)和共鳴腔的生理結(jié)構(gòu)及其機(jī)能就進(jìn)入一個(gè)相對(duì)穩(wěn)定的狀態(tài),這就是聲紋識(shí)別的生理基礎(chǔ)。但是,聲音的穩(wěn)定性較人臉、指紋等生物特征相比,其穩(wěn)定性相對(duì)較差,變聲期、病變、外傷、錄音條件不同、言語(yǔ)環(huán)境不同等因素都會(huì)使一個(gè)人的聲音產(chǎn)生變化,使其穩(wěn)定性減弱,而一種生物特征的廣泛應(yīng)用卻要求在穩(wěn)定性、差異性和反映性上均達(dá)到較高水平。因此,在公共安全這類(lèi)嚴(yán)謹(jǐn)?shù)膽?yīng)用領(lǐng)域,語(yǔ)音特征通常是作為認(rèn)定嫌疑人(或當(dāng)事人)的參考依據(jù)(特殊情況下可作為傾向認(rèn)定的依據(jù)),但通常不能輕易作為否定依據(jù)。只有在特征的特異性較強(qiáng)且穩(wěn)定并確認(rèn)無(wú)偽裝變化的情況下,才可直接用來(lái)否定嫌疑人(或當(dāng)事人)。
聲音的來(lái)源渠道多種多樣,例如錄音筆、電話、VOIP、拾音器等等,不同的采集渠道也會(huì)采用不同的音頻編解碼模式,模數(shù)轉(zhuǎn)換的過(guò)程或多或少會(huì)造成聲音的損傷。這就對(duì)聲紋識(shí)別時(shí)候的特征建模提出了更高的要求,需要綜合考慮并屏蔽因采集設(shè)備、傳輸信道、環(huán)境噪音、錄音回放、聲音模仿、時(shí)間跨度、采樣時(shí)長(zhǎng)等各種環(huán)境因素造成的影響,從當(dāng)前業(yè)界實(shí)踐來(lái)看,聲紋識(shí)別也和其他識(shí)別一樣,也向著深度學(xué)習(xí)的方向發(fā)展。
聲音是最容易被偽造的生物特征之一,在當(dāng)前技術(shù)水平下,錄音剪輯、TTS等技術(shù)手段形成的錄音片段,幾乎可達(dá)到以假亂真的程度,可見(jiàn),在聲紋識(shí)別時(shí)候必須考慮到上述因素。
在應(yīng)用時(shí),業(yè)界通常會(huì)引入防錄音攻擊算法、活體檢測(cè)算法等技術(shù),用以屏蔽技術(shù)手段對(duì)識(shí)別準(zhǔn)確性的干擾。
當(dāng)前,公安機(jī)關(guān)針對(duì)各類(lèi)虛擬空間犯罪(例如電信詐騙、恐嚇勒索等)的偵破,除了依靠追蹤銀行流水與電信話單外,有針對(duì)性的通過(guò)各種技術(shù)手段獲取的通話錄音、監(jiān)聽(tīng)錄音等音頻線索也是重要的破案途徑,但是單純通過(guò)人工監(jiān)聽(tīng)與甄別,既難以準(zhǔn)確識(shí)別出犯罪嫌疑人,也難以將犯罪嫌疑人歷史積案進(jìn)行串并,公安機(jī)關(guān)迫切需要新的技術(shù)手段,以在在海量音頻中挖掘線索、識(shí)別嫌疑人身份,甚至進(jìn)一步建立事前主動(dòng)出擊、主動(dòng)預(yù)防的能力。
聲紋識(shí)別大數(shù)據(jù)平臺(tái)的建設(shè),為上述問(wèn)題的有效解決提供了一種新的技術(shù)手段。
聲紋識(shí)別大數(shù)據(jù)平臺(tái)是參照非接觸式犯罪打擊的業(yè)務(wù)需求與業(yè)務(wù)流程,專(zhuān)門(mén)針對(duì)多源異構(gòu)的海量音頻數(shù)據(jù)開(kāi)發(fā)的大數(shù)據(jù)實(shí)戰(zhàn)應(yīng)用平臺(tái),通過(guò)實(shí)現(xiàn)聲音數(shù)據(jù)的匯聚接入、優(yōu)化治理、建庫(kù)比對(duì)、聲紋核驗(yàn)、聲紋聚類(lèi)等一系列功能,可滿(mǎn)足聲紋實(shí)戰(zhàn)中線索排查、身份核驗(yàn)、類(lèi)案串并等多方面應(yīng)用需求,為更快的破大案,更多的破小案服務(wù)。
典型的聲紋識(shí)別大數(shù)據(jù)平臺(tái)架構(gòu)如上圖所示,分為數(shù)據(jù)源、數(shù)據(jù)處理層、支撐服務(wù)層與應(yīng)用層四部分。
在數(shù)據(jù)源的接入上,平臺(tái)支持從網(wǎng)絡(luò)通信、電話信道、錄音設(shè)備和聲紋采集設(shè)備等多種類(lèi)型的數(shù)據(jù)源接入實(shí)時(shí)音頻流或離線文件,最大限度擴(kuò)展聲音的來(lái)源。
在數(shù)據(jù)處理層,平臺(tái)需對(duì)接入的各種類(lèi)型音頻文件進(jìn)行匯聚與處理,包括數(shù)據(jù)接入網(wǎng)關(guān)、數(shù)據(jù)轉(zhuǎn)儲(chǔ)網(wǎng)關(guān)、算法引擎、管理控制臺(tái)4部分。在此層次,需對(duì)接入的各類(lèi)數(shù)據(jù)進(jìn)行質(zhì)量檢測(cè),過(guò)濾不符合聲紋識(shí)別標(biāo)準(zhǔn)的低質(zhì)量數(shù)據(jù),對(duì)符合聲紋識(shí)別標(biāo)準(zhǔn)的數(shù)據(jù)進(jìn)行聲紋特征提取,將非結(jié)構(gòu)化數(shù)據(jù)變?yōu)橛?jì)算機(jī)可識(shí)別的結(jié)構(gòu)化數(shù)據(jù)。
在支撐服務(wù)層,主要是通過(guò)接入數(shù)據(jù)處理層的數(shù)據(jù),為上層應(yīng)用提供可擴(kuò)展的聲紋布控服務(wù)、聲紋靜態(tài)大庫(kù)檢索服務(wù)、聲紋動(dòng)態(tài)庫(kù)檢索服務(wù)、消息服務(wù)、文件存儲(chǔ)、高速緩存服務(wù)、關(guān)系型數(shù)據(jù)庫(kù)、大數(shù)據(jù)分析、彈性搜索、地圖服務(wù)等一系列支撐服務(wù)與應(yīng)用服務(wù),支持各類(lèi)聲紋業(yè)務(wù)應(yīng)用及大數(shù)據(jù)計(jì)算需要。
聲紋識(shí)別大數(shù)據(jù)平臺(tái)的典型部署架構(gòu)如下圖所示,包括數(shù)據(jù)接入網(wǎng)關(guān)服務(wù)器、特征提取主機(jī)、聲紋動(dòng)態(tài)布控服務(wù)器、聲紋靜態(tài)大庫(kù)檢索服務(wù)器、聲紋動(dòng)態(tài)檢索服務(wù)、大數(shù)據(jù)服務(wù)器及應(yīng)用支撐服務(wù)器。根據(jù)公安機(jī)關(guān)的實(shí)戰(zhàn)需求,平臺(tái)還需支持單網(wǎng)與雙網(wǎng)部署模式。
聲紋識(shí)別大數(shù)據(jù)平臺(tái)具備聲音數(shù)據(jù)的匯聚接入、優(yōu)化治理、建庫(kù)比對(duì)、聲紋核驗(yàn)、聲紋聚類(lèi)等一系列功能,在公安機(jī)關(guān)的非接觸式案件的偵查與研判上,具有廣泛的應(yīng)用場(chǎng)景,比較典型的應(yīng)用模式如下:
線索排查場(chǎng)景。通過(guò)平臺(tái)的聲紋檢索功能,可在海量聲紋庫(kù)中檢索與輸入的聲音信息為同一身份的記錄。該功能需要公安機(jī)關(guān)建立專(zhuān)題聲紋庫(kù)(如涉詐人員聲紋庫(kù)等),并根據(jù)業(yè)務(wù)需求進(jìn)行標(biāo)簽標(biāo)注,當(dāng)獲取到新的聲紋線索時(shí),通過(guò)聲紋檢索功能可快速確認(rèn)發(fā)出聲音的人員的身份。
身份核驗(yàn)場(chǎng)景。通過(guò)平臺(tái)的聲紋1:1核驗(yàn)功能,可實(shí)現(xiàn)基于聲音的身份驗(yàn)證與鑒定,即通過(guò)對(duì)輸入的2個(gè)聲音來(lái)源進(jìn)行特征提取,并比對(duì)兩個(gè)特征的相似度,當(dāng)相似度大于一定的閾值時(shí),可判定2段聲音為同一人發(fā)出。為進(jìn)一步提高準(zhǔn)確性,可引入多廠家、多版本的聲紋識(shí)別算法,當(dāng)多個(gè)算法均認(rèn)為是同一人時(shí),即可較為準(zhǔn)確的判定。
該場(chǎng)景可有效協(xié)助公安機(jī)關(guān)在審訊時(shí)候快速認(rèn)定犯罪嫌疑人的聲音。
類(lèi)案串并場(chǎng)景。平臺(tái)支持針對(duì)每個(gè)案件建立檔案,存儲(chǔ)涉案聲紋線索信息,并定期自動(dòng)將涉案聲紋進(jìn)行比對(duì),若多個(gè)涉案聲紋記錄由算法判定為同一人所發(fā)出,則可進(jìn)行類(lèi)案串并。該功能可協(xié)助公安機(jī)關(guān)擴(kuò)大戰(zhàn)果,提升打擊效能。
聲紋布控告警場(chǎng)景。在能獲取實(shí)時(shí)聲音數(shù)據(jù)的應(yīng)用場(chǎng)景中,可進(jìn)一步實(shí)現(xiàn)基于聲音信息的布控告警功能,協(xié)助公安機(jī)關(guān)快速預(yù)警目標(biāo)人員聲音出現(xiàn),以及時(shí)做出響應(yīng)。
人員聲紋畫(huà)像場(chǎng)景。利用平臺(tái)的聲紋聚類(lèi)功能,可實(shí)現(xiàn)基于聲音信息的重點(diǎn)關(guān)注人員一人一檔。該檔案一方面可協(xié)助公安機(jī)關(guān)不斷積累重點(diǎn)關(guān)注人員的聲音信息,另一方面可利用大數(shù)據(jù)技術(shù),結(jié)合聲音采集的時(shí)間、地點(diǎn)等信息,進(jìn)一步分析挖掘該人員的行為特征與業(yè)務(wù)特征,實(shí)現(xiàn)聲紋大數(shù)據(jù)畫(huà)像。
聲紋識(shí)別具有采集簡(jiǎn)便、識(shí)別準(zhǔn)確、難以偽造等眾多優(yōu)勢(shì),且對(duì)用戶(hù)干涉較少,更易嵌入各類(lèi)應(yīng)用場(chǎng)景中得到接受。在全球范圍內(nèi),聲紋識(shí)別技術(shù)正廣泛應(yīng)用于身份驗(yàn)證、記錄比對(duì)等場(chǎng)景。
隨著技術(shù)的發(fā)展與算力的提升,如今的安全主管部門(mén)也在更多地引入這一技術(shù)進(jìn)行犯罪活動(dòng)的打擊,例如,在高鐵站、火車(chē)站、長(zhǎng)途汽車(chē)站、飛機(jī)場(chǎng)等一場(chǎng)三站場(chǎng)景,通過(guò)聲紋識(shí)別技術(shù)、結(jié)合人臉等生物特征識(shí)別技術(shù),對(duì)乘客身份進(jìn)行精準(zhǔn)識(shí)別,可以有效實(shí)現(xiàn)人員管控;通過(guò)聲紋布控告警等技術(shù)對(duì)非接觸式犯罪進(jìn)行遠(yuǎn)程網(wǎng)上偵查與打擊,也能更有效的提升安全主管部門(mén)的作戰(zhàn)能力。
時(shí)至今日,聲紋識(shí)別技術(shù)已經(jīng)從實(shí)驗(yàn)室逐步走向各類(lèi)實(shí)際應(yīng)用場(chǎng)景中,處于大規(guī)模爆發(fā)性應(yīng)用的前期,隨著聲紋識(shí)別的準(zhǔn)確率繼續(xù)增高、使用限制的不斷減少,因其低侵入、無(wú)接觸等特點(diǎn),在將來(lái)必定會(huì)在更多行業(yè)、更多場(chǎng)景中得到更為廣泛的應(yīng)用。