許暉
大家沒(méi)有翻錯(cuò)《故事會(huì)》,這種看似小說(shuō)才敢編的小概率故事,能登在《汽車(chē)之友》技術(shù)欄目上是有原因的。按照概率而言,哪怕屬于億分之一概率邊緣事件之中的邊緣事件,以地球上幾十億人作分母,也總會(huì)有人屬于100%中招的苦主。此前曾有媒體用情景劇視頻方式演繹過(guò),壞人在車(chē)外喚醒智能車(chē)機(jī)打開(kāi)車(chē)窗行兇。隨后不少作為測(cè)試對(duì)象的主流車(chē)型頃刻失守。這就意味著“邊緣事件”發(fā)生概率并不小,很有可能會(huì)成為行業(yè)安全隱患。在與來(lái)自于業(yè)內(nèi)主要語(yǔ)音識(shí)別提供商賽輪思以及星河智聯(lián)的工程師交談之后,我們先把結(jié)論放在前面說(shuō)。車(chē)外語(yǔ)音開(kāi)窗事件真不真?真;是否威脅到配備該功能的車(chē)輛?是;出現(xiàn)問(wèn)題還有救么?有!至于真不真?是不是以及有沒(méi)有,正是科普的內(nèi)容。
作為如今大多數(shù)新車(chē)標(biāo)配功能,講述語(yǔ)音識(shí)別控制汽車(chē)功能前,咱們先了解“聲”這個(gè)物理術(shù)語(yǔ)。這種可通過(guò)介質(zhì)(空氣或固體、液體)傳播的玩意,物理學(xué)角度是由物體振動(dòng)產(chǎn)生的機(jī)械波。能被人(頻率在20Hz~20000Hz之間)或動(dòng)物聽(tīng)覺(jué)器官所感知。最初發(fā)出振動(dòng)的物體叫聲源。人類(lèi)對(duì)聲的利用多種多樣,譬如傳遞信息、反射定位,甚至傳遞能量。而從社會(huì)學(xué)角度,在人類(lèi)萬(wàn)千表達(dá)手段之中,“有聲語(yǔ)言”最重要,也是構(gòu)成社會(huì)交流的基礎(chǔ)。隨著科技發(fā)展,聲音已經(jīng)從人與人之間發(fā)展到人與機(jī)器之間的溝通交流。語(yǔ)音識(shí)別與控制技術(shù)正是由此發(fā)展而來(lái)。
“heySiri”應(yīng)該是不少人對(duì)語(yǔ)音識(shí)別的第一印象。當(dāng)智能設(shè)備成為個(gè)人無(wú)法離開(kāi)的隨身用品時(shí),實(shí)用軟件逐步成為被依賴(lài)對(duì)象。語(yǔ)音識(shí)別技術(shù)雖然發(fā)展迅速,但實(shí)際歷史不長(zhǎng),甚至連百年都不到。最早的語(yǔ)言識(shí)別技術(shù)起源于1952年的貝爾實(shí)驗(yàn)室那臺(tái)6英尺高自動(dòng)數(shù)字識(shí)別機(jī)“Audrey”,可識(shí)別數(shù)字0~9發(fā)音,且準(zhǔn)確度達(dá)90%以上。60年代計(jì)算機(jī)應(yīng)用推動(dòng)了語(yǔ)音識(shí)別技術(shù)發(fā)展;70年代語(yǔ)音識(shí)別領(lǐng)域取得突破性發(fā)展,線性預(yù)測(cè)編碼技術(shù)被成功應(yīng)用于語(yǔ)音識(shí)別,同一時(shí)期,統(tǒng)計(jì)方法開(kāi)始被用以解決語(yǔ)音識(shí)別關(guān)鍵問(wèn)題,這為接下來(lái)“非特定人大詞匯量連續(xù)語(yǔ)音識(shí)別技術(shù)”奠定重要的基礎(chǔ);80年代,連續(xù)語(yǔ)音識(shí)別成為研究重點(diǎn)之一。1988年李開(kāi)復(fù)在美國(guó)卡內(nèi)基梅隆大學(xué)用VQ/HMM方法,實(shí)現(xiàn)了997詞的非特定人連續(xù)語(yǔ)音識(shí)別系統(tǒng)SPHINX。人工神經(jīng)網(wǎng)絡(luò)在語(yǔ)音識(shí)別中也得到成功應(yīng)用。
人與人之間溝通若不清晰,或許還能追問(wèn)一句“啥玩意兒?你再說(shuō)一遍”??僧?dāng)人與機(jī)器之間溝通出現(xiàn)類(lèi)似情況就不好玩了。除非無(wú)聊至極,估計(jì)絕大多數(shù)人希望語(yǔ)音識(shí)別能在騰不出手的時(shí)候,給予迅速且準(zhǔn)確的回應(yīng)與執(zhí)行,而非閑聊或誤操作。語(yǔ)音識(shí)別的關(guān)鍵難點(diǎn)在于準(zhǔn)確率。僅為了撥打電話、編發(fā)信息以及查詢(xún)導(dǎo)航等基礎(chǔ)功能運(yùn)作,是難以滿足消費(fèi)者需求,真正讓現(xiàn)在車(chē)載語(yǔ)音商業(yè)落地的,是當(dāng)車(chē)輛控制權(quán)限逐步放寬情況下,通過(guò)語(yǔ)音識(shí)別功能更為便捷地控制更多需要自行操作的如娛樂(lè)系統(tǒng)、舒適系統(tǒng)等功能。減少行駛中分神操作的危險(xiǎn)。
車(chē)載語(yǔ)音識(shí)別是否安全?這個(gè)問(wèn)題從前并不太受關(guān)注。畢竟所控制的功能基本屬于娛樂(lè)設(shè)備或者舒適調(diào)節(jié)這些艙內(nèi)控制。就算隨著可控制功能層級(jí)下放。車(chē)燈、雨刮器等也加入可控行列,對(duì)行駛中車(chē)輛整體安全并無(wú)妨礙。可萬(wàn)沒(méi)想到控制車(chē)窗開(kāi)合這項(xiàng)行駛中無(wú)害的功能,在停駛期間成為安防隱患。讓原本能短暫成為避難所的車(chē)艙,瞬間門(mén)戶大開(kāi)。
有人認(rèn)為開(kāi)篇的惡犬案例略扯,其實(shí)分析下來(lái)與網(wǎng)上歹人喊開(kāi)車(chē)窗行兇如出一轍。除非是真空狀態(tài),要不不論車(chē)輛隔音做得如何好,只要聲量足夠大,憑借空氣、固體車(chē)窗等介質(zhì)傳入車(chē)內(nèi)的語(yǔ)音指令,依然可由系統(tǒng)接收作出執(zhí)行。也就是說(shuō)此安全隱患的確存在。安全對(duì)于車(chē)輛永無(wú)小事,這是所有與車(chē)相關(guān)企業(yè)的共識(shí),再小的安全問(wèn)題不能被輕視,無(wú)論如何也要解決掉的。
針對(duì)車(chē)輛語(yǔ)音識(shí)別安全,目前海內(nèi)外并沒(méi)有專(zhuān)門(mén)的法律法規(guī)以及具體指導(dǎo),甚至連行業(yè)標(biāo)準(zhǔn)也僅僅在起草驗(yàn)證階段,但幾乎所有語(yǔ)音識(shí)別技術(shù)提供商均早已意識(shí)到該問(wèn)題的存在。那么現(xiàn)有技術(shù)是否可以解決這個(gè)隱患?我們選擇與國(guó)際智能語(yǔ)音巨頭賽輪思,以及國(guó)內(nèi)人工智能新貴星河智聯(lián)的語(yǔ)音識(shí)別專(zhuān)家進(jìn)行了相關(guān)交流。先簡(jiǎn)單介紹一下兩家企業(yè)。目前為全球65家合作伙伴,提供超過(guò)70種語(yǔ)言技術(shù)的賽輪思,拆分于蘋(píng)果Siri語(yǔ)音技術(shù)供應(yīng)商N(yùn)uance的汽車(chē)業(yè)務(wù)團(tuán)隊(duì),全球有超過(guò)4億臺(tái)汽車(chē)部署了賽輪思的語(yǔ)音技術(shù)。而星河智聯(lián)則由廣汽集團(tuán)、廣汽資本以及訊飛云創(chuàng)三方合資成立,訊飛云創(chuàng)背后是國(guó)內(nèi)語(yǔ)音巨頭科大訊飛。在車(chē)外語(yǔ)音控制車(chē)窗開(kāi)啟事件上,雙方均一致認(rèn)為的確存在這個(gè)安全隱患,而在如何以技術(shù)解決該問(wèn)題上,大家所給出的解決方案既有同類(lèi)項(xiàng),也有各自的創(chuàng)新方案。
復(fù)用車(chē)內(nèi)攝像頭檢測(cè)范圍內(nèi)唇形變化,判斷語(yǔ)音指令是否由駕駛員發(fā)出是其中一項(xiàng)。實(shí)際上,星河智聯(lián)的多模語(yǔ)音交互已經(jīng)成熟落地,唇音融合語(yǔ)音技術(shù)讓語(yǔ)音檢出精準(zhǔn)率從68%提升到95%,有效減少誤觸發(fā)。其優(yōu)點(diǎn)是對(duì)固定車(chē)主的主駕非常友好,但一定程度上限制了后排以及副駕乘客的多音區(qū)控制用戶體驗(yàn)。
也可以通過(guò)增加拾音麥克風(fēng)結(jié)合聲源定位技術(shù)進(jìn)行檢測(cè)。這種方式較為明顯的缺點(diǎn)在于受噪音干擾。雖然整體提升VAD門(mén)檻,但車(chē)內(nèi)邊緣位置的喚醒率指標(biāo)略差。車(chē)窗關(guān)閉情況下,車(chē)外喚醒夾雜環(huán)境噪音并非單點(diǎn)聲源,為此十分依賴(lài)算法對(duì)車(chē)內(nèi)外的區(qū)分能力。在這點(diǎn)上賽輪思提出了增加車(chē)外麥克風(fēng)的建議。這項(xiàng)在歐洲已經(jīng)被用作檢測(cè)來(lái)自于救護(hù)車(chē)、消防車(chē)等特殊聲響,提示讓行的功能,在與車(chē)內(nèi)系統(tǒng)結(jié)合之后能很有效識(shí)別指令發(fā)出來(lái)源。
其實(shí)筆者認(rèn)為攔在眾多車(chē)企面前的并不是技術(shù)問(wèn)題,而是成本問(wèn)題。在交流中不難發(fā)現(xiàn),語(yǔ)音識(shí)別供應(yīng)商們?yōu)檐?chē)企所提供的方案,幾乎都提交了類(lèi)似問(wèn)題的深度解決方案??刹徽撌窃黾觽鞲衅鬟€是進(jìn)一步優(yōu)化軟件,均涉及到整車(chē)成本的增加而已。既然問(wèn)題已經(jīng)出現(xiàn),返廠增加硬件以及重刷對(duì)應(yīng)軟件顯然并不現(xiàn)實(shí),如何快速進(jìn)行補(bǔ)救是刻不容緩的事情。
更換系統(tǒng)喚醒詞的方式在工程師看來(lái)頂多算最快方案而不是最好方案,畢竟如果是熟人作案,依然存在有被猜中的幾率。更好的方式應(yīng)該是OTA升級(jí)車(chē)機(jī)系統(tǒng)。通過(guò)改變判斷當(dāng)前車(chē)速與車(chē)門(mén)主動(dòng)落鎖這兩種狀態(tài)以及增加二次確認(rèn)來(lái)解決問(wèn)題。最簡(jiǎn)單的是當(dāng)車(chē)速小于一定程度,譬如5km/h的時(shí)候,語(yǔ)音喚醒功能只能通過(guò)按鍵觸發(fā),默認(rèn)喚醒詞無(wú)效。稍微嚴(yán)謹(jǐn)一點(diǎn)則是對(duì)于語(yǔ)音開(kāi)啟車(chē)窗的指令增加一個(gè)需要主駕點(diǎn)擊的彈窗確認(rèn)。更為嚴(yán)謹(jǐn)一點(diǎn)則是在此基礎(chǔ)上加入車(chē)門(mén)鎖狀態(tài)判定,若車(chē)門(mén)由車(chē)主主動(dòng)上鎖,俺么系統(tǒng)接收語(yǔ)音指令時(shí)增加需要點(diǎn)擊的二次確認(rèn),否則不受限制。這些解決方式看似犧牲了部分用戶體驗(yàn),可與增加了一份安全相比,應(yīng)該是當(dāng)下解決燃眉之急的最佳建議。
道高一尺魔高一丈,技術(shù)的發(fā)展有賴(lài)于待解決問(wèn)題的發(fā)現(xiàn),對(duì)于未來(lái)守護(hù)語(yǔ)音識(shí)別安全的技術(shù)會(huì)如何發(fā)展,其實(shí)也存在著不少解決方案。其中一種應(yīng)該屬于聲紋識(shí)別技術(shù)。所謂聲紋是用電聲學(xué)儀器顯示的攜帶言語(yǔ)信息的聲波頻譜。與指紋識(shí)別、人臉識(shí)別技術(shù)類(lèi)似,聲紋識(shí)別也是生物特征識(shí)別技術(shù)的一種。該技術(shù)利用算法和神經(jīng)網(wǎng)絡(luò)模型,讓機(jī)器能夠從音頻信號(hào)中識(shí)別出不同人說(shuō)話的聲音。聲紋雖然不像人臉、指紋的個(gè)體差異那樣直觀可見(jiàn),但由于每個(gè)人的聲道、口腔和鼻腔也具有個(gè)體的差異性,因此反映到聲音上也具有差異性,所以每個(gè)人都擁有著自身獨(dú)特的聲紋。是否擔(dān)心口技演員那惟妙惟俏的模仿能力會(huì)成為該技術(shù)的軟肋?其實(shí)無(wú)需擔(dān)心,模仿得再像的聲音,頂多欺騙人耳,而對(duì)于由機(jī)器拾音所進(jìn)行的鑒定就無(wú)能為力了。事實(shí)上賽輪思最高等級(jí)的聲紋識(shí)別技術(shù),已經(jīng)部署在銀行鑒權(quán)應(yīng)用之上。雖然成本頗高,但無(wú)懼使用者是否感冒鼻塞導(dǎo)致聲音變化的技術(shù)實(shí)力依然值回票價(jià)至于市面上不少智能音箱產(chǎn)品所引入的聲紋技術(shù)幾乎不涉及安全等級(jí)操作,成本與精度也能控制下來(lái)。這也解釋了為何鮮有與安防相關(guān)的,如門(mén)禁一類(lèi)消費(fèi)電子產(chǎn)品使用聲紋技術(shù),主要還是對(duì)于設(shè)備、分析系統(tǒng)以及鑒別軟件要求目前來(lái)說(shuō)還相對(duì)較高。
星河智聯(lián)給出的另外一條可供研究技術(shù)路線同樣不錯(cuò),讓語(yǔ)音識(shí)別技術(shù)與目前大熱的UWB超寬帶技術(shù)相結(jié)合。UWB超寬帶技術(shù)具有10cm范圍的精準(zhǔn)定位特性,倘若將語(yǔ)音識(shí)別功能鑒權(quán)模式交給UWB技術(shù),讓系統(tǒng)得知聲音發(fā)生者的精確定位處于車(chē)輛何方,并決定是否進(jìn)一步執(zhí)行。另外一個(gè)好處在于,目前UWB技術(shù)被大量應(yīng)用于車(chē)輛數(shù)字化鑰匙上,語(yǔ)音識(shí)別鑒權(quán)需求的加入,方便UWB相關(guān)傳感器有效復(fù)用,并不會(huì)過(guò)多增加成本。更何況目前國(guó)內(nèi)涌現(xiàn)出如清研訊科這類(lèi)專(zhuān)注于UWB技術(shù)的科技企業(yè)。強(qiáng)強(qiáng)聯(lián)手可能會(huì)有驚喜。
本文純屬解讀與科普,至于這個(gè)鍋到底該誰(shuí)背并不在討論范圍,反正在我看來(lái)肯定不會(huì)是語(yǔ)音識(shí)別技術(shù)提供商的鍋。從破防的諸多車(chē)型基本屬于各家主流熱推的中端產(chǎn)品來(lái)看,這和與日俱增的新車(chē)研發(fā)速度,以及銷(xiāo)售壓力不無(wú)關(guān)系。主機(jī)廠們是時(shí)候放慢“彎道超越”的車(chē)速,用心完善問(wèn)題所在。另外需要感謝首先以視頻形式發(fā)現(xiàn)問(wèn)題的媒體。但也要建議那些隨后沒(méi)完沒(méi)了,嘩眾取寵,危言聳聽(tīng)蹭流量的自媒體,你們讓人有點(diǎn)反感了。建議好好看書(shū),多和工程師交流,以數(shù)據(jù)與技術(shù)為根基,助力中國(guó)汽車(chē)圈朝愈發(fā)完善的方向前行。