王興寶 雷琴輝 梅林海 張亞 邢猛
(科大訊飛股份有限公司 智能汽車事業(yè)部,合肥230088)
主題詞:語音交互 人機(jī)交互 語音識(shí)別 多模態(tài)
近年來隨著車聯(lián)網(wǎng)系統(tǒng)迅速發(fā)展,汽車人機(jī)交互越受車企重視,其中語音作為最便捷的交互入口,在人機(jī)交互中發(fā)揮至關(guān)重要的價(jià)值,分析汽車行業(yè)近百年發(fā)展史,從早期的物理按鍵到觸屏以及發(fā)展到現(xiàn)在的語音多模態(tài)等交互模式,每次變革都是圍繞如何提升人機(jī)交互的體驗(yàn)為目標(biāo)。語音交互全鏈路包括語音增強(qiáng)、語音識(shí)別、語義理解等多個(gè)環(huán),如果其中一環(huán)亮紅燈則會(huì)導(dǎo)致整體交互失敗,但近幾年由于深度學(xué)習(xí)算法改進(jìn),在各個(gè)算法模塊都進(jìn)行了升級(jí),語音交互在部分垂類場(chǎng)景達(dá)到可用門檻。從汽車市場(chǎng)分析報(bào)告得出2020年中國汽車保有量將超過2億輛,其中網(wǎng)聯(lián)化備受人們關(guān)注,人機(jī)交互也面臨著重大挑戰(zhàn),用戶不再滿足于基礎(chǔ)的功能可用,期望更智能的交互模式。因此,未來的人機(jī)交互模式發(fā)展是重要研究課題。
智能化和網(wǎng)聯(lián)化已經(jīng)成為汽車行業(yè)發(fā)展的必然趨勢(shì),越來越多的汽車企業(yè)正在積極向人工智能、軟件服務(wù)、生態(tài)平臺(tái)等方向發(fā)展,在汽車安全、性能全面提升的同時(shí),讓駕駛更智能、更有趣[1]。在此過程中,汽車與人之間的交互變的更為重要,如何讓人與汽車之間更便捷和更安全的交互一直是各大車企及相關(guān)研究機(jī)構(gòu)的研發(fā)方向。
1.2.1 物理按鍵
汽車在早期主要是以駕駛為目的,內(nèi)飾也比較單一,主要集中在中控儀表盤上。車載收音機(jī)和CD 機(jī)的出現(xiàn),成為了第一代車機(jī)主要娛樂功能,人與汽車交互開啟了物理按鍵時(shí)代。在上世紀(jì)90年代,車內(nèi)主要靠大量的物理開關(guān)按鍵進(jìn)行控制車載影音娛樂系統(tǒng),并且這些物理開關(guān)和按鈕在空間設(shè)計(jì)上進(jìn)行了一系列優(yōu)化,由最初全部集中在中控儀表,慢慢遷移到駕駛員方向盤上。這些設(shè)計(jì)優(yōu)化使人機(jī)交互的安全性和便捷性得到提升。
物理按鍵雖然是最原始的交互模式,但是在車內(nèi)是最可靠的方式,車內(nèi)安全性較高的部位還是使用物理按鍵,如:發(fā)動(dòng)機(jī)起動(dòng)、駐車以及車門開關(guān)等。隨著汽車電子技術(shù)的發(fā)展及大規(guī)模的應(yīng)用,汽車功能越來越豐富,收音機(jī)、空調(diào)、音響及電子系統(tǒng)開關(guān)按鍵分區(qū)排列,單一的物理按鍵方式已經(jīng)不能滿足用戶的駕駛體驗(yàn),于是屏幕顯示開始引入車機(jī)。
1.2.2 觸屏
在上世紀(jì)80年代觸摸屏被大規(guī)模商用化,但是觸摸屏根據(jù)材料不一樣可分為:紅外線式、電阻式、表面聲波式和電容式觸摸屏4 種。1986 年別克推出全觸屏中控的量產(chǎn)車型Riviera,內(nèi)部使用了一塊帶有觸摸傳感器的CRT(陰極射線顯像管)顯示屏,該屏幕在功能上集成了比傳統(tǒng)物理按鍵更多的控制功能,包括:電臺(tái)、空調(diào)、音量調(diào)節(jié)、汽車診斷、油量顯示等功能,使得整個(gè)車內(nèi)人機(jī)交互體驗(yàn)上升一個(gè)檔次。2007 年,iPhone 手機(jī)將觸摸屏做到了極致的交互體驗(yàn),開創(chuàng)了手機(jī)正面無鍵盤觸摸屏操作的時(shí)代。之后各家車企也著手中控屏幕的設(shè)計(jì),以及相應(yīng)的人機(jī)交互系統(tǒng)的設(shè)計(jì)。大屏支持音、視頻播放,觸屏操控的交互方式成為第2代車機(jī)的標(biāo)配。
2013年,特斯拉全新推出了采用垂直定向搭載17英寸車載顯示屏的電動(dòng)車—MODEL S,全面取消中控物理按鍵,幾乎可利用屏幕操控所有的車載功能。2018 年,比亞迪第2 代唐推出了支持90°旋轉(zhuǎn)功能大尺寸的懸浮式中控屏。中控屏也朝著大尺寸、可移動(dòng)、多屏幕方向發(fā)展。
1.2.3 語音交互
在互聯(lián)網(wǎng)通信技術(shù)以及智能交通快速發(fā)展的環(huán)境下,汽車本身也逐漸演變成能集成各種信息源的載體,隨著人工智能技術(shù)的突飛猛進(jìn)和車聯(lián)網(wǎng)應(yīng)用的大范圍普及,語音交互的準(zhǔn)確率、響應(yīng)速度、便利性上有了很大提高。
在國際上,寶馬、奔馳、福特、大眾等多家車企已經(jīng)將語音交互技術(shù)整合到車機(jī)內(nèi),為用戶提供方便、安全、高效的車內(nèi)人機(jī)交互方案。而在2012 年之前,中國汽車市場(chǎng)的語音交互幾乎都是由國外公司定義的。隨著2010 年科大訊飛發(fā)布了全球首個(gè)智能語音云開放平臺(tái),自主語音技術(shù)占據(jù)市場(chǎng)主導(dǎo)。2011~2013年,云+端技術(shù)架構(gòu)、全球首個(gè)車載麥克風(fēng)陣列降噪模塊的發(fā)布,標(biāo)志著中國自主的車載語音交互產(chǎn)品效果已經(jīng)反超國外,到2014年在行車高噪環(huán)境下識(shí)別率已經(jīng)超過90%。吉利、長安、奇瑞、上汽等自主品牌積極與語音技術(shù)和產(chǎn)品公司合作,深度定制搭載語音交互技術(shù)的車載系統(tǒng)。
2015年,科大訊飛和奇瑞汽車聯(lián)合打造的iCloudrive 2.0智能車載系統(tǒng)上市發(fā)布,產(chǎn)品以高效的語音體驗(yàn)顛覆了人們對(duì)于交互場(chǎng)景的認(rèn)知,以語音交互深度打通了車機(jī)功能和信息娛樂服務(wù),成為了業(yè)內(nèi)追捧的人車交互標(biāo)桿產(chǎn)品。
2016 年,上汽和阿里聯(lián)合打造的斑馬智行1.0 搭載榮威RX5上市發(fā)布,通過集成豐富的互聯(lián)網(wǎng)生態(tài)服務(wù)和內(nèi)容,以語音交互的方式作為連接用戶的橋梁,成了當(dāng)時(shí)行業(yè)內(nèi)公認(rèn)的互聯(lián)網(wǎng)汽車標(biāo)桿。
2017 年,蔚來ES8 首次在車內(nèi)搭載Nomi 機(jī)器人,讓人機(jī)交互更形象好,用戶對(duì)人機(jī)交互助理的熱度提升,定位開車旅途中的伙伴更擬人化。
隨著技術(shù)的發(fā)展,第3代車機(jī)在往信息化、智能化發(fā)展,采用更好、兼容性更強(qiáng)的安卓等車機(jī)系統(tǒng)。通過快速集成免喚醒、語音增強(qiáng)、聲源定位、聲紋識(shí)別、自然語音交互、主動(dòng)式交互、智能語音提示等新的技術(shù),全面增強(qiáng)了駕駛空間的安全性、趣味性,互動(dòng)性[2],打造了沉浸式交互體驗(yàn)的智能駕艙。
1.2.4 多模態(tài)交互
人與人交流除聽覺外,還有許多感官通道,為了提供更好的人機(jī)交互體驗(yàn),需充分利用人的多種感知通道(聽覺通道、視覺通道、觸覺通道、嗅覺通道、意識(shí)通道等),以不同形式的輸入組合(語音、圖像、手勢(shì)、觸摸、姿勢(shì)、表情、眼動(dòng)、腦電波等)為人機(jī)交互通道提供多種選擇,提高人機(jī)交互的自然度和效率。多模態(tài)并非多個(gè)模態(tài)的集合,而是各單一模態(tài)之間的有機(jī)協(xié)同和整合[3]。
機(jī)器利用電腦視覺技術(shù),識(shí)別人類的姿勢(shì)和動(dòng)作,理解其傳遞的信息、指令,使得人機(jī)交互體驗(yàn)更加自然、高效。而識(shí)別人類的面部表情和目光,更重要的意義在于傳遞的情感,進(jìn)而增強(qiáng)語言、手勢(shì)傳遞的含義,這也解釋了為什么我們?cè)诿鎸?duì)面交流時(shí),會(huì)試圖注視對(duì)方的表情和目光,就是為了準(zhǔn)確判斷對(duì)方的意圖和情緒。因此,使機(jī)器從“能聽會(huì)說”到“理解思考”再到“察言觀色”,才能全面提高人機(jī)交互的智能化水平。
在2019 年北美CES 展上,奔馳CLA 車型搭載的最新人機(jī)交互系統(tǒng),支持復(fù)雜語音指令和手勢(shì)識(shí)別。拜騰保留了48寸的車載大屏,同時(shí)將觸摸屏、語音控制、手勢(shì)控制、物理按鍵進(jìn)行了充分的融合。日產(chǎn)展示了全新的車載AR 概念,應(yīng)用了無形可視化、I2V 技術(shù)。豐田發(fā)布了搭載個(gè)性化、情感化感知的全新汽車駕艙。圍繞語音識(shí)別、手勢(shì)識(shí)別、圖像識(shí)別等多模態(tài)融合交互方式必將成為新的制高點(diǎn),成為下一代人機(jī)交互勢(shì)不可擋的發(fā)展趨勢(shì)。
從語音交互整個(gè)處理鏈路來看(圖1),可將其分為3部分:語音輸入、語音處理和語音輸出,其中語音輸入包括:語音增強(qiáng);語音處理包括:語音喚醒、語音識(shí)別、語義理解;語音輸出包括:語音合成和音效增強(qiáng)。在2006年人工智能第3次浪潮推動(dòng)下,利用深度學(xué)習(xí)理論框架將語音交互鏈路中各模塊算法得到升級(jí),并且配合大量數(shù)據(jù)持續(xù)迭代,語音交互成功率得到較大提升,達(dá)到可用的門檻,另外隨著芯片算力的顯著提升以及5G 的普及,提高語音交互整體交互成功率。
圖1 語音交互全鏈路
2.2.1 語音增強(qiáng)
聲音的信號(hào)特征提取的質(zhì)量將直接影響語音識(shí)別的準(zhǔn)確率。車內(nèi)環(huán)境噪音源包含發(fā)動(dòng)機(jī)噪聲、胎噪、風(fēng)噪、周圍車輛噪聲、轉(zhuǎn)向燈噪聲以及媒體播放聲等,這些噪聲源都會(huì)減弱人聲的信號(hào)特征,從而加大識(shí)別難度。
圖2 語音增強(qiáng)處理流程
基于麥克風(fēng)陣列的語音增強(qiáng)算法如圖2、圖3,包括:波束形成、語音分離、遠(yuǎn)場(chǎng)拾音與去混響、多通道降噪、聲源定位和回聲消除等技術(shù),可有效抑制周圍環(huán)境噪音,消除混響、回聲干擾,判斷聲源的方向,保障輸入較干凈的音頻,提高識(shí)別準(zhǔn)確率,做到機(jī)器能“聽得清”[4-5]。目前最新采用基于神經(jīng)網(wǎng)絡(luò)的降噪技術(shù)在高噪環(huán)境下取得較好效果[6]。
圖3 麥克風(fēng)陣列結(jié)構(gòu)
2.2.2 語音喚醒
語音喚醒是現(xiàn)階段語音交互的第一入口,通過指定的喚醒詞來開啟人機(jī)交互對(duì)話,其技術(shù)原理是指在連續(xù)語流中實(shí)時(shí)檢測(cè)說話人特定語音片段,要求高時(shí)效性和低功耗。語音喚醒在技術(shù)發(fā)展上也經(jīng)歷3個(gè)階段(圖4):啟蒙階段、新技術(shù)探索階段和大規(guī)模產(chǎn)業(yè)化階段。從最初的模板規(guī)則到最新基于神經(jīng)網(wǎng)絡(luò)的方案[7]。另外,配合語音增強(qiáng)中聲源定位技術(shù),可實(shí)現(xiàn)車內(nèi)主副駕、前后排等多音區(qū)喚醒。
圖4 語音喚醒技術(shù)發(fā)展史
2.2.3 語音識(shí)別
語音識(shí)別是將人的語音內(nèi)容轉(zhuǎn)成文字,其技術(shù)原理主要包括2大模型(圖5):聲學(xué)模型和語言模型,在技術(shù)從最初的基于模板的孤立詞識(shí)別,發(fā)展到基于統(tǒng)計(jì)模型的連續(xù)詞識(shí)別,并且在近幾年深度學(xué)習(xí)爆發(fā),將語音識(shí)別率達(dá)到新水平[8-9]。當(dāng)前語音識(shí)別中重點(diǎn)需解決如下3類問題。
(1)語音尾端點(diǎn)檢測(cè)問題,能量VAD(Voice Active Detection)、語義VAD和多模態(tài)VAD;
(2)多語種和多方言統(tǒng)一建模問題;
(3)垂類場(chǎng)景和針對(duì)單獨(dú)人群的個(gè)性化識(shí)別問題。
圖5 語音識(shí)別處理流程
2.2.4 語義理解
語義理解是當(dāng)前語音交互中最難的一環(huán),將人類的表達(dá)抽象成統(tǒng)一表示形式以讓機(jī)器能夠理解,在語音交互對(duì)話系統(tǒng)中,主要包括:語義抽取、對(duì)話管理和語言生成;在技術(shù)方案上(圖6),近幾年隨著詞向量模型、端到端注意力模型以及谷歌最新BERT 模型進(jìn)步[10-11](圖7),語義理解正確率在部分垂直領(lǐng)域達(dá)到基本可用,如汽車領(lǐng)域頭部技能“導(dǎo)航、音樂、車控、收音機(jī)和電話”等[12]。但是,語義理解最核心的難點(diǎn)是語義表示問題和開放性說法等問題,導(dǎo)致在語義效果評(píng)判上很難統(tǒng)一,也是未來人機(jī)交互中最核心板塊。
圖6 對(duì)話理解技術(shù)方案
2.2.5 語音合成
語音合成是將文字信息轉(zhuǎn)化為可聽的聲音信息,讓機(jī)器會(huì)說話,其技術(shù)原理上將文字序列轉(zhuǎn)換成音韻序列,再用語音合成器生成語音波形(圖8)。語音合成的方法主要有共振峰合成、發(fā)音規(guī)則合成、波形拼接合成和基于HMM 參數(shù)合成4 種。前2 種是基于規(guī)則驅(qū)動(dòng),后2種基于數(shù)據(jù)驅(qū)動(dòng),目前主要以數(shù)據(jù)驅(qū)動(dòng)為主。近年來基于神經(jīng)網(wǎng)絡(luò)技術(shù)的語音合成,在主觀體驗(yàn)MOS 分達(dá)4.5 分,接近播音員水平[13-14]。另外,當(dāng)前在個(gè)性化合成、情感化合成以及方言小語種合成等方面繼續(xù)探索。
圖7 自然語言處理[10-11]
圖8 語音合成處理流程
2.2.6 音效增強(qiáng)
音效增強(qiáng)是語音交互全鏈路最后一環(huán),在基于車內(nèi)復(fù)雜噪聲環(huán)境及揚(yáng)聲器位置造成的復(fù)雜聲場(chǎng)環(huán)境,進(jìn)行專業(yè)的聲學(xué)系統(tǒng)設(shè)計(jì)與調(diào)教,還原出自然清晰舞臺(tái)感明確的音響效果。未經(jīng)過專業(yè)聲學(xué)處理的音響系統(tǒng),會(huì)丟失聲音的定位信息,不能還原音樂的左右空間感和前后縱深感。聲音出現(xiàn)雜亂無章,從各個(gè)地方出來并互相干擾。根據(jù)不同場(chǎng)景包括:3D沉浸環(huán)繞聲、EOC(Engine Order Cancellation)、超重低音、高精度聲場(chǎng)重建、聲浪模擬、提示音播報(bào)優(yōu)化、延時(shí)修正、聲場(chǎng)重建、虛擬低音、限幅調(diào)整和車速補(bǔ)償?shù)纫粜惴夹g(shù)[15]。通過加入高級(jí)環(huán)繞算法,音量隨車速動(dòng)態(tài)增益,主動(dòng)降噪,引擎聲優(yōu)化,能為汽車打造音樂廳級(jí)的聽感體驗(yàn)(圖9)。
圖9 音效增強(qiáng)的優(yōu)勢(shì)
從當(dāng)前的市場(chǎng)和行業(yè)發(fā)展趨勢(shì)可預(yù)測(cè),到2020年中國汽車的保有量也將超過2億輛,市場(chǎng)增長空間依然巨大。智能化、網(wǎng)聯(lián)化、電動(dòng)化、共享化已成為汽車產(chǎn)業(yè)發(fā)展的趨勢(shì),國家層面陸續(xù)發(fā)布一系列政策推動(dòng)汽車產(chǎn)業(yè)變革。根據(jù)中國汽車流通協(xié)會(huì)發(fā)布的《2019中國汽車消費(fèi)趨勢(shì)報(bào)告》[16]得出,消費(fèi)者正從基礎(chǔ)功能滿足延伸至科技智能追求,智能化、網(wǎng)聯(lián)化越來越受到關(guān)注,2019 年智能化關(guān)注度相比2018 年同比增長30.8%,網(wǎng)聯(lián)化關(guān)注度同比增長52.3%,其中網(wǎng)聯(lián)化最關(guān)注語音和導(dǎo)航體驗(yàn),另外消費(fèi)者對(duì)語音識(shí)別的準(zhǔn)確性和反應(yīng)速度比較看重,而從具體配置上來看,消費(fèi)者對(duì)CarLife、CarPlay 和語音識(shí)別的需求上升趨勢(shì)較為明顯,這也說明消費(fèi)者對(duì)汽車聯(lián)網(wǎng)有訴求,但是對(duì)原生車機(jī)應(yīng)用效果不滿(圖10)。
圖10 消費(fèi)者對(duì)汽車網(wǎng)聯(lián)化的需求[16]
目前,中國在汽車智能化網(wǎng)聯(lián)方面處于領(lǐng)先水平,這涉及到“中國汽車市場(chǎng)規(guī)模全球最大”、“中國互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)發(fā)展迅速”、“國家政策傾向”和“自主車企進(jìn)步較大”等眾多因素影響。面對(duì)重大的機(jī)遇與挑戰(zhàn),車聯(lián)網(wǎng)人機(jī)交互作為整個(gè)智能化的入口,如何給用戶提供最便捷和安全的交互方式,對(duì)于其未來的發(fā)展至關(guān)重要。
在人機(jī)交互方面的升級(jí)將會(huì)為未來汽車產(chǎn)生革命性的消費(fèi)體驗(yàn),車云研究院發(fā)布的《2020 智能汽車趨勢(shì)洞察及消費(fèi)者調(diào)研報(bào)告》[17]中,提到智能汽車3大體驗(yàn)革命:個(gè)性化體驗(yàn)、智能交互體驗(yàn)和車路協(xié)同體驗(yàn),其中智能交互1.0基本圍繞功能交互、觸控交互和初級(jí)語音交互,智能汽車2.0 應(yīng)建立起以人為中心的個(gè)性化服務(wù)全新體驗(yàn),多模、主動(dòng)和情感交互將成為智能交互典型特征。
3.2.1 從“基本可用”到“好用易用”
語音交互的整個(gè)鏈條,包括了語音增強(qiáng)-語音喚醒-語音識(shí)別-語義理解-語音合成-音效增強(qiáng)。優(yōu)秀的語音交互系統(tǒng),需要全閉環(huán)的技術(shù)鏈條上每一個(gè)環(huán)節(jié)都是優(yōu)秀的,如果過程中某一技術(shù)環(huán)節(jié)出問題,則會(huì)導(dǎo)致整個(gè)交互過程失敗,用戶體驗(yàn)效果不好。
圖11 消費(fèi)者對(duì)汽車網(wǎng)聯(lián)化具體配置需求[16]
圖12 智能汽車2.0未來發(fā)展典型特征[17]
當(dāng)前語音交互已經(jīng)達(dá)到基本可用狀態(tài),用戶已經(jīng)可以通過語音做垂類領(lǐng)域信息查詢以及車輛控制等,但還有許多待解決的問題,主要體現(xiàn)如下3個(gè)方面。
(1)核心技術(shù)上需要繼續(xù)突破,包括高噪環(huán)境、方言、口音、童聲等因素下語音識(shí)別魯棒性問題,語義理解的泛化性以及歧義性問題,個(gè)性化和情感化語音合成問題等;
(2)語音交互模式上的持續(xù)優(yōu)化,從最初單輪one-shot 模式到全雙工免喚醒模式,需要在系統(tǒng)誤觸發(fā)方面技術(shù)突破;
(3)信源內(nèi)容深度對(duì)接和打磨,語音交互只是入口,用戶希望通過語音便捷的獲取到更有價(jià)值以及更有趣的內(nèi)容,則需要語音交互各模塊能力與信源內(nèi)容深度耦合。
3.2.2 從“主副駕交互”到“多乘客交互”
目前智能汽車中應(yīng)用場(chǎng)景交互主要考慮的是主駕駛方位和副駕駛方位2側(cè),而對(duì)于后排的乘車人員的交互過程和交互效果沒有得到很好的保證,例如,在功能范圍內(nèi),主駕駛和副駕駛?cè)藛T基本可以自由的與車機(jī)對(duì)話,實(shí)現(xiàn)相應(yīng)的功能,但是對(duì)于后排乘客,就有很多制約條件,后排人員距離麥克風(fēng)位置較遠(yuǎn),語音指令不能被很好的檢測(cè)到,整體交互效果較差。
基于整車多乘客需求,未來將會(huì)在車內(nèi)實(shí)現(xiàn)“多乘客交互”的目標(biāo),所謂“多乘客交互”就是說,將以往采用的雙音區(qū)技術(shù)更改為四音區(qū)技術(shù),在每一個(gè)位置前都裝1個(gè)麥克風(fēng),可以讓各自位置的乘客通過語音或者其他交互方式控制各自的交互設(shè)備,即使在同一時(shí)間說出指令也互不影響。例如,當(dāng)后排右后座位乘客想要打開或者關(guān)閉自側(cè)車窗時(shí),可以直接語音指令說“打開車窗/關(guān)閉車窗”就可以打開右后側(cè)車窗,其它方位不受影響,而駕駛員(主駕駛)語音指令說“打開車窗”時(shí)也只會(huì)打開主駕駛一側(cè)的車窗,不會(huì)打開車內(nèi)全部車窗,這也是未來智能汽車更智能更人性化的一種表現(xiàn)。
3.2.3 從“被動(dòng)式執(zhí)行機(jī)器人”到“擬人化貼心助理”
隨著智能化技術(shù)的不斷進(jìn)步,單純的功能型產(chǎn)品已經(jīng)不能滿足用戶的需求了,用戶想要在保證功能的前提下也可以感受到更多的“以人為中心”的產(chǎn)品服務(wù),真正實(shí)現(xiàn)讓汽車越來越理解人,越來越有溫度的理念。通過用戶交互的歷史數(shù)據(jù)生成用戶的知識(shí)圖譜和交流風(fēng)格畫像,生成一個(gè)針對(duì)用戶的個(gè)性化人機(jī)交互策略,該策略具備調(diào)動(dòng)車載系統(tǒng)各項(xiàng)服務(wù)(比如車控、音樂、導(dǎo)航、游戲等)的能力,以虛擬形象或?qū)嶓w機(jī)器人的方式生成符合用戶個(gè)性化需求的外表和聲音特性與用戶主動(dòng)或被動(dòng)的進(jìn)行交流。例如,用戶在車上說“查找附近的餐館”,機(jī)器會(huì)依據(jù)用戶的口味和習(xí)慣自動(dòng)推薦符合該用戶餐館;另外駕駛員在開車過程中,機(jī)器預(yù)測(cè)到駕駛途中天氣情況惡劣,則主動(dòng)告知駕駛員天氣信息注意開車;車輛發(fā)生故障,機(jī)器主動(dòng)告知車輛故障情況,并引導(dǎo)駕駛員到最近的4S店維修;心情不好時(shí)候,能夠推薦一些喜歡的歌曲或者講一些笑話等等。
3.2.4 從“車內(nèi)交互”到“跨場(chǎng)景交互”
物聯(lián)網(wǎng)的出現(xiàn)可以讓所有能行使獨(dú)立功能的普通物體實(shí)現(xiàn)互聯(lián)互通,借助于物聯(lián)網(wǎng)的浪潮,汽車內(nèi)跨場(chǎng)景交互也將是智能汽車未來發(fā)展的必然趨勢(shì)。
當(dāng)前,汽車人機(jī)交互的使用場(chǎng)景過于單一,車機(jī)系統(tǒng)放在車內(nèi)只可以控制車內(nèi)的設(shè)備,而對(duì)于車外其他場(chǎng)景的控制卻無能為力。比如在車內(nèi)控制自己家中的設(shè)備,在車內(nèi)控制自己辦公室的設(shè)備,在家中控制車內(nèi)的設(shè)備,在公司控制自己車內(nèi)的設(shè)備,未來“智能汽車-智能家居”、“智能汽車-智能公司”的跨場(chǎng)景交互的實(shí)現(xiàn),不僅可以給車主提供一體化的車-家、車-公司的互聯(lián)生活,也讓智能汽車的發(fā)展達(dá)到了一個(gè)嶄新的制高點(diǎn)。
3.2.5 從“語音交互”到“多模態(tài)交互融合協(xié)同”
語音交互的方式已經(jīng)成為汽車內(nèi)人機(jī)交互的主流方式,但是當(dāng)車內(nèi)的噪音比較大時(shí),單純的語音交互方式就不能完全滿足用戶的需求,此時(shí)多模態(tài)融合的交互方式就顯得尤為重要,此時(shí)用戶的訴求就可以通過手勢(shì)識(shí)別、表情識(shí)別等多模態(tài)相協(xié)作的方式來更好的完成交互過程。
多模態(tài)融合的交互方式可以根據(jù)用戶當(dāng)前所處的場(chǎng)景需要給用戶提供不同的交互過程。當(dāng)駕駛員正在行駛時(shí),眼動(dòng)跟蹤技術(shù)會(huì)持續(xù)檢測(cè)駕駛員的眼睛,表情識(shí)別會(huì)隨時(shí)檢測(cè)駕駛員臉部表情,當(dāng)檢測(cè)出現(xiàn)眼皮下垂、眨眼次數(shù)頻繁或者駕駛員正在打哈欠時(shí),就會(huì)對(duì)駕駛員執(zhí)行語音提示,并自動(dòng)打開空調(diào)設(shè)備或者是打開車窗,做一系列給車內(nèi)通風(fēng)的動(dòng)作來幫助駕駛員恢復(fù)清醒的意識(shí)。如果在高速行駛會(huì)自動(dòng)導(dǎo)航至附近的休息站或者是服務(wù)區(qū),不在高速行駛時(shí)就會(huì)語音提示駕駛員臨時(shí)靠邊停車,以確保駕駛員的行車安全。表情識(shí)別可以實(shí)時(shí)檢測(cè)駕駛員的面部表情,進(jìn)而根據(jù)駕駛員當(dāng)前所處的場(chǎng)景來判斷其心理情緒,并根據(jù)其情緒自動(dòng)語音打開合適類型的音樂,開啟相對(duì)應(yīng)的氛圍燈,調(diào)節(jié)車內(nèi)氛圍以適應(yīng)車內(nèi)用戶的當(dāng)下心情,給用戶更親和、更智能化、更沉浸式的體驗(yàn)感受。
汽車領(lǐng)域在基于人工智能的人機(jī)交互整體還算剛起步階段,語音交互雖然取得較大進(jìn)步但是還不夠穩(wěn)定,許多場(chǎng)景下替代不了觸摸和按鍵等操作,目前需要在語音、圖像以及語義方面擁有技術(shù)上的突破,多模態(tài)融合和協(xié)同的交互模式將成為下一代汽車人機(jī)交互的重點(diǎn)。此外,隨著無人駕駛和智能駕艙的發(fā)展,人們對(duì)人機(jī)交互的要求越來越高,需要在保障交互的安全性前提下,不斷提升交互體驗(yàn),使駕駛更安全、更便捷和更有趣。