冉光偉,蔡吉晨,李艷明
(廣州汽車集團(tuán)股份有限公司汽車工程研究院,廣東廣州 511434)
新一代智能座艙人機(jī)交互技術(shù)的發(fā)展趨勢是逐漸融入人體生物特征識別及人工智能技術(shù)[1],當(dāng)前,國內(nèi)外各大汽車企業(yè)正在致力于語音識別控制[2]、交互界面?zhèn)€性化定制等技術(shù)的研發(fā),同時(shí)與智能網(wǎng)聯(lián)技術(shù)關(guān)聯(lián),開發(fā)基于云端信息的駕駛?cè)松矸葑R別技術(shù)、場景識別技術(shù),進(jìn)一步實(shí)現(xiàn)了人機(jī)交互的智能化與個(gè)性化。
車載機(jī)器人是一種運(yùn)用于汽車智能座艙人機(jī)交互場景的服務(wù)機(jī)器人,屬于社交類機(jī)器人范疇[3]。基于機(jī)器視覺、智能語音以及機(jī)器學(xué)習(xí)等技術(shù),車載機(jī)器人協(xié)同影音娛樂系統(tǒng)(AVNT)、駕駛員監(jiān)控系統(tǒng)(DMS)以及高級駕駛輔助系統(tǒng)(ADAS),能夠響應(yīng)語音交互、影音娛樂狀態(tài)切換以及駕駛輔助提醒等功能,通過擬人化、情感化地表達(dá),整體提升駕駛和乘車體驗(yàn)。以車載機(jī)器人作為主要人機(jī)交互接口,能夠有效擺脫車內(nèi)人機(jī)交互過程中給用戶帶來的設(shè)備感和生硬感,使交互過程更自然、友好,使得交互形式從人-機(jī)交互向人-人交互進(jìn)化。
車載機(jī)器人系統(tǒng)中,通過影音娛樂系統(tǒng)完成語音交互及場景感知,由車載機(jī)器人控制器完成機(jī)器人行為決策、表情顯示及動(dòng)作執(zhí)行。系統(tǒng)框圖如圖1所示,影音娛樂系統(tǒng)與機(jī)器人頭部攝像頭、麥克風(fēng)及喇叭等外圍設(shè)備連接,通過各個(gè)應(yīng)用層軟件分別完成人臉識別、聲源定位、語義解析等功能;車載機(jī)器人與影音娛樂系統(tǒng)通過USB及CAN總線通信,以獲取用戶、車輛狀態(tài)及車內(nèi)外環(huán)境等感知數(shù)據(jù)[4],進(jìn)而完成場景分析、機(jī)器人行為決策及行為輸出(包括機(jī)器人語速、語調(diào)、表情、動(dòng)作、幅度、頻率、態(tài)度等)。機(jī)器人控制器集成增量學(xué)習(xí)算法,能夠不斷優(yōu)化場景分析,對駕駛行為進(jìn)行學(xué)習(xí)及預(yù)測[5]。影音娛樂系統(tǒng)的人機(jī)交互界面能夠配合車載機(jī)器人進(jìn)行擴(kuò)展顯示,即部分場景的圖文顯示由車載機(jī)器人控制器控制。
圖1 車載機(jī)器人系統(tǒng)架構(gòu)
1.2 車載機(jī)器人行為決策
車載機(jī)器人行為包括頭部轉(zhuǎn)動(dòng)、表情顯示及語音播報(bào)等3個(gè)維度。機(jī)器人頭部能夠完成水平旋轉(zhuǎn)和前后轉(zhuǎn)動(dòng)兩個(gè)自由度的轉(zhuǎn)動(dòng),并通過電機(jī)協(xié)同控制來保證轉(zhuǎn)動(dòng)過程中動(dòng)作的連貫性及擬人化;機(jī)器人表情通過圖片渲染實(shí)現(xiàn)不同表情切換過程中的平滑過渡。語音播報(bào)能夠變換語速、語調(diào)和語氣,可以體現(xiàn)機(jī)器人的情緒和性格。車載機(jī)器人部分表情和姿態(tài)的交互定義見表1。
表1 車載機(jī)器人表情及動(dòng)作關(guān)聯(lián)表
車載機(jī)器人在不同的細(xì)分場景下能夠做出不同的行為決策,通過同步用戶賬號信息達(dá)到用戶級的個(gè)性化交互場景設(shè)計(jì),再結(jié)合地域信息、車型信息以及用車?yán)锍?、駕駛模式等駕駛行為偏好向用戶推送符合用戶喜好的媒體類及新聞?lì)惙?wù),從而實(shí)現(xiàn)千人千面的智能交互。比如當(dāng)車內(nèi)同時(shí)有孩子和媽媽的場景下,通過增量學(xué)習(xí)預(yù)測兩人的共同愛好,并為他們推薦相對應(yīng)的媒體內(nèi)容。此外,機(jī)器人應(yīng)用考慮了安全與隱私的設(shè)計(jì)原則,將用戶隱私信息進(jìn)行加密;同時(shí)用戶可清除駕駛習(xí)慣記憶等相關(guān)歷史記錄。
車載機(jī)器人應(yīng)用不局限于根據(jù)預(yù)先設(shè)定的行為決策進(jìn)行條件執(zhí)行,還能夠主動(dòng)學(xué)習(xí)到環(huán)境變化而做出主動(dòng)適應(yīng)、反應(yīng)和行動(dòng)。車載機(jī)器人控制器集成了適用于車載場景的增量學(xué)習(xí)框架,該框架是一種高性能的輕量級人工智能學(xué)習(xí)系統(tǒng),特點(diǎn)是消耗資源少,運(yùn)算速度快,無需借助網(wǎng)絡(luò)云平臺,借助汽車前端硬件就能支撐其計(jì)算能力實(shí)現(xiàn)離線訓(xùn)練,在越來越多的復(fù)雜車載場景任務(wù)中能夠通過增量學(xué)習(xí)進(jìn)行行為決策的高效重建。
增量學(xué)習(xí)框架核心是寬度學(xué)習(xí)算法[6-7]。寬度學(xué)習(xí)即將深度學(xué)習(xí)從串并聯(lián)改為并聯(lián),減少模型訓(xùn)練時(shí)間,利于模型訓(xùn)練前段化,適合嵌入式系統(tǒng)。智能座艙的人機(jī)交互場景的樣本量較小,寬度學(xué)習(xí)算法適用于基于小樣本數(shù)據(jù)進(jìn)行場景識別,將寬度學(xué)習(xí)算法應(yīng)用于車載場景,能夠?qū)崿F(xiàn)車載場景中人機(jī)交互的連續(xù)性學(xué)習(xí)。寬度學(xué)習(xí)算法模型如圖2所示。
圖2 寬度學(xué)習(xí)算法模型
例如在實(shí)際的車載場景中,由于語音指令的定義不能全面地覆蓋各地習(xí)慣用語,可以通過增量學(xué)習(xí)記錄用戶習(xí)慣用語。如通過語音指令“打開空調(diào)”來控制車內(nèi)空調(diào)的開啟,由于各地習(xí)慣用語的不同,某些地區(qū)用戶的語音指令會變成“打開冷氣”或“打開冷風(fēng)機(jī)”等。當(dāng)“打開冷氣”指令沒有被系統(tǒng)響應(yīng)時(shí),用戶可以通過手動(dòng)打開空調(diào),在進(jìn)行多次操作后,寬度學(xué)習(xí)算法能夠記錄用戶的操作習(xí)慣,建立“打開冷氣”語音指令和打開空調(diào)行為的對應(yīng)關(guān)系,進(jìn)而學(xué)習(xí)到新的技能。
自然語言處理(Natural Language Processing,NLP)是理解人類語言、說話方式的應(yīng)用程序和服務(wù),是人工智能的一個(gè)子領(lǐng)域[8]。NLP目標(biāo)是讓機(jī)器對語言理解像人類一樣智能,減小交流(自然語言)和理解(機(jī)器語言)之間的差距。NLP 技術(shù)基于大數(shù)據(jù)、知識圖譜、機(jī)器學(xué)習(xí)、語言學(xué)等技術(shù)和資源,形成機(jī)器翻譯、深度問答、對話系統(tǒng)等應(yīng)用系統(tǒng),進(jìn)而服務(wù)于各類實(shí)際業(yè)務(wù)和產(chǎn)品。
云端的NLP引擎為平臺化方案,即由娛樂系統(tǒng)采集語音指令傳送到云端進(jìn)行語義解析,特點(diǎn)是通用性強(qiáng),適合閑聊以及豐富的生態(tài)類服務(wù)。在無網(wǎng)絡(luò)或信號弱情況下,語義需要在影音娛樂系統(tǒng)中進(jìn)行解析,由于系統(tǒng)端詞庫有限,較難涵蓋并準(zhǔn)確理解用戶的語音指令。為了在網(wǎng)絡(luò)狀況不佳情況下能夠進(jìn)行語義理解并適應(yīng)用戶的說話習(xí)慣,機(jī)器人系統(tǒng)集成了輕量化的離線NLP引擎,其特點(diǎn)是能夠收窄認(rèn)知范圍并針對特定車載場景進(jìn)行個(gè)性化語義訂制,從而保證沒有網(wǎng)絡(luò)時(shí)或用戶使用自定義語義時(shí),機(jī)器人能夠有效執(zhí)行語音指令。云端NLP引擎與機(jī)器人系統(tǒng)端NLP引擎形成互補(bǔ),構(gòu)建了云+端的混合NLP引擎,具體協(xié)作流程如圖3所示。
圖3 云+端的混合NLP引擎協(xié)作流程
離線NLP引擎支持多輪對話和自動(dòng)補(bǔ)充詞槽功能,如圖4所示,能夠根據(jù)增量學(xué)習(xí)對用戶習(xí)慣的預(yù)測結(jié)果自動(dòng)補(bǔ)充詞槽內(nèi)容,避免用戶進(jìn)行繁復(fù)操作。比如用戶發(fā)出開空調(diào)的指令,離線NLP引擎將根據(jù)空調(diào)參數(shù)歷史數(shù)據(jù)、用戶的空調(diào)溫度及風(fēng)速等調(diào)節(jié)習(xí)慣預(yù)測結(jié)果,自行補(bǔ)充詞槽內(nèi)容,不需要再通過多輪對話補(bǔ)充語音指令中缺少的“溫度”及“風(fēng)速”詞槽。
圖4 離線NLP引擎問答技術(shù)架構(gòu)
車載機(jī)器人交互場景是將出行場景按照人、車、環(huán)境等3個(gè)維度進(jìn)行劃分及組合,完成數(shù)百個(gè)基礎(chǔ)場景、經(jīng)典場景、創(chuàng)新場景以及未來超前場景定義,其交互場景維度見表2。所有交互場景的功能需求按照安全、便捷及運(yùn)營框架進(jìn)行梳理,進(jìn)而制定細(xì)分交互場景下對應(yīng)的機(jī)器人初始行為決策,再通過增量學(xué)習(xí)實(shí)現(xiàn)不同用戶的個(gè)性化交互策略,以協(xié)助完成千人千面的智能交互理念。
表2 車載機(jī)器人交互場景維度
車載機(jī)器人應(yīng)用通過對接豐富的互聯(lián)網(wǎng)生態(tài)類應(yīng)用,如充電、停車、資訊、餐飲、維修等便利服務(wù),為用戶構(gòu)建按需推薦、場景化智能分發(fā)的服務(wù)整合體系,以期為用戶提供出行全程以及汽車全生命周期的完整生態(tài)鏈,提高出行服務(wù)體驗(yàn)。同時(shí),借助車載機(jī)器人適時(shí)推送各類服務(wù)信息,能夠加強(qiáng)生態(tài)類應(yīng)用的推送深度及可接受度,從而進(jìn)一步提高車載生態(tài)類應(yīng)用的運(yùn)營能力。
適用于車載機(jī)器人應(yīng)用對接的互聯(lián)網(wǎng)應(yīng)用類型舉例如下:
(1)充電:提供充電樁點(diǎn)位查詢、充電樁導(dǎo)航等服務(wù),如充電未來;
(2)停車:停車位查詢、停車場導(dǎo)航、停車費(fèi)支付,如ECTP、泊鏈等;
(3)代駕:呼叫代駕、代駕行為監(jiān)管、費(fèi)用支付,如E代駕等;
(4)娛樂:電臺收聽、音樂播放、短視頻等娛樂服務(wù),如喜馬拉雅、唱吧等;
(5)閑聊:與用戶閑聊,以及提供相關(guān)客服服務(wù),如圖靈機(jī)器人;
(6)信息服務(wù):天氣、新聞、航班、股票等信息的查詢、播報(bào);
(7)生活服務(wù):餐飲、外賣、旅游、維修保養(yǎng)服務(wù),如美團(tuán)等。
通過對車載機(jī)器人系統(tǒng)的人臉識別、語音交互、車輛狀態(tài)提醒及信息推送等各項(xiàng)功能進(jìn)行測試,分別驗(yàn)證車載機(jī)器人的語音識別準(zhǔn)確性、交互場景的判斷能力和生態(tài)服務(wù)的智能分發(fā)能力。具體測試功能項(xiàng)及測試結(jié)果見表3,測試結(jié)果表明車載機(jī)器人的各項(xiàng)功能達(dá)到了預(yù)期效果與設(shè)計(jì)目標(biāo)。
表3 車載機(jī)器人的功能測試驗(yàn)證結(jié)果
車載機(jī)器人以“車內(nèi)智能化、情感化、個(gè)性化的交互體驗(yàn)”為概念,于座艙內(nèi)布置機(jī)器人實(shí)體,通過語音識別、人臉識別、車內(nèi)環(huán)境及車輛狀態(tài)感知,對駕駛員及乘客、車輛狀態(tài)及車內(nèi)外環(huán)境等3個(gè)感知維度進(jìn)行場景分析,從而完成機(jī)器人的行為管理,包括機(jī)器人的表情、姿態(tài)、聲調(diào)、態(tài)度及行為節(jié)奏等。車載機(jī)器人能夠進(jìn)一步提升車內(nèi)多模交互能力,同時(shí)擴(kuò)展具有競爭力的生態(tài)類服務(wù),從而提升用戶體驗(yàn),滿足駕駛員及乘客的個(gè)性化和情感化交互需求。