文 / 本刊記者 黎沖森
智能座艙在交互技術(shù)、車載機(jī)器人和車載語(yǔ)音交互等領(lǐng)域有哪些新發(fā)展?
智能網(wǎng)聯(lián)汽車逐漸走入人們的現(xiàn)實(shí)生活,汽車產(chǎn)品的競(jìng)爭(zhēng)也逐步走向汽車交互設(shè)計(jì)和綜合用戶體驗(yàn)的競(jìng)爭(zhēng)。為探索相關(guān)技術(shù)在智能網(wǎng)聯(lián)汽車座艙領(lǐng)域的發(fā)展和交互設(shè)計(jì)在汽車行業(yè)的應(yīng)用,6月19日上午,2021中國(guó)汽車論壇舉行了主題論壇之“智能座艙創(chuàng)新技術(shù)論壇”。
本場(chǎng)主題論壇由同濟(jì)大學(xué)智能汽車交互設(shè)計(jì)實(shí)驗(yàn)室王建民主持,中國(guó)汽車工業(yè)協(xié)會(huì)總工程師、副秘書長(zhǎng)葉盛基,上海國(guó)際汽車城(集團(tuán))有限公司總經(jīng)理潘曉紅,澳門科技大學(xué)澳門系統(tǒng)工程研究所副教授韓子天,同濟(jì)大學(xué)智能汽車交互設(shè)計(jì)實(shí)驗(yàn)室主任、教授由芳,華為加拿大研究中心HMI實(shí)驗(yàn)室人因工程高級(jí)研究員鄧園,地平線副總裁、車載智能交互產(chǎn)品總經(jīng)理張宏志,中科創(chuàng)達(dá)汽車事業(yè)部產(chǎn)品經(jīng)理王志杰,科大訊飛汽車事業(yè)部高級(jí)產(chǎn)品總監(jiān)邢猛,ANSYS Inc.聲學(xué)專家李彥昊和愛(ài)數(shù)智慧創(chuàng)始人兼CEO張晴晴等做了主旨發(fā)言,共同探索智能座艙在交互技術(shù)、車載機(jī)器人和車載語(yǔ)音交互等領(lǐng)域的最新發(fā)展。期間,還發(fā)布了《車載智能機(jī)器人技術(shù)白皮書》。
電動(dòng)化、智能化、網(wǎng)聯(lián)化、數(shù)據(jù)化的技術(shù)革命浪潮推動(dòng)著汽車產(chǎn)業(yè)快速升級(jí)。人工智能、5G通信和大數(shù)據(jù)等技術(shù)的深度融合和應(yīng)用,重構(gòu)著汽車產(chǎn)業(yè)的新格局。同時(shí),新的消費(fèi)模式和服務(wù)業(yè)態(tài)蓬勃興起。葉盛基說(shuō):“智能座艙就是汽車智能化進(jìn)程中重要的技術(shù)產(chǎn)物,也是近兩年來(lái)智能網(wǎng)聯(lián)領(lǐng)域探索的熱點(diǎn)和重點(diǎn)所在。智能座艙是汽車品牌實(shí)現(xiàn)產(chǎn)品差異化和升級(jí)化的首要切入點(diǎn)之一,有著千億級(jí)規(guī)模的市場(chǎng)前景?!迸藭约t也認(rèn)為,智能座艙是汽車行業(yè)尤其智能網(wǎng)聯(lián)汽車的技術(shù)集大成者,是汽車技術(shù)創(chuàng)新的產(chǎn)物。
而車載機(jī)器人就是智能座艙技術(shù)發(fā)展的重要方向之一。機(jī)器人是AI的載體,通過(guò)車上的場(chǎng)景呈現(xiàn)出來(lái)。車載機(jī)器人是交互的演進(jìn),把車載機(jī)器人從實(shí)驗(yàn)室?guī)У綄?shí)際量產(chǎn)車上是很大的創(chuàng)新。韓子天認(rèn)為,未來(lái)車載機(jī)器人有兩個(gè)重要的技術(shù)發(fā)展方向。
一是車載機(jī)器人擬人化。光有屏很難做擬人化,需要有一些形象,無(wú)論實(shí)體還是虛擬形象,而車載機(jī)器人就是這樣的載體。車載機(jī)器人是服務(wù)機(jī)器人里的社交機(jī)器人,是個(gè)人交互機(jī)器人。社交機(jī)器人強(qiáng)調(diào)社交屬性、情感屬性和個(gè)人屬性。它往往更需要擬人化,功能主要是提供駕駛輔助信息,提升人機(jī)交互能力。機(jī)器人是硬件,搭載了AI技術(shù)后才具有智能化屬性。
一般來(lái)講,服務(wù)機(jī)器人有視覺(jué)、語(yǔ)音、前端智能和環(huán)境感知三類智能。這也是人類所具有的智能,能看東西,也能講話。搭載AI技術(shù)的目的是讓它模仿和重復(fù)人類的行為,提升整體駕駛體驗(yàn)。而車載機(jī)器人主要是擺脫車上交互的設(shè)備感和指令感,由HMI向HRI進(jìn)化。
韓子天認(rèn)為,其交互的擬人化可以從五方面著手:其一,語(yǔ)音交互。車上大量交互、指令都是通過(guò)語(yǔ)音進(jìn)行,所以要讓語(yǔ)音交互更自然,和人類的語(yǔ)言更貼近,因此要提升其擬人化程度。其二,多通道融合,包括人臉、手勢(shì)等交互。其三,智能體要擁有明確的人設(shè)。它不是機(jī)器,要有名字、性格和年齡,需要有人設(shè)。其四,要有主動(dòng)交互能力。機(jī)器人不同于設(shè)備,它有主動(dòng)性才能體現(xiàn)出機(jī)器人的性能。其五,情感判斷和反饋智能。這五點(diǎn)是目前在技術(shù)上兌現(xiàn)擬人化的方法。
二是主動(dòng)交互。主動(dòng)交互在交互設(shè)計(jì)里比較重要,而目前很多交互都是被動(dòng)的,一個(gè)指令一個(gè)回答,甚至一個(gè)指令過(guò)去都沒(méi)有回答。主動(dòng)交互能體現(xiàn)機(jī)器人的擬人化,能讓人感受到它的智能。主動(dòng)交互可以讓車更智能,在一定程度上替代重復(fù)性工作,幫助人們解放了重復(fù)工作的場(chǎng)景。主動(dòng)交互是未來(lái)人機(jī)交互和人工智能系統(tǒng)的重要發(fā)展方向,由此實(shí)現(xiàn)“千人千面”。
怎樣兌現(xiàn)主動(dòng)交互?韓子天認(rèn)為,主動(dòng)交互可以從三方面兌現(xiàn):首先,給機(jī)器人增加主動(dòng)打招呼問(wèn)候;其次,本地語(yǔ)音語(yǔ)調(diào)可以主動(dòng)學(xué)習(xí);最后,用戶習(xí)慣記憶。前兩點(diǎn)相對(duì)容易實(shí)現(xiàn),最后一點(diǎn)怎么實(shí)現(xiàn)?實(shí)現(xiàn)方法就是從人工智能著手。
對(duì)于智能駕駛中的人機(jī)合作與交互,由芳認(rèn)為,智能座艙設(shè)計(jì)首先要安全,其次是娛樂(lè)、開(kāi)會(huì)、打電話和玩游戲等。人和自動(dòng)駕駛形成伙伴關(guān)系,在此基礎(chǔ)上研究共同感知和決策。以往的HMI都要考慮功能性,現(xiàn)在自動(dòng)化越來(lái)越先進(jìn),未來(lái)將出現(xiàn)自適應(yīng)及智能化功能。當(dāng)智能化越來(lái)越高的時(shí)候,要把機(jī)器人做得像人一樣聰明。到這個(gè)階段就需要考慮人車交互問(wèn)題,考慮它的認(rèn)知能力和決策能力。這是現(xiàn)在很多做智能算法和智能技術(shù)比較關(guān)注的。但智能座艙是一種復(fù)雜系統(tǒng),需要有專門的設(shè)計(jì)方法。
但是,在智能座艙中,人機(jī)交互存在不少挑戰(zhàn),其中重要挑戰(zhàn)之一是文化。
目前語(yǔ)音交互技術(shù)在智能座艙里被廣泛使用,由于語(yǔ)音交互具有不占據(jù)手眼資源的優(yōu)勢(shì),這種交互方式得到了用戶的積極肯定。隨著自動(dòng)駕駛技術(shù)的不斷成熟和應(yīng)用,駕駛員的注意力資源也得到了進(jìn)一步釋放,有可能進(jìn)行更多非駕駛相關(guān)的娛樂(lè)性活動(dòng)。
在很多生活場(chǎng)景中,出現(xiàn)了機(jī)器人交互和虛擬數(shù)字人交互等。這些交互模擬了人和人的互動(dòng)過(guò)程,因此帶來(lái)更加友好、自然和沉浸式的交互體驗(yàn)。人們也期待這樣的交互體驗(yàn)向智能座艙遷移。而自動(dòng)駕駛的應(yīng)用為數(shù)字人交互和機(jī)器人交互向車內(nèi)遷移提供了可能性。
但鄧園認(rèn)為,從語(yǔ)音交互轉(zhuǎn)變?yōu)闄C(jī)器人交互可能面臨文化挑戰(zhàn)。為什么機(jī)器人交互會(huì)帶來(lái)文化方面的挑戰(zhàn)?因?yàn)闄C(jī)器人交互和傳統(tǒng)人機(jī)交互最大的不同點(diǎn)是人和機(jī)器人交互還存在一層社會(huì)屬性。有研究發(fā)現(xiàn),當(dāng)智能語(yǔ)音助手被實(shí)體化為機(jī)器人,則被視為社會(huì)存在。人們會(huì)不自然地認(rèn)為機(jī)器人不僅是機(jī)器,而是可以進(jìn)行社交的個(gè)體。還有研究發(fā)現(xiàn),當(dāng)實(shí)體機(jī)器人和沒(méi)有實(shí)體的虛擬語(yǔ)音助手相比時(shí),人們與實(shí)體機(jī)器人進(jìn)行交互時(shí)會(huì)產(chǎn)生更強(qiáng)的情感聯(lián)系,會(huì)把人和人之間的互動(dòng)方式、習(xí)慣和觀念等投射到與機(jī)器人交互過(guò)程中。
鄧園說(shuō):“不同國(guó)家、社會(huì)、民族和群體有自己獨(dú)特的交互方式、習(xí)慣和觀念。這些差異會(huì)體現(xiàn)在與機(jī)器人的交互過(guò)程中。因此,在與機(jī)器人的交互上,文化差異是必然存在的?!?/p>
比如,中國(guó)和加拿大年輕人在這方面就存在一些共同點(diǎn)和差異點(diǎn)。如共同點(diǎn)之一:在語(yǔ)音助手的使用上都有豐富的跨場(chǎng)景使用語(yǔ)音助手的經(jīng)驗(yàn),包括在車內(nèi)環(huán)境都使用過(guò)語(yǔ)音助手,對(duì)語(yǔ)音助手有很高的接納度,認(rèn)為語(yǔ)音助手是很好的生活小幫手。但雙方也存在差異:如果車上配備了車載語(yǔ)音助手,你希望它是什么角色?他們就給出了兩個(gè)不同的角色選擇:一個(gè)是作為駕駛過(guò)程中的陪伴者,這是非常擬人化的角色;一個(gè)是完成駕駛相關(guān)任務(wù)的工具,這是完全沒(méi)有擬人化的角色。結(jié)果顯示,中國(guó)年輕人里超過(guò)七成受訪者選擇了陪伴者,而在加拿大的年輕人里超過(guò)九成的受訪者選擇了工具。
目前車載語(yǔ)音交互已經(jīng)成為智能座艙必備的功能需求。而語(yǔ)音交互能力是車載機(jī)器人交互的核心,但要保證其核心功能不斷優(yōu)化,才能滿足年輕一代對(duì)于智能座艙體驗(yàn)的高期待。鄧園說(shuō):“當(dāng)我們?cè)诳紤]要不要有車載機(jī)器人以及對(duì)車載機(jī)器人如何進(jìn)行產(chǎn)品設(shè)計(jì)和交互設(shè)計(jì)的時(shí)候,應(yīng)該考慮潛在社會(huì)文化因素,包括機(jī)器人的形象、語(yǔ)氣、用詞和互動(dòng)方式等。將來(lái),當(dāng)國(guó)內(nèi)車廠有機(jī)會(huì)把智能座艙、車載機(jī)器人技術(shù)推廣到其他國(guó)家市場(chǎng)的時(shí)候,要深入挖掘相關(guān)文化差異及其背后的原因,進(jìn)行本地化調(diào)整非常必要?!?/p>
從2020年開(kāi)始,人機(jī)交互趨勢(shì)發(fā)生了變革性改變,往情感化方向發(fā)展,且要求更加簡(jiǎn)單。未來(lái)人機(jī)交互是什么樣?張宏志認(rèn)為,從可實(shí)現(xiàn)性角度來(lái)講,用戶最關(guān)心的是車載AI場(chǎng)景應(yīng)用,但場(chǎng)景應(yīng)用需要算法,需要開(kāi)發(fā)工具,需要底層計(jì)算架構(gòu)支持,需要底層芯片算力支撐。
在此背景下,人們需要定義自己的智能場(chǎng)景,即智能場(chǎng)景引擎。王志杰說(shuō):“我們可以把場(chǎng)景分解成模塊、能力和事件三部分。模塊是對(duì)能力的承載,對(duì)智能座艙環(huán)境來(lái)講包含車端模塊和云端模塊,也包含車內(nèi)能力和云端能力。能力有屬性,能力值的變化會(huì)引起關(guān)聯(lián)其他能力值的變化,進(jìn)而形成事件。而把三個(gè)事件串聯(lián)起來(lái),就會(huì)形成具體場(chǎng)景?!?/p>
因此,王志杰認(rèn)為,從模塊角度可以把智能場(chǎng)景分解成人、車和路三部分。其中“人”包括車內(nèi)駕駛員、車內(nèi)乘客及相關(guān)聯(lián)的屬性,比如賬號(hào)、IoT設(shè)備等;“車”上有非常多的傳感器、設(shè)備都可以關(guān)聯(lián);“路”包括路上的車輛信息和行人信息等。構(gòu)建多種場(chǎng)景,滿足個(gè)性化、情感化和場(chǎng)景化的用戶需求。有了場(chǎng)景后,用戶可以滿足私人定制的要求,也可以滿足情感化的需求,對(duì)車的互動(dòng)形成用戶黏性。對(duì)整車廠來(lái)講,基于服務(wù)庫(kù)形成場(chǎng)景庫(kù),并通過(guò)場(chǎng)景引擎賦能給最終用戶使用。
王志杰說(shuō),設(shè)想場(chǎng)景引擎發(fā)展路徑可分為三個(gè)級(jí)別:L1級(jí)別是傳統(tǒng)車概念,所有功能都預(yù)先設(shè)定好,交付到最終用戶手里的時(shí)候,定制化部分非常少;L2級(jí)別是現(xiàn)在正在經(jīng)歷的過(guò)程,把車機(jī)部分能力開(kāi)放出來(lái),基于車機(jī)服務(wù)能力做定制;L3級(jí)別是要把車上所有能力都開(kāi)放出來(lái),并于云端能力形成大服務(wù)能力池,基于服務(wù)能力池做非常多的定制。
智能場(chǎng)景引擎編好后,直接推送到車端立刻執(zhí)行。如果場(chǎng)景有些偏差,可以修改。王志杰說(shuō):“車上的服務(wù)、云端的服務(wù)和第三方生態(tài)的服務(wù)都可以作為能力抽象出來(lái)集成,并通過(guò)場(chǎng)景引擎打通服務(wù)后,再?gòu)脑贫俗龊梅?wù)編排,通過(guò)腳本的方式下滑過(guò)來(lái),可以在車端執(zhí)行。場(chǎng)景引擎可以做成跨平臺(tái)的,底下可以用Linux等都沒(méi)關(guān)系,是獨(dú)立的SDK方式,甚至可以布置智能家居、獨(dú)立機(jī)器人。智能場(chǎng)景引擎可與車載虛擬機(jī)器人相結(jié)合?!?/p>
我們知道,聲音有很多維度,可以給駕乘體驗(yàn)提供很多很好的價(jià)值。而電動(dòng)汽車的特點(diǎn)在于非常安靜,由此它能給我們創(chuàng)造交互聲音提供更多的空間。而交互式聲音首先服務(wù)駕駛員,給駕駛員提供各種各樣功能交互聲音,同時(shí)也給乘客和行人提供不同的聲音。李彥昊說(shuō),服務(wù)不同乘客的聲音可分為五個(gè)維度:車內(nèi)氛圍音、ADAS駕駛輔助聲音、人機(jī)交互聲音、SAF駕駛反饋聲音和電動(dòng)車低速行駛提示音。
如何做到不給乘客帶來(lái)煩惱?在智能座艙,可根據(jù)用戶需求,在這五個(gè)方面設(shè)計(jì)全方位聲音交互。據(jù)李彥昊介紹,綜合考慮這些因素,可以對(duì)聲音設(shè)計(jì)流程進(jìn)行設(shè)計(jì):一是定義做什么樣的聲音;二是引入聲音設(shè)計(jì)工程師幫助設(shè)計(jì)聲音;三是對(duì)聲音做主觀評(píng)價(jià);四是把評(píng)價(jià)反饋給聲音設(shè)計(jì)師,并不斷迭代,最后把聲音改到目標(biāo)需求;五是做更實(shí)際的體驗(yàn),有可能在虛擬座艙中根據(jù)虛擬座艙中的駕駛環(huán)境觸發(fā)不同場(chǎng)景的聲音,體驗(yàn)聲音是不是符合交互感覺(jué),是不是能給駕駛員帶來(lái)更好的駕駛體驗(yàn);六是實(shí)車體驗(yàn),連接車上的車機(jī),根據(jù)車內(nèi)實(shí)時(shí)信號(hào)觸發(fā)不同聲音,調(diào)試聲音,知道聲音是不是能在不同場(chǎng)景進(jìn)行觸發(fā),并且?guī)?lái)真實(shí)體驗(yàn),而不是讓人聽(tīng)起來(lái)不舒服;七是整車集成,通過(guò)硬件、實(shí)際實(shí)施方式集成到車機(jī)里,給最終用戶帶來(lái)很好的聲音體驗(yàn)?;诖谁h(huán)節(jié)進(jìn)行完整創(chuàng)作,最終集成。
“語(yǔ)音交互最大的優(yōu)勢(shì)是穿透力,把簡(jiǎn)單、自然發(fā)揮到極致?!毙厦驼J(rèn)為,從語(yǔ)音到多模一定是發(fā)展趨勢(shì),因?yàn)椴豢赡芤揽空Z(yǔ)音解決所有問(wèn)題,因此可以建立以人-車-廠為驅(qū)動(dòng)的多模。多模感知的融合一定不是單模,而是多模高感知技術(shù)的融合,同時(shí)多維數(shù)據(jù)更好地協(xié)同,目的是提升用戶體驗(yàn)和交互體驗(yàn)。語(yǔ)音交互和聲音交互座艙聲音管理一定是一體化協(xié)同的。從多模態(tài)合成到多維度合成,多維度合成是情緒的面部表情表達(dá)和情緒語(yǔ)言表達(dá)展現(xiàn)在一起。
語(yǔ)音交互方式本身是信息的主要載體,是座艙里非常重要的落地點(diǎn)。張晴晴說(shuō):“圍繞人機(jī)交互的場(chǎng)景有語(yǔ)音識(shí)別、語(yǔ)音合成和自然語(yǔ)言理解三個(gè)核心點(diǎn),而對(duì)話式AI 數(shù)據(jù)推動(dòng)著智能座艙語(yǔ)音交互的發(fā)展。目前這三部分在落地的時(shí)候都會(huì)有痛點(diǎn)。針對(duì)這種場(chǎng)景提供相應(yīng)數(shù)據(jù)處理系統(tǒng)的私有化部署能力有三個(gè)數(shù)據(jù)處理平臺(tái),即語(yǔ)音標(biāo)注審核平臺(tái)、文本標(biāo)注審核平臺(tái)和音頻/視頻多模態(tài)標(biāo)注審核平臺(tái)。事實(shí)上,除了語(yǔ)音交互外,現(xiàn)在開(kāi)始進(jìn)入多模態(tài)狀態(tài),包括視覺(jué)、圖像等都可以圍繞多維度對(duì)用戶行為進(jìn)行分析,這是智能座艙很重要的發(fā)展方向?!?/p>