中圖分類號:U463.6 文獻標識碼:A 文章編號:1003-8639(2025)07-0039-03
AnSolution of Enhanced Audio and Entertainment Voice Interaction for the Future Inteligent Cockpi
LiYuzhu,ZengXi,Lan Chaohuan(Guangzhou Automobile Group Co.,Ltd.,Guangzhou 51140o,China)
【Abstract】With therapiddevelopment of automotive intellgent technology,consumers’demand for in-car entertainmentsystemshasshiftedfrombasicfunctionstohighlyinteligentandpersonalizedexperiences.Thelimitations of traditional voiceasistantsin termsof responsespeed,depth ofunderstanding,andnaturalnessof interactionare becomingincreasinglyprominent,makingitdiffcult tometthehigh standardsof modernusersforanintelligentcockpit audioand entertainment experience.The purpose of this paper is toproposean innovative cockpitaudio and entertainment voice interaction designscheme,which integratesmultimodal voice interaction technology,deep music contextunderstanding modelandpersonalized recommendationalgorithmtoachievea more intelligent,accurate and natural music search and playback experience.
【KeyWords】 intelligent cockpit;voice interaction;personalized recommendations;deep learning
近年來,智能網(wǎng)聯(lián)汽車作為汽車工業(yè)與信息技術(shù)深度融合的產(chǎn)物,正逐步成為未來出行的新趨勢[-2]。其中,座艙作為用戶與車輛交互的核心區(qū)域,其智能化水平直接關(guān)系到用戶的整體駕駛與乘坐體驗。特別是音娛系統(tǒng),作為緩解駕駛疲勞、提升乘車愉悅感的重要載體,其交互方式的智能化升級顯得尤為迫切。本文聚焦于音娛語音交互領(lǐng)域,探討如何通過技術(shù)創(chuàng)新提升用戶體驗。
1現(xiàn)有語音交互技術(shù)局限性分析
當前市場上的汽車語音助手多基于關(guān)鍵詞識別技術(shù),雖能在一定程度上實現(xiàn)音樂搜索、播放控制等基本功能,但在面對復(fù)雜語音指令、模糊查詢及個性化需求時顯得力不從心。具體表現(xiàn)如下。
1.1理解深度不足
難以準確捕捉用戶意圖中的微妙差別,如“播放劉德華與陳奕迅的合唱歌曲”“播放林俊杰最新的熱歌”“播放劉德華和陳奕迅分別的歌曲”“用云聽播放昨天的財經(jīng)新聞”“播放特朗普的新聞”。這些語音指令下發(fā)后,當前市面智能座艙語音通常無法反饋內(nèi)容,或反饋與用戶期待相悖的內(nèi)容,體現(xiàn)了當前語音交互技術(shù)存在理解深度不足的局限性5]。
1.2 上下文缺失
缺乏對音樂播放歷史、用戶偏好等上下文信息的有效利用。比如語音指令“我不喜歡這種歌,給我換一批歌曲”“播放我喜歡的男聲歌”等。這些語音指令下發(fā)后,當前市面智能座艙語音反饋的內(nèi)容,大概率播放的內(nèi)容與用戶期待不符。
1.3 交互生硬
交互過程缺乏情感交流,用戶體驗不夠自然流暢。比如,語音搜歌后,播放的歌曲均需要會員,但當前用戶并沒有時,語音無任何提示會員的異常反饋。再比如,用戶在語音“播放我喜歡的歌曲”時,遇到賬號未登錄時,語音無任何提示用戶當前無法播放是因為賬號失效,引導(dǎo)登錄的反饋。這些語音交互缺乏流暢的語音反饋。
1.4 后期管理弱
現(xiàn)有市面智能座艙提供的音娛語音交互,存在后期管理弱的現(xiàn)象。
1.4.1 無法加載更多歌曲
例如,若用戶搜索某類歌曲,所反饋的歌單隊列是有限的,通常在20首左右,若播放完畢則無法加載更多。
1)場景示例:用戶語音“搜索粵語歌”,車機反饋30首粵語歌隊列,30首播放完畢,則會暫停,用戶如想繼續(xù)聽還需要喚醒語音再次下發(fā)一次播放粵語歌的指令,這樣體驗不足,存在局限性。
2)用戶期待:可以持續(xù)播放粵語類歌曲,直到下次主動更換歌單。
3)存在問題:車機通過語義搜索到具體的粵語歌單進行播放,通常不超過30首,沒有制定播放完畢自動加載下一批歌單的機制,導(dǎo)致無法繼續(xù)播放。
4)提升方向:應(yīng)提升語音媒體交互體驗,能夠在播放完第一批隊列歌單后,自動加載下一批同語義的歌單。
1.4.2 非期待版本歌曲
再比如,若用戶通過語音搜索某一歌曲,所反饋的歌曲并非用戶所期待的版本,可能是翻唱或現(xiàn)場版。
1)場景示例:用戶語音指令“播放《告白氣球》”,車機反饋播放某一首非周杰倫的其他歌手翻唱的版本。
2)用戶期待:播放周杰倫唱的原版歌曲。
3)存在問題:車機通過語義搜索到該歌名,播放搜索后第一首,有較大概率播放的歌曲與用戶期待相悖,此時若用戶當前無會員,該首用戶期待歌曲為會員則無法播放。
4)提升方向:應(yīng)提升音娛語音交互體驗,能夠提供一定語音界面給出一批搜索到的歌曲,支持用戶自行挑選后再播放。
這些問題均體現(xiàn)了現(xiàn)有市面語音交互技術(shù)存在后期管理弱的局限性。
1.5 多屏多應(yīng)用的區(qū)分響應(yīng)弱
現(xiàn)有市面智能座艙提供的音娛語音交互技術(shù),通?;谥锌仡A(yù)設(shè)音娛應(yīng)用進行搜索,并不在意當前用戶前臺應(yīng)用是什么和當前所在屏幕分區(qū)。
1)場景示例:當前無應(yīng)用在播,副駕用戶打開音樂應(yīng)用A,喚醒語音并下發(fā)指令“播放林俊杰的歌”。
2)用戶期待:在副駕屏的音樂應(yīng)用A進行搜歌并播放。
3)存在問題:目前市面上的智能座艙僅能提供在中控預(yù)設(shè)應(yīng)用內(nèi)進行搜歌并在中控播放,即車企深度適配的是應(yīng)用B,則無論當前前臺應(yīng)用為何應(yīng)用,均在預(yù)設(shè)應(yīng)用B內(nèi)進行搜歌。
4)提升方向:應(yīng)提升音娛語音交互體驗,能夠識別當前喚醒屏、當前前臺應(yīng)用、當前焦點所在應(yīng)用、預(yù)設(shè)應(yīng)用等進行綜合判定,給出用戶期望的播放結(jié)果。
2增強型音娛語音交互方案
針對當前智能座艙音娛語音存在局限性的現(xiàn)狀, 應(yīng)加深對智能座艙音娛語音交互設(shè)計的探究,不斷 完善智能化的音娛語音方案,去滿足用戶對未來智 能座艙不斷豐富的需求。
本文設(shè)計一種增強型音娛語音交互方案,旨在提供一種探索思路,主要針對語音搜歌體驗升級方面,從以下幾個方向進行展開,包括分段識別、深度上下文理解、豐富反饋、云端監(jiān)控、多屏多應(yīng)用判斷。
音娛語音搜歌的基礎(chǔ)方案構(gòu)成包括理解、調(diào)媒資、反饋。本文設(shè)計的增加型音娛語音交互方案構(gòu)成如圖1所示,包括理解、調(diào)媒資、反饋、后期管理。增強型音娛語音交互設(shè)計方案端所在分析如圖2所示。
2.1深度上下文理解及分段識別語音交互
2.1.1 AI大模型加入
構(gòu)建基于深度學(xué)習(xí)的音樂上下文理解模型,利用用戶歷史播放記錄、音樂偏好、當前情緒狀態(tài)等多維度信息,實現(xiàn)對音樂搜索指令的深度解析。模型能夠識別并理解如“播放我最近喜歡聽的爵士樂”這類模糊指令,自動匹配符合用戶口味的音樂內(nèi)容。
2.1.2 深度上下文理解
若用戶語音指令包括播放該類歌曲、喜歡的歌曲、推薦歌曲、兒童歌曲等,當前反饋結(jié)果通常并不滿足用戶期望,反饋搜索不到或內(nèi)容用戶并不喜歡。
理解用戶指令應(yīng)結(jié)合上下文進行理解,充分利用車機能夠調(diào)用的云端媒體資源,并結(jié)合用戶行為數(shù)據(jù)、音樂屬性信息及外部數(shù)據(jù)源(如社交媒體、音樂平臺趨勢),設(shè)計高效的個性化推薦算法。算法能夠?qū)崟r調(diào)整推薦列表,確保每次推薦都能貼近用戶的最新喜好,提升用戶滿意度。
2.1.3 分段識別及多屏多應(yīng)用判斷
如圖3所示,通過對用戶指令的語義進行識別后,將關(guān)鍵詞進行分類,包括屏幕信息、應(yīng)用信息、媒體類別信息以及其他關(guān)鍵詞,然后逐級進行理解并進行下一步搜索。
2.2豐富反饋及后期管理語音交互
2.2.1 AI大模型接入
結(jié)合用戶行為數(shù)據(jù)、音樂屬性信息及外部數(shù)據(jù)源(如社交媒體、音樂平臺趨勢),設(shè)計高效的個性化推薦算法。算法能夠?qū)崟r調(diào)整推薦列表,確保每次推薦都能貼近用戶的最新喜好,提升用戶滿意度]。
2.2.2 TTS回復(fù)人性化
當前反饋過于基礎(chǔ),僅可反饋搜索成功、搜索失敗,應(yīng)避免反饋搜索失敗的情況,如遇異常,應(yīng)制定更合理的TTS回復(fù)。為了保證回復(fù)更精準,貼合語境,可加入AI大模型技術(shù)去優(yōu)化自然語言處理模塊,提升系統(tǒng)對復(fù)雜語音指令的理解能力。
同時,融入情感計算技術(shù),使系統(tǒng)能夠感知并回應(yīng)用戶的情感變化,如通過語音語調(diào)調(diào)整、幽默回復(fù)等方式,增強交互的趣味性和人情味。
2.2.3 后期管理提升
若無后期管理,只反饋一次搜索隊列,用戶聽完固定的多少首歌曲之后無法繼續(xù)聽歌,需要再次調(diào)用搜索或主動選擇其他內(nèi)容。
因此語音交互應(yīng)當反饋第一次搜索結(jié)果后,應(yīng)用監(jiān)控歌曲播放完畢,告知語音云端進行二次搜索,反饋第二批結(jié)果隊列,如此往復(fù)。
此舉可避免用戶不需要時的性能損耗,只有當用戶需要繼續(xù)播放該搜索結(jié)果時再進行二次搜索,這塊反饋的速度更快、性能消耗更低。此外還需注意后續(xù)返回的搜索結(jié)果需語音云端剔除上次反饋的播放隊列內(nèi)容,避免內(nèi)容重復(fù)。
3結(jié)論與展望
本文提出的面向未來智能座艙的增強型音娛語音交互設(shè)計方案,通過集成多模態(tài)交互、深度音樂上下文理解及個性化推薦等先進技術(shù),有效解決了現(xiàn)有語音助手在理解深度、上下文感知及個性化體驗方面的不足。未來,隨著技術(shù)的不斷進步和用戶需求的日益多樣化,該方案將持續(xù)優(yōu)化與升級,為用戶提供更加智能、貼心、個性化的音娛體驗。
參考文獻
[1]王斌,王育軍,崔建偉,等.智能語音交互技術(shù)進展[J].人工智能,2020(5):14-28.
[2]郁淑聰,孟健,張渤.淺談汽車智能座艙發(fā)展現(xiàn)狀及未來趨勢[J].時代汽車,2021(5):10-11.
[3]袁彬,肖波,侯玉華,等.移動智能終端語音交互技術(shù)現(xiàn)狀及發(fā)展趨勢[J].信息通信技術(shù),2014,8(2):39-43,51.
[4]孫德強,張俊儀,邱興龍.基于汽車智能座艙的無感支付方案研究[J].汽車電器,2024(8):12-14.
[5]孫德強,張俊儀,時瑞浩.車載信息娛樂系統(tǒng)發(fā)展及趨勢研究[J].汽車電器,2024(6):39-41.
[6]蘭玉琪,劉湃.基于用戶體驗的交互產(chǎn)品情感化研究[J].包裝工程,2019,40(12):23-28.
[7]陶建華,巫英才,喻純,等.多模態(tài)人機交互綜述[J].中國圖象圖形學(xué)報,2022,27(6):1956-1987.
(編輯楊凱麟)