摘? 要:以語(yǔ)音交互的基本原理為基礎(chǔ),通過分析其關(guān)鍵問題,從用戶體驗(yàn)層面對(duì)人工智能操作時(shí)代的交互設(shè)計(jì)模式創(chuàng)新進(jìn)行探尋,對(duì)AI技術(shù)驅(qū)動(dòng)下的智能語(yǔ)音交互設(shè)計(jì)框架創(chuàng)新進(jìn)行推導(dǎo)。其研究對(duì)推動(dòng)語(yǔ)音交互技術(shù)進(jìn)步和整個(gè)人工智能產(chǎn)業(yè)的前行具有重要意義。
關(guān)鍵詞:語(yǔ)音交互;多維交互;AI智能
中圖分類號(hào):TP391? ? ? ? ?文獻(xiàn)識(shí)別碼:A? ? ? ?文章編號(hào):2095-2945(2019)29-0035-02
Abstract: Based on the basic principle of voice interaction, through the analysis of its key problems, this paper explores the innovation of interaction design pattern in the era of artificial intelligence operation from the level of user experience. The innovation of intelligent voice interaction design framework driven by AI technology is deduced. Its research is of great significance to promote the progress of voice interaction technology and the progress of the whole artificial intelligence industry.
Keywords: voice interaction; multidimensional interaction; AI technology
導(dǎo)語(yǔ)
在長(zhǎng)達(dá)70年的人機(jī)交互發(fā)展史中,從基于代碼的命令行界面到基于鼠標(biāo)鍵盤的圖形用戶界面到基于觸摸屏的無(wú)形用戶界面,人機(jī)交互介質(zhì)和方式隨著技術(shù)革新發(fā)生變化。無(wú)形用戶界面(NUI)需要用戶以最自然的交流方式與機(jī)器互動(dòng),這離不開利用人類本能的感覺通道進(jìn)行信息傳遞和交流互動(dòng)。在人類的聽覺、視覺、觸覺、嗅覺、味覺5個(gè)通道中,視覺通道占據(jù)最主要位置,聽覺通道其次,而在信息傳遞中聽覺語(yǔ)言的綜合利用率遠(yuǎn)高于視覺符號(hào),所以,更趨近人類本能的交互方式——語(yǔ)音交互受到廣泛關(guān)注。谷歌(Google Home)、亞馬遜(echo)天貓精靈、小愛音箱等智能語(yǔ)音產(chǎn)品呈現(xiàn)井噴式增長(zhǎng),智能語(yǔ)音產(chǎn)品的需求也越來越旺盛,不僅改變了人類的生活方式,在智慧醫(yī)療、智慧農(nóng)業(yè)、智能制造領(lǐng)域的應(yīng)用正蓄勢(shì)待發(fā)。
1 語(yǔ)音交互基礎(chǔ)
自上世紀(jì)90年代,語(yǔ)音交互經(jīng)歷了第一個(gè)非特定人的語(yǔ)音識(shí)別系統(tǒng)的誕生到IVR互動(dòng)式語(yǔ)音應(yīng)答系統(tǒng)的規(guī)模應(yīng)用再到AI時(shí)代的智能語(yǔ)音識(shí)別的過程。進(jìn)入AI時(shí)代后,人工智能技術(shù)賦能機(jī)器感知能力、認(rèn)知能力和語(yǔ)言表達(dá)能力。具象地說,就是機(jī)器能聽、能辨、能說,用戶與機(jī)器的互動(dòng)如同與老友般自然地交流,這將人機(jī)交互帶入新的階段。
這種最自然的人機(jī)交互方式顯現(xiàn)出以下優(yōu)點(diǎn):(1)輸入速度提升。語(yǔ)音輸入速度遠(yuǎn)快于手寫或打字速度;(2)降低輸入學(xué)習(xí)成本。有的用戶不會(huì)使用輸入法、有的用戶提筆忘字,但絕大部分用戶都會(huì)說話,說話是每個(gè)人的天性;(3)簡(jiǎn)化操作方式。語(yǔ)音喚醒和語(yǔ)音輸入的組合使用,讓用戶的使用場(chǎng)景更簡(jiǎn)潔。如果你正在開車,你只需要對(duì)著機(jī)器說話即可完成操作任務(wù);(4)提高機(jī)器情感特征。機(jī)器可以通過編程調(diào)節(jié)語(yǔ)音、語(yǔ)速、音調(diào)等模仿人的說話時(shí)的真實(shí)情景,語(yǔ)音比文字更容易讓用戶體會(huì)情感。
也具有相對(duì)局限性:(1)環(huán)境要求高。語(yǔ)音輸入對(duì)周圍環(huán)境聲音要求較高,在公眾場(chǎng)合或嘈雜環(huán)境中會(huì)降低語(yǔ)音輸入的準(zhǔn)確度,同時(shí),在公眾場(chǎng)合使用語(yǔ)音輸入還容易泄露隱私;(2)用戶適應(yīng)程度低。習(xí)慣了鍵盤輸入,改為語(yǔ)音輸入,加之目前的機(jī)器識(shí)別技術(shù)還并未完善,導(dǎo)致用戶內(nèi)心抵觸語(yǔ)音輸入,同時(shí),打字也能為一部分用戶帶來心理愉悅感。
2 語(yǔ)音交互過程及關(guān)鍵問題
語(yǔ)音交互的過程是機(jī)器接受用戶的語(yǔ)音信號(hào),將其轉(zhuǎn)化為計(jì)算機(jī)語(yǔ)言并對(duì)其進(jìn)行語(yǔ)義認(rèn)知解析,再喚醒對(duì)應(yīng)領(lǐng)域的內(nèi)容、信息等功能,經(jīng)過人聲合成,最后反饋給用戶。
在此過程中,面臨兩大關(guān)鍵問題:(1)機(jī)器對(duì)用戶意圖的理解;(2)機(jī)器對(duì)用戶的反饋提升。具體來說,就是語(yǔ)音識(shí)別技術(shù)將用戶的語(yǔ)音轉(zhuǎn)化為文本信號(hào),通過技術(shù)分析理解用戶需求,但用戶語(yǔ)言與用戶語(yǔ)義之間存在復(fù)雜關(guān)聯(lián),用戶語(yǔ)義高度依賴會(huì)話語(yǔ)境,這使得計(jì)算機(jī)單純分析詞匯和語(yǔ)法無(wú)法準(zhǔn)確識(shí)別用戶語(yǔ)義,從而降低語(yǔ)音交互的智能體驗(yàn)感,如圖1所示。同時(shí),機(jī)器對(duì)用戶的正確反饋,決定用戶的交互體驗(yàn),正確反饋不僅依賴語(yǔ)音識(shí)別技術(shù)的進(jìn)步,還來源于機(jī)器的反饋交互,但對(duì)話式交互中生硬的語(yǔ)音反饋會(huì)削弱機(jī)器的“人性”,使用戶心理產(chǎn)生距離感。
3 語(yǔ)音交互設(shè)計(jì)框架
語(yǔ)音交互設(shè)計(jì)是一項(xiàng)交叉技術(shù),需要設(shè)計(jì)師了解用戶的語(yǔ)言本質(zhì)和機(jī)器的語(yǔ)言邏輯,在用戶參與設(shè)計(jì)的前提下,不斷完善語(yǔ)音交互的輸入——處理——輸出的交互設(shè)計(jì)流程。語(yǔ)音交互是交互設(shè)計(jì)的一種重要方式,同樣需要遵循交互設(shè)計(jì)的常用步驟。需要設(shè)計(jì)者在以人為中心(用戶參與為向?qū)В┑那疤嵯?,?duì)交互產(chǎn)品進(jìn)行初步設(shè)計(jì)構(gòu)想,并在不斷的程序開發(fā)和實(shí)際評(píng)估過程中完善交互流程。
智能產(chǎn)品的語(yǔ)音交互設(shè)計(jì)離不開“以用戶為中心”的思維,由上文提到的其兩大關(guān)鍵問題,在設(shè)計(jì)過程中應(yīng)著重增加用戶參與性研究。
智能語(yǔ)音交互方式與屏幕交互方式相比較,具體有如下特征:從產(chǎn)品導(dǎo)向轉(zhuǎn)變?yōu)檫^程導(dǎo)向;從屏內(nèi)交互轉(zhuǎn)變?yōu)槠镣饨换?從實(shí)體體驗(yàn)轉(zhuǎn)變?yōu)樘摂M體驗(yàn);從機(jī)器邏輯轉(zhuǎn)變?yōu)橛脩暨壿?從用戶行為設(shè)計(jì)轉(zhuǎn)變?yōu)闄C(jī)器行為設(shè)計(jì);從識(shí)別用戶行為轉(zhuǎn)變?yōu)槔斫庥脩粢鈭D;從用戶與設(shè)計(jì)師合作行動(dòng)式的情景預(yù)演方法轉(zhuǎn)變?yōu)橛脩襞c設(shè)計(jì)師與語(yǔ)言學(xué)者共創(chuàng)探索式的語(yǔ)境預(yù)演方法;從設(shè)計(jì)師參與式轉(zhuǎn)變?yōu)樵O(shè)計(jì)師決策式。[1]語(yǔ)音交互設(shè)計(jì)框架如圖2所示。
4 語(yǔ)音交互的任務(wù)
對(duì)應(yīng)語(yǔ)音交互的關(guān)鍵問題及設(shè)計(jì)框架,智能語(yǔ)音交互的任務(wù)分為兩個(gè)關(guān)鍵部分,即分析用戶意圖、設(shè)計(jì)機(jī)器反饋。語(yǔ)音交互階段任務(wù)如圖3所示。
分析用戶意圖:語(yǔ)音識(shí)別技術(shù)將用戶的語(yǔ)音轉(zhuǎn)化為計(jì)算機(jī)能夠識(shí)別的文本代碼,計(jì)算機(jī)通過語(yǔ)法特征分析詞句關(guān)系,理解用戶意圖。但是,在實(shí)際的對(duì)話世界中,用戶需求和用戶語(yǔ)言之間存在復(fù)雜的情景關(guān)聯(lián)。比如,用戶詢問,“今天天氣如何?”有些用戶關(guān)注點(diǎn)可能是是否會(huì)下雨;有些用戶關(guān)注點(diǎn)則可能是是否要防曬;有些用戶想要知道溫度如何。這是一種高度依賴語(yǔ)境和用戶語(yǔ)音習(xí)慣的語(yǔ)義通道,無(wú)法從單純分析字詞和語(yǔ)法而獲得用戶需求,無(wú)法完全依靠計(jì)算機(jī)的機(jī)器學(xué)習(xí)能力而獲得,此時(shí),需要語(yǔ)音交互設(shè)計(jì)師的輔助工作。
設(shè)計(jì)機(jī)器反饋:用戶對(duì)機(jī)器輸入語(yǔ)音后,如何得知機(jī)器理解了自己的完整意圖呢?這取決于用戶是否得到了合理的機(jī)器反饋。合理的機(jī)器反饋來源于:(1)正確理解用戶意圖;(2)以用戶易于接受的方式反饋,即需要具備“人格化”特征。
5 結(jié)束語(yǔ)
語(yǔ)音交互設(shè)計(jì)是一個(gè)雙向系統(tǒng)研究模式,包含用戶輸入和機(jī)器輸出的雙層交互系統(tǒng),而這兩者都依賴于計(jì)算機(jī)的計(jì)算能力。所以,語(yǔ)音交互設(shè)計(jì)對(duì)設(shè)計(jì)師提出了更高的技術(shù)層面的要求和語(yǔ)言基礎(chǔ)知識(shí)的挑戰(zhàn)。[2]傳統(tǒng)的交互設(shè)計(jì)需要用戶付出學(xué)習(xí)時(shí)間,而語(yǔ)音交互則需要計(jì)算機(jī)順應(yīng)用戶邏輯。我們都知道,交互設(shè)計(jì)是物理邏輯和行為邏輯間的溝通橋梁,語(yǔ)音交互也不例外,但需求更迫切,要求更高,其設(shè)計(jì)方法的研究還有待進(jìn)一步開展。
參考文獻(xiàn):
[1]王希.信息產(chǎn)品設(shè)計(jì)中的視覺品牌基因塑造策略[J].科技創(chuàng)新與應(yīng)用,2019(15):27-28.
[2]羅仕鑒.服務(wù)設(shè)計(jì)驅(qū)動(dòng)下的模式創(chuàng)新[J].包裝工程,2015(06):1-4.
[3]魯曉波.信息設(shè)計(jì)中的交互設(shè)計(jì)方法[J].科技導(dǎo)報(bào),2007(13):18-21.