陸 鑫,滕支強,范亮亮
(南京郵電大學(xué) 通信與信息工程學(xué)院,江蘇 南京 210003)
圖形界面交互這一理念最早于1973年出現(xiàn),為圖形交互指出了發(fā)展方向。電腦被看做一個桌面,系統(tǒng)各種程序被看做系統(tǒng)工具,文檔則被看做電子紙張。將生活中的實際事物轉(zhuǎn)換為虛擬的事物,利用計算機將抽象內(nèi)容具象化,比如,我們在進(jìn)行文檔歸類時,可以把同一類的文檔放到同一文件夾下;刪除文件時,直接拖拽到回收站,就好比現(xiàn)實生活丟垃圾一樣。比爾蓋茨就是受到這一理念的啟發(fā),研發(fā)出了Windows系統(tǒng)。
手勢識別借助計算機識別和感知技術(shù),實現(xiàn)了人機交互。計算機識別人們做出的手勢動作,這樣人們即便沒有接觸設(shè)備,根據(jù)對應(yīng)手勢便可以完成設(shè)備的互動。手勢識別的出現(xiàn),表明人們已經(jīng)嘗試如何脫離鼠標(biāo)、鍵盤、屏幕等,開始搭建計算機和人類交流的新渠道。手勢識別從最初的對人類手部動作、肘部動作捕捉人們運動軌跡實現(xiàn)人機交互,到發(fā)展成為對人們的姿態(tài)、行為、面部表情等方面的識別,人機交互從以往的系統(tǒng)核心,朝著用戶核心轉(zhuǎn)換[1],如圖1所示。
最早的語音交互是人們建立的語音應(yīng)答系統(tǒng),用戶撥打電話,無法得到應(yīng)答時,播放提前錄制好的語音信息。最早的語音交互,不僅應(yīng)用范圍非常窄,而且比較生硬呆板,難以解決實際的問題?,F(xiàn)階段,SIRI、小愛同學(xué)等移動端的語音交互APP的出現(xiàn),實現(xiàn)了AI技術(shù)和人們的語音互動,受到人們的普遍歡迎。
腦機接口則包含了眾多的領(lǐng)域,比如,計算機科學(xué)、神經(jīng)科學(xué)、信息科學(xué)、認(rèn)知科學(xué)、醫(yī)學(xué)等多個領(lǐng)域,大腦和外部環(huán)境監(jiān)理交流和控制渠道,大腦和計算機連接之后,接受大腦信號傳輸,識別人們的腦信號,從而控制外部設(shè)備[2]。
語音交互方式可以讓人們擺脫雙手,出現(xiàn)之后,深受人們的好評。語音交互有著成本低、應(yīng)用范圍廣的優(yōu)點,但也有著不足,比如,輸入方式方面,無法輸入過多的內(nèi)容以及持續(xù)輸入,只能實現(xiàn)簡單的語音交互。語音交互還會受到外部環(huán)境的影響,如果深處嘈雜的外部環(huán)境,識別語音的難度較大,容易出現(xiàn)識別錯誤的情況。
圖1 人機交互系統(tǒng)
手勢識別可以讓人們在不佩戴設(shè)備的情況下,實現(xiàn)與系統(tǒng)的交互,將其和語音識別結(jié)合起來,可以帶來很好地交互體驗[3]。但是無法成為主流交互的原因在于:沒有外界物品的支撐,人們的雙手很難長時間浮空;人們在現(xiàn)實生活中形成的手勢習(xí)慣,無法在辦公、室外等公共場所實現(xiàn)手勢交互;缺少反饋機制,人們使用手機觸屏可以得到反饋,知道觸屏到了屏幕,手勢識別則缺乏反饋體驗,不知道是否已經(jīng)觸發(fā)了操作指令。
腦機接口的交互方式,在很多領(lǐng)域得到很好地因公,比如對于恢復(fù)感知、運動以及機器人替身等領(lǐng)域應(yīng)用比較常見。但是用戶的接受程度以及設(shè)備的普及率有待提升。
由于交互方式各有不足,多種交互方式相互結(jié)合,發(fā)揮各自的長處,彌補各自的不足。多感官融合的方式,也就是通過視覺、觸覺、聽覺、嗅覺、環(huán)境、動作行為等方式,計算機系統(tǒng)模擬人們社交的方式,從而更好地滿足人們?nèi)藱C交互的需要。由于情境感知有著自動化、實時性、個性化的特點,可以自動地計算和獲取用戶需求,從而提供相應(yīng)的服務(wù)內(nèi)容。以物聯(lián)網(wǎng)為基礎(chǔ),打造多模態(tài)交互網(wǎng)絡(luò)的方式,整合現(xiàn)有的人機交互方式,通過對用戶情境的感知,選擇最為自然的交互方式,滿足用戶的交互需求,從而讓不同來源的智能產(chǎn)品,像一臺機器或者一個人一樣,為用戶提供服務(wù)?;诖?,筆者認(rèn)為,未來人機交互的發(fā)展將朝著如下方向:
首先,整體性發(fā)展。將不同的智能設(shè)備設(shè)置同樣的生態(tài)系統(tǒng),讓多個設(shè)備像一個設(shè)備一樣,服務(wù)用戶。物聯(lián)網(wǎng)多模態(tài)交互網(wǎng)絡(luò)環(huán)境下,智能設(shè)備之間的聯(lián)系更加密切,不再是單獨為戰(zhàn),而是設(shè)備之間進(jìn)行信息的共享,不用對信息進(jìn)行重復(fù)的計算和推送,就好比一個用戶的賬號,可以在多個設(shè)備上登錄使用,一條信息不會多次推送。利用物聯(lián)網(wǎng)的多模態(tài)交互網(wǎng)絡(luò),提升智能設(shè)備的統(tǒng)一性和整體性,設(shè)備和系統(tǒng)的利用效率更高,也更加地安全。
其次,感知性。未來智能設(shè)備可以有效地感知用戶所處的情境,這樣用戶可以不用輸入信息,系統(tǒng)自動感知和執(zhí)行,滿足用戶的需求。可以利用類似傳感器的設(shè)備,感知用戶所處的情境,收集相關(guān)信息,分析用戶的下一步行為,從被動服務(wù)變?yōu)橹鲃臃?wù)。利用智能設(shè)備的感知功能,感知用戶的情境,分析之后做出調(diào)整變化,將最合理、最有效地信息推送給用戶,或者是執(zhí)行某種決策,更好地服務(wù)用戶。情境感知將外界的用戶、系統(tǒng)狀態(tài)、情境環(huán)境等有機地集合起來。一個完整的智能設(shè)備,可以自動感知用戶所處的情境,并作出正確地判斷[4]。
最后,去屏幕化。去屏幕化是指擺脫屏幕的限制,周圍的環(huán)境則是屏幕。最好的交互模式應(yīng)該是自然無形的,對于用戶而言,沒有界面就是最好的用戶界面。將屏幕操作的功能去除,將用戶拿取和放下耳機這一動作指令和藍(lán)牙自動斷連功能關(guān)聯(lián),這微小的改動,讓功能更加人性化。
綜上所述,隨著互聯(lián)網(wǎng)技術(shù)和智能技術(shù)的發(fā)展,人機交互的模式不斷增多。從最初的文字界面交互、語音交互、手勢交互、腦機接口等交互模式,逐漸變?yōu)槎喾N交互模式融合的情況。現(xiàn)階段,主流的人際交互模式是文字界面交互和手勢交互,語音交互和腦機接口的應(yīng)用領(lǐng)域則相對偏窄,利用率偏低。不同的人機交互模式有著不同的優(yōu)缺點,需要進(jìn)一步地發(fā)展和優(yōu)化。未來人機交互則重點放到減少用戶操作方面,從以往被動接受用戶操作指令,到主動感知用戶操作需求。多模態(tài)交互模式,通過系統(tǒng)感知,感知用戶所處的情境,經(jīng)過數(shù)據(jù)分析,做出相應(yīng)地判斷,減少用戶的操作。萬物智聯(lián)時代的到來,讓這種感知執(zhí)行的模式,變得更加可行。