馬曉娜,張雨欣,于茜
基于多模態(tài)信息交互的智能家居設(shè)計(jì)研究
馬曉娜1,張雨欣1,于茜2
(北京航空航天大學(xué) a.新媒體藝術(shù)與設(shè)計(jì)學(xué)院 b.軟件學(xué)院,北京 100191)
針對界面、語音等單一智能家居交互模式阻礙用戶自然體驗(yàn)的瓶頸問題,探索基于多模態(tài)信息交互的智能家居設(shè)計(jì)方法,實(shí)現(xiàn)智能家居更自然、友好的用戶體驗(yàn)?;谟脩羧粘I疃嗄B(tài)的自然交互特點(diǎn),探索一種以多模態(tài)為特征的智能家居信息交互模式,構(gòu)建了面向智能家居的多模態(tài)信息交互設(shè)計(jì)框架,并對該框架中的構(gòu)成要素、交互流程、模態(tài)組織方式及多模態(tài)信息的注意度、模態(tài)密度、模態(tài)結(jié)構(gòu)配置進(jìn)行分析討論。智能家居多模態(tài)信息交互實(shí)現(xiàn)了智能家居系統(tǒng)的主動(dòng)性、交感化信息獲取和情境化的信息分析與反饋,對提升智能系統(tǒng)自主性,降低用戶在交互過程中的認(rèn)知負(fù)荷,以及實(shí)現(xiàn)更加自然、友好的用戶體驗(yàn)有積極價(jià)值。智能家居環(huán)境需要改變傳統(tǒng)相對單一的人機(jī)系統(tǒng)信息交互方式,以多模態(tài)信息交互促進(jìn)智能家居使用體驗(yàn)的最優(yōu)化。
智能家居;多模態(tài);信息交互;交互設(shè)計(jì)
20世紀(jì)90年代初,美國聯(lián)合科技公司將建筑設(shè)備信息化、整合化概念應(yīng)用于首棟“智能型建筑”,由此揭開了智能家居設(shè)計(jì)的序幕。以家居環(huán)境為平臺(tái),利用控制技術(shù)、自動(dòng)化技術(shù)和信息交互技術(shù)的智能家居成為當(dāng)今家居生活的發(fā)展趨勢。
用戶、環(huán)境與智能家居之間的有效信息交互是智能家居設(shè)計(jì)的關(guān)鍵。智能家居通過相應(yīng)信息采集設(shè)備(如各類傳感器、攝像頭等)獲取用戶與環(huán)境信息,實(shí)時(shí)控制反饋以滿足用戶需求和應(yīng)對環(huán)境改變。當(dāng)前的智能家居主要依賴用戶通過觸控界面、語音或者手勢等單一控制模態(tài)的主動(dòng)輸出、系統(tǒng)被動(dòng)接收的方式獲取指令。這種交互方式限制了用戶在人機(jī)交互中的自然性需求,同時(shí)局限了智能家居系統(tǒng)在智能性上的潛力。因此,改變當(dāng)前智能家居被動(dòng)接收用戶單一模態(tài)信息輸入的舊模式,探索能夠主動(dòng)獲取、加工及反饋多模態(tài)信息的新模式,將為創(chuàng)造更加自然的智能家居交互體驗(yàn)提供可能。
現(xiàn)代腦科學(xué)研究中以“模態(tài)”通指感官及其相應(yīng)的神經(jīng)系統(tǒng)[1],感官模態(tài)包括視覺(眼睛)、聽覺(耳朵)、嗅覺(鼻子)、味覺(舌頭)、觸覺(皮膚)等“五覺”,以及其他如體覺、痛覺、癢覺、溫覺、內(nèi)臟覺、平衡覺等[2]?!澳B(tài)”被認(rèn)為是人類通過以上感官系統(tǒng)跟外部環(huán)境(人、機(jī)器、物件、動(dòng)物等)之間的互動(dòng)方式,上述“五覺”分別對應(yīng)視覺模態(tài)、聽覺模態(tài)、觸覺模態(tài)、嗅覺模態(tài)和味覺模態(tài)等互動(dòng)模態(tài)[3]。用單個(gè)感官進(jìn)行互動(dòng)叫單模態(tài),用2個(gè)感官進(jìn)行互動(dòng)叫雙模態(tài),用3個(gè)及以上叫多模態(tài)。一種感官對應(yīng)一種模態(tài),以視覺為例,眼睛和處理視覺信號(hào)的神經(jīng)系統(tǒng)組成一個(gè)視覺模態(tài)[4]。相應(yīng)的,多模態(tài)是指多個(gè)感覺器官和處理各自信號(hào)的神經(jīng)系統(tǒng)。
從信息交互的角度看,模態(tài)是交流的渠道和媒介。社會(huì)符號(hào)學(xué)派認(rèn)為模態(tài)是在社會(huì)文化中形成的創(chuàng)造意義的符號(hào)資源,是一種可被感知和闡釋的符號(hào)系統(tǒng),通常包括語言、圖像、聲音、空間和身體動(dòng)作等不同形式[5],主要以符號(hào)系統(tǒng)的數(shù)量來界定多模態(tài)話語。在信息傳遞中,混合使用聲音、圖像、顏色、動(dòng)作等不同形式的符號(hào)資源,這種多元意義呈現(xiàn)方式被稱為多模態(tài)[4]。語言學(xué)家Norris[6]指出,人類互動(dòng)具有多模態(tài)性。人際互動(dòng)通過人的語言、表情、身體姿勢、動(dòng)作及與人相關(guān)的空間距離、場景布局、音樂、物體等多元化模態(tài)信息的協(xié)同使用來進(jìn)行。
不同視角下,多模態(tài)研究的對象與方法各有不同,但其理論假設(shè)較為一致:一是多模態(tài)資源協(xié)同運(yùn)作以表達(dá)意義和完成動(dòng)作;二是每種模態(tài)資源或符號(hào)系統(tǒng)都有自己的組織系統(tǒng)。這為多模態(tài)人機(jī)交互的研究提供了基礎(chǔ)。
話語意義是由多種模態(tài)構(gòu)成、傳遞和解釋的,因此,人類交際中使用一種模態(tài)會(huì)同時(shí)觸動(dòng)使用另外一種或幾種模態(tài),例如使用口語交流時(shí),通常還涉及注視、手勢、身體姿勢、身體距離等。人機(jī)交互也是基于相同的思維方式,用戶向他人(包括計(jì)算機(jī))發(fā)出信息,準(zhǔn)確的話語意義往往是通過多種模態(tài)構(gòu)成和傳遞的,計(jì)算機(jī)系統(tǒng)需要能夠?qū)τ脩舻亩嗄B(tài)信息分解識(shí)別,并通過融合分析進(jìn)行用戶意圖的準(zhǔn)確把握。
單一模態(tài)的交互方式信息通量低,交互過程死板,難以滿足用戶自然交互的需求。增加人機(jī)互動(dòng)模態(tài)是目前人機(jī)交互的主要研究內(nèi)容之一。人機(jī)交互過程是一種多模態(tài)信息耦合交互的過程,涉及文字、圖像、語音、動(dòng)作等多種交互信息[7]。多模態(tài)人機(jī)交互就是人們使用多種感官模態(tài),通過多種物理媒介,與計(jì)算機(jī)等機(jī)器進(jìn)行多渠道、多形式的信息交互。例如仿真機(jī)器人讓機(jī)器像人一樣通過5種感官模態(tài)獲取信息,以人的認(rèn)知邏輯進(jìn)行信息采集[8]。對智能系統(tǒng)來說,多模態(tài)人機(jī)交互的根本是依靠智能系統(tǒng)類人腦的多模態(tài)功能,在多種智能感官系統(tǒng)的支撐下,通過多模態(tài)協(xié)同機(jī)制實(shí)現(xiàn)多元信息的采集、分析、理解與意義的構(gòu)建。
智能家居系統(tǒng)的感知與人的感官感知遵循相同的邏輯,給機(jī)器配上感官系統(tǒng)(即信息采集設(shè)備)從而模擬人的視覺、聽覺、觸覺等功能,通過手勢識(shí)別、語音識(shí)別、觸控界面等途徑進(jìn)行信息獲取。
2.1.1 智能系統(tǒng)與用戶交互
目前,智能家居系統(tǒng)與用戶的信息交互中,主要依賴用戶發(fā)出指令。用戶基于智能系統(tǒng)的信息采集方式選擇單一模態(tài)的輸入(如語音或者手勢等)向智能系統(tǒng)發(fā)出指令,智能系統(tǒng)通過麥克風(fēng)、攝像頭和不同類型的傳感器被動(dòng)地接收用戶指令,進(jìn)行分析與反饋。
以語音輔助界面交互為例,基于語音交互的智能系統(tǒng)包括3個(gè)部分,即輸入單元、處理單元和輸出單元,見圖1。第1部分,即智能交互輸入單元,當(dāng)用戶發(fā)出語音指令,輸入單元中的電子收音設(shè)備采集到語音信息,該信息將在語音模塊中轉(zhuǎn)化成文本信息。如果用戶同步通過軟鍵盤輸入信息,輸入單元的電子觸摸模塊通過其傳感器會(huì)采集相關(guān)文本信息;第2部分,智能交互處理單元的人工智能模塊接收到文本信息進(jìn)行分析,根據(jù)原有數(shù)據(jù)庫合成反饋信息;第3部分,智能交互輸出單元中的語音合成模塊接收到處理單元輸出的反饋信息,將文本數(shù)據(jù)轉(zhuǎn)化為語音數(shù)據(jù),再通過音頻輸出設(shè)備向用戶播放。
智能語音助手是智能家居最直接的信息交互載體之一。亞馬遜的Echo系列是家庭智能語音助手典型產(chǎn)品。在新一代產(chǎn)品升級中,亞馬遜在語音交互之外增加了觸摸屏幕與攝像頭,成為一個(gè)加入了圖像識(shí)別(攝像頭)和觸控交互(觸摸屏)的智能語音助手,讓用戶擁有了自由度更高的交互選擇,亞馬遜Echo多模態(tài)信息交互見圖2。
圖1 智能系統(tǒng)與用戶語音模態(tài)信息(輔以界面)交互流程
圖2 亞馬遜Echo系列家庭智能語音助手多模態(tài)信息交互
人臉識(shí)別也是目前智能家居中信息交互的重要模態(tài),人臉識(shí)別基于專用攝像機(jī)進(jìn)行主動(dòng)探測,基于動(dòng)態(tài)視頻流識(shí)別用戶身份,不需要用戶主動(dòng)配合,能快速精準(zhǔn)地識(shí)別人臉信息。
隨著互動(dòng)技術(shù)的發(fā)展,通過身體交互實(shí)現(xiàn)姿態(tài)智能控制,逐漸成為智能家居系統(tǒng)與用戶的主要交互方式。手勢的手型、運(yùn)動(dòng)、位置、方位等協(xié)同言語和其他身體行為在日常會(huì)話互動(dòng)中有效傳遞信息,表達(dá)意義。Alanwar等[9]面向智能家居環(huán)境,提出手勢控制智能手表SeleCon,該設(shè)備使用慣性傳感器進(jìn)行指向手勢檢測,可以實(shí)現(xiàn)84.5%的設(shè)備選擇準(zhǔn)確率和97%的手勢識(shí)別準(zhǔn)確率。此外,通過腦電、眼動(dòng)等信號(hào)讀取用戶意圖成為一種重要的智能系統(tǒng)信息交互手段。Alrajhi等[10]開發(fā)基于腦機(jī)接口(BCI)的智能家居系統(tǒng),通過Emotiv Epoc+檢測用戶的大腦信號(hào),讓四肢癱瘓的人僅使用大腦信號(hào)打開/關(guān)閉門,以減少對護(hù)理人員的需求。
2.1.2 智能系統(tǒng)與環(huán)境交互
目前,智能家居系統(tǒng)通過對環(huán)境中人的語音、體態(tài)、人臉信息,以及環(huán)境中的溫度、濕度、光照度、壓力等信息的主動(dòng)采集與分析進(jìn)行自動(dòng)化反饋。胡旭央等[11]研究智能家居場景中的睡眠場景,認(rèn)為對智能家居場景中的光線、溫度、濕度、氣味等氛圍要素,空間布局、規(guī)模、功能等空間要素,用戶社交、服務(wù)關(guān)系等社交要素,以及數(shù)據(jù)的輸入、輸出等數(shù)據(jù)要素的關(guān)聯(lián)設(shè)計(jì)十分重要,智能家居場景需要關(guān)注以上各方面的影響與相互作用,才能為用戶提供良好的體驗(yàn)。
智能家居系統(tǒng)通過各類傳感器和執(zhí)行器監(jiān)測、采集環(huán)境信息,通過分析環(huán)境數(shù)據(jù)的變化實(shí)現(xiàn)特定功能的控制。例如通過溫濕度傳感器、煙霧傳感器、光照傳感器等感知模塊進(jìn)行數(shù)據(jù)信息自動(dòng)采集。在基于AVR的智能家居系統(tǒng)中,當(dāng)溫濕度傳感器采集的溫度超過了預(yù)設(shè)的閾值后,系統(tǒng)將向執(zhí)行層的空調(diào)發(fā)送打開空調(diào)的命令以啟動(dòng)空調(diào);當(dāng)煙霧傳感器探測發(fā)現(xiàn)煙霧環(huán)境異常時(shí),系統(tǒng)將向通信模塊發(fā)出報(bào)警信息。系統(tǒng)的主控層對傳感層上傳的數(shù)據(jù)進(jìn)行分析及處理,然后向執(zhí)行層發(fā)送控制指令。各模塊的主要流程見圖3[12]。
2.2.1 智能家居自主交互
家庭環(huán)境有特殊的信息交互需求,用戶希望在家庭環(huán)境中獲得舒適、自然、安逸的生活狀態(tài),這需要智能家居設(shè)計(jì)中強(qiáng)化智能系統(tǒng)對用戶與環(huán)境信息的主動(dòng)獲取,以提供更自然、更友好的人機(jī)交互體驗(yàn)。
Rose等[13]提出物體具有“感知的自主性”,這是一種“部分來自人們認(rèn)為機(jī)器擁有和做的東西,部分來自被設(shè)計(jì)成機(jī)器的東西的屬性”。Karthik等[14]優(yōu)化智能系統(tǒng)任務(wù)分配方法,提出了新的任務(wù)分配技術(shù),智能系統(tǒng)主動(dòng)尋求任務(wù)分配來降低用戶負(fù)擔(dān),實(shí)現(xiàn)人機(jī)平等的伙伴型無縫協(xié)作。Philipp[15]等將光纖傳感器及壓電傳感器集成到家庭環(huán)境的木地板中,通過室內(nèi)定位、步數(shù)檢測、步態(tài)分析、運(yùn)動(dòng)分析等監(jiān)測住戶位置及步數(shù)信息,讓用戶在自然行走中無意識(shí)輸出信息,緊急事件發(fā)生時(shí)系統(tǒng)將自動(dòng)啟動(dòng)救援程序。Wu[16]等提出基于異構(gòu)傳感器數(shù)據(jù)的智能家居非參數(shù)活動(dòng)識(shí)別系統(tǒng),系統(tǒng)通過集成環(huán)境傳感器和體感傳感器的異構(gòu)數(shù)據(jù)來識(shí)別有意義的日常活動(dòng),無需用戶標(biāo)記參數(shù),減少了用戶負(fù)荷,實(shí)現(xiàn)適老服務(wù)。竇金花等[17]針對老年用戶的任務(wù)、時(shí)間、環(huán)境情境提出了主動(dòng)交互式語音用戶界面設(shè)計(jì),為老年用戶提供了更加自然、舒適的智能家居產(chǎn)品使用體驗(yàn)??婄娴萚18]對新中產(chǎn)人群生活情景特征進(jìn)行了分析,提出面向新中產(chǎn)人群生活情境的智能家居產(chǎn)品設(shè)計(jì)對策,認(rèn)為智能產(chǎn)品應(yīng)具備“學(xué)習(xí)”能力,能更好地自動(dòng)捕捉、記錄、適應(yīng)個(gè)體的行為習(xí)慣。
通過對相關(guān)工作的整理,不難看出,智能系統(tǒng)交互的主動(dòng)性是將來智能家居的發(fā)展方向之一。智能系統(tǒng)的主動(dòng)性本身又涵納多元問題,如前文所言,人的信息交互中,話語者需要借助多種模態(tài)信息來充分表達(dá)意圖。同樣,在智能家居的信息交互中,智能家居系統(tǒng)需要通過多元信息的獲取與分析,來實(shí)現(xiàn)對用戶意圖和環(huán)境變化的準(zhǔn)確判斷。
2.2.2 智能家居多模態(tài)信息交互需求
多模態(tài)是信息交互的理想狀態(tài),用戶與智能家居的交互,需要參考并利用大腦的多模態(tài)協(xié)同機(jī)制和人與外界的多模態(tài)交互規(guī)律,開發(fā)服務(wù)于人的“理想狀態(tài)”的相關(guān)技術(shù)。隨著智能技術(shù)的發(fā)展,智能家居與用戶及環(huán)境的信息交互必然走向“人(人工智能系統(tǒng))與人(用戶)”的多模態(tài)會(huì)話交互邏輯。
一般而言,智能家居環(huán)境中包含豐富的信息模態(tài),如語音、圖像、影像、手勢、體感等。智能家居對用戶與環(huán)境的多模態(tài)信息獲取,需要給機(jī)器配上感官系統(tǒng)(即匹配各種傳感設(shè)備)以模擬人的視覺、聽覺、觸覺等功能,通過語音模塊、界面控制、動(dòng)作捕捉,以及溫度、濕度等傳感器等進(jìn)行數(shù)據(jù)采集。智能系統(tǒng)作為居家會(huì)話中的參與方,需要協(xié)調(diào)多種傳感裝置、控制部件和相應(yīng)的信息處理系統(tǒng)同時(shí)工作,處理用戶和環(huán)境中的多模態(tài)信息。但是,現(xiàn)有的多模態(tài)信息交互系統(tǒng),僅通過不同模態(tài)信號(hào)識(shí)別特定的操作指令,將不同模態(tài)的指令進(jìn)行簡單的串聯(lián)與疊加。這種簡單的“信號(hào)時(shí)序疊加”方式,并未考慮多模態(tài)信號(hào)之間的信息互補(bǔ)及增強(qiáng)特性,相對復(fù)雜的系統(tǒng)設(shè)置需要用戶記憶大量新的操作規(guī)則,增加了用戶的認(rèn)知負(fù)荷[16]。
因此,智能家居對用戶需求的滿足與環(huán)境變化的回應(yīng),需要對現(xiàn)場話語狀況進(jìn)行盡可能全面的、真實(shí)的數(shù)據(jù)采集,通過多媒體介質(zhì)與多模態(tài)信息,力爭捕捉用戶與環(huán)境實(shí)時(shí)、完整的信息交互。在這方面,王江濤等[19]通過研究用戶的操作行為和認(rèn)知行為,獲取用戶對智能家居產(chǎn)品的功能和操作需求,提出基于用戶行為的設(shè)計(jì)研究方法,對提高智能家居產(chǎn)品可用性、降低用戶的認(rèn)知負(fù)荷有積極價(jià)值。
智能家居多模態(tài)信息交互基于多模態(tài)理論,將語言、圖像、聲音、動(dòng)作等多模態(tài)信息整合成為最有效的意義表達(dá),實(shí)現(xiàn)信息交互的準(zhǔn)確傳達(dá)和有效反饋。本研究提出一種具有多模態(tài)特性的智能家居信息交互新模式,并建立多模態(tài)智能家居信息交互框架。
真實(shí)世界中,多模態(tài)強(qiáng)調(diào)人作為主體通過身體和大腦調(diào)動(dòng)多個(gè)感官、通過多種媒體協(xié)同參與信息交互過程。而在智能家居信息交互中,智能家居系統(tǒng)被視作為“人”,通過多元傳感設(shè)備調(diào)動(dòng)智能系統(tǒng)“感官潛能”,獲取用戶及環(huán)境的多模態(tài)信息,促進(jìn)多模態(tài)信息理解、意義構(gòu)建與控制反饋。
在智能家居多模態(tài)信息交互中,包含對象、感官模態(tài)與解釋3個(gè)要素,即以用戶與環(huán)境為對象,以各種傳感設(shè)備和信息獲取硬件為感官模態(tài),對獲取對象多元化信息進(jìn)行智能融合與分析;按照3個(gè)步驟開展工作,即多模態(tài)信息獲取、多模態(tài)信息融合與推理、多模態(tài)信息反饋;這一流程性工作中,多模態(tài)交互技術(shù)按照互補(bǔ)、非互補(bǔ)的組合形式,共時(shí)、順時(shí)的時(shí)序方式組合2個(gè)及以上的輸入模式,借助多種非侵入式的傳感設(shè)備,識(shí)別天然形成的人類語言和行為,最后通過多模態(tài)智聯(lián)終端對用戶需求與環(huán)境變化主動(dòng)做出反饋?;谏鲜鏊悸?,結(jié)合多模態(tài)研究構(gòu)建了智能家居多模態(tài)信息交互模型,模型見圖4。
圖4 智能家居多模態(tài)信息交互模型
3.1.1 3個(gè)要素:對象、感官模態(tài)與解釋
1)智能家居的信息交互對象。在家庭環(huán)境中,智能系統(tǒng)的交互對象是家庭用戶與家庭環(huán)境的多符號(hào)信息輸出。用戶信息包括身體與非身體信息,身體信息是通過語音、手勢、面部識(shí)別、體感等方式輸出,非身體信息是通過用戶主動(dòng)的界面操作等方式輸出。環(huán)境信息方面包括可感知、可量化的變化,如溫度、濕度、亮度和人等因素。在智能家居信息交互中,提高用戶體驗(yàn)的路徑是使智能系統(tǒng)主動(dòng)尋求任務(wù)分配來降低用戶負(fù)擔(dān),也就是強(qiáng)化智能系統(tǒng)的信息獲取主動(dòng)性。在此條件下,用戶在遵循自然交互的身體邏輯下發(fā)出信息,相對隨機(jī)地選擇與組織多模態(tài)身體信息。用戶可能會(huì)發(fā)出無意識(shí)的指令,智能系統(tǒng)需主動(dòng)識(shí)別、采集,以此減少用戶信息交互負(fù)荷,實(shí)現(xiàn)用戶在智能家居控制方式上的自洽。
2)智能家居的感官模態(tài)。人可以同時(shí)運(yùn)用多種符號(hào)資源構(gòu)成多模態(tài)信息展開交互,環(huán)境也同步具有溫度、濕度等多維度數(shù)據(jù)變化。智能家居的多模態(tài)信息交互通過多感官感知,以及各種感覺系統(tǒng)間的聯(lián)覺來開展工作。通過特定感官模態(tài)系統(tǒng)獲取對應(yīng)感官信息,以視覺為例,視覺器官(攝像頭或視覺傳感器)加上處理視覺信號(hào)的分析系統(tǒng)組成一個(gè)視覺模態(tài)。智能家居與用戶及環(huán)境的一次信息交互過程中的感官模態(tài)可能是單一模態(tài)、或者是雙模態(tài)、多模態(tài)。例如用戶通過語音控制智能家居設(shè)備,但同時(shí)智能設(shè)備會(huì)獲取語音交互的用戶面部圖像信息,如用戶發(fā)出“播放歌曲”指令,智能設(shè)備同步識(shí)別該用戶面部信息,結(jié)合系統(tǒng)數(shù)據(jù)庫內(nèi)置用戶畫像,精準(zhǔn)推送該用戶喜好的歌曲。在對這些多模態(tài)信息處理的過程中,智能家居系統(tǒng)通過多感官接收信息,多元傳感與分析模塊同步工作,以多模態(tài)的感官系統(tǒng)形成多模態(tài)的信息交互。
3)智能系統(tǒng)對用戶和環(huán)境多模態(tài)信息的解釋。用戶的聲音、手勢、姿態(tài)、表情等多模態(tài)信息相互關(guān)聯(lián),以模態(tài)復(fù)合構(gòu)成意指。智能系統(tǒng)對用戶潛在意圖或顯性意圖的準(zhǔn)確反饋基于對用戶需求的準(zhǔn)確掌握。
一方面,用戶信息模態(tài)互涉,即不同模態(tài)信息之間意義的相互闡釋與呈現(xiàn)。智能系統(tǒng)需要根據(jù)模態(tài)互涉機(jī)制對獲取信息進(jìn)行解釋。對多模態(tài)信息的互涉解釋是目前智能交互技術(shù)的難點(diǎn)所在。目前能夠?qū)φZ音、文字和手勢信息進(jìn)行相對準(zhǔn)確的解釋。例如徐云平[21]通過語音識(shí)別硬件LD3320的語音識(shí)別特征庫直接、快速實(shí)現(xiàn)語音識(shí)別、聲控、人機(jī)對話功能;同步利用羅技B525攝像頭獲取手勢信息,應(yīng)用基于深度學(xué)習(xí)的手勢識(shí)別算法,將語音和手勢識(shí)別的智能系統(tǒng)應(yīng)用在智能分類垃圾桶設(shè)計(jì)上。其他模態(tài)信息的互涉以建構(gòu)相對完整的信息意義還有待持續(xù)研究。
另一方面,智能系統(tǒng)通過多模態(tài)信息的獲取實(shí)現(xiàn)對部分模態(tài)信息不完備的補(bǔ)充。用戶在智能家居使用中,日常生活自然行為存在語音、手勢、姿態(tài)等多模態(tài)信息不完備的情況。用戶日常行為中的多模態(tài)信息實(shí)際是高度整合的格式塔。在智能系統(tǒng)的多模態(tài)信息交互中語音信息句法結(jié)構(gòu)不完備的情況下,用戶身體的視覺信息作為替代與補(bǔ)充成分,協(xié)作構(gòu)建相對完整的信息。對于不同模態(tài)信息之間的補(bǔ)充與建構(gòu)關(guān)系需要借鑒語言學(xué)等學(xué)科成果。
3.1.2 智能家居多模態(tài)信息交互技術(shù)流程
對于面向用戶信息和環(huán)境信息的智能家居系統(tǒng),其多模態(tài)信息交互流程主要包括多模態(tài)信息獲取、多模態(tài)信息融合與推理、多模態(tài)信息反饋等3個(gè)階段,具體流程見圖5。
1)多模態(tài)信息獲取。智能家居系統(tǒng)通過傳感器、觸控屏、攝像頭、麥克風(fēng)等多種終端收集不同模態(tài)信息;其中,觸控屏以被動(dòng)形式獲取用戶輸入,傳感器、攝像頭和麥克風(fēng)則可以在用戶預(yù)先給予權(quán)限的前提下主動(dòng)采集用戶的姿態(tài)、手勢、表情、動(dòng)作以及語音等多種模態(tài)的信息。
2)多模態(tài)信息融合與推理。不同終端采集的信息可經(jīng)過不同的方式進(jìn)行處理。目前,在機(jī)器學(xué)習(xí)尤其是深度學(xué)習(xí)的推動(dòng)下,計(jì)算機(jī)視覺和自然語言處理領(lǐng)域都得到了空前的發(fā)展。因此,可應(yīng)用深度學(xué)習(xí)方法對攝像頭采集的圖像、視頻信息,以及麥克風(fēng)采集的語音信號(hào)進(jìn)行特征提取。若想讓不同模態(tài)的信息互相補(bǔ)充,則需要將不同模態(tài)的信息進(jìn)行融合。當(dāng)前基于Transformer的跨模態(tài)大模型可以有效地結(jié)合視覺、文本和語音信息,并處理跨模態(tài)任務(wù),如基于文本查詢的視頻中的動(dòng)作定位、自動(dòng)的視頻字幕生成等。因此可以應(yīng)用該模型對不同模態(tài)的信息進(jìn)行融合和基于多模態(tài)信息的推理。此部分任務(wù)均在智能分析模塊完成。智能分析模塊對多模態(tài)信息進(jìn)行整合處理,結(jié)合語料庫和知識(shí)庫的資源,將其轉(zhuǎn)變?yōu)楦兄?、記憶和行為,進(jìn)一步輸入智能控制模塊。
3)多模態(tài)信息反饋。智能控制模塊根據(jù)智能分析模塊的輸出,對用戶意圖及環(huán)境變化做出反饋。完成轉(zhuǎn)換的多模態(tài)信息將被編碼為智能家居系統(tǒng)的行為潛勢,進(jìn)入智能家居系統(tǒng)的控制模塊。在做出反饋時(shí)智能控制模塊會(huì)結(jié)合用戶的輸入模態(tài),以及用戶畫像決定信息反饋的模態(tài)和形式,實(shí)現(xiàn)符合用戶需求和家居環(huán)境變化的功能操作。
圖5 智能家居多模態(tài)信息交互技術(shù)流程
總體來說,智能家居系統(tǒng)的智能感官模塊各司其職,將各自獲取到的信息進(jìn)行分揀、過濾、轉(zhuǎn)換等處理,智能分析處理模塊對獲取的多模態(tài)信息進(jìn)行特征提取、整合和分析,智能控制模塊根據(jù)處理結(jié)果實(shí)施相應(yīng)操作。這一過程類似于人類的中樞神經(jīng)系統(tǒng)把感官系統(tǒng)接收的多模態(tài)信息整合起來,經(jīng)過分析然后輸出對用戶意圖及環(huán)境變化的行為反饋。
多模態(tài)智能家居系統(tǒng)的信息交互方式涉及基于多模態(tài)智聯(lián)終端的信息采集、多模態(tài)信息資源整合、多模態(tài)信息特征提取、多模態(tài)行為互動(dòng)、多模態(tài)評估等領(lǐng)域。利用多媒體技術(shù),接入傳感器、觸控屏、攝像頭、麥克風(fēng)等多種模態(tài)的智聯(lián)終端,實(shí)現(xiàn)多種軟硬件設(shè)備間的無縫互聯(lián)、協(xié)同工作,構(gòu)建智能家居環(huán)境中多模態(tài)信息交互、多通道融合互補(bǔ)的多模態(tài)反饋運(yùn)行機(jī)制。例如,針對用戶的語言邏輯做出準(zhǔn)確有效的回答,并且還能給予用戶在視覺、聽覺、體感等多維度的反饋,使人機(jī)交互更加自然,交互信息更加豐富,交互結(jié)果更加準(zhǔn)確。
3.1.3 智能家居多模態(tài)感知系統(tǒng)的組合形式
在智能家居多模態(tài)信息交互中,不同模態(tài)感官系統(tǒng)以互補(bǔ)、非互補(bǔ)的結(jié)合形式,共時(shí)、順時(shí)等時(shí)序方式進(jìn)行組合,借助多種非侵入式的傳感器,識(shí)別人類語言、行為和環(huán)境變量。
從用戶交際活動(dòng)的多模態(tài)方式來說,需要借助另一種模態(tài)來對主要模態(tài)信息進(jìn)行補(bǔ)充,以實(shí)現(xiàn)意義的充分表達(dá),這是模態(tài)之間的“互補(bǔ)關(guān)系”,而其他的則是非互補(bǔ)關(guān)系[22]。互補(bǔ)的模態(tài)可以實(shí)現(xiàn)信息傳達(dá)中的強(qiáng)化,一種模態(tài)是主要的交際形式,而另一種或者多種形式是對它的強(qiáng)化、補(bǔ)充和擴(kuò)展。基于強(qiáng)化目的的感官模態(tài)主次組合形式,智能家居以一種模態(tài)的感知系統(tǒng)獲取主要模態(tài)信息,同時(shí)借助另一種模態(tài)感知系統(tǒng)獲取次要模態(tài)信息,消除單一模態(tài)信息帶來的不確定性,增強(qiáng)對信息判斷的準(zhǔn)確性。
非互補(bǔ)關(guān)系表示智能家居的第2種模態(tài)感官系統(tǒng)對第1種在意義的獲取上并無特殊貢獻(xiàn),但仍作為一種模態(tài)出現(xiàn)。例如,通過語音就達(dá)到信息交互目的,但同時(shí)通過界面顯示交互信息,界面的補(bǔ)充并沒有在信息內(nèi)容上進(jìn)行增減,沒有對語音信息做出明顯補(bǔ)充或強(qiáng)化,也沒有對語音信息造成干擾。但一定程度上可以向用戶進(jìn)行語音信息交互有效性的可視化確認(rèn)。
此外,從模態(tài)出現(xiàn)順序的層面,Norris[23]提出,在進(jìn)行多模態(tài)信息交互時(shí),信息模態(tài)結(jié)合形式有多模態(tài)共時(shí)、多模態(tài)順時(shí)等方式。應(yīng)對用戶意圖及環(huán)境變化信息的多種模態(tài),智能家居也以共時(shí)和順時(shí)的時(shí)序方式組織多模態(tài)感官系統(tǒng)。幾種模態(tài)的感官系統(tǒng)可以同時(shí)開啟信息獲取與分析,例如界面交互時(shí)可以包括手勢、壓力、圖形等幾種不同的模態(tài)感知;也可以按順序進(jìn)行,一種模態(tài)感官系統(tǒng)的信息獲取與分析工作結(jié)束則另一種模態(tài)的感官系統(tǒng)開始工作,例如語音開機(jī)后,通過界面進(jìn)行細(xì)化控制。
3.2.1 智能家居系統(tǒng)狀態(tài)
通過多模態(tài)感官系統(tǒng)從多種信息通道收集用戶和環(huán)境多方面的行為數(shù)據(jù)和結(jié)果數(shù)據(jù),實(shí)現(xiàn)了智能家居系統(tǒng)的主動(dòng)性、交感化信息獲取和情境化的信息分析與反饋。
3.2.1.1 信息的主動(dòng)采集與交感化獲取
一方面,在傳統(tǒng)的智能家居使用中,用戶只能通過語音、界面等單向度的信息輸出方式向智能系統(tǒng)發(fā)出指令,在多模態(tài)智能交互場景下,智能家居系統(tǒng)對用戶和環(huán)境的行為及結(jié)果數(shù)據(jù)主動(dòng)采集,融合分析,并提供多元反饋,實(shí)現(xiàn)智能系統(tǒng)對用戶意圖與環(huán)境變化的主動(dòng)感知。智能家居系統(tǒng)中的多模態(tài)感官系統(tǒng)高度分類細(xì)化與自動(dòng)化,依托專門系統(tǒng)執(zhí)行對不同模態(tài)信息的處理。
另一方面,智能家居通過交感化方式獲取用戶與環(huán)境信息。智能家居系統(tǒng)在接受任務(wù)后,會(huì)將其分配至某個(gè)任務(wù)模塊進(jìn)行處理。當(dāng)面臨復(fù)雜問題或任務(wù)時(shí),某個(gè)交互任務(wù)涉及多個(gè)模態(tài)的信息,需要系統(tǒng)選取多個(gè)路徑,在處理加工時(shí)在多個(gè)模態(tài)中開展協(xié)同,將任務(wù)分配給多個(gè)子任務(wù)處理模塊同時(shí)處理、計(jì)算,從而共同完成這一交互任務(wù)。例如在生活場景中,用戶的聽覺(語音)信號(hào)和視覺(身勢)信號(hào)同時(shí)啟動(dòng),智能系統(tǒng)就需要同步感知、獲取用戶的語音與姿態(tài)信息,進(jìn)行輸入、分析,在這一過程中系統(tǒng)要關(guān)注不同模態(tài)信息之間的相互關(guān)聯(lián)性和互涉性,感官形態(tài)交融,使對用戶與環(huán)境信息的解讀更加全面與準(zhǔn)確。
3.2.1.2 信息的情境化分析
多模態(tài)智能家居信息交互把語言、圖像、手勢、顏色、環(huán)境等符號(hào)系統(tǒng)結(jié)合起來,從整體的角度分析各類信息所組成的話語意義,對用戶和環(huán)境的理解借助對不同模態(tài)信息的元功能和組合形式等進(jìn)行采集與分析,解讀各種模態(tài)信息及其變化構(gòu)成的意義。通過多模態(tài)信息的融合分析,理解用戶情境,根據(jù)情境進(jìn)行需求判斷,提供低誤差、一體化的服務(wù)反饋控制。
未來,5G技術(shù)將促進(jìn)全息技術(shù)、高清晰視頻、VR/AR、物聯(lián)網(wǎng)技術(shù)、人機(jī)交互多樣形態(tài)的融合,為多模態(tài)融合的智能家居信息交互創(chuàng)造條件,使意義表征和信息交流更加多模態(tài)化,使多模態(tài)信息融合交互更加便捷,為多終端互通互聯(lián)提供傳輸條件,推進(jìn)更加智能化的多模態(tài)家居服務(wù)。
3.2.2 用戶與環(huán)境狀態(tài)
在多模態(tài)智能家居信息交互中,與傳統(tǒng)交互模式相比較,智能系統(tǒng)自主性提升,用戶投入適宜家庭環(huán)境的交互行為,信息交互更加自然,交互過程認(rèn)知負(fù)荷降低。
1)多維度信息。家庭環(huán)境中,用戶基于日常生活習(xí)慣開展活動(dòng),多模態(tài)的智能家居信息交互滿足用戶自然、無意識(shí)的信息輸出。智能家居在交互過程中積極、持續(xù)地投入多模態(tài)感官狀態(tài),通過隱式傳感設(shè)備的一體性聯(lián)動(dòng)與多模態(tài)信息融合分析,使智能系統(tǒng)使用多種模態(tài)感官設(shè)備對用戶和環(huán)境數(shù)據(jù)進(jìn)行持續(xù)監(jiān)測和跟蹤,對人們?nèi)粘I钪械淖匀恍袨檫M(jìn)行多維度采集、分析與融合,并提供反饋,更符合人的自然交互特征。
2)多用戶交互。智能家居交互涉及多名用戶。在智能家居系統(tǒng)使用中,多設(shè)備、多模態(tài)、多用戶交互的復(fù)雜關(guān)系涉及行為參與、社會(huì)關(guān)系等維度,需要綜合用戶的外顯行為和內(nèi)隱心理等多維數(shù)據(jù)來表征其狀態(tài)。此時(shí)單一模態(tài)信息不足以使智能系統(tǒng)充分讀解特定用戶需求,多模態(tài)滿足智能家居系統(tǒng)對特定用戶多維信息分析基礎(chǔ)上的準(zhǔn)確反饋。
3)時(shí)序性投入。智能家居使用過程中,用戶的投入狀態(tài)會(huì)隨時(shí)間發(fā)生變化。智能家居系統(tǒng)通過共時(shí)及順時(shí)的時(shí)序方式,通過多模態(tài)感官系統(tǒng)全時(shí)關(guān)注用戶在使用過程中的活動(dòng)順序、行為特征、心理和生理數(shù)據(jù),在時(shí)間序列上研究其動(dòng)態(tài)變化,分析出用戶和環(huán)境軌跡化、時(shí)序化特征,基于智能分析技術(shù),為用戶及環(huán)境提供基于數(shù)據(jù)動(dòng)態(tài)變化的持續(xù)反饋。
3.2.3 智能家居多模態(tài)數(shù)據(jù)庫、語料庫構(gòu)建
智能家居系統(tǒng)在用戶使用中建立基于特定用戶、特定環(huán)境的多模態(tài)語料庫,對信息交互中采集到的語音、姿態(tài)、人臉等用戶信息,以及環(huán)境空間、溫度、濕度、亮度、聲音分貝等環(huán)境信息進(jìn)行分析與集成,并建立以多模態(tài)方式加工、檢索和統(tǒng)計(jì)的多模態(tài)信息語料庫,便于后續(xù)持續(xù)性地調(diào)用與語料處理,對應(yīng)特定用戶需求的數(shù)據(jù)匹配,滿足與特定用戶及環(huán)境持續(xù)的、準(zhǔn)確的信息交互。在這方面,Sandra等[24]提出了一種用于家庭環(huán)境中設(shè)備管理的自動(dòng)化系統(tǒng),能夠管理所有電器,服務(wù)器接收和發(fā)送的所有數(shù)據(jù)都存儲(chǔ)在數(shù)據(jù)庫中,通過系統(tǒng)配備的智能算法檢查、比較、分析相關(guān)數(shù)據(jù),輔助系統(tǒng)進(jìn)行設(shè)備管理。在多模態(tài)語料庫構(gòu)建上,國內(nèi)外學(xué)者把人與外界的多模態(tài)互動(dòng)作為重要的數(shù)據(jù)來源,在語料采集、加工、標(biāo)注、分析框架和工具研發(fā)等方面形成了諸多成果[22],這些成果對于視聽識(shí)別系統(tǒng)、人機(jī)智能對話等都具有重要意義,可作為智能家居設(shè)計(jì)中多模態(tài)信息交互的數(shù)據(jù)包使用。
智能家居多模態(tài)信息交互在相對復(fù)雜、動(dòng)態(tài)的家庭環(huán)境活動(dòng)中開展,智能家居設(shè)計(jì)中,通過分析用戶與環(huán)境多模態(tài)信息的注意度、模態(tài)密度和模態(tài)結(jié)構(gòu)的配置,能夠厘清多模態(tài)信息交互中模態(tài)的數(shù)量、重要性和模態(tài)之間關(guān)系等問題。
在實(shí)際的家居環(huán)境中,存在多樣復(fù)雜的事件和行為,智能家居系統(tǒng)需要對用戶需求指令精準(zhǔn)識(shí)別,這就需要對復(fù)雜環(huán)境中不同模態(tài)信息給予不同程度的注意。智能家居系統(tǒng)內(nèi)置傳感設(shè)備運(yùn)行中要對環(huán)境中不同模態(tài)信息進(jìn)行前景、中景和背景的分層感知,并給予不同的注意程度,“注意的焦點(diǎn)是前景高層活動(dòng),對中景、背景活動(dòng)分配的注意力依次遞減”[22]。例如在復(fù)雜的環(huán)境音中迅速過濾環(huán)境音,甄別出用戶指令語音;能夠在多個(gè)用戶中迅速識(shí)別發(fā)出指令的用戶,并對用戶需求做出即時(shí)反饋。
此外,在家庭環(huán)境中,轉(zhuǎn)頭、手指或手掌敲擊、注視轉(zhuǎn)移等動(dòng)作常被設(shè)定為預(yù)置動(dòng)作,參與到交互過程。這些預(yù)置動(dòng)作常出現(xiàn)在正式的交互行為之前,對正式指令發(fā)出起著組織和調(diào)節(jié)的作用,是標(biāo)示正式指令模態(tài)信號(hào)的轉(zhuǎn)換信號(hào),正如在人和人的交流中,這些轉(zhuǎn)換信號(hào)往往能夠影響互動(dòng)的對方,引起“聽話者”的注意。在用戶與智能家居的交互中,這些信號(hào)與用戶指令內(nèi)容無關(guān),沒有具體指向,但能控制智能系統(tǒng)注意或感知的焦點(diǎn),因此智能家居系統(tǒng)對用戶行為指令之前的預(yù)置動(dòng)作進(jìn)行習(xí)得性認(rèn)知也是必要的。
模態(tài)密度可以體現(xiàn)為模態(tài)強(qiáng)度和模態(tài)復(fù)雜度2種形式[22]。模態(tài)強(qiáng)度是指一種模態(tài)在互動(dòng)過程中的重要性或權(quán)重,在互動(dòng)中發(fā)揮主要作用的模態(tài)就是高強(qiáng)度模態(tài)。當(dāng)高強(qiáng)度模態(tài)被停止或改變時(shí),由其映射的用戶需求信息或環(huán)境變化信息也隨之停止或改變。此外,在互動(dòng)過程中一種模態(tài)的強(qiáng)度、權(quán)重或重要性取決于使用情境變化和用戶活動(dòng)環(huán)境變化等諸多因素。例如白天用戶對智能家居的控制通過語音進(jìn)行,夜間為了避免語音干擾,停止使用語音,轉(zhuǎn)而使用界面控制。模態(tài)強(qiáng)度與智能系統(tǒng)對復(fù)雜環(huán)境中不同模態(tài)信息的注意程度呈正相關(guān),智能家居信息交互設(shè)計(jì)中需要甄別不同情境、用戶群的高強(qiáng)度模態(tài)信息,據(jù)此采用適應(yīng)性的多模態(tài)智能交互技術(shù)。
模態(tài)復(fù)雜度是指共同完成交互的信息模態(tài)數(shù)量和組織方式。智能系統(tǒng)的多模態(tài)感知系統(tǒng)需以共時(shí)、順時(shí)等形式進(jìn)行組織,模態(tài)復(fù)雜度與智能家居系統(tǒng)的傳感設(shè)備數(shù)量及布局成正相關(guān)。多種模態(tài)信息共同完成交互時(shí),一種模態(tài)的變化不會(huì)引起交互活動(dòng)的突然改變,例如借助體感、語音等多模態(tài)信息進(jìn)行的家庭游戲系統(tǒng),用戶使用語音、注視、手勢、物體操作、姿態(tài)等多種模態(tài),系統(tǒng)本身對用戶多模態(tài)信息有綜合識(shí)別的設(shè)置,停止或改變使用其中任何一種模態(tài),不會(huì)直接改變游戲路徑。
由于不同模態(tài)信息在交互中共存的復(fù)雜性,智能家居設(shè)計(jì)中要結(jié)合用戶與產(chǎn)品類型進(jìn)行模態(tài)結(jié)構(gòu)配置。
在多模態(tài)交互中,每種模態(tài)作用不同。結(jié)合智能家居產(chǎn)品應(yīng)用場景、目標(biāo)用戶與產(chǎn)品類型進(jìn)行判斷,標(biāo)注在此產(chǎn)品多模態(tài)交互中的不同模態(tài)強(qiáng)度,界定每種模態(tài)在互動(dòng)過程中的重要程度,據(jù)此進(jìn)行相應(yīng)的多模態(tài)信息交互系統(tǒng)設(shè)計(jì)。
Norris[25]認(rèn)為可以通過回答以下3點(diǎn)來確定信息交互中的模態(tài)配置:哪些模態(tài)是必需的;哪種模態(tài)比其他模態(tài)更重要;哪些模態(tài)不是必需的但活動(dòng)者仍然在使用。智能家居多模態(tài)信息交互中的模態(tài)結(jié)構(gòu)配置需要結(jié)合用戶及環(huán)境變化,據(jù)此分析模態(tài)的組成和模態(tài)之間關(guān)系,確定由哪些模態(tài)參與相關(guān)的信息交互,以及相對應(yīng)的智能家居多模態(tài)感知系統(tǒng)以何種組合方式布局。
多模態(tài)的研究在語言學(xué)、計(jì)算機(jī)科學(xué)中處于熱潮,其方法和理論在智能家居多模態(tài)交互方面有重要的參考和應(yīng)用價(jià)值。在多模態(tài)傳感及交互技術(shù)發(fā)展下,智能家居多模態(tài)信息交互基于多模態(tài)感知系統(tǒng),對用戶與環(huán)境數(shù)據(jù)信息進(jìn)行實(shí)時(shí)動(dòng)態(tài)采集,為實(shí)現(xiàn)多模態(tài)的用戶需求反饋提供數(shù)據(jù)支持,在多模態(tài)信息融合分析基礎(chǔ)上開展精準(zhǔn)決策和調(diào)控。隨著人工智能技術(shù)與5G等移動(dòng)通信網(wǎng)絡(luò)的進(jìn)一步發(fā)展,智能家居多模態(tài)信息交互將會(huì)變得更為人性化,更好地服務(wù)于家庭應(yīng)用場景。
[1] KOLB B, WHISHAW I Q. Fundamentals of Human Neuropsychology[M]. New York: Worth Publishers, 2005:135.
[2] KANDEL E, JAMES H, THOMAS M, STEVEN A. Principles of Neural Science[M]. New York: The McGraw-Hill Companies, Inc, 2013:449.
[3] 朱永生. 多模態(tài)話語分析的理論基礎(chǔ)與研究方法[J]. 外語學(xué)刊, 2007(5): 82-86.
ZHU Yong-sheng. Theory and Methodology of Multimodal Discourse Analysis[J]. Foreign Language Research, 2007(5): 82-86.
[4] 顧日國. 多模態(tài)感官系統(tǒng)與語言研究[J]. 當(dāng)代語言學(xué), 2015, 17(4): 448-469.
GU Ri-guo. Multimodal Sensory System and Language Research[J]. Contemporary Linguistics, 2015, 17(4): 448-469.
[5] KRESS G,LEEUWEN V T. Reading Images: The Gram--mar of Visual Design[M]. London: Routledge, 2006: 22.
[6] NORRIS S. Analyzing Multimodal Interaction[M]. New London: Routledge, 2004.
[7] 王黨校, 鄭一磊, 李騰, 等. 面向人類智能增強(qiáng)的多模態(tài)人機(jī)交互[J]. 中國科學(xué): 信息科學(xué), 2018, 48(4): 449-465.
WANG Dang-xiao, ZHENG Yi-lei, LI Teng, et al. Multi-Modal Human-Machine Interaction for Human Intelligence Augmentation[J]. Scientia Sinica (Informationis), 2018, 48(4): 449-465.
[8] 顧曰國. 多模態(tài)感官系統(tǒng): 天官、仿人機(jī)器人、“修辭即做人”新釋[J]. 當(dāng)代修辭學(xué), 2019(5): 48-67.
GU Yue-guo. Multimodality and Rhetoric: From Xunzi, Aristotle, TCM, Empiricism, Humanoid to Man[J]. Contemporary Rhetoric, 2019(5): 48-67.
[9] ALANWAR A, ALZANTOT M, HO B J. SeleCon: Scalable IoT Device Selection and Control Using Hand Gestures[C]// Proceedings of the Second International Conference on Internet-of-Things Design and Implementation. Pittsburgh PA: ACM, 2017: 47-58.
[10] Alrajhi W, Alaloola D, Albarqawi A. Smart Home: Toward Daily Use of Bci-based Systems[C]// 2017 International Conference on Informatics, Health & Technology (ICIHT). Riyadh: IEEE, 2017: 1-5.
[11] 胡旭央, 張寒凝. 以睡眠場景為例的智能家居場景模型構(gòu)建研究[J]. 包裝工程, 2021, 42(10): 124-129.
HU Xu-yang, ZHANG Han-ning. Construction of Smart Home Scene Model Taking Sleep Scene as a Case[J]. Packaging Engineering, 2021, 42(10): 124-129.
[12] 張偉, 王宜懷. 基于AVR的智能家居系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J]. 計(jì)算機(jī)技術(shù)與發(fā)展, 2022, 32(3): 209-213.
ZHANG Wei, WANG Yi-huai. Design and Implementation of Smart Home System Based on AVR[J]. Computer Technology and Development, 2022, 32(3): 209-213.
[13] ROSE J, TRUEX D. Machine Agency as Perceived Autonomy: An Action Perspective[M]. Boston: Sprin-ger, 2000: 371-388.
[14] MAHADEVAN K, SOUSA M, TANG A. "Grip-that- there": An Investigation of Explicit and Implicit Task Allocation Techniques for Human-Robot Collabora-tion[C]// Proceedings of the 2021 CHI Conference on Human Factors in Computing Systems. Yokohama: ACM, 2021.
[15] LEUSMANN P, MOLLERING C, KLACK L. Your Floor Knows Where You Are: Sensing and Acquisition of Movement Data[C]// 2011 IEEE 12th International Conference on Mobile Data Management. Lulea: IEEE, 2011.
[16] WU Chao-lin, CHEN Y H, CHIEN Yi-wei, et al. Nonparametric Activity Recognition System in Smart Homes Based on Heterogeneous Sensor Data[J]. IEEE Transactions on Automation Science and Engineering, 2019, 16(2): 678-690.
[17] 竇金花, 齊若璇. 基于情境分析的適老化智能家居產(chǎn)品語音用戶界面設(shè)計(jì)策略研究[J]. 包裝工程, 2021, 42(16): 202-210.
DOU Jin-hua, QI Ruo-xuan. Elderly-Adaptability Voice User Interface Design Strategy of Smart Home Products Based on Context Analysis[J]. Packaging Engineering, 2021, 42(16): 202-210.
[18] 繆珂, 肖亦奇, 施斌. 新中產(chǎn)生活情境下智能家居產(chǎn)品設(shè)計(jì)策略研究[J]. 包裝工程, 2021, 42(18): 410-415.
MIAO Ke, XIAO Yi-qi, SHI Bin. The Research of Smart Home Products' Design Strategies under the Guidance of New-Middle Class' Life ContextFull Text Replacement[J]. Packaging Engineering, 2021, 42(18): 410-415.
[19] 王江濤, 何人可. 基于用戶行為的智能家居產(chǎn)品設(shè)計(jì)方法研究與應(yīng)用[J]. 包裝工程, 2021, 42(12): 142-148.
WANG Jiang-tao, HE Ren-ke. Research and Application of Design Method of Smart Home Products Based on User Behavior[J]. Packaging Engineering, 2021, 42(12): 142-148.
[20] 牛紅偉, 郝佳, 曹貝寧, 等. 面向產(chǎn)品概念設(shè)計(jì)的多模態(tài)智能交互框架及實(shí)現(xiàn)[J/OL]. 計(jì)算機(jī)集成制造系統(tǒng), 2022: 1-22. (2022-02-25)[2022-02-28]. https://kns. cnki.net/kcms/detail/11.5946.TP.20220224.0913.002.html.
NIU Hong-wei, HAO Jia, CAO Bei-ning, et al. Multimodal Intelligent Interaction Framework and Realization for Product Conceptual Design[J/OL]. Computer Inte-grated Manufacturing Systems, 2022: 1-22. (2022- 02-25) [2022-02-28]. https://kns.cnki.net/kcms/detail/ 11.5946.TP.20220224.0913.002.html.
[21] 徐云平. 基于語音識(shí)別的智能分類垃圾桶[J]. 電子測試, 2022(1): 23-25.
XU Yun-ping. Smart Classification Dustbin Based on Speech Recognition[J]. Electronic Test, 2022(1): 23-25.
[22] 張德祿. 多模態(tài)話語分析綜合理論框架探索[J]. 中國外語, 2009, 6(1): 24-30.
ZHANG De-lu. On a Synthetic Theoretical Framework for Multimodal Discourse Analysis[J]. Foreign Languages in China, 2009, 6(1): 24-30.
[23] NORRIS S. Identity in (Inter)action: Introducing Multimodal Interaction Analysis[M]. New York: Mouton de Gruyter, 2011: 48-50.
[24] SENDRA S, LABORDA A, DíAZ J, et al. A Smart Bluetooth-Based Ad Hoc Management System for Appliances in Home Environments[C]// International Conference on Ad-Hoc Networks and Wireless. Springer International Publishing. Heidelberg: Springer-Verlag, 2014: 128–141.
[25] NORRIS S. Modal Density and Modal Configurations: Multimodal Actions[C]// Routledge Handbook for Multimodal Discourse Analysis. London: Routledge, 2009.
Smart Home Design Based on Multimodal Information Interaction
MA Xiao-na1, ZHANG Yu-xin1, YU Qian2
(a.School of New Media Art and Design b. School of Software, Beihang University, Beijing 100191, China)
Aiming at the problem that a single smart home interaction mode based on interface and voice hinders the user's natural experience, this paper explores a smart home design method based on multimodal information interaction to achieve a more natural and friendly user experiences of smart homes. Based on the multi-modal natural interaction characteristics of user daily life, this paper explores a smart home information interaction mode characterized by multimodality, constructs a multimodal information interaction design framework for smart home, and analyzes the elements, interaction process, modal organization, attention of multimodal information, modal density, modal structure configuration, etc. The multimodal information interaction of smart home realizes the initiative, sympathetic information acquisition and contextualized information analysis and feedback of the smart home system, which can improve the autonomy of the intelligent system, reduce the cognitive load of the user interaction process, and achieve a more natural, friendly user experience. In general, the smart home environment needs to change the traditional single human-machine system information interaction mode, and promote the optimization of the smart home use experience with multimodal information interaction.
smart home; multimodal; information interaction; interaction design
TB472
A
1001-3563(2022)16-0059-09
10.19554/j.cnki.1001-3563.2022.16.006
2022–03–08
北京航空航天大學(xué)2022年度人文社科青年骨干支持項(xiàng)目
馬曉娜(1985—),女,博士,助理教授,主要研究方向?yàn)榻徊鎸W(xué)科創(chuàng)新設(shè)計(jì)。
于茜(1991—),女,博士,副研究員,主要研究方向?yàn)橛?jì)算機(jī)視覺。
責(zé)任編輯:陳作