孫曉楓,趙新軍,呂春梅,張義民
(1.東北大學(xué),遼寧 沈陽110819;2.沈陽化工大學(xué),遼寧 沈陽110142)
因?yàn)榉先说慕换ツJ剑嗤ǖ澜换ィ╩ulti-modal humancomputer interaction,MMHCI)被認(rèn)為是更為自然的人機(jī)交互方式[1],是未來人機(jī)交互的發(fā)展方向。多通道人機(jī)自然交互涉及到人的五感中視覺、聽覺、觸覺、味覺、嗅覺的感知體驗(yàn),而且多通道的人機(jī)自然交互并非是各個(gè)通道疊加,而是各個(gè)感知體驗(yàn)直接的互動(dòng)。多通道人機(jī)自然交互與傳統(tǒng)的單一通道人機(jī)交互方式相比,能夠更加精準(zhǔn)、有效地實(shí)現(xiàn)人機(jī)對話,有效提升用戶的交互體驗(yàn)。
近年來,隨著科技的發(fā)展,新涌現(xiàn)的單通道認(rèn)知感知技術(shù),如語音識(shí)別[2]、人臉識(shí)別[3]、情感理解[4]、動(dòng)態(tài)手勢[5]、觸覺等隨著技術(shù)的進(jìn)步更加趨向成熟,這也使得單一通道的人機(jī)交互性能得到了快速的提升。
隨著人工智能、虛擬現(xiàn)實(shí)等技術(shù)的進(jìn)步以及人們對于人機(jī)交互體驗(yàn)追求的提升等,單一通道人機(jī)交互已經(jīng)難以滿足人們對于精準(zhǔn)和完美交互體驗(yàn)的追求,而多通道人機(jī)自然交互能夠?qū)崿F(xiàn)人們各感官體驗(yàn)的融合,提升人的交互體驗(yàn)感受,具有更大的應(yīng)用潛力,被廣泛應(yīng)用在虛擬實(shí)驗(yàn)室,如谷歌的Google Daydream Labs、阿里巴巴的VR實(shí)驗(yàn)室gnomemagic lab。
多通道人機(jī)自然交互是基于眼動(dòng)追蹤、語音識(shí)別、手勢輸入、感覺反饋等新的交互技術(shù),利用多個(gè)感覺通道和效應(yīng)通道的并行、協(xié)作與計(jì)算機(jī)進(jìn)行交互[6],力求將“人機(jī)交互”演變?yōu)椤叭巳私换ァ保岣呷藱C(jī)交互的高效性和自然性。多通道人機(jī)自然交互的實(shí)現(xiàn)離不開人類視覺、聽覺、觸覺、味覺和嗅覺等各感官的相互關(guān)聯(lián)和作用,而人類五感中視覺和聽覺是人類認(rèn)知世界的最的重要感官。有關(guān)研究表明,人們所接收的信息中有97%來源于視覺和聽覺,這其中視覺提供了大約(80~90)%外界信息。所以,充分利用視覺和聽覺的聯(lián)覺關(guān)聯(lián),將其融合于多通道人機(jī)自然交互中,這里探討的便是視覺、聽覺之間的關(guān)聯(lián)作用以及其作用于人的感受。
目前,許多學(xué)者對視覺與聽覺之間的聯(lián)覺現(xiàn)象進(jìn)行了研究。Marks研究了視覺和聽覺的某些特征之間的對應(yīng)關(guān)系,證實(shí)較高音高和較大聲音與較淺的顏色相關(guān)。[7]Palmer(Palmer et al,2013)使用顏色代替顏色詞,并證明音樂和顏色之間強(qiáng)大的交叉模態(tài)匹配是由情感聯(lián)想調(diào)節(jié)的。[8]Henrik Hagtvedt和S.Adam Brasel的研究證明了聲音頻率和顏色亮度之間的聯(lián)合交叉模態(tài)對應(yīng)可以引導(dǎo)視覺注意:高頻(低頻)聲音將視覺注意力引向淺色(深色)物體[9]。視覺聽覺之間的聯(lián)覺現(xiàn)象的研究促進(jìn)了其在各個(gè)方面的應(yīng)用。比如音樂教育、創(chuàng)新、購物、界面設(shè)計(jì)、虛擬現(xiàn)實(shí)等等。Pepelea,R發(fā)現(xiàn)音樂媒體的色彩視覺解釋基于額外的音樂想象發(fā)展出特定的創(chuàng)造力。[10]HENRIK HAGTVEDT研究了通過改變超市貨架上的燈光亮度會(huì)影響購物者對物品的選擇:即使實(shí)驗(yàn)人員提示客戶較暗貨架上的物品的品質(zhì)更好,客戶在處于高頻率(相對低頻率)音樂的環(huán)境中仍然更可能從具有裝飾明亮(相對于灰暗)的貨架上挑選產(chǎn)品。[11]
目前關(guān)于聽覺與視覺之間的聯(lián)覺研究結(jié)果主要集中聲音的頻率等元素與色彩的色相、明度、飽和度之間的關(guān)系,研究的重點(diǎn)也主要集中在聲音與單一色彩的各元素的對應(yīng)關(guān)系,缺少聲音對于不同色彩組合影響。就目前人機(jī)交互界面的設(shè)計(jì)主流以及未來發(fā)展的趨勢而言,色彩和聲音組合占據(jù)非常大的比重,所以設(shè)計(jì)視聽關(guān)聯(lián)的用戶界面的關(guān)鍵就是尋找能夠?qū)⒉煌蚀钆洌ㄉ时戎?、空間位置)與特定音色的樂音統(tǒng)一起來的橋梁。為尋找建立這種統(tǒng)一關(guān)聯(lián)性的基礎(chǔ),就需要發(fā)現(xiàn)不同的聲音與色彩組合搭配之間的對應(yīng)關(guān)系,從而為多通道人機(jī)自然交互的視覺、聽覺通道的有效融合,提升用戶“人”的使用體驗(yàn)提供一定的借鑒。
本實(shí)驗(yàn)在借鑒其他學(xué)者(xiuwen Sun,2018)[12]前期研究的基礎(chǔ)上,探討了聲音的心理聲學(xué)屬性(例如音調(diào),粗糙度,尖銳度,非連續(xù)性,音速)等與多顏色的特征(如色調(diào),飽和度和亮度)的對應(yīng)關(guān)系,同時(shí)還進(jìn)一步增加了聲音與多色彩比重及空間占比等因素的對應(yīng)關(guān)系。我們的研究目的在于探討聲音與多色彩之間對應(yīng)關(guān)系,為兩者的融合并應(yīng)用于虛擬現(xiàn)實(shí)等多通道人機(jī)自然交互中去,提升用戶的體驗(yàn)。
我們招募了46名志愿者,包括23名女性和23名男性參加實(shí)驗(yàn)。鑒于跨文化差異可能會(huì)影響結(jié)果(Knoeferle等,2015),我們只選擇中國出生的參與者納入本實(shí)驗(yàn),所有的參與者無色盲、耳鳴、精神病史、語言障礙,參與者不會(huì)從本次實(shí)驗(yàn)中獲得報(bào)酬;本研究不會(huì)對受試者造成潛在危害;受試者在實(shí)驗(yàn)過程中感到不適,可隨時(shí)自愿退出研究。
3.3.1 聲音刺激
根據(jù)牛津大學(xué)Spence教授和他的學(xué)生Knoeferle提出的各聲音屬性理論[13]的研究,我們根據(jù)聲音的五種不同屬性如(音調(diào),尖銳度,粗糙度,非連續(xù)性,音速)等,制作不同單一屬性的聲音作為刺激源,每種屬性的聲音定位4個(gè)等級,從低到高排列為1-4級。每個(gè)聽覺參數(shù)的值設(shè)置為四個(gè)級別:(a)音高:C2(130.8Hz),C3(261.63),C4(523.35Hz),C5(1046.5Hz);(b)粗糙度:0%,30%,70%和100%;(c)節(jié)奏:65,120,150和200 BPM;(d)清晰度:我們使用1-4表示四個(gè)銳度級別,1表示最弱,4表示最強(qiáng);(e)不連續(xù)性:0%,40%,70%和100%。對于每個(gè)樂曲,我們只調(diào)整五個(gè)屬性中的一個(gè)的值,其他四個(gè)保持在第二個(gè)最低級別。我們通過Soundtrap在線制作了20(5×4)段音樂,系統(tǒng)地改變了9秒鐘鋼琴和弦的五個(gè)低級屬性(音高,銳度,粗糙度,非連續(xù)性,節(jié)奏)。聲音基于以C大調(diào)為基調(diào)的和弦的中性音調(diào)。(音高C3(261.631Hz);銳度30%,粗糙度120BMP,非連續(xù)性2,速度40%)。
3.3.2 顏色
我們選擇了49個(gè)彩色方塊(100×100像素)來匹配聲音刺激。顏色使用色調(diào)飽和度亮度(HSB)方案進(jìn)行編碼。選擇具有不同色調(diào)的七種標(biāo)準(zhǔn)顏色作為主要顏色,如圖1所示。通過改變主色的飽和度或亮度值來生成其他四十二種顏色。飽和度值設(shè)定為40%,60%和80%。亮度值設(shè)置為50%,30%和10%。
圖1 實(shí)驗(yàn)中使用的七種標(biāo)準(zhǔn)顏色Fig.1 Seven Standard Colours Used in Experiment
我們還設(shè)計(jì)了色塊1和色塊2的對比度組合,如圖2所示分成五個(gè)選項(xiàng),實(shí)驗(yàn)參與者選擇其中一項(xiàng)。設(shè)計(jì)了基于7種標(biāo)準(zhǔn)色彩的空間位置關(guān)系圖,如參與者選擇的是色塊1為紅色,色塊2為黃色,通過兩種顏色鑲嵌,分表代表兩種顏色的空間位置關(guān)系,如圖3所示。
圖2 紅色和黃色對比圖Fig.2 Contrast Map of Red and Yello
圖3 紅色和黃色空間占比圖Fig.3 Spatial Ratio of Red and Yellow
實(shí)驗(yàn)通過網(wǎng)絡(luò)在線點(diǎn)擊的方式進(jìn)行。我們設(shè)計(jì)了一個(gè)用于實(shí)驗(yàn)的小程序,實(shí)驗(yàn)參與者需要在一個(gè)安靜的房間里,戴上耳機(jī)參與實(shí)驗(yàn)。實(shí)驗(yàn)開始時(shí),參與者點(diǎn)擊“開始”按鈕進(jìn)行實(shí)驗(yàn)。每個(gè)實(shí)驗(yàn)中,實(shí)驗(yàn)者需要按照聽音頻(聲音刺激)—選擇認(rèn)為與聲音最為匹配的色塊1—然后選擇認(rèn)為與聲音次為匹配的色塊2—選擇色塊1和2的明度或者飽和度--聲音刺激—色塊1與色塊2對比關(guān)系圖—色塊1與色塊2占比關(guān)系圖。此為一個(gè)聲音刺激的試驗(yàn)周期,實(shí)驗(yàn)參與者一旦做完與意象詞匯的選擇,聲音刺激將停止5秒鐘并進(jìn)行下一個(gè)周期的實(shí)驗(yàn)。每次實(shí)驗(yàn)大約需要(50~60)s,完成整個(gè)實(shí)驗(yàn)周期大約需要(15~20)min。實(shí)驗(yàn)系統(tǒng)將記錄參與者所作出的選擇。
實(shí)驗(yàn)中記錄了參與者的個(gè)人信息(性別、年齡、文化背景等)、選擇顏色、明度或飽和度、色塊比重以及占比等,通過對記錄結(jié)果統(tǒng)計(jì),分析不同聲音刺激下的顏色的組合、明度或飽和度、顏色配色比重、空間占比等關(guān)系。
3.5.1 聲音刺激與色塊對色相的感知關(guān)聯(lián)
(1)音調(diào)
根據(jù)不同的音調(diào)分別記為C2、C3、C4和C5,選取在每個(gè)音頻刺激中色塊1和色塊2組合數(shù)量最多的前4組色相按照百分比進(jìn)行排列,得出C2、C3、C4和C5四組音頻刺激下的色相組合如表1。不同音調(diào)的音頻刺激對于色相組合的選擇是不同的,存在的差異性與音調(diào)的高低有直接的關(guān)系。比如C2的低音調(diào)音頻刺激選擇的藍(lán)色+橙色色相組合最多,占比達(dá)到15.1%;C5的高音調(diào)刺激選擇的紅色+黃色的色相組合最多。該結(jié)果反映了低音調(diào)(C2)與藍(lán)色關(guān)聯(lián)度高,高音調(diào)C5與紅色和黃色的關(guān)聯(lián)度高。這與孫秀雯(2018)的研究中針對同頻率音頻刺激之下單色塊的選擇頻次結(jié)論類似,說明同音調(diào)的音頻刺激之下,用戶對于單一色塊和成組色塊的選擇方案具有相似性,色塊數(shù)量與選擇結(jié)果無明顯聯(lián)系。
表1 不同音調(diào)聲音刺激下的色塊組合選擇頻次占比(%)Tab.1 Hue Combination Percent Under Four Different Pitch of Sound Stimuli(%)
(2)粗糙度
在不同的粗糙度音頻刺激下,選取的色塊組合數(shù)量最多的前4組,如表2所示。在粗糙度為0的時(shí)候,選擇綠色+青色色相的組合最多,占22.2%,青色在各組合中最多;而在粗糙度為30和70的時(shí)候,選擇的各色相組合呈現(xiàn)較為均衡的現(xiàn)象;在粗糙度為100的時(shí)候,選擇紫色+橙色、組合占比達(dá)到14.8%,橙色在各組合中占比最多。這說明粗糙度的高低程度也對色相的選擇有一定影響,尤其是在粗糙度為0和100的時(shí)候最為明顯。這與孫秀雯(2018)的研究中針對同頻率音頻刺激之下單色塊的選擇頻次結(jié)論類似,說明同粗糙度的音頻刺激之下,用戶對于單一色塊和成組色塊的選擇方案具有相似性,色塊數(shù)量與選擇結(jié)果無明顯聯(lián)系。
表2 不同粗糙度聲音刺激度下色塊的選擇頻次占比(%)Tab.2 Hue Combination Percent Under Four Different Roughness of Sound Stimuli(%)
(3)尖銳度
在不同的尖銳度音頻刺激下,選取的色塊組合數(shù)量最多的前4組色相如表3所示。在尖銳度為1、2、3和4的時(shí)候選擇的色相組合并未呈現(xiàn)出規(guī)律性的波動(dòng),而且各色相組合的百分占比較為均衡,由此可以看出尖銳度與色塊組合的選擇無顯著關(guān)聯(lián),色塊數(shù)量與選擇結(jié)果無明顯聯(lián)系。
表3 不同尖銳度聲音刺激下的色塊組合選擇頻次占比(%)Tab.3 Hue Combination Percent Under Four Different Sharpness of Sound Stimuli(%)
(4)非連續(xù)性
在非連續(xù)性方面,分別統(tǒng)計(jì)不同的粗糙度音頻刺激下,選取的色塊1和色塊2組合數(shù)量最多的前4組色相并按照100%進(jìn)行重新賦值,得出非連續(xù)性0、40%、70%和100%四組音頻刺激下的色相組合如表4。不同非連續(xù)性的音頻刺激對于色相組合的選擇也是不同的,但是在尖銳度為0、40%、70%和100%的時(shí)候選擇的色相組合頻次并未呈現(xiàn)出規(guī)律性的波動(dòng),但在色相組合的顏色搭配方面,對比色和互補(bǔ)色占比較大,分別占比50%和31.25%,鄰近色僅占18.75%,由此可以看出尖銳度雖然對于色相無顯著關(guān)聯(lián),但是與色相對顏色搭配的關(guān)聯(lián)較大。
表4 不同非連續(xù)聲音刺激下的色塊組合選擇頻次占比(%)Tab.4 Hue Combination Percent Under Four Different Discontinuity of Sound Stimuli(%)
(5)音速等級
在音速方面,分別統(tǒng)計(jì)不同的粗糙度音頻刺激下,選取的色塊1和色塊2組合數(shù)量最多的前4組色相并按照100%進(jìn)行重新賦值,得出音速為65、120、150和200的四組音頻刺激下色相組合如表5。在音速為65的時(shí)候,選擇橙色+藍(lán)色色相的組合最多,占22.2%,且選取樣本中色相組合的色彩關(guān)系中對比色和互補(bǔ)色占到75%;而在音速為120、150和200的時(shí)候,選擇的各色相組合呈現(xiàn)較為均衡的現(xiàn)象,未發(fā)現(xiàn)占主導(dǎo)的色相組合和規(guī)律性。在音速為200的時(shí)候,選取樣本中的色彩配比出現(xiàn)了鄰近色占主導(dǎo)的情況(100%)。由于聲音刺激與色彩明度和純度關(guān)聯(lián)分析結(jié)論與孫秀雯(2018)論文結(jié)果相似,這里不做冗余陳述。
表5 不同音速等級聲音刺激下的色塊組合選擇頻次占比(%)Tab.5 Hue Combination Percent Under Four Different Tempo of Sound Stimuli(%)
3.5.2 色彩比例、空間位置的關(guān)聯(lián)性分析
不同的色彩搭配對于用戶的視覺感知有著不同的影響,色彩搭配中重要的表現(xiàn)形式在色彩比例關(guān)系和空間位置關(guān)系。利用不同色彩占比能夠有效的突出重點(diǎn)。這里通過實(shí)驗(yàn)分析,進(jìn)一步驗(yàn)證聲色聯(lián)覺中音頻屬性與色彩比例和位置之間的關(guān)聯(lián)性,從而為多通道人機(jī)自然交互的色彩搭配以及與聲音刺激的融合提供借鑒。
根據(jù)上一步實(shí)驗(yàn),統(tǒng)計(jì)分析實(shí)驗(yàn)參與者在不同音頻刺激下選取的頻次最多的色塊組合,針對其選取的色塊比重和空間占比的情況分析,由于選擇的色塊組合的頻次不同,因此我們按照百分比形式進(jìn)行了重新賦值,統(tǒng)計(jì)不同色塊組合中的色塊比重和空間占比的百分比。如圖4所示。
從圖4可以看出,在音頻C2和C5的刺激下,參與者選擇的色塊比重的百分比分布圖呈現(xiàn)出比較集中的現(xiàn)象,C2音頻刺激下色塊橙色和藍(lán)色比重為50:50的選擇占比達(dá)到47%;C5音頻刺激下的紅色和黃色比重為90:10的選擇占比達(dá)到50%,而C3和C4聲音刺激下的不同色塊對比度的選擇基本上呈現(xiàn)比較均勻的情況。這證明了聲音頻率對于色塊組合對比度的選擇是有影響的,低頻率更容易選擇色塊面積比例均衡的視覺效果,高頻率則會(huì)更偏向選擇色塊面積比例差異較大,對比強(qiáng)烈的視覺效果。
圖4 音調(diào)-顏色對比和空間關(guān)系結(jié)果。Fig.4 Results for Pitch-Colour Contrast and Positional Relationship
同時(shí),不同音頻刺激下的色塊空間位置關(guān)系也存在不同。C2和C4聲音刺激下的色塊空間位置關(guān)系的選擇無明顯偏好。C3聲音刺激下選擇藍(lán)色鑲嵌于紅色的占74%,C5聲音刺激下選擇黃色鑲嵌于紅色的占73%,并未發(fā)現(xiàn)聲音刺激對于色塊空間的影響的規(guī)律。但是有趣的是,我們發(fā)現(xiàn)當(dāng)兩個(gè)色塊呈鑲嵌狀組合時(shí),一般情況下選擇相對偏冷色調(diào)鑲嵌于相對偏暖色調(diào)之上的情況比較多。
在實(shí)驗(yàn)中,我們研究了聲音的五個(gè)特征音調(diào),粗糙度,尖銳度,非連續(xù)性和音速與雙色塊色調(diào)、明度、飽和度以及顏色比重和空間占比之間的對應(yīng)關(guān)系。我們在其他學(xué)者實(shí)驗(yàn)基礎(chǔ)上,將聲音與單色相的對應(yīng)關(guān)系研究擴(kuò)展到聲音與雙色塊的對應(yīng)關(guān)系研究,并進(jìn)一步探討了聲音與雙色塊的比重、空間占比直接的對應(yīng)關(guān)系。實(shí)驗(yàn)結(jié)果證明了高頻率音頻刺激與暖色調(diào)的紅色、黃色關(guān)聯(lián)度高、低頻率音頻刺激與冷色調(diào)的藍(lán)色和青色關(guān)聯(lián)度高;粗糙度在0和100的時(shí)候?qū)τ谏珘K組合也存在影響,似乎和孫秀雯(2018)的紫色和橙色與高粗糙度相關(guān),而綠色和青色與低粗糙度相關(guān)的實(shí)驗(yàn)結(jié)果相似。同樣的尖銳等級和非連續(xù)性對于色塊色相、色彩比重、空間占比的影響也不明顯,這可能是由于尖銳等級和非連續(xù)為聲音的心理學(xué)特征所造成的。
在音速等級方面,高音速與暖色調(diào)關(guān)聯(lián)性高,低音速與冷色調(diào)關(guān)聯(lián)性高。關(guān)于聲音刺激與色彩比重、空間占比的研究結(jié)果顯示,總體而言聲音的頻率對于色彩比重和空間占比的影響較為明顯,而音速、粗糙度、尖銳等級和非連續(xù)性三個(gè)音速則為顯示出明顯的影響。聲音的頻率越高,顯示出與暖色調(diào)高比重、處于空間中心位置的關(guān)聯(lián)度越高;反之則與冷色調(diào)高比重、處于空間中心位置的關(guān)聯(lián)度越高。
基于以上實(shí)驗(yàn)的結(jié)論,我們將視覺聽覺的關(guān)聯(lián)應(yīng)用到人機(jī)自然交互中去,設(shè)計(jì)了一個(gè)視聽聯(lián)覺的人機(jī)自然交互模型,如圖5所示。從視覺和聽覺兩個(gè)角度探索雙通道下,人機(jī)交互信息的輸入、融合和輸出模式。首先是視覺和聽覺信息通過人的眼和耳朵輸入,通過人與機(jī)器的交互將所得的信息輸入至機(jī)器,運(yùn)用機(jī)器內(nèi)部聯(lián)覺內(nèi)置程序,提取聲音的頻率、粗糙度、非連續(xù)性、尖銳度和音速等要素和視覺信號的色度、亮度、飽和度、對比度、空間占比等要素,并在這些要素之間通過內(nèi)置的聯(lián)覺程序構(gòu)建起對應(yīng)的聯(lián)覺效應(yīng),形成完整的視聽反饋信息,通過機(jī)器輸出為人類可以接收、識(shí)別的視聽信息。視聽聯(lián)覺的人機(jī)自然交互模型是完整的輸入-輸出的系統(tǒng),能夠有效的利用視聽聯(lián)覺現(xiàn)有研究和原理,提升人機(jī)交互的輸入輸出精度和完整度,有效的提升人機(jī)自然交互的自然性和和諧性。
綜上所述,本研究旨在研究視聽聯(lián)覺存在的內(nèi)在關(guān)系并將之應(yīng)用于多通道人機(jī)自然交互,提升人機(jī)交互的準(zhǔn)確性以及用戶體驗(yàn)。通過實(shí)驗(yàn),我們擴(kuò)展了前人對于聲音與單色彩關(guān)系的研究,挖掘了聲音與色塊組合的關(guān)系。結(jié)果表明,聲音音調(diào)、粗糙度等對單色和多色塊組合的色調(diào)、飽和度的影響并未存在明顯的差異。聲音和色彩對比度和空間關(guān)系的研究結(jié)果表明,音高和節(jié)奏對色彩對比度和位置關(guān)系有更明顯的影響。音高和節(jié)奏越高,人們越喜歡暖色調(diào),反之亦然。最后,基于實(shí)驗(yàn)結(jié)果構(gòu)建了多模態(tài)人機(jī)交互模型。