汪 穎,黃 澤
(浙江理工大學(xué),浙江 杭州 310018)
隨著計(jì)算機(jī)與顯示技術(shù)的發(fā)展,對(duì)于計(jì)算機(jī)的命令行接口功能變得日益豐富與強(qiáng)大,但對(duì)于絕大多數(shù)老年人而言這樣復(fù)雜的人機(jī)交互形式難于使用。自然交互界面是一種新興的用戶界面,其目的是通過利用人的視覺、觸覺、聲音和動(dòng)作等行為能力以及人的認(rèn)知能力,基于自然的方式來實(shí)現(xiàn)人機(jī)交互[1]?;仡櫲藱C(jī)交互的歷史進(jìn)程,不難發(fā)現(xiàn)扮演適應(yīng)角色的總是人類而非計(jì)算機(jī),人類需要理解機(jī)器并按照其標(biāo)準(zhǔn)進(jìn)行交互,這對(duì)于很多人尤其是老年人而言極不友好。基于此問題,越來越多的研究者致力于開發(fā)能夠跨越人機(jī)交互障礙的新技術(shù)。
近二十年來的科學(xué)研究根據(jù)人格效應(yīng)和媒體等式理論,通過在屏幕上描繪一個(gè)虛擬的交流伙伴,從而對(duì)人機(jī)交互產(chǎn)生了有益的影響[2]。在利用人類行為能力的交互方式中,手勢(shì)由于其強(qiáng)大的表現(xiàn)力和速度優(yōu)勢(shì),在人機(jī)交互系統(tǒng)中得到了最為廣泛的應(yīng)用。例如基于視覺的手勢(shì)識(shí)別(hand gesture recognition,HGR)系統(tǒng)可以在無菌環(huán)境(如醫(yī)院手術(shù)室)中實(shí)現(xiàn)非接觸式交互,也可以簡單地為娛樂和游戲應(yīng)用提供參與式控制[3]。
然而,HGR并不像標(biāo)準(zhǔn)的基于鍵盤和鼠標(biāo)的交互那么靈敏,在復(fù)雜背景和不同光照條件下的性能以及手勢(shì)相位的可靠檢測(cè)等問題限制了手勢(shì)作為界面設(shè)計(jì)中可靠方式的使用。人類與世界的互動(dòng)本質(zhì)上是多模態(tài)的,為了使人機(jī)交互變得如人類之間交流那么自然,多樣化的交互形式不可或缺,除手勢(shì)以外,研究人員已經(jīng)將自然交互形式拓展到了更多領(lǐng)域,如語言[4]、視覺[5]、身體動(dòng)態(tài)[6],甚至是復(fù)雜的情緒和感受[7-8]。
鑒于人機(jī)自然交互研究的豐富成果以及老年人對(duì)于復(fù)雜人機(jī)交互環(huán)境的適應(yīng)困境,該文試圖直觀地展現(xiàn)老齡化自然交互領(lǐng)域的全貌,并用文獻(xiàn)計(jì)量方法深入探討這一領(lǐng)域的研究現(xiàn)狀和進(jìn)展。具體來說,該研究對(duì)過去20年(2000~2019年)與情感計(jì)算相關(guān)的科學(xué)出版物進(jìn)行了嚴(yán)格的文獻(xiàn)計(jì)量分析,包括國家和期刊表現(xiàn),以及領(lǐng)域內(nèi)共引文獻(xiàn)的可視化分析。研究結(jié)果有助于相關(guān)研究者掌握老齡化自然交互方面的知識(shí)結(jié)構(gòu)和最新趨勢(shì),確立或改變后續(xù)的研究方向,為研究者更快速地了解老齡化自然交互領(lǐng)域提供便利。
為了收集到有代表性的老齡化自然交互相關(guān)文獻(xiàn),該文選擇以Web of Science(WoS)作為來源數(shù)據(jù)庫獲取待分析的初始數(shù)據(jù)。WoS是全球最大、覆蓋學(xué)科最多的綜合性學(xué)術(shù)信息資源,利用其豐富而強(qiáng)大的檢索功能,用戶可以方便快速地找到有價(jià)值的科研信息[9]。該文旨在通過文獻(xiàn)計(jì)量學(xué)的方法對(duì)老齡化自然交互相關(guān)文獻(xiàn)進(jìn)行定量、可視化分析,因此在WoS核心數(shù)據(jù)庫中使用“主題”搜索以獲取盡可能多的相關(guān)文獻(xiàn),使用“主題”作為搜索方式意味著只要文獻(xiàn)的題名、摘要或關(guān)鍵詞中任意一項(xiàng)包含搜索詞,即會(huì)出現(xiàn)在結(jié)果隊(duì)列中。
用于初始數(shù)據(jù)收集的關(guān)鍵詞包含不同的表達(dá)式,分別是“elder”、“old people”、“human-computer nature interaction”或“natural human computer interaction”,將時(shí)間跨度設(shè)定為2000年至2019年。得到搜索結(jié)果后,為了盡可能涵蓋更多的附加信息,將1 447篇初始文獻(xiàn)以“txt”格式從WoS中導(dǎo)出“全紀(jì)錄和引用的參考文獻(xiàn)”。最終將結(jié)果導(dǎo)入CiteSpace(版本5.5.R2)中進(jìn)行去除重復(fù)項(xiàng)操作,得到1 434篇老齡化自然交互相關(guān)文獻(xiàn)用于后續(xù)分析。
文獻(xiàn)計(jì)量學(xué)是對(duì)文獻(xiàn)或書籍等書面出版物的統(tǒng)計(jì)分析,可以追溯到二十世紀(jì)初,其通過復(fù)雜網(wǎng)絡(luò)對(duì)大量文獻(xiàn)樣本進(jìn)行數(shù)據(jù)組織和可視化分析。文獻(xiàn)計(jì)量學(xué)比較研究學(xué)者和研究機(jī)構(gòu)之間的時(shí)間尺度和學(xué)科引用效果,這兩個(gè)因素與出版物的質(zhì)量不相關(guān),基于此可以對(duì)這些學(xué)術(shù)成果進(jìn)行定量評(píng)估[10]。通過文獻(xiàn)計(jì)量方法對(duì)某個(gè)領(lǐng)域內(nèi)的研究熱點(diǎn)和研究趨勢(shì)等進(jìn)行分析已經(jīng)在學(xué)術(shù)界得到了廣泛的應(yīng)用。
從文獻(xiàn)分析工具的選用上來看,目前被使用較多的軟件工具包括BibExcel、CiteSpace、Pajek、VOSviewer、Histcite、Sci2等。BibExcel可以靈活地管理和轉(zhuǎn)換不同格式的初始文獻(xiàn),并從中提取出每一篇文獻(xiàn)的基本信息,包括作者、國家、發(fā)表年份、發(fā)表期刊等等。BibExcel提取的信息經(jīng)過其自動(dòng)歸類后能夠直觀地展示不同國家和期刊之間的差異性,而后借助VOSviewer或Origin可以對(duì)直觀數(shù)據(jù)進(jìn)行文獻(xiàn)計(jì)量網(wǎng)絡(luò)的構(gòu)建以及可視化。與VOSviewer類似,CiteSpace同樣是可視化的文獻(xiàn)分析軟件,但其特點(diǎn)是可以用于特定學(xué)科中研究熱點(diǎn)和新興趨勢(shì)的分析,它既可以顯示某個(gè)領(lǐng)域在給定時(shí)期內(nèi)的表現(xiàn)和趨勢(shì),也可以探索前沿研究的發(fā)展[11]。
為了了解老齡化自然交互研究領(lǐng)域的國家水平,在BibExcel中將初始數(shù)據(jù)轉(zhuǎn)化為可識(shí)別的out文件格式,分別按國家和年份排序。由于2008年之前所有國家的相關(guān)文獻(xiàn)數(shù)量均小于5篇,因此圖1顯示了2008年至2019年間出版物的總數(shù)量和貢獻(xiàn)最多的國家??梢钥吹剑淆g化自然交互的總文獻(xiàn)量隨著年份增長呈現(xiàn)波動(dòng)上漲的趨勢(shì),推斷正是由于21世紀(jì)初計(jì)算機(jī)科技的高速發(fā)展和人機(jī)交互的多樣化導(dǎo)致了學(xué)術(shù)關(guān)注的提高。同時(shí),觀察各條折線的波動(dòng)形態(tài),可以發(fā)現(xiàn)美國和中國的文獻(xiàn)發(fā)表量最高,且二者的折線形態(tài)與總文獻(xiàn)量的折線形態(tài)幾乎完全一致,這也在一定程度上凸顯了美國和中國對(duì)老齡化自然交互相關(guān)研究領(lǐng)域的學(xué)術(shù)引導(dǎo)地位。
可以看到,盡管中國對(duì)于此研究領(lǐng)域的起步相較美國更晚,但在2015年之后相關(guān)文獻(xiàn)的數(shù)量已然趕超美國,這表明美國學(xué)者雖然更早關(guān)注到了自然交互領(lǐng)域,但中國學(xué)者在投入高度關(guān)注的情況下也已經(jīng)產(chǎn)出大量學(xué)術(shù)成果。然而,2018年及之后,各國和總體的文獻(xiàn)量都出現(xiàn)了較明顯的下滑,筆者認(rèn)為這可能是因?yàn)榻y(tǒng)計(jì)信息的缺乏。學(xué)術(shù)研究內(nèi)容輸出到網(wǎng)上需要時(shí)間,在統(tǒng)計(jì)時(shí)會(huì)出現(xiàn)不可避免的延遲現(xiàn)象,因此這并不能表示2018年之后老齡化自然交互領(lǐng)域研究熱度的下滑。
圖1 不同國家老齡化自然交互年份趨勢(shì)圖
文章共引,被定義為兩篇文獻(xiàn)同時(shí)被其他文獻(xiàn)一起引用的頻率?;谝寻l(fā)表文獻(xiàn)來分析學(xué)者之間聯(lián)系的研究已然持續(xù)了幾十年,使用映射技術(shù)進(jìn)行的作者引文分析最常用于根據(jù)學(xué)者著作的共同引用來研究兩位作者在思想領(lǐng)域的緊密程度[12]?;谶@一假設(shè),文獻(xiàn)計(jì)量領(lǐng)域研究者提出了利用文獻(xiàn)共引網(wǎng)絡(luò)的聚類分析來探索知識(shí)領(lǐng)域內(nèi)容的方法[13]。
為了進(jìn)一步呈現(xiàn)老齡化自然交互領(lǐng)域的研究進(jìn)程,該文利用CiteSpace對(duì)初始數(shù)據(jù)引用的所有參考文獻(xiàn)進(jìn)行文獻(xiàn)共引網(wǎng)絡(luò)分析。1 434篇初始文獻(xiàn)所引用的共計(jì)38 054篇參考文獻(xiàn)被導(dǎo)入CiteSpace進(jìn)行共引分析,共引分析的選擇標(biāo)準(zhǔn):引用閾值調(diào)整為前10%的項(xiàng)目被保留,其中最大選擇項(xiàng)的數(shù)目不超過100。最后通過軟件自行構(gòu)建得到762個(gè)節(jié)點(diǎn),1 797條邊的參考文獻(xiàn)共引網(wǎng)絡(luò)(基于圖片可讀性,此處并未顯示所有節(jié)點(diǎn)),對(duì)共引網(wǎng)絡(luò)進(jìn)行聚類,軟件自動(dòng)剔除其中含量過少的聚類標(biāo)簽后得到圖2所示共引網(wǎng)絡(luò)聚類視圖,8個(gè)主要聚類的具體信息見表1,表1中8個(gè)聚類集群的輪廓大小都接近于1,說明聚類結(jié)果是可信的。
圖2 老齡化自然交互的共引網(wǎng)絡(luò)視圖
CiteSpace使用基于原始網(wǎng)絡(luò)Laplacian矩陣為特征向量的聚類算法,與傳統(tǒng)算法相比具有更高的效率和靈活性[14]。聚類標(biāo)簽的詞匯是由每個(gè)聚類的名詞短語和參考文獻(xiàn)的索引詞通過篩選得出,通過查閱8個(gè)聚類標(biāo)簽中的主要文獻(xiàn),可以將主要聚類分為三組,分別是:手勢(shì)交互(#1,#6,#8,#9)、模式識(shí)別與圖像處理(#0,#4,#10)以及自然人機(jī)交互接口(#7)。
表1 共引網(wǎng)絡(luò)中8個(gè)主要聚類的具體信息
顯而易見,手勢(shì)作為一種表達(dá)性、自然性和直覺性的交互方式,已經(jīng)被大量運(yùn)用在計(jì)算機(jī)和可視化設(shè)備的交互控制上[15]。手勢(shì)識(shí)別研究的快速發(fā)展,使手勢(shì)交互已經(jīng)能夠基本滿足人機(jī)交互系統(tǒng)的兩個(gè)基本要求,即高識(shí)別精度和快速響應(yīng)時(shí)間?;趲c幀之間比較的深度學(xué)習(xí)模型是一種有效且計(jì)算效率高的方法[16],但這種方法的缺點(diǎn)是需要進(jìn)行圖像的預(yù)處理和一個(gè)靜態(tài)的背景。膚色在顏色空間中占據(jù)相當(dāng)明確的區(qū)域,因此可用于準(zhǔn)確分辨頭部和手部[17],其限制在于易與背景中相似顏色物體的混淆以及姿勢(shì)識(shí)別方面的不完全。
歸根結(jié)底來說,手勢(shì)交互實(shí)則屬于模式識(shí)別的一部分。但盡管手勢(shì)識(shí)別具備良好的準(zhǔn)確度和普及性,但多模態(tài)的自然交互才更貼合人們與真實(shí)世界的交互形式[3]。關(guān)于模式識(shí)別和圖像處理,除手勢(shì)外,研究者基于人的多維感官以及情緒感受做了大量的探索。即便只是簡單的語言對(duì)話交流,人與人之間的交流方式也與人機(jī)交流存在差異。人們對(duì)于計(jì)算機(jī)需要使用更簡單且控制化的語言,而這樣不自然的交互形式難以產(chǎn)生愉悅感[18]。情緒特征的提取雖然同樣來自語言,但相較語言控制,其實(shí)現(xiàn)形式更為困難。為了更精確地獲取各種語言風(fēng)格中的情感內(nèi)容,研究者利用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)和深度殘差網(wǎng)絡(luò)(residual network,ResNet)分別提取語音特征和視覺模態(tài)以識(shí)別人的自然情感[8]。
最后,自然人機(jī)交互接口作為自然交互的實(shí)際應(yīng)用形式,其相關(guān)文獻(xiàn)量較少,但能直觀展現(xiàn)出自然交互的實(shí)用性。當(dāng)前對(duì)于自然交互接口設(shè)備的使用多為醫(yī)學(xué)領(lǐng)域,免觸摸控制系統(tǒng)大幅提升醫(yī)生在無菌環(huán)境中的操作效率,盡管目前的準(zhǔn)確度較低,但其效用性不可忽視[19]。此外,結(jié)合醫(yī)療領(lǐng)域中非接觸式交互方法來看,雖然已經(jīng)產(chǎn)生了大量的解決方案,但只有少數(shù)幾個(gè)在手術(shù)環(huán)境中得到了系統(tǒng)評(píng)估,自然人機(jī)交互的軟件接口問題限制了進(jìn)一步的研究,這應(yīng)當(dāng)是未來的主要挑戰(zhàn)[20]。
除此之外,老齡化自然交互共引網(wǎng)絡(luò)的時(shí)間軸視圖導(dǎo)出如圖3,從時(shí)間軸視圖能夠更清晰地了解過去數(shù)年間老齡化自然交互的進(jìn)化足跡。
從圖3可以看出,2007年之前的早期研究主要關(guān)注于手勢(shì)識(shí)別,包括#1三維手勢(shì)跟蹤、#8空中手寫漢字識(shí)別以及#9人機(jī)手勢(shì)交互。早期識(shí)別方法主要通過從時(shí)空維度中提取三維手勢(shì)特征,并通過時(shí)間軸上的圖像幀比較來測(cè)定其相似性,在手勢(shì)分析綜述中這被定義為時(shí)空方法[21]。手寫字符的識(shí)別,尤其是漢字,因其復(fù)雜性而使早期研究者們備受困擾。而隨著各種手寫字符數(shù)據(jù)庫的建立,手寫字符的識(shí)別問題得到較好的解決,其平均識(shí)別準(zhǔn)確度達(dá)到90%以上[22]。
2007年之后,隨著手勢(shì)、字符以及各種人類活動(dòng)識(shí)別方法的研究發(fā)展,以計(jì)算機(jī)視覺模擬人機(jī)交互成為一個(gè)重要的研究領(lǐng)域。研究者們意識(shí)到人機(jī)交流不應(yīng)局限于觸覺,語言和視覺同樣重要,#4三維CAD(computer aided design,CAD)建模、#6基于視覺的手勢(shì)識(shí)別、#7自然用戶接口設(shè)備和#10計(jì)算機(jī)視覺四個(gè)集群相繼產(chǎn)生。在類似博物館這樣的開放環(huán)境中,更有趣的互動(dòng)和參與能改善來訪者的體驗(yàn),以身體為基礎(chǔ)的人機(jī)交互形式有助于培養(yǎng)存在感和交流感。
圖3 老齡化自然交互的共引網(wǎng)絡(luò)視圖(時(shí)間軸)
對(duì)文獻(xiàn)的來源期刊進(jìn)行分析可以確定領(lǐng)域內(nèi)的核心期刊,而期刊被引用頻次則能夠有效展現(xiàn)其受領(lǐng)域內(nèi)研究者關(guān)注的程度。同時(shí),高被引期刊也匯聚了該領(lǐng)域內(nèi)核心學(xué)者的學(xué)術(shù)成果和高質(zhì)量的前沿研究文獻(xiàn),能夠?yàn)橄胍私庠擃I(lǐng)域的研究者提供指引。為了了解期刊績效和引用情況,該文利用BibExcel提取初始數(shù)據(jù)中的期刊字段并按降序排列,得到表2所示老齡化自然交互相關(guān)文獻(xiàn)中排名前十的來源出版期刊及其被引文獻(xiàn)數(shù)量表格。
表2 排名前十的文獻(xiàn)來源期刊
為了了解老齡化交互的期刊集中度,本研究查閱了表2所示十大文獻(xiàn)來源期刊的重點(diǎn)研究內(nèi)容和主要發(fā)表領(lǐng)域,排名前十的期刊共計(jì)刊登文獻(xiàn)252篇,占據(jù)總文獻(xiàn)量的17.57%。雖然這些期刊大多屬于人機(jī)自然交互和模式識(shí)別領(lǐng)域,但需要注意的是,在計(jì)算機(jī)技術(shù)和人工智能領(lǐng)域的期刊上也發(fā)表了大量關(guān)于自然交互的論文,這說明人機(jī)自然交互需要以大量的計(jì)算機(jī)信息技術(shù)為基礎(chǔ),而人工智能則是自然人機(jī)交互的媒介,通常會(huì)通過關(guān)注和學(xué)習(xí)特定的用戶行為以幫助計(jì)算機(jī)更好地了解人類意圖[23]。
在CiteSpace中對(duì)所有文獻(xiàn)進(jìn)行期刊共引分析,得到了引用率排名前25的高被引期刊,并按起始時(shí)間升序排列得到圖4,其中Begin和End分別代表期刊中高被引文獻(xiàn)的集中起止年份,由于2008年之前老齡化自然交互相關(guān)文獻(xiàn)不存在高引用率期刊,因此圖片右側(cè)時(shí)間分布段落的整體時(shí)間段為2008~2019年。時(shí)間段的灰色部分為期刊中高被引文獻(xiàn)的集中時(shí)間,可以看到,其集中時(shí)間段與圖3中的文獻(xiàn)共引網(wǎng)絡(luò)聚類集中時(shí)間存在較高的相似度。
某一領(lǐng)域內(nèi)的學(xué)術(shù)動(dòng)態(tài)在一定程度上可以通過相關(guān)期刊的高引用率來體現(xiàn),這在知識(shí)可視化角度被稱為突發(fā)引用[24]。
突發(fā)引用的出現(xiàn)表明學(xué)術(shù)界已經(jīng)或正在高度關(guān)注此領(lǐng)域,而對(duì)比圖3與圖4的集中時(shí)間段不難看出,2008年到2013年間出現(xiàn)了類似突發(fā)引用的事件,熟悉這段時(shí)間內(nèi)具有較高引用爆發(fā)力的期刊所發(fā)表的內(nèi)容,將有助于研究者快速了解不同研究點(diǎn)的形成,以及老齡化自然交互領(lǐng)域的重點(diǎn)關(guān)注內(nèi)容。
圖4 排名前25的高引用率期刊(按起始時(shí)間排序)
以2000年至2019年從Web of Science收集到的1 434篇文獻(xiàn)作為數(shù)據(jù)集,對(duì)老齡化自然交互領(lǐng)域內(nèi)的研究進(jìn)行了嚴(yán)格且深入的文獻(xiàn)計(jì)量分析,并對(duì)國家、期刊以及共引網(wǎng)絡(luò)進(jìn)行了可視化研究??梢暬瘓D表顯示,在過去的20年里,出版物總量隨時(shí)間呈現(xiàn)明顯的波動(dòng)增長趨勢(shì),且增長率很高。值得注意的是,中美兩國對(duì)出版物和國際合作的貢獻(xiàn)最大,其次是德國和印度。除此之外,借助文獻(xiàn)共引網(wǎng)絡(luò)對(duì)不同階段的主要研究內(nèi)容和重點(diǎn)文獻(xiàn)進(jìn)行了調(diào)查,結(jié)果顯示早期的自然交互研究主要集中于手勢(shì)識(shí)別方面,手部行為因其靈活性和不易混淆的模態(tài)得到了研究者的高度關(guān)注。近十年來隨著技術(shù)的發(fā)展,主流的研究已經(jīng)轉(zhuǎn)向利用多模態(tài)內(nèi)容進(jìn)行自然交互的嘗試。多模態(tài)內(nèi)容不僅指字符、語言、視覺的多模態(tài)領(lǐng)域,還包括情緒、感受等生物傳感領(lǐng)域。隨著人工智能技術(shù)的迅速發(fā)展,許多機(jī)器學(xué)習(xí)算法被應(yīng)用于自然交互研究,卷積神經(jīng)網(wǎng)絡(luò)是其中應(yīng)用最廣的一種機(jī)器學(xué)習(xí)模型。
對(duì)于老齡化自然交互領(lǐng)域進(jìn)行計(jì)量可視化研究具有重要意義。一方面,這有助于相關(guān)研究者快速獲得具有影響力的相關(guān)作者和期刊,得到明確的領(lǐng)域內(nèi)學(xué)術(shù)動(dòng)態(tài),找出關(guān)注或可投稿的期刊。作者具體信息也能提供實(shí)用性的指導(dǎo),在國際合作的背景下,尋求相似研究人員或研究機(jī)構(gòu)進(jìn)行交流顯得合理。另一方面,通過構(gòu)建引文聚類網(wǎng)絡(luò),系統(tǒng)且有序地探析了老齡化自然交互的最新研究領(lǐng)域和前沿趨勢(shì),幫助學(xué)者把握老齡化自然交互領(lǐng)域的全貌。就數(shù)據(jù)來說,計(jì)量可視化的方法實(shí)現(xiàn)了對(duì)于以往模糊的專業(yè)評(píng)價(jià)的量化[25],而老齡化自然交互的可視化指標(biāo)也表明其正在被更廣泛的地區(qū)和知識(shí)領(lǐng)域所接受。
不可避免的是,盡管該文通過總結(jié)過去20年的研究得到了一些可用的結(jié)論,但方法仍存在一定的局限性。通過共引網(wǎng)絡(luò)分析,共識(shí)別出11個(gè)聚類,其中許多小類因內(nèi)容不足而被剔除,這可能導(dǎo)致重要信息的遺漏。另外,從知識(shí)可視化角度來看,有更多的方法可用于計(jì)量可視化分析,如果能在BibExcel和CiteSpace之外嘗試運(yùn)用更多的結(jié)合分析,或許可以得到更科學(xué)、更有說服力的結(jié)論。