譚啟蒙,陳 磊,周永輝,孫沂昆,王耀兵,高 升
(1.北京空間飛行器總體設(shè)計(jì)部空間智能機(jī)器人系統(tǒng)技術(shù)與應(yīng)用北京市重點(diǎn)實(shí)驗(yàn)室,北京100094;2.戰(zhàn)略支援部隊(duì)航天工程研究院 十六室,北京100028)
近年來,伴隨著人工智能技術(shù)的發(fā)展,空間服務(wù)機(jī)器人已經(jīng)逐步發(fā)展成一種輔助或代替航天員開展多種復(fù)雜空間作業(yè)的重要手段,尤其是對(duì)空間站在軌服務(wù)、深空探測(cè)等領(lǐng)域有重要意義[1]。艙內(nèi)方面,機(jī)器人需要輔助航天員完成諸如日常艙內(nèi)清潔、工具校準(zhǔn)、庫存盤點(diǎn)、設(shè)備擺放、食物準(zhǔn)備、艙內(nèi)生存環(huán)境(含空氣、水等)質(zhì)量測(cè)試等常規(guī)任務(wù);艙外方面,機(jī)器人應(yīng)具備輔助或代替航天員完成艙外檢測(cè)、維修、安裝,艙外狀態(tài)檢查以及星球表面探測(cè)等空間任務(wù)的能力。在軌人機(jī)交互(On?orbit Human Robot Interaction,OHRI)包括航天員與機(jī)器人之間的信息互通、物理空間中的行為互動(dòng)以及兩種交互的集成[2],是空間服務(wù)機(jī)器人的核心技術(shù)之一。根據(jù)交互過程中二者之間的時(shí)空對(duì)應(yīng)關(guān)系,OHRI主要分為遠(yuǎn)程交互和近程交互兩類[3?5]:前者基于時(shí)空分離狀態(tài),明確航天員與機(jī)器人之間的主從關(guān)系,航天員根根據(jù)機(jī)器人實(shí)時(shí)采集的操作對(duì)象或周圍環(huán)境特征的多模態(tài)信息,主動(dòng)向機(jī)器人發(fā)送運(yùn)動(dòng)控制命令,機(jī)器人接收用戶指令并完成指定操作任務(wù);后者則凸顯航天員與機(jī)器人之間的平等合作關(guān)系,機(jī)器人能夠自主感知并接收航天員的輸入,其自身的控制系統(tǒng)通過對(duì)采集獲得的多模態(tài)傳感信息進(jìn)行分析、理解和決策,驅(qū)動(dòng)末端執(zhí)行機(jī)構(gòu)完成指定操作或定向移動(dòng),同時(shí)做出能夠被航天員所覺察的恰當(dāng)?shù)捻憫?yīng)或反饋。
截至目前,我國對(duì)于人機(jī)交互技術(shù)的研究還處于起步階段,尚無人機(jī)交互在軌應(yīng)用的型號(hào)任務(wù)。國際空間站在軌人機(jī)交互應(yīng)用的成功案例主要有Robonaut 2(簡(jiǎn)稱R2)和Kiribo:R2作為世界上首個(gè)艙內(nèi)服務(wù)機(jī)器人,先后完成了諸如與航天員在太空中首次握手、人機(jī)交互式協(xié)同操作旋鈕、面板、閥門等多次在軌人機(jī)交互測(cè)試任務(wù)[6?7];Kiribo則完成了在軌與現(xiàn)役日本航天員之間的自然對(duì)話與聊天等交互式測(cè)試[8]。盡管如此,上述人機(jī)交互系統(tǒng)只能完成少數(shù)、固定應(yīng)用場(chǎng)景下的簡(jiǎn)單交互,并未涉及多源、復(fù)雜信息融合,具有較大的局限性。因此,如何設(shè)計(jì)一種自然友好、高效便捷的人機(jī)交互系統(tǒng)并提供視、聽、力、位等多模態(tài)交互手段,實(shí)現(xiàn)航天員與機(jī)器人之間的自然交流、二者默契合作完成空間任務(wù),一直是空間服務(wù)機(jī)器人在軌應(yīng)用亟待解決的技術(shù)瓶頸之一。
針對(duì)上述問題,本文提出一種基于多模態(tài)信息融合的OHRI設(shè)計(jì)方案,以不同任務(wù)類型、環(huán)境條件的應(yīng)用需求為基礎(chǔ),構(gòu)建OHRI整體架構(gòu)及多模態(tài)信息傳輸機(jī)制,設(shè)計(jì)出航天員與機(jī)器人近程、遠(yuǎn)程交互方案的硬件配置及信息交互流程,然后從中梳理對(duì)應(yīng)的關(guān)鍵技術(shù)途徑,并經(jīng)由地面試驗(yàn)驗(yàn)證這些技術(shù)。
隨著空間科學(xué)技術(shù)的發(fā)展,未來復(fù)雜環(huán)境空間作業(yè)任務(wù)將普遍面臨耗時(shí)長、難度大、風(fēng)險(xiǎn)高、環(huán)境惡劣等問題,需要在軌人機(jī)交互系統(tǒng)(OHRI)可以使航天員與機(jī)器人進(jìn)行自然、高效、頻繁、多維度地交互,形成一套及時(shí)溝通與協(xié)調(diào)、相互幫助與支持、彼此監(jiān)督與操控的高效運(yùn)行管理機(jī)制,達(dá)到人類高智能與機(jī)器高性能的有機(jī)結(jié)合,實(shí)現(xiàn)二者協(xié)同完成任務(wù)以提高任務(wù)完成的效率并降低風(fēng)險(xiǎn)。鑒于上述應(yīng)用需求,OHRI應(yīng)具備以下特點(diǎn):
1)人機(jī)交互體系框架可實(shí)現(xiàn)多模態(tài)信息融合,能兼顧遠(yuǎn)程交互和近程交互等不同的交互模式;
2)多源信息交互機(jī)制應(yīng)為沉浸式,可以使航天員根據(jù)空間操作任務(wù)的應(yīng)用情景及難易程度合理選擇與機(jī)器人的交互方式,并對(duì)應(yīng)明確的從屬關(guān)系與職責(zé)范疇;
3)在軌遠(yuǎn)程交互方式強(qiáng)調(diào)航天員與機(jī)器人之間的主從關(guān)系,要求人機(jī)交互系統(tǒng)具備功能如下:
(1)利用機(jī)器人身上配置的多源傳感器實(shí)時(shí)采集表征操作對(duì)象或周圍環(huán)境特征的多模態(tài)信息進(jìn)行三維建模,為航天員提供一種基于混合現(xiàn)實(shí)的沉浸式虛擬操控環(huán)境,顯著消除航天員與機(jī)器人之間的時(shí)空差異問題;
(2)利用多源傳感器準(zhǔn)確建立機(jī)器人各功能部件與人體各關(guān)鍵部位之間的物理映射,使航天員能夠根據(jù)主觀意愿自主操控機(jī)器人,并確保二者行為的一致性;
4)在軌近程交互方式建立在同一時(shí)空環(huán)境基礎(chǔ)上,更加強(qiáng)調(diào)二者之間的平等合作關(guān)系,要求人機(jī)交互系統(tǒng)具備功能如下:
(1)使機(jī)器人能夠?qū)教靻T在任意時(shí)刻發(fā)出的指令(例如:聲音、手勢(shì)、動(dòng)作等)及時(shí)做出恰當(dāng)?shù)捻憫?yīng)或反饋,以滿足時(shí)效性要求;
(2)使機(jī)器人可以智能識(shí)別參與交互航天員的相關(guān)信息,自主接收、理解航天員的主觀意圖后,輔助或代替航天員獨(dú)立完成某項(xiàng)工作或工作的某一部分項(xiàng)目,滿足協(xié)作性要求,極大地提高人機(jī)協(xié)同工作的效率、可靠性和安全性。
目前,面向空間服務(wù)領(lǐng)域的OHRI任務(wù)分配原則是[9]:航天員主要完成機(jī)器人難以勝任的隨機(jī)性強(qiáng)、復(fù)雜程度高、缺乏客觀判據(jù)而只能依賴于主觀經(jīng)驗(yàn)評(píng)判的突發(fā)任務(wù),機(jī)器人則執(zhí)行程序性強(qiáng)、成本高、風(fēng)險(xiǎn)大的固有任務(wù)。
本文將OHRI體系架構(gòu)主要?dú)w納為三部分,由底層到高層依次分為傳感層、感知層和行為層。傳感層的主要職能是:完成外界環(huán)境信息的實(shí)時(shí)采集與無損傳輸;感知層的主要職能是:完成對(duì)傳感層信息的實(shí)時(shí)處理與深度解析;行為層則主要負(fù)責(zé)將感知層的解析結(jié)果直接轉(zhuǎn)換為指令或參數(shù),驅(qū)動(dòng)機(jī)器人末端執(zhí)行機(jī)構(gòu)完成指定操作或定向移動(dòng)。
結(jié)合圖1,以視覺、聽覺為典型示例,在軌人機(jī)交互體系架構(gòu)中的多模態(tài)信息流的傳輸機(jī)制可闡述如下:主要利用傳感層中的多源傳感器為機(jī)器人實(shí)時(shí)獲取有效的視覺、聽覺等多模態(tài)信息,傳輸至感知層,開展諸如特征分類、挖掘、處理、學(xué)習(xí)、融合等一系列的復(fù)雜運(yùn)算,進(jìn)而提煉出表征航天員的真實(shí)意圖和空間環(huán)境的逼真再現(xiàn)的深度模型,以同時(shí)滿足遠(yuǎn)程和近程兩種交互方案設(shè)計(jì)目標(biāo),為機(jī)器人控制系統(tǒng)提供有效、完整的指令輸入,直接驅(qū)動(dòng)機(jī)器人末端執(zhí)行機(jī)構(gòu)執(zhí)行各項(xiàng)空間任務(wù),此時(shí),再次利用多源傳感器跟蹤采集實(shí)際的操作結(jié)果,實(shí)時(shí)反饋給航天員用于評(píng)判成功與否,最終構(gòu)建一套完整的航天員與機(jī)器人之間穩(wěn)固的雙向交互機(jī)制。
在軌遠(yuǎn)程交互的硬件設(shè)計(jì)如圖2。航天員配備頭盔式顯示器、立體聲耳機(jī)、降噪麥克風(fēng)、數(shù)據(jù)手套及其他體感設(shè)備等便攜裝置,構(gòu)建航天員與機(jī)器人之間的信息交互通道,其內(nèi)部信息流遠(yuǎn)程交互機(jī)制如圖3所示。
遠(yuǎn)程交互方案所涉及的多源傳感器、交互設(shè)備及其具體功能如下:
1)頭盔式顯示器內(nèi)置左、右兩個(gè)微顯示屏,主要功能包括:
(1)同步顯示機(jī)器人頭部左、右目相機(jī)采集的在軌空間環(huán)境的圖像視頻信息,為構(gòu)建航天員的沉浸式虛擬操控環(huán)境提供三維立體視覺反饋信息;
圖2 在軌遠(yuǎn)程交互方案設(shè)計(jì)原理示意圖Fig.2 Schematic diagram of remote interaction de?sign
圖3 信息流遠(yuǎn)程交互原理示意圖Fig.3 Schematic diagram of remote interaction for information flow
(2)完成航天員雙眼(球)定位,進(jìn)行人眼視線跟蹤,確保機(jī)器人頭部左、右目相機(jī)的朝向始終與人眼視線方向保持一致,實(shí)現(xiàn)根據(jù)航天員主觀意愿對(duì)感興趣區(qū)域進(jìn)行觀測(cè)。
2)立體聲耳機(jī)主要用于同步播放通過機(jī)器人頭部聽覺傳感器實(shí)時(shí)獲取的空間環(huán)境音頻信息,為航天員提供空間環(huán)境的聽覺反饋,顯著增強(qiáng)航天員的臨場(chǎng)感。
3)降噪麥克風(fēng)的功能是:對(duì)航天員發(fā)出的語音信息進(jìn)行接收、處理、識(shí)別及自然語義注釋,實(shí)現(xiàn)對(duì)航天員主觀意圖的準(zhǔn)確理解,處理結(jié)果將直接映射為機(jī)器人控制系統(tǒng)的輸入指令,驅(qū)動(dòng)機(jī)器人遵照上述指令完成指定操作。
4)數(shù)據(jù)手套通過集成力反饋裝置,精確捕捉航天員手臂或手指的微小動(dòng)作,進(jìn)一步換算為機(jī)器人各關(guān)節(jié)的運(yùn)動(dòng)角(速)度、扭轉(zhuǎn)力矩等動(dòng)態(tài)參數(shù)數(shù)據(jù),作為機(jī)器人控制系統(tǒng)的輸入,驅(qū)動(dòng)機(jī)器人靈巧手與人手保持同步運(yùn)動(dòng);同時(shí),數(shù)據(jù)手套還能夠重建機(jī)器人靈巧手的交互作用力并反饋至操控者,使其真實(shí)體驗(yàn)機(jī)器人靈巧手抓取過程中的交互作用力情況。
5)體感設(shè)備主要采用可見光、激光、紅外等光學(xué)測(cè)量原理,實(shí)時(shí)、連續(xù)、精確估計(jì)表征人體姿態(tài)特征的關(guān)鍵部位的三維空間位置信息,完成對(duì)航天員動(dòng)作和行為的識(shí)別,檢測(cè)數(shù)據(jù)將映射為機(jī)器人控制器系統(tǒng)的輸入指令,進(jìn)而驅(qū)動(dòng)機(jī)器人頭、頸、軀干、臂、手等功能部件與人體各關(guān)鍵部位的運(yùn)動(dòng)態(tài)勢(shì)嚴(yán)格保持一致。
圖4 在軌近程交互方案示意圖Fig.4 Schematic diagram of close?range interaction
圖5 信息流在軌近程交互原理示意圖Fig.5 Schematic diagram of close?range interaction for information flow
在軌近程交互系統(tǒng)分別為機(jī)器人配置視覺傳感器和聽覺傳感器,為航天員配備降噪麥克風(fēng)以及立體聲耳機(jī),以方便航天員與機(jī)器人開展面對(duì)面交互。具體如下:
1)視覺傳感器:實(shí)時(shí)采集機(jī)器人工作環(huán)境的圖像信息,基于深度學(xué)習(xí)模型[9],將可見光、激光、紅外等多源信息進(jìn)行深度融合,實(shí)現(xiàn)工作環(huán)境場(chǎng)景的感知與三維建模[10],并依次完成參與交互航天員(合作伙伴)的人臉檢測(cè)與識(shí)別、視線跟蹤[11]、人體姿態(tài)計(jì)算、手勢(shì)以及動(dòng)作識(shí)別,最終的計(jì)算結(jié)果將直接轉(zhuǎn)換為機(jī)器人控制系統(tǒng)的輸入,驅(qū)動(dòng)機(jī)器人末端執(zhí)行機(jī)構(gòu)完成相應(yīng)操作。
2)聽覺傳感器:實(shí)時(shí)采集工作環(huán)境的背景音頻信息以及航天員自身發(fā)出的語音指令,為航天員攜帶的立體聲耳機(jī)提供有效輸入。
3)降噪麥克風(fēng)與立體聲耳機(jī)組合體:不僅能夠?qū)崿F(xiàn)遠(yuǎn)程交互設(shè)計(jì)中的單方面、被動(dòng)接受航天員指令的反饋,更多的需要實(shí)現(xiàn)機(jī)器人與航天員之間的無障礙、自然語音雙向交互[12],既能確保航天員的語音指令準(zhǔn)確無誤地發(fā)送至機(jī)器人,又能將體現(xiàn)機(jī)器人工作進(jìn)展程度的語音信息同步反饋至航天員,確保二者協(xié)同工作的一致性。
上述OHRI架構(gòu)具體節(jié)點(diǎn),除去成熟的技術(shù)和貨架產(chǎn)品,其余待研究?jī)?nèi)容可歸納為以下三項(xiàng)關(guān)鍵技術(shù)途徑:
1)復(fù)雜場(chǎng)景三維重建技術(shù)
在未知、復(fù)雜、非結(jié)構(gòu)空間環(huán)境中,機(jī)器人必須具備自主環(huán)境感知與三維建模功能。首先,利用張正友提出的二維平面標(biāo)定方法[13],準(zhǔn)確獲取視覺傳感器內(nèi)外參數(shù)信息,完成立體視覺校正;其次,提出一種基于光流法的特征檢測(cè)算法,能夠準(zhǔn)確提取未知、復(fù)雜、非結(jié)構(gòu)、弱紋理等環(huán)境特征信息[14];再次,采用多尺度、多源信息融合的混合匹配策略[15],建立視覺傳感器在不同時(shí)間、空間采集的圖像幀之間、圖像幀與當(dāng)前環(huán)境特征之間、環(huán)境特征之間的物理映射與對(duì)應(yīng)匹配關(guān)系;最后,準(zhǔn)確計(jì)算出復(fù)雜場(chǎng)景的三維點(diǎn)云數(shù)據(jù),依次完成點(diǎn)云配準(zhǔn)、融合、稠密化及紋理化等處理,真實(shí)重建三維場(chǎng)景信息。
明清時(shí)期,數(shù)量激增的女性詩人群體在傳統(tǒng)道德規(guī)訓(xùn)之下用“去女性化”的策略努力爭(zhēng)取文壇的合理地位,并成為十分突出的現(xiàn)象?!叭ヅ曰爆F(xiàn)象及女性的詩文創(chuàng)作引起了士人階層的廣泛爭(zhēng)議,而這種爭(zhēng)議將女性創(chuàng)作置于主流文壇的討論之中,在一定程度上也促進(jìn)了女性詩人向文壇中心的靠攏。面對(duì)士人的爭(zhēng)議,女性詩人群體自身矛盾的態(tài)度也表明了明清時(shí)期女詩人用“去女性化”的方式在傳統(tǒng)道統(tǒng)與文統(tǒng)壓迫下而爭(zhēng)取自由創(chuàng)作空間的努力是一種探索性的策略。
2)三維人體姿態(tài)估計(jì)技術(shù)
利用可見光、激光、紅外等多源視覺傳感器[16]相結(jié)合的方式,融合深度信息和顏色信息并結(jié)合人體各重要部位模型,快速檢測(cè)、識(shí)別出傳感器視場(chǎng)范圍內(nèi)航天員的人體骨骼輪廓,在此基礎(chǔ)上,將三維測(cè)量數(shù)據(jù)與人體骨骼模型予以數(shù)據(jù)配準(zhǔn),即可精確計(jì)算出表征航天員的頭、臂、手、腿、腳等重要部位的三維空間位置姿態(tài)。
3)手勢(shì)動(dòng)作識(shí)別技術(shù)
機(jī)器人成功識(shí)別、定位航天員骨骼輪廓并檢測(cè)出人體瞬時(shí)姿態(tài)后,局部放大航天員各重要部位(例如:手、腳)的細(xì)節(jié)動(dòng)作信息,并通過與預(yù)先設(shè)定的多樣化模式數(shù)據(jù)庫信息進(jìn)行配準(zhǔn)計(jì)算,準(zhǔn)確識(shí)別出航天員某一手勢(shì)、動(dòng)作的深層意圖,進(jìn)而將其轉(zhuǎn)化為機(jī)器人控制命令引導(dǎo)末端執(zhí)行機(jī)構(gòu)完成相應(yīng)的運(yùn)動(dòng)或操作。
現(xiàn)以手勢(shì)識(shí)別為例予以說明:在場(chǎng)景三維數(shù)據(jù)中,首先利用深度聚類方法將前景與背景分離,獲得手勢(shì)三維數(shù)據(jù),并提取三維角點(diǎn)、曲面曲率等三維特征;然后將這些特征作為序貫貝葉斯模型的觀測(cè),采用隱馬爾科夫模型、條件隨機(jī)場(chǎng)模型等構(gòu)建手勢(shì)狀態(tài)的時(shí)變模型,通過貝葉斯信任傳播方式完成手勢(shì)類別的推理[17?18]。
4)語音命令識(shí)別技術(shù)
語音命令同樣也是航天員與機(jī)器人交互的一種重要手段,然而機(jī)器人無法準(zhǔn)確接收、理解復(fù)雜、冗長的語音指令,這就需要機(jī)器人在接收語音指令的同時(shí),深入分析航天員說話時(shí)的動(dòng)態(tài)姿態(tài)變化,并將其作為聲音特征的輔助手段,可顯著提高語音命令識(shí)別的準(zhǔn)確度和魯棒性。盡管如此,但對(duì)于復(fù)雜的工作流程,單純依賴語音命令,航天員必須時(shí)刻關(guān)注機(jī)器人的操作進(jìn)度,并頻繁地發(fā)送語音指令引導(dǎo)機(jī)器人接續(xù)工作,上述情況,反而增加了航天員的負(fù)擔(dān),確實(shí)難以適應(yīng)復(fù)雜多變的空間環(huán)境和繁瑣的作業(yè)流程。
結(jié)合上述方案設(shè)計(jì),實(shí)驗(yàn)室環(huán)境搭建一套在軌人機(jī)交互地面驗(yàn)證系統(tǒng),硬件配置規(guī)格參數(shù)與技術(shù)指標(biāo)詳見表1~表5。
表1 頭盔式顯示器規(guī)格參數(shù)Table 1 Specification of head mounted display
表2 數(shù)據(jù)手套規(guī)格參數(shù)Table 2 Specification of data glove
表3 體感設(shè)備規(guī)格參數(shù)Table 3 Specification of motion sensor
表4 可見光傳感器規(guī)格參數(shù)Table 4 Specification of visible light sensor
表5 工控機(jī)規(guī)格參數(shù)Table 5 Specification of IPC
針對(duì)3.4節(jié)提煉的關(guān)鍵技術(shù)途徑,在軌人機(jī)交互地面驗(yàn)證系統(tǒng)依次開展了諸如模擬空間復(fù)雜場(chǎng)景三維重建、人體三維姿態(tài)估計(jì)、手勢(shì)識(shí)別、語音命令識(shí)別等驗(yàn)證性試驗(yàn),具體結(jié)果介紹如下。
1)模擬空間復(fù)雜場(chǎng)景三維重建測(cè)試
利用機(jī)器人自身攜帶的雙目立體視覺相機(jī)與紅外結(jié)構(gòu)光相機(jī)分別采集空間復(fù)雜場(chǎng)景圖像信息,經(jīng)視覺傳感器內(nèi)外參標(biāo)定與立體視覺校正、特征點(diǎn)檢測(cè)與匹配、點(diǎn)云配準(zhǔn)與紋理映射等操作,利用OpenGL真實(shí)再現(xiàn)模擬空間復(fù)雜場(chǎng)景的三維點(diǎn)云(圖 6)。
圖6 復(fù)雜場(chǎng)景三維重建結(jié)果Fig.6 Result of 3D reconstruction for complex scene
2)三維人體姿態(tài)估計(jì)測(cè)試
在三維人體姿態(tài)估計(jì)測(cè)試中,主要利用Ki?nect2.0體感相機(jī)實(shí)時(shí)采集人體動(dòng)作姿態(tài)的深度數(shù)據(jù),如圖7所示,正確識(shí)別人體骨骼模型并建立其與人體各關(guān)鍵部位之間的三維映射關(guān)系,精確恢復(fù)出包含人體姿態(tài)特征的三維點(diǎn)云圖(圖8),完成三維測(cè)量數(shù)據(jù)與人體骨骼模型之間的數(shù)據(jù)配準(zhǔn),即可估計(jì)三維人體位置姿態(tài)信息。
3)手勢(shì)識(shí)別測(cè)試
手勢(shì)識(shí)別測(cè)試中,首先,構(gòu)建手勢(shì)圖像識(shí)別數(shù)據(jù)庫,規(guī)定手勢(shì)類型包括:握拳、五指伸直并攏、剪刀手、OK手型等,上述每種類型手勢(shì)所需左手、右手圖像各10張;其次,使用上述手勢(shì)訓(xùn)練機(jī)器人完成深度聚類和手勢(shì)推理;最終,測(cè)試現(xiàn)場(chǎng)分別對(duì)上述每類手勢(shì)隨機(jī)進(jìn)行100次測(cè)試,統(tǒng)計(jì)機(jī)器人正確識(shí)別率,具體如表6所示。
圖7 Kinect 2.0采集的人體姿態(tài)深度圖Fig.7 Depth map of human pose captured by Kinect 2.0
圖8 人體姿態(tài)三維測(cè)量點(diǎn)云數(shù)據(jù)Fig.8 3D measurement point cloud of human pose
表6 手勢(shì)識(shí)別測(cè)試結(jié)果Table 6 Test results of gesture recognition
試驗(yàn)結(jié)果表明,經(jīng)過訓(xùn)練后的機(jī)器人能夠正確識(shí)別4種手勢(shì)指令,且同時(shí)支持左、右手,上述規(guī)定手勢(shì)的平均正確識(shí)別率可達(dá)74%。
4)語音命令識(shí)別測(cè)試
與手勢(shì)識(shí)別相類似,語音命令識(shí)別測(cè)試同樣包括訓(xùn)練和識(shí)別兩個(gè)階段。前者需要采集、存儲(chǔ)至少3個(gè)測(cè)試者在不同時(shí)刻發(fā)出諸如打開、放回、剪刀、螺絲刀、鉗子、啟動(dòng)、停止等單一詞匯的語音命令構(gòu)建數(shù)據(jù)庫,用于訓(xùn)練機(jī)器人完成語音信號(hào)模型構(gòu)建、特征檢測(cè)、模型訓(xùn)練與配準(zhǔn)等處理;后者則要求測(cè)試者現(xiàn)場(chǎng)隨機(jī)對(duì)機(jī)器人發(fā)出上述規(guī)定詞匯的語音命令累計(jì)100次測(cè)試,最終統(tǒng)計(jì)機(jī)器人正確識(shí)別率,具體如表7所示。
表7 語音指令識(shí)別測(cè)試結(jié)果Table 7 Test results of voice command
試驗(yàn)結(jié)果表明,經(jīng)過訓(xùn)練后的機(jī)器人能夠正確識(shí)別至少3個(gè)測(cè)試者發(fā)出的規(guī)定語音命令,平均正確識(shí)別率可達(dá)86.1%。
本文提出了一種基于多模態(tài)信息融合的在軌人機(jī)交互系統(tǒng)設(shè)計(jì),兼顧航天員與機(jī)器人之間的近/遠(yuǎn)程交互模式,適應(yīng)不同的任務(wù)需求和空間環(huán)境。試驗(yàn)結(jié)果表明,OHRI涉及的復(fù)雜場(chǎng)景三維重建、人體姿態(tài)估計(jì)結(jié)果顯著改善了時(shí)延大、臨場(chǎng)感差等缺陷;經(jīng)訓(xùn)練后的機(jī)器人對(duì)規(guī)定手勢(shì)、語音指令的平均識(shí)別正確率分別可達(dá)74%和86.1%。上述在軌交互系統(tǒng)在我國載人航天工程、月球及深空探測(cè)工程的近期及中遠(yuǎn)期發(fā)展階段中都有很廣闊的應(yīng)用前景。
[1] 林益明,李大明,王耀兵,等.空間機(jī)器人發(fā)展現(xiàn)狀與思考[J].航天器工程, 2015,24(3): 1?7.
LIN Yiming, LIDaming, WANGYaobing, et al.Current sta?tus and analysis of space robot[J].Spacecraft Engineering,2015, 24(3): 1?7.(in Chinese)
[2] Goodrich M,Schultz A.Human?robot interactions: A survey[J].Foundations and Trends in Human?Computer Interac?tion, 2007, 1(3): 203?275.
[3] 黃進(jìn),韓冬奇,陳毅能,等.混合現(xiàn)實(shí)中的人機(jī)交互綜述[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2016,28(3):869?880.
Huang Jin, Han Dongqi, Chen Yineng, et al.A survey on human?computer interaction in mixed reality[J].Journal of Computer?aided Design & Computer Graphics, 2016, 28(3):869?880.(in Chinese)
[4] National Academy of Sciences.NASA space technology road?maps and priorities: restoring NASA’s technological edge and paving the way for a new era in space[R].NASA 20120008951, 2012.
[ 5 ] Robotics?vo.A roadmap for U.S.robotics from Internet to Robotics2013 edition[R/OL].(2013)[2018].http://www. roboticscaucus. org/Schedule/2013/20March2013/2013%20Robotics%20Roadmap?rs.pdf.
[6] Diftler M A,Ahlstrom T D,Ambrose R O,et al.Robonaut 2- ?Initial activities on?board the ISS[C] //Aerospace Confer?ence.IEEE, 2011:1?12.
[7] Diftler M A,Mehling J S,Abdallah M E,et al.Robonaut 2- ?The first humanoid robot in space[C] //IEEE International Conference on Robotics and Automation.IEEE, 2011:2178?2183.
[ 8 ] Toyota Inc.Kibo robot project[EB/OL].Tokyo, (2014)[2018].https://toyota.jp/kirobo_ mini/kibo?robo/en/re?port/#re019.pdf.
[ 9 ] Feil?Seifer D J, Mataric M J.Human?robot interaction[M] //Encyclopedia of Complexity and Systems Science,Springer Reference, 2009.
[10] Murphy R, Nomura T, Billard A, et al.Human?Robot inter?action[J].IEEE Robotics& Automation Magazine,2010,17(2): 85?89.
[11] Nieuwenhuisen M, Stückler J, Behnke S.Intuitive multimo?dal interaction for service robots[ C] //ACM/IEEE Interna?tional Conference on Human?Robot Interaction (HRI), Am?sterdam,2010: 177?178.
[12] Cakmak M,Chao C,Thomaz A L.Designing interactions for robot active learners[J].IEEE Transactions on Autonomous Mental Development, 2010, 2(2): 108?118.
[13] Zhang Zhengyou.A flexible new technique for camera calibra?tion[J].IEEE Transactions on Pattern Analysis and Machine Intelligence, 2000, 22(11):1330?1334.
[14] 林義閩.未知環(huán)境中智能機(jī)器人的視覺導(dǎo)航技術(shù)研究[D].北京:北京郵電大學(xué),2014.
Lin Yimin.Research on Visual Navigation Techniques for In?telligent Robots in Unknown Environments[D].Beijing: Bei?jing University of Posts and Telecommunications, 2014.(in Chinese)
[15] Chen Lei, Dong Zhen, Gao Sheng, et al.Stereo vision?only based interactive mobile robot for human?robot face?to?face in?teraction[C]//22nd International Conference and Pattern Recognition, Stockholm, 2014: 1840?1845.
[16] 管業(yè)鵬.基于多模態(tài)視覺特征的自然人機(jī)交互[J].電子學(xué)報(bào),2013, 41(11): 2223?2229.
Guan Yepeng.Multimodal visual features based natural hu?man?computer interaction [ J]. Acta Electronica Sinica,2013, 41(11): 2223?2229.(in Chinese)
[17] 毛勝磊.移動(dòng)機(jī)械臂人機(jī)交互系統(tǒng)研究[D].濟(jì)南:山東大學(xué),2016.
Mao Shenglei.The Research of Human?Machine Interaction System for Mobile Manipulator[D].Jinan: Shangdong Uni?versity, 2016.(in Chinese)
[18] 陳磊.交互式機(jī)器人立體視覺感知方法[D].北京:北京理工大學(xué)博士學(xué)位論文,2011.
Chen Lei.Stereo Vision Perception of Interactive Robot[D].Beijing: Beijing Institute of Technology, 2011.(in Chinese)