國(guó)防科技大學(xué)
趙 航,孫 毅,李紀(jì)偉,孫盛陽(yáng)
指導(dǎo)老師:李 楠
隨著現(xiàn)代工業(yè)與服務(wù)業(yè)的迅速細(xì)分發(fā)展,機(jī)械臂作為重要的基礎(chǔ)智能裝備發(fā)揮著極大的作用。機(jī)械臂具有運(yùn)行速度快、穩(wěn)定性高、精確度高、安全性好等優(yōu)點(diǎn),被應(yīng)用于諸多領(lǐng)域,如搬運(yùn)行業(yè)、噴漆行業(yè)、精準(zhǔn)焊接、流水線(xiàn)裝配等程式化、流程化的生產(chǎn)環(huán)節(jié)已完全可代替人工進(jìn)行高強(qiáng)度、高重復(fù)的工作。在醫(yī)療手術(shù)、微電子制造與封裝、遠(yuǎn)程操作、反恐排爆、位置環(huán)境探索等領(lǐng)域,甚至能夠完成多種人工無(wú)法完成的操作。近年來(lái),隨著人類(lèi)對(duì)深海、太空、環(huán)境工程、遠(yuǎn)程醫(yī)療、家居服務(wù)等領(lǐng)域研究與應(yīng)用的多樣化需求,機(jī)械臂控制技術(shù)向大需求、多樣化、智能化方向迅猛發(fā)展已成趨勢(shì)。20世紀(jì)60年代以來(lái),美國(guó)、德國(guó)、日本等發(fā)達(dá)國(guó)家將機(jī)器人特別是工業(yè)機(jī)械臂確定為國(guó)家重要的研究發(fā)展方向,大大推動(dòng)了其工業(yè)化發(fā)展進(jìn)程,也為國(guó)家創(chuàng)造了巨大的經(jīng)濟(jì)效益。在工業(yè)機(jī)械臂發(fā)展的前中期,機(jī)械臂主要用于取代人工的大量重復(fù)性工作,不僅大大延長(zhǎng)了工作時(shí)間更提高了工作效率。近年來(lái),隨著各行各業(yè)作業(yè)多樣化的迫切需求,工業(yè)機(jī)械臂正快速向智能化方向發(fā)展。在傳統(tǒng)工業(yè)機(jī)械臂作業(yè)環(huán)境中,考慮到安全性與穩(wěn)定性的要求,機(jī)械臂通常被放置于安全空間內(nèi)工作,這無(wú)疑阻隔了機(jī)械臂與人的協(xié)調(diào)工作,且該方式缺乏操縱的靈活性,工作人員與機(jī)械臂的交互方式被限制在控制柄、鼠標(biāo)、鍵盤(pán)之類(lèi)的傳統(tǒng)模式中。為解決諸如機(jī)械臂工作環(huán)境中人員安全空間、障礙物碰撞干擾機(jī)械臂的軌跡和姿態(tài)規(guī)劃,及隨機(jī)靈活操作、遠(yuǎn)程控制、復(fù)雜環(huán)境中無(wú)法控制機(jī)械臂的問(wèn)題,壓力傳感器、視覺(jué)傳感器、觸覺(jué)傳感器、距離傳感器等智能感知設(shè)備被廣泛應(yīng)用于機(jī)械臂系統(tǒng),越來(lái)越多的機(jī)械臂系統(tǒng)向智能化方向發(fā)展,以滿(mǎn)足在復(fù)雜多變環(huán)境中更安全靈活的作業(yè)需求。
近年來(lái),智能人機(jī)交互技術(shù)迅猛發(fā)展,語(yǔ)音識(shí)別、圖像識(shí)別、視覺(jué)建模與定位、機(jī)器學(xué)習(xí)算法理論的突破性發(fā)展為機(jī)器人技術(shù)的智能化開(kāi)辟了廣闊的發(fā)展空間。傳統(tǒng)機(jī)械臂的培訓(xùn)以及人員熟悉時(shí)間較長(zhǎng),往往需要操作員花費(fèi)大量時(shí)間學(xué)習(xí),在人員培訓(xùn)效率和操作靈活性方面效率不高,也不能很好地將人手的靈活性充分體現(xiàn)在機(jī)械臂上。因此,基于視覺(jué)手勢(shì)交互方式控制的機(jī)械臂系統(tǒng)越來(lái)越多地受到人們的關(guān)注。該系統(tǒng)可以結(jié)合人工熟練的操作技能和機(jī)械臂本身的精確操作,解決復(fù)雜環(huán)境下的機(jī)械臂控制端架設(shè)問(wèn)題以及自主完成任務(wù)的難題,使得基于視覺(jué)手勢(shì)識(shí)別的機(jī)械臂交互控制系統(tǒng)成為智能機(jī)器人領(lǐng)域的研究熱點(diǎn)。
基于視覺(jué)信息的機(jī)械臂控制多采用手勢(shì)識(shí)別技術(shù)。手勢(shì)識(shí)別主要包括兩種方法:基于可穿戴設(shè)備的手勢(shì)識(shí)別技術(shù),如數(shù)據(jù)手套等;基于視覺(jué)的手勢(shì)識(shí)別技術(shù)。國(guó)外最早的手勢(shì)識(shí)別技術(shù)是美國(guó)貝爾實(shí)驗(yàn)室的科學(xué)家在上世紀(jì)80年代通過(guò)數(shù)據(jù)手套實(shí)現(xiàn)的,雖然可穿戴設(shè)備經(jīng)過(guò)長(zhǎng)時(shí)間的發(fā)展已有較高的穩(wěn)定性、精準(zhǔn)度及實(shí)時(shí)性,但其固有的高成本以及穿戴不便的問(wèn)題依舊存在。隨著科學(xué)技術(shù)的進(jìn)步,目前越來(lái)越多的人投入到基于視覺(jué)信息的手勢(shì)控制研究中,基于視覺(jué)信息的手勢(shì)控制漸漸成為主流。日本富士通公司于1991年首先實(shí)現(xiàn)了基于視覺(jué)信息的手勢(shì)識(shí)別控制技術(shù),隨后,美國(guó)的T.Starner等人在此基礎(chǔ)上成功研制了可靠性較高的美國(guó)手語(yǔ)識(shí)別系統(tǒng)。1997年,又有科學(xué)家將HMM算法用于視覺(jué)手勢(shì)識(shí)別,大幅提高了手勢(shì)識(shí)別的識(shí)別率,達(dá)91%以上。隨后F.Pollick等人采用基于曲線(xiàn)段擬合手勢(shì)輪廓算法將手勢(shì)平均識(shí)別率提高到95%。2000年,清華大學(xué)博士任海濱等通過(guò)對(duì)手勢(shì)動(dòng)作的時(shí)空表現(xiàn)建模,基于動(dòng)態(tài)時(shí)間規(guī)整算法進(jìn)行手勢(shì)動(dòng)作識(shí)別,使手勢(shì)識(shí)別率達(dá)97.2%。但上述技術(shù)都是在較好的光照和單一背景下得到的識(shí)別效果,對(duì)于復(fù)雜光照和不同背景條件的識(shí)別存在不穩(wěn)定性。2010年,美國(guó)微軟公司推出了深度攝像機(jī)Kinect,為手勢(shì)識(shí)別帶來(lái)了革命性變化,其可記錄所拍攝物體的深度信息,為更加靈活的操作提供了可能。國(guó)外機(jī)械臂視覺(jué)手勢(shì)控制技術(shù)產(chǎn)品中有兩家最具代表性,其產(chǎn)品也在該領(lǐng)域處于領(lǐng)先地位。其中之一是日本筑波大學(xué)團(tuán)隊(duì)研發(fā)的基于手勢(shì)控制的機(jī)械臂。它利用不同位置的兩款攝像頭來(lái)記錄手部的輪廓和運(yùn)動(dòng)信息,然后經(jīng)計(jì)算機(jī)處理成機(jī)械臂的舵機(jī)指令發(fā)送到機(jī)械臂的舵機(jī)端,從而控制機(jī)械臂運(yùn)動(dòng),其優(yōu)點(diǎn)是機(jī)械臂自由度大、運(yùn)動(dòng)靈活,可實(shí)現(xiàn)包括單個(gè)手指在內(nèi)的全手臂全自由度控制,但其也存在視覺(jué)提取設(shè)備復(fù)雜、占地面積大、架設(shè)成本高等缺點(diǎn)。另一個(gè)是基于Leap motion的機(jī)械臂7Bot,其無(wú)需分立攝像頭采集圖像,設(shè)備簡(jiǎn)單,易于布置,有較好的識(shí)別率,機(jī)械臂可靈活運(yùn)轉(zhuǎn)。但受Leap motion性能的限制,其只能給出特定的一些目標(biāo),如手指尖端,特定手掌的位置和朝向信息等,不利于系統(tǒng)的深度開(kāi)發(fā)。國(guó)內(nèi)有團(tuán)隊(duì)利用Kinect實(shí)現(xiàn)手勢(shì)識(shí)別,進(jìn)而控制機(jī)械臂運(yùn)動(dòng),這種方式雖然可以實(shí)現(xiàn)手勢(shì)靈活控制機(jī)械臂的目的,但Kinect是美國(guó)微軟公司的產(chǎn)品,不對(duì)外開(kāi)放源代碼,這對(duì)提升我國(guó)自主研發(fā)能力帶來(lái)了巨大挑戰(zhàn)。
本作品是基于深度攝像頭的智能交互設(shè)備,具有識(shí)別人體手部動(dòng)作,并以此靈活控制機(jī)械臂運(yùn)動(dòng)的功能?;谝曈X(jué)手勢(shì)識(shí)別的人機(jī)交互方式具有下述優(yōu)點(diǎn):
(1)控制方式靈活。非接觸式遠(yuǎn)程控制,適用于遠(yuǎn)程操作等特殊場(chǎng)合,環(huán)境適應(yīng)力強(qiáng)。通過(guò)手勢(shì)控制可以更加靈活地對(duì)機(jī)械臂進(jìn)行操控,控制方式更加高效。
(2)控制精度高。使用手勢(shì)識(shí)別控制可以降低機(jī)械臂的最小步進(jìn),使機(jī)械臂的運(yùn)動(dòng)更加精準(zhǔn)。
(3)操作簡(jiǎn)單。手勢(shì)控制機(jī)械臂使機(jī)械臂的運(yùn)動(dòng)與手部運(yùn)動(dòng)相統(tǒng)一,控制方式更直觀(guān),易于使用。機(jī)械臂跟隨人手部動(dòng)作做相同的動(dòng)作,無(wú)需操作者學(xué)習(xí)控制手冊(cè),大大提高了人員培訓(xùn)效率和機(jī)械臂的使用效率。
(4)使用成本低。只需要相鄰兩個(gè)攝像頭和一臺(tái)精簡(jiǎn)的專(zhuān)用計(jì)算機(jī)系統(tǒng)即可完成手勢(shì)采集、處理和識(shí)別工作。占地面積小,無(wú)需分布式架設(shè),節(jié)約時(shí)間和人力成本。
由此可見(jiàn),基于手勢(shì)控制的機(jī)械臂將在機(jī)械手遠(yuǎn)程控制、復(fù)雜環(huán)境作業(yè)等工業(yè)、軍事、醫(yī)療、航空航天領(lǐng)域發(fā)揮重要作用。
2.1.1 基于可穿戴設(shè)備的手勢(shì)識(shí)別
基于可穿戴設(shè)備的視覺(jué)識(shí)別一般使用可穿戴手套作為控制基礎(chǔ),通常包括肌電、加速度、壓力等傳感方式。此方式雖然能夠識(shí)別手部動(dòng)作,但其識(shí)別的只是某幾個(gè)點(diǎn)的運(yùn)動(dòng)趨勢(shì),無(wú)法精確解析出手部的運(yùn)動(dòng)姿態(tài)、位置乃至整個(gè)手臂的運(yùn)動(dòng)姿態(tài)。同時(shí)這種方案還受到每個(gè)人的個(gè)體習(xí)慣影響,難以實(shí)現(xiàn)精確操控。有限的操作信息不利于機(jī)械臂的高靈活性控制。
2.1.2 基于二維圖像的手勢(shì)識(shí)別
二維手勢(shì)識(shí)別基本不含深度信息,手勢(shì)信息僅停留在二維層面。這種技術(shù)不僅可以識(shí)別手型,還可以識(shí)別一些簡(jiǎn)單的二維手勢(shì)動(dòng)作,比如對(duì)著攝像頭揮手等。其代表公司是來(lái)自以色列的PointGrab,EyeSight和ExtremeReality。二維手勢(shì)識(shí)別擁有動(dòng)態(tài)特征,可以追蹤手勢(shì)的運(yùn)動(dòng),進(jìn)而識(shí)別將手勢(shì)和手部運(yùn)動(dòng)結(jié)合在一起的復(fù)雜動(dòng)作。得益于更加先進(jìn)的計(jì)算機(jī)視覺(jué)算法,二維手勢(shì)識(shí)別從純粹的狀態(tài)控制變成了比較豐富的平面控制。這種技術(shù)已被集成到電視中,但目前還不成熟,無(wú)法成為主要的控制方式。
由于機(jī)械臂的控制需在三維空間中完成,因此二維圖像的手勢(shì)識(shí)別具有明顯的局限性,無(wú)法獲得手部的空間深度信息。
2.1.3 基于三維信息的手勢(shì)識(shí)別
三維手勢(shì)識(shí)別需要輸入包含有深度的信息,以識(shí)別各種手型、手勢(shì)和動(dòng)作。相比于前兩種手勢(shì)識(shí)別技術(shù),三維手勢(shì)識(shí)別不能僅使用單個(gè)普通攝像頭(單個(gè)普通攝像頭無(wú)法提供深度信息),要得到深度信息需要特別的硬件,目前國(guó)際上主要有3種硬件實(shí)現(xiàn)方式。
(1)多目成像(Multi-camera)
多目成像的基本原理是使用兩個(gè)或以上的攝像頭同時(shí)攝取圖像,類(lèi)似人類(lèi)用雙眼、昆蟲(chóng)用多目復(fù)眼觀(guān)察世界,通過(guò)比對(duì)這些不同攝像頭在同一時(shí)刻獲得的圖像的差別,使用算法計(jì)算深度信息,多角三維成像。多目成像這一技術(shù)的代表產(chǎn)品是Leap Motion公司的同名產(chǎn)品和Usens公司的Fingo。多目成像在三維手勢(shì)識(shí)別技術(shù)中硬件要求最低,但同時(shí)也最難實(shí)現(xiàn)。多角成像無(wú)需任何額外的特殊設(shè)備,完全依賴(lài)于計(jì)算機(jī)視覺(jué)算法匹配兩張圖片中的相同目標(biāo)。但多目成像對(duì)于物體表面紋理特征要求較高,且目前算法還不成熟,難以實(shí)現(xiàn)較高的測(cè)量精度和速度。
(2)結(jié)構(gòu)光(Structure Light)
結(jié)構(gòu)光技術(shù)的基本原理:加載一個(gè)激光投射器,在激光投射器外放置一個(gè)刻有特定圖樣的光柵,激光通過(guò)光柵進(jìn)行投射成像時(shí)會(huì)發(fā)生折射,從而使得激光最終在物體表面上的落點(diǎn)產(chǎn)生位移。當(dāng)物體距離激光投射器較近時(shí),折射產(chǎn)生的位移較??;當(dāng)物體距離較遠(yuǎn)時(shí),折射產(chǎn)生的位移相應(yīng)變大。使用一個(gè)攝像頭檢測(cè)采集投射到物體表面上的圖樣,利用圖樣的位移變化即可通過(guò)算法計(jì)算出物體的位置和深度信息,復(fù)原三維空間。結(jié)構(gòu)光的代表應(yīng)用產(chǎn)品是微軟的Kinect一代體感相機(jī)。結(jié)構(gòu)光成像技術(shù)算法較為復(fù)雜,目前僅微軟公司掌握了其核心技術(shù)。
(3)飛行時(shí)間(Time of Flight)
飛行時(shí)間技術(shù)的基本原理:加載一個(gè)發(fā)光元件,發(fā)光元件發(fā)出的光子在碰到物體表面后會(huì)反射回來(lái)。使用一個(gè)特別的CMOS傳感器捕捉這些由發(fā)光元件發(fā)出、又從物體表面反射回來(lái)的光子,就能得到光子的飛行時(shí)間。根據(jù)光子飛行時(shí)間可以推算出光子飛行的距離,即物體的深度信息。飛行時(shí)間技術(shù)典型產(chǎn)品是索尼旗下SoftKinetic公司的深度相機(jī)。同時(shí),這一硬件技術(shù)也是微軟新一代Kinect所使用的深度感應(yīng)技術(shù)。就計(jì)算而言,飛行時(shí)間是三維手勢(shì)識(shí)別中最簡(jiǎn)單,無(wú)需任何計(jì)算機(jī)視覺(jué)方面的計(jì)算,對(duì)系統(tǒng)要求低,產(chǎn)品兼容性好,且容易小型化。
綜上所述,為了實(shí)現(xiàn)手勢(shì)控制,三維信息的獲取至關(guān)重要。飛行時(shí)間方案能完整識(shí)別出手部的姿態(tài),且無(wú)需復(fù)雜的算法,可將人手的靈活性與機(jī)械手的準(zhǔn)確性特點(diǎn)融為一體。
本系統(tǒng)采用多信息融合技術(shù)提取手臂姿態(tài)和深度信息。設(shè)備組成包括二維色彩攝像頭與三維深度攝像頭,將二者組合作為視覺(jué)傳感器,將手的二維圖像信息與深度信息一同發(fā)送至計(jì)算機(jī)端進(jìn)行數(shù)據(jù)處理,并持續(xù)跟蹤手部變化,對(duì)得到的手勢(shì)指令信息通過(guò)算法轉(zhuǎn)換,將手勢(shì)的運(yùn)動(dòng)解析成機(jī)械臂各自由度的指令集,經(jīng)單片機(jī)發(fā)送至機(jī)械臂,從而實(shí)現(xiàn)手勢(shì)控制機(jī)械臂的運(yùn)動(dòng)。系統(tǒng)設(shè)計(jì)如圖1所示。
圖1 系統(tǒng)設(shè)計(jì)框圖
本系統(tǒng)由三部分組成,即傳感器部分、計(jì)算機(jī)端以及機(jī)械部分。傳感器部分由TI公司深度攝像頭(三維飛行時(shí)間傳感器)OPT8241、深度信息處理和控制芯片OPT9221、USB通信芯片構(gòu)成。外部光學(xué)圖像通過(guò)鏡頭聚焦在OPT8241傳感器上,獲得的深度相關(guān)數(shù)據(jù)由OPT8241傳感器進(jìn)行數(shù)字化處理并提供給OPT9221控制器,處理后提供每個(gè)像素的距離輸出。最終經(jīng)過(guò)USB通信芯片發(fā)給計(jì)算機(jī)端進(jìn)行圖像處理。
圖像采集部分包含一個(gè)二維RGB攝像頭和一個(gè)記錄圖片深度信息的深度攝像頭。將拍到的二維相片和帶有深度的相片發(fā)送到計(jì)算機(jī)端進(jìn)行信息處理。
計(jì)算機(jī)端的功能是進(jìn)行數(shù)據(jù)處理并向機(jī)械臂發(fā)送動(dòng)作指令。其主要任務(wù)是通過(guò)坐標(biāo)融合、灰度提取,與事先訓(xùn)練好的樣本庫(kù)進(jìn)行對(duì)比,得出手勢(shì)信息,再對(duì)得到的手勢(shì)信息進(jìn)行跟蹤,提取出對(duì)應(yīng)于機(jī)械臂各自由度的控制指令。識(shí)別手勢(shì)利用有監(jiān)督機(jī)器學(xué)習(xí)的方法,其主要流程為樣本學(xué)習(xí)、特征提取、聚類(lèi)分析。識(shí)別到的手勢(shì)經(jīng)手勢(shì)分析算法編碼出該手勢(shì)驅(qū)動(dòng)機(jī)械臂的各自由度動(dòng)作信息,經(jīng)串口將各自由度的動(dòng)作指令發(fā)送到機(jī)械部分單片機(jī)端。
機(jī)械部分由舵機(jī)、單片機(jī)、通信芯片、電池組成多自由度機(jī)械臂,其功能是解碼計(jì)算機(jī)端發(fā)送的運(yùn)動(dòng)指令組合,實(shí)現(xiàn)手勢(shì)控制。通過(guò)機(jī)械臂的MCU單元解析計(jì)算機(jī)端的動(dòng)作指令,驅(qū)動(dòng)各自由度方向的舵機(jī)帶動(dòng)機(jī)械臂運(yùn)動(dòng)。同時(shí),機(jī)械臂觸爪上集成有溫度、壓力傳感器,可實(shí)時(shí)反饋?zhàn)ト∥矬w的問(wèn)題和抓取力量,對(duì)抓取方式進(jìn)行控制,實(shí)現(xiàn)近似人手的功能。
本方案克服了傳統(tǒng)機(jī)械臂需要控制柄等控制外設(shè)的不足,使用手勢(shì)控制,可以實(shí)現(xiàn)遠(yuǎn)程非接觸式控制;同時(shí)使用手勢(shì)控制,控制指令簡(jiǎn)明直觀(guān),方便人員操作;搭載多種傳感器,實(shí)時(shí)反饋被抓物體信息,調(diào)整抓取方案。
TOF是Time of Flight的簡(jiǎn)寫(xiě),直譯為飛行時(shí)間。所謂飛行時(shí)間法3D成像,是通過(guò)給目標(biāo)連續(xù)發(fā)送光脈沖,然后用傳感器接收從物體返回的光,通過(guò)探測(cè)光脈沖的飛行(往返)時(shí)間得到目標(biāo)物距離。該技術(shù)與3D激光傳感器原理類(lèi)似,但3D激光傳感器為逐點(diǎn)掃描式,而TOF相機(jī)則是同時(shí)得到整幅圖像的深度信息。TOF相機(jī)與普通機(jī)器視覺(jué)成像過(guò)程也有類(lèi)似之處,都是由光源、光學(xué)部件、傳感器、控制電路以及處理電路等單元組成。飛行時(shí)間測(cè)量系統(tǒng)原理框圖如圖2所示。
圖2 飛行時(shí)間測(cè)量系統(tǒng)原理框圖
TOF技術(shù)采用主動(dòng)光探測(cè)方式,與一般光照需求的不同之處在于,TOF照射單元的目的并非照明,而是利用入射光信號(hào)與反射光信號(hào)的變化測(cè)量距離,所以TOF的照射單元都先對(duì)光進(jìn)行高頻調(diào)制之后再發(fā)射。作為T(mén)OF相機(jī)的核心,TOF芯片每一個(gè)像元對(duì)入射光往返相機(jī)與物體之間的相位分別進(jìn)行記錄。運(yùn)算單元完成數(shù)據(jù)校正和計(jì)算工作,通過(guò)計(jì)算入射光與反射光的相對(duì)相移關(guān)系,即可求取距離信息。與立體相機(jī)或三角測(cè)量系統(tǒng)相比,TOF相機(jī)體積小巧,適合于一些需要輕便、小體積相機(jī)的場(chǎng)合。TOF相機(jī)能夠?qū)崟r(shí)快速地計(jì)算深度信息,達(dá)到幾十到100 fps。TOF的深度計(jì)算不受物體表面灰度和特征影響,可以非常準(zhǔn)確地進(jìn)行三維探測(cè)。而雙目立體相機(jī)則需要目標(biāo)具有良好的特征變化,否則無(wú)法進(jìn)行深度計(jì)算。TOF的深度計(jì)算精度不隨距離改變而變化,大致穩(wěn)定在厘米級(jí),這對(duì)于一些大范圍運(yùn)動(dòng)的應(yīng)用場(chǎng)合意義重大。
圖像識(shí)別即圖像的模式識(shí)別,是模式識(shí)別技術(shù)在圖像領(lǐng)域的具體應(yīng)用,是對(duì)輸入的圖像信息建立圖像識(shí)別模型,分析并提取圖像特征,然后建立分類(lèi)器,根據(jù)圖像特征進(jìn)行分類(lèi)識(shí)別的一種技術(shù)。圖像識(shí)別的主要目的是對(duì)圖像、圖片、景物、文字等信息進(jìn)行處理和識(shí)別,實(shí)現(xiàn)計(jì)算機(jī)與外部環(huán)境的直接通信。
圖像的特征提取一般可分為兩個(gè)層次,即底層的特征提取與高層次的特征提取。底層的特征提取是圖像分析的基礎(chǔ),常用的有顏色特征、形狀特征和紋理特征,具有計(jì)算簡(jiǎn)單和性能穩(wěn)定等特點(diǎn);高層的特征提取一般基于語(yǔ)義層次的高度,如人臉識(shí)別、人的行為分析等,這些都需根據(jù)底層的提取結(jié)果并通過(guò)機(jī)器學(xué)習(xí)才能得到。
深度學(xué)習(xí)是神經(jīng)網(wǎng)絡(luò)、人工智能、圖形化建模、優(yōu)化、模式識(shí)別、信號(hào)處理等研究的交叉領(lǐng)域。深度學(xué)習(xí)是模擬數(shù)據(jù)之間的復(fù)雜關(guān)系,基于表征學(xué)習(xí)的多層次的機(jī)器學(xué)習(xí)算法。一個(gè)觀(guān)測(cè)值(如一個(gè)圖像)可以通過(guò)多種方式表示,如用強(qiáng)度值矩陣表示像素。某些表示方法可以讓算法更容易完成學(xué)習(xí)任務(wù)(如人臉識(shí)別),表征學(xué)習(xí)的目標(biāo)是尋求更好的表示方法并建立優(yōu)異的模型來(lái)學(xué)習(xí)表示方法。
深度學(xué)習(xí)通過(guò)模擬具有豐富層次結(jié)構(gòu)的腦神經(jīng)系統(tǒng),建立類(lèi)似人腦的分層模型結(jié)構(gòu),對(duì)輸入數(shù)據(jù)逐級(jí)提取,形成更加抽象的高層表示(屬性類(lèi)別或特征)。深度學(xué)習(xí)利用多層非線(xiàn)性信息處理實(shí)現(xiàn)有監(jiān)督或者無(wú)監(jiān)督的特征提取和轉(zhuǎn)換、模式分析和分類(lèi),用來(lái)解釋如圖像、聲音、文本數(shù)據(jù)。高層次的特征和概念根據(jù)較低層次的特征和概念來(lái)定義,相同低層次的概念可被用來(lái)定義很多高層次的概念。這樣一個(gè)分層次的結(jié)構(gòu)稱(chēng)為深層結(jié)構(gòu)。
深度學(xué)習(xí)模型主要指超過(guò)三層的神經(jīng)網(wǎng)絡(luò)模型。圖像領(lǐng)域使用和研究最為廣泛的模型有卷積神經(jīng)網(wǎng)模型和深度信念網(wǎng)模型。卷積神經(jīng)網(wǎng)模型仿照生物視覺(jué)系統(tǒng)使用“局部感受”降低了神經(jīng)元連接權(quán)值的數(shù)目。深度信念網(wǎng)能夠?qū)o(wú)監(jiān)督預(yù)訓(xùn)練與有監(jiān)督調(diào)相結(jié)合,由受限玻爾茲曼機(jī)組成,借鑒了模擬退火的思想,在圖像識(shí)別上取得了較好的效果。
深度學(xué)習(xí)模型通過(guò)對(duì)輸入圖像樣本進(jìn)行處理,利用多層神經(jīng)網(wǎng)絡(luò)不斷提取目標(biāo)的特征信息,得到訓(xùn)練樣本。從而利用訓(xùn)練樣本對(duì)待分類(lèi)的圖像樣本進(jìn)行分類(lèi)判決,實(shí)現(xiàn)基于深度學(xué)習(xí)的圖像識(shí)別。深度學(xué)習(xí)流程如圖3所示。
圖3 深度學(xué)習(xí)流程圖
本系統(tǒng)的軟件由若干子部分組成,分別為手勢(shì)位置提取、基于深度學(xué)習(xí)的樣本特征提取、手勢(shì)信息處理及機(jī)械臂舵機(jī)指令轉(zhuǎn)換、機(jī)械臂控制和溫度壓力檢測(cè)等。系統(tǒng)軟件運(yùn)行流程如圖4所示。
圖4 軟件流程圖
在手勢(shì)識(shí)別系統(tǒng)運(yùn)行前,要準(zhǔn)備充足的手勢(shì)特征庫(kù)。為此我們采集了大量拳與掌的圖片樣本并進(jìn)行分類(lèi)、標(biāo)定。為了提高識(shí)別率,我們采集了不同角度、遠(yuǎn)近、方向的掌和拳的樣本,然后通過(guò)深度學(xué)習(xí)算法提取其特征,形成了比較完整的特征庫(kù)。
攝像頭系統(tǒng)上電后,首先對(duì)TOF和RGB攝像頭進(jìn)行初始化,以使其能正常采集圖片數(shù)據(jù)。之后不斷利用RBG攝像頭采集RGB圖像并進(jìn)行特征提取,將特征與已有的特征庫(kù)比對(duì)。如果沒(méi)有匹配項(xiàng),說(shuō)明當(dāng)前圖像中沒(méi)有手勢(shì)或者手勢(shì)特征不明顯,無(wú)法識(shí)別,繼續(xù)進(jìn)行圖像采集和特征提取、比對(duì)流程;如果發(fā)現(xiàn)匹配項(xiàng),說(shuō)明手勢(shì)識(shí)別成功,計(jì)算當(dāng)前手勢(shì)中心的二維坐標(biāo),然后利用TOF攝像頭計(jì)算深度坐標(biāo),需要注意,TOF攝像頭和RGB攝像頭是分開(kāi)的,意味著其坐標(biāo)系不一致,因此要將兩攝像頭的相對(duì)位置固定并進(jìn)行坐標(biāo)系校準(zhǔn)。最后將上述手勢(shì)的類(lèi)型、坐標(biāo)信息融合,并轉(zhuǎn)換為機(jī)械臂六個(gè)自由度舵機(jī)的位置控制字,通過(guò)串口發(fā)送給機(jī)械臂。
機(jī)械臂系統(tǒng)上電后,首先進(jìn)行系統(tǒng)初始化。機(jī)械臂的步進(jìn)電機(jī)通過(guò)PWM波控制,因此需要控制芯片產(chǎn)生PWM信號(hào),然后不斷監(jiān)測(cè)串口是否有信息傳入。如果串口接收到計(jì)算機(jī)發(fā)來(lái)的舵機(jī)控制字,則芯片內(nèi)部將其轉(zhuǎn)換為六個(gè)自由度舵機(jī)的PWM信號(hào),控制機(jī)械部產(chǎn)生相應(yīng)動(dòng)作。我們?cè)跈C(jī)械臂手指處添加了溫度和壓力傳感器,MCU還實(shí)時(shí)檢測(cè)手指處的溫度和壓力并顯示。尤其在手指閉合時(shí)可以設(shè)置壓力閾值,當(dāng)系統(tǒng)檢測(cè)到閉合壓力大于閾值時(shí)就不再繼續(xù)閉合,使機(jī)械臂可以?shī)A取比較脆弱的物品。
系統(tǒng)電路結(jié)構(gòu)包括深度攝像頭模塊、RGB攝像頭模塊、USB通信模塊、傳感器模塊、機(jī)械臂控制模塊等,如圖5所示。
深度攝像頭模塊、USB通信模塊以及機(jī)械部分控制和檢測(cè)模塊是系統(tǒng)的重要組成部分。
圖5 系統(tǒng)硬件示意圖
3.4.1 深度攝像頭模塊
(1)深度傳感器
OPT8241飛行時(shí)間(TOF)傳感器屬于TI 3D TOF圖像傳感器。該器件將TOF感應(yīng)功能與經(jīng)優(yōu)化設(shè)計(jì)的模數(shù)轉(zhuǎn)換器(ADC)和通用可編程定時(shí)發(fā)生器(TG)相結(jié)合。該器件以高達(dá)150幀/秒的幀速率(600讀出/秒)提供四分之一的視頻圖形陣列(QVGA 320×240)分辨率數(shù)據(jù)。內(nèi)置TG控制復(fù)位、調(diào)制、讀出和數(shù)字化序列。TG具備可編程性,可靈活優(yōu)化各項(xiàng)深度感應(yīng)性能指標(biāo),如功率、運(yùn)動(dòng)穩(wěn)健性、信噪比和環(huán)境消除。
OPT8241邏輯圖如圖6所示。
圖6 OPT8241邏輯圖
OPT8241供電配置電路如圖7所示。
圖7 OPT8241供電配置電路
OPT8241時(shí)鐘及數(shù)據(jù)鏈路配置電路如圖8所示。
圖8 OPT8241時(shí)鐘及數(shù)據(jù)鏈路配置電路
(2)深度信息處理與控制器
OPT9221是一款高性能3D飛行時(shí)間傳感器的控制器(TFC),用于從數(shù)字化的傳感器數(shù)據(jù)中計(jì)算深度數(shù)據(jù),并通過(guò)可編程CMOS并行接口將數(shù)據(jù)輸出。
除了深度數(shù)據(jù)外,該芯片也提供一些附加信息的提取,如幅度、周?chē)h(huán)境以及每個(gè)像素的標(biāo)記信息等。這些信息可用于濾波和實(shí)現(xiàn)模糊,并根據(jù)特定的應(yīng)用動(dòng)態(tài)控制系統(tǒng)配置。
OPT9221邏輯圖如圖9所示。
圖9 OPT9221邏輯圖
3.4.2 USB通信模塊
該電路的對(duì)外數(shù)據(jù)通信采用USB 3.0協(xié)議,將CYUSB3014作為其控制器。CYUSB3014是Cypress公司出品的USB3.0 控制器,集成有200 MHz的ARM9控制器、512 kB的RAM和USB 3.0物理層,具有可編程的100 MHz GPIF II接口。CYUSB3014邏輯圖如圖10所示。
圖10 CYUSB3014邏輯圖
3.4.3 機(jī)械臂控制和檢測(cè)模塊
機(jī)械臂控制和檢測(cè)模塊示意圖如圖11所示。
圖11 機(jī)械臂控制和檢測(cè)模塊示意圖
系統(tǒng)采用STC公司的8051單片機(jī)作為系統(tǒng)機(jī)械控制部分處理器。STC系列單片機(jī)是美國(guó)STC公司最新推出的一種新型51內(nèi)核單片機(jī)。片內(nèi)含有FLASH程序存儲(chǔ)器,SRAM,UART,SPI,A/D,PWM等模塊。STC89C51RC單片機(jī)芯片內(nèi)置標(biāo)準(zhǔn)51內(nèi)核,工作頻率范圍為0~40 MHz,擁有15 kB容量FLASH,片上集成512 B RAM、3個(gè)16位定時(shí)器、1個(gè)通用異步通信口(UART)、8個(gè)中斷源、32個(gè)通用I/O口。STC89C51RC單片機(jī)芯片示意圖如圖12所示。
圖12 STC89C51RC單片機(jī)芯片示意圖
本作品主要?jiǎng)?chuàng)新點(diǎn)如下:
(1)控制方式靈活。此方案采用非接觸式遠(yuǎn)程控制,適用于遠(yuǎn)程操作等特殊場(chǎng)合,環(huán)境適應(yīng)力強(qiáng)。通過(guò)手勢(shì)控制可以更加靈活地對(duì)機(jī)械臂進(jìn)行操控,控制方式更加高效。
(2)控制精度高。使用手勢(shì)識(shí)別控制可以降低機(jī)械臂的最小步進(jìn),使機(jī)械臂的運(yùn)動(dòng)更加精準(zhǔn)。
(3)指令通過(guò)網(wǎng)絡(luò)遠(yuǎn)程傳輸,可以遠(yuǎn)程控制并監(jiān)控,防止人為干預(yù)。
(4)支持力反饋修正。使用多種傳感器,監(jiān)控機(jī)械爪夾取物體的力度和溫度,實(shí)時(shí)反饋至MCU進(jìn)行指令調(diào)整,及時(shí)調(diào)整夾取物體的力度和時(shí)間,也可通過(guò)外部設(shè)置改變夾取物體的力度。
(5)操作簡(jiǎn)單。手勢(shì)控制機(jī)械臂使機(jī)械臂的運(yùn)動(dòng)與手部運(yùn)動(dòng)統(tǒng)一,控制方式直觀(guān),易于使用。機(jī)械臂跟隨人手部動(dòng)作做相同的動(dòng)作,無(wú)需操作者學(xué)習(xí)控制手冊(cè),大大提高了人員培訓(xùn)效率和機(jī)械臂的使用效率。
(6)使用成本低。只需要相鄰的兩個(gè)攝像頭和一臺(tái)精簡(jiǎn)的專(zhuān)用計(jì)算機(jī)系統(tǒng)就可以完成手勢(shì)采集、處理和識(shí)別工作。占地面積小,無(wú)需分布式架設(shè)。節(jié)約時(shí)間和人力成本。
本作品的關(guān)鍵技術(shù)如下:
(1)RGBD雙坐標(biāo)系的圖像配準(zhǔn)。系統(tǒng)中采用深度攝像頭和色彩攝像頭對(duì)手勢(shì)和手型進(jìn)行融合識(shí)別。從攝像頭獲取的信息分別是直角坐標(biāo)和極坐標(biāo)下的數(shù)據(jù),若想將兩個(gè)圖像融合處理則首先需要將坐標(biāo)系統(tǒng)一,因此需要進(jìn)行對(duì)應(yīng)的坐標(biāo)變換。同時(shí)考慮兩個(gè)攝像頭的視場(chǎng)角、光心、鏡頭畸變等參數(shù)會(huì)給坐標(biāo)系帶來(lái)誤差,因此在使用之前需進(jìn)行詳細(xì)的標(biāo)定和配準(zhǔn)過(guò)程。
(2)基于深度學(xué)習(xí)的手勢(shì)識(shí)別與跟蹤。系統(tǒng)基于深度攝像頭裝置得到三維信息,三維信息比二維圖像更豐富,增加了識(shí)別難度,采用傳統(tǒng)的匹配方式跟蹤識(shí)別率低于二維圖形。因此系統(tǒng)采用深度學(xué)習(xí)方式對(duì)手勢(shì)信息進(jìn)行有監(jiān)督的訓(xùn)練,實(shí)現(xiàn)了較好的識(shí)別和跟蹤效果。
(3)將識(shí)別到的手勢(shì)跟蹤坐標(biāo)轉(zhuǎn)化為控制機(jī)械臂的指令。人體的生理靈活度遠(yuǎn)比機(jī)械臂復(fù)雜,這就需要合理的算法設(shè)計(jì),提取生理特征的多自由度,通過(guò)機(jī)械臂不同自由度的聯(lián)動(dòng)實(shí)現(xiàn)機(jī)械臂的靈活控制。
(4)基于瞬時(shí)加速度的手勢(shì)跟蹤穩(wěn)定算法。在系統(tǒng)操控過(guò)程中,難免會(huì)出現(xiàn)漏識(shí)別或者誤識(shí)別情況,本作品利用預(yù)測(cè)跟蹤算法,根據(jù)人手的運(yùn)動(dòng)加速度預(yù)測(cè)手勢(shì)變化趨勢(shì),從而減小漏識(shí)別與誤識(shí)別對(duì)機(jī)械臂工作不穩(wěn)定的影響,達(dá)到穩(wěn)定機(jī)械臂運(yùn)動(dòng)的目的。
為了驗(yàn)證本系統(tǒng)的功能與性能,設(shè)計(jì)了如下測(cè)試方案:將手掌動(dòng)作與拳動(dòng)作分別置于圖像傳感器前不同位置各300次,記錄識(shí)別的次數(shù),得到識(shí)別率平均值。具體結(jié)果見(jiàn)表1所列。
表1 測(cè)試數(shù)據(jù)結(jié)果
測(cè)試過(guò)程的實(shí)際結(jié)果如圖13所示。
圖13 測(cè)試過(guò)程實(shí)際結(jié)果
本作品針對(duì)目前常用的機(jī)械臂控制方式多存在靈活度差、精度低、靈敏度低、操作復(fù)雜等缺點(diǎn)設(shè)計(jì)了基于手勢(shì)控制的智能互動(dòng)機(jī)械臂。系統(tǒng)基于深度信息實(shí)現(xiàn)了肢體動(dòng)作和機(jī)械的智能交互,為實(shí)現(xiàn)靈活地控制機(jī)械臂提供了一種新的操縱方式,滿(mǎn)足了當(dāng)前機(jī)械臂應(yīng)用領(lǐng)域的要求,使其控制更加精準(zhǔn)、靈活,用盡量少的指令指揮機(jī)械臂進(jìn)行復(fù)雜動(dòng)作。
目前系統(tǒng)雖然實(shí)現(xiàn)了手勢(shì)控制等功能,但是仍然存在反應(yīng)實(shí)時(shí)性不強(qiáng),有時(shí)跟蹤失敗等不完善的地方,這都是我們進(jìn)一步努力的目標(biāo)。下一步工作中,我們希望機(jī)械臂控制裝置更加簡(jiǎn)潔,以降低機(jī)械臂的架設(shè)成本,提高機(jī)械臂的應(yīng)用效率,讓機(jī)械臂的仿生學(xué)功能得到充分發(fā)揮,使其盡可能像人手一樣靈活發(fā)達(dá)。后續(xù)工作主要在系統(tǒng)小型化、提高識(shí)別率以及加強(qiáng)控制穩(wěn)定性方面做深入研究。