張星宇,鮑蓉,王江南,劉金成
(徐州工程學(xué)院 信息工程學(xué)院,江蘇 徐州 22100)
當(dāng)今社會(huì)在不斷發(fā)展,醫(yī)療技術(shù)在不斷進(jìn)步,人們得以活得更長(zhǎng)久,而隨之而來(lái)的人口老齡化問(wèn)題也在不斷出現(xiàn)在大眾的視野當(dāng)中,我國(guó)目前已進(jìn)入人口老齡化快速發(fā)展時(shí)期,而獨(dú)居老人的安全問(wèn)題儼然成為一個(gè)當(dāng)下令人憂慮的問(wèn)題,2006年全國(guó)疾病監(jiān)測(cè)系統(tǒng)死因監(jiān)測(cè)數(shù)據(jù)顯示:在我國(guó)65歲以上的老年人中,男性每10萬(wàn)人因跌倒而死亡的人數(shù)達(dá)到49.56人,女性為52.80人。而我國(guó)目前65歲及以上老年人達(dá)到1.4億,占比超過(guò)10%。如果以20%的發(fā)生概率來(lái)計(jì)算,那么每年將有2800多萬(wàn)老年人會(huì)發(fā)生意外。
因此,獨(dú)居老人在家中發(fā)生意外事件無(wú)法自救的問(wèn)題引起了社會(huì)廣泛的關(guān)注?;谶@種背景下,研制基于圖像識(shí)別和物聯(lián)網(wǎng)技術(shù)的家庭智能看護(hù)機(jī)器人具有很好的應(yīng)用價(jià)值和意義。
本項(xiàng)目是一項(xiàng)實(shí)現(xiàn)老人智能監(jiān)護(hù)的綜合性解決方案。本項(xiàng)目主要通過(guò)一個(gè)機(jī)器人會(huì)定時(shí)在家中進(jìn)行老人找尋,老人識(shí)別,以及對(duì)老人行為以及情緒的判斷來(lái)分析出老人當(dāng)前的健康安全狀態(tài)。子女可以通過(guò)特定的app來(lái)實(shí)時(shí)主動(dòng)看到當(dāng)前老人的狀況,機(jī)器人在分析出老人出了安全健康問(wèn)題后會(huì)第一時(shí)間通過(guò)郵件或彈窗的形式提醒正在工作的子女。讓子女第一時(shí)間去了解家中的情況以及對(duì)老人進(jìn)行救治,這樣大大減少了老人在家發(fā)生意外而無(wú)人發(fā)現(xiàn)的問(wèn)題。同時(shí)該機(jī)器人不會(huì)時(shí)時(shí)刻刻進(jìn)行對(duì)老人的監(jiān)護(hù),只會(huì)每隔一段時(shí)間找尋一次,不會(huì)對(duì)老人正常的生活產(chǎn)生困擾。同時(shí)我們還對(duì)老人配備有聯(lián)動(dòng)外部設(shè)備——智能手環(huán),機(jī)器人可以判斷老人的行為是否正常,手環(huán)則可以對(duì)老人的心率、睡眠情況、血壓等身體狀態(tài)進(jìn)行監(jiān)測(cè),這樣就實(shí)現(xiàn)了外部與身體內(nèi)部的雙重監(jiān)護(hù),做到精確檢測(cè)結(jié)果,不會(huì)出現(xiàn)誤判的情況。
服務(wù)端分為子女a(chǎn)pp信息,外部設(shè)備信息以及機(jī)器人傳輸信息三大部分。子女可以通過(guò)app來(lái)給服務(wù)端發(fā)送消息,來(lái)讓機(jī)器人進(jìn)行主動(dòng)找尋老人并看到監(jiān)護(hù)結(jié)果;外部設(shè)備實(shí)時(shí)將身體狀態(tài)上傳到服務(wù)端;機(jī)器人定時(shí)找尋并上傳結(jié)果到服務(wù)端,如果老人出現(xiàn)意外,就通過(guò)服務(wù)端來(lái)告訴子女。子女a(chǎn)pp和機(jī)器人可以進(jìn)行雙向交互,實(shí)現(xiàn)靈活使用的目的。
項(xiàng)目主要功能有遠(yuǎn)程無(wú)線通信、機(jī)器人自主移動(dòng)控制系統(tǒng)、機(jī)器人智能語(yǔ)音識(shí)別系統(tǒng)、動(dòng)作模式和情感識(shí)別以及在此基礎(chǔ)上的長(zhǎng)期大尺度下的行為模式變遷和健康趨勢(shì)分析。系統(tǒng)功能框架如圖1所示:
圖1 整體功能框架圖
如圖2所示,當(dāng)機(jī)器人收取必要信息時(shí),會(huì)通過(guò)服務(wù)端發(fā)給用戶所用的手機(jī)或者電腦上,供用戶進(jìn)行下一步操作,發(fā)送指令給機(jī)器進(jìn)行各個(gè)服務(wù)的使用。同時(shí)機(jī)器人也收集信息給數(shù)據(jù)庫(kù)進(jìn)行分析,學(xué)習(xí),給予用戶更準(zhǔn)確的判斷。
圖2 無(wú)線通信
如圖3所示,當(dāng)用戶對(duì)機(jī)器人發(fā)送自主移動(dòng)的命令后,機(jī)器人會(huì)根據(jù)自己原有的程序進(jìn)行路徑規(guī)劃,避障等操作尋找指定目標(biāo)。
圖3 自主移動(dòng)控制系統(tǒng)
該系統(tǒng)采集大量關(guān)于人體動(dòng)作的視頻,并在建立的數(shù)據(jù)集上進(jìn)行分析,利用KNN算法進(jìn)行查找分類,從而識(shí)別老人的行為舉止。對(duì)于正常的行為,機(jī)器人會(huì)作為學(xué)習(xí)數(shù)據(jù),對(duì)于不正常的行為,則采用相應(yīng)的應(yīng)急措施。功能結(jié)構(gòu)如圖4所示:
圖4 行為識(shí)別
如圖5所示,當(dāng)用戶與機(jī)器人說(shuō)話時(shí),機(jī)器人會(huì)通過(guò)原有的程序?qū)τ谡Z(yǔ)音進(jìn)行處理,通過(guò)識(shí)別語(yǔ)氣,語(yǔ)義來(lái)選擇不同的對(duì)話方式,使得對(duì)話更適合環(huán)境,同時(shí)使用CNN[1]神經(jīng)網(wǎng)絡(luò)輔助語(yǔ)氣,語(yǔ)義的判斷,使得系統(tǒng)在長(zhǎng)期使用下使系統(tǒng)與用戶之間的對(duì)話更加人性化。
圖5 智能語(yǔ)音識(shí)別
由于市面上對(duì)于行為識(shí)別的數(shù)據(jù)集并不是太多,并且各大公司的AI平臺(tái)在該方面數(shù)據(jù)集處于封閉狀態(tài),給數(shù)據(jù)搜集的難度造成很大影響。為此我們?cè)O(shè)計(jì)了專門的爬蟲算法爬取了部分視頻網(wǎng)站相關(guān)典型動(dòng)作的視頻,調(diào)用了python的lxml和requests庫(kù)。但對(duì)于爬取的視頻的典型性并不是太過(guò)于明顯,之后我們重心方向放在生活實(shí)際,拍取生活實(shí)際中最典型的行為動(dòng)作這樣對(duì)于機(jī)器學(xué)習(xí)的數(shù)據(jù)完整性做了相應(yīng)的補(bǔ)充。
在數(shù)據(jù)分析中,我們主要基于卷積神經(jīng)網(wǎng)絡(luò)[2]進(jìn)行分析,考慮到相對(duì)于傳統(tǒng)的人工特征方法,確定魯棒的特征[3]在行為分析中是一個(gè)關(guān)鍵問(wèn)題?;谔崛〉聂敯籼卣?,機(jī)器學(xué)習(xí)相應(yīng)的分類器來(lái)給出視頻中主體行為的一個(gè)判斷。在早期,灰度、梯度、光流等這些人為定義或設(shè)計(jì)的一些特征是魯棒特征提取的研究工作的重點(diǎn)。隨著深度學(xué)習(xí)的領(lǐng)域的不斷深入,發(fā)展,基于深度學(xué)習(xí)的新的行為分析方法不斷涌現(xiàn)。人為定義或設(shè)計(jì)的特征方法已遠(yuǎn)遠(yuǎn)不能滿足目前基于深度網(wǎng)絡(luò)自主學(xué)習(xí)的特征表達(dá)的性能。
在視頻中應(yīng)用CNN一個(gè)簡(jiǎn)單的方法就是對(duì)每一幀運(yùn)用CNN來(lái)識(shí)別,但是這種方法并沒有考慮到連續(xù)幀間的運(yùn)動(dòng)信息。提出了一種名叫3D卷積[4]的方法可以有效的綜合這些運(yùn)動(dòng)信息。通過(guò)在CNNs的卷積層進(jìn)行3D卷積,以捕捉在時(shí)間和空間維度都具有區(qū)分性的特征。3D卷積是將多個(gè)連續(xù)的幀融合,并在融合后運(yùn)用3D卷積核,來(lái)提取連續(xù)幀之間的運(yùn)動(dòng)信息。通過(guò)這樣的結(jié)構(gòu),卷積層中每一個(gè)map特征值都會(huì)與上一層中多個(gè)相鄰的幀連接起來(lái),從而捕捉運(yùn)動(dòng)信息。一個(gè)完整的3D CNN架構(gòu)由3個(gè)卷積層、1個(gè)硬連線hardwired層、2個(gè)下采樣層和1個(gè)全連接層組成。每個(gè)3D卷積核可以卷積連續(xù)的7幀信息,每幀的大小是60×40。在最初階段,我們先是通過(guò)一個(gè)固定的hardwired的核來(lái)處理原始的幀,令其產(chǎn)生多個(gè)通道的信息,然后對(duì)產(chǎn)生的信息分別處理。最后再將所有通道中處理完的信息進(jìn)行整合,最終獲取最后的特征描述。
然而,對(duì)于3D CNN模型的輸入往往被限制為一個(gè)少的連續(xù)視頻幀,但是生活實(shí)際的快速運(yùn)動(dòng)對(duì)于幀數(shù)要求比較高,因此,在3D CNN模型中,為了達(dá)到捕捉這種高層的運(yùn)動(dòng)信息這個(gè)目的,我們會(huì)捕捉大量的幀來(lái)計(jì)算運(yùn)動(dòng)特征,然后通過(guò)計(jì)算出的這些運(yùn)動(dòng)特征來(lái)作為輔助,使得3D CNN模型規(guī)則化。模型的所有參數(shù)都是隨機(jī)初始化,然后通過(guò)隨機(jī)diagonal Levenberg-Marquardt方法[5]來(lái)優(yōu)化訓(xùn)練。
對(duì)于機(jī)器人在家中行走能否識(shí)別前方物體以及正確的繞過(guò)障礙物走過(guò)去,這也是智能的一方面體現(xiàn)。
機(jī)器人身上裝有大量的傳感器,在行走的過(guò)程可以基于紅外線或者超聲波傳感器實(shí)時(shí)測(cè)試距離,實(shí)現(xiàn)距離上的感應(yīng),繞開障礙物的效果。此外,在行走過(guò)程中勢(shì)必要做到最短路徑行走以達(dá)到節(jié)能減排的作用。
機(jī)器人身上存在攝像頭以及傳感器等外部設(shè)備,這方面我們主要使用SLAM[6]算法即對(duì)機(jī)器人同時(shí)定位與建圖,這是一個(gè)3D軌跡的實(shí)時(shí)算法,他可以通過(guò)單目相機(jī)來(lái)恢復(fù)快速通過(guò)未知場(chǎng)景時(shí)的3D軌跡。我們把此系統(tǒng)稱為MonoSLAM,這是第一個(gè)將SFM方法應(yīng)用到SLAM中的成功應(yīng)用。此方法的核心是,通過(guò)概率框架,可以在線創(chuàng)建一個(gè)高質(zhì)量特征的稀疏映射的地圖。
其流程流程如圖6所示,初始化后,它將會(huì)主動(dòng)計(jì)算出3D概念圖,建立自然視覺地標(biāo),使用針對(duì)相機(jī)平滑運(yùn)動(dòng)的通用運(yùn)動(dòng)模型以及單目特征初始化和特征方位估計(jì)建模,預(yù)測(cè),并持續(xù)的進(jìn)行更新??傊?,這些都是一種非常有效和健壯的算法,可以在標(biāo)準(zhǔn)PC和相機(jī)上以30Hz運(yùn)行。通過(guò)對(duì)于SLAM算法的有效應(yīng)用,擴(kuò)展了機(jī)器人系統(tǒng)的范圍,開啟了新的領(lǐng)域。
圖6 SLAM 算法流程圖
自主尋人的技術(shù)衍生在自主避障以及路徑規(guī)劃技術(shù)實(shí)現(xiàn)的基礎(chǔ)上,機(jī)器人根據(jù)長(zhǎng)時(shí)間的和老人相處,記錄老人的樣貌以及身體形態(tài),運(yùn)用到非監(jiān)督學(xué)習(xí)算法,讓機(jī)器人自己能準(zhǔn)確分析出老人。
對(duì)于老人樣貌分析,一般的識(shí)別方法是通過(guò)對(duì)于人的眼睛,嘴巴,鼻子等重要的特征點(diǎn)的位置和重要器官的形狀來(lái)作為分類特征進(jìn)行識(shí)別的,但在隨著圖像識(shí)別研究的不斷深入,研究者們?cè)谶M(jìn)行一系列的實(shí)驗(yàn)性研究后,發(fā)現(xiàn)幾何特征提取的精確性遠(yuǎn)遠(yuǎn)沒有我們想像的那么高。因此,為了改進(jìn)幾何特征方法,可變形模板法應(yīng)運(yùn)而生。[7]可變形模板法通過(guò)設(shè)計(jì)一個(gè)參數(shù)可調(diào)的器官模型(即可變形模板),定義一個(gè)能量函數(shù),通過(guò)調(diào)整模型參數(shù)使能量函數(shù)最小化,使得計(jì)算出的模型參數(shù)作為該器官的幾何特征。
對(duì)于老人體態(tài)分析,可調(diào)用上面的行為分析相關(guān)思路,改變機(jī)器相應(yīng)的訓(xùn)練方向,轉(zhuǎn)換為身體的特征值提取,達(dá)到粗略的體態(tài)識(shí)別的目的。
運(yùn)用到多線程知識(shí),在使用路徑規(guī)劃的同時(shí),調(diào)用對(duì)老人識(shí)別的算法,從而實(shí)現(xiàn)邊走路邊找人的功能實(shí)現(xiàn)。
用戶在使用過(guò)程中產(chǎn)生大量數(shù)據(jù),如果不好好利用就會(huì)造成資源上的浪費(fèi),而這些數(shù)據(jù)也是我們體現(xiàn)出來(lái)的智能的特點(diǎn)。在這里我們使用NLP技術(shù),設(shè)計(jì)一個(gè)機(jī)制,對(duì)于老人生活實(shí)際中的經(jīng)常喜歡的事情以及喜歡看的節(jié)目一些小事情,都轉(zhuǎn)化為相應(yīng)的自然語(yǔ)言處理,然后自發(fā)的對(duì)這些自然語(yǔ)言處理,從而顯得更加人性化。同時(shí)運(yùn)用一些外部設(shè)備我們以可以看到老人的一些身體數(shù)據(jù),這些數(shù)據(jù)具有一定的使用價(jià)值,我們可以根據(jù)老人最近一兩個(gè)月睡眠,心率的情況,對(duì)比之前的,畫成折線圖,反應(yīng)最近幾天老人的狀態(tài),反饋給家人,從而家人更好的關(guān)心老人。
本文所介紹的是對(duì)于智能看護(hù)機(jī)器人的整體設(shè)想與關(guān)鍵技術(shù)介紹,結(jié)合了當(dāng)下較為前沿的物聯(lián)網(wǎng)技術(shù)以及深度學(xué)習(xí)算法通過(guò)機(jī)器所采集的數(shù)據(jù)來(lái)對(duì)于老人實(shí)施到一定的監(jiān)護(hù)安全作用,其應(yīng)用領(lǐng)域廣,所研討的方向有較大的應(yīng)用價(jià)值。但是目前我們對(duì)對(duì)于老人行為模式下的訓(xùn)練集仍不夠,還可以繼續(xù)擴(kuò)大訓(xùn)練集以增加準(zhǔn)確度,對(duì)于整體的設(shè)計(jì)上仍存在著不符合實(shí)際應(yīng)用的漏洞,仍值得進(jìn)一步的深究,實(shí)驗(yàn)。