• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種面向智能家居設備控制的多模態(tài)人機智能交互方法

      2021-07-27 09:59:52邵幫麗朱寅朱潤潘晨曦王堅奚雪峰楊顥
      林業(yè)工程學報 2021年4期
      關鍵詞:手勢指令語音

      邵幫麗,朱寅,朱潤,潘晨曦,王堅,奚雪峰*,楊顥,2

      (1. 蘇州科技大學電子與信息工程學院,江蘇 蘇州 215009; 2. 蘇州市虛擬現(xiàn)實智能交互及應用技術重點實驗室,江蘇 蘇州 215009; 3. 昆山市公安局,江蘇 昆山 215300)

      隨著物聯(lián)網(wǎng)的發(fā)展,嵌入式設備在人們的日常家居生活中得到了廣泛應用,人機交互技術為用戶帶來高質(zhì)量的生活體驗。現(xiàn)有智能家居人機交互主要借助遙控器或者手機進行紅外遙控,通過按鍵或者觸屏進行操作;還有依托語音助手[1]控制家居設備,實現(xiàn)非接觸式控制。然而,上述兩種主要控制方式都存在局限性。紅外遙控需要借助第三方移動設備,增加了故障載體;語音助手的控制方式,同樣依賴第三方移動設備,并且雖然融入了語音控制的便捷性,但仍存在輸入數(shù)據(jù)來源單一、準確率不高等問題。考慮到目前存在的人機交互方式都是間接控制且存在上述問題,本研究提出一種多模態(tài)融合[2]的方法應用于家居設備中空調(diào)的日??刂?。通過語音識別將語音指令轉(zhuǎn)換為文字指令加以理解,并輔于設定的手勢調(diào)節(jié),不借助其他設備,僅依賴于用戶語音及手勢特征。

      本研究基于多模態(tài)融合現(xiàn)有的方法以及相關基礎理論,分析并探討多模態(tài)人機交互方法,并將其應用于家居生活中空調(diào)控制系統(tǒng)的構建。

      1 相關理論基礎

      現(xiàn)有的多模態(tài)融合方法可分為模型無關的方法和基于模型的方法。模型無關的方法依據(jù)融合的階段可以分為早期融合,即基于特征的融合,在提取特征后立即集成特征[3];晚期融合,即決策級融合方法,在每種模式輸出結果后才執(zhí)行集成,主要采用如最大值融合、平均值融合、貝葉斯規(guī)則融合以及集成學習等規(guī)則來綜合不同模型輸出的結果[4];混合融合結合早期融合和單模態(tài)預測其輸出,綜合兩者的優(yōu)點,但也帶來了結構復雜和訓練的困難[5]。而利用模型解決融合的方法有核方法、圖模型方法、神經(jīng)網(wǎng)絡模型方法等[6-7]。結合視覺和語言的多模式智能應用目前頗受關注的有生成圖片字幕、文字到圖片的生成[8-10]、視覺問答[11]、視覺推理等[12]。

      智能家居的發(fā)展創(chuàng)造出舒適便捷、高效節(jié)能的家居生活環(huán)境,在物聯(lián)網(wǎng)技術的支持下從窗簾、電視等家電設備的自動控制,到智能插座、智能門鎖等智能單品的出現(xiàn),再到場景化家居以及安全節(jié)能、家居安防,智能家居解決方案越發(fā)成熟、完善。近期工作有將視覺與語音的多模態(tài)應用于智能機器人[13],語言模型選用的最大熵模型,手勢識別部分選用手勢追蹤控制器,但速度與精度還有提升的空間;有基于Android手機手勢和語音的系統(tǒng)[14],分別依賴方向傳感器通過角度來判別方向,以及訊飛語記語音識別器來進行語音識別,由于方向傳感器局限于方向,不能捕捉手勢的細節(jié)動作;此外有應用于智能助老助殘系統(tǒng)[15],依賴于第三方語音識別芯片和體感控制器,以此來控制履帶車及機械手。

      手勢識別在人機交互方面的應用主要是智能穿戴設備[16]以及車載場景[17],當駕駛員集中注意力于路面情況時,一些日常操作如接掛電話、調(diào)節(jié)音量、播放暫停音樂等可以通過手勢控制,從而避免視線被轉(zhuǎn)移造成的危險。手勢識別常規(guī)方法是通過手的膚色、形狀[18]、像素值、運動等視覺特征的組合來檢測手部動作,然后進行手勢跟蹤提供手或手指外觀位置的幀間坐標,從而產(chǎn)生手部運動的軌跡以便進行后續(xù)識別[19]。

      語音識別在智能家居中的應用以智能音箱為主,在同一局域網(wǎng)內(nèi),智能音箱可以控制多個智能設備。語音識別本質(zhì)是統(tǒng)計模式識別,依賴于聲學模型和語言模型兩個模型,前者是文字和拼音的對應轉(zhuǎn)換,而后者是字詞在整個句子中出現(xiàn)的概率[20]。

      2 多模態(tài)人機智能交互方法

      本研究所提及的交互方法主要包含3個部分:第1部分首先通過采集數(shù)據(jù)并進行預處理得到標準化輸入,然后分別使用CNN模型和ResNet模型進行手勢訓練;第2部分依次使用LSTM+CTC聲學模型、N-gram語言模型對語料庫進行訓練;第3部分,當鏡頭出現(xiàn)控制手勢時,手勢模型作出識別,提示語音輸入后,語音模型作出識別,此時通過余弦相似度的計算,將語音識別結果映射到手勢標簽,投票法按權重對3種結果計算,得到最終控制指令(圖1)。

      圖1 模塊分析圖

      2.1 方法和原理

      2.1.1 基于機器視覺的手勢識別分析

      實驗中采用羅技B525攝像頭進行圖像信息的采集。首先自定義手勢,在手勢識別中主要捕獲4種靜態(tài)手勢用于模擬家居場景——使用空調(diào)的不同操作,分別定義如下:單手做“OK”的姿勢,如圖2a所示,代表用戶想要打開空調(diào)的操作;單手做“V”的姿勢,如圖2b所示,代表用戶想要提高空調(diào)溫度的操作;單手握拳,如圖2c所示,代表用戶想要降低空調(diào)溫度的操作;五指并攏伸出,如圖2d所示,代表用戶想要關閉空調(diào)的操作;額外定義一種“nothing”,即不符合以上4種手勢的干擾圖片。

      圖2 采樣手勢

      數(shù)據(jù)預處理的流程見圖3,首先進行高斯濾波去噪,高斯濾波對噪聲可以起到很好的削弱功效,然后操作膚色分割[21],即對圖像中人體皮膚所在像素區(qū)域進行篩選檢測分離,之后對選中的圖像進行二值化處理,接著對膚色分割殘留的點進行形態(tài)學處理,先腐蝕后膨脹,最后采用膚色提取輪廓的方法得到標準化輸入。

      圖3 手勢圖片預處理流程

      膚色分割的方法是基于HSV顏色空間的膚色分割,用建立顏色空間的方式來把手勢完整地分割出來。HSV[22]顏色空間是依照顏色的直觀特性而創(chuàng)建的,用色調(diào)、飽和度、明度來描述顏色。該模式首先獲取手勢框圖,將其轉(zhuǎn)換到HSV空間(圖4);然后獲取圖片每個像素點的HSV值,即將1個二維矩陣拆成3個二維矩陣;最后根據(jù)膚色范圍定義H、S、V值的遮罩,設置判斷條件,不在膚色范圍內(nèi)把遮罩設為黑色即可。膚色分割后的效果在圖5處呈現(xiàn),將握拳手勢放置于捕捉窗口中間,ROI窗口顯示處理后得到的手勢。

      圖4 HSV模型

      圖5 Mask模式

      從圖4 HSV模型中可以看出,當不斷增加白色時,參數(shù)V會保持不變而參數(shù)S會不斷減小,因此當光線充足時,此模式非常有效。

      2.1.2 基于機器視覺的手勢識別建模

      本系統(tǒng)手勢識別部分使用的CNN模型見圖6,由輸入層、卷積層、池化層、dropout層、flatten層、全連接層、輸出層構成。兩層dropout層用于緩解過擬合,一層flatten層用于連接卷積層和全連接層。

      圖6 CNN網(wǎng)絡模型示意圖

      數(shù)據(jù)集是手動錄制的,每種手勢,包括nothing,錄制了803張圖片,采用6種數(shù)據(jù)增強方式擴充數(shù)據(jù)集:添加椒鹽、高斯噪聲,降低、提高圖片亮度,以隨機角度旋轉(zhuǎn)以及翻轉(zhuǎn)。最終數(shù)據(jù)集包括28 105張手勢的圖片,每種手勢5 621張,按6∶2∶2的比例來劃分訓練集、驗證集、測試集。用該CNN模型訓練了15輪,模型訓練結果從圖7可以看出,訓練精度與測試精度趨勢相同,收斂時差距較小,其間通過dropout正則化來減少過擬合現(xiàn)象。

      圖7 模型實驗結果

      ResNet深度殘差網(wǎng)絡,是為解決網(wǎng)絡層的增加導致訓練集準確率下降的問題而被引入的。綜合考慮數(shù)據(jù)集規(guī)模以及訓練時間,本研究選擇ResNet50進行手勢的訓練,調(diào)用Keras內(nèi)部封裝好的模型,共50層,調(diào)整輸入大小為200×200。由于網(wǎng)絡層數(shù)較深,訓練數(shù)據(jù)復雜度較小,因此訓練輪數(shù)可以適當縮減,表1是訓練10輪的情況。測試集上的精度最終達到94.51%。

      表1 ResNet50模型訓練情況

      2.1.3 基于聲學與語言模型的語音識別分析

      語音識別采用清華大學THCHS30中文語音數(shù)據(jù)集作為訓練數(shù)據(jù)集。THCHS30內(nèi)含了1萬余條中文語音文件,總時長超過30 h,采樣頻率為16 kHz,采樣大小為16 bits,是完全免費的。原創(chuàng)錄音于2000—2001年由朱曉燕教授的項目小組完成,起初設計目的是作為863數(shù)據(jù)庫的補充,盡量提高中文語音的覆蓋率。

      2.1.4 基于聲學與語言模型的語音識別建模

      聲學模型選用LSTM+CTC模型。LSTM(long short-term memory,長短期記憶網(wǎng)絡)是一種時間循環(huán)神經(jīng)網(wǎng)絡,其核心目的就是解決一般RNN(循環(huán)神經(jīng)網(wǎng)絡)存在的長期依賴問題,已被人們所熟知。CTC算法全稱是連接時序分類算法,是一種基于神經(jīng)網(wǎng)絡的時序分類算法[23]。它可以在輸入輸出序列長度比不定的情況下完成音頻文本的映射。

      語言模型選用了N-Gram模型,本質(zhì)上是一種概率圖模型。核心目標就是得出文本中某個具體句子存在的概率。語言模型的作用就是把字詞解碼成句子,把每一個拼音對應到多個漢字,每個漢字一次只讀一個拼音,這樣把拼音和漢字彼此之間的對應關系從左到右連在一起,就有了如圖8所示的有向圖。其中,y1,y2,…,yn是輸入的拼音;w11、w12、w13是y1的候選漢字;w21、w22是y2對應的候選漢字。以此類推,計算每一步的概率。通過設置閾值將概率過低的路徑過濾掉,每走一步就對閾值進行一次冪運算。依次迭代,最終得到比較理想的映射。關于語音識別模型的訓練,由于數(shù)據(jù)集太大,在云端用GPU訓練,可選用平臺FloydHub(網(wǎng)址:https://www.floydhub.com/)。

      圖8 拼音轉(zhuǎn)漢字的網(wǎng)格圖

      當前模型在驗證集上的漢語拼音準確率為81.74%,錯誤率為18.26%。最終,對預設的4條指令,每條進行了100次的語音識別操作,結果見表2。其中基本識別是指將“關閉空調(diào)”指令識別為“關低空調(diào)”,雖然沒有達到準確識別,但對空調(diào)的操作關鍵詞比較敏感。本模型基本可以完成對這4條指令的識別,在提高溫度和降低溫度兩指令上的準確度有待提高?;咀R別情況中多數(shù)由“溫”字識別錯誤導致,其錯誤識別為“翁”的概率為74.23%,后續(xù)可以選取更契合的語料庫進行訓練。

      表2 語音識別測試結果

      2.1.5 融合手勢與語音識別的多模態(tài)人機智能交互

      融合模塊中使用的預測類別方法是集成學習算法的一種,即投票法。使用投票法來創(chuàng)建強監(jiān)督模型的方法即整合每一種弱監(jiān)督模型的預測,然后通過投票去預測分類。這些弱監(jiān)督分類器訓練的數(shù)據(jù)集并不相同,彼此之間互不相關。本次實驗基于該方法,完成預測手勢識別和語音識別多個分類器結果加權投票,得到最終結果。

      實驗過程中,除了上面所提及的基于HSV顏色空間的膚色分割模式,還增加了基于閾值自適應的膚色分割模式。兩者呈現(xiàn)的效果較為不同。圖9中呈現(xiàn)的是握拳手勢在閾值自適應模式下的預測結果可視化以及關閉指令在另一種模式下的識別結果。圖10是兩種模式下nothing指令識別效果,分別是閾值自適應模式下3根手指對應的預測標簽、基于HSV顏色空間的膚色分割模式下4根手指對應的預測標簽。閾值自適應計算公式為:

      圖10 兩種模式下nothing指令

      (1)

      式中:Gavg為整幅圖的平均灰度級;u[i]為零階矩;v[i]為一階矩,可根據(jù)直方圖計算得到;f[i]是最大類間方差,該方差的灰度值便是自適應閾值。

      2.2 試驗結果與分析

      在得到語音識別所形成的文本結果后,將文本結果映射為標簽類型。具體而言,首先將文本結果轉(zhuǎn)化為詞向量,接著與手勢標簽所對應的文本詞向量進行余弦相似度的計算,最終將計算結果作為語音識別結果到手勢標簽的映射,參與加權投票。由于本研究的多模態(tài)包含手勢和語音兩種單模態(tài),并且多模態(tài)兼容單模態(tài)方式,單模態(tài)工作時會有二次驗證,因此投票權重在多模態(tài)工作下發(fā)揮重要作用。設置權重如下:初始情況兩種模態(tài)權重各占一半;ResNet-50所得到的手勢識別結果設置權重為0.3,CNN所得到的手勢識別結果設置權重為0.2,而將語音識別的結果權重設置為0.5,系統(tǒng)實驗結果如表3所示。

      表3 融合模塊測試結果

      從表3中可以看出,對于語音識別結果來說,正確結果中有182次能做到完整識別出指令并準確識別,還有57次輸出能識別出指令的含義,但是個別字映射錯誤,并不影響整體結果,比如錄入指令為“降低溫度”,而識別出“降地溫度”等。對于最終結果來說,有225次能輸出正確的指令結果,64次識別出手勢結果與語音結果不一致,在投票法的使用下,模態(tài)融合指令結果都與實際情況相吻合。測試結果表明,整體系統(tǒng)的準確率高于單獨的手勢識別和語音識別的準確率。

      圖11中手勢識別預測的是指令“調(diào)高溫度”,語音識別結果不一致,結果顯示兩次預測不一致,在投票法原則下正確識別的結果對錯誤結果進行一定程度的糾正,融合兩模態(tài)的結果,最終結果為手勢識別的結果。圖12中手勢預測為“降低溫度”,是正確指令;語音識別結果是“占低”,盡管語音識別不能準確識別語音指令,但對指令中的詞有一定的敏感度。

      圖11 預測不一致的場景案例

      圖12 預測一致的場景案例

      圖13呈現(xiàn)出來的是手勢與語音互補工作。當環(huán)境比較嘈雜時會影響語音識別效果,此時可采取手勢識別調(diào)控;當光線比較昏暗時,手勢識別會受影響,此時可以采用語音識別調(diào)控。多模態(tài)的融合充分利用了人的肢體靈活性以及手勢等姿態(tài),也因此彌補了環(huán)境復雜的情況下識別準確率不高的情況,體現(xiàn)了人機交互的友好性。

      圖13 家居適用場景

      2.3 實驗分析

      實驗結果表明,當手勢識別結果無誤的時候,即便語音識別結果模糊,依舊可以通過系統(tǒng)的判斷,得出正確結果;反之類似。因此可以實現(xiàn)在一種模態(tài)失效的情況下,仍然保持家居設備能正常使用,體現(xiàn)出了多模態(tài)信息融合的宗旨,提高了整體系統(tǒng)的魯棒性。同時,多模態(tài)的交互方式可以兼容單模態(tài)的存在,若當前只能識別到一種模態(tài),為提高指令準確率,系統(tǒng)會提示二次操作,進行確認。當然,筆者所提出的方法還有很大改進空間,例如,當前手勢指令覆蓋的范圍較小,后期可適當增加設定的手勢。此外,目前的語料庫與當前使用情景貼合度不夠高;后續(xù)的實驗操作,可考慮自己錄制符合使用情景的語料庫。此外,模態(tài)融合的方法也可以調(diào)整為基于模型的神經(jīng)網(wǎng)絡模型等方法。

      3 結 論

      智能家居的發(fā)展得益于技術的成熟,從智能插座、智能門鎖等到自動開關衣柜,人機交互的自然程度越來越高。本研究提出并構建了一個多模態(tài)的人機自然交互方法,并將其應用于家居生活中空調(diào)控制系統(tǒng)構建。用戶可以通過本系統(tǒng),采用手勢和語音兩種方式來對空調(diào)下達指令。利用深度學習技術,把包括語音指令控制、語義理解等的自然語音信號和機器視覺組合到一起,極大提高了智能家居系統(tǒng)中人機交互的自然程度,并且一定程度上增強了用戶體驗度,縮小人機交互的局限性,提升交互的精確性、順暢性和自然性。

      猜你喜歡
      手勢指令語音
      聽我指令:大催眠術
      挑戰(zhàn)!神秘手勢
      魔力語音
      基于MATLAB的語音信號處理
      電子制作(2019年14期)2019-08-20 05:43:38
      基于MQ3與MP3的價廉物美的酒駕語音提醒器
      電子制作(2019年9期)2019-05-30 09:42:10
      V字手勢的由來
      ARINC661顯控指令快速驗證方法
      測控技術(2018年5期)2018-12-09 09:04:26
      對方正在輸入……
      小說界(2018年5期)2018-11-26 12:43:42
      LED照明產(chǎn)品歐盟ErP指令要求解讀
      電子測試(2018年18期)2018-11-14 02:30:34
      勝利的手勢
      新晃| 礼泉县| 鹤山市| 井研县| 伊通| 库伦旗| 石林| 民和| 崇礼县| 阿合奇县| 朝阳市| 西乌珠穆沁旗| 铅山县| 乌兰察布市| 衢州市| 交口县| 卢龙县| 疏附县| 永宁县| 德钦县| 朔州市| 阿勒泰市| 久治县| 昆明市| 琼海市| 泰安市| 萝北县| 阿合奇县| 淄博市| 景谷| 共和县| 西华县| 鹤岗市| 安阳市| 集贤县| 内黄县| 秀山| 东安县| 称多县| 前郭尔| 鲜城|