劉建杰 馬 帥 程訓聰 賀 沅 郭東旭
(黑龍江科技大學 機械工程學院,黑龍江 哈爾濱 150000)
寫字機器人的技術涉及到了單片機的使用,多種傳感器相互協(xié)調,機械結構傳動控制等,目前的寫字機器人產(chǎn)品還存在這很多的問題和缺陷,應用場景因此受到很大限制,使用者的體驗效果也有很大限制。本文所述的寫字機器人是為了設計一種能夠增加設備使用便捷性以及能夠完善寫字機器人系統(tǒng)功能,從而達到對寫字機器人起到一定的推廣作用。使其在教學、語言學習等相關領域起到幫助性作用。
另外,隨著物聯(lián)網(wǎng)技術的發(fā)展,人工智能與物聯(lián)網(wǎng)技術的結合更加適合于市場的發(fā)展方向,本文所述的寫字機器人項目在市場上原有寫字機器人功能的基礎上向著人機交互以及視覺處理方面研發(fā),通過視覺處理可以實現(xiàn)文字、書法、書畫的模仿。理論上只要能夠建立相應的字體庫就能夠實現(xiàn)上述功能。另外在人機交互系統(tǒng)的運作下,系統(tǒng)能夠更簡便的完成簡單的使用指令,使寫字機器人向著更加智能化、功能化方向前進。
隨著技術的發(fā)展,寫字機器人被應用在辦公、語言學習等多個領域。目前在日常生活以及辦公領域還尚未普及,在技術的現(xiàn)實上,國內(nèi)市場的寫字機器人僅僅達到了能夠寫字的功能,距離真正的生產(chǎn)實際應用還有很大的差距。國內(nèi)對于寫字機器人的研究主要在于機器人自由度算法以及矢量化算法和字體書寫軌跡的運算以及轉化。對于智能化和功能化方面還有很大的進步空間,通過對于計算機視覺技術、語音識別技術的應用完善寫字機器人的智能化。
系統(tǒng)是基于語音識別以及視覺處理設計的,本系統(tǒng)主要以raspberry 作為中心處理器,是整個系統(tǒng)的核心。中心處理器主要實現(xiàn)對圖像的識別以及內(nèi)部包含多種文字庫,可以通過實現(xiàn)不同字體調用不同的文字庫。本文所述系統(tǒng)的機械結構控制主要通過stm32 單片機進行移動,可以實現(xiàn)x,y 軸的移動、筆的起落控制、人機交互裝置的轉動。本文所述系統(tǒng)還帶有由k210 實現(xiàn)的語音識別功能、面部追蹤功能。(圖1)
圖1 系統(tǒng)總體設計圖
3.1.1 掃描原理:(7)攝像頭與中心處理器直接相連,將所拍攝的圖片傳輸至中心處理器,中心處理器中通過計算機視覺處理,將識別出的文字數(shù)據(jù)整理傳給下位機stm32 端,通過下位機實現(xiàn)書寫功能。
3.1.2 常規(guī)書寫功能:通過輸入文件形式,將文件的內(nèi)容通過數(shù)據(jù)傳輸給下位機,下位機實現(xiàn)書寫功能,機器人完成寫字效果如圖2。
圖2 寫字效果圖
3.1.3 人機交互:人機交互裝置通過k210 開發(fā)板直接控制,(22)攝像頭與k210 直接相連接,使用者可以通過語音進行簡單啟動指令,切換文件指令,并可以通過語音識別實現(xiàn)臨時文字打印。攝像頭在使用者使用人機交互裝置同時啟動,攝像頭會進行人臉定位,操控舵機轉動使機器人頭部顯示面板面向使用者。
圖3 裝置設計圖
3.3.1 實現(xiàn)流程(圖4)
圖4 文字提取流程圖
3.3.2 實現(xiàn)原理
(1)通過閾值化和腐蝕處理:可以將文字大致提取出來,在經(jīng)過去噪處理可將圖片中存在的噪聲像素去除。
閾值處理(threshold):按照灰度級,對圖像的像素點進行劃分。得到的子集形成與實景相對的區(qū)域,保證各個區(qū)域內(nèi)部屬性是一致的,與周圍區(qū)域屬性分別開。
●Dst:輸出圖像
●Thresh:設定閾值
●Maxval:最大值
●Src:原圖像
腐蝕處理(getStructuringElement):在圖像處理中腐蝕屬于形態(tài)學操作,其含義就是將圖片變“瘦”,通常用來處理毛刺問題。
(2)區(qū)域檢測:采用檢測連通區(qū)域,再根據(jù)連通區(qū)域計算邊框從而進行檢測。需說明的是本文涉及到的區(qū)域檢測使用的是種子填充法。
(3)字體邊框計算:通過連通區(qū)域的像素點,得到一個連通區(qū)域坐標點的集合list,檢測時每次棧一個點,就將這個點加入到這個坐標點集合中去,得到集合列表texts。這樣就可以得到文字框架。
最終問題識別效果圖,見圖5。
圖5 文字識別效果圖
語音識別技術主要運行流程:首先處理設備會將收集到的語音波形進行特征提取,信號的分析處理,此過程中會出去雜質信息,并將分析處理好的信息進行關鍵信息的特征提取。由于提取到的特征一般是多維向量形式,所以就要通過聲學模型中的算法對收取到的特征進行進一步處理;最后就是進行解碼階段,在這一階段計算機會按照語言模型以及詞匯表對處理完成的信息進行按序分析識別,最后根據(jù)關鍵意思進行排列。
本項目設計的基于人機交互的智能寫字機器人,在智能性、服務性、移動位移的精確性、使用壽命以及系統(tǒng)的可更新性方面相較于市面上的產(chǎn)品由相對的提高。通過智能化的寫字機器人能夠更加適用于當下物聯(lián)網(wǎng)- 人工智能的時代。本項目有很大研究性,今后在機器人中加入神經(jīng)網(wǎng)絡,將會更加適用于當下人們的學習生活。結果表明,本項目具有深入研究的意義。