摘要:本文提出了一種高效智能的文檔處理機(jī)器人設(shè)計(jì)方案,旨在提高文檔處理效率,降低人力、物力、時(shí)間成本以及失誤率,以適應(yīng)現(xiàn)代辦公環(huán)境的智能、自動(dòng)化趨勢(shì)。該機(jī)器人可以根據(jù)用戶定義的關(guān)鍵字詞規(guī)則,實(shí)現(xiàn)智能地將紙質(zhì)文檔分類或排序,此外還能實(shí)現(xiàn)內(nèi)容采集與糾錯(cuò)等任務(wù)。其采用三軸桁架結(jié)構(gòu)的機(jī)械手,桁架結(jié)構(gòu)由步進(jìn)電機(jī)驅(qū)動(dòng),機(jī)械手包含攝像頭、真空吸盤以及多個(gè)傳感器。用戶放入待處理的紙質(zhì)文檔,并通過(guò)局域網(wǎng)連接主控板進(jìn)行發(fā)布任務(wù),然后由機(jī)械手?jǐn)z像頭檢測(cè)紙張位置以及識(shí)別文字,接著由真空吸盤吸取紙張,分類放置在指定位置。綜合以上設(shè)計(jì),本方案大幅提高了辦公的效率和智能化,為自動(dòng)化文檔處理領(lǐng)域提供了一個(gè)可行的解決方案。
關(guān)鍵詞:文檔處理機(jī)器人;三軸桁架結(jié)構(gòu);機(jī)械手;氣動(dòng);目標(biāo)檢測(cè);字符識(shí)別;自然語(yǔ)言處理;Python;YOLOv8
中圖分類號(hào):TP311文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2024)34-0028-05開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
0引言
在現(xiàn)代辦公環(huán)境中,紙質(zhì)文檔的處理和管理一直是一個(gè)重要但耗時(shí)的任務(wù)。傳統(tǒng)的人工處理方式不僅效率低下,而且容易出現(xiàn)錯(cuò)誤,導(dǎo)致人力和物力的浪費(fèi)。隨著信息技術(shù)和自動(dòng)化控制技術(shù)的快速發(fā)展,智能化辦公設(shè)備逐漸成為各行各業(yè)的迫切需求。通過(guò)引入機(jī)器人來(lái)替代人工進(jìn)行重復(fù)性、高強(qiáng)度的工作,成為現(xiàn)代機(jī)器人研究的一個(gè)重要方向。
近年來(lái),許多研究者在此領(lǐng)域作出了重要貢獻(xiàn)。例如,張銳通過(guò)對(duì)桁架機(jī)器人的可靠性分析和改進(jìn),設(shè)計(jì)了一款用于汽車傳動(dòng)軸自動(dòng)線的機(jī)器人,提升了自動(dòng)化生產(chǎn)線的穩(wěn)定性和效率[1]。此外,張?jiān)馈O偉和唐慶偉設(shè)計(jì)了一種基于目標(biāo)檢測(cè)的桌面整理機(jī)器人,能夠有效識(shí)別和整理桌面物品,展示了智能化辦公設(shè)備在提升工作效率方面的巨大潛力[2]。趙先的研究則為沖壓機(jī)械手設(shè)計(jì)了一種氣動(dòng)真空系統(tǒng),解決了因真空壓力不穩(wěn)定而影響作業(yè)效率的問(wèn)題,提升了機(jī)械手的工作可靠性[3]。謝波、熊立貴、吳文君等人設(shè)計(jì)并分析了碼垛機(jī)械手的吸附式手部裝置,該裝置基于真空系統(tǒng),能夠高效地抓取和處理平整面產(chǎn)品、紙箱包裝產(chǎn)品以及袋裝包裝產(chǎn)品,從而顯著提高了碼垛機(jī)械手的性能[4]。王曉瑜和鄭夢(mèng)強(qiáng)開發(fā)了一種基于視覺識(shí)別的智能分揀機(jī)械臂,該機(jī)械臂利用工業(yè)相機(jī)采集物料圖像,結(jié)合HALCON軟件處理圖像,并通過(guò)PLC系統(tǒng)實(shí)現(xiàn)了高精度的分揀操作,展現(xiàn)了智能化分揀系統(tǒng)的優(yōu)越性[5]。
1總體設(shè)計(jì)
本設(shè)計(jì)方案開發(fā)了一款基于AI全自動(dòng)紙質(zhì)文檔處理機(jī)器人,整體結(jié)構(gòu)如圖1所示。機(jī)器人包括硬件和軟件兩大部分,其中硬件設(shè)計(jì)包括結(jié)構(gòu)框架、傳動(dòng)系統(tǒng)、機(jī)械手。該機(jī)器人采用三軸桁架結(jié)構(gòu),通過(guò)步進(jìn)電機(jī)驅(qū)動(dòng),由同步帶和齒輪齒條傳動(dòng),機(jī)械手包括攝像頭、限位開關(guān)、真空吸盤等。軟件設(shè)計(jì)包括算法應(yīng)用和控制程序,而算法應(yīng)用則包括目標(biāo)檢測(cè)、字符識(shí)別和自然語(yǔ)言處理。目標(biāo)檢測(cè)基于YOLOv8s模型,通過(guò)訓(xùn)練和優(yōu)化實(shí)現(xiàn)高效準(zhǔn)確的實(shí)時(shí)圖像識(shí)別,用于識(shí)別紙張的位置,字符識(shí)別分別通過(guò)OpenCV和PyT?esseract進(jìn)行預(yù)處理和OCR識(shí)別紙張上的內(nèi)容,自然語(yǔ)言處理通過(guò)調(diào)用科大訊飛的API接口實(shí)現(xiàn)文檔內(nèi)容的分析和處理。控制程序采用上位機(jī)與下位機(jī)相結(jié)合的形式,部署在魯班貓4開發(fā)板,前端基于Boot?strap框架開發(fā)用戶界面,后端基于Flask框架處理業(yè)務(wù)邏輯,通過(guò)GPIO引腳實(shí)現(xiàn)對(duì)電機(jī)、傳感器等硬件設(shè)備的控制以及數(shù)據(jù)傳輸,同時(shí),用戶通過(guò)局域網(wǎng)實(shí)現(xiàn)任務(wù)發(fā)布和實(shí)時(shí)控制。
2硬件設(shè)計(jì)
2.1結(jié)構(gòu)框架
結(jié)構(gòu)框架采用三軸桁架機(jī)械手結(jié)構(gòu),桁架結(jié)構(gòu)由鋁型材通過(guò)緊固件連接而成。其結(jié)構(gòu)包括X、Y、Z三軸。首先使用12支鋁型材構(gòu)成長(zhǎng)方體,頂部的兩條長(zhǎng)邊作為X軸,在X軸上增加一條橫梁垂直于X軸作為Y軸,接著在Y軸上再增加一條豎梁垂直于X軸和Y軸作為Z軸,最后在Z軸上連接機(jī)械手,使機(jī)械手在X、Y、Z三個(gè)方向上具有獨(dú)立自由度,能夠覆蓋三維坐標(biāo)系中的任意位置。
2.2傳動(dòng)系統(tǒng)
在X、Y、Z軸上分別安裝傳動(dòng)裝置,每個(gè)軸由一個(gè)步進(jìn)電機(jī)驅(qū)動(dòng),以確保機(jī)械手在三維空間中的精確運(yùn)動(dòng)和定位。在X軸上,安裝直線導(dǎo)軌,滑塊在導(dǎo)軌上滑動(dòng)。滑塊上固定橫梁,橫梁能夠在X軸的基礎(chǔ)上線性運(yùn)動(dòng)。為了保證橫梁兩端的平衡同步運(yùn)動(dòng),采用一個(gè)步進(jìn)電機(jī)的輸出軸同時(shí)驅(qū)動(dòng)兩側(cè)的同步帶,即采用梅花聯(lián)軸器將輸出軸和光軸相連,然后將兩側(cè)的同步帶輪固定在光軸上,實(shí)現(xiàn)機(jī)械手在X軸方向上的左右移動(dòng)。橫梁作為Y軸,采用齒輪齒條傳動(dòng),步進(jìn)電機(jī)驅(qū)動(dòng)齒輪,而齒輪與齒條緊密嚙合,從而將電機(jī)的旋轉(zhuǎn)運(yùn)動(dòng)轉(zhuǎn)化為導(dǎo)軌滑塊的線性運(yùn)動(dòng),實(shí)現(xiàn)機(jī)械手在Y軸方向上的前后移動(dòng)。Z軸連接Y軸的導(dǎo)軌滑塊,同樣采用齒輪齒條傳動(dòng),使機(jī)械手能夠在垂直于XY平面的方向上進(jìn)行上下移動(dòng)。機(jī)器人利用SolidWorks軟件進(jìn)行建模和仿真,如圖2所示。
步進(jìn)電機(jī)均為兩相四線制,四根線分別為A+、A-、B+、B-,這些線連接到TB6600驅(qū)動(dòng)器的信號(hào)輸出端,驅(qū)動(dòng)器接上12V開關(guān)電源,其信號(hào)輸入端有ENA、DIR、PUL三組控制引腳與主控板的GPIO引腳對(duì)應(yīng)連接,然后通過(guò)編寫程序?qū)崿F(xiàn)對(duì)步進(jìn)電機(jī)的控制。具體來(lái)說(shuō),可以通過(guò)對(duì)ENA+引腳輸入低電平對(duì)步進(jìn)電機(jī)進(jìn)行使能,電機(jī)的正轉(zhuǎn)或反轉(zhuǎn)由DIR+引腳高低電平控制,并通過(guò)向PUL+引腳發(fā)送PWM脈沖信號(hào)來(lái)控制電機(jī)的旋轉(zhuǎn)速度,而ENA-、DIR-、PUL-引腳接地。在一定周期內(nèi),PWM波形的占空比越大,電機(jī)的轉(zhuǎn)速就越快。限位開關(guān)的作用是限制機(jī)械運(yùn)動(dòng)范圍,防止設(shè)備損壞,同時(shí)向控制系統(tǒng)提供位置信號(hào)。其公共端輸入3.3V,常開端連接GPIO引腳。主控板不斷讀取引腳輸入值,當(dāng)X、Y、Z軸移動(dòng)到達(dá)盡頭時(shí)限位開關(guān)被按下,引腳值變?yōu)楦唠娖?,步進(jìn)電機(jī)停止移動(dòng)。
2.3機(jī)械手
機(jī)械手是基于氣動(dòng)系統(tǒng)的設(shè)計(jì),包括微型真空泵、微型電磁閥、繼電器、氣動(dòng)管道、真空吸盤、負(fù)氣壓傳感器、激光測(cè)距模塊和USB攝像頭。微型真空泵通過(guò)12V直流無(wú)刷電機(jī)產(chǎn)生負(fù)壓,并結(jié)合負(fù)氣壓傳感器實(shí)時(shí)監(jiān)測(cè)氣壓值,感知紙張是否被吸取,且是否為單張紙。為適應(yīng)不同質(zhì)量的紙張,通過(guò)PWM調(diào)速來(lái)調(diào)節(jié)真空泵的輸出負(fù)壓。微型電磁閥負(fù)責(zé)控制氣流的通斷,其開閉由繼電器控制,而繼電器的通斷又由主控板控制。真空吸盤采用丁腈橡膠材料,專門設(shè)計(jì)用于吸附紙張和塑料薄膜。激光測(cè)距模塊用于實(shí)時(shí)檢測(cè)機(jī)械手到紙張的精準(zhǔn)距離,攝像頭連接到主控板的USB接口,而其余傳感器則連接到相應(yīng)的GPIO引腳。在分揀操作中,微型真空泵啟動(dòng),電磁閥開啟,產(chǎn)生的負(fù)壓通過(guò)氣動(dòng)管道傳遞至真空吸盤,使其吸附紙張。需要釋放紙張時(shí),電磁閥關(guān)閉,負(fù)壓被消除,紙張自然脫離吸盤。機(jī)械手結(jié)構(gòu)如圖3所示,電氣結(jié)構(gòu)如圖4所示[6]。
3軟件設(shè)計(jì)
3.1算法應(yīng)用
3.1.1目標(biāo)檢測(cè)
首先,進(jìn)行標(biāo)注以創(chuàng)建數(shù)據(jù)集?;赮OLOv8s預(yù)訓(xùn)練模型,調(diào)整參數(shù)進(jìn)行訓(xùn)練。在PC端訓(xùn)練得到.pt格式模型,將其轉(zhuǎn)換為.onnx格式,再轉(zhuǎn)換為.rknn格式,作用是轉(zhuǎn)換成適配瑞芯微NPU的模型,在NPU上獲得更高的推理效率。主控板通過(guò)攝像頭采集實(shí)時(shí)圖像進(jìn)行驗(yàn)證推理。對(duì)模型性能方面,進(jìn)行參數(shù)調(diào)整,并對(duì)學(xué)習(xí)率、注意力機(jī)制、多線程技術(shù)等進(jìn)行優(yōu)化,改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),提高推理速度和處理效率,最終實(shí)現(xiàn)了在復(fù)雜場(chǎng)景下的實(shí)時(shí)檢測(cè)和識(shí)別能力,為實(shí)際應(yīng)用提供了更為高效的解決方案。目標(biāo)檢測(cè)流程如圖5所示。
3.1.2字符識(shí)別
在需要進(jìn)行字符識(shí)別任務(wù)時(shí),利用OpenCV對(duì)機(jī)器人攝像頭采集到的圖像進(jìn)行預(yù)處理,包括灰度處理、二值化處理以增強(qiáng)對(duì)比度和高斯濾波處理以提高清晰度,降低識(shí)別難度。預(yù)處理完成后,將圖像交由PyTesseract進(jìn)行OCR字符識(shí)別,以識(shí)別文檔中的文字內(nèi)容并提取信息。
3.1.3自然語(yǔ)言處理
在需要進(jìn)行自然語(yǔ)言處理時(shí),通過(guò)WebSocket進(jìn)行鑒權(quán)并調(diào)用科大訊飛的星火大模型API接口進(jìn)行處理。識(shí)別得到的文字將進(jìn)行拼寫和語(yǔ)法檢查,提示錯(cuò)誤并提出修改建議。根據(jù)用戶需求,還可以對(duì)文檔進(jìn)行潤(rùn)色優(yōu)化、提取關(guān)鍵信息、分析語(yǔ)義,實(shí)現(xiàn)文檔分類放置,并對(duì)紙質(zhì)問(wèn)卷等進(jìn)行答案提取匯總,無(wú)須人工操作。
3.1.4排序算法
本項(xiàng)目采用歸并排序(MergeSort)算法對(duì)文檔進(jìn)行排序,歸并排序是一種分治法(DivideandConquer),可以將大規(guī)模問(wèn)題拆解為較小的子問(wèn)題進(jìn)行解決,最后再合并結(jié)果。它通過(guò)將文檔序號(hào)列表遞歸地拆分為較小的部分,再逐步合并已排序的部分來(lái)完成排序,時(shí)間復(fù)雜度為O(nlogn),適合處理較多文檔并保證排序穩(wěn)定性。排序步驟如下:假設(shè)每個(gè)文檔都有各自的序號(hào),將所有文檔合成一個(gè)列表。首先將文檔列表不斷對(duì)半拆分,直到每個(gè)子列表只剩一個(gè)文檔;然后在合并階段,比較各子列表的第一個(gè)文檔,按照編號(hào)的數(shù)字順序?qū)⑵浜喜⒊梢粋€(gè)新的排序列表。這個(gè)過(guò)程遞歸進(jìn)行,最終將所有文檔按正確順序排序。
defmerge_sort(arr):
#基本情況:如果列表只有一個(gè)元素,直接返回
iflen(arr)lt;=1:
returnarr
#將數(shù)組對(duì)半拆分
mid=len(arr)//2
left_half=merge_sort(arr[:mid])#遞歸排序左半部分
right_half=merge_sort(arr[mid:])#遞歸排序右半部分
#合并排序后的左右兩部分
returnmerge(left_half,right_half)
defmerge(left,right):
sorted_list=[]
i=j=0
#比較左半部分和右半部分的元素,按順序合并
whileilt;len(left)andjlt;len(right):
ifleft[i]lt;=right[j]:
sorted_list.append(left[i])
i+=1
else:
sorted_list.append(right[j])
j+=1
#處理剩余的元素
sorted_list.extend(left[i:])
sorted_list.extend(right[j:])
returnsorted_list
#示例:對(duì)數(shù)字列表進(jìn)行排序
arr=[38,27,43,3,9,82,10]
sorted_arr=merge_sort(arr)
print(\"排序后的數(shù)組:\",sorted_arr)
3.2控制程序
控制程序采用上位機(jī)與下位機(jī)相結(jié)合的一體化形式的程序,僅需要在機(jī)器人主控板上完成部署,然后電腦或手機(jī)等終端通過(guò)本地網(wǎng)絡(luò),確保和機(jī)器人在同一個(gè)局域網(wǎng)下,訪問(wèn)其IP地址,即可進(jìn)行輕量化的發(fā)布任務(wù)、調(diào)試參數(shù)、實(shí)時(shí)控制等一系列操作。控制程序采用Web網(wǎng)頁(yè)的形式,這樣確保能夠在手機(jī)和電腦上訪問(wèn),而且本地?zé)o須部署環(huán)境、無(wú)須安裝軟件等煩瑣步驟,實(shí)現(xiàn)開機(jī)即用。
控制程序開發(fā)分為前端和后端,前端負(fù)責(zé)顯示用戶操作界面,使用HTML5、CSS和JavaScript,在Boot?strap框架基礎(chǔ)上編寫代碼。后端負(fù)責(zé)處理業(yè)務(wù)邏輯,包括接收和發(fā)送HTTP響應(yīng)、調(diào)用算法、執(zhí)行命令行、硬件控制等,使用Python語(yǔ)言開發(fā)。Web服務(wù)框架采用Flask庫(kù),硬件控制采用AdafruitBlinka庫(kù)。程序控制流程如圖6所示。
4實(shí)驗(yàn)與結(jié)果
4.1實(shí)驗(yàn)環(huán)境
4.1.1開發(fā)環(huán)境
開發(fā)環(huán)境采用了一臺(tái)配備IntelCorei7-12700KFX86架構(gòu)CPU、32GBRAM和NVIDIAGeForce306012GBGPU的PC,運(yùn)行Ubuntu22.0464bit操作系統(tǒng)。搭建了CUDA12.6、Anaconda3、Python3.10、Py?torch2.4.0+cu121、OpenCV、Ultralytics、RKNNTool?kit2.1等環(huán)境,便于訓(xùn)練YOLO模型和處理其他深度學(xué)習(xí)任務(wù)。開發(fā)工具方面,使用PyCharm編寫Python程序以及HTML5、CSS、JavaScript前端程序。
4.1.2運(yùn)行環(huán)境
運(yùn)行環(huán)境為魯班貓4開發(fā)板,搭載瑞芯微RK3588SSoC,集成了四核Cortex-A76和四核Cortex-A55的ARM架構(gòu)CPU,具有高達(dá)6Tops的NPU算力。開發(fā)板配備了8GBLPDDR4X內(nèi)存和64GBeMMC存儲(chǔ)器,提供40PinGPIO引腳、USB3.0接口、千兆以太網(wǎng)接口和WLAN無(wú)線網(wǎng)卡,操作系統(tǒng)為Ubuntu20.04。搭建了Miniconda3、OpenCV、RKNNToolkitLite2.1、Flask、AdafruitBlinka、PyTesseract等環(huán)境,便于推理YOLO模型、控制GPIO引腳和OCR字符識(shí)別等。
4.2模型的訓(xùn)練與部署
4.2.1搭建環(huán)境
在PC端Ubuntu22.04環(huán)境下,安裝與顯卡驅(qū)動(dòng)版本相匹配的CUDAToolkit,安裝Anaconda3并搭建Py?thon3虛擬環(huán)境,在此虛擬環(huán)境中安裝與CUDA版本相匹配的GPU版Pytorch,以及OpenCV、Ultralytics、RKNNToolkit2等。在魯班貓4板卡端Ubuntu20.04環(huán)境下,安裝Miniconda3并搭建Python3虛擬環(huán)境,在此虛擬環(huán)境中安裝OpenCV、RKNNToolkitLite2等。
4.2.2制作數(shù)據(jù)集
通過(guò)拍攝和網(wǎng)上采集大量紙質(zhì)文檔的相關(guān)圖片作為樣本,利用labelImg標(biāo)注工具對(duì)每個(gè)樣本圖片進(jìn)行人工標(biāo)注。標(biāo)注完成后以6∶2∶2的比例隨機(jī)劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,以便在訓(xùn)練過(guò)程中進(jìn)行模型評(píng)估和調(diào)優(yōu)。
4.2.3訓(xùn)練模型
使用YOLOv8s官方預(yù)訓(xùn)練模型對(duì)自制的數(shù)據(jù)集進(jìn)行訓(xùn)練,對(duì)模型配置文件YOLOv8s.yaml進(jìn)行參數(shù)修改,學(xué)習(xí)率(learningrate)初始值設(shè)置為1e-3(0.001)、批處理大?。╞atchsize)設(shè)置為32、訓(xùn)練輪數(shù)(epochs)設(shè)置為200等。此外,利用torch.optim.lr_scheduler.StepLR調(diào)度器實(shí)現(xiàn)學(xué)習(xí)率的步進(jìn)衰減,每50個(gè)訓(xùn)練輪數(shù)學(xué)習(xí)率降低10%。配置完成后便可開始訓(xùn)練模型[7]。
4.2.4模型部署
在PC端訓(xùn)練完成得到.pt格式模型,利用Pytorch庫(kù)中的torch.onnx.export函數(shù)轉(zhuǎn)換為.onnx格式,再將.onnx格式模型通過(guò)RKNNToolkit2轉(zhuǎn)換為.rknn格式。在板卡端,利用RKNNToolkitLite2讀取.rknn模型,同時(shí)配合OpenCV調(diào)用攝像頭實(shí)時(shí)采集視頻流進(jìn)行推理。
4.2.5推理結(jié)果
在模型的性能方面,最終模型在交并比(IoU,In?tersectionoverUnion)等于0.5的情況下,平均精度均值(mAP,meanAveragePrecision)達(dá)到了0.934,對(duì)文檔的識(shí)別精度較高。在模型部署在板端后的硬件性能方面,攝像頭在460×480分辨率下,平均幀率分別為29.5fps,NPU平均占用半分比分別為27.3%;推理一張分辨率為640×640的圖片平均用時(shí)為483.2ms。均能準(zhǔn)確識(shí)別出紙質(zhì)文檔或印章,目標(biāo)檢測(cè)模型推理結(jié)果如圖7所示。對(duì)100張紙質(zhì)文檔進(jìn)行推理測(cè)試,模型的識(shí)別準(zhǔn)確率為96%,誤判率為4%,其中部分誤判主要由于圖像模糊或攝像頭角度不佳引起。
4.3文檔分類與排序?qū)嶒?yàn)
4.3.1實(shí)物制作與調(diào)試
機(jī)器人由主控板、攝像頭、步進(jìn)電機(jī)、微型真空泵、負(fù)氣壓傳感器等重要零件組成,做好電氣連接和管道連接,最后把待處理的紙質(zhì)文檔放置在機(jī)器人框架內(nèi)。辦公機(jī)器人實(shí)物如圖8所示。
4.3.2準(zhǔn)備實(shí)驗(yàn)材料
準(zhǔn)備A4、A5、A6規(guī)格的紙質(zhì)文檔共1000張作為實(shí)驗(yàn)材料,每張文檔右上角均標(biāo)有一個(gè)由字母和數(shù)字組合的編號(hào),例如A1、A2、B3、C4等。編號(hào)前綴字母作為分類,共有A、B、C三類,而后綴數(shù)字為序號(hào)。如圖9所示。
4.3.3工作流程
現(xiàn)將所有文檔進(jìn)行分類和排序,用戶在控制程序中,選擇通過(guò)關(guān)鍵字詞分類,手動(dòng)框選編號(hào)所在范圍。工作流程如下:首先,機(jī)器人可分為6個(gè)放置文檔的分區(qū),假設(shè)1號(hào)區(qū)放置亂序文檔堆,則其余5個(gè)分區(qū)用于分類和排序工作。然后分配臨時(shí)分區(qū),2號(hào)區(qū)存放A類文檔,3號(hào)區(qū)存放B類文檔,以此類推。接著逐個(gè)文檔讀取文檔編號(hào)的字母部分,拾取文檔,根據(jù)字母將其放到對(duì)應(yīng)的分區(qū)。最后是采用歸并排序算法對(duì)分類好的文檔進(jìn)行排序。分揀過(guò)程如圖10所示。
4.3.4結(jié)果與性能分析
本實(shí)驗(yàn)共測(cè)試了1000張文檔,經(jīng)過(guò)10次實(shí)驗(yàn),機(jī)器人能夠成功地將文檔按編號(hào)分揀到對(duì)應(yīng)區(qū)域,分揀的成功率達(dá)到了92%。分揀過(guò)程中,未出現(xiàn)卡紙、漏分等情況,整個(gè)分揀過(guò)程平穩(wěn)、高效。
4.3.5改進(jìn)方向
模型優(yōu)化方面,為了提高關(guān)鍵字識(shí)別的準(zhǔn)確性,未來(lái)將對(duì)YOLOv8s模型進(jìn)行進(jìn)一步優(yōu)化,以更好地處理復(fù)雜文檔格式和多關(guān)鍵詞的情況。硬件改進(jìn)方面,針對(duì)吸附效果的不足,將考慮增強(qiáng)吸盤設(shè)計(jì)和負(fù)壓傳感器精度,確保不同材質(zhì)文檔能夠被更穩(wěn)定地分揀。
5結(jié)束語(yǔ)
本論文深入探討了智能辦公機(jī)器人系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn),聚焦于提高文檔處理效率和自動(dòng)化水平。隨著現(xiàn)代辦公環(huán)境對(duì)智能化設(shè)備需求的不斷增加,傳統(tǒng)的紙質(zhì)文檔處理方式已顯得不夠高效和經(jīng)濟(jì)。為應(yīng)對(duì)這一挑戰(zhàn),本研究結(jié)合目標(biāo)檢測(cè)、圖像處理和自然語(yǔ)言處理技術(shù),提出了一種集成化的智能辦公解決方案。
在機(jī)械設(shè)計(jì)方面,運(yùn)動(dòng)機(jī)構(gòu)設(shè)計(jì)則確保了機(jī)械手的精準(zhǔn)移動(dòng)和穩(wěn)定操作。步進(jìn)電機(jī)驅(qū)動(dòng)的傳動(dòng)機(jī)構(gòu)提供了高精度的運(yùn)動(dòng)控制,而導(dǎo)軌系統(tǒng)則確保了機(jī)械手在執(zhí)行任務(wù)時(shí)的穩(wěn)定性和一致性[8]。
通過(guò)應(yīng)用YOLOv8s模型實(shí)現(xiàn)了對(duì)文檔內(nèi)容的高效目標(biāo)檢測(cè),為系統(tǒng)提供了準(zhǔn)確的圖像識(shí)別能力。在圖像處理方面,利用Tesseract對(duì)文字進(jìn)行精準(zhǔn)識(shí)別,并通過(guò)科大訊飛的星火大模型進(jìn)行自然語(yǔ)言處理,確保了系統(tǒng)能夠處理復(fù)雜的文檔內(nèi)容和進(jìn)行智能化的文本分析。這些技術(shù)的集成,使得系統(tǒng)能夠自動(dòng)化地進(jìn)行文檔內(nèi)容的識(shí)別和處理,大幅提升了工作效率。
論文還探討了系統(tǒng)在實(shí)際應(yīng)用中的可靠性和改進(jìn)空間,包括優(yōu)化機(jī)械結(jié)構(gòu)、改進(jìn)控制系統(tǒng)和提升智能化水平。通過(guò)對(duì)現(xiàn)有文檔處理設(shè)備的不足之處進(jìn)行分析,提出了有針對(duì)性的改進(jìn)措施,以提高設(shè)備的穩(wěn)定性和適用性。
本論文的研究不僅在智能辦公設(shè)備領(lǐng)域展示了先進(jìn)技術(shù)的應(yīng)用潛力,也為未來(lái)的技術(shù)發(fā)展和實(shí)際生產(chǎn)提供了理論支持和實(shí)踐經(jīng)驗(yàn)。隨著技術(shù)的不斷進(jìn)步,未來(lái)的工作可以進(jìn)一步拓展系統(tǒng)的應(yīng)用場(chǎng)景,提升設(shè)備的智能化程度和處理能力。通過(guò)持續(xù)的研究和改進(jìn),智能辦公機(jī)器人系統(tǒng)將更加高效、智能,為現(xiàn)代辦公環(huán)境的自動(dòng)化和數(shù)字化轉(zhuǎn)型貢獻(xiàn)更大的力量。
參考文獻(xiàn):
[1]張銳.桁架機(jī)器人可靠性分析與設(shè)計(jì)[D].杭州:浙江工業(yè)大學(xué),2018.
[2]張?jiān)?,孫偉,唐慶偉.基于目標(biāo)檢測(cè)的桌面整理機(jī)器人的設(shè)計(jì)與實(shí)現(xiàn)[J].電腦知識(shí)與技術(shù),2023,19(31):55-58.
[3]趙先.沖壓機(jī)械手氣動(dòng)真空系統(tǒng)的設(shè)計(jì)與應(yīng)用[J].鍛壓裝備與制造技術(shù),2023,58(4):37-40.
[4]謝波,熊立貴,吳文君,等.碼垛機(jī)械手吸附式手部裝置的方案設(shè)計(jì)與分析[J].塑料包裝,2023,33(3):47-52.
[5]王曉瑜,鄭夢(mèng)強(qiáng).基于視覺識(shí)別的智能分揀機(jī)械臂設(shè)計(jì)與實(shí)現(xiàn)[J].自動(dòng)化與儀表,2023,38(6):85-90.
[6]任雪婷.基于多傳感器融合的智能分揀機(jī)器人研究[J].機(jī)器人產(chǎn)業(yè),2024(4):96-102.
[7]常文龍,譚鈺,周立峰,等.基于改進(jìn)YOLOv5s的自然環(huán)境下番茄成熟度檢測(cè)方法[J].江西農(nóng)業(yè)大學(xué)學(xué)報(bào),2024,46(4):1025-1036.
[8]李哲,伍世英,袁寶欣,等.一種智能高效識(shí)別與分揀機(jī)器人方案設(shè)計(jì)思路[J].科技風(fēng),2023(30):1-3.
【通聯(lián)編輯:梁書】
基金項(xiàng)目:2024年廣東大學(xué)生科技創(chuàng)新培育專項(xiàng)資金資助項(xiàng)目(項(xiàng)目編號(hào):pdjh2024a676),項(xiàng)目名稱:基于AI全自動(dòng)辦公智能機(jī)器人的設(shè)計(jì)