姚 睿,周 勇,趙佳琦,許新征
(中國(guó)礦業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 徐州 221116)
近年來(lái),計(jì)算機(jī)、多媒體和數(shù)據(jù)通信技術(shù)的快速發(fā)展使圖像處理與計(jì)算機(jī)視覺獲得了極大的關(guān)注和巨大發(fā)展,并已廣泛應(yīng)用在工業(yè)生產(chǎn)、醫(yī)療衛(wèi)生等領(lǐng)域[1]。因此,在本科教育階段,圖像理解與視覺感知也是計(jì)算機(jī)科學(xué)與技術(shù)、人工智能等專業(yè)的必修課程。圖像理解與視覺感知課程在如礦業(yè)工程、遙感測(cè)量等跨專業(yè)領(lǐng)域的人才培養(yǎng)過(guò)程中發(fā)揮了重要作用,培養(yǎng)學(xué)生在跨專業(yè)領(lǐng)域從事科學(xué)研究、教學(xué)、科技開發(fā)系統(tǒng)設(shè)計(jì)工作的能力。中國(guó)礦業(yè)大學(xué)智能采礦工程專業(yè)是2021 年教育部增設(shè)的新工科專業(yè)。學(xué)校于2016 年設(shè)置智能開采專業(yè)方向,2018 年設(shè)立智能采礦特色班,并設(shè)置智能采礦工程專業(yè)。依托學(xué)校礦業(yè)工程“雙一流”學(xué)科平臺(tái)基礎(chǔ),堅(jiān)持學(xué)科交叉融合和開放辦學(xué),建設(shè)優(yōu)質(zhì)教學(xué)資源,培養(yǎng)具備礦業(yè)工程、人工智能、機(jī)電工程、信息工程和軟件工程等多學(xué)科交叉知識(shí)背景和國(guó)際競(jìng)爭(zhēng)能力的復(fù)合型創(chuàng)新人才。圖像理解與視覺感知是智能采礦專業(yè)的主修課程,以攝像頭代替人眼,進(jìn)行數(shù)字圖像處理、計(jì)算機(jī)視覺、模式識(shí)別和機(jī)器學(xué)習(xí)等技術(shù),最終實(shí)現(xiàn)少人或無(wú)人的智能采礦。為進(jìn)一步優(yōu)化圖像理解與視覺感知課程的知識(shí)體系,避免課堂教學(xué)效率低,同時(shí)進(jìn)一步著重培養(yǎng)學(xué)生的創(chuàng)新能力,課程教師對(duì)智能采礦專業(yè)的圖像理解與視覺感知課程展開建設(shè)與實(shí)踐。
圖像理解與視覺感知課程(以下簡(jiǎn)稱“本課程”)的主要內(nèi)容為處理中的灰度變換和空間濾波的各種方法的圖像變換,空間域和頻域?yàn)V波的各種方法,彩色圖像的基礎(chǔ)概念、模型和處理方法,形態(tài)學(xué)圖像處理技術(shù),圖像分割的基本概念和方法,圖像壓縮方法等。另外,研究圖像形成、相機(jī)成像幾何、特征檢測(cè)和匹配、多視圖幾何(包括立體)、運(yùn)動(dòng)估計(jì)和跟蹤以及分類的基礎(chǔ)知識(shí)。我們對(duì)智能采礦專業(yè)的圖像理解與視覺感知的教學(xué)內(nèi)容進(jìn)行了調(diào)查和分析[2-3],發(fā)現(xiàn)智能采礦工程專業(yè)在本課程的教學(xué)中存在亟需解決的問(wèn)題,主要表現(xiàn)在以下方面。
雖然,大部分高校都開設(shè)了圖像處理、計(jì)算機(jī)視覺等類似課程;但是,這些課程主要針對(duì)信息、電氣和計(jì)算機(jī)等相關(guān)專業(yè)的本科生開設(shè)[4],目前設(shè)計(jì)的教學(xué)內(nèi)容也是關(guān)注于這些專業(yè)的學(xué)生服務(wù),與智能采礦工程專業(yè)課程結(jié)合的相關(guān)度不夠。這一現(xiàn)狀,影響了智能采礦工程專業(yè)學(xué)生對(duì)圖像理解與視覺感知課程學(xué)習(xí)目標(biāo)的理解與掌握。因此,需要對(duì)智能采礦工程專業(yè)的課程內(nèi)容和課程考核進(jìn)行調(diào)整。
智能采礦工程專業(yè)的學(xué)生對(duì)計(jì)算機(jī)相關(guān)課程了解較少,圖像處理與視覺感知算法非常復(fù)雜,而一般學(xué)生第一次接觸這個(gè)領(lǐng)域,對(duì)課程內(nèi)容的理解有很大的挑戰(zhàn);另外,進(jìn)入大學(xué)后,學(xué)生學(xué)習(xí)積極性不如中學(xué)階段,部分學(xué)生學(xué)習(xí)興趣低,如果對(duì)圖像和視頻處理學(xué)習(xí)的吸引力較弱,學(xué)生對(duì)本課程的學(xué)習(xí)難度會(huì)很大。因此,如何盡可能多地整合多媒體技術(shù)的使用交互式教學(xué)提升教學(xué)效果,也顯得非常重要。
圖像理解與視覺感知課程理論與實(shí)踐都很重要,而對(duì)于智能采礦專業(yè)的學(xué)生而言,一些計(jì)算機(jī)、人工智能等方面的前導(dǎo)課程沒有學(xué)習(xí)(如:信號(hào)與系統(tǒng)、數(shù)據(jù)結(jié)構(gòu)等),學(xué)生的編程能力較弱;因此,教師在教學(xué)內(nèi)容設(shè)計(jì)時(shí),通常會(huì)偏重于理論教學(xué)內(nèi)容,而實(shí)踐學(xué)時(shí)較少,學(xué)生的實(shí)踐能力不足,離實(shí)際應(yīng)用較遠(yuǎn)。因此,應(yīng)針對(duì)煤礦智能采礦的場(chǎng)景,設(shè)計(jì)圖像理解與視覺感知的實(shí)踐課程內(nèi)容,解決實(shí)際應(yīng)用性和創(chuàng)新性。
鑒于上一節(jié)討論的問(wèn)題,本文對(duì)智能采礦工程專業(yè)本科學(xué)生圖像理解與視覺感知課程教學(xué)內(nèi)容、交互性和課程實(shí)踐內(nèi)容等幾個(gè)方面的建議進(jìn)行探討。
智能采礦專業(yè)的培養(yǎng)目標(biāo)是具有寬厚的基礎(chǔ)理論知識(shí)和較強(qiáng)的工程實(shí)踐能力,系統(tǒng)掌握礦山資源開采與開發(fā)利用的基本理論和方法,具備采礦工程與軟件工程、信息工程、人工智能等“采礦+智能”融合的知識(shí)技能,能在礦井自動(dòng)化、信息化、智能化等智能采礦領(lǐng)域從事設(shè)計(jì)與施工、生產(chǎn)技術(shù)管理、安全監(jiān)察及科學(xué)研究等相關(guān)工作的復(fù)合型專業(yè)技術(shù)人才。針對(duì)智能采礦工程專業(yè)對(duì)象的圖像理解與視覺感知課程,以研究對(duì)象為主線,加深廣度、深度、高度,課程內(nèi)容見表1。從四個(gè)方面對(duì)圖像處理與計(jì)算機(jī)視覺的應(yīng)用作了總結(jié),解決當(dāng)前的煤礦企業(yè)在圖像處理應(yīng)用中的問(wèn)題,期待學(xué)生引發(fā)交叉學(xué)科與新技術(shù)。
表1 智能采礦工程專業(yè)的圖像理解與視覺感知課程內(nèi)容
如上所述,圖像處理與視覺感知算法復(fù)雜,課程內(nèi)容理解較難,需要讓學(xué)生有感性的認(rèn)識(shí)。因而,實(shí)現(xiàn)學(xué)生感性認(rèn)識(shí)的關(guān)鍵是盡可能多地整合技術(shù),讓其在實(shí)際生活中使用這些算法。這不僅有助于讓學(xué)生參與教學(xué)過(guò)程,還允許學(xué)生在課堂內(nèi)外都可使用這些圖像處理與視覺感知算法。因此,可以使用交互式技術(shù)來(lái)教授圖像處理與視覺感知課程。
學(xué)生可以通過(guò)手機(jī)獲取一個(gè)物體的圖像或其自由移動(dòng)的視頻,然后執(zhí)行圖像處理與視覺感知算法,獨(dú)立地實(shí)時(shí)調(diào)整算法的參數(shù),而不必在臺(tái)式機(jī)或筆記本電腦上執(zhí)行,提高了交互性和便攜性,促進(jìn)智能采礦工程專業(yè)學(xué)生進(jìn)入圖像處理與視覺感知的門檻。因此,可以在手機(jī)上設(shè)計(jì)與實(shí)現(xiàn)圖像處理與視覺感知應(yīng)用程序運(yùn)行算法,并顯示圖像與視頻的分析結(jié)果。而在移動(dòng)應(yīng)用程序方面,微信小程序的運(yùn)行速度顯然可以很好地滿足用戶對(duì)于實(shí)時(shí)性的需求,且其無(wú)需下載安裝[5];打開即用的特性方便了人們隨時(shí)隨地進(jìn)行圖像處理,再加上小程序易于更新添加新的圖像處理功能,可以滿足各種圖像處理功能組合,更擴(kuò)大了其使用對(duì)象范圍。因此,本文對(duì)微信小程序的圖像處理與視覺感知算法進(jìn)行設(shè)計(jì)與實(shí)現(xiàn),希望其可在教學(xué)中發(fā)揮高效、便捷作用,為智能采礦工程專業(yè)學(xué)生在對(duì)圖像處理與視覺感知領(lǐng)域提供盡可能多的認(rèn)識(shí)與便利。
系統(tǒng)包括圖像處理與視覺感知教學(xué)版微信小程序的前端與后端。小程序前端部分使用微信開發(fā)者工具,注冊(cè)ID 新建小程序項(xiàng)目,為用戶提供了圖像處理與視覺感知界面。
本課程的第一部分為在不同層次的處理圖像。在像素級(jí),通過(guò)應(yīng)用不同類型的濾波器來(lái)增強(qiáng)圖像的質(zhì)量,并通過(guò)均衡化來(lái)提高圖像的對(duì)比度。一旦增強(qiáng),就會(huì)提取出低級(jí)特征,如顏色或邊緣。這些低級(jí)特征是分割算法的基礎(chǔ),如閾值化、霍夫變換、分水嶺等,以生成更多語(yǔ)義顯著的區(qū)域,作為目標(biāo)識(shí)別等高級(jí)任務(wù)的基礎(chǔ)。鑒于此,這部分的主要功能如下:空間域圖像增強(qiáng)(點(diǎn)處理、模板濾波處理及直方圖均衡),頻率域圖像增強(qiáng)(平滑低通濾波器和銳化高通濾波器),圖像復(fù)原(空間域復(fù)原、頻率域復(fù)原、逆濾波及維納濾波),以及圖像分割(閾值、霍夫變換、分水嶺、基于圖算法及Superpixels 算法)。
本課程的第二部分關(guān)注高層次視覺感知內(nèi)容。主要是對(duì)圖像中感興趣的物體進(jìn)行檢測(cè),在圖像分析的基礎(chǔ)上,進(jìn)一步研究圖像中各目標(biāo)的性質(zhì)和它們之間的相互聯(lián)系,并通過(guò)對(duì)圖像內(nèi)容含義的理解得出對(duì)原來(lái)客觀場(chǎng)景的解釋[6]。鑒于此,這部分的主要功能如下:物體識(shí)別與檢測(cè)(詞袋特征的物體識(shí)別、部分模型的圖像物體檢測(cè)、ResNet 模型的圖像物體檢測(cè),以及YOLO 模型的圖像物體檢測(cè))、視頻物體跟蹤(相關(guān)濾波的視頻物體跟蹤、孿生模型的視頻物體跟蹤)。
因?yàn)檫@些算法有相當(dāng)多的參數(shù),從圖像處理與視覺感知入門課程的教學(xué)角度來(lái)看,這可能會(huì)適得其反。為了簡(jiǎn)化用戶的交互,決定限制可修改的交互參數(shù)對(duì)每個(gè)算法的執(zhí)行有更直接的影響。如在相應(yīng)的功能界面設(shè)置濾波器核(Kernel)大小、閾值區(qū)間和類型等,若參數(shù)的更改導(dǎo)致庫(kù)拋出異常,則使用所有內(nèi)容正常工作的最后一個(gè)有效值。
流程圖如圖1 所示,顯示從用戶選擇待處理圖像的來(lái)源(移動(dòng)設(shè)備的攝像頭,樣本的、外部存儲(chǔ)設(shè)備或網(wǎng)絡(luò)的圖像)到執(zhí)行所選擇的算法為止的小程序的一般操作。
圖1 圖像處理與視覺感知(教學(xué)版)小程序設(shè)計(jì)流程圖
上述系統(tǒng)設(shè)計(jì)可支持圖像處理與視覺感知的教學(xué),允許具有即時(shí)性和多功能性,為學(xué)生提供了完全不同且豐富的體驗(yàn)。盡管在課堂上使用移動(dòng)微信小程序一開始會(huì)吸引學(xué)生,但學(xué)習(xí)課程內(nèi)容是非常重要的,以免分散注意力,在講授理論內(nèi)容后,10 分鐘左右的時(shí)間讓學(xué)生與其手機(jī)互動(dòng)。
本課程原有40 個(gè)學(xué)時(shí),其中32 個(gè)理論學(xué)時(shí),8 個(gè)實(shí)踐學(xué)時(shí)。在講授時(shí),安排了適量的討論與作業(yè),但是討論與實(shí)踐的學(xué)時(shí)安排明顯不足。僅安排了通用圖像分割、人臉識(shí)別、車牌識(shí)別和物體檢測(cè)的上機(jī)編程實(shí)踐內(nèi)容,與智能采礦工程專業(yè)的內(nèi)容相關(guān)度不高。鑒于此,將課程的學(xué)時(shí)修改為講授40 個(gè)學(xué)時(shí),實(shí)踐24 個(gè)學(xué)時(shí),完善相關(guān)實(shí)踐案例[7],解決智能采礦工程領(lǐng)域應(yīng)用的實(shí)際問(wèn)題。表2 顯示了智能采礦專業(yè)圖像理解與視覺感知課程的實(shí)踐內(nèi)容。
表2 智能采礦工程專業(yè)圖像理解與視覺感知課程的實(shí)踐安排
通過(guò)上述實(shí)踐安排,圖像理解與視覺感知課程教學(xué)內(nèi)容在保證理論內(nèi)容的同時(shí),補(bǔ)充智能采礦行業(yè)緊密相關(guān)的內(nèi)容,以下通過(guò)礦井采煤工作面圖像匹配與拼接為實(shí)踐案例進(jìn)行說(shuō)明。
采煤工作面是煤礦生產(chǎn)最前沿的工作環(huán)節(jié),也是最復(fù)雜的工作環(huán)節(jié)。通過(guò)安裝礦用視頻調(diào)度系統(tǒng),可以將采煤工作面的情景傳輸?shù)降孛嬲{(diào)度中心,便于調(diào)度員對(duì)煤壁、滾筒、支架、頂板、采煤機(jī)及運(yùn)載機(jī)等設(shè)備的運(yùn)行和工作環(huán)境了如指掌,并發(fā)出準(zhǔn)確的生產(chǎn)調(diào)度指令??梢酝ㄟ^(guò)圖像拼接技術(shù)獲取寬視角信息,提高監(jiān)控能力。圖像拼接就是將多幅來(lái)自同一場(chǎng)景的有重疊區(qū)域的小尺寸圖像合成為一幅大尺寸的高質(zhì)量圖像[8]。采煤面視頻全景成像過(guò)程中具體步驟分為如下幾點(diǎn)。一是預(yù)處理要拼接的圖像。主要操作是挑選同一時(shí)刻視頻圖像幀作為拼接圖像,并通過(guò)降噪、處理直方圖和提取邊緣等方式進(jìn)行圖像數(shù)字處理的過(guò)程、重新創(chuàng)建進(jìn)行圖像匹配的模板或者通過(guò)小波變換算法或者傅里葉變換算法來(lái)對(duì)圖像進(jìn)行操作。二是配準(zhǔn)圖像,并進(jìn)行統(tǒng)一坐標(biāo)。第一步,兩幅以上的圖像根據(jù)指定的圖像匹配準(zhǔn)則,首先選擇需要進(jìn)行圖像拼接的模板,然后確定參考圖像內(nèi)對(duì)應(yīng)的特征點(diǎn)位置,得到兩幅圖像的轉(zhuǎn)變關(guān)系和配準(zhǔn);第二步,對(duì)變換模型的建立,計(jì)算數(shù)學(xué)模型里參數(shù)值時(shí),需要通過(guò)圖像特征或模板內(nèi)的對(duì)應(yīng)情況,得到關(guān)于兩幅圖像進(jìn)行數(shù)學(xué)變換的模型;第三步,變換統(tǒng)一坐標(biāo),上步中已經(jīng)建立好兩幅圖像的數(shù)學(xué)轉(zhuǎn)換模型,此步中需要把要拼接的圖像變換至參考圖像的坐標(biāo)系內(nèi),實(shí)現(xiàn)坐標(biāo)的統(tǒng)一轉(zhuǎn)換。三是視頻序列生成。最后一步是完成待拼接圖像的重構(gòu)融合操作,需要把重合的區(qū)域放入拼接重構(gòu)圖像中,完成全景圖像的最終無(wú)痕融合,并生成工作面全景視頻。圖像理解與視覺感知實(shí)踐內(nèi)容的礦井采煤工作面圖像匹配與拼接案例如圖2 所示。
圖2 礦井采煤工作面圖像匹配與拼接案例
通過(guò)對(duì)當(dāng)前新工科和高等教育發(fā)展要求的分析,結(jié)合智能采礦工程專業(yè)與圖像理解與視覺感知課程的理論和實(shí)踐內(nèi)容,在中國(guó)礦業(yè)大學(xué)課程教學(xué)中進(jìn)行了應(yīng)用。在中國(guó)礦業(yè)大學(xué)的教學(xué)實(shí)際表明專業(yè)特點(diǎn)、學(xué)生來(lái)源、交互性等方面可充分調(diào)動(dòng)學(xué)生的學(xué)習(xí)積極性和主動(dòng)性,促進(jìn)了專業(yè)知識(shí)與實(shí)際應(yīng)用的融合,實(shí)現(xiàn)了整個(gè)教學(xué)與實(shí)踐過(guò)程的具體化、形象化和可視化,指導(dǎo)學(xué)生實(shí)現(xiàn)專業(yè)案例,使得學(xué)生能夠獨(dú)立完成項(xiàng)目,獨(dú)立解決并完成任務(wù),綜合運(yùn)用智能采礦工程、圖像處理和計(jì)算機(jī)視覺的理論知識(shí)解決煤礦實(shí)際問(wèn)題。