張凌熙 蔡子碩 李林燕
摘 要:人工智能在教育領(lǐng)域的應(yīng)用,尤其是學(xué)習(xí)分析技術(shù)和情感計算在評估教學(xué)質(zhì)量和學(xué)習(xí)效果方面顯現(xiàn)出巨大的優(yōu)勢。OpenCV是一個免費開源的計算機視覺庫,提供多種編程語言的接口,可用于圖像處理和計算機視覺處理。TensorFlow是谷歌公司開發(fā)的免費開源深度學(xué)習(xí)框架,提供豐富的API和工具,可以快速構(gòu)建各種類型的機器學(xué)習(xí)模型。Keras是一個高級神經(jīng)網(wǎng)絡(luò)API,可以與多個深度學(xué)習(xí)框架集成,提供簡單、快速構(gòu)建深度學(xué)習(xí)模型的方式。
關(guān)鍵詞:人臉識別;多模態(tài)情感識別;學(xué)情分析
一、引言
當(dāng)今世界人工智能行業(yè)發(fā)展迅速,各行各業(yè)都在嘗試將人工智能融入進行行業(yè)創(chuàng)新,進行行業(yè)迭代搶占市場先機。在教育行業(yè)這種現(xiàn)象也十分常見,其中新興的學(xué)習(xí)分析技術(shù)對師生數(shù)據(jù)的深度刨析和應(yīng)用為教育領(lǐng)域向智慧化轉(zhuǎn)型提供了新的發(fā)展視角。在教育行業(yè)中,學(xué)生的認知能力一度被認定為影響學(xué)生學(xué)習(xí)能力和學(xué)習(xí)熱情的最根本原因,根據(jù)現(xiàn)有的研究資料表明學(xué)生的認知能力通常會通過面部表情和肢體動作、神情變化、語言等方式顯現(xiàn)出來。而情感計算是指開發(fā)者通過人工智能識別并分析計算采集到的人體面部的情感信息和肢體動作,從而解讀人類情感,就此來看情感數(shù)據(jù)計算分析在評估教學(xué)質(zhì)量和學(xué)習(xí)效果方面可以發(fā)揮出不小的作用。
OpenCV是一個免費開源的計算機視覺庫,可以在多種操作系統(tǒng)上使用,并提供多種編程語言的接口。它已經(jīng)持續(xù)更新和升級了近20年,擁有近500個C函數(shù)的API,使得開發(fā)者可以通過簡單的函數(shù)調(diào)用來編寫較為復(fù)雜的模型框架,而不需要過多了解底層的邏輯架構(gòu)。除了提供豐富的圖像處理和計算機視覺處理算法庫之外,OpenCV還可以與流行的深度學(xué)習(xí)框架如TensorFlow、Caffe2進行集成,使得開發(fā)者可以將訓(xùn)練好的模型應(yīng)用于實際的項目或產(chǎn)品中。
TensorFlow是由谷歌公司設(shè)計和實現(xiàn)的一款基于數(shù)據(jù)流圖的免費開源深度學(xué)習(xí)框架,它提供了豐富的API和工具,可以幫助開發(fā)者快速構(gòu)建各種類型的機器學(xué)習(xí)模型。Keras是一個高級神經(jīng)網(wǎng)絡(luò)API,基于Python語言和多個深度學(xué)習(xí)框架(如TensorFlow、CNTK和Theano等),它提供了一種簡單、快速構(gòu)建深度學(xué)習(xí)模型的方式。Keras的設(shè)計理念是模塊化、可組合和易擴展,使得開發(fā)者可以輕松構(gòu)建各種類型的神經(jīng)網(wǎng)絡(luò)模型。Tensorflow基本架構(gòu)如下圖1所示。
二、基于監(jiān)控視頻流的情感識別的實現(xiàn)
(一)基于監(jiān)控視頻流的情感識別方法的實現(xiàn)
本系統(tǒng)旨在建立一種基于高清監(jiān)控攝像頭的人臉識別情感分析方法,并實時反饋分析結(jié)果到后端。具體實現(xiàn)中,我們利用OpenCV提供的視頻流采集模塊cv2.VideoCapture,對監(jiān)控攝像頭采集到的視頻進行輸入。同時,我們可以設(shè)置視頻的分辨率和幀速率等參數(shù)。接著,我們使用cap.read()函數(shù)逐幀讀取視頻流中的圖像,并將其轉(zhuǎn)換為靜態(tài)圖像。使用cv2.imwrite()函數(shù)將所獲得的圖像保存為靜態(tài)圖像,并使用cv2.imshow()函數(shù)顯示圖像幀。然后使用TensorFlow人臉識別模塊對視頻流中的靜態(tài)圖像進行分析,以識別人臉位置、大小、姿勢和表情等特征,并與預(yù)存儲在數(shù)據(jù)庫中的人臉圖像進行比較和分析。通過調(diào)用TensorFlow模型的predict()方法,我們可以對所選圖像進行預(yù)測,得到一個表示該圖像屬于每個類別概率的向量。通過使用np.argmax()函數(shù)獲取概率最大的類別的索引,并將其映射到標簽名稱,我們可以輸出預(yù)測結(jié)果。該系統(tǒng)將分析結(jié)果上傳至數(shù)據(jù)庫,包括學(xué)生在課堂上實時的表情數(shù)據(jù)以及該表情所反映的學(xué)生的學(xué)習(xí)能力和學(xué)習(xí)情況。同時,服務(wù)器還將同步更新Web端數(shù)據(jù),實現(xiàn)課堂學(xué)情情況的實時更新和共享。如下圖2所示。
(二)基于監(jiān)控視頻流的多模態(tài)人臉檢測模塊的實現(xiàn)
系統(tǒng)使用了OpenCV中的cap.read()函數(shù)讀取視頻流,并對視頻流進行了預(yù)處理,包括圖像縮放、灰度化和直方圖均衡化等操作,以方便后續(xù)的人臉檢測。接著,使用人臉檢測算法對預(yù)處理后的視頻流進行處理,以檢測視頻流中人臉的位置信息。對于檢測到的人臉,系統(tǒng)使用表情識別算法對其進行行為分析和表情識別,并將分析結(jié)果存儲在數(shù)據(jù)庫中。同時,系統(tǒng)將這些數(shù)據(jù)上傳至Web頁面,以便實時更新和共享學(xué)生的學(xué)情數(shù)據(jù)。
(三)基于監(jiān)控視頻流的多模態(tài)人臉識別模塊實現(xiàn)
1.收集多種類型的人臉識別數(shù)據(jù)
為了構(gòu)建高效準確的學(xué)情分析系統(tǒng),需要使用多種類型的人臉識別數(shù)據(jù)集,其中包括來自Labeled Faces in the Wild (LFW)、CelebA、CASIA-WebFace等公開的數(shù)據(jù)集。除此之外,為了更好地識別學(xué)生的情感狀態(tài),還需要收集每位同學(xué)40張面部圖片,涵蓋各種表情,以便進行更精確的情感分析。
2.建立多模態(tài)卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練模型
為了訓(xùn)練高效準確的人臉識別模型,需要對多模態(tài)數(shù)據(jù)集進行預(yù)處理和標準化。多模態(tài)數(shù)據(jù)集采用串行的方式輸入到不同的卷積層中進行特征提取,然后設(shè)計多個卷積層,分別對不同的模態(tài)數(shù)據(jù)進行特征提取。使用加權(quán)平均和拼接等方法將多種模態(tài)的特征融合,以提高模型的性能和容錯能力。同時,采用交叉熵損失函數(shù)(Cross-entropy Loss)同步提高模型的訓(xùn)練效果。
3.評估人臉識別效果
在完成人臉識別模型的設(shè)計和訓(xùn)練后,需要計算該算法的準確率和召回率,并繪制混淆矩陣以直觀地展示算法的效果。當(dāng)人臉識別算法的性能達到一定的水平時,可以將其部署到學(xué)情分析系統(tǒng)中進行檢測。該系統(tǒng)通過調(diào)用教室中的監(jiān)控攝像頭,獲取攝像頭傳輸?shù)囊曨l流信息。每秒選取一幀圖像進行預(yù)處理,然后使用人臉識別模塊獲得圖像中具體的人臉特征信息。再與數(shù)據(jù)庫中的數(shù)據(jù)集進行對比,將分析結(jié)果返回。在完成一次識別后,系統(tǒng)會自動開始下一輪識別,直到將班級中所有同學(xué)的情況都獲取完成。
三、系統(tǒng)功能實現(xiàn)
基于多模態(tài)情感識別的學(xué)情分析系統(tǒng)的實現(xiàn)依賴于多種技術(shù)和框架,包括OpenCV、基于多模態(tài)的卷積神經(jīng)網(wǎng)絡(luò)(CNN)深度學(xué)習(xí)框架、HTML超文本標記語言、Vue前端框架、Python開發(fā)語言、Node.js框架和MySQL數(shù)據(jù)庫。系統(tǒng)的工作流程包括獲取圖像、進行CNN模型訓(xùn)練和優(yōu)化、將模型返回的數(shù)據(jù)保存到MySQL數(shù)據(jù)庫中,最后通過Web端可視化展示數(shù)據(jù)。在蘇州經(jīng)貿(mào)技術(shù)學(xué)院信息技術(shù)學(xué)院18個班級課堂的試用中,該系統(tǒng)已經(jīng)滿足了學(xué)生課堂上實時的學(xué)情分析、學(xué)生家長端的學(xué)生課堂基本情況、授課教師和年級主任端的學(xué)情分析和總結(jié)、學(xué)校領(lǐng)導(dǎo)端的課堂巡查和系統(tǒng)管理員等各方的應(yīng)用需求。該系統(tǒng)的實現(xiàn)流程如圖3所示。
四、結(jié)論
本學(xué)情分析系統(tǒng)不僅能夠收集和分析情感數(shù)據(jù),還能通過與后臺數(shù)據(jù)庫連接,為學(xué)校領(lǐng)導(dǎo)提供了查看班級學(xué)生學(xué)情分析、實時巡查和年級學(xué)情匯總分析等功能。此外,它還能為授課教師提供依據(jù),以控制教學(xué)進度和評估教學(xué)效果,為實現(xiàn)個性化教學(xué)提供了有效的手段。此外,它還為學(xué)生家長提供了學(xué)生在課堂上的具體情況,以實現(xiàn)智能、靈活和高效地分析和使用學(xué)情狀態(tài)的功能。綜合來看,本基于多模態(tài)情感識別的學(xué)情分析系統(tǒng)充分考慮了用戶需求,并且根據(jù)需求規(guī)格說明書不斷完善各個模塊和系統(tǒng)整體邏輯與性能。在系統(tǒng)測試中,我們發(fā)現(xiàn)了一些潛在的問題并進行了修復(fù),滿足了中小學(xué)和高校日常學(xué)情分析的基本需求?,F(xiàn)在,該系統(tǒng)已經(jīng)成功部署在蘇州經(jīng)貿(mào)職業(yè)技術(shù)學(xué)院信息技術(shù)學(xué)院的18間教室中,使用簡便,數(shù)據(jù)分析準確快速,得到了使用師生們的好評。
參考文獻:
[1]李斌建. 基于深度學(xué)習(xí)的語音和文本融合多模態(tài)情感識別方案研究與設(shè)計[D].南京郵電大學(xué),2022.
[2]陳曉歡. 基于多模態(tài)融合的情感識別研究[D].延安大學(xué),2022.
[3]陳光輝. 語音圖像多模態(tài)信息融合的情感識別方法研究[D].重慶大學(xué),2021.
[4]凌云昊. 基于多模態(tài)情感識別的自適應(yīng)教學(xué)系統(tǒng)研究與實現(xiàn)[D].上海交通大學(xué),2018.
[5]董建功. 多模態(tài)情感識別及其虛擬環(huán)境人機交互研究[D].重慶郵電大學(xué),2021.
[6]張海峰. 基于多特征融合的人臉表情識別研究[D].中國科學(xué)技術(shù)大學(xué),2020.
[7]裴浩.基于Python+OpenCV的課堂人臉簽到微型系統(tǒng)[J].信息技術(shù)與信息化,2023(01):181-184.
[8]展寬,朱佳雨,王一元,陳祥培,陳天曉.基于openCV人臉追蹤云臺與大數(shù)據(jù)應(yīng)用系統(tǒng)設(shè)計[J].信息與電腦(理論版),2023,35(01):140-142.
[9]李玉臣.基于OpenCV的計算機圖像識別技術(shù)研究與實現(xiàn)[J].電腦編程技巧與維護,2022(11):147-149+169.