關鍵詞:圖卷積神經網絡;學生分類;資源推薦
0 引言
隨著教育事業(yè)的快速發(fā)展,科學有效地提高高校的教學質量,有針對性地培養(yǎng)社會需要的各類人才是高校面臨的一個重要課題。高職教育在培養(yǎng)應用型和技能型人才方面發(fā)揮著重要作用。隨著信息技術的發(fā)展,基于圖卷積神經網絡(GCN) 的學生分類[2]和資源推薦系統(tǒng)在高職教育中得到廣泛應用。利用大數據技術,通過全面細致的數據分析和深度學習,一方面可以幫助高校教師更好地了解學生的特點和情況,對學生實施行之有效的個性化教育和培養(yǎng),完善教學管理方法,提升工作能力,另一方面也有利于學校清晰地了解當前在校學生的實際情況和學校教育管理中存在的問題,為學生創(chuàng)造一個更優(yōu)越的學習環(huán)境,完善學校的教學管理制度和規(guī)定[3]。本文獻綜述旨在概述這一領域的最新研究,強調GCN在高職教育中的潛在應用以及研究現(xiàn)狀。
1 圖卷積神經網絡介紹
在介紹高職教育中圖卷積神經網絡(GCN) [4]的應用之前,需要理解卷積神經網絡(CNN) 的基本原理。卷積神經網絡是一種深度學習模型,特別適用于圖像處理和模式識別。它包含卷積層、池化層和全連接層,通過層次化的特征提取和學習,能夠高效地處理復雜數據。卷積神經網絡最早由Fukushima提出,其基本結構由輸入層、卷積層、池化層、全連接層和輸出層構成。隨后,YannLeCun等人基于Fukushima的研究工作,使用BP算法設計并訓練了CNN(該模型稱為LeNet-5) ,用于手寫數字圖片的識別分類。LeNet-5是經典的CNN結構,后續(xù)有許多工作基于此進行改進,它在一些模式識別領域中取得了良好的分類效果。
圖卷積神經網絡在處理圖這類非歐氏數據時具有明顯的優(yōu)勢。普通的卷積神經網(ConvolutionalNeural Network, CNN) 在處理圖像這類歐氏數據時,利用它們平移不變性的特點,通過卷積核來提取原始數據的特征。但圖類數據具有不規(guī)則性,所以傳統(tǒng)的CNN 無法處理這類非歐氏數據。圖卷積神經網絡GCN通過圖上的傅里葉變換和卷積定理定義了譜域上的卷積核,然后通過一階切比雪夫多項式近似來減少計算量,最后定義了圖卷積。Gilmer等人提出的統(tǒng)一框架 MPNN將圖卷積神經網絡分為消息傳遞和讀出兩個階段。針對節(jié)點級的任務,大部分圖卷積神經網絡可以由信息傳遞階段的聚合鄰居信息和更新狀態(tài)信息兩步來概括:第一步,每個節(jié)點通過某種方式聚集鄰居節(jié)點傳遞的特征信息;第二步,每個節(jié)點按照某種方法,根據自身的特征信息和鄰居節(jié)點信息來更新自己的特征信息。最后將得到的信息進行非線性映射,增強模型的表達能力。
2 高職教育的挑戰(zhàn)與機遇
在新時代新形勢下,我國高職教育面臨著許多挑戰(zhàn)和機遇,高職教育的重要性與緊迫性不言而喻。在注重高素質技術技能人才培養(yǎng)的當今,高職院校承擔起了重要的社會責任,肩負起向國家基層一線培養(yǎng)高學歷、高素質的專業(yè)技術技能型人才,真正實現(xiàn)教育數字化以及數字化教育,從而推動社會信息化趨勢的發(fā)展。
在信息時代,高職教育領域也不可避免地受到數字化和智能化的影響。學校和教育機構積累了大量學生數據,這些數據涵蓋了學生的學術成績、學習行為、興趣愛好等方面。然而,僅僅積累這些數據遠遠不夠,如何從這些數據中挖掘出有價值的信息,為學生和教師提供更有效的教學和學習方案,成為一個亟待解決的問題。隨著信息技術特別是大數據、人工智能[5]、深度學習等的高速發(fā)展,移動終端應用已經成為人們日常生活中不可分割的一部分,移動終端應用為高職教育高質量發(fā)展提供了新的機遇,同時也帶來了新的挑戰(zhàn)。傳統(tǒng)課堂教學模式及理念受移動教育類應用的強烈沖擊,尤其是教學理念與“互聯(lián)網+教育”概念的不斷推廣和影響,新型的移動教學模式也發(fā)生了明顯的變化和完善,隨之大量的教育類App也應運而生,諸如“網易云課堂”“流利閱讀”等??v觀這些教育類App會發(fā)現(xiàn),這些教育類App大部分都是線上教學模式,即教師用戶與學生用戶僅在線上交流互動。因此,如何應用這些App產生的學生行為數據進行具體分析,是目前教育改革的一個重要方向,即教育數字化。
3 系統(tǒng)基本功能結構
在線教育平臺通常包括以下功能:用戶參與學習,教師通過平臺針對內容的性質創(chuàng)建對應的班級,用戶根據自己的喜好學習不同課程,用戶訂閱其他老師發(fā)布的內容。在線教育用戶分類即通過用戶自身的屬性、學習課程,學習行為數據,預測出他們的學習方向。
在線教育中的每個大學生用戶都可以視為一個節(jié)點,用戶之間的關系可以視為節(jié)點之間的邊,因此其用戶分類即可視為圖中的節(jié)點分類。由用戶和用戶之間的關系構成的關系數據結構是一個典型的圖數據結構,如何有效地利用節(jié)點的屬性信息以及網絡的結構信息對節(jié)點進行分類是一個關鍵的問題。另外,在在線教育用戶分類的應用場景中,圖類數據集具有低同質率的特點。圖中的同質性指的是任意兩個相鄰節(jié)點的相似性,即如果它們的標簽相同,則兩個節(jié)點相似。同質率即是標簽相同的鄰居節(jié)點對占所有鄰居節(jié)點對的比例,同質率的高低決定了圖是同質的還是異質的。基于隨機游走的方法在對圖類數據進行節(jié)點分類時取得了好的效果,Bpero?zzi等人提出的DeepWalk[6]是一種學習網絡中節(jié)點隱表達式的算法,它通過隨機游走獲取網絡中的節(jié)點序列,再利用Word2Vec 的思想將節(jié)點變?yōu)榈途S向量,最后用于分類。但是,DeepWalk存在幾處不足之處,一是它僅利用了圖的結構信息但沒有使用節(jié)點的屬性信息,二是它的游走是一種均勻的游走,不適合處理同質率較低的圖數據集。為了解決DeepWalk只能隨機采樣的缺陷,Grover等人提出了在隨機游走時采用有偏策略的Node2Vec,通過p、q兩個超參數來控制訪問節(jié)點的順序是偏向于深度優(yōu)先還是廣度優(yōu)先。該方法雖然能夠在一定程度上控制隨機游走的有偏性,但仍然存在沒有利用節(jié)點自身屬性信息的缺陷。
4 基于圖卷積神經網絡的大學生學習資源推薦系統(tǒng)
如今,國外的Google、Yahoo等平臺都開始研發(fā)自己的推薦系統(tǒng),而國內的抖音、快手、網易新聞、騰訊新聞等公司也都推出了各自的推薦系統(tǒng)。然而,推薦系統(tǒng)仍然面臨許多問題,包括推薦精度、冷啟動[7]、數據稀疏、推薦多樣性等一系列挑戰(zhàn)。盡管協(xié)同過濾、關聯(lián)規(guī)則、深度神經網絡等方法的應用使得推薦系統(tǒng)取得了一定進步,但有些模型卻忽視了具有共同興趣用戶之間的相似性,導致高階圖卷積后的信息高度相似。此外,傳統(tǒng)圖卷積神經網絡在初始化圖結構嵌入時往往沒有考慮到應用場景,只是簡單地進行隨機初始化嵌入表示。
然而,隨著線上教育的常態(tài)化,網絡學習的范圍發(fā)生了巨大變化,尤其是在疫情爆發(fā)之后,線上教育有效地解決了傳統(tǒng)教育受時間和空間限制影響的問題。移動互聯(lián)網的高質量快速發(fā)展使得網絡學習備受青睞。然而,面對海量的網絡學習資源,人們往往難以有效地進行選擇,學習資源的繁多使得逐一辨別變得困難,尤其對于初學者更是如此。因此,如何精準有效地為大學生推薦符合其學習廣度和深度的學習資源,成為一個備受關注的研究課題。
為解決以上問題,本研究提出了大數據環(huán)境下基于GCN的學生分類與資源推薦算法,有效彌補了基于GCN的大學生學習用戶分類以及推薦算法在教育領域應用的不足。同時,采用前后端分離的體系結構,將應用部署到服務器上,設計實現(xiàn)了學生學習資源推薦系統(tǒng),為大數據時代高校學生個性化教育提供了輔助支持,進一步提高高職教育的人才培養(yǎng)質量,推動我國現(xiàn)代化教育的高質量發(fā)展。具體實現(xiàn)過程或方法如下:
1) 數據收集與存儲。數據源接入:通過網站埋點、移動應用SDK、日志收集等方式獲取用戶行為數據,包括點擊、學習、作業(yè)、考試評分等。數據存儲:將收集到的數據存儲在適合大規(guī)模數據處理和分析的數據庫中,例如關系型數據庫(如MySQL) 、NoSQL數據庫(如MongoDB、Cassandra) 或數據湖。
2) 數據預處理與特征工程。數據清洗,對原始數據進行清洗、去重和去噪,確保數據質量。特征提取,從用戶行為數據中提取有意義的特征,包括用戶特征(如年齡、性別、地區(qū))、物品特征(如類別、標簽)、行為特征(如點擊次數、購買次數)等。3) 用戶分類模塊:分類算法,使用GCN神經網絡將用戶分成不同的類別或群組[8],以便更好地理解用戶興趣和行為。4) 推薦模塊:個性化推薦算法,使用圖卷積神經網絡、協(xié)同過濾、內容推薦、深度學習模型等個性化推薦算法,根據用戶所屬的分類和其行為歷史,為用戶推薦合適的物品。實時推薦,對于實時推薦,可以使用流式處理技術(如Apache Kafka、Apache Flink) 來處理用戶實時行為,及時更新推薦結果。5) 模型訓練與優(yōu)化:離線訓練,周期性地使用歷史數據對分類和推薦模型進行離線訓練,更新模型參數和權重。在線實時訓練,使用在線學習方法,根據新的用戶行為數據實時更新模型,即不斷采集數據導入數據,以提供更實時的推薦結果。6) 服務部署與調用:API服務,將訓練好的分類和推薦模型部署為API服務,供前端應用或其他系統(tǒng)調用。分布式部署,使用容器技術(如Docker) 和容器編排工具(如Kubernetes) 來進行系統(tǒng)的彈性伸縮和高可用部署。7) 監(jiān)測與評估:指標定義,設計合適的評估指標,衡量分類和推薦效果,如點擊率、轉化率、推薦準確度等。A/B測試,使用A/B測試等方法評估不同算法或模型的性能,優(yōu)化系統(tǒng)效果。
系統(tǒng)搭建完成之后,通過比較可以發(fā)現(xiàn),從最開始利用圖卷積神經網絡應用于事件提取,到將圖卷積神經網絡應用于閱讀理解、文本生成和關系提取等任務上,圖卷積神經網絡實際上還有待改進的地方。傳統(tǒng)GCN只能應用于轉導(transductive) 任務,無法完成動態(tài)圖處理(inductive) 。另外,由于傅里葉變換推導的局限性,難以處理有向圖,并且在對于高階鄰接矩陣進行信息聚合時出現(xiàn)信息重疊覆蓋的問題也難以處理。本研究通過對模型采取基于用戶興趣的子圖分類,來緩解高階鄰接矩陣在進行信息聚合時出現(xiàn)的信息重疊覆蓋問題,預期可以提高模型預測的精確度[9]。
5 總結
本文介紹了基于圖卷積神經網絡的分類和推薦算法的研究現(xiàn)狀,對圖卷積神經網絡的概念和分類進行了介紹,但是圖卷積神經網絡在處理大規(guī)模圖數據[10]仍然是一個挑戰(zhàn),因為需要計算節(jié)點之間的關系矩陣,這可能導致計算復雜性問題。在處理不完整的圖數據以及缺失值是一個重要問題,特別是在推薦系統(tǒng)中。而圖卷積神經網絡等深度學習模型通常被認為是黑盒模型,如何解釋其決策是一個亟待解決的問題。
總之,基于圖卷積神經網絡的分類和推薦算法在處理圖數據的各個領域都具有廣泛的應用前景。雖然仍面臨一些挑戰(zhàn),但隨著深度學習研究的不斷發(fā)展,這些挑戰(zhàn)有望得到克服,從而更好地應用于實際問題中。