• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      教育大數(shù)據(jù)背景下的學(xué)業(yè)發(fā)展分析模型仿真

      2022-02-09 02:05:02婁增輝王紅林孫彩云
      計算機仿真 2022年12期
      關(guān)鍵詞:決策樹準確率神經(jīng)網(wǎng)絡(luò)

      婁增輝,王紅林,孫彩云

      (南京信息工程大學(xué)人工智能學(xué)院,江蘇 南京 210044)

      1 引言

      隨著計算機技術(shù)的發(fā)展,大數(shù)據(jù)和教育的聯(lián)系愈發(fā)緊密,在教育領(lǐng)域的應(yīng)用也愈加廣泛。如何有效地提升學(xué)生成績是目前高等教育領(lǐng)域亟待解決的主要問題[1]。成績預(yù)測是大數(shù)據(jù)技術(shù)在教育領(lǐng)域中的一個重要應(yīng)用。學(xué)習(xí)成績預(yù)測不僅可以幫助老師及時修正教學(xué)策略,提高學(xué)生最終學(xué)習(xí)成績,降低不及格學(xué)生比例,還能在一定程度上對學(xué)生起到監(jiān)督和預(yù)警作用,是一種提高學(xué)生成績的有效方法[2]。

      2 教育大數(shù)據(jù)

      當(dāng)前的社會有收集物理世界中的大量信息,并使用傳感器等技術(shù)將其傳輸?shù)骄W(wǎng)絡(luò)世界的能力。數(shù)十億人通過移動設(shè)備連接互聯(lián)網(wǎng),這帶來前所未有的信息處理能力、存儲容量和獲取知識的途徑[3]。關(guān)于大數(shù)據(jù)這個詞的定義,不同的研究者有自己的見解。Yassine等[4]認為,大數(shù)據(jù)是大量的數(shù)據(jù)。然而,De Mauro等[5]將其視為一種具有高數(shù)量、速度和多樣性的信息資產(chǎn)。此外,Osman[6]將大數(shù)據(jù)描述為難以用傳統(tǒng)方式處理、控制或檢查的大數(shù)據(jù)集。在2001年,Gartner Group(前身為META Group)的分析員Doug Laney提出大數(shù)據(jù)的3V特性:Volume(數(shù)據(jù)量)、Velocity(高速)與Variety(多樣)[7]。之后IBM增加了Value(價值)和Veracity(真實)將其擴充至5V[8]。

      步入大數(shù)據(jù)時代,“數(shù)據(jù)驅(qū)動發(fā)展,分析變革教育”成為新一代教育創(chuàng)新變革的重要方向。2018年教育部印發(fā)的《教育信息化2.0行動計劃》提出目標:到2022年基本實現(xiàn)“三全兩高一大”的發(fā)展目標,建成“互聯(lián)網(wǎng)+教育”大平臺,努力構(gòu)建“互聯(lián)網(wǎng)+”條件下的人才培養(yǎng)新模式、發(fā)展基于互聯(lián)網(wǎng)的教育服務(wù)新模式、探索信息時代教育治理新模式[9]。2019年中共中央、國務(wù)院印發(fā)的《中國教育現(xiàn)代化2035》提出:加快信息化時代教育變革。建設(shè)智能化校園,統(tǒng)籌建設(shè)一體化智能化教學(xué)、管理與服務(wù)平臺。利用現(xiàn)代技術(shù)加快推動人才培養(yǎng)模式改革,實現(xiàn)規(guī)?;逃c個性化培養(yǎng)的有機結(jié)合[10]。這一系列的計劃和政策引導(dǎo)下,許多學(xué)校已經(jīng)展開了大數(shù)據(jù)與教育融合發(fā)展的探索[11]。

      3 研究現(xiàn)狀

      關(guān)于成績預(yù)測的研究并不少見。Macfadyen等[12]基于學(xué)習(xí)管理系統(tǒng)開發(fā)“預(yù)警系統(tǒng)”,發(fā)現(xiàn)處于學(xué)業(yè)危機的學(xué)生,并及時做出預(yù)警并采取措施改善其學(xué)業(yè)情況。陳勇[13]研究并實現(xiàn)了基于遺傳神經(jīng)網(wǎng)絡(luò)對成績的預(yù)測,發(fā)現(xiàn)該模型具有較高的準確性。王小麗等[14]構(gòu)建了基于加權(quán)樸素貝葉斯的英語成績預(yù)測模型,認為該模型可以做為預(yù)測和分析學(xué)生成績的一種有效方法。Jayakumari等[15]用數(shù)據(jù)挖掘技術(shù)分析學(xué)生數(shù)學(xué)水平進行分析并預(yù)測選課結(jié)果。黎龍珍[16]基于C4.5算法構(gòu)建成績預(yù)測模型,取得不錯的準確率,通過模型分析得出對學(xué)生成績影響最大是視頻任務(wù)點完成量。趙慧瓊等[17]對學(xué)習(xí)行為數(shù)據(jù)進行二元Logistic回歸分析并結(jié)合結(jié)果對學(xué)業(yè)危機學(xué)生進行干預(yù),有利于增強學(xué)習(xí)動機,提高學(xué)習(xí)質(zhì)量。這些研究確實對成績進行了預(yù)測并取得了較好的效果,但是其所選數(shù)據(jù)特征較少,并不能全面的反應(yīng)一個學(xué)生的真實情況。為此,有必要對學(xué)生的特征進行進一步分析,找出更加全面的影響成績因素對其成績進行預(yù)測。

      4 算法模型設(shè)計

      目前,常用的大數(shù)據(jù)分析算法有:支持向量機(Support Vector Machine,SVM)、決策樹(Decision Tree,DT)、k近鄰算法(k-Nearest Neighbor,kNN)、神經(jīng)網(wǎng)絡(luò)(Neural Networks,NN)等[18]。這些算法在教育中的 應(yīng)用場景比較多,根據(jù)學(xué)生的行為對學(xué)生分類,可以分析影響學(xué)習(xí)效果的強因素,分析學(xué)習(xí)特征,預(yù)測學(xué)生的學(xué)習(xí)效果,對離群點預(yù)警,還可以為學(xué)生提供不同的學(xué)習(xí)資源分析依據(jù)[19]。本研究選取k近鄰學(xué)習(xí)、決策樹、全連接神經(jīng)網(wǎng)絡(luò)(Fully Connected Neural Network,F(xiàn)C)和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)這四種算法進行成績預(yù)測研究。

      4.1 k近鄰算法

      kNN是一種常見的用于分類和回歸的監(jiān)督學(xué)習(xí)方法,在1968年由Cover和Hart提出。算法的基本思想是:對于給定的數(shù)據(jù)集,尋找并設(shè)置合適的k值。對于輸入的數(shù)據(jù),基于某種距離度量(如歐式距離)在數(shù)據(jù)集中找出與其距離最近的k個樣本,根據(jù)分類規(guī)則(如投票法)確定輸入數(shù)據(jù)的類別。如圖1所示。

      圖1 kNN算法演示

      ω1、ω2、ω3是分好的三類,設(shè)置k=5,輸入數(shù)據(jù)Xu距離ω1有四個最近的點,距離ω3有一個最近的點,所以Xu歸為ω1類。

      4.2 決策樹

      決策樹是一種可用于分類和預(yù)測的樹形結(jié)構(gòu)。決策樹由根結(jié)點、內(nèi)部結(jié)點和葉子結(jié)點構(gòu)成。決策樹的生成是一個自上而下的遞歸過程?;舅惴ㄈ缦拢?/p>

      根據(jù)選擇特征的策略,決策樹算法分為ID3、C4.5和CART算法等。本研究使用CART算法對學(xué)生成績進行預(yù)測,用基尼指數(shù)選擇最優(yōu)特征?;嶂笖?shù)的定義為:設(shè)有N個類,第n類的概率為pn,則

      4.3 全連接神經(jīng)網(wǎng)絡(luò)

      神經(jīng)網(wǎng)絡(luò)一般由輸入層、隱藏層和輸出層構(gòu)成(如圖3)。全連接神經(jīng)網(wǎng)絡(luò)是最樸素的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。實現(xiàn)神經(jīng)網(wǎng)絡(luò)的過程包含訓(xùn)練步驟和測試步驟兩個步驟[20]。一個全連接神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)只有一個輸入層,一個輸出層,中間是若干層全連接層。神經(jīng)網(wǎng)絡(luò)的公式表示

      y=Wx+b

      神經(jīng)網(wǎng)絡(luò)的構(gòu)造過程就是一個不斷計算優(yōu)化權(quán)重W和偏置項b的過程。

      圖2 神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)

      Adam優(yōu)化器用來更新和計算影響模型訓(xùn)練和模型輸出的網(wǎng)絡(luò)參數(shù),使其逼近或達到最優(yōu)值。

      損失函數(shù)(loss)是評價模型預(yù)測值與真實值差異的函數(shù)。本實驗神經(jīng)網(wǎng)絡(luò)模型均使用交叉熵損失函數(shù)。其作用是表征兩個概率分布之間的距離。公式為

      H(y*,y)=-∑y**lny

      為了緩解過擬合,使用L2正則化。正則化在損失函數(shù)中引入模型復(fù)雜度指標,利用給W加權(quán)值,弱化訓(xùn)練數(shù)據(jù)的噪聲。L2正則化公式

      輸出層前通過Softmax函數(shù),將神經(jīng)元的輸出映射到(0,1)區(qū)間內(nèi)。它的作用是把神經(jīng)元輸出轉(zhuǎn)化為概率,從而進行分類。Softmax的公式為

      表示第j個分類的概率。

      4.4 循環(huán)神經(jīng)網(wǎng)絡(luò)

      RNN是一類具有短期記憶能力的神經(jīng)網(wǎng)絡(luò)。RNN和FC結(jié)構(gòu)類似,不同之處在于RNN引入了循環(huán)核(ht),ht帶有記憶功能,它存儲了之前的信息,如圖3。

      圖3 循環(huán)神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)

      5 實驗及仿真

      5.1 數(shù)據(jù)集與數(shù)據(jù)預(yù)處理

      此次實驗數(shù)據(jù)集來自“Kalboard 360”。該數(shù)據(jù)集具有16個特征,480條記錄,1個成績標簽,維度較高。數(shù)據(jù)集的特征有:學(xué)生性別、國籍、出生地、受教育水平、年級、教室、課程、學(xué)期、監(jiān)護者(父親或者母親)、舉手次數(shù)、訪問課程次數(shù)、檢查公告更新次數(shù)、參加討論次數(shù)、家長是否回答了學(xué)校提供的調(diào)查問卷、家長對學(xué)校的滿意度、每個學(xué)生的缺勤天數(shù)。通過對比多種數(shù)據(jù)集,此數(shù)據(jù)集的特征最貼近實際教學(xué)情況,易收集。本實驗的模型均由python3.8語言實現(xiàn)。

      在預(yù)處理階段,使用python語言讀取數(shù)據(jù),將用字符型表示的信息重新編碼為數(shù)字型,如對于成績標簽L(低)、M(中)、H(高)分別轉(zhuǎn)化為0、1、2。對數(shù)據(jù)進行隨機化打亂,設(shè)置固定的random seed(隨機種子),使得隨機化后的數(shù)據(jù)固定,按照7:3將數(shù)據(jù)分割為訓(xùn)練集和測試集。

      1)kNN

      根據(jù)kNN的算法思想寫出程序,對于最佳k值設(shè)置取值范圍1-336,用for循環(huán)對每個k值計算準確率,得當(dāng)k=29時準確率最高,為68.056%。

      2)DT

      使用CART決策樹預(yù)測成績準確率為69.792%。由于決策樹的性質(zhì)可以使用sklearn機器學(xué)習(xí)庫的feature_importances_函數(shù)提取前6種重要特征:

      表1 重要特征和重要度

      前5個特征具有較高的重要度,對學(xué)生成績的影響較大,符合客觀規(guī)律。

      3)FC

      表2 模型參數(shù)設(shè)置

      每次送入的樣本個數(shù)bath_size設(shè)置20,訓(xùn)練次數(shù)800次,損失函數(shù)和準確率曲線如下圖所示。

      圖4 FC的loss曲線

      圖5 FC的準確率曲線

      訓(xùn)練集loss收斂于0.54,準確率收斂于78.5%;測試集loss收斂于0.56,準確率收斂于77%。準確率高,擬合效果好。

      4)RNN

      表3 模型參數(shù)設(shè)置

      為了防止模型過擬合,每層RNN后進行一次Dropout,隨機使11%的神經(jīng)元失活。每次送入的樣本個數(shù)bath_size設(shè)置20,訓(xùn)練次數(shù)800次,損失函數(shù)和準確率曲線如下圖所示。

      圖6 RNN的loss曲線

      圖7 RNN的準確率曲線

      訓(xùn)練集loss收斂于0.57,準確率收斂于80%;測試集loss收斂于0.56,準確率收斂于78.5%。較全連接神經(jīng)網(wǎng)絡(luò)有些許提升。

      5.2 結(jié)果分析

      為了評估模型,除了上述的準確率,此次研究還引入其它三種常用的評價指標,結(jié)果如下所示。

      圖8 不同模型的評價指數(shù)

      從各指標可以看出,兩種神經(jīng)網(wǎng)絡(luò)模型效果明顯要好于kNN和DT,F(xiàn)C在F1值上比RNN要高,但是由于RNN引入了循環(huán)核,所以訓(xùn)練時間會長于FC,且準確率等值有些許波動。總的來說,在如此多特征的數(shù)據(jù)集上,能達到這樣的準確率,說明大數(shù)據(jù)分析算法在成績預(yù)測這一塊領(lǐng)域具有良好的應(yīng)用前景。

      表4 不同模型的評價指數(shù)

      6 總結(jié)

      學(xué)生的學(xué)業(yè)成績受多種因素影響,本研究選取了合適的數(shù)據(jù)集,并用四種大數(shù)據(jù)分析算法模型對學(xué)生進行成績預(yù)測,從結(jié)果來看,神經(jīng)網(wǎng)絡(luò)模型要明顯好過kNN和決策樹。這些算法模型應(yīng)用于實際教學(xué)中,通過決策樹能提取出影響學(xué)生成績的重要特征,結(jié)合神經(jīng)網(wǎng)絡(luò)得出的成績預(yù)測結(jié)果,能使教師對自己的教學(xué)計劃做出合適的調(diào)整,具有良好的應(yīng)用前景。但是本研究選取的算法模型都較為簡單,后續(xù)的研究將采用結(jié)合不同算法的復(fù)合算法模型對學(xué)生成績進行預(yù)測,希望能達到更高的準確率和更好的實用效果。

      猜你喜歡
      決策樹準確率神經(jīng)網(wǎng)絡(luò)
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
      2015—2017 年寧夏各天氣預(yù)報參考產(chǎn)品質(zhì)量檢驗分析
      神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
      電子制作(2019年19期)2019-11-23 08:42:00
      一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
      決策樹和隨機森林方法在管理決策中的應(yīng)用
      電子制作(2018年16期)2018-09-26 03:27:06
      高速公路車牌識別標識站準確率驗證法
      基于決策樹的出租車乘客出行目的識別
      基于神經(jīng)網(wǎng)絡(luò)的拉矯機控制模型建立
      重型機械(2016年1期)2016-03-01 03:42:04
      復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
      宜兰县| 濉溪县| 临泽县| 东港市| 塘沽区| 峡江县| 定边县| 防城港市| 信阳市| 宣汉县| 台湾省| 隆德县| 乳源| 太保市| 中西区| 合阳县| 吴堡县| 临湘市| 江西省| 虎林市| 常山县| 巴彦淖尔市| 江源县| 河北区| 德庆县| 三明市| 柳河县| 莎车县| 苍梧县| 讷河市| 甘泉县| 鄂托克前旗| 榆社县| 高陵县| 黑河市| 丹凤县| 武安市| 乐至县| 庄河市| 大关县| 客服|