• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    智慧校園學生英語統(tǒng)考成績智能預測研究

    2022-08-19 06:13:14
    貴陽學院學報(自然科學版) 2022年2期
    關鍵詞:反例決策樹英語聽力

    畢 娟

    (合肥幼兒師范高等??茖W校 社會管理及服務系,安徽 合肥 230001)

    我國是一個教育大國,教育工作的進展無時無刻不牽動著社會的目光,提高學生的學習成績是每一所學校的教學目標[1]。英語教育是我國教育中非常重要的一門課程,如何提高英語教育質(zhì)量已經(jīng)成為了當前教育改革的重要內(nèi)容之一。通過將數(shù)據(jù)挖掘應用到學生成績的預測分析中,可以分析出學生考試成績與各種因素之間的聯(lián)系,教師可根據(jù)這些聯(lián)系針對性的給出解決方案,以提高學生成績[2]。通過提取出的隱藏的、有效的信息,還可以為教師調(diào)整自身的教學計劃做出建議。本研究將在C4.5 決策樹優(yōu)化算法的基礎上,對學生的英語成績進行預測,希望通過本研究能夠為提高學生成績做出一定的推動作用[3-5]。

    1 C4.5 決策樹優(yōu)化算法及其應用

    決策樹算法是解決分類問題時最常用到的歸納推理算法之一,是一種通過樣本上數(shù)據(jù)集作為基礎的歸納學習算法[6]。C4.5 算法構造決策樹的過程與ID3 算法基本相同,二者之間的主要不同是因為所使用的屬性選擇度量不同[7-9]。C4.5 算法在進行運算時,采用的是信息增益率,而ID3 算法則采用信息增益進行屬性選擇計算[10]。在具體計算中,C4.5 算法可以處理ID3 算法不能計算的連續(xù)性屬性。下圖1 為C4.5 算法流程圖。

    圖1 C4.5 算法流程圖

    在算法具體實施中,首先假設訓練集中所有數(shù)據(jù)的類屬性都為已知,且類屬性有n 不同的值,將其表示為Ci(i= 1,2,…,n),而樣本合集則記為TiC,樣本分類所需要的期望信息可用以下公式表示。

    式中ip為樣本屬于類iC的概率,。然后將訓練集樣本按照屬性進行劃分,如果訓練集被屬性A 劃分為m 個子集,將子集Tj在屬性A上的值記為aj,所以可用以下公式表示訓練集T的信息熵。

    在對信息增益率的計算過程中,使用以下公式表示屬性A 的分類信息。

    最后將公式(2)、(3)、(4)結(jié)合在一起即可得到C4.5 算法增益率的表達公式,如下所示。

    2 基于改進后的C4.5 算法構建決策樹

    2.1 改進后的C4.5 算法

    因C4.5 算法在信息增益率計算過程中需要對對數(shù)函數(shù)進行多次計算,本研究考慮通過減少決策樹計算成本的方式,降低決策樹的生產(chǎn)時間?,F(xiàn)假設E=F1×F2×…×Fn為n維空間中的有窮向量空間,而其中Fj為有窮離散符號集,E中的元素e為例子,并設YE和NE為E中的正例集和反例集子集,二者的大小分別為y和n。這時E中的正例與反例的概率,同向量空間E中正確決策樹對任意樣本集的分類概率一樣。改進后的C4.5 算法中決策樹要對一個樣本集做出正確的分類判斷所需的信息量如下所示。

    若將屬性A選擇作為決策樹的根,并使得A具有V個不同的值,所以根據(jù)屬性A可以將可以將向量空間劃分為V個子集{E1,E2,…EV},這個子集包括了向量空間E中屬性A取iA值的樣本數(shù)據(jù)?,F(xiàn)假設空間Ei中含有的正例與反例個數(shù)分別為yi和ni,所以可以用以下表達式表示子集Ei需要的期望信息I(yi,ni)。

    故而可以用以下表達式屬性A 為根所需要的信息熵。

    然后對上式進行化簡可得以下式子。

    接下來引入高等數(shù)學的邁克勞林以及泰勒公式,對信息熵進行簡化,通過泰勒公式中等價無窮小的概念,可得到以下表達式。

    現(xiàn)將公式(11)和(12)帶入到公式(10)之 中,可以得到信息熵的表達式。

    同理可得分類信息量的表達式如下所示。

    信息熵的表達式如下所示。

    經(jīng)過這一系列的簡化改進后,計算公式從對數(shù)計算轉(zhuǎn)變?yōu)榱思訙p乘除四則基本運算,在算法運行中減少了計算時間,提高了算法的效率。

    2.2 基于改進后的C4.5 算法構建決策樹

    在對C4.5 算法進行改進后,在改進算法的基礎上構建決策樹。本研究將某學校2019 屆高三一班級的某次模擬考試成績作為對象。該班共有30 名學生,將其模擬考試的成績進行統(tǒng)計,并根據(jù)以往所有考試中的情況,對每一名學生的英語知識點掌握情況、英語聽力情況以及詞匯量劃分等級,分別將學生的評價指標分為優(yōu)、良、中、差四個等級,而總分為150 分,其中低于90 分為不合格,高于等于90 分為合格。下表為某次模擬考試該班同學的考試分析數(shù)據(jù)集。

    如表1 所示,該班30 名學生的模擬考試以及影響成績的各因素都表示在該表中,本研究將本模擬成績作為訓練集。本研究的類別屬性用A 表示,A 為合格與不合格兩種屬性,上表中合格人數(shù)為24 人,不合格人數(shù)為6 人,即在集合中P(y)= 24/30,P(n)= 6/30,所以分類屬性的信息量經(jīng)計算可得。

    表1 樣本數(shù)據(jù)集

    I(y,n) ==0.16。以英語知識點掌握為研究對象,通過上表可以看到當英語知識點掌握情況分別為優(yōu)、良、中、差時,對應的例子數(shù)量分別為9、9、7、5 個。當英語知識點掌握等級為優(yōu)時,數(shù)據(jù)集中相對應的正例有9 個,反例為0個等信息。根據(jù)公式(13)、(14)以及(15)可以計算求得測試屬性的信息增益率。

    同理將英語聽力作為研究對象,當英語聽力等級為優(yōu)時,所對應的正例有7 個,反例有3 個。當英語聽力等級為良時,所對應的正例有5 個,反例有2 個。當英語聽力等級為中時,所對應的正例有9 個,反例有0 個。當英語聽力等級為差時,所對應的正例有3 個,反例有1 個。同樣按照公式(13)、(14)以及(15)可以計算求得對應測試屬性的信息增益率。

    最后將英語詞匯量作為研究對象,在上表中可以看到,當英語聽力等級為優(yōu)時,所對應的正例有6 個,反例有3 個。當英語聽力等級為良時,所對應的正例有6 個,反例有2 個。當英語聽力等級為中時,所對應的正例有6 個,反例有1 個。當英語聽力等級為差時,所對應的正例有6 個,反例有0 個。同樣按照公式(13)、(14)以及(15)可以計算求得對應測試屬性的信息增益率。

    計算完成后,比較知識點掌握情況、英語聽力情況、英語詞匯量三個因素的信息增益率,其中知識點掌握情況的信息增益率最大,所以在三者中知識點掌握情況的信息對分類的作用最大,故而應當將知識點掌握情況作為測試屬性。在選用知識點掌握情況作為測試屬性之后,使用遞歸的方法繼續(xù)進行決策樹的構建。從上述計算結(jié)果可知,除了知識點掌握情況之外,英語詞匯量的信息增益率最大,所以當知識點掌握情況等級為中等時,選取英語詞匯量作為測試屬性。然后依據(jù)此方法,當英語詞匯量等級為中等時,選用英語聽力情況作為測試屬性,進而構建完整的決策樹模型,如下圖所示。

    由圖2 決策樹可以得到分類規(guī)則。如當英語知識點掌握水平為優(yōu)時,成績合格;英語知識點掌握水平為良時,成績合格;當英語知識點掌握水平為差時,成績不合格合格。當英語知識點掌握水平為一般時,英語詞匯量水平為優(yōu),成績合格等等。

    圖2 訓練決策樹模型

    3 實驗設計與分析

    本研究所用數(shù)據(jù)與訓練時所用數(shù)據(jù)都來自同一學校2019 屆高三學生,在進行具體實驗時,將高三年紀所有班級的學生都作為研究對象,并記錄所有學生的模擬成績。然后根據(jù)模擬成績與改進后的C4.5 決策樹算法發(fā)現(xiàn)英語成績與各個因素之間的關系,預測這一屆學生高考英語的合格率。最后將高考實際合格率與預測合格率進行對比,以證明本研究所使用的方法是否具有實用性。某高校2019 屆高三學生共有672 名,在進行數(shù)據(jù)采樣時,對學生信息進行統(tǒng)計,并將最近一次英語模擬考試成績進行分析記錄。通過模擬考試試卷,可以知道每一名學生的各項能力。本研究對影響學生英語水平的知識點掌握情況、英語聽力情況以及詞匯量三項進行了調(diào)查,調(diào)查同樣將三者分為優(yōu)、良、中、差四個等級,通過分析三者與學生英語成績之間的關系,對學生高考成績做出預測。下表為本研究將原始數(shù)據(jù)整理后得到的部分研究數(shù)據(jù)。

    表2 將2019 屆高三年紀所有學生的英語合情況,以及對應的知識點掌握情況、英語聽力情況以及詞匯量水平表示了出來,結(jié)合表2 可以將分類屬性的信息量,以及每一種屬性所對應的信息增益率計算出來。其基體的計算方與前文相同,經(jīng)過計算可得,

    表2 研究數(shù)據(jù)集

    在得到了分類屬性的信息增益率之后,便可以開始構建決策樹模型,其構建方法前文已有詳細的說明,此處不再贅述,可以直接得到本研究的決策樹模型如下圖3 所示。

    圖3 實驗決策樹模型

    根據(jù)整個2019 屆高三年紀成績數(shù)據(jù)得到的決策樹模型與訓練得到的決策數(shù)模型是一樣的,說明本研究選用的三個影響英語成績因素不僅適用于一個班級,更是對整個年紀都具有相同的影響。根據(jù)生產(chǎn)的決策樹模型,可以歸納出知識點掌握情況、英語聽力情況以及詞匯量三項因素對英語成績的影響規(guī)律。當英語知識點掌握水平為優(yōu)時,成績合格;英語知識點掌握水平為良時,成績合格;當英語知識點掌握水平為差時,成績不合格等等。當英語知識點掌握水平為一般時,英語詞匯量水平為優(yōu),成績合格;當英語知識點掌握水平為一般時,英語詞匯量水平為良,成績合格;當英語知識點掌握水平為一般時,英語詞匯量水平為中等時,英語聽力水平為優(yōu)時,成績合格。當英語知識點掌握水平為一般時,英語詞匯量水平為中等時,英語聽力水平為良時,成績不合格。根據(jù)以上規(guī)律,可得到該校2019 屆高三年紀高考英語成績的預測合格率為72.3%,然后將該校2019 屆、2018 屆、2017 屆三屆學生的實際英語成績合格率與本文計算得到的預測合格率進行對比,對比結(jié)果如下表所示。

    通過上表可以看到,本文對英語的預測合格率為72.3%,而2019 屆、2018 屆、2017 屆的實際英語合格率為73.5%、74.7%、75.2%,準確率非常高,可以證明本研究所采用的改性型C4.5 決策樹優(yōu)化算法在對英語成績進行預測時,具有較高的準確性、實用性,該方法可以用于實際教育中。但是,通過表3 還可以發(fā)現(xiàn)隨著時間的前移,英語實際合格率與預測合格率之間的誤差越來越大,而本文計算得到的預測合格率是基于2019 屆學生的,所以在使用該方法對學生成績進行預測時,應該盡可能地使用時間較為接近的數(shù)據(jù)作為決策樹構建基礎,以提高預測的準確性。

    表3 預測合格率與實際合格率比較

    4 結(jié)論

    隨著時代的發(fā)展與大數(shù)據(jù)時代的來臨,無論是在人們的生活中、學習中還是工作中,無時無刻不充斥著大量的信息,如何發(fā)現(xiàn)信息之間的關聯(lián)并將之挖掘出來,是提高學習成績、提升工作效率的有效方法,這種方法對提高英語成績同樣行之有效。有鑒于此,本研究提出通過改進C4.5 決策樹優(yōu)化算法,對學生英語成績做出預測,以達到提高英語水平的目的,并通過實例的方式對該方法進行了驗證。研究結(jié)果表明,改進后的C4.5 決策樹優(yōu)化算法發(fā)現(xiàn),對英語知識點的掌握水平是影響英語成績的最關鍵因素,并提出了幾條可預測學生英語成績的規(guī)律,最后通過將預測合格率與實際合格率進行比較,證明了本研究的正確性。但是,本研究仍存在一些不足,在將預測合格率與實際合格率進行對比時,應該和更多年份的實際合格率進行對比,以檢驗本研究提出方法的時效性。

    猜你喜歡
    反例決策樹英語聽力
    幾個存在反例的數(shù)學猜想
    趣味英語聽力 How to Live a Greener Life
    一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
    決策樹和隨機森林方法在管理決策中的應用
    電子制作(2018年16期)2018-09-26 03:27:06
    活用反例擴大教學成果
    利用學具構造一道幾何反例圖形
    基于決策樹的出租車乘客出行目的識別
    基于肺癌CT的決策樹模型在肺癌診斷中的應用
    對稱不等式的不對稱
    平邑县| 通山县| 利津县| 鹤峰县| 海伦市| 鲜城| 新邵县| 安顺市| 阿巴嘎旗| 营山县| 滕州市| 宁都县| 延庆县| 太原市| 阳朔县| 长春市| 辛集市| 体育| 天水市| 谢通门县| 日土县| 同心县| 东丰县| 蓬溪县| 西青区| 扶风县| 太白县| 浙江省| 阜新市| 城口县| 札达县| 太仆寺旗| 苍山县| 来宾市| 佛冈县| 嵩明县| 金平| 微博| 肇东市| 郴州市| 海原县|