范佳琪,王慧亞
(四川大學(xué)計(jì)算機(jī)學(xué)院,成都610065)
隨著信息時(shí)代的到來(lái),作為全國(guó)參與人數(shù)最多和最受社會(huì)關(guān)注的考試,高考也開始不斷推進(jìn)信息化建設(shè),線上報(bào)考、網(wǎng)上評(píng)卷、線上填報(bào)志愿,高考的整個(gè)過(guò)程都與現(xiàn)代信息技術(shù)緊密聯(lián)系在一起。高考信息化使得各地教育部門累積了非常多與高考有關(guān)的數(shù)據(jù),也在不知不覺中使得互聯(lián)網(wǎng)中蘊(yùn)藏了海量高考數(shù)據(jù)。而眾所周知,在如今這個(gè)數(shù)據(jù)決定一切的大數(shù)據(jù)時(shí)代中,從海量高考數(shù)據(jù)中挖掘出對(duì)高考有所幫助的知識(shí)是教育部門和考生家長(zhǎng)共同的迫切需求。目前有許多研究人員從不同角度出發(fā),采用各種技術(shù)和方法致力于從高考數(shù)據(jù)中發(fā)現(xiàn)知識(shí)和規(guī)律,為考生、招生及教育部門在高考過(guò)程提供更科學(xué)、更合理的指導(dǎo)和服務(wù)。
本文對(duì)近年來(lái)基于高考數(shù)據(jù)進(jìn)行的各類分析和預(yù)測(cè)研究進(jìn)行概述,將該領(lǐng)域的相關(guān)研究按照研究技術(shù)和方法簡(jiǎn)單分為三類:基于統(tǒng)計(jì)分析的研究、基于數(shù)據(jù)挖掘的研究和基于機(jī)器學(xué)習(xí)的研究。
早期的基于高考數(shù)據(jù)的研究,大多是采用統(tǒng)計(jì)分析的方法,使用線性回歸、灰色模型等來(lái)處理和分析高考數(shù)據(jù),這些研究大多圍繞如何更好地預(yù)測(cè)高考分?jǐn)?shù)線這一問(wèn)題進(jìn)行。
較早的,韓向峰等人[3]提出了一種基于關(guān)鍵字的Web 數(shù)字信息挖掘方法來(lái)預(yù)測(cè)考生的錄取概率。該方法首先通過(guò)設(shè)置關(guān)鍵詞爬取Web 頁(yè)面上的與高考招生相關(guān)的信息,然后基于獲取的數(shù)據(jù)采用曲線擬合和多元線性回歸對(duì)本??品?jǐn)?shù)線以及院校最低分?jǐn)?shù)線進(jìn)行預(yù)測(cè)。
針對(duì)采用單一預(yù)測(cè)模型的實(shí)驗(yàn)結(jié)果并不理想的問(wèn)題,周帆[17]提出將Power 模型、Logarithm 模型和Linear模型進(jìn)行組合,對(duì)每一個(gè)模型通過(guò)最小二乘法求得最佳變權(quán)系數(shù),然后建立變權(quán)重組合預(yù)測(cè)模型預(yù)測(cè)重慶市文科二批次高考分?jǐn)?shù)線。通過(guò)與單一模型進(jìn)行對(duì)比,變權(quán)重組合模型的準(zhǔn)確度得到提高。類似的,李敬文等人[16]也對(duì)組合模型預(yù)測(cè)進(jìn)行了研究,他們整合了模糊數(shù)學(xué)理論和灰色GM(1,1)理論模型,在層次指標(biāo)體系上提出了模糊灰色預(yù)測(cè)模型。研究結(jié)果表明模糊灰色組合預(yù)測(cè)結(jié)果較為準(zhǔn)確。
同樣基于灰色模型進(jìn)行預(yù)測(cè)研究的還有杜輕等人[14]與楊麗娟等人[15]。前者基于2008-2013 年的某高校理工類各專業(yè)錄取數(shù)據(jù)建立了GM(1,1)模型,預(yù)測(cè)了2014 年的各個(gè)專業(yè)的錄取線差,對(duì)比預(yù)測(cè)值與真實(shí)值發(fā)現(xiàn),相對(duì)誤差在5%之內(nèi)。而后者對(duì)現(xiàn)有研究中幾種常見的預(yù)測(cè)方法進(jìn)行了簡(jiǎn)單的實(shí)驗(yàn),包括算術(shù)平均法、移動(dòng)平均法、移動(dòng)加權(quán)平均法,指數(shù)平滑預(yù)測(cè)法以及灰色預(yù)測(cè)GM(1,1)模型,結(jié)果表明這些方法在某些年份的預(yù)測(cè)偏差較大,但在某些年份預(yù)測(cè)又比較精準(zhǔn)。
針對(duì)基于統(tǒng)計(jì)分析的研究存在的實(shí)驗(yàn)樣本集較小的問(wèn)題,研究者開始采用數(shù)據(jù)挖掘技術(shù)來(lái)進(jìn)行研究。數(shù)據(jù)挖掘本身就是一種決策支持過(guò)程,這使得基于數(shù)據(jù)挖掘的研究大多圍繞如何向考生和招生部門在高考中提供更好、更科學(xué)的決策支持這一問(wèn)題進(jìn)行,大多數(shù)研究偏向系統(tǒng)的設(shè)計(jì)與開發(fā)。
史貞軍[1]以幫助考生及家長(zhǎng)合理填報(bào)高考志愿為研究目標(biāo),提出開發(fā)一個(gè)高考志愿決策支持系統(tǒng)。其研究的關(guān)鍵技術(shù)是OLAP 和數(shù)據(jù)挖掘技術(shù)。他首先使用OLAP 構(gòu)建高考多維數(shù)據(jù)集,并進(jìn)行多維分析;然后采用SSAS 中的多元線性回歸算法來(lái)預(yù)測(cè)高考錄取分?jǐn)?shù)線,其準(zhǔn)確度在60%左右;采用樸素貝葉斯分類算法預(yù)測(cè)了考生報(bào)考專業(yè)的錄取概率,預(yù)測(cè)準(zhǔn)確率在70%到80%之間,同時(shí)還采用Apriori 關(guān)聯(lián)規(guī)則算法探究不同專業(yè)的報(bào)考熱度以及報(bào)考專業(yè)之間的關(guān)聯(lián)度。類似的,徐剛強(qiáng)等人[5]在實(shí)現(xiàn)高考輔助決策系統(tǒng)的研究中,也使用了OLAP 和數(shù)據(jù)挖掘技術(shù)。他們?cè)诶肙LAP 數(shù)據(jù)集上使用多元線性回歸算法預(yù)測(cè)新一年的高考錄取分?jǐn)?shù),并用偏差檢測(cè)方法對(duì)反常案例進(jìn)行檢測(cè)。
為了對(duì)現(xiàn)有志愿填報(bào)方式及其改革歷程進(jìn)行評(píng)估,曾錚[2]采用了將數(shù)據(jù)倉(cāng)庫(kù)技術(shù)、OLAP 聯(lián)機(jī)分析技術(shù)和數(shù)據(jù)挖掘技術(shù)相結(jié)合的方法來(lái)進(jìn)行研究。他利用OLAP 建立多維數(shù)據(jù)集,從志愿覆蓋率、第一志愿的滿額情況、志愿匹配的情況和最低錄取分這四個(gè)方面對(duì)現(xiàn)行的志愿填報(bào)方式進(jìn)行多維分析和評(píng)估;并利用SQL Server 提供的Microsoft 決策樹算法和關(guān)聯(lián)規(guī)則算法在OLAP 數(shù)據(jù)集上進(jìn)行數(shù)據(jù)挖掘研究,重點(diǎn)對(duì)三個(gè)問(wèn)題進(jìn)行了實(shí)驗(yàn)研究——預(yù)測(cè)考生是否被第一志愿錄取,挖掘2005 年前后影響考生錄取的因素以及預(yù)測(cè)前三個(gè)志愿的錄取情況。
以探究高考各科成績(jī)之間的關(guān)系為研究目的,曾水光[4]采用關(guān)聯(lián)規(guī)則挖掘和聚類分析來(lái)深入挖掘高考考生成績(jī)數(shù)據(jù)。他使用Weka 對(duì)高考各科成績(jī)之間的得分關(guān)系以及考生成績(jī)和考生屬性之間的關(guān)系進(jìn)行了關(guān)聯(lián)規(guī)則挖掘,此外,他還采用Weka 中的SimpleKMeans 聚類算法對(duì)考生進(jìn)行了聚類分析,探究同一類別的考生所具有的特征和不同類別考生之間區(qū)別。
在志愿填報(bào)環(huán)節(jié)中,為考生推薦合理、合適的院校,從而盡可能的避免考生在收集和分析信息上浪費(fèi)時(shí)間是很有必要的,因此嚴(yán)衛(wèi)[19]提出采用模糊聚類挖掘技術(shù)構(gòu)建更加科學(xué)的院校推薦模型。研究提出了基于減法聚類的模糊聚類算法初始聚類數(shù)目上限求解方法和基于有效性批判的最佳聚類數(shù)求解方法,并改進(jìn)了模糊聚類算法的最佳聚類數(shù)初始化方法,提出了基于合并聚類中心的初始化方法。研究在英國(guó)統(tǒng)計(jì)學(xué)家R.A.Fisher 的Iris 數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),對(duì)改進(jìn)后的算法的有效性進(jìn)行了驗(yàn)證。除此之外,針對(duì)模糊聚類算法沒(méi)有考慮不同樣本特征指標(biāo)對(duì)聚類過(guò)程的貢獻(xiàn)程度不一致的問(wèn)題,嚴(yán)衛(wèi)設(shè)計(jì)了一種基于特征加權(quán)的模糊聚類算法,實(shí)驗(yàn)結(jié)果表明與改進(jìn)前的模糊聚類算法相比,基于特征加權(quán)的模糊聚類算法的誤分率也降低了11.1%。
基于數(shù)據(jù)挖掘的研究雖然使用大量的數(shù)據(jù)進(jìn)行挖掘,但大多數(shù)研究停留在使用工具提供的基礎(chǔ)挖掘算法進(jìn)行挖掘,所使用的算法的實(shí)驗(yàn)效果并不令人滿意。隨著近年來(lái)人工智能、機(jī)器學(xué)習(xí)的火熱發(fā)展,有很多研究者開始采用基于機(jī)器學(xué)習(xí)的方法對(duì)高考整個(gè)過(guò)程中的成績(jī)預(yù)測(cè)、分?jǐn)?shù)線預(yù)測(cè)、志愿推薦等問(wèn)題進(jìn)行研究。
周琦[7]提出一種改進(jìn)的決策樹算法用于根據(jù)考生歷年的高中成績(jī)來(lái)預(yù)測(cè)其高考成績(jī)。該研究以考生高中成績(jī)作為分析依據(jù),結(jié)合考生的個(gè)人信息等重要因素,采用C4.5 算法構(gòu)建決策樹;針對(duì)C4.5 算法中多次進(jìn)行對(duì)數(shù)函數(shù)運(yùn)算導(dǎo)致算法效率較低的缺點(diǎn),他提出對(duì)C4.5 算法中信息熵計(jì)算公式進(jìn)行改進(jìn),并用改進(jìn)的C4.5 算法再次構(gòu)建決策樹。通過(guò)對(duì)比改進(jìn)前后的算法構(gòu)建的決策樹,結(jié)果表明改進(jìn)后的C4.5 算法預(yù)測(cè)有效性達(dá)到80%以上,較改進(jìn)前的決策樹算法有所提升。
Rensong Dong 等人[9]提出了一種基于支持向量機(jī)學(xué)習(xí)算法的預(yù)測(cè)方法來(lái)預(yù)測(cè)根據(jù)考生的志愿,該考生最有可能被哪所學(xué)校錄取。研究基于2009-2010 年云南省的部分學(xué)生的高考和排名,大學(xué)招生計(jì)劃數(shù)和其他相關(guān)數(shù)據(jù),提出了包括高考成績(jī)、排名、最低入學(xué)率、所有批次的得分線、所有批次高校的入學(xué)計(jì)劃數(shù)量和入學(xué)率計(jì)劃等在內(nèi)的影響錄取的14 個(gè)特征,采用支持向量機(jī)算法訓(xùn)練預(yù)測(cè)分析模型,實(shí)驗(yàn)結(jié)果表明預(yù)測(cè)準(zhǔn)確率達(dá)到了90%。任建濤[21]采用支持向量回歸算法,基于各院校專業(yè)過(guò)去10 年的錄取平均分?jǐn)?shù)線數(shù)據(jù),對(duì)未來(lái)一年的院校專業(yè)線進(jìn)行了預(yù)測(cè)。
為了研究模擬考試成績(jī)與高考成績(jī)之間的關(guān)系,陸叢林[8]基于江蘇省海門市四甲中學(xué)538 名考生的六次模擬考試成績(jī),使用SVM 和神經(jīng)網(wǎng)絡(luò)兩種算法分別進(jìn)行了考生的高考成績(jī)預(yù)測(cè)和考生的高考錄取批次預(yù)測(cè),研究中還進(jìn)行了混合預(yù)測(cè)——第一步先依據(jù)考生??汲煽?jī)得到預(yù)測(cè)的高考成績(jī),第二步將??汲煽?jī)和第一步得到的高考預(yù)測(cè)成績(jī)相結(jié)合來(lái)預(yù)測(cè)考生的錄取批次。實(shí)驗(yàn)結(jié)果表明,模考成績(jī)與高考成績(jī)存在強(qiáng)關(guān)聯(lián)關(guān)系,且支持向量機(jī)比神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)精度更好。
采用機(jī)器學(xué)習(xí)的方法來(lái)提升高考分?jǐn)?shù)線預(yù)測(cè)的準(zhǔn)確度是目前這個(gè)領(lǐng)域比較熱門的研究點(diǎn)。徐宗保[11]在其研究中提出了一種基于神經(jīng)網(wǎng)絡(luò)的院校投檔分?jǐn)?shù)線預(yù)測(cè)方法。該方法對(duì)粒子群算法相關(guān)參數(shù)進(jìn)行了改進(jìn),并利用改進(jìn)后的粒子群算法去優(yōu)化反向傳播神經(jīng)網(wǎng)絡(luò)模型,以此來(lái)提升預(yù)測(cè)效果。其實(shí)驗(yàn)結(jié)果表明,與原始神經(jīng)網(wǎng)絡(luò)相比,改進(jìn)的神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型的預(yù)測(cè)精度有所提高。此外,徐宗保還對(duì)C4.5 算法的屬性選擇進(jìn)行改進(jìn),提出了一種基于改進(jìn)C4.5 算法的六檔專業(yè)推薦法。研究表明該方法比傳統(tǒng)的線差專業(yè)推薦法的準(zhǔn)確率要高,且改進(jìn)后的C4.5 計(jì)算時(shí)間有一定縮短。
基于神經(jīng)網(wǎng)絡(luò)進(jìn)行研究的還有郭孝文等人[6]和任祥旭[13]。郭孝文等人[6]提出了一種基于改進(jìn)的反向傳播神經(jīng)網(wǎng)絡(luò)的分?jǐn)?shù)線預(yù)測(cè)方法。他們建立了一個(gè)使用反向傳播算法作為學(xué)習(xí)算法的自適應(yīng)神經(jīng)網(wǎng)絡(luò)。研究使用近三年西安工業(yè)大學(xué)的分?jǐn)?shù)線數(shù)據(jù)對(duì)模型的精度進(jìn)行了驗(yàn)證,與傳統(tǒng)分?jǐn)?shù)線預(yù)測(cè)方法相比,預(yù)測(cè)準(zhǔn)確度提高了20%。任祥旭[13]提出一種基于當(dāng)前熱門的人工神經(jīng)網(wǎng)絡(luò)對(duì)高校錄取分?jǐn)?shù)線進(jìn)行預(yù)測(cè)的方法。研究使用了2013 年到2015 年的高校及專業(yè)的錄取數(shù)據(jù),考慮了16 種影響錄取分?jǐn)?shù)線預(yù)測(cè)的特征,使用LSTM 技術(shù)搭建神經(jīng)網(wǎng)絡(luò)模型,最后使用多種模型性能指標(biāo)對(duì)預(yù)測(cè)結(jié)果進(jìn)行評(píng)估,實(shí)驗(yàn)結(jié)果表明,模型預(yù)測(cè)準(zhǔn)確率集中在誤差5 分以內(nèi),但是超過(guò)5 分以外的預(yù)測(cè)結(jié)果偏差值較大。
Zhenru Wang 等人[10]針對(duì)現(xiàn)有研究中高考省控線的預(yù)測(cè)誤差較大的問(wèn)題提出了一種基于AdaBoost 算法的省控線預(yù)測(cè)方法。他們提出了多種影響省控線預(yù)測(cè)的特征,使用隨機(jī)森林算法來(lái)進(jìn)行特征選擇,并使用PCA 方法處理數(shù)據(jù)集中的特征值,最終得到5 種特征。研究基于2006 至2015 年四川省高考數(shù)據(jù),分別建立了AdaBoost 預(yù)測(cè)模型和隨機(jī)森林預(yù)測(cè)模型。通過(guò)實(shí)驗(yàn)對(duì)比,結(jié)果表明,AdaBoost 預(yù)測(cè)模型在預(yù)測(cè)高考省控線時(shí)準(zhǔn)確率超過(guò)90%,誤差不超過(guò)5 分。除了省控線預(yù)測(cè)研究,王振如[12]采用了深度學(xué)習(xí)的方法對(duì)院校專業(yè)錄取分?jǐn)?shù)線的預(yù)測(cè)進(jìn)行了研究,她基于北京郵電大學(xué)在北京地區(qū)2006 年到2015 年的高考數(shù)據(jù),分別使用人工神經(jīng)網(wǎng)絡(luò)和多隱層的多層感知器算法訓(xùn)練預(yù)測(cè)模型。實(shí)驗(yàn)表明,深度學(xué)習(xí)比人工神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)準(zhǔn)確度更高。
通過(guò)對(duì)近年來(lái)該領(lǐng)域論文的總結(jié)發(fā)現(xiàn),目前針對(duì)高考數(shù)據(jù)的分析和預(yù)測(cè)研究已經(jīng)取得了一定的成果,但還存在一些問(wèn)題亟需解決。
首先,大部分研究所使用的數(shù)據(jù)量有限,且部分研究使用從網(wǎng)絡(luò)上收集的數(shù)據(jù),難以避免錯(cuò)誤和缺失數(shù)據(jù),但是對(duì)于這類數(shù)據(jù)的處理方法在大部分研究中都沒(méi)有詳細(xì)研究。其次,現(xiàn)有研究缺乏對(duì)影響分?jǐn)?shù)線預(yù)測(cè)或者其他類型預(yù)測(cè)的因素的探究,而這一步是提升預(yù)測(cè)準(zhǔn)確度的關(guān)鍵。從早期的統(tǒng)計(jì)分析,到數(shù)據(jù)挖掘,再到如今的機(jī)器學(xué)習(xí)、深度學(xué)習(xí),雖然基于的高考數(shù)據(jù)分析與預(yù)測(cè)研究所采用的技術(shù)在不斷進(jìn)步,但大部分研究只停留在算法應(yīng)用層面,并沒(méi)有根據(jù)實(shí)際應(yīng)用場(chǎng)景和數(shù)據(jù)特征對(duì)算法進(jìn)行改進(jìn),這也是未來(lái)的一個(gè)研究方向。