孫潔 黃承寧
摘要:數(shù)據(jù)挖掘是指通過算法從大量數(shù)據(jù)中挖掘隱藏值和信息的過程。Aprioir算法是數(shù)據(jù)挖掘關聯(lián)規(guī)則中的經(jīng)典算法。它已廣泛應用于網(wǎng)絡安全、商業(yè)、教育等領域。該文研究并改進了Aprioir算法,并將改進后的算法應用于招生信息的數(shù)據(jù)挖掘。通過對高校招生數(shù)據(jù)的深入和詳細的分析和挖掘,發(fā)現(xiàn)高校招生數(shù)據(jù)間的關聯(lián)性,這對招生工作起到指導作用。
關鍵詞:數(shù)據(jù)挖掘;Apriori算法;招生數(shù)據(jù)
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2019)05-0084-02
隨著高等院校招生規(guī)模的增加、高考生源數(shù)量的逐年減少以及二本和三本變?yōu)橥慌握猩?,這些都給獨立學院招生帶來了巨大的壓力。
因為招生決策數(shù)據(jù)量大、涉及面廣,采用基于經(jīng)驗的招生方法,無法保證招生工作的高效性。因此,數(shù)據(jù)挖掘技術可以用來挖掘和分析過去積累的大量招生數(shù)據(jù),從而發(fā)現(xiàn)數(shù)據(jù)間關聯(lián)關系,獲取有價值的信息,降低招生宣傳的經(jīng)濟成本,提高招生質量,提高了獨立學院的新生入學率。
1 Aprioir算法及算法改進
1.1 Aprioir算法
Apriori算法是基于兩階段頻集思想的遞推算法,是最有影響的挖掘布爾關聯(lián)規(guī)則頻繁項集的算法之一。該關聯(lián)規(guī)則在分類上屬于單維、單層、布爾關聯(lián)規(guī)則[1]。
1.2 Apriori算法的改進
經(jīng)過使用和分析,Apriori算法存在以下問題:
1)在每一步產(chǎn)生候選項目集時,迭代產(chǎn)生的組合過多,不應該參與組合的元素沒有被排除,而迭代過程的候選頻繁項集是在計算機內存中產(chǎn)生、存儲和處理的,這使得算法適應能力較差[2]。
2)每次計算項目集的支持度時,都會掃描和比較數(shù)據(jù)庫中的所有行。當數(shù)據(jù)量較大時,這種掃描會大大增加計算機系統(tǒng)的輸入\輸出開銷。而這種開銷是隨著數(shù)據(jù)庫的行的増加呈現(xiàn)出幾何級數(shù)的増加。
基于Apriori算法存在的問題,下節(jié)將對該算法的改進行闡述。
1.2.1 Apriori改進算法---數(shù)據(jù)規(guī)模劃分
改進算法的主要思想是將數(shù)據(jù)挖掘的數(shù)據(jù)分為N個規(guī)模大致相同的部分,對每個子部分分別進行數(shù)據(jù)挖掘,最后進行合并。
該算法按照以下步驟完成:
第一步:將數(shù)據(jù)庫劃分為N個部分,每個部門數(shù)據(jù)大致相同;
第二步:毎個子部分將分別產(chǎn)生一組潛在頻繁項目集;
第三步:將這些頻繁項目集合并成一個候選頻繁項目集;
第四步:計算每個候選頻繁項目的支持度,以確定最終頻繁項集[3]。
1.2.2 Apriori改進算法---增加屬性列
將數(shù)據(jù)庫劃分為N個規(guī)模大致相同的子部分后,對每個子部分進行數(shù)據(jù)挖掘。在前一節(jié)中改進算法的第二步中,為每個事務添加一個指定事務包含的項個數(shù)的屬性列。
進一步改進的Apriori算法,其算法思想如下:
第一步:將數(shù)據(jù)庫劃分為N個部分,每個部門數(shù)據(jù)大致相同;
第二步:毎個子部分將分別產(chǎn)生一組潛在頻繁項目集:
1)為事務添加一個指定事務包含的項個數(shù)的屬性列。
2)如果事務包含的項個數(shù)大于或等于N,則計算頻繁N項集;否則將其刪除。
第三步:對單個項目集進行整理和合并,可以得到全部候選頻繁項集。
第四步:計算每個候選頻繁項目的支持度,以確定最終頻繁項集[3]。
在生成頻繁N項集時,Apriori算法需要全部事務來驗證候選N項集,而事務長度大于或等于N的事務才屬于頻繁N項集,反之則不屬于[4]。改進的Apriori算法只保留事務長度大于或等于N的事務,并在這些事務中搜索頻繁N項集[5]。
2 數(shù)據(jù)準備
2.1 數(shù)據(jù)分析
改進算法后,基于院校的需求,對招生數(shù)據(jù)進行數(shù)據(jù)清洗和數(shù)據(jù)挖掘,下面對部分數(shù)據(jù)做簡要描述:
1)考生基本情況表:主要包括考生號、姓名、性別、出生年月、考生類別、考生戶口所在地區(qū)、考試類別等內容。
2)成績與志愿信息表:主要包括高考成績、投檔成績、填報專業(yè)、退檔原因、錄取專業(yè)等內容。
3)專業(yè)計劃庫代碼對照表:主要包括批次、科類代碼、投檔單位、專業(yè)代號、專業(yè)名稱、專業(yè)種類、計劃人數(shù)、計劃執(zhí)行數(shù)等內容。
4)考生類別代碼對照表:主要類別包括:農村應屆、農村往屆、城鎮(zhèn)應屆和城鎮(zhèn)往屆。
5)考生報到情況表:主要包括考生號、姓名、報到情況代碼、報到情況等內容。
2.2 數(shù)據(jù)清洗
針對招生信息,主要從以下幾個方面對數(shù)據(jù)進行清洗:
1)有效性檢驗。檢驗數(shù)據(jù)是否在合理的有效范圍。例如性別只能為“男”或者“女”等。
2)刪除字段。例如視力、健康狀況等字段雖說很重要,但如果作為數(shù)據(jù)挖掘的數(shù)據(jù)源,卻不合適,而且還要浪費資源,對于這樣的數(shù)據(jù)應該刪除。
3)轉換字段。比如各省的高考成績組成不同,使用成績來表示高或者低是不合理的,可對其分區(qū)間,例如在不同范圍內認為是成績差,成績中,成績良和成績優(yōu)。再比如考生生源地,可采用編號來代替字符描述,例如01表示云南省,02表示四川省等等。
4)統(tǒng)一數(shù)據(jù)。因為不同地區(qū)的考生數(shù)據(jù)有不一致的情況,需要將類似的字段進行統(tǒng)一。
3 招生信息數(shù)據(jù)挖掘
3.1 數(shù)據(jù)挖掘步驟
改進后的Apriori算法應用到招生信息數(shù)據(jù)挖掘中分四個步驟:
1)將原始數(shù)據(jù)進行清洗。
2)將清洗好的數(shù)據(jù)輸入數(shù)據(jù)挖掘系統(tǒng),設定最小支持度。
3)使用改進的Apriori算法對清洗好的招生信息進行挖掘,保存計算得到的頻繁項集。
4)分析數(shù)據(jù)挖掘的結果。
3.2 數(shù)據(jù)挖掘結果分析
1)高考成績與報到率的聯(lián)系
分析結果顯示:2018年該學院錄取的考生中以某省為例,報到率較高分數(shù)集中在最低檔(將高考成績按照分數(shù)分為四檔,分別是最低檔、中等檔、良好檔和優(yōu)秀檔)。
2)專業(yè)與報到率的聯(lián)系
分析結果顯示:2018年該學院錄取的43個專業(yè)中,計算機科學與技術、財務管理、軟件工程、機械工程、土木工程等專業(yè)報到率較高,均達到96%以上。
3)考生生源與報到率的聯(lián)系
分析結果顯示,2018年該學院共在23個省投放置招生計劃,其中省份編號為19、20、21、22、23的考生報到率較高,均在97%以上。
綜上所述,通過以上的數(shù)據(jù)挖掘結果,對獨立院校招生錄取工作提出幾點建議:
1)高考分數(shù)偏低的生源報到率反而較高,針對這一現(xiàn)象,學院應該采取一些鼓勵高分學生的措施,例如,高分可保證第一志愿錄取等,以降低優(yōu)質生源的流失率,從而提高在校學生的整體素質。與此同時學校在錄取時,在給分數(shù)偏低的學生退檔時要慎重選擇,否則會影響學校的報到率。
2)生源地不同,報到率也不同,報到率偏低的幾個省份大多都是生源大省,每年高考高分的學生也較多,學校應該加強對這些省份的招生宣傳力度,讓更多的考生了解學校的特色和優(yōu)勢,愿意報考學校,減少優(yōu)質生源的流失。
3)學校錄取專業(yè)中經(jīng)濟學和管理學等專業(yè)的報到率稍偏低,工學的學生報到率較高,學校應依據(jù)市場需求和考生需求對專業(yè)設置和招生人數(shù)做動態(tài)調整,從而降低學生的流失率。
4)學校要關注高考低分段但被錄取為工學專業(yè)或報到率高的生源地學生,要穩(wěn)定這部分報到率較高的生源,防止其流失。
參考文獻:
[1] 姜鑫.數(shù)據(jù)挖掘技術在水電廠主設備狀態(tài)檢修中的應用研究[J].水電廠自動化,2014(4).
[2] 陳立寧. 一種用于預估MOCVD工藝結果的改進方法[J]. 電子工業(yè)專用設備,2015(8):10-14.
[3] 李橋.數(shù)據(jù)挖掘在教學質量評價中的應用研究[D]. 長沙:中南大學,2010.
【通聯(lián)編輯:光文玲】