摘要:通過對畢業(yè)生跟蹤調(diào)查數(shù)據(jù)的挖掘,發(fā)現(xiàn)和分析課程之間的關(guān)聯(lián)關(guān)系,結(jié)合先驗知識,通過調(diào)整置信度、支持度,分析頻繁項集,找出重要課程和關(guān)鍵技能,符合提高學生理論水平與實際技能的高職培養(yǎng)目標,為學校進行項目課程的教學改革提供參考依據(jù)。
關(guān)鍵詞:課程;關(guān)聯(lián)規(guī)則;數(shù)據(jù)挖掘
1前言
培養(yǎng)能迅速就業(yè),迅速適應(yīng)工作崗位的人才是職業(yè)教育的目的之一。因此,專業(yè)建設(shè)要緊緊圍繞社會的需要,堅持以職業(yè)對技能和知識的需求來設(shè)置課程,使課程緊緊扣住職業(yè)特點,滿足行業(yè)崗位對知識和能力的需求。一方面,課程能滿足行業(yè)多崗位轉(zhuǎn)換,甚至崗位工作內(nèi)涵變化、發(fā)展所需的知識和能力;另一方面,課程能使學生具有知識內(nèi)化、遷移和繼續(xù)學習的基本能力。
在進行關(guān)聯(lián)規(guī)則挖掘之前,有必要對這些數(shù)據(jù)進行整理(即數(shù)據(jù)的預(yù)處理),得到所需要的數(shù)據(jù)集。根據(jù)畢業(yè)生跟蹤調(diào)查數(shù)據(jù)庫提取課程與課程及重要課程可能相關(guān)的屬性值。
數(shù)據(jù)挖掘過程包含4個部分:
數(shù)據(jù)整理,生成事務(wù)數(shù)據(jù)庫,生成頻繁項集及生成關(guān)聯(lián)規(guī)則。其功能分別為:對畢業(yè)生跟蹤調(diào)查數(shù)據(jù)進行清洗整理后形成的畢業(yè)生跟蹤調(diào)查數(shù)據(jù)庫;從畢業(yè)生跟蹤調(diào)查數(shù)據(jù)庫中提取數(shù)據(jù)挖掘?qū)ο螅瑢?shù)據(jù)挖掘?qū)ο筮M行編碼并將關(guān)系表轉(zhuǎn)換為事務(wù)數(shù)據(jù)庫;根據(jù)給定的最小支持度在事務(wù)數(shù)據(jù)庫的基礎(chǔ)上生成頻繁項集;根據(jù)給定的最小置信度由頻繁項集生成關(guān)聯(lián)規(guī)則。
2 數(shù)據(jù)預(yù)處理
2.1畢業(yè)生跟蹤調(diào)查表內(nèi)容
畢業(yè)生跟蹤調(diào)查表主要包括畢業(yè)生現(xiàn)在的工作崗位及工作單位的產(chǎn)品類型、曾經(jīng)的工作崗位、通過在工作崗位的經(jīng)歷,確定在學校所學課程中的重要課程與重要技能等方面的內(nèi)容。
2.2生成關(guān)系表
根據(jù)畢業(yè)生跟蹤調(diào)查表,對相關(guān)數(shù)據(jù)進行簡化處理,形成一張關(guān)系表,為整個數(shù)據(jù)挖掘提供挖掘?qū)ο?見表1)。
2.3生成事務(wù)數(shù)據(jù)庫
由于Apriori算法適用于事務(wù)數(shù)據(jù)庫的數(shù)據(jù)挖掘,所以需要將關(guān)系表轉(zhuǎn)換成相應(yīng)的事務(wù)數(shù)據(jù)庫。并進行代碼編寫,使其適合使用關(guān)聯(lián)規(guī)則挖掘的方法。文中將關(guān)系表的一條記錄視為一項事務(wù),記錄中的字段值采用代碼表(表1)轉(zhuǎn)換為相應(yīng)的項目。例如,下面一條記錄:工作崗位:IT制造;工作單位產(chǎn)品類型:通訊設(shè)備;認為重要課程:數(shù)字電路設(shè)計制作;重要技能:電子產(chǎn)品認證。轉(zhuǎn)換為事務(wù): {A01,B01,C7,F(xiàn)1}。
2.4生成頻繁項集
在事物數(shù)據(jù)庫生成以后,根據(jù)給定的最小支持度,采用Apriori算法尋找頻繁k-項集。
2.5生成關(guān)聯(lián)規(guī)則
當頻繁項集生成以后,根據(jù)關(guān)聯(lián)規(guī)則算法,對于任一頻繁k-項集,找出其中所有可能的真子集,作為關(guān)聯(lián)規(guī)則的前件,計算相應(yīng)規(guī)則的置信度。當某一規(guī)則的置信度大于給定的最小置信度時,輸出該規(guī)則。
在尋找頻繁k-項集的所有真子集時,首先找出k個只含一項的子集,然后將其連接生成含2項的子集,直到最后連接成k-1項的子集為止。根據(jù)關(guān)聯(lián)規(guī)則的算法,采用遞歸的方法尋找關(guān)聯(lián)規(guī)則的后件。
2.6數(shù)據(jù)挖掘?qū)嶒灲Y(jié)果與分析
實驗數(shù)據(jù)與結(jié)果。江蘇省近幾年IT畢業(yè)生人數(shù)大概都在30多萬人,筆者采集了某部分含有IT相關(guān)專業(yè)的職業(yè)技術(shù)院校從2001年到2004年間的畢業(yè)生的跟蹤調(diào)查表的數(shù)據(jù),從150000份表中,抽取120000條有效記錄。
與文獻[1]相比較,因為在專業(yè)上有了比較大的擴展,是IT大類,所以在最小支持度的選擇上要減到很小才行。最小支持度分別設(shè)定為0.5%、1.5%和2.5%,最小置信度分別設(shè)定為5%、25%及50%,采用Apriori算法進行數(shù)據(jù)挖掘,得到不同的結(jié)果。
2.7數(shù)據(jù)分析
關(guān)聯(lián)規(guī)則分析
關(guān)聯(lián)規(guī)則通過代碼表將其中的代碼再次轉(zhuǎn)換為“屬性=值”的形式,選擇minsupp=5%;min-conf=25%時的關(guān)聯(lián)規(guī)則進行分析,如表2所示。
例如,第一條規(guī)則“A01≥D2”,轉(zhuǎn)換為“工作崗位=IT制造≥所學課程中最重要的課程=SMT生產(chǎn)實習”;支持度29%表明,在畢業(yè)生跟蹤調(diào)查數(shù)據(jù)庫中有29%的記錄“工作崗位為IT制造”,而置信度表明,工作在IT制造,有52.3%畢業(yè)生認為低頻電子線路為最重要的課程。
最小支持度及最小置信度的選擇。支持度的作用是縮減挖掘數(shù)據(jù)庫的搜索空間和約束規(guī)則產(chǎn)生的數(shù)量。如果挖掘算法對整個數(shù)據(jù)庫的各個屬性的數(shù)據(jù)樣本均采用惟一的支持度,從客觀上反映了一個預(yù)先設(shè)定的前提:挖掘數(shù)據(jù)庫各屬性的事件具有非常相似的發(fā)生概率。符合現(xiàn)實生活中的客觀事實是:一些事務(wù)發(fā)生得頻繁,而另一些事務(wù)發(fā)生得卻比較稀疏。因此,對數(shù)據(jù)挖掘來說,如果挖掘的最小支持度選擇過高,則有意義的、甚至重要的關(guān)聯(lián)知識將不能被發(fā)現(xiàn);如果最小支持度選擇過低,那么大量的無實際意義的數(shù)據(jù)將充斥在挖掘過程中,大大降低挖掘的效率和得到規(guī)則的可用性。通常的挖掘策略都是為涵蓋發(fā)生概率較大的事務(wù)而舍棄小概率的事務(wù)。文獻[1]
分別選擇minsupp為5%、15%、25%和minconf為15%、50%、85%的組合產(chǎn)生的關(guān)聯(lián)規(guī)則,而因為本文研究的數(shù)據(jù)函蓋的專業(yè)較多,所以minsupp和minconf選擇的值有所調(diào)整,采用最小支持度分別設(shè)定為0.5%、1.5%和2.5%,最小置信度分別設(shè)定為5%、25%及50%,采用Apriori算法進行數(shù)據(jù)挖掘,得到的關(guān)聯(lián)規(guī)則的結(jié)果是比較合適的。
根據(jù)關(guān)聯(lián)規(guī)則的分析,可以發(fā)現(xiàn):工作崗位與學生學習的課程、技能的相關(guān)性,這就給專業(yè)建設(shè)、課程設(shè)置提供了決策的依據(jù)。因此學??梢砸罁?jù)相應(yīng)的關(guān)聯(lián)規(guī)則,根據(jù)工作崗位,合理設(shè)置課程,使理論知識與實際技能有機地結(jié)合起來,提高學生理論水平與實際操作技能。
參考文獻
[1] 楊明,孫志輝,楊萍.基于記錄分區(qū)的加權(quán)關(guān)聯(lián)規(guī)則挖掘[J].小型微型計算機系統(tǒng), 2003.
[2]馬成榮.職業(yè)教育課程開發(fā)及項目課程設(shè)計[M]江蘇科技出版社,2006