李忠 李姍姍
摘 要: 針對國內(nèi)應用型本科院校數(shù)據(jù)挖掘課程內(nèi)容差異問題,分析了不同專業(yè)的培養(yǎng)目標,從數(shù)據(jù)挖掘三大功能出發(fā),給出了IT類專業(yè)數(shù)據(jù)挖掘課程的內(nèi)容體系和學時安排;分析了防災科技學院最近兩屆學生數(shù)據(jù)挖掘課程的教學效果,結論為:合理的理論內(nèi)容設置和實驗訓練,配合恰當?shù)慕虒W方法,可以提高學生的學習興趣,激發(fā)學習熱情,提高實際動手能力,從而達到人才培養(yǎng)目標。
關鍵詞: 數(shù)據(jù)挖掘; 課程內(nèi)容體系; IT專業(yè); 教學效果
中圖分類號:G642 文獻標志碼:A 文章編號:1006-8228(2014)11-65-02
Course construction of data mining course for IT specialty in application-oriented university
Li Zhong, Li Shanshan
(Institute of Disaster Prevention, Sanhe, Hebei 065201, China)
Abstract: Aiming at the content differences of data mining course in the application-oriented university, the training objectives and requirement for different specialty are analyzed. The content system and hours arrangements of data mining courses for IT specialty starting are given from the three major functions of data mining. Based on the last two years' student teaching effectiveness of data mining courses, it is concluded that combining theoretical and experimental training content settings with appropriate teaching methods can improve learning interest, stimulate learning enthusiasm, improve operating ability and achieve training objectives.
Key words: data mining; course content system; IT specialty; teaching effectiveness
0 引言
毋庸置疑,我們正處在信息時代。根據(jù)國際互聯(lián)網(wǎng)管理機構2012年發(fā)布的數(shù)據(jù),每天全球互聯(lián)網(wǎng)流量累計達1EB(即10億GB),這意味著每天產(chǎn)生的信息量可以刻滿1.88億張DVD光盤[1]。要想在如此浩瀚的數(shù)字海洋里尋找有用的信息,簡直是大海撈針!因此數(shù)據(jù)挖掘技術應運而生。大概十幾年前,微軟創(chuàng)始人比爾·蓋茨就預言,數(shù)據(jù)挖掘技術將是未來計算機發(fā)展的重要方向之一,事實也的確如此。
數(shù)據(jù)挖掘技術誕生于20世紀80年代末,是統(tǒng)計學和計算機科學的交叉學科,涉及數(shù)據(jù)庫技術、統(tǒng)計學、機器學習、神經(jīng)網(wǎng)絡、模式識別、知識發(fā)現(xiàn)、專家系統(tǒng)、信息檢索、高性能計算、可視化以及面向對象程序設計等若干學科知識,在商業(yè)、金融、保險、體育、勘探、生物技術等領域獲得廣泛應用。也正因為該課程涉及的內(nèi)容寬泛,要求知識面寬廣、數(shù)學基礎扎實等,前幾年主要在研究生階段開設。但是隨著信息技術的快速發(fā)展,本科生能力要求提高,知識傳授的重心下移,很多高校已在本科階段開設數(shù)據(jù)挖掘課程,以提高大學生解決實際問題的能力,進而為課程設計和畢業(yè)設計打下必要的基礎[2]。
1 國內(nèi)高校本科數(shù)據(jù)挖掘課程開設現(xiàn)狀
通過院校實地交流,結合網(wǎng)絡搜索,我們已經(jīng)收集了十幾所高校的數(shù)據(jù)挖掘課程教學大綱,開設專業(yè)包含有計算機類專業(yè)、經(jīng)濟統(tǒng)計類專業(yè)、電氣自動化類專業(yè)、生物技術專業(yè)等,各專業(yè)根據(jù)自己的人才培養(yǎng)目標制訂教學大綱、教學計劃、考試大綱等,其內(nèi)容存在很大差異。其中985、211高校主要以英語授課,采用國外原版教材,課程內(nèi)容涉及算法、編程較多;而一般院校多采用中文教材,根據(jù)專業(yè)不同,內(nèi)容也有很大差異。
經(jīng)濟統(tǒng)計類專業(yè)開設數(shù)據(jù)挖掘課程,要求學生了解什么是數(shù)據(jù)挖掘,以及如何用數(shù)據(jù)挖掘來解決實際問題,了解如何通過幾種數(shù)據(jù)挖掘技術建立數(shù)學模型,了解主流數(shù)據(jù)挖掘系統(tǒng)的特點,能夠安裝、使用,要求能夠熟練使用典型的挖掘工具對實際數(shù)據(jù)進行分析,具備從數(shù)據(jù)資源提取信息與知識并進行輔助決策的基本能力。
自動化專業(yè)開設數(shù)據(jù)挖掘課程,要求學生了解數(shù)據(jù)挖掘概念、原理、過程,學會利用數(shù)據(jù)挖掘技術處理問題,了解有關數(shù)據(jù)挖掘算法原理,熟練運用數(shù)據(jù)挖掘技術建立數(shù)學模型,要求能夠熟練使用數(shù)據(jù)挖掘軟件解決問題。
計算機專業(yè)開設數(shù)據(jù)挖掘課程,要求學生了解數(shù)據(jù)挖掘概念、原理、信息處理過程,了解不同數(shù)據(jù)挖掘算法的原理并編程實現(xiàn),學會利用數(shù)據(jù)挖掘技術建立數(shù)學模型以解決實際問題,熟悉數(shù)據(jù)挖掘成果的表達,要求熟悉幾種典型的數(shù)據(jù)挖掘軟件功能特點、使用方法、安裝等,了解不同軟件的優(yōu)缺點和適用面向,具備從大量數(shù)據(jù)中獲取有價值的信息的能力。
可以看出,統(tǒng)計類專業(yè)主要要求學生具備數(shù)據(jù)挖掘軟件的使用能力,并根據(jù)挖掘結果進行輔助決策;IT類專業(yè)要求學生掌握數(shù)據(jù)挖掘有關算法的原理、處理過程,并要求編程實現(xiàn)算法,這無疑增加了很大難度。按照ACM SIGKDD課程委員會對數(shù)據(jù)挖據(jù)課程的建議,數(shù)據(jù)挖掘課程應重視長久的科學原理和領域概念。顯然,IT類專業(yè)的數(shù)據(jù)挖掘課程教學大綱更符合ACM SIGKDD課程委員會的建議。
2 IT專業(yè)數(shù)據(jù)挖掘課程內(nèi)容設計
一般情況下,數(shù)據(jù)挖掘課程在本科的高年級段開設,大部分放在第七學期,也有少數(shù)高校放在第六學期。這個時候,IT類專業(yè)的大學生已經(jīng)修完數(shù)據(jù)結構、數(shù)據(jù)庫原理、程序設計語言、面向對象程序設計等多門專業(yè)基礎課程,對于程序設計、數(shù)據(jù)庫系統(tǒng)開發(fā)等具有足夠的認識和使用能力,具備了開設數(shù)據(jù)挖掘課程所需要的前導知識。國內(nèi)普通本科的數(shù)據(jù)挖掘課程學時設計存在很大差異,如南京工程學院設置32課時,其中課堂授課22學時,實驗設計10學時[3];鄭州航空管理學院僅設置16學時,其中授課10課時,實驗教學6課時[2]。在內(nèi)容安排方面,也存在很大差異。南京工程學院計算機專業(yè)開設的數(shù)據(jù)挖掘課程包括概述、數(shù)據(jù)挖掘過程與挖掘軟件、關聯(lián)規(guī)則挖掘與序列模式挖掘、分類、聚類分析、Web挖掘等六部分內(nèi)容;煙臺大學計算機專業(yè)開設的數(shù)據(jù)挖掘技術課程內(nèi)容涵蓋概述、數(shù)據(jù)倉庫與聯(lián)機分析、關聯(lián)分析、分類技術、聚類分析、時間序列模式挖掘、Web挖掘技術等[4];鄭州航空管理學院的數(shù)據(jù)挖掘課程包括概述、決策樹、聚類分析、關聯(lián)分析、數(shù)據(jù)篩選等內(nèi)容[2];漳州師范學院計算機科學系開設的數(shù)據(jù)挖掘課程內(nèi)容涉及數(shù)據(jù)挖掘基礎知識、數(shù)據(jù)預處理、數(shù)據(jù)倉庫與OLAP技術、關聯(lián)和頻繁模式分析、分類與回歸、聚類和孤立點分析、時序數(shù)據(jù)和序列數(shù)據(jù)的挖掘、文本與Web數(shù)據(jù)挖掘、數(shù)據(jù)挖掘可視化、典型數(shù)據(jù)挖掘系統(tǒng)、數(shù)據(jù)挖掘的社會影響等內(nèi)容[5]。
數(shù)據(jù)挖掘技術主要應用在三大領域,也就是三大功能:分類(預測)、聚類分析和關聯(lián)分析,因此在課程內(nèi)容設置時,應考慮實用性,在三大功能基礎上布局各章節(jié)。筆者在近三年的數(shù)據(jù)挖掘課程教學實踐中,分別采用了西南財經(jīng)大學的《數(shù)據(jù)挖掘教程》、中國科技大學的《數(shù)據(jù)挖掘導論》作為主講教材,參考了范明等人翻譯的《數(shù)據(jù)挖掘導論(完整版)》、Jiawei Han and Micheline Kamber著《Data mining Concept and Techniques》、范承工等著《大數(shù)據(jù):戰(zhàn)略·技術·實踐》等,對課程內(nèi)容進行了總結,提出了針對于應用型本科IT類專業(yè)48課時的數(shù)據(jù)挖掘課程內(nèi)容體系,如表1。
從表1可以看出,數(shù)據(jù)挖掘課程理論授課32學時,實驗安排16課時,在充分進行數(shù)據(jù)挖掘算法原理、實例介紹基礎上,讓學生在實驗室里對數(shù)據(jù)挖掘的三大功能進行模擬訓練,提高學生的實際動手能力和分析問題解決問題能力,這也完全符合應用型本科人才培養(yǎng)目標要求。另外,考慮到數(shù)據(jù)倉庫與聯(lián)機分析部分內(nèi)容已經(jīng)在數(shù)據(jù)庫原理與應用課程中學習過,因此我們在內(nèi)容設置時不再考慮。
表1 數(shù)據(jù)挖掘課程內(nèi)容體系
[章節(jié)題目\&主要內(nèi)容\&理論課時\&實踐課時\&第一章 數(shù)據(jù)挖掘概述\&介紹有關概念、應用領域、挖掘過程、SEMMA模型等\&2\&0\&第二章 數(shù)據(jù)預處理\&介紹數(shù)據(jù)采集與存儲、數(shù)據(jù)質量評價、數(shù)據(jù)整理、數(shù)據(jù)計劃分等;\&4\&2\&第三章 數(shù)據(jù)分類與預測\&介紹決策樹原理與應用、貝葉斯分類方法、人工神經(jīng)網(wǎng)絡方法、K-近鄰方法、遺傳算法、支持向量機方法,等\&8\&4\&第四章 關聯(lián)分析\&介紹相關概念、先驗算法、Apriori算法等\&6\&4\&第五章 聚類分析\&聚類分析概述、K-均值算法、層次聚類方法等\&6\&4\&第六章 異類挖掘\&異類挖掘概述、基于統(tǒng)計的異類挖掘、基于時序的異類挖掘、基于空間的異類挖掘,等\&4\&2\&第七章 大數(shù)據(jù)挖掘\&大數(shù)據(jù)概述、大數(shù)據(jù)挖掘算法、大數(shù)據(jù)挖掘過程,等\&2\&\&]
3 教學效果分析
理論授課以工程項目驅動方式,在闡述基本概念、算法原理基礎上,采用實際的工程項目介紹數(shù)據(jù)挖掘課程相關算法的應用和過程,很好地吸引了學生的注意力,教學效果良好。以最近兩屆學生為例,采用調查問卷方式,從基本算法掌握、編程能力提高情況、考試成績、就業(yè)意向等四個方面進行考查,匯總結果如表2。
表2 教學效果調查匯總表
[調查
欄目\&基本算法
掌握情況\&編程能力
是否提高\&考試成績檔次\&是否愿意從事數(shù)據(jù)挖掘相關工作\&項目\&較好\&一般\&有\&無\&80以上\&60-80\&60以下\&是\&否\&2012屆
情況\&32\&44\&54\&22\&22\&36\&18\&24\&52\&42.1%\&57.9%\&71.1%\&28.9%\&28.9%\&47.4%\&23.7%\&31.6%\&68.4%\&2013屆
情況\&72\&48\&94\&26\&78\&39\&3\&44\&76\&60%\&40%\&78.3%\&21.7%\&65%\&32.5%\&2.5%\&36.7%\&63.3%\&]
說明:每屆學生的第一行為人數(shù),第二行為所占百分比。
從表2可以看出,2013屆學生無論從考試成績,還是編程能力提高、基本算法的掌握情況等方面,都較2012屆學生好,尤其是不及格率大幅下降,優(yōu)秀率大幅提升,對學生提高學習興趣、激發(fā)學習積極性大有好處。從就業(yè)意向看,愿意從事數(shù)據(jù)挖掘方面工作的學生也有提高,說明學生通過數(shù)據(jù)挖掘課程的學習,逐漸對該技術產(chǎn)生興趣。
4 結束語
就數(shù)據(jù)挖掘技術課程而言,對于IT類專業(yè)學生的要求應不同于經(jīng)濟統(tǒng)計類專業(yè)學生,前者更應注重算法理解、設計,以及程序實現(xiàn)、成果表達等,后者則偏重于模型建立、軟件應用等。因此在課程內(nèi)容設置、學時安排等方面應有所不同。IT類專業(yè)學生將來的工作主要以程序設計、軟件開發(fā)為主,因此數(shù)據(jù)挖掘課程內(nèi)容更廣更深,學時也相應較多,培養(yǎng)目標要求也更高。合理的課堂內(nèi)容設置和實驗訓練,配合適當?shù)慕虒W方法,可以很好地提高學生的學習興趣,激發(fā)學習熱情,增強分析問題解決問題的能力,讓學生產(chǎn)生從事數(shù)據(jù)挖掘工作的意向,達到人才培養(yǎng)目標要求。
參考文獻:
[1] 張艷.大數(shù)據(jù)背景下的數(shù)據(jù)挖掘課程教學新思考[J].計算機時代,
2014.4:59-61
[2] 李志勇,王翔,喻軍.信息管理專業(yè)數(shù)據(jù)挖掘課程教學探討[J].管理工
程師,2012.8:66-68
[3] 徐金寶.對應用型本科生開設數(shù)據(jù)挖掘課程的嘗試[J].計算機教育,
2007.7:27-30
[4] 譚征,孫紅霞,王立宏.普通院校本科生開設數(shù)據(jù)挖掘課程的教學研
究[J].福建電腦,2011.10:38-40
[5] 周忠眉.數(shù)據(jù)挖掘課程大綱的建設[J].漳州師范學院學報(自然科學
版),2005.1:88-90