譚征 孫紅霞 王立宏 任滿杰
摘要:分析數(shù)據(jù)挖掘原理與算法課程在教學(xué)中存在的弊端,并基于數(shù)據(jù)挖掘課程的本質(zhì),闡述在以培養(yǎng)應(yīng)用型人才為主的大學(xué)中,如何以實(shí)例為主線,貫穿教學(xué)過(guò)程,開設(shè)本課程的,思路和做法。
關(guān)鍵詞:數(shù)據(jù)挖掘原理與算法;實(shí)例;教學(xué)探索
0.引言
隨著經(jīng)濟(jì)、科技和信息技術(shù)的飛速發(fā)展,特別是網(wǎng)絡(luò)技術(shù)的發(fā)展,數(shù)據(jù)的產(chǎn)生和存儲(chǔ)能力有了很大程度的提高。數(shù)據(jù)挖掘的出現(xiàn),為人們提供了一條解決“數(shù)據(jù)豐富而知識(shí)貧乏”困境的有效途徑Ⅲ。所以很多高校,包括世界上一些著名高校都開設(shè)了數(shù)據(jù)挖掘課程。課程的基礎(chǔ)理論部分一般包括數(shù)據(jù)預(yù)處理、關(guān)聯(lián)規(guī)則、分類、聚類、時(shí)間序列挖掘、Web挖掘等內(nèi)容。該課程使學(xué)生學(xué)會(huì)分析研究數(shù)據(jù)挖掘中數(shù)據(jù)預(yù)處理、常用算法、結(jié)果的可視化等技術(shù),并培養(yǎng)學(xué)生的數(shù)據(jù)抽象能力,幫助學(xué)生形成科學(xué)思維和專業(yè)素養(yǎng),使他們畢業(yè)后在就業(yè)上有更多的選擇。
筆者將探討基于實(shí)例教學(xué)的數(shù)據(jù)挖掘課程的教學(xué)內(nèi)容安排,強(qiáng)調(diào)淡化學(xué)科背景,加強(qiáng)算法的應(yīng)用性訓(xùn)練,將實(shí)際的例子貫穿于教學(xué)中,并重新組織授課內(nèi)容、安排實(shí)踐環(huán)節(jié),教會(huì)學(xué)生學(xué)以致用。
1.教學(xué)現(xiàn)狀分析
1.1課程本質(zhì)
數(shù)據(jù)挖掘原理與算法涉及的學(xué)科領(lǐng)域很寬泛。其最終目的是在數(shù)據(jù)中挖掘出可供人們利用的知識(shí)和信息,因此數(shù)據(jù)挖掘技術(shù)要從數(shù)據(jù)庫(kù)技術(shù)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、知識(shí)系統(tǒng)、信息檢索、高性能計(jì)算和可視化等領(lǐng)域汲取營(yíng)養(yǎng)。另外,每個(gè)學(xué)科都在進(jìn)行著日新月異的發(fā)展變化,數(shù)據(jù)挖掘技術(shù)遇到的挑戰(zhàn)也為相關(guān)學(xué)科領(lǐng)域的深入研究提供了新的契機(jī)。由于課程難度較大,很多高校把這門課程作為研究生的專業(yè)課程,也有院校將此課作為本科生高年級(jí)選修課開設(shè)腳。但是本科生開設(shè)這門課程的普通院校較少,我們能借鑒的教學(xué)經(jīng)驗(yàn)有限。
1.2數(shù)據(jù)挖掘課程教學(xué)環(huán)節(jié)的弊端
①某些學(xué)校對(duì)本科生開設(shè)的數(shù)據(jù)挖掘課程,其教學(xué)過(guò)程對(duì)理論的探討過(guò)多,與應(yīng)用存在距離,沒(méi)有體現(xiàn)出這門課程面向應(yīng)用的特質(zhì),缺少對(duì)學(xué)生工程能力的訓(xùn)練,存在學(xué)生在學(xué)了這門課程后不知道能干什么的現(xiàn)象。
②教學(xué)形式呆板單一。傳統(tǒng)的教師講、學(xué)生聽的教學(xué)模式,很難引起學(xué)生的探究興趣,不利于發(fā)揮他們自身的能動(dòng)性和創(chuàng)新動(dòng)機(jī)。
2.選擇恰當(dāng)實(shí)例貫穿數(shù)據(jù)挖掘課程的教學(xué)過(guò)程
煙臺(tái)大學(xué)計(jì)算機(jī)學(xué)院所開設(shè)的數(shù)據(jù)挖掘課程在教學(xué)上安排了6章內(nèi)容,涉及3個(gè)實(shí)例(其中兩個(gè)是實(shí)際生活中的項(xiàng)目課題):第1個(gè)是用于房產(chǎn)信息調(diào)查的房產(chǎn)客戶關(guān)系管理系統(tǒng);第2個(gè)是用于煙臺(tái)大學(xué)督評(píng)中心評(píng)教文本分類的中文文本數(shù)據(jù)挖掘系統(tǒng);第3個(gè)是用于國(guó)家葡萄酒檢測(cè)中心的數(shù)據(jù)分析的葡萄酒成分?jǐn)?shù)據(jù)挖掘系統(tǒng)。
2.1房產(chǎn)客戶關(guān)系管理系統(tǒng)
在講述房產(chǎn)客戶關(guān)系管理系統(tǒng)時(shí)內(nèi)容涵蓋緒論、知識(shí)發(fā)現(xiàn)過(guò)程和關(guān)聯(lián)規(guī)則3章,重點(diǎn)講授內(nèi)容包括:
(1)數(shù)據(jù)倉(cāng)庫(kù)。住房管理數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是按主題組織的,可從歷史觀點(diǎn)提供信息。數(shù)據(jù)挖掘技術(shù)能按知識(shí)工程的方法完成高層次需求,可以發(fā)現(xiàn)蘊(yùn)藏在數(shù)據(jù)內(nèi)部的知識(shí)模式。挖掘后形成的知識(shí)表示模式可為企業(yè)決策提供支持。
(2)通過(guò)對(duì)客戶信息進(jìn)行分析,闡述關(guān)聯(lián)規(guī)則的參數(shù):support、confidence、expected confidence,并簡(jiǎn)單介紹關(guān)聯(lián)規(guī)則中的多維、多層次等拓展知識(shí)。
(3)關(guān)聯(lián)規(guī)則挖掘。①講授關(guān)聯(lián)規(guī)則挖掘的Apriori算法;②講述布爾關(guān)聯(lián)規(guī)則的概念,對(duì)處理后形成的交易數(shù)據(jù)庫(kù)進(jìn)行布爾關(guān)聯(lián)規(guī)則挖掘,將問(wèn)題轉(zhuǎn)化為尋找以決策屬性為結(jié)果的規(guī)則;③將關(guān)聯(lián)規(guī)則挖掘應(yīng)用于客戶關(guān)系管理的最終目的是努力將潛在客戶轉(zhuǎn)變?yōu)楝F(xiàn)實(shí)客戶,將滿意客戶轉(zhuǎn)變?yōu)橹艺\(chéng)的終生客戶,提高客戶滿意程度,降低市場(chǎng)銷售及宣傳成本,增加利潤(rùn)率。
(4)設(shè)minsup=10%,minconf=70%。在統(tǒng)計(jì)的各類人群中獵取咨詢的渠道主要是雜志、報(bào)紙、互聯(lián)網(wǎng)和電視。經(jīng)試驗(yàn)統(tǒng)計(jì)后得到以下有關(guān)知識(shí):①滿足age>50 AND職業(yè)=“工人”的客戶占所統(tǒng)計(jì)總?cè)藬?shù)的9.7%;其中滿足age>50 AND職業(yè)=“工人”AND渠道=“TV”的客戶占92%。②符合學(xué)歷=“大?!盇ND職業(yè)=“工人”的客戶占所統(tǒng)計(jì)總?cè)藬?shù)的24.8%,其中滿足學(xué)歷=“大專”AND職業(yè)=“工人”AND渠道=“newspaper”的客戶占82%。③被統(tǒng)計(jì)人群中滿足income=“5000-9000”AND職業(yè)=“教師、醫(yī)生、公務(wù)員”的客戶占所統(tǒng)計(jì)總?cè)藬?shù)的32.7%;其中滿足income=“4000-6000”AND職業(yè)=“教師、醫(yī)生、公務(wù)員”AND渠道=“雜志”的客戶占83%。④被統(tǒng)計(jì)人群中滿足學(xué)歷=“本科”AND income≥“10000”的客戶占所統(tǒng)計(jì)總?cè)藬?shù)的占11.6%;其中符合學(xué)歷=“本科”ANDincome≥“8000”AND職業(yè)=“公司經(jīng)理”AND渠道=“雜志”的客戶占86.5%。
(5)教師要分析Apriori算法的瓶頸和改進(jìn),介紹Close算法和FP-樹算法,并且要求學(xué)生們掌握這3種經(jīng)典算法。
2.2中文文本數(shù)據(jù)挖掘系統(tǒng)
中文文本數(shù)據(jù)挖掘系統(tǒng)圍繞評(píng)教分類模型的建立講述特征選擇和主要分類算法。根據(jù)煙臺(tái)大學(xué)教學(xué)督評(píng)中心提供的學(xué)生對(duì)教師的中文評(píng)教文本,利用分類的方法找出其評(píng)價(jià)的傾向性,結(jié)合教材,重點(diǎn)講授了以下內(nèi)容:
1)特征選擇。
①介紹有監(jiān)督、無(wú)監(jiān)督和半監(jiān)督的特征選擇方法。②介紹使用分詞軟件后,統(tǒng)計(jì)詞頻,去掉小于閾值的低頻詞。③對(duì)比詞頻率、IG值(信息增益)、期望值差異對(duì)分類結(jié)果的影響留取特征詞。
部分?jǐn)?shù)據(jù)示例如下:用特征選擇的方法對(duì)重要的屬性進(jìn)行抽取,略去對(duì)分類影響不大的屬性,達(dá)到降維的目的,把特征選擇作為預(yù)處理。我們選用517條主觀評(píng)價(jià)作為訓(xùn)練樣本,其中233條留言是一般評(píng)價(jià),采用以下3種方式進(jìn)行特征選擇:詞頻率、IG值(信息增益)、期望值差異。不同方式特征選擇對(duì)分類準(zhǔn)確性的影響如表1所示。
2)分類。
在介紹常用的分類基礎(chǔ)知識(shí)和決策樹、ID3、樸素貝葉斯分類、最近鄰分類算法之后,又介紹了基于潛在語(yǔ)義分析的降維技術(shù),講授了支持向量機(jī)(SVM)適用于文本分類的原因。布置給學(xué)生的任務(wù)是用爬蟲獲取網(wǎng)評(píng),作傾向性分析。
評(píng)教文本分類統(tǒng)計(jì)后的結(jié)論是:將降維技術(shù)和支持向量機(jī)算法結(jié)合在評(píng)教模型的建立過(guò)程中,研究討論的主要內(nèi)容有:①各個(gè)指標(biāo)取不同值對(duì)分類的影響,這些指標(biāo)主要集中在特征抽取和選擇、保留詞性和降維維數(shù)等幾方面;②對(duì)分詞后的文本進(jìn)行特征選擇,篩去了詞頻數(shù)小于4的文本;③降維至30維,并適當(dāng)設(shè)置SVM中的可變參數(shù),找到合適的訓(xùn)練一測(cè)試樣本的比例,最后綜合出一個(gè)現(xiàn)有條件下的最佳分類模型。
2.3葡萄酒成份數(shù)據(jù)挖掘系統(tǒng)
葡萄酒成份數(shù)據(jù)挖掘系統(tǒng)介紹數(shù)值數(shù)據(jù)的預(yù)處理和聚類2章內(nèi)容。對(duì)葡萄酒成份的分析是根據(jù)所提供的酒中各成份的含量數(shù)據(jù),采用聚類或分類的方法確定某種葡萄酒的種類,比如是紅葡萄酒、白葡萄酒還是甜葡萄酒。圍繞這個(gè)問(wèn)題我們介紹了如下內(nèi)容:
1)數(shù)值數(shù)據(jù)的預(yù)處理。
①介紹葡萄酒中各個(gè)屬性的含義和取值范圍;②講授數(shù)據(jù)的離散化技術(shù),如等深、等寬、聚類技術(shù);③講授本例中使用的m一估值計(jì)算對(duì)數(shù)值屬,1生的離散化技術(shù);④講述本例中如何避免0值出現(xiàn)及去噪聲技術(shù)。
葡萄酒中各成份的含量數(shù)據(jù)如表2所示。
2)聚類。
在介紹聚類的基本知識(shí)和常用算法(如k均值、k中心點(diǎn)、DBSCAN技術(shù))之后,講解了:①本課題使用的層次聚類算法。在測(cè)試結(jié)果時(shí)通過(guò)測(cè)試樣本和分類樣本的不同比例,對(duì)結(jié)果進(jìn)行了對(duì)比。②講述了用樸素貝葉斯分類計(jì)數(shù)對(duì)這一問(wèn)題的分類處理,同時(shí)對(duì)比了聚類和分類算法在同一問(wèn)題上的結(jié)論差異。利用樸素的貝葉斯分類器可以完成預(yù)測(cè)目標(biāo),根據(jù)訓(xùn)練樣本建立分類器,對(duì)待測(cè)樣本進(jìn)行預(yù)測(cè),準(zhǔn)確率可達(dá)到90%以上。③引導(dǎo)學(xué)生思考對(duì)問(wèn)題的處理可以聯(lián)合使用各種算法,并分析各種算法對(duì)結(jié)果的影響,從而找出解決問(wèn)題的最佳方案。
2.4利用已知算法和實(shí)例講授Web挖掘技術(shù)
因特網(wǎng)規(guī)模龐大、結(jié)構(gòu)復(fù)雜、動(dòng)態(tài)變化性大,蘊(yùn)含大量的信息。將Web上豐富的信息轉(zhuǎn)變成有用的知識(shí)正是Web挖掘的意義所在。用之前中文文本分類的方法引導(dǎo)學(xué)生在一些購(gòu)物網(wǎng)站中下載對(duì)商品評(píng)論的中文文本,抽取特征詞,進(jìn)行傾向性分析,使學(xué)生熟悉支持向量機(jī)的分類方法,分詞軟件的使用及文本挖掘的整個(gè)過(guò)程。
3.結(jié)語(yǔ)
文章在前期制定應(yīng)用型本科生數(shù)據(jù)挖掘課程教學(xué)大綱的基礎(chǔ)上,針對(duì)數(shù)據(jù)挖掘課程內(nèi)容多學(xué)科交叉的特點(diǎn),在教學(xué)中提出淡化學(xué)科背景,注重算法應(yīng)用與實(shí)踐,以客戶關(guān)系管理、葡萄酒數(shù)據(jù)分析、中文評(píng)教文本分類等實(shí)例作為授課內(nèi)容主線,讓實(shí)例教學(xué)始終圍繞著典型的算法和前沿知識(shí)展開的教學(xué)方式。在今后的教學(xué)工作中,我們還應(yīng)該不斷站在學(xué)科發(fā)展的前列,經(jīng)常更新實(shí)例,使其更好地融入教學(xué),將教與學(xué)有機(jī)統(tǒng)一,取得更好的教學(xué)效果。因此我們還有大量的工作需要探索研究。
參考文獻(xiàn):
[1]宋成,李晉宏,項(xiàng)目驅(qū)動(dòng)的數(shù)據(jù)挖掘教學(xué)模式探討[J],中國(guó)電力教育,2011(27):116-177.
[2]劉云霞,統(tǒng)計(jì)學(xué)專業(yè)本科生開設(shè)“數(shù)據(jù)挖掘”課程的探討[J],吉林工程技術(shù)師范學(xué)院學(xué)報(bào),2010(6),20-22.
[3]徐金寶,對(duì)應(yīng)用型本科生開設(shè)數(shù)據(jù)挖掘課程的嘗試[J],計(jì)算機(jī)教育,2007(7):27-29.
[4]高園園,呂慶文,數(shù)據(jù)挖掘課程的教學(xué)思考[J],醫(yī)學(xué)信息,2009,22(11):23-24.
[5]譚征,孫紅霞,王立宏,普通院校本科生開設(shè)數(shù)據(jù)挖掘課程的教學(xué)研究[J],福建電腦,2011,27(10):38-39.
[6]曾志強(qiáng),本科數(shù)據(jù)挖掘教學(xué)研究[J],科教文匯(上旬刊),2009(10):26-27.
(見習(xí)編輯:劉麗麗)