吳 英,劉俊熙
(上海政法學(xué)院,上海 201701)
我院是一所文科類學(xué)校,計算機(jī)教研室承擔(dān)全校所有的計算機(jī)基礎(chǔ)課程,過去計算機(jī)考試都是采用局域網(wǎng)加FTP的上機(jī)考試形式,考試過程中存在一些弊端。在計算機(jī)課程的教學(xué)中,把傳統(tǒng)筆試與計算機(jī)技術(shù)結(jié)合到一起的考試方式越來越被師生所接受。我院智能在線考試系統(tǒng)的設(shè)計和建立實現(xiàn)了學(xué)生上機(jī)考試。該系統(tǒng)通過網(wǎng)絡(luò)服務(wù)器的設(shè)置,學(xué)生所用的計算機(jī)作為客戶端來登錄服務(wù)器獲得試題,答題完畢后網(wǎng)上提交試卷,軟件系統(tǒng)對學(xué)生的答卷按班級學(xué)號等進(jìn)行分類、整理。然后進(jìn)行智能化的判卷、給分(對部分題目類型能夠?qū)崿F(xiàn))。
目前我們的考試系統(tǒng)經(jīng)過一年多的實際運用已經(jīng)可以快捷、安全的上傳答卷,監(jiān)考教師的負(fù)擔(dān)大大減輕,并且可以通過該系統(tǒng)獲取大量的、具體的考試數(shù)據(jù)。但是如何利用智能在線考試系統(tǒng)所積累的考試數(shù)據(jù)來分析教師的教學(xué)效果和學(xué)生的學(xué)習(xí)效果一直是該系統(tǒng)建立以來我們所需要分析和研究的,因為我們知道這些數(shù)據(jù)的分析有助于下一步的教學(xué)計劃的制定和教學(xué)任務(wù)的實施,尤其是對學(xué)生對教學(xué)內(nèi)容的興趣、教學(xué)效果的檢驗等內(nèi)容的分析和了解有助于我們有的放矢地進(jìn)行教學(xué)活動的計劃和實施。正是在這樣的背景下,采用數(shù)據(jù)挖掘方法中的交叉表分析和相關(guān)分析,獲得的分析結(jié)果將有助于完善計算機(jī)教學(xué)計劃的更好實施。
人們在日常生活中經(jīng)常會遇到這樣的情況:超市的經(jīng)營者希望將經(jīng)常被同時購買的商品放在一起,以增加銷售;保險公司想知道購買保險的客戶一般具有哪些特征;醫(yī)學(xué)研究人員希望從已有的成千上萬份病歷中找出患某種疾病的病人的共同特征,從而為治愈這種疾病提供一些幫助。
對于以上問題,現(xiàn)有信息管理系統(tǒng)中的數(shù)據(jù)分析工具無法給出答案。因為無論是查詢、統(tǒng)計還是報表,其處理方式都是對指定的數(shù)據(jù)進(jìn)行簡單的數(shù)字處理,而不能對這些數(shù)據(jù)所包含的內(nèi)在信息進(jìn)行提取。隨著信息管理系統(tǒng)的廣泛應(yīng)用和數(shù)據(jù)量激增,人們希望能夠提供更高層次的數(shù)據(jù)分析功能,從而更好地對決策或教學(xué)工作提供支持。正是為了滿足這種要求,從大量數(shù)據(jù)中提取出隱藏在其中的有用信息,將機(jī)器學(xué)習(xí)應(yīng)用于數(shù)據(jù)庫的數(shù)據(jù)挖掘(Data Mining)技術(shù)得到了充分的應(yīng)用。
數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又潛在有用的信息和知識的過程。其方法通??梢苑譃閮纱箢悾?/p>
1)統(tǒng)計型。常用的技術(shù)有概率分析、相關(guān)性、聚類分析和判別分析等,統(tǒng)計學(xué)的領(lǐng)域包括概率論和統(tǒng)計推理,這些都慣用于創(chuàng)建代表數(shù)據(jù)集的模型。一些數(shù)學(xué)家還認(rèn)為數(shù)據(jù)挖掘中使用的模型實際上都是統(tǒng)計方法。統(tǒng)計方法的優(yōu)點是精確、易理解且已廣泛使用。許多人認(rèn)為統(tǒng)計方法是數(shù)據(jù)挖掘最準(zhǔn)確的形式,事實上,許多數(shù)據(jù)挖掘技術(shù)都利用存在已久的統(tǒng)計技術(shù)。如關(guān)聯(lián)算法使用了支持度和置信度;聚類技術(shù)使用A均值算法;
2)人工智能中的機(jī)器學(xué)習(xí)型。通過訓(xùn)練和學(xué)習(xí)大量的樣品集得出需要的模式或參數(shù)。數(shù)據(jù)挖掘的應(yīng)用中,最終的目標(biāo)都是發(fā)現(xiàn)有價值的知識和信息,有共同的思路和步驟,但也存在很大的差異和區(qū)別。由于各種方法都有自身的功能特點以及應(yīng)用領(lǐng)域,數(shù)據(jù)挖掘技術(shù)的選擇將影響最后結(jié)果的質(zhì)量和效果,通常是將多種技術(shù)結(jié)合使用,形成優(yōu)勢互補(bǔ)。
在本文中我們以SPSS中的多維交叉表分析和關(guān)聯(lián)分析為例,闡述數(shù)據(jù)挖掘在我學(xué)院智能在線計算機(jī)教學(xué)考試系統(tǒng)中的應(yīng)用。
所謂多維交叉表分析是顯示兩個或多個變量的聯(lián)合頻數(shù)分布表,簡稱列聯(lián)表或交叉表。它屬于離散多元分析的范疇,生成二維或多維交叉表,主要用以分析各事物、現(xiàn)象的差異性,判明所考察的各變量之間有無關(guān)聯(lián)。例如想了解不同性別,受教于同一教師情況下,對學(xué)習(xí)所關(guān)心內(nèi)容之間的關(guān)系,可以利用該過程形成一個二維統(tǒng)計表,以顯示不同性別,受教于同一教師情況下,對學(xué)習(xí)所關(guān)心內(nèi)容人數(shù)頻數(shù)分布情況、相關(guān)度,并可選擇適宜的方式進(jìn)行檢驗。在多維交叉表分析可以選擇輸出所選變量之間的相關(guān)系數(shù)表,下面就相關(guān)分析和相關(guān)系數(shù)做簡單介紹。
在數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則挖掘就是從大量的數(shù)據(jù)中挖掘出有價值描述數(shù)據(jù)項之間相互聯(lián)系的有關(guān)知識。隨著收集和存儲在數(shù)據(jù)庫中的數(shù)據(jù)規(guī)模越來越大,人們對這些數(shù)據(jù)中挖掘相應(yīng)的關(guān)聯(lián)知識越來越有興趣,早先關(guān)聯(lián)挖掘應(yīng)用于超市和大賣場等零售行業(yè),人們從大量的交易記錄中發(fā)現(xiàn)有價值的關(guān)聯(lián)知識,幫助進(jìn)行商品目錄的設(shè)計、交叉營銷或幫助進(jìn)行其它有關(guān)的商業(yè)決策。根據(jù)關(guān)聯(lián)規(guī)則所涉及的關(guān)聯(lián)特性來進(jìn)行分類劃分,關(guān)聯(lián)挖掘可擴(kuò)展到其它數(shù)據(jù)挖掘應(yīng)用領(lǐng)域,如進(jìn)行分類學(xué)習(xí),或進(jìn)行相關(guān)分析。
客觀事物之間是相互聯(lián)系、相互影響和相互制約的,事物之間的這種相互聯(lián)系反映到數(shù)量上,說明相關(guān)的變量之間存在著一定的關(guān)系。一般來說,變量之間的關(guān)系可以分為兩類,一類是確定性關(guān)系,即通常的函數(shù)關(guān)系,例如圓面積S與半徑r的關(guān)系,S=∏r2。又如電流強(qiáng)度I、電阻R和電壓V之間的關(guān)系I=V/R。另一類是非確定關(guān)系,即相關(guān)關(guān)系,例如人的身高與體重,身高不同的人體重有差異,但是身高相同的人,體重有不一樣。同樣,體重相同的人,身高也不一定一致。這說明身高和體重之間不是確定的函數(shù)關(guān)系。但是人們大概不會懷疑身高越高的人體重越重這一事實,身高和體重的關(guān)系就屬于相關(guān)關(guān)系。相關(guān)分析就是是以分析變量間的線性關(guān)系為主的,研究他們之間線性相關(guān)密切程度的一種統(tǒng)計方法。
通過幾個描述相關(guān)關(guān)系的統(tǒng)計量可以確定相關(guān)的密切程度和線性相關(guān)的方向。這些統(tǒng)計量中包括:
1)皮爾遜(Pearson)相關(guān)系數(shù),通常用R表示。如果對變量X和Y進(jìn)行觀測,得到一組數(shù)據(jù):xi,yi( i=1,2…,n),X 和Y之間相關(guān)系數(shù)的公式為:
|Rxy|≤1。0< Rxy<1,稱Y與X正相關(guān);-1<Rxy<0,稱Y與X負(fù)相關(guān);且|Rxy|越接近1,則
說明變量Y與變量X之間的線性關(guān)系越顯著。如果Rxy則稱Y與X不(線性)相關(guān)。當(dāng)|Rxy|=1時,稱X與Y完全(線性)相關(guān)。
數(shù)據(jù)采集就是從大量數(shù)據(jù)中取出一個與挖掘目標(biāo)相關(guān)的數(shù)據(jù)子集,通過數(shù)據(jù)樣本的精選,不僅能減少數(shù)據(jù)的處理量,還能突出相關(guān)的規(guī)律性,為此數(shù)據(jù)采集中的取樣的代表性和質(zhì)量尤關(guān)重要。本文選擇以下數(shù)據(jù)作為分析指標(biāo),如表1所示。
對于選擇題,要先考慮將每道題目定義成一個變量,如性別定義為Gender變量、上傳時間定義為Time變量、考試得分定義為Score變量、任課教師定義為Teacher變量。又由于SPSS不能處理字符型變量,因此要將定性答案轉(zhuǎn)換為數(shù)字型答案,轉(zhuǎn)換前后變量值的對應(yīng)關(guān)系如表2所示。
表1 數(shù)據(jù)采集樣本表
表2 數(shù)據(jù)分析和定義變量表
替換好以后的數(shù)據(jù)表如下圖所示。
1)從交叉表中我們可以看出不同性別層次的學(xué)生、不同任課教師、學(xué)生考試成績分布的交叉情況。例如對于男同學(xué)來說,共計15個人,任課教師分別為2和3(教師代號):其中2號教師取得90分以上成績1人,60~70分3人,不及格一人;3號教師90分以上1人,80~90分1人,60~70分6人,不及格2人。從總體來看,男同學(xué)成績兩極分化比較嚴(yán)重,極個別男同學(xué)成績優(yōu)秀,而多數(shù)男同學(xué)成績徘徊在及格邊緣;與此相比,女同學(xué)成績相對較好,多分布在70分以上。根據(jù)這一分析,授課教師應(yīng)該加大對班級男同學(xué)的監(jiān)督力度,授課時適當(dāng)多考慮男同學(xué)的聽課興趣所在,一般來說,只要激發(fā)其興趣,男同學(xué)會有很強(qiáng)的鉆研精神和動手能力。
2)從相關(guān)分析我們可以看出,教師同學(xué)生成績之間的相關(guān)系數(shù)并不高,僅為0.125,說明兩者之間并不存在明顯相關(guān)性,這可能同我校計算機(jī)基礎(chǔ)課教師統(tǒng)一教材、統(tǒng)一試驗、統(tǒng)一教學(xué)重點有關(guān),因為課程內(nèi)容高度統(tǒng)一,所以教師個性發(fā)揮在成績中表現(xiàn)不明顯。
應(yīng)該指出,本文舉例僅僅是是數(shù)據(jù)挖掘在我院計算機(jī)教學(xué)智能在線考試系統(tǒng)數(shù)據(jù)分析中的一個小樣本數(shù)據(jù)具體應(yīng)用,在實際統(tǒng)計工作中可擴(kuò)大樣本容量進(jìn)行更深入的分析后再對問題下一個較準(zhǔn)確的結(jié)論。事實上數(shù)據(jù)挖掘的功能遠(yuǎn)不止如此。采用數(shù)據(jù)挖掘方法可以將原本獨立的、分散的問題聯(lián)系起來,展現(xiàn)了問題的本質(zhì)和潛在聯(lián)系??梢詭椭處煾钊氲牧私鈱W(xué)習(xí)效果同哪些因素有關(guān),從而加強(qiáng)相關(guān)因素的建設(shè)工作,以求達(dá)到更高的目標(biāo)。
同時通過分析總結(jié),筆者對數(shù)據(jù)挖掘應(yīng)用到計算機(jī)考試系統(tǒng)數(shù)據(jù)分析運用上提出更具體的建議:
1)對需要解決的問題擬定更為詳細(xì)的挖掘目標(biāo)。雖然數(shù)據(jù)挖掘的最后結(jié)構(gòu)是不可預(yù)測的,但對要探索的問題應(yīng)該有所預(yù)見,不能盲目地為了數(shù)據(jù)挖掘而數(shù)據(jù)挖掘。清晰地定義出要解決問題,認(rèn)清挖掘目標(biāo)是數(shù)據(jù)挖掘的重要一步。
2)數(shù)據(jù)準(zhǔn)備。數(shù)據(jù)挖掘?qū)?shù)據(jù)有著嚴(yán)格的要求,先期的數(shù)據(jù)準(zhǔn)備工作要占60%的時間,且對數(shù)據(jù)挖掘的成敗至關(guān)重要。如果是根據(jù)考試系統(tǒng)進(jìn)行搜集,事先要根據(jù)待解決問題和打算采用的更為周全而完善的數(shù)據(jù)記錄方式;在數(shù)據(jù)收集的過程中要注意收集指標(biāo)的全面,對于缺失的數(shù)據(jù)要采用一定方法進(jìn)行彌補(bǔ)。數(shù)據(jù)準(zhǔn)備工作不到位,意味著后面的工作注定是不完整而且是缺乏代表性的。
3)選擇適當(dāng)?shù)臄?shù)據(jù)挖掘方法和軟件。很多數(shù)據(jù)挖掘方法都是成熟算法,但根據(jù)挖掘?qū)ο蠛屯诰蚰繕?biāo)的不同而選擇不同的算法則需要一定的經(jīng)驗或創(chuàng)新,借助數(shù)據(jù)挖掘軟件可以使數(shù)據(jù)挖掘變得簡單易行,目前使用最廣泛的數(shù)據(jù)挖掘軟件是SPSS和SAS。
[1] 袁燕.決策樹算法在高校教學(xué)評價系統(tǒng)中的應(yīng)用[J].浙江海洋學(xué)院學(xué)報,2006,04.
[2] 彭玉清,等.數(shù)據(jù)挖掘技術(shù)及其在教學(xué)中的應(yīng)用[J].河北科技大學(xué)學(xué)報,2002,04.
[3] 韓冬.數(shù)據(jù)挖掘在學(xué)分制教學(xué)管理中的應(yīng)用[J].教育信息化,2007,07.
[4] 盛宇,劉俊熙.數(shù)據(jù)挖掘在政府電子公共化服務(wù)中的應(yīng)用[J].情報雜志,2007,7.
[5] 羅雨滋,付興宏.數(shù)據(jù)挖掘在教育信息化中的應(yīng)用[J].固原師專學(xué)報,2005,06.
[6] 林少培,董伯懦.工程MIS中的數(shù)據(jù)挖掘和知識深化的探討[A].智能技術(shù)應(yīng)用與CAD學(xué)術(shù)討論會,論文集,2004.