李宏艷
摘要:應(yīng)用數(shù)據(jù)挖掘技術(shù)對(duì)參加計(jì)算機(jī)基礎(chǔ)課程的學(xué)生常規(guī)期末考試成績(jī)進(jìn)行挖掘分析,提取有價(jià)值的信息,尋找出教學(xué)中存在的問(wèn)題,并利用粗糙集理論各個(gè)條件屬性對(duì)決策屬性影響力的不同,計(jì)算出各種題型對(duì)考試結(jié)果的重要性,進(jìn)而確定影響學(xué)生考試成績(jī)的重要知識(shí)點(diǎn),從而指導(dǎo)教師有重點(diǎn)地研究分析下一步教學(xué)活動(dòng)。應(yīng)用實(shí)踐表明,在計(jì)算機(jī)基礎(chǔ)課程的常規(guī)考試中,利用大數(shù)據(jù)粗糙集理論屬性重要性來(lái)分析判斷學(xué)生所學(xué)的不同知識(shí)點(diǎn)對(duì)成績(jī)影響的程度,結(jié)果與實(shí)際情況是吻合的。
關(guān)鍵詞:大數(shù)據(jù)挖掘;粗糙集理論;計(jì)算機(jī)基礎(chǔ)課程
中圖分類號(hào):G642.41 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1674-9324(2017)28-0272-02
計(jì)算機(jī)基礎(chǔ)課程是高校學(xué)生學(xué)習(xí)計(jì)算機(jī)的入門(mén)課程,不管是計(jì)算機(jī)專業(yè)的學(xué)生還是非計(jì)算機(jī)專業(yè)學(xué)生都是必須學(xué)的,也是必須掌握的計(jì)算機(jī)技術(shù)。本文嘗試在計(jì)算機(jī)基礎(chǔ)課程的教學(xué)中應(yīng)用大數(shù)據(jù)挖掘技術(shù),運(yùn)用粗糙理論、模糊理論、數(shù)理統(tǒng)計(jì)作為理論基礎(chǔ),以事實(shí)數(shù)據(jù)作為理論基礎(chǔ)進(jìn)行分析研究,對(duì)學(xué)生掌握的基礎(chǔ)理論知識(shí)以及理解程度有一個(gè)準(zhǔn)確的了解和掌握,從而為計(jì)算機(jī)專業(yè)的講師開(kāi)展計(jì)算機(jī)教學(xué)提供可靠的事實(shí)與數(shù)據(jù)理論依據(jù)。
一、大數(shù)據(jù)及挖掘技術(shù)相關(guān)的概念
大數(shù)據(jù)(big data,mega data),顧名思義就是很大的數(shù)據(jù),或稱海量數(shù)據(jù)、巨量資料,具有Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價(jià)值),又稱為4V特點(diǎn)。
數(shù)據(jù)挖掘技術(shù)則是從海量的、不完全的、隨機(jī)的、模糊的數(shù)據(jù)中,提取人們事先不知道并且是隱藏的數(shù)據(jù)中的,研究分析的有用信息和知識(shí)為我所用,為將來(lái)所用。如何對(duì)龐大的、海量的、復(fù)雜的、不完全、不完整的大數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析、推理,發(fā)現(xiàn)數(shù)據(jù)之間隱藏的規(guī)律為我所用?如何對(duì)大數(shù)據(jù)這個(gè)不精確、不完全的知識(shí)的表達(dá)與分析,這是大數(shù)據(jù)背景下高校特別是計(jì)算機(jī)應(yīng)用專業(yè)的教師、學(xué)生應(yīng)該學(xué)習(xí)的最重要的基礎(chǔ)知識(shí),掌握并利用大數(shù)據(jù)挖掘及其相關(guān)技術(shù)基礎(chǔ)理論知識(shí)。
二、大數(shù)據(jù)挖據(jù)技術(shù)對(duì)計(jì)算機(jī)教學(xué)的指導(dǎo)作用
利用挖掘技術(shù)對(duì)大數(shù)據(jù)進(jìn)行挖掘,可以為國(guó)家出臺(tái)相關(guān)政策與決策提供相應(yīng)的依據(jù),也可為高校教師在教學(xué)的過(guò)程中提供優(yōu)秀教學(xué)理論與能與時(shí)俱進(jìn)改進(jìn)教學(xué)方法與內(nèi)容,為知識(shí)的更新轉(zhuǎn)化提供一個(gè)新的、更好的平臺(tái)。為以后的定向業(yè)務(wù)數(shù)據(jù)學(xué)會(huì)數(shù)據(jù)的挖掘。學(xué)會(huì)準(zhǔn)備數(shù)據(jù)、挖掘數(shù)據(jù)、分析數(shù)據(jù)、結(jié)果分析、得出結(jié)論,為下一步的發(fā)展提出指導(dǎo)性意見(jiàn)與建議。
目前大數(shù)據(jù)挖掘技術(shù)的主要方法有大數(shù)據(jù)數(shù)理模型理論、神經(jīng)網(wǎng)絡(luò)模型理論、模糊理論以及粗糙集理論算法技術(shù)、決策樹(shù)、三角幾何技術(shù)等相關(guān)數(shù)學(xué)方法統(tǒng)計(jì)分析、歸納等。
(一)利用粗糙集理論對(duì)大數(shù)據(jù)進(jìn)行挖掘
粗糙集理論是科學(xué)家研究不精確、不確定性信息的技術(shù),而目前網(wǎng)絡(luò)大數(shù)據(jù)恰恰具有這樣的特點(diǎn),挖掘大數(shù)據(jù)本身所反映出信息和挖掘隱含的價(jià)值信息,不附加信息或經(jīng)驗(yàn)知識(shí),得出的結(jié)論相對(duì)說(shuō)比較客觀、真實(shí),更加符合所統(tǒng)計(jì)對(duì)象的實(shí)際情況,對(duì)以后決策抑或改變更加有據(jù)可依,有據(jù)可查。使用粗糙集理論對(duì)信息大數(shù)據(jù)進(jìn)行挖掘,就是通過(guò)對(duì)大數(shù)據(jù)進(jìn)行分類、合并同類、屬性約簡(jiǎn)、屬性歸類等必要的壓縮,從而找出大數(shù)據(jù)的規(guī)律,找出有價(jià)值的信息,預(yù)測(cè)對(duì)象發(fā)展趨勢(shì),發(fā)展變化,從而制訂相應(yīng)的策略方法,降低成本,擴(kuò)大收益。
(二)舉例說(shuō)明如下
計(jì)算機(jī)基礎(chǔ)課程在學(xué)期結(jié)束時(shí),學(xué)生將參加期末計(jì)算機(jī)應(yīng)用能力考試,考試內(nèi)容共分為七項(xiàng):第一項(xiàng)是選擇題,設(shè)分值40分;第二項(xiàng)是網(wǎng)絡(luò)應(yīng)用題,設(shè)分值為10分;第三項(xiàng)是計(jì)算機(jī)系統(tǒng)操作,設(shè)分值8分;第四項(xiàng)是辦公軟件應(yīng)用,四項(xiàng)一分項(xiàng)是Word應(yīng)用,設(shè)分值為18分;四項(xiàng)二分項(xiàng)Excel應(yīng)用,設(shè)分值為14分;四項(xiàng)三分項(xiàng)是Power-Point應(yīng)用,設(shè)分值為10分。
筆者從2015級(jí)非計(jì)算機(jī)應(yīng)用專業(yè)抽取30名同學(xué),來(lái)參加一次模擬考試,把模擬考試數(shù)據(jù)進(jìn)行了整理,形成了原始考試成績(jī)表如表1所示。
上表中,用S1、S2、…、S6分別表示選擇題、網(wǎng)絡(luò)應(yīng)用題、計(jì)算機(jī)系統(tǒng)操作、辦公軟件Word操作、辦公軟件Excel操作、辦公軟件PowerPoint操作,g代表總成績(jī)。
(三)設(shè)定標(biāo)準(zhǔn)進(jìn)行數(shù)據(jù)分析
我們把學(xué)生總成績(jī)按不同分?jǐn)?shù)段進(jìn)行離散化處理,首先分?jǐn)?shù)百分化,也就是將得分乘以100后除以設(shè)置分。把學(xué)生得分總成績(jī)按80—100、60—79、0—59分劃分為優(yōu)秀、合格、不及格,設(shè)為1、2、3。利用離散化的方法得出下表2。
(四)數(shù)據(jù)挖掘分析
設(shè)C={S1,S2,S3,S4,S5,S6},決策屬性D={g},根據(jù)粗燥集理論公式?jīng)Q策屬性D的重要性公式,分別計(jì)算各個(gè)條件對(duì)決策屬性D影響率,結(jié)果如下,
SGF(S1,C,D)=0.38,SGF(S2,C,D)=0.08,SGF(S3,C,D)=0,SGF(S4,C,D)=0.13,
SGF(S5,C,D)=0.26,SGF(S6,C,D)=0。通過(guò)分析各題在總分中所占比例,以及得分比重,發(fā)現(xiàn)本次模擬考試中,影響最大的是選擇題,其次是電子表格的操作,再次是word。而系統(tǒng)操作和幻燈片使用對(duì)總分的影響很小,可以忽略。分析探討深層次的原因,是因?yàn)檫x擇題涉及的知識(shí)點(diǎn)多,又側(cè)重于概念方面,學(xué)生在學(xué)習(xí)的過(guò)程沒(méi)有很好地去理解,導(dǎo)致了失分情況比其他題要多。另外電子表格和文字處理操作則是目前最基礎(chǔ)的計(jì)算機(jī)應(yīng)用軟件,也是教學(xué)的重點(diǎn)和難點(diǎn),電子表格的難點(diǎn)主要在函數(shù)的使用以及函數(shù)的設(shè)計(jì)上,這就需要教師在函數(shù)使用上多多設(shè)計(jì)一些題型讓學(xué)生運(yùn)用函數(shù)或函數(shù)組合來(lái)解決問(wèn)題,讓學(xué)生體會(huì)理解函數(shù)的用法?;脽羝牟僮髡w得分較高,相差不大,對(duì)考試結(jié)果的影響很小?;脽羝浖僮飨鄬?duì)簡(jiǎn)單,而且也是學(xué)生最感興趣的軟件,學(xué)生對(duì)基本操作都掌握得較好。對(duì)于操作系統(tǒng)和網(wǎng)絡(luò)應(yīng)用技術(shù),由于家庭電腦的普及,在網(wǎng)絡(luò)概念和操作上沒(méi)有大的問(wèn)題,很多學(xué)生可以說(shuō)是無(wú)師自通,問(wèn)題也不大。
對(duì)于其他大數(shù)據(jù)挖掘技術(shù)筆者在此不一一舉例了,大數(shù)據(jù)分析方法可以多種多樣,但不管運(yùn)用什么方法,挖掘出數(shù)據(jù)隱含的價(jià)值信息為我所用,特別隨著大數(shù)據(jù)時(shí)代的到來(lái),大數(shù)據(jù)的處理技術(shù)是計(jì)算機(jī)基礎(chǔ)課程必須涉及與改革的,這樣計(jì)算機(jī)基礎(chǔ)課程教學(xué)才能與時(shí)俱進(jìn)。
三、結(jié)束語(yǔ)
大數(shù)據(jù)時(shí)代隨著互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)發(fā)展的腳步已鏗鏘有力地到來(lái)了,并且已經(jīng)在某些領(lǐng)域影響著我們的生活、學(xué)習(xí)與工作。高校在教學(xué)實(shí)踐中要與時(shí)代發(fā)展趨勢(shì)同行,同時(shí)要求高校教師在教學(xué)思想、教學(xué)理念上迅速做出調(diào)整,并制定出最新適合學(xué)生今后發(fā)展的計(jì)算機(jī)應(yīng)用能力培養(yǎng)方案,并且行之有效地付諸實(shí)施,做到提高學(xué)生的計(jì)算機(jī)應(yīng)用以及應(yīng)變能力,增強(qiáng)就業(yè)競(jìng)爭(zhēng)優(yōu)勢(shì),滿足社會(huì)對(duì)復(fù)合型職業(yè)技能人才的需要。
參考文獻(xiàn):
[1]劉剛.數(shù)據(jù)挖掘技術(shù)與分類算法研究[D].中國(guó)人民解放軍信息工程大學(xué),2004.
[2]張穎.數(shù)據(jù)采掘的研究與應(yīng)用[D].中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所),1999.
Abstract:To analyze the application of data mining technology in computer basic course on students' scores in the final examination of conventional mining,extracting valuable information,to find out the problems in teaching,and using rough set theory to each different condition attributes of decision attribute influence,calculate the importance of various types of test results,and then determine the important knowledge influence of test scores of students,so as to guide teachers to focus on research and analysis of teaching activities in the next step. The practice shows that in conventional computer courses,using a large data attribute importance of rough set theory to analyze and judge the effect of different knowledge of students' scores on the extent of the results tally with the actual situation.
Key words:big data mining;rough set theory;computer basic course