詹少強
詹少強/揚州市職業(yè)大學(xué)講師(江蘇揚州225000)。
隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,大數(shù)據(jù)帶來的社會變革引起了各界的高度關(guān)注。目前,大數(shù)據(jù)與我們的生產(chǎn)生活息息相關(guān),產(chǎn)生了巨大的社會影響力。數(shù)據(jù)挖掘?qū)W科是大數(shù)據(jù)時代的產(chǎn)物,是學(xué)校培養(yǎng)大數(shù)據(jù)人才的重要課程。本文主要探討職業(yè)院校的數(shù)據(jù)挖掘教學(xué),引導(dǎo)學(xué)校將實際教學(xué)經(jīng)驗與大數(shù)據(jù)的具體特性、數(shù)據(jù)挖掘?qū)W科交叉性強的特點進行有機結(jié)合,從培養(yǎng)數(shù)據(jù)意識、加強理論體系、創(chuàng)新教學(xué)方法和深入科學(xué)研究等四個方面入手,創(chuàng)新數(shù)據(jù)挖掘課的教學(xué)方法,努力解決大數(shù)據(jù)時代數(shù)據(jù)挖掘課程教學(xué)的困難,培養(yǎng)更多與時俱進的大數(shù)據(jù)研究型人才。
“大數(shù)據(jù)”是一個新興名詞,是移動互聯(lián)網(wǎng)大發(fā)展、大繁榮的一種外在表現(xiàn),大數(shù)據(jù)伴隨著人們對網(wǎng)絡(luò)的廣泛應(yīng)用而發(fā)展極為迅速,至今我們尚未對大數(shù)據(jù)有一個全面深入的認(rèn)識與定義。目前看來,大數(shù)據(jù)就是由數(shù)量巨大、結(jié)構(gòu)復(fù)雜、類型眾多的數(shù)據(jù)構(gòu)成的數(shù)據(jù)集合,是以云計算的數(shù)據(jù)處理與應(yīng)用模式為基礎(chǔ),通過數(shù)據(jù)的整合與共享,交叉復(fù)用形成的智力資源和知識服務(wù)能力。由此看來,單臺的計算機無法完成大數(shù)據(jù)的處理,只有分布式計算架構(gòu)才能完成這一工作。大數(shù)據(jù)依托云計算的分布式處理、分布式數(shù)據(jù)庫、云存儲和虛擬化技術(shù)對海量數(shù)據(jù)的進行挖掘。
其具體特征可以概括為4V:第一,數(shù)據(jù)量浩大(Volume)。數(shù)據(jù)集合的規(guī)模不斷擴大,容量計量單位從GB、TB到PB甚至EB、ZB,通常的個人計算機硬盤的容量為TB級,而部分大型企業(yè)的數(shù)據(jù)量已經(jīng)達到EB級。第二,數(shù)據(jù)類型繁多(Variety)。大數(shù)據(jù)的對象是能夠存儲于計算機內(nèi)的所有數(shù)據(jù)格式,包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),以文本為主的結(jié)構(gòu)化數(shù)據(jù)易于存儲,是傳統(tǒng)的數(shù)據(jù)類型,而現(xiàn)在則出現(xiàn)了更多的音頻、視頻、圖片、網(wǎng)絡(luò)日志、地理位置信息、搜索引擎中關(guān)鍵詞等非結(jié)構(gòu)化數(shù)據(jù)。第三,價值巨大(Value)。數(shù)據(jù)之間存在的復(fù)雜關(guān)聯(lián),在信息學(xué)、經(jīng)濟學(xué)、系統(tǒng)學(xué)、網(wǎng)絡(luò)學(xué)、社會學(xué)、心理學(xué)等諸多領(lǐng)域掀起了革命性浪潮,具有巨大的應(yīng)用價值。第四,處理迅速(Velocity)。大數(shù)據(jù)通常以數(shù)據(jù)流的形式不間斷地迅速產(chǎn)生,動態(tài)性和時效性都很強。
數(shù)據(jù)挖掘是涉及數(shù)據(jù)庫技術(shù)、統(tǒng)計學(xué)、機器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、知識系統(tǒng)、信息檢索、高性能計算和可視化等多學(xué)科知識的復(fù)雜學(xué)科,具有顯著的交叉性,不僅具有很強的理論性,還具備很強的實踐意義,注重于培養(yǎng)學(xué)生的創(chuàng)新能力和解決綜合問題的能力。課程的核心知識結(jié)構(gòu)是教學(xué)指導(dǎo)大綱,也是學(xué)生必須掌握的內(nèi)容。核心知識結(jié)構(gòu)如下圖所示。數(shù)據(jù)挖掘前要先經(jīng)過預(yù)處理才能存入數(shù)據(jù)倉庫,再根據(jù)具體情況利用相關(guān)的挖掘工具和挖掘算法,按照一定的挖掘流程進行數(shù)據(jù)挖掘,最后以可視化的形式展示挖掘結(jié)果。挖掘工具和挖掘算法是教學(xué)的重點內(nèi)容。挖掘工具分為專用挖掘工具和通用挖掘工具,十大經(jīng)典挖掘算法有分類、聚類、關(guān)聯(lián)分析、鏈接挖掘、裝袋和增強、序列、機器學(xué)習(xí)、聚合挖掘、粗糙集挖掘和圖挖掘,學(xué)生需要了解各種算法的概念、思想和代表性算法,并能對實例進行分析。
《數(shù)據(jù)挖掘》課程核心知識結(jié)構(gòu)圖
早在1980年,著名未來學(xué)家阿爾文·托夫勒便在《第三次浪潮》一書中,將大數(shù)據(jù)贊頌為“第三次浪潮的華彩樂章”。1989年是數(shù)據(jù)挖掘技術(shù)興起的元年,大約從2009年開始,“大數(shù)據(jù)”才成為互聯(lián)網(wǎng)信息技術(shù)行業(yè)的流行詞匯。近年來,數(shù)據(jù)挖掘作為一門新興的學(xué)科,引起了社會各界的廣泛關(guān)注,對人類經(jīng)濟社會來說,它有著嶄新的理論思想和非凡的實踐意義。
數(shù)據(jù)挖掘的任務(wù)包括分類規(guī)則挖掘、聚類規(guī)則挖掘、關(guān)聯(lián)規(guī)則挖掘、時序規(guī)則挖掘、特征規(guī)則挖掘、偏差規(guī)則挖掘和預(yù)測,每項內(nèi)容都有專門的挖掘技術(shù)。其相關(guān)領(lǐng)域有人工智能、數(shù)據(jù)分析和數(shù)據(jù)庫。
數(shù)據(jù)挖掘?qū)W科有廣泛的技術(shù)支撐,它涵蓋了數(shù)據(jù)庫、統(tǒng)計學(xué)、機器學(xué)習(xí)、高性能計算、模式識別、神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)可視化、知識系統(tǒng)、信息檢索、圖像與信號處理、空間數(shù)據(jù)分析、高性能計算和可視化數(shù)據(jù)挖掘等多門學(xué)科,是在廣泛吸取其他各門學(xué)科先進技術(shù)的基礎(chǔ)上轉(zhuǎn)化發(fā)展而來的。
數(shù)據(jù)挖掘技術(shù)屬于計算機科學(xué),它通過分析每個數(shù)據(jù),從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù),包括數(shù)據(jù)準(zhǔn)備、規(guī)律尋找和規(guī)律表示三個步驟,與人工智能、數(shù)據(jù)分析和數(shù)據(jù)庫相關(guān),主要應(yīng)用于統(tǒng)計、情報檢索和模式識別等。因其具有新穎性、內(nèi)容廣、交叉性強等特點,決定了它必然具有一定的難度。
大數(shù)據(jù)背景下的新興數(shù)據(jù)挖掘是各院校的新開課程,之前很少有教師接觸過或者系統(tǒng)地了解過,所以沒有成熟的教學(xué)理念和教學(xué)方法,經(jīng)驗不足。
數(shù)據(jù)挖掘技術(shù)屬于計算機科學(xué),需要學(xué)生熟練掌握計算機的相關(guān)知識和操作,部分開課專業(yè)學(xué)生的計算機知識比較薄弱,之前也沒有系統(tǒng)學(xué)習(xí)過數(shù)據(jù)挖掘的基礎(chǔ)課和其他相關(guān)課程,因此在學(xué)習(xí)中存在一定的困難。
目前數(shù)據(jù)挖掘廣泛應(yīng)用于統(tǒng)計、情報檢索和模式識別等領(lǐng)域,具有很強的實踐性,但由于數(shù)據(jù)挖掘是一門數(shù)據(jù)庫技術(shù)、統(tǒng)計學(xué)、信息檢索、機器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、知識系統(tǒng)、高性能計算和可視化等多學(xué)科交叉的學(xué)科,教師受填鴨式教學(xué)理念的拘泥,所以大都偏重理論教學(xué),很少為學(xué)生提供上機實踐的機會。
數(shù)據(jù)挖掘是一門新興課程,涉及學(xué)科繁多、內(nèi)容廣泛、理論復(fù)雜,教師經(jīng)驗不足,職業(yè)素養(yǎng)不高,在教學(xué)中存在一定的困難,這就要求教師努力提高自身職業(yè)素養(yǎng),包括兩方面:一方面,教師要自覺學(xué)習(xí),提高數(shù)據(jù)挖掘的專業(yè)水平,系統(tǒng)掌握其所涉及科目的理論及技術(shù)知識,能夠運用理論知識來分析并解決實踐問題;另一方面,教師要樹立數(shù)據(jù)意識,創(chuàng)新教學(xué)思想和方法,豐富課堂和教學(xué)內(nèi)容,將理論教學(xué)和實踐教學(xué)有機結(jié)合,充分調(diào)動學(xué)生積極性,激發(fā)學(xué)生的學(xué)習(xí)興趣。不能因為學(xué)生基礎(chǔ)薄弱、涉及的知識太多太雜、課程難度大而敷衍了事,一定要引導(dǎo)學(xué)生樹立正確的學(xué)習(xí)目標(biāo),指導(dǎo)學(xué)生強化理論基礎(chǔ)和實踐應(yīng)用技能,全面為學(xué)生講解相關(guān)知識,避免他們在學(xué)習(xí)中感到迷茫困惑。
數(shù)據(jù)的采集運用十分嚴(yán)謹(jǐn),差之毫厘,謬以千里。大數(shù)據(jù)技術(shù)的廣泛應(yīng)用在各個領(lǐng)域掀起了革命性浪潮。我們要樹立大數(shù)據(jù)思維意識,全面認(rèn)識大數(shù)據(jù)技術(shù)帶來的機遇和挑戰(zhàn)。數(shù)據(jù)挖掘以數(shù)據(jù)為對象展開分析,同時具備具體性和抽象性。具體性是指以數(shù)據(jù)為對象挖掘出的信息和知識具有客觀性,解釋性和理解性較強;抽象性是針對數(shù)據(jù)挖掘過程中的理論、技術(shù)和方法來說的。在進行數(shù)據(jù)挖掘教學(xué)時,要激發(fā)學(xué)生的學(xué)習(xí)興趣,逐漸培養(yǎng)學(xué)生的數(shù)據(jù)意識??梢宰寣W(xué)生交流并發(fā)表自己對數(shù)據(jù)挖掘的理解,然后教師對學(xué)生的看法做出總結(jié)修正,通過實例讓學(xué)生對數(shù)據(jù)挖掘形成一個初步的了解;課下組織學(xué)生開展調(diào)查活動,對大數(shù)據(jù)在生活中的應(yīng)用、發(fā)展趨勢、研究成果、數(shù)據(jù)挖掘的就業(yè)等進行調(diào)查,使其理解數(shù)據(jù)在社會各行各業(yè)的重要意義,并將通過數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)的信息和知識服務(wù)于政府、企業(yè)等部門。
數(shù)據(jù)挖掘是一門交叉性強的學(xué)科,以復(fù)雜而強大的理論體系作為支撐,所涉及的數(shù)據(jù)庫技術(shù)、機器學(xué)習(xí)、統(tǒng)計分析、模式識別、信息檢索、高性能和智能計算等學(xué)科內(nèi)容繁雜,在有限的職業(yè)教育中難以對此展開系統(tǒng)全面的學(xué)習(xí)。為解決這一問題,各院??梢詫?shù)據(jù)挖掘課定位在高年級學(xué)生,在低年級做好高等數(shù)學(xué)、代數(shù)、統(tǒng)計分析、概率、數(shù)據(jù)庫原理、計算機編程等與之相關(guān)課程的教學(xué)工作,這些學(xué)生在前幾年的教育中掌握了一些與數(shù)據(jù)挖掘相關(guān)的基礎(chǔ)理論知識,學(xué)習(xí)能力和理解能力都有很大的提高,對數(shù)據(jù)挖掘的學(xué)習(xí)也有清晰的目標(biāo)。此外,學(xué)校要時常鼓勵相關(guān)專業(yè)的學(xué)生獨立學(xué)習(xí)相關(guān)課程,了解國內(nèi)外有關(guān)大數(shù)據(jù)和數(shù)據(jù)挖掘技術(shù)的發(fā)展,推薦有代表性且通俗易懂的文章和書籍,強化學(xué)生的基礎(chǔ)理論體系,為數(shù)據(jù)挖掘的學(xué)習(xí)提供必要的知識儲備。
理論源于實踐,實踐是檢驗理論的唯一標(biāo)準(zhǔn)。僅對大數(shù)據(jù)背景下的數(shù)據(jù)挖掘進行理論方面的抽象認(rèn)識,不能使學(xué)生清晰明確地認(rèn)識數(shù)據(jù)挖掘的實際意義。數(shù)據(jù)挖掘教學(xué)的根本目標(biāo)應(yīng)該是使學(xué)生將所學(xué)理論知識熟練運用到實際中。在教學(xué)過程中,對數(shù)據(jù)挖掘的概念、原理和算法的講解要結(jié)合具體實例,用數(shù)據(jù)挖掘思想去解釋生活中常見的有關(guān)現(xiàn)象和事物。開設(shè)上機操作課,讓學(xué)生演算案例中的具體實例,更好地將所學(xué)理論與實踐操作相結(jié)合,調(diào)動學(xué)生學(xué)習(xí)的積極性。鼓勵他們用理論知識解決實踐問題,讓學(xué)生分組合作,調(diào)查搜集與課程內(nèi)容相關(guān)的社會案例,用數(shù)據(jù)分析及處理思想并撰寫報告。
大數(shù)據(jù)背景下的數(shù)據(jù)挖掘面臨著更多的發(fā)展機遇和挑戰(zhàn),人類的生產(chǎn)生活已經(jīng)和數(shù)據(jù)挖掘產(chǎn)生了不可破解的聯(lián)系。因此,我們要更加深入地掌握數(shù)據(jù)挖掘的理論及實踐意義,使其更好地服務(wù)于人類社會。在教學(xué)中,教師要積極引導(dǎo)學(xué)生進行深入的學(xué)習(xí)探究,提升自己利用數(shù)據(jù)挖掘知識分析問題和解決問題的綜合能力。如,讓學(xué)生深入研究大數(shù)據(jù)環(huán)境下數(shù)據(jù)挖掘技術(shù)的成果,了解這些成果在生活領(lǐng)域及企業(yè)或政府部門的實踐應(yīng)用;鼓勵有出國深造或科研意向的學(xué)生精細(xì)研究數(shù)據(jù)挖掘,分析經(jīng)典文獻的思維方式,指導(dǎo)他們自主進行學(xué)術(shù)創(chuàng)作。
綜上所述,在大數(shù)據(jù)滲透人類社會發(fā)展的各個領(lǐng)域的背景下,數(shù)據(jù)挖掘逐漸成為各高校及職業(yè)院校的重要課程。大數(shù)據(jù)和數(shù)據(jù)挖掘的特點決定了教學(xué)任務(wù)具有一定的困難。教師要在提高自身知識水平和職業(yè)素養(yǎng)的同時,創(chuàng)新教學(xué)思維和教學(xué)方式,激發(fā)學(xué)生的學(xué)習(xí)興趣,使學(xué)生能夠熟練掌握理論知識并將其應(yīng)用于實踐,為今后數(shù)據(jù)挖掘的發(fā)展培養(yǎng)更多的研究型人才。
[1] 張艷.大數(shù)據(jù)背景下的數(shù)據(jù)挖掘課程教學(xué)新思考[J].計算機時代,2014,04:59-61.
[2] 馬守東,龔永峰.關(guān)于數(shù)據(jù)挖掘課程教學(xué)探索[J].電腦編程技巧與維護,2013,24:136-137.
[3] 李海林.大數(shù)據(jù)環(huán)境下的數(shù)據(jù)挖掘課程教學(xué)探索[J].計算機時代,2014,02:54-55.
[4] 王華秋.任務(wù)驅(qū)動的數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課程案例教學(xué)[J].黑龍江教育(高教研究與評估),2011,06:52-53.