周九常,劉智明
(鄭州航空工業(yè)管理學(xué)院,河南 鄭州 450046)
20世紀(jì)90年代,計(jì)算機(jī)技術(shù)和計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)開(kāi)始迅速發(fā)展,數(shù)據(jù)及信息的外延也進(jìn)一步擴(kuò)大,由傳統(tǒng)的紙質(zhì)文獻(xiàn)、文檔數(shù)據(jù)擴(kuò)增為視頻、音頻、圖形、圖像、電子檔案等多種類(lèi)型,不僅使信息的表現(xiàn)形式更加多樣化,還使信息的產(chǎn)生速度發(fā)生了質(zhì)的飛躍。以互聯(lián)網(wǎng)為例,2013年全球互聯(lián)網(wǎng)每天的流量達(dá)到1EB(約等于10億GB),并且仍然在以40%的速度增長(zhǎng),科學(xué)家預(yù)計(jì)2020年全球的信息量將超過(guò)40ZB[1]?;ヂ?lián)網(wǎng)技術(shù)的出現(xiàn)使人們的信息交互和合作變得更加容易,并使信息量呈指數(shù)式增長(zhǎng)[2]。
海量的數(shù)據(jù)信息為人們提供便利的同時(shí),也帶來(lái)了一定的負(fù)面影響,如信息過(guò)載、信息距離、“信息孤島”等,過(guò)多無(wú)用的信息導(dǎo)致有效的信息難以被發(fā)現(xiàn)、被提煉,這就是約翰·內(nèi)斯波特稱(chēng)之為“信息豐富而知識(shí)匱乏”的困境。因此,只有對(duì)海量的數(shù)據(jù)進(jìn)行分析,并提煉隱藏在其中的有效信息及知識(shí)資源,才能對(duì)其進(jìn)行有效利用。但是,僅依靠傳統(tǒng)的手工檢索分析方法或自動(dòng)化的數(shù)據(jù)庫(kù)分析,難以達(dá)到讓人滿意的效果。由于分析對(duì)象數(shù)量巨大,傳統(tǒng)的手工檢索需要消耗大量的人力、物力才能達(dá)到既定目標(biāo),且由于信息具有時(shí)效性,因此往往導(dǎo)致部分分析結(jié)果是無(wú)用的;數(shù)據(jù)庫(kù)分析雖然能夠規(guī)避信息的時(shí)效性風(fēng)險(xiǎn),但其難以對(duì)信息數(shù)據(jù)之間的關(guān)系內(nèi)容或關(guān)聯(lián)規(guī)則進(jìn)行有效整理,無(wú)法根據(jù)現(xiàn)有的數(shù)據(jù)信息對(duì)未來(lái)的發(fā)展趨勢(shì)進(jìn)行分析,更難以得到深層次的知識(shí)。因此,當(dāng)人們迫切需要一個(gè)新的工具改變這一局面時(shí),數(shù)據(jù)挖掘技術(shù)便應(yīng)運(yùn)而生。
數(shù)據(jù)挖掘,又稱(chēng)數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn),Usama M.Fayyad等給出的定義是:從大量的數(shù)據(jù)中取得有效、新穎、潛在有用、最終可理解的知識(shí)的收集過(guò)程。數(shù)據(jù)挖掘在國(guó)際會(huì)議上被公認(rèn)為“是對(duì)數(shù)據(jù)庫(kù)中蘊(yùn)含的未知、有潛在用途及非平凡知識(shí)的提取”。我國(guó)學(xué)者也對(duì)數(shù)據(jù)挖掘進(jìn)行了研究總結(jié),楊良斌認(rèn)為“數(shù)據(jù)挖掘是從數(shù)據(jù)中汲取包含過(guò)往不被知道的有利用價(jià)值的潛在信息”;化柏林認(rèn)為“數(shù)據(jù)挖掘是從大量、不完全、有噪聲、模糊及隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中,但有一定用途的潛在信息和知識(shí)的過(guò)程”;汪明認(rèn)為“數(shù)據(jù)挖掘是在大型數(shù)據(jù)存儲(chǔ)中,自動(dòng)發(fā)現(xiàn)有用信息的過(guò)程”[3-6]??偠灾瑪?shù)據(jù)挖掘是一個(gè)過(guò)程,它包含了對(duì)海量數(shù)據(jù)的收集、清洗,以及通過(guò)關(guān)聯(lián)規(guī)則或分類(lèi)法對(duì)數(shù)據(jù)進(jìn)行處理、對(duì)結(jié)果進(jìn)行可視化呈現(xiàn),使海量數(shù)據(jù)的內(nèi)在聯(lián)系能夠清晰地被人們所認(rèn)識(shí)。
筆者本次調(diào)查分析的文獻(xiàn)均來(lái)源于CNKI數(shù)據(jù)庫(kù),檢索時(shí)間為2017年5月29日,以2006—2016年為檢索時(shí)間,時(shí)間跨度為10年,以“數(shù)據(jù)挖掘”為主題詞進(jìn)行檢索,得到包括主題詞、關(guān)鍵詞、標(biāo)題、參考文獻(xiàn)等總計(jì)34,155條文獻(xiàn)記錄,統(tǒng)計(jì)后得到2006—2016年間數(shù)據(jù)挖掘領(lǐng)域每年的文獻(xiàn)發(fā)表分布圖(見(jiàn)圖1)。圖1顯示,在2006—2016年,每年數(shù)據(jù)挖掘文獻(xiàn)的發(fā)表數(shù)量都在2,000篇以上,由此可見(jiàn),數(shù)據(jù)挖掘及數(shù)據(jù)挖掘相關(guān)領(lǐng)域都有較高的關(guān)注熱度。從2012年起,數(shù)據(jù)挖掘相關(guān)文獻(xiàn)的發(fā)表數(shù)量一直呈逐年上升趨勢(shì),并且在2016年首次超過(guò)了4,000篇,預(yù)計(jì)未來(lái)幾年內(nèi),數(shù)據(jù)挖掘仍然會(huì)是各領(lǐng)域關(guān)注及應(yīng)用的熱點(diǎn)內(nèi)容。
圖1 2006—2016年數(shù)據(jù)挖掘論文發(fā)表數(shù)量情況圖
圖2 2006—2016年數(shù)據(jù)挖掘關(guān)鍵詞共現(xiàn)圖
表1 2006—2016年數(shù)據(jù)挖掘相關(guān)文獻(xiàn)關(guān)鍵詞頻次表
關(guān)鍵詞頻次關(guān)鍵詞頻次關(guān)鍵詞頻次關(guān)鍵詞頻次關(guān)聯(lián)規(guī)則3,108粗糙集625頻繁項(xiàng)集392支持向量機(jī)303數(shù)據(jù)倉(cāng)庫(kù)1,523應(yīng)用526云計(jì)算390算法297決策樹(shù)1,218入侵檢測(cè)517客戶關(guān)系管理365聚類(lèi)算法296聚類(lèi)894電子商務(wù)509遺傳算法343Web數(shù)據(jù)挖掘270大數(shù)據(jù)792分類(lèi)487神經(jīng)網(wǎng)絡(luò)341圖書(shū)館251Apriori算法773數(shù)據(jù)庫(kù)451知識(shí)發(fā)現(xiàn)331決策支持237聚類(lèi)分析705數(shù)據(jù)挖掘技術(shù)425決策支持系統(tǒng)304聯(lián)機(jī)分析229
2.2.2 作者分布圖譜。筆者通過(guò)CNKI可視化分析工具對(duì)數(shù)據(jù)挖掘文獻(xiàn)的作者分布進(jìn)行統(tǒng)計(jì)后發(fā)現(xiàn)(由于篇幅所限僅截取排名前11位作者的文獻(xiàn)分布情況),胡學(xué)鋼與楊炳儒從2006年開(kāi)始發(fā)表數(shù)據(jù)挖掘的相關(guān)文獻(xiàn),此后幾年陸續(xù)發(fā)表了大量的文獻(xiàn),但自2011年起文獻(xiàn)發(fā)表數(shù)量逐年下降。唐常杰、楊洪軍、范欣生與上述兩位作者同期開(kāi)始發(fā)表數(shù)據(jù)挖掘文獻(xiàn),并延續(xù)至今,發(fā)文量雖然不高但他們?cè)陂L(zhǎng)期堅(jiān)持進(jìn)行數(shù)據(jù)挖掘研究。吳嘉瑞與任玉蘭較上述作者稍晚開(kāi)始發(fā)表數(shù)據(jù)挖掘文獻(xiàn),且前期研究成果較少,但他們與張冰、張曉朦在近期都有大量的研究成果發(fā)布。筆者調(diào)查后發(fā)現(xiàn),最近發(fā)文數(shù)量處于高峰期的張冰、吳嘉瑞和張曉朦都隸屬于北京中醫(yī)藥大學(xué),任玉蘭和唐仕歡隸屬于醫(yī)學(xué)界,說(shuō)明現(xiàn)階段醫(yī)學(xué)界十分重視對(duì)數(shù)據(jù)挖掘領(lǐng)域的研究(見(jiàn)圖3)。
圖3 2006—2016年數(shù)據(jù)挖掘文獻(xiàn)作者分布圖
2.2.3 機(jī)構(gòu)分布圖譜。不同機(jī)構(gòu)在同一學(xué)科中的貢獻(xiàn)是不同的,某些機(jī)構(gòu)在不同時(shí)段對(duì)同一學(xué)科領(lǐng)域的關(guān)注度也不同。筆者利用CNKI可視化分析工具對(duì)30所高校在不同時(shí)期數(shù)據(jù)挖掘領(lǐng)域的發(fā)文數(shù)量進(jìn)行了分析,由于篇幅所限僅以排名前13位的高校為例(見(jiàn)圖4)。其中,北京科技大學(xué)和合肥工業(yè)大學(xué)自2006年開(kāi)始大量發(fā)布數(shù)據(jù)挖掘的研究成果,但在高峰期過(guò)后整體呈下降趨勢(shì)且持續(xù)至今;北京中醫(yī)藥大學(xué)則處于相反的狀態(tài),該校在2006年的發(fā)文數(shù)量較少,但其后研究成果與發(fā)文數(shù)量整體呈上升趨勢(shì);武漢大學(xué)也是在2006年開(kāi)始發(fā)表數(shù)據(jù)挖掘文獻(xiàn)的,隨后幾年持續(xù)有大量文獻(xiàn)發(fā)表,特別是近年來(lái)該校文獻(xiàn)發(fā)表數(shù)量呈大幅上升的趨勢(shì);四川大學(xué)、吉林大學(xué)、同濟(jì)大學(xué)和中南大學(xué)在2006年有較多的文獻(xiàn)與研究成果發(fā)表,之后呈平穩(wěn)的發(fā)展態(tài)勢(shì);清華大學(xué)在2006年發(fā)表了大量的數(shù)據(jù)挖掘文獻(xiàn)成果后長(zhǎng)期呈下降趨勢(shì),但在2012年轉(zhuǎn)變?yōu)樯仙厔?shì)。圖4顯示,高校是發(fā)表數(shù)據(jù)挖掘領(lǐng)域文獻(xiàn)的主力軍,企業(yè)和科研院所發(fā)表的成果相對(duì)較少,這說(shuō)明數(shù)據(jù)挖掘領(lǐng)域的研究工作一般由高校承擔(dān)。機(jī)構(gòu)的分布在一定程度上表明了當(dāng)?shù)貙?duì)數(shù)據(jù)挖掘領(lǐng)域的重視程度,由圖4可知,我國(guó)南方沿海地區(qū)及中原北部地區(qū)對(duì)數(shù)據(jù)挖掘領(lǐng)域研究的重視程度較高,而西北及西南地區(qū)對(duì)數(shù)據(jù)挖掘領(lǐng)域研究的重視程度相對(duì)較低。綜合數(shù)據(jù)挖掘的文獻(xiàn)數(shù)量,武漢大學(xué)在該領(lǐng)域的研究處于領(lǐng)先地位,其在2006年就已經(jīng)發(fā)表了相當(dāng)數(shù)量的數(shù)據(jù)挖掘文獻(xiàn),并且近年來(lái)其在該領(lǐng)域的研究熱度仍然沒(méi)有降低,在未來(lái)幾年仍然會(huì)是該研究領(lǐng)域的主力軍;合肥工業(yè)大學(xué)的數(shù)據(jù)挖掘文獻(xiàn)發(fā)表數(shù)量雖然僅次于武漢大學(xué),但這些文獻(xiàn)大多發(fā)表在2011年以前,最近幾年該校降低了對(duì)數(shù)據(jù)挖掘領(lǐng)域的關(guān)注度;北京中醫(yī)藥大學(xué)在數(shù)據(jù)挖掘領(lǐng)域的研究起步較晚,發(fā)文數(shù)量也相對(duì)較少,但近年來(lái)其在數(shù)據(jù)挖掘領(lǐng)域的研究發(fā)展迅速。
圖4 2006—2016年數(shù)據(jù)挖掘領(lǐng)域文獻(xiàn)機(jī)構(gòu)分布圖
筆者對(duì)關(guān)鍵詞及關(guān)鍵詞共現(xiàn)圖譜、作者分布圖譜、機(jī)構(gòu)分布圖譜進(jìn)行分析,從研究主題上看,數(shù)據(jù)挖掘的研究一直處于發(fā)展中,并且不滿足于僅對(duì)數(shù)據(jù)挖掘方法理論的研究,而是逐步將技術(shù)應(yīng)用納入研究主題,不斷將研究范圍延伸到其他領(lǐng)域,如近年來(lái)對(duì)數(shù)據(jù)挖掘進(jìn)行應(yīng)用的醫(yī)學(xué)領(lǐng)域;從作者分布看,新興領(lǐng)域作者發(fā)文數(shù)量逐漸增多,理論研究領(lǐng)域發(fā)文數(shù)量相對(duì)減少;從機(jī)構(gòu)分布看,各機(jī)構(gòu)在其關(guān)注領(lǐng)域處于發(fā)展熱點(diǎn)時(shí)期時(shí),發(fā)文數(shù)量會(huì)明顯上升,并且會(huì)帶動(dòng)整個(gè)學(xué)科領(lǐng)域的發(fā)展和應(yīng)用。目前,雖然數(shù)據(jù)挖掘領(lǐng)域的文獻(xiàn)發(fā)表大多集中在一些名校,但是新興的應(yīng)用領(lǐng)域機(jī)構(gòu)的影響力及發(fā)展不應(yīng)被忽視,未來(lái)其在該領(lǐng)域也可能擁有話語(yǔ)權(quán)。
進(jìn)行數(shù)據(jù)挖掘理論技術(shù)研究可以使數(shù)據(jù)挖掘技術(shù)理論體系更加完善,能夠囊括隨時(shí)代技術(shù)發(fā)展而出現(xiàn)的其他類(lèi)別的技術(shù)理論領(lǐng)域,能夠?qū)Υ罅繑?shù)據(jù)資源進(jìn)行高效率及有效的分析,并得到正確的詞間關(guān)系或潛在知識(shí)。因此,數(shù)據(jù)挖掘理論體系的研究和發(fā)展是十分有必要的。
單獨(dú)存在的理論知識(shí)對(duì)用戶的意義不大,只有將理論轉(zhuǎn)化為應(yīng)用技術(shù)才能創(chuàng)造出新的價(jià)值。企業(yè)和用戶會(huì)出于利益和實(shí)用性等目的產(chǎn)生重點(diǎn)關(guān)注對(duì)象,如電子商務(wù)挖掘和客戶關(guān)系管理等數(shù)據(jù)挖掘應(yīng)用系統(tǒng)。因此,數(shù)據(jù)挖掘的應(yīng)用技術(shù)會(huì)在企業(yè)和用戶的明確需求下得到科學(xué)的發(fā)展。
大數(shù)據(jù)云計(jì)算是一種新的計(jì)算模式,是分布式處理、并行處理和網(wǎng)格計(jì)算、網(wǎng)絡(luò)存儲(chǔ)、虛擬化、負(fù)載均衡等傳統(tǒng)計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)技術(shù)發(fā)展融合在一起的產(chǎn)物[9]。大數(shù)據(jù)、云計(jì)算注重的是在對(duì)海量資源進(jìn)行快速、有效的分析后,得到蘊(yùn)含在資源內(nèi)部的隱藏知識(shí)和相關(guān)聯(lián)系,數(shù)據(jù)挖掘技術(shù)在該領(lǐng)域的發(fā)展過(guò)程中必須注意安全與隱私問(wèn)題[10]。在數(shù)據(jù)挖掘過(guò)程中會(huì)出現(xiàn)專(zhuān)利侵權(quán)和網(wǎng)絡(luò)泄密等問(wèn)題,而敏感信息的泄密會(huì)嚴(yán)重影響用戶體驗(yàn),如何在不觸及隱私及安全的前提下進(jìn)一步發(fā)展數(shù)據(jù)挖掘技術(shù)和工具,是學(xué)界未來(lái)需要研究的一個(gè)重要課題。
綜上所述,數(shù)據(jù)挖掘越來(lái)越受社會(huì)各界關(guān)注,成為一個(gè)熱門(mén)的研究課題,這說(shuō)明數(shù)據(jù)挖掘的理論、技術(shù)及應(yīng)用都具有重要的意義。目前,大數(shù)據(jù)挖掘已經(jīng)涉及越來(lái)越多的領(lǐng)域,如近年來(lái)在醫(yī)學(xué)領(lǐng)域的大幅應(yīng)用,在未來(lái)還會(huì)涉及更多的領(lǐng)域。但數(shù)據(jù)挖掘并不是全能的,它只是一個(gè)分析方法和工具,還需要專(zhuān)業(yè)人員根據(jù)具體情況,結(jié)合相關(guān)行業(yè)的大環(huán)境以及國(guó)家的政策法規(guī)等進(jìn)行綜合分析后,才能得到正確及專(zhuān)業(yè)的數(shù)據(jù)挖掘信息。