趙烏吉斯古楞
摘要:數(shù)據(jù)挖掘技術(shù)經(jīng)過長(zhǎng)時(shí)間的發(fā)展,豐富了許多學(xué)科的研究成果,并已經(jīng)發(fā)展成為一個(gè)獨(dú)立的研究分支。數(shù)據(jù)挖掘在數(shù)據(jù)流、互聯(lián)網(wǎng)信息、生物信息等領(lǐng)域的研究已經(jīng)成為人們的關(guān)注的熱點(diǎn)。隨著科學(xué)技術(shù)的發(fā)展,數(shù)據(jù)挖掘技術(shù)在機(jī)械學(xué)習(xí)、統(tǒng)計(jì)概率學(xué)習(xí)等學(xué)科方面取得可喜的成就,而且搜索出來(lái)了許多具有代表性的理論體系。
關(guān)鍵詞:數(shù)據(jù)挖掘;熱點(diǎn);趨勢(shì)
中圖分類號(hào):TP3 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2019)08-0207-03
1 數(shù)據(jù)挖掘的研究熱點(diǎn)
目前,數(shù)據(jù)挖掘在數(shù)據(jù)流、互聯(lián)網(wǎng)信息、生物信息等領(lǐng)域的研究已經(jīng)成為人們的關(guān)注的焦點(diǎn)。
1.1 數(shù)據(jù)流挖掘(streaming data mining )
不同領(lǐng)域的數(shù)據(jù)流與傳統(tǒng)的數(shù)據(jù)庫(kù)中靜態(tài)數(shù)據(jù)構(gòu)成了一種新的數(shù)據(jù)形態(tài)。有數(shù)據(jù)流就有數(shù)據(jù)量,應(yīng)用范圍內(nèi)這些數(shù)據(jù)量的增進(jìn)速度是非??斓?,通過廣泛的使用大型小型無(wú)線傳感設(shè)備,提高了數(shù)據(jù)流體積的增進(jìn)速率。而產(chǎn)生數(shù)據(jù)流的應(yīng)用要求及時(shí)在線處理這些數(shù)據(jù)量。倘若可以及時(shí)處理這些數(shù)據(jù)流,并從中挖掘有價(jià)值的信息,會(huì)對(duì)應(yīng)用領(lǐng)域起到巨大推動(dòng)作用[1]。
自20世紀(jì)開始,人們已經(jīng)把研究方向轉(zhuǎn)移到了數(shù)據(jù)流,研究者每年都會(huì)在著名的數(shù)據(jù)庫(kù)會(huì)議上發(fā)表許多關(guān)于數(shù)據(jù)流的文章。
目前,關(guān)于數(shù)據(jù)流的研究主要集中在系統(tǒng)數(shù)據(jù)流管理和挖掘流數(shù)據(jù)兩個(gè)領(lǐng)域。
為了滿足數(shù)據(jù)流的這些特點(diǎn),數(shù)據(jù)挖掘算法需要研究出新的方法解決存儲(chǔ)空間小、運(yùn)行時(shí)間長(zhǎng)的問題,傳統(tǒng)的數(shù)據(jù)挖掘算法很難解決這種問題。數(shù)據(jù)流對(duì)挖掘算法的有幾個(gè)要求:?jiǎn)未尉€性掃描;低時(shí)間復(fù)雜度;低空間復(fù)雜度;能在理論上有良好的近似度計(jì)算結(jié)果;能適應(yīng)動(dòng)態(tài)變化的數(shù)據(jù)與流速;能達(dá)到實(shí)時(shí)回復(fù)用戶在任意時(shí)間段提出的挖掘請(qǐng)求;組建的概要數(shù)據(jù)結(jié)構(gòu)有通用性[1]。
1.2 文本挖掘(Text Mining)
數(shù)據(jù)挖掘在最近幾年出現(xiàn)了新的研究熱點(diǎn),即文本挖掘。文本挖掘主要指的是在數(shù)據(jù)挖掘中發(fā)現(xiàn)文字與語(yǔ)法、語(yǔ)句之間的聯(lián)系,以及文字的表現(xiàn)規(guī)律。文本1挖掘主要用于處理自然語(yǔ)言、文本聚類、信息獲取、文本分類、如機(jī)器翻譯等方面。國(guó)外在20世紀(jì)50年代末已經(jīng)開始著手研究數(shù)據(jù)的文本挖掘,經(jīng)過幾十年的發(fā)展,文本挖掘已經(jīng)轉(zhuǎn)化為實(shí)用階段,經(jīng)常使用的文本器材主要包括IBM的文本智能挖掘機(jī)、Autonomy公司的Concept Agents,Teletech公司的Teletech等。但是在今年,國(guó)內(nèi)才著手研究針對(duì)中文的文本挖掘,國(guó)內(nèi)研究的最大問題是如何適應(yīng)漢語(yǔ)重“意合”的特點(diǎn)與如何截取文本的完整“語(yǔ)義”[1]。
1.3 Web挖掘(Web Mining)
隨著互聯(lián)網(wǎng)的廣泛使用,Web這一巨大的數(shù)據(jù)中隱含著極其豐富的有價(jià)值信息。Web挖掘是一種從大量的Web信息資本中挖掘那些未知隱藏起來(lái)的有價(jià)值的信息的挖掘技術(shù)。Web挖掘已經(jīng)逐漸壯大,并得到了大家的關(guān)注,并且在搜索引擎、網(wǎng)站設(shè)計(jì)和電子商務(wù)等領(lǐng)域內(nèi)得到了普遍應(yīng)用。Web挖掘是借助數(shù)據(jù)挖掘技術(shù),挖掘網(wǎng)站中的有用信息,Web挖掘涉及網(wǎng)頁(yè)瀏覽記載、網(wǎng)站內(nèi)容和鏈接結(jié)構(gòu)等[1]。
1.4 生物信息數(shù)據(jù)挖掘(Bioinformatics Data Mining)
人類基因組計(jì)劃的啟動(dòng)和實(shí)施使得核酸、蛋白質(zhì)數(shù)據(jù)迅速增長(zhǎng),這些大量的數(shù)據(jù)需要被合理存儲(chǔ)、組織和索引,信息科學(xué)被引入到這一領(lǐng)域從而構(gòu)成了“生物信息學(xué)”。
生物信息學(xué)主要涉及生命科學(xué)與數(shù)學(xué)、計(jì)算機(jī)科學(xué)和信息科學(xué)等學(xué)科,并將這些學(xué)科進(jìn)行融合最終形成生物信息學(xué)科。在各類生物信息的獲取、存儲(chǔ)、處理和分析在生物信息數(shù)據(jù)挖掘中應(yīng)用到了數(shù)據(jù)采集技術(shù)計(jì)、計(jì)算機(jī)軟硬件和數(shù)學(xué)分析模型等技術(shù),目的在于能夠發(fā)現(xiàn)與掌握復(fù)雜生命現(xiàn)象的組成模式與演化規(guī)律。生物信息數(shù)據(jù)挖掘同樣是借助數(shù)據(jù)挖掘技術(shù)與方法對(duì)分子生物進(jìn)行挖掘,并挖掘出有用有價(jià)值的知識(shí),從而說數(shù)據(jù)挖掘在生物信息中起著重要的作用,并且在生物信息范圍內(nèi)引起了人們的重視。數(shù)據(jù)挖掘技術(shù)挖掘的是數(shù)據(jù)的本質(zhì),然而人們對(duì)生物學(xué)數(shù)據(jù)自身的特性,對(duì)于基因芯片數(shù)據(jù)質(zhì)量和基因表達(dá)的正常顛簸規(guī)律等還沒有足夠的了解。所以生物學(xué)對(duì)于數(shù)據(jù)挖掘的應(yīng)用、評(píng)估、深化存在著困難。
目前,數(shù)據(jù)挖掘?qū)ι镄畔⒎治龅膽?yīng)用有以下幾點(diǎn):開發(fā)生物信息數(shù)據(jù)挖掘工具;序列的相似性查找和比較;聚類分析;生物文獻(xiàn)挖掘;開發(fā)可視化工具。
2 數(shù)據(jù)挖掘的發(fā)展趨勢(shì)
數(shù)據(jù)挖掘技術(shù)經(jīng)過長(zhǎng)時(shí)間的發(fā)展,豐富了許多學(xué)科的研究成果,并已經(jīng)發(fā)展成為一個(gè)獨(dú)立的研究分支。但是數(shù)據(jù)挖掘技術(shù)還存在一定的問題,例如數(shù)據(jù)挖掘技術(shù)的理論發(fā)展不完善,沒有形成完善的理論體系,在研究與應(yīng)用方面還面臨著重大的挑戰(zhàn)。一項(xiàng)技術(shù)的發(fā)展都要經(jīng)過概念的提出、受眾的接受、研究、搜索、應(yīng)用、普及等幾個(gè)階段數(shù)據(jù)挖掘技術(shù)也不例外。從目前階段來(lái)看,雖然數(shù)據(jù)挖掘的概念已經(jīng)被人們接受,但是在理論上被人們提出了質(zhì)疑,所以數(shù)據(jù)挖掘技術(shù)仍處于研究與搜索階段。數(shù)據(jù)挖掘技術(shù)的普遍應(yīng)用還需要一段時(shí)間,需要實(shí)踐的積累。伴隨著數(shù)據(jù)挖掘技術(shù)在學(xué)術(shù)界與產(chǎn)業(yè)界作用的擴(kuò)大,數(shù)據(jù)挖掘研究已經(jīng)進(jìn)入了適用技術(shù)發(fā)展的方向。目前,大學(xué)、研究機(jī)構(gòu)的基礎(chǔ)性研究大多數(shù)集中在數(shù)據(jù)挖掘理論、數(shù)據(jù)算法等探討上,而企業(yè)中的研究人員則更注重將其與實(shí)際商業(yè)問題相結(jié)合。根據(jù)現(xiàn)階段的研究和應(yīng)用來(lái)看,數(shù)據(jù)挖掘的發(fā)展趨勢(shì)如下[1] [2][3]。
2.1 數(shù)據(jù)挖掘技術(shù)的評(píng)估發(fā)現(xiàn)的模式
當(dāng)前,數(shù)據(jù)挖掘技術(shù)和知識(shí)發(fā)現(xiàn)技術(shù)研究及應(yīng)用有兩個(gè)主要方向。第一個(gè)方向是應(yīng)用行業(yè)知識(shí)來(lái)約束并引導(dǎo)行業(yè)和企業(yè)知識(shí)的發(fā)現(xiàn);第二個(gè)方向是在數(shù)據(jù)挖掘過程嵌入商業(yè)邏輯。在引導(dǎo)發(fā)現(xiàn)過程中能夠借助背景知識(shí)與范圍信息,同時(shí)能夠借助挖掘模式在不同的抽象層進(jìn)行暗示,數(shù)據(jù)挖掘規(guī)模知識(shí)具有完整性約束與演繹性規(guī)則等功能,這些功能既支持聚焦和快速數(shù)據(jù)挖掘過程也支持評(píng)估發(fā)現(xiàn)的模式的愛好度。
2.2 數(shù)據(jù)挖掘技術(shù)與數(shù)據(jù)存儲(chǔ)類型
數(shù)據(jù)挖掘中的實(shí)現(xiàn)機(jī)制、目標(biāo)定位以及技術(shù)的有用性等方面會(huì)受到數(shù)據(jù)存儲(chǔ)方法的影響。目前,還沒有研究出一種適合所有存儲(chǔ)方法的公用應(yīng)用模式,而且這種公用模式是不現(xiàn)實(shí)的。因此,利用存儲(chǔ)數(shù)據(jù)類型的特定,研究相對(duì)性,是解決存儲(chǔ)方法的關(guān)鍵。
2.3 大型數(shù)據(jù)的選擇與預(yù)處理問題
數(shù)據(jù)挖掘技術(shù)是大規(guī)模的技術(shù)了。但是在數(shù)據(jù)存儲(chǔ)狀態(tài)中還存在著諸如噪音、數(shù)據(jù)散步、稀疏等系列問題。數(shù)據(jù)挖掘技術(shù)是有目的性的,海量的數(shù)據(jù)必須有選擇性地操作,應(yīng)做好挖掘的前期工作。隨著大量數(shù)據(jù)的出現(xiàn),怎樣快速、有效地對(duì)數(shù)據(jù)做預(yù)處理,使之適合特定的應(yīng)用,需要更深入的研究。
2.4 數(shù)據(jù)挖掘的系統(tǒng)的構(gòu)架與交互式挖掘技術(shù)
歷經(jīng)多年的探索與發(fā)展,數(shù)據(jù)挖掘系統(tǒng)已經(jīng)有一個(gè)明確的框架與發(fā)展過程。但是由于受應(yīng)用范圍、挖掘數(shù)據(jù)類型、知識(shí)表明模式等因素的影響,數(shù)據(jù)挖掘技術(shù)的實(shí)現(xiàn)機(jī)制、技術(shù)道路、階段或證件的功能定位還需要進(jìn)一步的研究。由于數(shù)據(jù)挖掘挖掘的是那些隱藏的、預(yù)先不知道的價(jià)值信息,因此利用與用戶的交互式方法進(jìn)行搜索性的挖掘是非常有必要的。這種交互可能發(fā)生在數(shù)據(jù)挖掘的各階段,從不同的角度或不同粒度進(jìn)行交互。良好的交互式挖掘也是數(shù)據(jù)挖掘系統(tǒng)成功的前提。
2.5 數(shù)據(jù)挖掘語(yǔ)言與系統(tǒng)的可視化問題
結(jié)構(gòu)化查詢語(yǔ)言出現(xiàn)的比較晚,超出OLTP應(yīng)用的難度,因此進(jìn)行數(shù)據(jù)挖掘操作語(yǔ)言的開拓是一件高難度挑戰(zhàn)性的工作??梢暬切畔⑻幚硐到y(tǒng)中的技術(shù),并且對(duì)數(shù)據(jù)挖掘系統(tǒng)有著十分重要的作用??梢暬诰虿粌H需要與交互式技術(shù)相聯(lián)合,而且需要在挖掘成果或知識(shí)模式的可視化、挖掘過程的可視化以及可視化引導(dǎo)用戶挖掘等方面進(jìn)行深入研究。數(shù)據(jù)的可視化降低了人們發(fā)現(xiàn)知識(shí)的神秘感,推動(dòng)了人們主動(dòng)進(jìn)行知識(shí)發(fā)覺的作用。
2.6 數(shù)據(jù)挖掘理論與算法研究
隨著科學(xué)技術(shù)的發(fā)展,數(shù)據(jù)挖掘技術(shù)在機(jī)器學(xué)習(xí)、統(tǒng)計(jì)概率學(xué)習(xí)等學(xué)科方面取得可喜的成就,也搜索出來(lái)了許多具有代表性的理論體系。但是這不代表對(duì)數(shù)據(jù)挖掘理論的探索停止了,完全相反,還有很多理論 課題需要研究者進(jìn)行深入研究。有了理論框架的指導(dǎo),研究者還需要進(jìn)一步搜索與創(chuàng)新面向現(xiàn)實(shí)的應(yīng)用目標(biāo)。挖掘技術(shù)不僅自身得到了不斷發(fā)展,而且融合了其他領(lǐng)域的相關(guān)技術(shù),這樣的發(fā)展促進(jìn)了應(yīng)用行業(yè)的發(fā)展。新的挖掘算法就在這些新的理論知識(shí)的引導(dǎo)下出現(xiàn)了,而且新的挖掘算法拓展了挖掘技術(shù)的有用性,提高了數(shù)據(jù)挖掘的精度與效率,還很有可能會(huì)被應(yīng)用在特定的領(lǐng)域,例如管理客戶關(guān)系、電子商務(wù)等。所以說,數(shù)據(jù)挖掘理論的發(fā)展與算法的探究還有很長(zhǎng)的一段路需要走,重點(diǎn)是對(duì)有針對(duì)性的定量轉(zhuǎn)換、不確定性推理等問題還沒有得到有效的解決,還需要研發(fā)一些具有針對(duì)性的數(shù)據(jù)算法。
2.7 與數(shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)集成
數(shù)據(jù)挖掘會(huì)與數(shù)據(jù)庫(kù)發(fā)生集成或耦合,有時(shí)候也會(huì)與數(shù)據(jù)倉(cāng)庫(kù)發(fā)生這樣的集成或耦合,它們之間的集成或是耦合是設(shè)計(jì)數(shù)據(jù)挖掘的重點(diǎn)問題之一。在系統(tǒng)結(jié)構(gòu)完整性的情況下,數(shù)據(jù)挖掘系統(tǒng)才能充分地應(yīng)用軟件環(huán)境,出色地完成數(shù)據(jù)挖掘任務(wù),并且完成與其他系統(tǒng)的協(xié)同、信息的交互,符合用戶的需求,并不斷地進(jìn)化。
2.8 與語(yǔ)言模型系統(tǒng)集成
當(dāng)前,通過關(guān)系查詢語(yǔ)言用戶可以查到特定的數(shù)據(jù),但是數(shù)據(jù)挖掘的功能實(shí)現(xiàn)還有一定的困難。高級(jí)數(shù)據(jù)挖掘的查詢語(yǔ)言指的是讓用戶經(jīng)過說明分析任務(wù)的相聯(lián)的數(shù)據(jù)集、知識(shí)的限度和挖取的是什么類型的知識(shí)、被發(fā)現(xiàn)的模式能夠滿足的前提和約束,說明特定的數(shù)據(jù)挖掘任務(wù)。這種高級(jí)語(yǔ)言需要與數(shù)據(jù)庫(kù)或是數(shù)據(jù)倉(cāng)庫(kù)的查詢語(yǔ)言集成,并且對(duì)有用的、靈動(dòng)的數(shù)據(jù)挖掘方面有優(yōu)勢(shì)。
2.9 挖掘各種復(fù)雜類型的數(shù)據(jù)
每個(gè)用戶對(duì)差別類型的知識(shí)有不同的喜好,數(shù)據(jù)挖掘涵蓋的數(shù)據(jù)分解和知識(shí)發(fā)覺任務(wù)應(yīng)該非常廣泛,涵蓋特征化數(shù)據(jù)、化分、關(guān)聯(lián)與相關(guān)分析、分類、預(yù)測(cè)、聚類、相差分析和演繹分析。雖然,這些任務(wù)可能使用的方法不同,但是使用的數(shù)據(jù)庫(kù)是一樣的。
2.10 支持移動(dòng)環(huán)境
移動(dòng)互聯(lián)網(wǎng)引起了信息工業(yè)網(wǎng)巨大變化,日后主流計(jì)算環(huán)境會(huì)發(fā)展成移動(dòng)式計(jì)算。移動(dòng)計(jì)算屬于一種分布式系統(tǒng)計(jì)算環(huán)境,通過移動(dòng)終端來(lái)實(shí)現(xiàn)。數(shù)據(jù)挖掘技術(shù)可以把大量的數(shù)據(jù)資本轉(zhuǎn)化成有價(jià)值的信息資本,是輔助人們做出決策的一種有用器材,大量的移動(dòng)用戶對(duì)數(shù)據(jù)挖掘服務(wù)的要求更加有深層次。基于移動(dòng)互聯(lián)網(wǎng)計(jì)算的數(shù)據(jù)挖掘成長(zhǎng)成了時(shí)下的熱門話題,通過移動(dòng)互聯(lián)網(wǎng)計(jì)算的數(shù)據(jù)挖掘可以快速地處理異常數(shù)據(jù)庫(kù)和環(huán)球信息系統(tǒng)信息的問題。
3 數(shù)據(jù)挖掘要解決的問題
新數(shù)據(jù)集的到來(lái)給傳統(tǒng)的數(shù)據(jù)分析技術(shù)帶來(lái)了新的題目。這些題目引發(fā)了人們對(duì)數(shù)據(jù)挖掘開展研究【4】。
1)可伸縮
數(shù)據(jù)出產(chǎn)與網(wǎng)絡(luò)技術(shù)的不斷進(jìn)步,大大提高了數(shù)吉字節(jié)、數(shù)太字節(jié)甚至數(shù)拍字節(jié)的數(shù)據(jù)集的普及程度。數(shù)據(jù)挖掘算法在處理這些巨大的數(shù)據(jù)集時(shí),一定具有可伸縮性。指數(shù)級(jí)的探索問題會(huì)用到一些特別的數(shù)據(jù)挖掘。新的數(shù)據(jù)機(jī)構(gòu)可以幫助數(shù)據(jù)挖掘算法實(shí)現(xiàn)可伸縮性,從而才可以有用的方法實(shí)現(xiàn)訪問的每個(gè)記載。例如,需要處理的數(shù)據(jù)非常龐大,但是內(nèi)存不夠大,這時(shí)候就需要虛擬算法。數(shù)據(jù)挖掘算法的伸縮性水平還可以通過抽取樣本技術(shù)、執(zhí)行和分布算法來(lái)改善。
2)高維性
移動(dòng)互聯(lián)網(wǎng)時(shí)期遇到的數(shù)據(jù)集十分有難度,不是通常所指的數(shù)據(jù)集。在生物信息學(xué)范圍,寡核甘酸陣列技術(shù)有了很大的進(jìn)步,并且形成了牽涉數(shù)千特性的基因表達(dá)數(shù)據(jù)。數(shù)據(jù)集在時(shí)間與空間分量上有很高的維度。例如:一個(gè)包含不同地區(qū)的溫度檢測(cè)數(shù)據(jù)集,如果在某個(gè)特定的周期內(nèi)進(jìn)行重復(fù)檢測(cè),那么維度的增長(zhǎng)與檢測(cè)次數(shù)成正比。低維度研發(fā)的普通數(shù)據(jù)分析技術(shù)處理不了高維數(shù)據(jù)。此外,一部分?jǐn)?shù)據(jù)分析算法跟著維度的增添,計(jì)算復(fù)雜性增長(zhǎng)速度非???。
3)異種數(shù)據(jù)和復(fù)雜數(shù)據(jù)
一般的數(shù)據(jù)分析方法處理的數(shù)據(jù)集都是屬性相同、連續(xù)、分類的。數(shù)據(jù)挖掘技術(shù)在不同領(lǐng)域應(yīng)用范圍逐漸擴(kuò)大,迫切需要之中可以處理異種屬性的挖掘技術(shù)。和以往相比,數(shù)據(jù)對(duì)象難度越發(fā)大。
4)數(shù)據(jù)的所有權(quán)與分布
有時(shí),分析存放在不同站點(diǎn)的數(shù)據(jù),或歸屬一個(gè)機(jī)構(gòu),或多個(gè)機(jī)構(gòu)的資源。這時(shí)需要分布式數(shù)據(jù)處理技術(shù)。分布式處理技術(shù)可以處理降低執(zhí)行分布計(jì)算所需要的通信量、統(tǒng)一從多個(gè)資源得到的數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)安全性這些問題。
5)非傳統(tǒng)的分析
傳統(tǒng)的統(tǒng)計(jì)方式用于一種假設(shè)檢驗(yàn)?zāi)J?,即給出一種假設(shè),通過做實(shí)驗(yàn)捕捉到相關(guān)數(shù)據(jù),在針對(duì)假設(shè)對(duì)數(shù)據(jù)舉行分析,這一過程十分費(fèi)心。目前,數(shù)據(jù)分析面臨著十分重大的任務(wù),自動(dòng)產(chǎn)生和評(píng)估的假設(shè)能夠達(dá)到上千種才可以,因此激勵(lì)著人們不中斷的開拓新的數(shù)據(jù)挖掘技術(shù),通常數(shù)據(jù)挖掘分析的數(shù)據(jù)集的實(shí)驗(yàn)成效無(wú)須費(fèi)心設(shè)計(jì),而且這些數(shù)據(jù)集會(huì)涉及非傳統(tǒng)的數(shù)據(jù)類型和數(shù)據(jù)分布。
參考文獻(xiàn):
[1] 蔣盛益,李霞,鄭琪編著.數(shù)據(jù)挖掘原理與實(shí)踐[M].北京:電子工業(yè)出版社,2013:19,59-73.
[2] 任冷.數(shù)據(jù)挖掘應(yīng)用研究前沿和發(fā)展趨勢(shì)[J].科技與創(chuàng)新,2016(16).
[3] 任新社,陳靜遠(yuǎn).關(guān)于數(shù)據(jù)挖掘研究現(xiàn)狀及發(fā)展趨勢(shì)的探究[J].信息通信,2016(2).
[4] (美)陳封能,(美)斯坦巴赫,(美)庫(kù)馬爾.范明等譯.數(shù)據(jù)挖掘?qū)д摚和暾鎇M],北京:人民郵電出版社,2011.
【通聯(lián)編輯:張薇】