胡耀宇(北京科技大學(xué) 東凌經(jīng)濟(jì)管理學(xué)院,北京 100083)
面向思維主題發(fā)現(xiàn)的概念對(duì)分類研究
胡耀宇
(北京科技大學(xué)東凌經(jīng)濟(jì)管理學(xué)院,北京 100083)
數(shù)據(jù)挖掘又稱數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)(Knowledge Discover in Database,KDD),是目前人工智能和數(shù)據(jù)庫領(lǐng)域研究的熱點(diǎn)問題,所謂數(shù)據(jù)挖掘是指從數(shù)據(jù)庫的大量數(shù)據(jù)中揭示出隱含的,先前未知的并有潛在價(jià)值的信息的非平凡過程。當(dāng)前數(shù)據(jù)挖掘所面臨的困境之一在于任務(wù)的確定和挖掘?qū)ο笮畔⒌谋碚魅杂蓴?shù)據(jù)分析人員主觀完成。思維主題發(fā)現(xiàn)作為一種全新的數(shù)據(jù)挖掘問題提取方法能夠推動(dòng)數(shù)據(jù)挖掘技術(shù)應(yīng)用的進(jìn)一步發(fā)展。本文提出的概念對(duì)分類研究則有利于大大提高思維主題發(fā)現(xiàn)的效率。
數(shù)據(jù)挖掘;思維主題發(fā)現(xiàn);分類;概念對(duì)
當(dāng)今世界,信息革命越來越多地改變著我們生活方式的同時(shí)也讓我們置身于一個(gè)信息爆炸的時(shí)代。數(shù)據(jù)挖掘這一全新領(lǐng)域正是隨著信息的越來越增多而孕育而生,吸引了無數(shù)的研究者從事于這一領(lǐng)域的研究工作,眾多的數(shù)據(jù)挖掘領(lǐng)域?qū)<姨岢隽撕芏喾浅:玫臄?shù)據(jù)挖掘方法和算法。如今,數(shù)據(jù)挖掘的理論研究在各方面都已經(jīng)取得比較大的突破,但是數(shù)據(jù)挖掘走向應(yīng)用還面臨著一系列亟待解決的問題。其中如何快速地自動(dòng)地解決數(shù)據(jù)挖掘任務(wù)的確定和挖掘?qū)ο笮畔⒌谋碚鬟@一難題成為數(shù)據(jù)挖掘研究人員的比較關(guān)注的問題之一。思維主題發(fā)現(xiàn)技術(shù)對(duì)于數(shù)據(jù)挖掘應(yīng)用的問題提取起到非常好的效果,但是該算法的實(shí)驗(yàn)效率還有待進(jìn)一步提高。
1.1概念對(duì)的定義
定義概念對(duì)(Concept Pair,CP)
概念對(duì) CP=<ci,cj>表示概念<ci,cj>之間的高強(qiáng)度關(guān)聯(lián)關(guān)系。認(rèn)知主體從概念ci,通過想象和聯(lián)想直接關(guān)聯(lián)到概念cj,其中概念ci為概念對(duì) CP=<ci,cj>的前驅(qū)概念,概念cj為概念對(duì)CP=<ci,cj>的后續(xù)概念。
概念對(duì)CP=<ci,cj>存在偏序關(guān)系。在概念對(duì)CP=<ci,cj>中,概念ci為抽象程度高的高層概念,概念cj為抽象程度低的低層概念。概念對(duì)CP=<ci,cj>的偏序關(guān)系為從高層概念ci指向低層
定義概念集(Concept Set,CS)
概念集CS是指概念對(duì)集CPS中所有概念對(duì)所包含的概念的全集,CS={c|c∈CPandCP∈CPS}其中c表示概念,CPS表示概念對(duì)集。
思維主題發(fā)現(xiàn)技術(shù)在獲得滿意的概念對(duì)組成的概念集之后,會(huì)將數(shù)據(jù)挖掘任務(wù)所涉及的全部概念,按照從抽象到具體、從整體到部分的順序,自頂向下形成具有一定層次關(guān)系的概念序列集合,稱為思維序列。而在這過程中擔(dān)負(fù)中間橋梁作用的概念對(duì)的質(zhì)量好壞直接影響到所形成的思維序列的好壞以至于最后思維主題發(fā)現(xiàn)結(jié)果的好壞。因此在由概念對(duì)得到思維序列之前非常有必要對(duì)概念對(duì)本身以及由其所組成的概念對(duì)集利用數(shù)據(jù)挖掘的方法進(jìn)行處理得到令人滿意的、高質(zhì)量的概念對(duì)以及概念對(duì)集。
1.2概念對(duì)的特點(diǎn)
通過上節(jié)的描述,我們可以看到概念對(duì)是以成對(duì)形式存在的、抽象的、存在偏序關(guān)系的詞對(duì)。而且基于數(shù)據(jù)挖掘任務(wù)問題描述的概念對(duì)集會(huì)是一個(gè)數(shù)據(jù)容量不大的集合。因此我們總結(jié)概念對(duì)以及由概念對(duì)組成的概念對(duì)集的特點(diǎn)如下:
(1)概念對(duì)是由各種類型的詞組成的;
(2)概念對(duì)是由詞成對(duì)存在的;
(3)概念對(duì)的詞之間存在偏序關(guān)系;
(4)概念對(duì)所謂的概念是有抽象意味的;
(5)概念對(duì)集是一個(gè)數(shù)據(jù)容量不大的集合。
通過對(duì)概念對(duì)的特點(diǎn)進(jìn)行分析以及概念對(duì)形成思維序列和最終得到思維主題發(fā)現(xiàn)結(jié)果的要求選擇合適的數(shù)據(jù)挖掘分類方法對(duì)概念對(duì)進(jìn)行數(shù)據(jù)層面上的處理,使之進(jìn)行后續(xù)的思維主題發(fā)現(xiàn)過程能夠大幅度地提高算法效率。
分類(Classification)是數(shù)據(jù)挖掘中的一個(gè)重要的概念。數(shù)據(jù)分類一般分為兩個(gè)過程。第一是建立分類模型,描述預(yù)定的數(shù)據(jù)類集或者概念集。通過分析有屬性描述的數(shù)據(jù)庫元組來構(gòu)造模型。第二是使用分類對(duì)新的數(shù)據(jù)集進(jìn)行劃分,主要涉及分類規(guī)則的準(zhǔn)確性、過分適合、矛盾劃分的取舍等。
一般而言,自然語言處理即是讓計(jì)算機(jī)以字、詞、句、篇章為單元,對(duì)相關(guān)的輸入、輸出進(jìn)行識(shí)別、分析、理解與生成等進(jìn)行加工和操作的過程。
2.1分類的種類及特點(diǎn)
分類作為數(shù)據(jù)挖掘研究的一個(gè)重點(diǎn)領(lǐng)域,經(jīng)過無數(shù)研究人員的努力提出了很多算法,按大的方向分類主要有:決策樹、關(guān)聯(lián)規(guī)則、貝葉斯、神經(jīng)網(wǎng)絡(luò)、規(guī)則學(xué)習(xí)、k-臨近法、遺傳算法、粗糙集以及模糊邏輯技術(shù)等[5]。
2.1.1決策樹
決策樹學(xué)習(xí)在求解分類問題的方法中是應(yīng)用最廣的歸納推理算法之一。它是一種逼近離散函數(shù)值的方法,分類精度高,操作簡單,并且對(duì)噪聲數(shù)據(jù)有很好的健壯性,因而成為使用的并且比較流行的數(shù)據(jù)挖掘算法。它的最大優(yōu)點(diǎn)是在學(xué)習(xí)過程中不需要使用者了解很多背景知識(shí),只要訓(xùn)練樣本集能夠用“屬性—值”的方式表達(dá)出來就能使用決策樹學(xué)習(xí)算法分類。
2.1.2遺傳算法
遺傳算法是模擬生物進(jìn)化過程的全局優(yōu)化方法,將較劣的初始解通過一組遺傳算子(繁殖——已選擇、交叉——即重組、變異——即突變),在求解空間按一定的隨即規(guī)則迭代搜索,直到求得問題的最優(yōu)解。遺傳算法在數(shù)據(jù)挖掘領(lǐng)域的主要應(yīng)用有:①用它和BP算法結(jié)合訓(xùn)練神經(jīng)網(wǎng)絡(luò),然后從網(wǎng)絡(luò)提取規(guī)則;②分類系統(tǒng)的涉及,如編碼方式、信任分配函數(shù)的設(shè)計(jì)以及遺傳算法的改進(jìn)等。
2.1.3神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)是大量的簡單神經(jīng)元按一定規(guī)則連接構(gòu)成的網(wǎng)絡(luò)系統(tǒng)。它能夠模擬人類大腦的結(jié)構(gòu)和功能,采用某種學(xué)習(xí)算法從訓(xùn)練樣本中學(xué)習(xí),并將獲得的知識(shí)存儲(chǔ)在網(wǎng)絡(luò)各單元之間的連接權(quán)中。神經(jīng)網(wǎng)絡(luò)主要有前向神經(jīng)網(wǎng)絡(luò)、后向神經(jīng)網(wǎng)絡(luò)和自組織網(wǎng)絡(luò)。在數(shù)據(jù)挖掘領(lǐng)域,主要采用前向神經(jīng)網(wǎng)絡(luò)和自組織網(wǎng)絡(luò)。
2.1.4貝葉斯算法
貝葉斯分類是統(tǒng)計(jì)學(xué)的分類,基于貝葉斯公式即后驗(yàn)概率公式。樸素貝葉斯分類過程是首先令每個(gè)數(shù)據(jù)樣本用一個(gè)N維特征向量X={X1,X2,…,Xn}表示,其中Xk是屬性Ak的值。所有的樣本分為m類:C1,C2,…,Cn。對(duì)于一個(gè)類別的標(biāo)記未知的數(shù)據(jù)記錄而言,若P(Ci/X)>P(Cj/X),1≤j≤m,j≠i,也就是說,如果條件下X下,數(shù)據(jù)記錄屬于Ci類的概率大雨屬于其他類的概率的話,貝葉斯分類將把這條記錄歸類為Ci。
2.2自然語言處理
自然語言處理可以大致分為兩個(gè)部分:自然語言理解和自然語言生成。前者強(qiáng)調(diào)讓計(jì)算機(jī)理解人們借助文字或語音表述的語言,后者則關(guān)注讓計(jì)算使用人類可以理解的方式——文字或語音——表達(dá)意思。一般而言,自然語言處理即是讓計(jì)算機(jī)以字、詞、句、篇章為單元,對(duì)相關(guān)的輸入、輸出進(jìn)行識(shí)別、分析、理解與生成等進(jìn)行加工和操作的過程。自然語言的計(jì)算機(jī)處理大體可以分成四個(gè)層次:
(1)文字和語言即基本語言信息的構(gòu)成及其規(guī)律;
(2)語法及語言的形態(tài)結(jié)構(gòu)研究;
(3)語義即語言與它所指的對(duì)象之間的關(guān)系;
(4)語用即語言與它的使用者之間的關(guān)系。
自然語言處理的技術(shù)和思路紛繁復(fù)雜,國際上有各種各樣的研究方向,本文擬定處理的對(duì)象為中文書面文本數(shù)據(jù),結(jié)合實(shí)際需要,在此僅從中文分詞技術(shù)以及文本挖掘技術(shù)兩個(gè)方面進(jìn)行綜述。
3.1概念對(duì)分類
要對(duì)概念對(duì)進(jìn)行分類研究,首先應(yīng)當(dāng)對(duì)概念對(duì)的特點(diǎn)進(jìn)行細(xì)致地分析,基于概念對(duì)的特點(diǎn)以及數(shù)據(jù)挖掘分類各個(gè)經(jīng)典算法所能特別解決的問題偏好。本文主要針對(duì)概念對(duì)的橫向與縱向兩方面進(jìn)行分類處理。而對(duì)概念對(duì)進(jìn)行分類所依據(jù)的影響因子由于論文研究進(jìn)展現(xiàn)暫列舉以下情況:
表1 概念對(duì)分類影響因子
由于概念對(duì)是由不同詞性(如:名詞,動(dòng)詞)、不同詞性跨越(如:從名詞聯(lián)想到動(dòng)詞)、概念對(duì)獲得效率(依據(jù)分詞難易情況來分),所以在進(jìn)行數(shù)據(jù)挖掘的分類處理過程中,可以以這些為分類屬性影響因子對(duì)概念對(duì)進(jìn)行分類研究。
3.2分類方法的組合
目前發(fā)展較成熟的幾種分類算法如決策樹、關(guān)聯(lián)規(guī)則分類、神經(jīng)網(wǎng)絡(luò)、貝葉斯方法、遺傳算法等數(shù)據(jù)挖掘分類算法。將多種不同分類算法結(jié)合在一起進(jìn)行數(shù)據(jù)挖掘的分類研究是當(dāng)前數(shù)據(jù)挖掘的一個(gè)研究熱點(diǎn)領(lǐng)域,多種不同的算法不但能夠互相彌補(bǔ)之間的缺點(diǎn)而且能夠發(fā)揮算法自身在某一類情況下對(duì)特定研究對(duì)象所具有的優(yōu)勢(shì),因此,本文研究嘗試多種不同分類算法以不同形式地結(jié)合提高對(duì)概念對(duì)分類效果。
概念對(duì)作為一個(gè)為解決數(shù)據(jù)挖掘應(yīng)用而被提出來的新的概念,研究者對(duì)之研究分析比較少,作者首先分析概念對(duì)的特點(diǎn)然后再從數(shù)據(jù)挖掘經(jīng)典的算法中尋求適合對(duì)概念對(duì)進(jìn)行處理的經(jīng)典算法并對(duì)算法根據(jù)概念對(duì)的特點(diǎn)進(jìn)行進(jìn)一步的優(yōu)化完善,利用新完善好的分類算法來處理概念對(duì)。對(duì)概念對(duì)的分類無疑能夠得到不同等級(jí)、不同種類的概念對(duì),用高等級(jí)、特定種類的概念對(duì)進(jìn)行思維流程發(fā)現(xiàn),無疑能夠得到優(yōu)質(zhì)的結(jié)果,提高思維流程發(fā)現(xiàn)技術(shù)對(duì)數(shù)據(jù)挖掘應(yīng)用中的問題解決的效率。通過對(duì)概念對(duì)的質(zhì)量好壞分類能夠預(yù)測(cè)思維主題發(fā)現(xiàn)所得到結(jié)果質(zhì)量的好壞。利用高質(zhì)量的概念對(duì)進(jìn)行思維序列的產(chǎn)生自然能夠得到高質(zhì)量的思維序列,良性循環(huán)之下得到高質(zhì)量的問題空間最終提高思維流程發(fā)現(xiàn)技術(shù)的整體效果。
未來對(duì)概念對(duì)分類需要更多考慮分類對(duì)于概念對(duì)之間:
(1)契合度的度量以及區(qū)分;
(2)對(duì)思維流程技術(shù)效率的提升;
(3)概念對(duì)獲取指導(dǎo)性導(dǎo)向。
主要參考文獻(xiàn)
[1]Han J W,Kamber M.Data Mining:Concepts and Techniques[M].Beijing,China:China Machine Press,2006.
[2]陳學(xué)昌.數(shù)據(jù)挖掘應(yīng)用中的思維流程發(fā)現(xiàn)技術(shù)[D].北京:北京科技大學(xué),2012.
[3]談恒貴,王文杰,李游劃,數(shù)據(jù)挖掘分類算法綜述[J].微型機(jī)與應(yīng)用,2005(2).
[4]何中市.自然語言處理與統(tǒng)計(jì)語言模型[J].外國語言文學(xué)研究,2004 (6).
[5]劉秀娟,田川,馮欣.數(shù)據(jù)挖掘分類技術(shù)研究與分析[J].現(xiàn)代電子技術(shù),2010,33(20):86-88.
[6]P K Agarwal and C M Procopiuc.Exact and Approximation Algorithms for Clustering[J].Algorithmica,2002,33(2):201-226.
[7]史忠植.認(rèn)知科學(xué)[M].合肥:中國科學(xué)技術(shù)大學(xué)出版社,2008.
[8]何軍,劉紅巖,杜小勇.挖掘多關(guān)系關(guān)聯(lián)規(guī)則[J].軟件學(xué)報(bào),2007(11).
[9]Hang Li,Kenji Yamanishi.Topic Analysis Using a Finite Mixture Model [J].Information Processing and Management,2003,39(4):521-541.
10.3969/j.issn.1673-0194.2016.17.098
TP391
A
1673-0194(2016)17-0175-03
2016-07-19概念cj。