楊炳儒
(北京科技大學(xué)計算機(jī)與通信工程學(xué)院,北京 100083)
數(shù)據(jù)庫中的知識發(fā)現(xiàn)(KDD,knowledge discovery in database)是一門新興的交叉學(xué)科。通過對現(xiàn)今各種KDD系統(tǒng)十幾年的跟蹤可見:不同領(lǐng)域?qū)W者對其研究的視角不同,主要包括從數(shù)據(jù)庫的角度進(jìn)行研究,它強(qiáng)調(diào)知識發(fā)現(xiàn)的效率(efficiency)[1,2];從機(jī)器學(xué)習(xí)的角度進(jìn)行研究,它強(qiáng)調(diào)知識發(fā)現(xiàn)的有效性(effectiveness)[3,4];從統(tǒng)計分析的角度進(jìn)行研究,它強(qiáng)調(diào)知識發(fā)現(xiàn)的正確性(valid)[5,6];從微觀經(jīng)濟(jì)學(xué)的角度進(jìn)行研究[7],它強(qiáng)調(diào)的是知識發(fā)現(xiàn)的最大效用。2003年8月27日在華盛頓召開了第九屆知識發(fā)現(xiàn)與數(shù)據(jù)挖掘國際會議,參與討論的專家一致認(rèn)為:“數(shù)據(jù)挖掘正面臨著巨大的機(jī)遇和挑戰(zhàn)”;“從科學(xué)發(fā)展的長遠(yuǎn)來看,最大的絆腳石是基礎(chǔ)理論的缺乏以及所面臨的問題和挑戰(zhàn)的清晰明白的闡述”[8]。
目前,許多有關(guān)知識發(fā)現(xiàn)的研究或者沒有深入探討其理論基礎(chǔ),或者沒有給出具體的實現(xiàn)方法。因此,無法從根本上明顯提高現(xiàn)有知識發(fā)現(xiàn)過程的性能,也無法解決KDD發(fā)展過程中極富挑戰(zhàn)性的一些問題。事實上,有關(guān)知識發(fā)現(xiàn)的研究成果只是提供了KDD的方法論基礎(chǔ),而要真正構(gòu)建其理論體系,必須抓住KDD的本質(zhì),形成與其本質(zhì)相適應(yīng)的理論基礎(chǔ)。KDD的本質(zhì)何在?至少有兩個可信的路徑:一個是將KDD過程(系統(tǒng))視為認(rèn)知過程(系統(tǒng)),不是轉(zhuǎn)化為認(rèn)知系統(tǒng)中;另一個是將KDD過程(系統(tǒng))視為非線性動力系統(tǒng)中非平衡態(tài)轉(zhuǎn)化的過程(系統(tǒng))。筆者從前者出發(fā),經(jīng)近十余年的研究得到如下結(jié)果。
現(xiàn)代研究表明:分層遞階結(jié)構(gòu)是降低系統(tǒng)復(fù)雜度的最有效的處理手段,而有序的粒度空間理論是建立復(fù)雜系統(tǒng)的分層遞階結(jié)構(gòu)最有效的手段之一。筆者構(gòu)造了一類以內(nèi)在機(jī)理為理論支柱、以過程模型與挖掘算法為上層建筑的多層遞階的知識發(fā)現(xiàn)“系統(tǒng)框架”MMAKDS—沿機(jī)理—模型—算法線路構(gòu)造的自主知識發(fā)現(xiàn)“系統(tǒng)框架”,其根源是將認(rèn)知科學(xué)(認(rèn)知心理學(xué)等)的基本原理嫁接到知識發(fā)現(xiàn)領(lǐng)域中的結(jié)果;形成了以認(rèn)知自主性為貫穿主線的帶有普遍意義的“系統(tǒng)框架”,其結(jié)構(gòu)見圖1所示。
圖1 MMAKDS系統(tǒng)框架圖Fig.1 MMAKDS system framework
認(rèn)知心理學(xué)興起于20世紀(jì)50年代中期,它是以信息加工觀點為核心的心理學(xué),其核心是揭示認(rèn)知過程的內(nèi)部心理機(jī)制,即信息是如何獲取、貯存、加工和使用的。在知識發(fā)現(xiàn)系統(tǒng)中,模擬“創(chuàng)建意象”和“心理信息修復(fù)”這兩項認(rèn)知心理特征進(jìn)而提高系統(tǒng)的認(rèn)知自主性,正是研究的出發(fā)點。
利用認(rèn)知心理學(xué)的兩個重要特征(即“創(chuàng)建意象”與“心理信息修復(fù)”)來研究知識發(fā)現(xiàn)的兩個重要主題,從而對知識發(fā)現(xiàn)的過程模型進(jìn)行創(chuàng)新。具體而言:a.通過模擬“創(chuàng)建意象”來實現(xiàn)系統(tǒng)自主發(fā)現(xiàn)知識短缺,實施啟發(fā)式的聚焦(除用戶感興趣式的聚焦外)。為此,筆者構(gòu)造了啟發(fā)型協(xié)調(diào)器來模擬“創(chuàng)建意象”,從而實現(xiàn)系統(tǒng)自主地發(fā)現(xiàn)知識短缺;該協(xié)調(diào)器由啟發(fā)型協(xié)調(diào)算法來實現(xiàn)[9]。b.通過模擬“心理信息修復(fù)”來實現(xiàn)知識庫的實時維護(hù)。為此,構(gòu)造了維護(hù)型協(xié)調(diào)器來模擬“心理信息修復(fù)”,從而實現(xiàn)知識庫的實時維護(hù);該協(xié)調(diào)器由維護(hù)型協(xié)調(diào)算法來實現(xiàn)[9]。
實現(xiàn)上述兩個協(xié)調(diào)器(算法)的核心技術(shù)是要采取“定向搜索”和“定向挖掘”;從而,等效地縮小搜索空間、降低算法的復(fù)雜度。為此,在幾類布爾代數(shù)及其關(guān)系的理論基礎(chǔ)之上,在數(shù)據(jù)庫和知識庫的特定構(gòu)造下,構(gòu)建了挖掘數(shù)據(jù)庫中數(shù)據(jù)子類結(jié)構(gòu)的層與挖掘知識庫中知識素結(jié)點間的一一對應(yīng)關(guān)系(見圖2),稱之為“雙庫協(xié)同機(jī)制”[9]?!半p庫協(xié)同機(jī)制”從一個特定角度揭示知識發(fā)現(xiàn)的潛在規(guī)律與復(fù)雜性。至今這種深入到其系統(tǒng)內(nèi)部探索規(guī)律(內(nèi)在機(jī)理)的研究,實屬罕見。
將雙庫協(xié)同機(jī)制及其支持下的兩個協(xié)調(diào)器的構(gòu)造,融入經(jīng)典的KDD過程中,形成筆者獨立提出的KDD*新過程模型,從根本上改變了原有的知識發(fā)現(xiàn)進(jìn)程與運行機(jī)制。KDD*過程模型見圖3所示。
1)原有的知識發(fā)現(xiàn)過程模型KDD在如下技術(shù)與功能方面存在著不足之處:a.領(lǐng)域知識不能實質(zhì)性地介入到數(shù)據(jù)挖掘(知識發(fā)現(xiàn))過程中。b.系統(tǒng)不能自主地實現(xiàn)對短缺知識需求和挖掘。c.僅根據(jù)用戶的興趣度產(chǎn)生聚焦,確立挖掘方向,會導(dǎo)致大量重復(fù)、冗余規(guī)則的產(chǎn)生;與系統(tǒng)自身挖掘的短缺知識不能較好地吻合。d.不能對知識庫進(jìn)行動態(tài)實時維護(hù)。e.模型的實現(xiàn)是基于語義層面的。
圖2 數(shù)據(jù)子類結(jié)構(gòu)的層與知識素結(jié)點之間的對應(yīng)關(guān)系Fig.2 Mapping between the layer of data sub-class structure of the database and primitive knowledge node of knowledge base
圖3 KDD*過程模型Fig.3 KDD*process model
2)KDD*過程模型針對上述各種不足給出了具體的創(chuàng)新方法和實現(xiàn)技術(shù),具體列下:a.在挖掘的過程中,領(lǐng)域知識通過兩個協(xié)調(diào)器直接地、具體地介入到挖掘過程中,其主要思想來源是借用同步進(jìn)化和協(xié)同計算的思想。b.系統(tǒng)能通過有向超圖[10]的鄰接矩陣產(chǎn)生定向聚焦,自主地實現(xiàn)對短缺知識需求和挖掘。c.聚焦問題:定向挖掘的方向與進(jìn)程當(dāng)且僅當(dāng)在用戶“感興趣點”與系統(tǒng)自主發(fā)現(xiàn)的“短缺知識點”相吻合的情況下才能產(chǎn)生。這樣,不至于挖掘出大量重復(fù)、冗余的知識,大大減少規(guī)則評價量。這樣做的主要目的是減少搜索空間,提高了算法的效率,為算法能通過處理少量數(shù)據(jù)而達(dá)到挖掘效率提供了必要的技術(shù)支持。d.隨著知識的積累,知識庫的知識也會越來越多,為了能快速地對應(yīng)用問題做出反映,在新模型中加入了維護(hù)協(xié)調(diào)器,有效地、動態(tài)地、實時地處理了知識的重復(fù)、冗余、矛盾、循環(huán)與從屬。e.新模型是基于認(rèn)識心理學(xué)的“創(chuàng)建意象”與“心理信息修復(fù)”兩個認(rèn)知特征的,故新的模型有堅實的理論基礎(chǔ);模型的實現(xiàn)是基于理論層面的。
3)KDD*相對于 KDD而言,是 KDD與雙庫協(xié)同機(jī)制相融合的一種知識發(fā)現(xiàn)的新結(jié)構(gòu),它具有以下特征:a.KDD*有機(jī)地溝通與融合了KDD*新發(fā)現(xiàn)的知識與基礎(chǔ)知識庫中固有的知識,使它們成為一個有機(jī)的整體,即實現(xiàn)了“用戶的先驗知識與先前發(fā)現(xiàn)的知識可以耦合到發(fā)現(xiàn)過程中”。b.在知識發(fā)現(xiàn)過程中,KDD*對于冗余性的、重復(fù)性的、不相容的信息做出了實時處理,有效地減少了由于過程積累而造成的問題的復(fù)雜性,同時為新舊知識的融合提供了先決條件,實現(xiàn)了“知識與數(shù)據(jù)庫同步進(jìn)化”[11]。c.在數(shù)據(jù)庫的數(shù)據(jù)積累過程中,雖然知識庫結(jié)構(gòu)具有一定的穩(wěn)定性,但它也是隨著數(shù)據(jù)的積累而不斷進(jìn)化的,并且這種進(jìn)化的能力是雙庫協(xié)同機(jī)制本身所具有的,無須領(lǐng)域?qū)<业母深A(yù)。d.KDD*改變與優(yōu)化了知識發(fā)現(xiàn)的過程與運行機(jī)制,實現(xiàn)了“多源頭”聚焦與減少評價量。e.從認(rèn)知科學(xué)的角度看,KDD*強(qiáng)化并提供了知識發(fā)現(xiàn)的智能化程度,提高了認(rèn)知自主性(這將是今后相當(dāng)長的一階段內(nèi)保持的研究基調(diào)),較有效地克服領(lǐng)域?qū)<业淖陨砭窒扌?實現(xiàn)了“采用領(lǐng)域知識輔助初始發(fā)現(xiàn)的聚焦”[12]。f.作為KDD*的核心技術(shù)——雙庫協(xié)同機(jī)制的研究,揭示了在一定的建庫原則下,知識子庫與數(shù)據(jù)子類結(jié)構(gòu)之間的對應(yīng)關(guān)系,為實現(xiàn)“限制性的搜索”而減小搜索空間、提高挖掘效率提供了有效的技術(shù)保證[13,14]。g.雙庫協(xié)同機(jī)制與其誘導(dǎo)的新結(jié)構(gòu)模型KDD*,對知識發(fā)現(xiàn)的主流發(fā)展有著重要的作用,由此派生出新的關(guān)聯(lián)規(guī)則與數(shù)據(jù)聚類規(guī)則的挖掘算法,與目前流行的算法對比,具有更好的可擴(kuò)展性與有效性。
在KDD*的基礎(chǔ)上,還誘導(dǎo)出 KD(D&K)過程模型[15]以及針對復(fù)雜類型數(shù)據(jù)挖掘的DFSSM過程模型[16]等,此不贅述。
在雙庫協(xié)同機(jī)制與KDD*的基礎(chǔ)之上,提出了挖掘關(guān)聯(lián)規(guī)則的Maradbcm算法(以下簡稱M算法)[17],具體流程與步驟不再贅述。現(xiàn)僅將M算法與挖掘關(guān)聯(lián)規(guī)則的權(quán)威算法Apriori算法及其改進(jìn)型在理論上作一典型的對比分析:
1)基于的學(xué)術(shù)思想不同:M算法是基于雙庫協(xié)同機(jī)制的內(nèi)在認(rèn)知機(jī)理研究,具體而論是基于“知識短缺”(利用有向超圖)進(jìn)行“定向挖掘”以及知識庫的實時維護(hù);而Apriori算法及其改進(jìn)型是基于組合論的數(shù)據(jù)庫全局搜索。
2)基本流程(或基于的過程模型)不同:M算法是一條一條短缺知識的挖掘;而Apriori算法及其改進(jìn)型是所有的規(guī)則一并挖掘。
3)基礎(chǔ)不同:M算法是基于規(guī)則強(qiáng)度,它考慮了主觀和客觀兩個方面;涵蓋了Apriori算法及其改進(jìn)型的支持度閾值。
4)發(fā)現(xiàn)知識的量不同:在M算法中知識庫直接參與挖掘過程,從而能真正發(fā)現(xiàn)新穎的、用戶感興趣的知識,這正是符合了KDD定義;而Apriori算法及其改進(jìn)型是把滿足條件的規(guī)則全部挖掘出來;另外,由于M算法中的支持度可以設(shè)置得比較小(因為該算法主要是由規(guī)則強(qiáng)度來聚焦的),即對短缺知識的刪除是比較謹(jǐn)慎的,因此M算法部分地克服了Apriori算法及其改進(jìn)型的一個缺陷——遺漏重要規(guī)則。
5)M算法可融入KDD中形成新的開放型的過程模型——KDD*,整個算法實現(xiàn)的運算背景是KDD*結(jié)構(gòu);而 Apriori算法及其改進(jìn)型是原有的KDD過程模型。
這種“系統(tǒng)框架”的研究是構(gòu)造知識發(fā)現(xiàn)理論體系的有效路徑。事實上,從縱向研究:筆者從認(rèn)知心理學(xué)、認(rèn)知物理學(xué)、認(rèn)知生物學(xué)等不同的角度出發(fā),先后發(fā)現(xiàn)了4條機(jī)制,即雙庫協(xié)同機(jī)制(如前)、雙基融合機(jī)制(揭示了基于數(shù)據(jù)庫的知識發(fā)現(xiàn)模型與基于知識庫的知識發(fā)現(xiàn)模型的邏輯等價)、信息擴(kuò)張機(jī)制(揭示了動態(tài)挖掘進(jìn)程中規(guī)則參數(shù)的演變規(guī)律)、免疫進(jìn)化機(jī)制(揭示了動態(tài)挖掘進(jìn)程中人工免疫與進(jìn)化演算的協(xié)同性),從而對應(yīng)于每個機(jī)制構(gòu)建了相互獨立的4類”系統(tǒng)框架”。再從橫向研究:對4類“系統(tǒng)框架”進(jìn)行整合集成,交叉融合,在此過程中誘導(dǎo)出8個新過程模型,派生出17種新技術(shù)方法,最終構(gòu)建了見圖4所示的一類基于內(nèi)在認(rèn)知機(jī)理的知識發(fā)現(xiàn)理論體系KDTICM。
以上述的KDTICM理論體系及其構(gòu)造為指導(dǎo),筆者針對蛋白質(zhì)二級結(jié)構(gòu)預(yù)測——生物信息學(xué)領(lǐng)域中的國際性難題,提出了具有普適性的智能預(yù)測系統(tǒng)模型——復(fù)合金字塔模型。它采取了逐步求精、多層遞階的4層架構(gòu),各個層次各有側(cè)重、功能相對獨立且通過智能接口無縫對接,其模型架構(gòu)見圖5所示。
圖4 KDTICM理論體系圖Fig.4 KDTICM theoretical system
圖5 復(fù)合金字塔模型Fig.5 Compound pyramid model(CPM)
綜合分析層綜合了改進(jìn)的同源性分析方法與優(yōu)化的SVM類化方法,即綜合了物化屬性分析與結(jié)構(gòu)序列分析結(jié)果,是整個模型的基礎(chǔ)層,可以完成50%以上的特征明顯的待測氨基酸二級構(gòu)象的預(yù)測,其中同源序列[18]分析采用Apssp2方法,是一種較為成熟的基于多序列匹配的蛋白質(zhì)二級結(jié)構(gòu)預(yù)測方法;SVM多分類(SVM multiple classification)[19]模塊是將懲罰性因子與隨機(jī)采樣引入到SVM方法中,采用屬性與結(jié)構(gòu)相結(jié)合“輪換式”多分類方法。
核心判定層的原理基于二級結(jié)構(gòu)間的關(guān)聯(lián)影響,也即二級結(jié)構(gòu)之間構(gòu)象影響信息,其核心理論基礎(chǔ)為前述基于內(nèi)在認(rèn)知機(jī)理的知識發(fā)現(xiàn)理論KDTICM,工具為該理論下的KDD*過程模型及其Maradbcm算法。通過與相關(guān)關(guān)聯(lián)規(guī)則方法的比較,可以發(fā)現(xiàn)Maradbcm算法在相同的支持度與可信度下,通??梢垣@得更多的規(guī)則。SAC方法依據(jù)蛋白質(zhì)二級結(jié)構(gòu)的臨近信息以及KDD*挖掘得到的蛋白質(zhì)知識庫,利用CMAR(classification based on multiple association rules)算法進(jìn)行蛋白質(zhì)二級結(jié)構(gòu)的多分類預(yù)測。CMAR[20]作為經(jīng)典關(guān)聯(lián)分類預(yù)測方法CBA的改進(jìn)類型,突破了使用單一規(guī)則進(jìn)行預(yù)測的方法,而是使用了多條滿足條件的關(guān)聯(lián)規(guī)則進(jìn)行聯(lián)合預(yù)測。
輔助判定層的核心同SAC一樣是筆者獨立提出的 AAC(attribute association classifier)[21]模塊。通過對氨基酸物化屬性的關(guān)聯(lián)分析,建立精化規(guī)則庫,然后利用改進(jìn)的CBA算法,對下兩層無法判斷數(shù)據(jù)進(jìn)行預(yù)測。
優(yōu)化層主要設(shè)計傾向性因子、位能函數(shù)及合情推理3類方法。前兩類方法屬于生物信息學(xué)的固有方法,其主要利用生物信息背景知識進(jìn)行結(jié)構(gòu)預(yù)測。合情推理方法是建立在各種二級結(jié)構(gòu)具備的不同物化屬性規(guī)律基礎(chǔ)上的。3種方法從不同角度對其下3層的結(jié)果加以優(yōu)化,以最大程度提高整體預(yù)測精度。
筆者使用了3種不同的數(shù)據(jù)集,以開發(fā)和測試CPM及其新方法。所選擇的測試集為RS126[22]數(shù)據(jù)集、CB513[23]數(shù)據(jù)集和 CASP8[24]數(shù)據(jù)集。同時采用Q3標(biāo)準(zhǔn)作為評價指標(biāo),其定義為預(yù)測正確的氨基酸數(shù)與氨基酸總數(shù)的比值,見式(1)。這個評分只依賴三個狀態(tài)(螺旋/折疊片/卷),因此它的名字取為Q3。在整個的三態(tài)預(yù)測正確的殘基準(zhǔn)確度的定義(Q3)是測量預(yù)測性能的。
二級結(jié)構(gòu)的每個類型的殘基的準(zhǔn)確性(QH,QE,QC,,,)的計算公式為(2)、(3):
這里的i分別代表H,E或 C。
CPM的每一層的結(jié)果顯示在表1和表2中。同時,筆者與最好的6個二級結(jié)構(gòu)預(yù)測的方法(包括PSIPRED[19],SSPRO[25],SAM-T02[26],PHD Expert[27],PROF[28],JPRED[29])在 RS126和 CB513數(shù)據(jù)集上進(jìn)行對比實驗。實驗結(jié)果顯示見圖6。對于數(shù)據(jù)集CASP8,筆者選擇預(yù)測結(jié)果最好的4個方法作為對比對象,實驗結(jié)果顯示見圖7。
表1 每個層預(yù)測的準(zhǔn)確性和在RS126數(shù)據(jù)集上的CPM的范圍Table 1 Each layer pridiction accuracy and scale of CPM on the RS126 data set
表2 每個層預(yù)測的準(zhǔn)確性和在CB513數(shù)據(jù)集上的CPM的范圍Table 2 Each layer pridiction accuracy and scale of CPM on the CB513 data set
圖6 在RS126和CB513數(shù)據(jù)集上CPM與其他研究結(jié)果的Q3準(zhǔn)確度比較Fig.6 Q3 accuracy comparison with other research results seperately on the RS126 and CB513 data set
對典型的研究文獻(xiàn)回顧:Hu使用SVM方法[31]使準(zhǔn)確度達(dá)到78.8%(在RS126數(shù)據(jù)集上);Xie[32]使用神經(jīng)網(wǎng)絡(luò)得到了79.65%和69.11%(分別在RS126和CB513數(shù)據(jù)集上);Chen[33]使用層次的神經(jīng)網(wǎng)絡(luò)得到74.38%的準(zhǔn)確度(在 RS126數(shù)據(jù)集上);Chopra[34]使用細(xì)胞自動機(jī)方法得到了58.21%和56.51%的準(zhǔn)確度(分別在 RS126和CB513上);Liu[35]使用文章分析的方法分別在RS126和CB513數(shù)據(jù)集上得到了69.8%和69.6%的準(zhǔn)確度,Guo[36]使用了雙層SVM方法在CB513數(shù)據(jù)集上得到了75.2%準(zhǔn)確度;Wang[37]使用了優(yōu)化的SVM方法在CB513數(shù)據(jù)集上得到了78.44%的準(zhǔn)確度。實驗結(jié)果見圖8和圖9。
可以看到:CPM的預(yù)測精度比其他方法都要高。需要指出的是,筆者可以進(jìn)一步優(yōu)化和改善CPM方法,使得預(yù)測結(jié)果更準(zhǔn)確。此國際性難題的典型實例充分佐證了KDTICM理論體系及其構(gòu)造方法的有效性,并體現(xiàn)了它的科學(xué)價值與實用價值。
圖7 在CASP8數(shù)據(jù)集上CPM與其他4種方法的預(yù)測結(jié)果對比Fig.7 Comparison with the results of 4 methods on the CASP8 data set
圖8 RS126數(shù)據(jù)集上Q3準(zhǔn)確率比較Fig.8 Q3 accuracy comparison with typical literature on RS126
圖9 CB513數(shù)據(jù)集上Q3準(zhǔn)確率比較Fig.9 Q3 accuracy comparison with typical literature on CB513
經(jīng)過十余年的研究,在對雙庫協(xié)同機(jī)制的內(nèi)涵、知識庫及其結(jié)構(gòu)、數(shù)據(jù)庫及其結(jié)構(gòu)、兩庫間在本質(zhì)上的對應(yīng)關(guān)系研究的基礎(chǔ)上,提出了在知識發(fā)現(xiàn)系統(tǒng)與過程中,兩個用于模擬認(rèn)知心理特征從而實現(xiàn)系統(tǒng)自主地發(fā)現(xiàn)知識短缺和進(jìn)行知識庫的實時維護(hù)的兩個協(xié)調(diào)器構(gòu)造的理論基礎(chǔ)與技術(shù)實現(xiàn)方法;作為前者的邏輯必然,誘導(dǎo)出KDD*新過程模型;由雙庫協(xié)同機(jī)制與KDD*派生出新的M算法,由此提出了一類由機(jī)理—模型—算法構(gòu)造線路經(jīng)融合與集成而構(gòu)造的自主知識發(fā)現(xiàn)系統(tǒng)框架MMAKDS,進(jìn)而構(gòu)建出基于內(nèi)在認(rèn)知機(jī)理的知識發(fā)現(xiàn)理論體系KDTICM。最后,在蛋白質(zhì)二級結(jié)構(gòu)預(yù)測實踐中,驗證了自主知識發(fā)現(xiàn)系統(tǒng)框架MMAKDS及知識發(fā)現(xiàn)理論體系KDTICM的有效性與先進(jìn)性。
理論分析與實驗證實:基于內(nèi)在認(rèn)知機(jī)理的自主知識發(fā)現(xiàn)系統(tǒng)框架及知識發(fā)現(xiàn)理論體系的研究,對KDD的主流發(fā)展將起到重要的推動作用,對“從科學(xué)發(fā)展的長遠(yuǎn)來看,最大的絆腳石是基礎(chǔ)理論的缺乏以及所面臨的問題和挑戰(zhàn)的清晰明白的闡述”問題的解決產(chǎn)生深刻影響;基于內(nèi)在認(rèn)知機(jī)理自主知識發(fā)現(xiàn)系統(tǒng)框架及知識發(fā)現(xiàn)理論體系具有一般性。筆者的研究成果已在國家級重點科研項目的資助下,有效地應(yīng)用于農(nóng)業(yè)、現(xiàn)代遠(yuǎn)程教育網(wǎng)、氣象、國際商務(wù)、鋁電解生產(chǎn)、稅務(wù)、數(shù)字資源整合、醫(yī)學(xué)信息學(xué)與生物信息學(xué)9個領(lǐng)域。特別是對新興交叉學(xué)科,已深刻地驗證了理論體系KDTICM的有效性與先進(jìn)性,并解決了一批領(lǐng)域中的典型問題,這類理論體系的構(gòu)造方法論對其他學(xué)科領(lǐng)域具有重要的示范作用。
[1]Chen M S,Han J,Yu P S.Data mining:an overview from a database perspective[J].IEEE Transactions on Knowledge and Data Engineering,1996,8(6):866-883.
[2]Han J,Kamber M.Data Mining:Concepts and Techniques[M].San Francisco:Morgan Kaufmann,2001.
[3]Indranil Bose,Mahapatra R K.Business data mining-a machine learning perspective[J].Information&Management,2001,39:211-225.
[4]Witten I H,Frank E.Data Mining:Practical Machine Learning Tools and Techniques with Java Implementations[M].San Francisco:Morgan Kaufmann,2000.
[5]Friedman H.Data mining and statistics:what is the connection?[C]//Keynote Speech of the 29th Symposium of the Interface:Computing Sciences and Statistics,Houston,TX,1997.
[6]Hand D,Mannila H,Smyth P.Principles of Data Mining[M].Cambridge:MIT Press,2001.
[7]Kleinberg J,Papadimitriou C,Raghavan P.A microeconomic view of data mining[J].Data Mining and Knowledge Discovery,1998,2(4):311-324.
[8]楊炳儒.知識發(fā)現(xiàn)進(jìn)展中的兩大核心問題[J].中國科學(xué)技術(shù)前沿:中國工程科學(xué)版,2006(9):205-269.
[9]楊炳儒.基于內(nèi)在認(rèn)知機(jī)理的知識發(fā)現(xiàn)[M].北京:國防工業(yè)出版社,2009.
[10]Wang J F,Lee T T.An invariant for hypergraphs[J].Chinese ACTA Mathematical Application Sinica,1996,2(2):113-120.
[11]Piatetsky-shapiro G,Matheus C J.Knowledge discovery workbench for exploring business databases[J].International Journal of Intelligent Systems,1992,7:668-675.
[12]Yang Bingru.KDK based double-basis fusion mechanism and its structural model[J].International Journal of Artificial Intelligence Tools,2005,14(3):399-423.
[13]楊炳儒,李晉宏,宋 威,等.面向復(fù)雜系統(tǒng)的知識發(fā)現(xiàn)過程模型KD(D&K)及其應(yīng)用[J].自動化學(xué)報,2007,33(2):151-155.
[14]楊炳儒,宋 威,,徐章艷.基于知識發(fā)現(xiàn)創(chuàng)新技術(shù)的專家系統(tǒng)新構(gòu)造[J].中國科學(xué)(E輯),2007,37(6):738-747.
[15]Yang Bingru,Xiong Fanlun.KD(D&K)and double-bases cooperating mechanism[J].Journal of Systems Engineering and Electronics,1999,10(2):48-54.
[16]Yang Bingru,Tang Jing.Research of discovery feature sub-space model(DFSSM)based on complex type data[C]//Proceedings of 2002 International Conference on Machine Learning and Cybernetics,2002,1:256-260.
[17]Yang Bingru,Sun Haihong,Xiong Fanlun.Mining quantitative association rules with standard SQL queries and its evaluation[J].Journal of Computer Research and Development,2002,39(3):307-312.
[18]Kevin Karplus,Barrett C,Hughey R,et al.Sequence comparisons using multiple sequences detect twice as many remote homologues as pairwise methods[J].Journal of Molecular Biology,1998,284:1201-1210.
[19]David T,Jones.Protein secondary structure prediction based on position-specific scoring matrices[J].J Mol Biol,1999,292:195-202.
[20]Li Wenmin,Han Jiawei,Pei Jian.CMAR:accurate and efficient classification based on multiple class-association rules[C]//Proc of the 2001 IEEE International Conference on Data Mining,San Jose,California,2001:369-376.
[21]Yang Bingru,Hou Wei,et al.KAAPRO:an approach of protein secondary structure prediction based on KDD*in the compound pyramid prediction model[J].Expert Systems with Applications,2009,36(5):9000-9006.
[22]Rost B,Sander C.Prediction of secondary structure at better than 70%accuracy[J].J Mol Biol,1993,232(2):584-599.
[23]Cuff J A,Barton G J.Evaluation and improvement of multiple sequence methods for protein secondary structure prediction[J].Proteins:Structure,Function and Genet,1999,34:508-519.
[24]Protein Structure Prediction Center.http://predictioncenter org/.
[25]Baldi P,Brunak S,Frasconi P,et al.Bidirectional dynamics for protein secondary structure prediction[C]//Proceedings of the Sixteenth International Joint Conference on Artificial Intelligence(IJCAI99),Stockholm,Sweden,1999.
[26]Karplus K,Karchin R,Draper J,et al.Combining local-structure,fold-recognition,and new-fold methods for protein structure prediction[J].Proteins,2003,53:491-496.
[27]Rost B,Sander C,Schneider R.PHD-an automatic mail server for protein secondary structure prediction[J].Comput Appl Biosci,1994,10:1153-1160.
[28]Ouali M,King R.Cascaded multiple classifiers for secondary structure prediction[J].Protein Science,2000,9:1162-1176.
[29]Cuff J,Clamp M,Siddiqui A,et al.JPRED:a consensus secondary structure prediction server[J].Bioinformatics,1998,14:892-893.
[30]Hyunsoo Kim,Haesun Park.Protein secondary structure prediction based on an improved support vector machines approach[J].Protein Engineering,2003,16(8):553-560.
[31]Hu H J,Pan Yi,Robert Harrison,et al.Improved protein secondary structure prediction using support vector machine with a new encoding scheme and an advanced tertiary classifier[J].IEEE Transactions on NanoBioscience,2004,3(4):265-271.
[32]Xie Xiao,Yang Bo,Chen Yuehui.Protein secondary structure prediction based on nerve network[J].Journal of University of Jinan(Science and Technology),2008,(2):111-115.
[33]Chen Jfinmiao,Narendra S Chaudhari.Cascaded bidirectional recurrent neural networks for protein secondary structure prediction[J].IEEE/ACM Transactions on Computational Biology and Bioinformatics,2007,4(4):572-582.
[34]Paras Chopra,Andreas Bender.Evolved cellular automata for protein secondary structure prediction imitate the determinants for folding observed in nature[J].Silico Biol,2007,7(1):87-93.
[35]Liu Yan,Jaime Carbonel,Judith Klein-Seetharaman,et al.Context sensitive vocabulary and its application in protein secondary structure prediction[C]//Proceedings of the 27th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval,Sheffield,United Kingdom,ACM,2004,538-539.
[36]Guo Jian,Chen Hu,Sun Zhirong,et al.A novel method for protein secondary structure prediction using dual-layer SVM and profiles[J].Proteins,2004,54(4):738-743.
[37]Wang Longhui,Liu Juan,Li Yanfu,et al.Predicting protein secondary structure by a support vector machine based on a new coding scheme[J].Genome Informatics,2004,15(2):181-190.