Shichao+Zhang
近年來,越來越多的組織和機構對分布式數(shù)據(jù)庫上的信息挖掘有迫切的應用需求。特別是隨著互聯(lián)網(wǎng)的迅猛發(fā)展,讓個人和企業(yè)低成本地獲取海量信息成為可能,而通過對數(shù)據(jù)的分析無疑會幫助他們做出更加科學合理的決策。然而,面對海量數(shù)據(jù),如何有效地從不同的數(shù)據(jù)源獲取高質(zhì)量的數(shù)據(jù)已經(jīng)成為了一個亟需解決的問題。這樣一個嚴峻的挑戰(zhàn)吸引了包括本書作者在內(nèi)的眾多研究者的熱情參與。所不同的是,作者獨辟蹊徑,提出了一種本地模式分析模型,從而讓那些在傳統(tǒng)的多數(shù)據(jù)庫挖掘技術條件下不能被采集的潛在信息,能被有效地發(fā)現(xiàn)和利用。
全書分為三大部分,共10章。第1部分是多數(shù)據(jù)庫挖掘基礎,包含第1-3章:1.多數(shù)據(jù)庫挖掘技術的重要性,介紹了單數(shù)據(jù)庫挖掘與多數(shù)據(jù)庫挖掘之間的區(qū)別,然后簡述了多數(shù)據(jù)庫挖掘的處理過程;2.數(shù)據(jù)挖掘和多數(shù)據(jù)庫挖掘,介紹了數(shù)據(jù)挖掘與多數(shù)據(jù)庫挖掘之間的區(qū)別與聯(lián)系,簡述了一些重要概念,最后介紹了前人在本方向所做的工作以及目前的應用熱點;3.本地模式分析,介紹了本地模式分析框架,詳述了多數(shù)據(jù)庫環(huán)境下的模式結構以及本地模式分析的有效性。
第2部分是數(shù)據(jù)預處理,包含第4-6章:4.框架的使用,介紹了傳統(tǒng)的多數(shù)據(jù)庫挖掘技術面臨的問題,在此基礎上提出了識別高質(zhì)量數(shù)據(jù)技術及相關概念;5.數(shù)據(jù)庫聚類,介紹了分類的有效性以及數(shù)據(jù)庫的分類,最后給出了在本地模式下識別特殊模式的高效算法;6.非一致性處理,包括語義定義,以及加權多數(shù)法,在此基礎上提出了一種基于權重合成模式的方法,并且給出了改進合成模型的規(guī)則。
第3部分是模式識別,包括第7-10章:7.高票選模式,包括建立高票選模式識別模型、設計高票選模式搜索算法、構造模糊邏輯控制器、分析高票選模式識別方法等;8.例外模式,包括構造例外模式興趣度模型、設計例外模式搜索算法、構造最小興趣度的邏輯控制器,最后用實例證明了本章所提出的算法的有效性;9.加權綜合模式,包括構造基于加權的綜合模型、改進現(xiàn)有的綜合模型、分析算法復雜度等;10.總結與展望,總結了本書中的創(chuàng)新之處,并對多數(shù)據(jù)庫知識發(fā)現(xiàn)技術未來的發(fā)展方向給出了預測。
本書語言通俗易懂,觀點精辟獨到,適合數(shù)據(jù)挖掘、分布式數(shù)據(jù)分析、機器學習等相關專業(yè)碩士研究生閱讀和參考。亦可作為在數(shù)據(jù)挖掘、數(shù)據(jù)庫知識發(fā)現(xiàn)等領域展開科學研究的工程師們的專業(yè)參考書。
臧光明,碩士研究生
endprint