為了克服傳統(tǒng)診斷專家系統(tǒng)知識獲取困難的缺陷,將知識發(fā)現(xiàn)和數(shù)據(jù)挖掘技術引入診斷專家系統(tǒng)進行探討分析,提出了一個新的系統(tǒng)框架并給與了試驗,結果表明,系統(tǒng)運行后,對傳統(tǒng)診斷專家系統(tǒng)知識獲取困難的缺陷有一定的改善作用。
【關鍵詞】診斷專家系統(tǒng) 知識發(fā)現(xiàn) 數(shù)據(jù)挖掘
診斷專家系統(tǒng)是電力設備在線監(jiān)測系統(tǒng)幾種主要故障診斷方法之一。目前已研究的故障診斷專家系統(tǒng)模型有:基于規(guī)則、實例、行為、模糊邏輯和人工神經(jīng)網(wǎng)絡的五種診斷專家系統(tǒng)。它們的優(yōu)缺點如下:基于規(guī)則的診斷專家系統(tǒng)優(yōu)點為知識表述直觀、形式統(tǒng)一、易理解等,缺點為知識獲取困難、知識臺階窄和控制策略不靈活等,該種診斷系統(tǒng)只適用于具有豐富經(jīng)驗的專業(yè)領域故障診斷;基于實例的診斷專家系統(tǒng)優(yōu)點為無須顯示領域知識、無須規(guī)則提取、降低知識獲取難度等,缺點為當診斷實例檢索所有解空間時,因覆蓋度小會導致搜索時可能漏掉最優(yōu)解,造成誤診或漏診;基于模糊理論的診斷專家系統(tǒng)優(yōu)點是有較強的結構性知識表達能力,適用于處理診斷中的不確定信息和不完整信息,缺點是知識獲取困難,尤其是故障與征兆的模糊關系較難確定時,容易發(fā)生漏診或誤診?;谛袨榈脑\斷專家系統(tǒng)優(yōu)點為在缺乏先驗診斷知識的情況下,通過與診斷對象系統(tǒng)行為進行交互作用,逐步學習,能構成一個完善的診斷系統(tǒng)。缺點是自動獲取故障行為征兆難度較大;基于人工神經(jīng)網(wǎng)絡的診斷專家系統(tǒng)優(yōu)點是有較好的容錯性、響應快、強大的學習能力、自適應能力和非線性逼近能力等,缺點是如果訓練樣本集很少或訓練樣本集選擇不當?shù)那闆r下,很難有較好的歸納推理能力,很難指望它具有較好的歸納推理能力,另外,神經(jīng)網(wǎng)絡表達知識和利用知識的方式單一,通常的神經(jīng)網(wǎng)絡智能采用數(shù)值化的知識??梢园l(fā)現(xiàn)以上五種故障診斷模型均存在知識獲取困難的缺陷。本文嘗試將數(shù)據(jù)庫技術中的知識發(fā)現(xiàn)和數(shù)據(jù)挖掘技術運用到故障專家系統(tǒng)中進行探討分析是否能有助于解決知識獲取困難的缺點。
1 知識發(fā)現(xiàn)和數(shù)據(jù)挖掘技術
1.1 基本概念
知識發(fā)現(xiàn)技術(Knowledge Discovery in Database)是指識別出存在于數(shù)據(jù)庫中有效的、新穎的、具有潛在效用的乃至最終可理解的模式的非平凡的過程。在此定義中,“數(shù)據(jù)”用來描述事物有關方面的信息,是一個有關事實F的集合,這個集合的數(shù)據(jù)一般來說都是準確無誤的;“可理解”是指將數(shù)據(jù)庫中隱含的模式以容易被人們理解的形式表現(xiàn)出來,模式的可理解性常用模式的簡單程度來衡量,模式E的簡單程度S可用函數(shù)S(E,F(xiàn))來衡量;“模式”用來描述資料集F的某個子集,是一個用語言L來表示的一個表達式E;“過程”包括數(shù)據(jù)預處理、模式提取、知識評估及過程優(yōu)化,是指一個多步驟的處理過程,該過程要求是非平凡的,或者說要求有一定程度的自動性、智能性。
數(shù)據(jù)挖掘是指知識發(fā)現(xiàn)中的一個關鍵步驟,是一個抽取有用模式或建立模型的重要環(huán)節(jié)。數(shù)據(jù)挖掘的對象通常是大型數(shù)據(jù)庫或者數(shù)據(jù)倉庫,從廣義的角度上講,發(fā)掘對象也可以是文件系統(tǒng),或者是其它數(shù)據(jù)集合。例如圖形圖像,WWW信息源,知識庫等。數(shù)據(jù)挖掘是在對數(shù)據(jù)集全面而深刻認識的基礎上,對數(shù)據(jù)內在和本質的高度抽象與概括,也是對數(shù)據(jù)從理性認識到感性認識的升華。
1.2 基本原理
知識發(fā)現(xiàn)的基本原理體現(xiàn)于知識發(fā)現(xiàn)的基本過程之中,而發(fā)現(xiàn)那些有意義的、簡潔的、以模式表示的、正確的知識的前提則是加強虛假信息和偽裝知識的識別和監(jiān)控??梢园阎R發(fā)現(xiàn)的基本過程劃分為數(shù)據(jù)準備、數(shù)據(jù)挖掘、結果的評估與解釋等3個階段。
數(shù)據(jù)準備是知識發(fā)現(xiàn)的第一個步驟,數(shù)據(jù)準備主要是從各種信息媒體中獲取相關數(shù)據(jù),從中根據(jù)用戶的需求抽取相關數(shù)據(jù)和相關屬性,消除數(shù)據(jù)的噪音后根據(jù)利用數(shù)據(jù)屬性間的關系進行數(shù)據(jù)簡約,減少有效數(shù)據(jù)的規(guī)模和維度。
數(shù)據(jù)挖掘是知識發(fā)現(xiàn)最重要的步驟。該步驟主要確定數(shù)據(jù)挖掘的目的和任務、算法的選擇以及確定算法的參數(shù)。挖掘算法采用較多的方法有聚類、粗集、決策樹、分類、關聯(lián)規(guī)則、神經(jīng)網(wǎng)絡與遺傳算法等。
結果的評估與解釋。該步驟是將數(shù)據(jù)挖掘的模式(知識)去除噪音后,根據(jù)用戶的需求對模式進行評估,并轉換成易于人們理解的表達形式,經(jīng)過解釋以后,用戶可以理解、有價值和符合實際的模式形成知識,用于提供決策支持。
2 基于知識發(fā)現(xiàn)和數(shù)據(jù)挖掘技術的診斷專家系統(tǒng)
知識發(fā)現(xiàn)和數(shù)據(jù)挖掘技術引入診斷專家系統(tǒng)后體系結構可形式化為圖1所示。其中,知識發(fā)現(xiàn)和數(shù)據(jù)挖掘技術模塊是系統(tǒng)的核心,它接受經(jīng)規(guī)范化處理后的原始證據(jù)輸入,給出處理后的結果。系統(tǒng)的知識預處理模塊及后處理模塊則主要承擔知識表達的規(guī)范化及表達方式的轉換,是知識發(fā)現(xiàn)和數(shù)據(jù)挖掘技術模塊與外界聯(lián)接的“接口”。
關聯(lián)規(guī)則是數(shù)據(jù)挖掘方法中的一個重要分支,通過分析數(shù)據(jù)庫中不同數(shù)據(jù)屬性之間存在的潛在關系,找出滿足給定支持度和置信度的關系規(guī)則,對設備進行在線故障診斷,表1是某電廠汽輪機響鈴報警記錄。
利用關聯(lián)規(guī)則挖掘算法,設置最小支持度、最小置信度均為為20%,(相關算法參見文獻[6]和[11]),對表1進行分析后的故障記錄如表2所示。
通過分析可得強關聯(lián)規(guī)則:
A→C,支持度=0.75,置信度=0.75。
表明在A響鈴報警后不久就會出現(xiàn)C也響鈴報警。該規(guī)則可以向運行人員提供早期故障預警,當A響鈴報警后,運行人員可以對C故障產(chǎn)生的原因進行分析,查找到原因后從而在故障發(fā)生前將其排除,以確保設備的健康安全運行。
3 結語
在知識獲取技術方面,基于數(shù)據(jù)挖掘的知識獲取并不需要知識工程師從領域專家的經(jīng)驗中提取規(guī)則,它只是對領域專家提供的故障實例進行學習,從故障實例中獲取知識,在應用時,知識會以統(tǒng)一的格式提取出來,這種知識獲取是自動的,不需要領域專家和知識工程師的直接對話,避免了在對話過程中導致診斷規(guī)則出現(xiàn)不一致的一切因素,這在一定程度上緩解或克服了傳統(tǒng)故障診斷專家系統(tǒng)中存在的知識獲取困難問題。
參考文獻
[1]吳明強,史慧,朱曉華等.故障診斷專家系統(tǒng)研究的現(xiàn)狀與展望[J].計算機測量與控制,2005,13(12):1301-1304.
[2] 張代勝,王悅,陳朝陽.融合實例與規(guī)則推理的車輛故障診斷專家系統(tǒng)[J].機械工程學報,2002,38(07):91-95.
[3]周東華,葉銀忠.現(xiàn)代故障診斷與容錯控制[M].北京:清華大學出版社,2000.
[4]Fayyad U M,Piatetsky-shapiro G,Smyth P.Advances in knowledge discovery and data mining.California:AAAI/MIT Press,1996.
[5]秦鴻霞.論知識發(fā)現(xiàn)的技術和方法[J].內蒙古科技與經(jīng)濟,2009,19(197):58-61.
[6]張云濤,龔玲.數(shù)據(jù)挖掘原理與技術[M].北京:電子工業(yè)出版社,2004:1-2.
[7]R.Agrawal,T.Imeielinski,A.Swami.Mining association rules between sets of items in large databases[C].Processing of ACM SIGMOD,May 1993:207-216.
[8]R.Agrawal,and P.Yu.Online generation of association rules[C].In 14th Intl.Zonf.On Data Engineering,F(xiàn)eb.1998.
[9]M.-J Berry,G.Linoff.Data mining techniques for marketing,sales and customer support[M].Wiley Computer Publishing,1997.
[10]J.-S.Park,M.-S.Chen,and P.S.Yu.An effective hash based algorithm for mining association rules[C].Proceedings of ACM SIGMOD,May,1995:175-186.
[11]梁志瑞,陳鵬.關聯(lián)規(guī)則挖掘在電廠設備故障監(jiān)測中的應用[J].電力自動化設備,2006,26(06):17-19.
作者簡介
李業(yè)順(1988-),男,山東省淄博市人。碩士學位。工程師。主要研究方向為配電檢修。
作者單位
國網(wǎng)淄博供電公司 山東省淄博市 255100