陳鳴妤
(上海船舶運(yùn)輸科學(xué)研究所有限公司 艦船自動(dòng)化系統(tǒng)事業(yè)部, 上海 200135)
隨著大型船舶電力系統(tǒng)的規(guī)模不斷擴(kuò)大,其監(jiān)控和管理工作變得越來(lái)越復(fù)雜。用于監(jiān)控船舶電力系統(tǒng)的傳統(tǒng)數(shù)據(jù)庫(kù)系統(tǒng)雖然能實(shí)現(xiàn)對(duì)各項(xiàng)數(shù)據(jù)的高效存儲(chǔ)、查詢和統(tǒng)計(jì)等,但無(wú)法實(shí)現(xiàn)對(duì)船舶電力監(jiān)控系統(tǒng)大量數(shù)據(jù)的分析和分類抽取等,更無(wú)法利用系統(tǒng)現(xiàn)有的數(shù)據(jù)實(shí)現(xiàn)智能化的趨勢(shì)分析和預(yù)測(cè)等功能。隨著船舶裝備不斷朝著數(shù)字化、信息化和網(wǎng)絡(luò)化方向發(fā)展,對(duì)數(shù)據(jù)資源進(jìn)行深度挖掘和應(yīng)用,進(jìn)而使系統(tǒng)提供更高效、更簡(jiǎn)單的智能化服務(wù),已成為船舶電力監(jiān)控系統(tǒng)的發(fā)展趨勢(shì)。因此,如何利用船舶電力監(jiān)控系統(tǒng)數(shù)據(jù)庫(kù)中的海量數(shù)據(jù)資源分析船舶電力系統(tǒng)出現(xiàn)的異常和預(yù)測(cè)故障的發(fā)展趨勢(shì),已成為船舶電力監(jiān)控系統(tǒng)設(shè)計(jì)中的熱點(diǎn)問(wèn)題。
當(dāng)前,船舶電力系統(tǒng)中的繼電保護(hù)、故障錄波器等裝置都已實(shí)現(xiàn)數(shù)字化監(jiān)控,設(shè)備信息能在系統(tǒng)運(yùn)行過(guò)程中得到保存,通過(guò)將不同的數(shù)據(jù)源信息有機(jī)地結(jié)合起來(lái),可形成一個(gè)多維、多粒度、專業(yè)化的電力系統(tǒng)多源異構(gòu)數(shù)據(jù)倉(cāng)庫(kù)(Data Warehouse,DW)。數(shù)據(jù)倉(cāng)庫(kù)技術(shù)具有比傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)更高級(jí)的數(shù)據(jù)組織形式,不僅支持對(duì)海量數(shù)據(jù)進(jìn)行處理,而且在動(dòng)態(tài)存儲(chǔ)、應(yīng)用程序接口和非結(jié)構(gòu)化數(shù)據(jù)等方面具有很強(qiáng)的處理功能。因此,建立一個(gè)以數(shù)據(jù)倉(cāng)庫(kù)技術(shù)為基礎(chǔ),以數(shù)據(jù)挖掘(Data Mining,DM)技術(shù)為手段的故障分析與預(yù)測(cè)系統(tǒng),從海量數(shù)據(jù)中提取潛在的有價(jià)值的信息,為實(shí)現(xiàn)船舶電力系統(tǒng)故障分析、故障預(yù)測(cè)和故障診斷提供有效支持。
數(shù)據(jù)倉(cāng)庫(kù)是指面向主題的,具有集成、穩(wěn)定和隨時(shí)間變化等特點(diǎn)的數(shù)據(jù)集合,用于支持經(jīng)營(yíng)管理中的決策制訂過(guò)程。
數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn)如下:
1) 面向主題。主題是指在更高層級(jí)上對(duì)數(shù)據(jù)進(jìn)行綜合、歸類和分析利用的抽象對(duì)象。
2) 數(shù)據(jù)為集成的數(shù)據(jù)。數(shù)據(jù)倉(cāng)庫(kù)從分散的子系統(tǒng)中提取數(shù)據(jù),并對(duì)其進(jìn)行統(tǒng)一和綜合。
3) 數(shù)據(jù)不可更新。用戶不可修改原始數(shù)據(jù),只允許查詢和分析數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)。
4) 數(shù)據(jù)隨時(shí)間不斷變化。從數(shù)據(jù)倉(cāng)庫(kù)中刪除陳舊、查詢率低、對(duì)分析處理無(wú)作用的數(shù)據(jù)。
數(shù)據(jù)倉(cāng)庫(kù)的基本體系結(jié)構(gòu)組成如下:
1) 數(shù)據(jù)源,為數(shù)據(jù)倉(cāng)庫(kù)提供最底層數(shù)據(jù)的運(yùn)作數(shù)據(jù)庫(kù)系統(tǒng)和外部數(shù)據(jù);
2) 監(jiān)視源,負(fù)責(zé)感知數(shù)據(jù)源發(fā)生的變化,并按數(shù)據(jù)倉(cāng)庫(kù)的需求提取數(shù)據(jù);
3) 集成器,對(duì)從運(yùn)作數(shù)據(jù)庫(kù)中提取的數(shù)據(jù)進(jìn)行轉(zhuǎn)換、計(jì)算和綜合,并將其集成到數(shù)據(jù)倉(cāng)庫(kù)中;
4) 數(shù)據(jù)倉(cāng)庫(kù),存儲(chǔ)已按系統(tǒng)級(jí)視圖轉(zhuǎn)換的數(shù)據(jù),供分析和處理使用,根據(jù)不同的分析要求,按不同的綜合程度存儲(chǔ)數(shù)據(jù);
5) 客戶應(yīng)用,供用戶對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)進(jìn)行訪問(wèn)查詢,并以直觀的方式表達(dá)分析結(jié)果。
數(shù)據(jù)挖掘是指從大量不完整、有噪聲、模糊、隨機(jī)的數(shù)據(jù)中提取隱含的人們事先不知道但有用的信息和知識(shí)的過(guò)程。數(shù)據(jù)挖掘的對(duì)象既可以是結(jié)構(gòu)化的數(shù)據(jù)(如關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)),又可以是半結(jié)構(gòu)化的數(shù)據(jù)(如文本、圖形和圖像數(shù)據(jù))。數(shù)據(jù)挖掘方法既可以是數(shù)學(xué)的,又可以是非數(shù)學(xué)的;既可以是演繹的,又可以是歸納的。通過(guò)數(shù)據(jù)挖掘提取的知識(shí)通常表示為概念、規(guī)則、規(guī)律、模式、約束和可視化等形式,不僅能用于進(jìn)行信息管理、查詢優(yōu)化、決策支持和過(guò)程控制等,而且能用于實(shí)現(xiàn)數(shù)據(jù)自身維護(hù)。
數(shù)據(jù)挖掘技術(shù)的主要功能如下:
1) 概念描述。概念描述主要包括特征性描述和區(qū)別性描述2種。特征性描述是指描述同類對(duì)象的共同特征,即所有數(shù)據(jù)對(duì)象的共性;區(qū)別性描述是指對(duì)不同類別數(shù)據(jù)之間的差別進(jìn)行描述。
2) 關(guān)聯(lián)分析。數(shù)據(jù)關(guān)聯(lián)是指數(shù)據(jù)庫(kù)中的2個(gè)或2個(gè)以上數(shù)據(jù)源之間存在的某種特定關(guān)系。常見(jiàn)的關(guān)聯(lián)主要有簡(jiǎn)單關(guān)系類關(guān)聯(lián)、時(shí)序關(guān)系類關(guān)聯(lián)和因果關(guān)系類關(guān)聯(lián)等3種。通過(guò)對(duì)數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,找出隱藏的關(guān)系網(wǎng),分析得出的關(guān)聯(lián)規(guī)則具有一定的可信度。
3) 聚類。聚類是指通過(guò)一定的方式對(duì)數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行識(shí)別和分類,將其劃分為一系列具有指定含義的子集,主要通過(guò)模式識(shí)別法和數(shù)學(xué)分類法完成。
4) 自動(dòng)預(yù)測(cè)趨勢(shì)和行為。通過(guò)數(shù)據(jù)挖掘?qū)崿F(xiàn)對(duì)數(shù)據(jù)庫(kù)中預(yù)測(cè)性信息的自動(dòng)檢索。取代原來(lái)的通過(guò)大量人工分析得到信息的方式,迅速、直接從數(shù)據(jù)庫(kù)中得到結(jié)論。
5) 偏差檢測(cè)。通過(guò)檢索數(shù)據(jù)與標(biāo)準(zhǔn)值的差別,從數(shù)據(jù)庫(kù)中提取出有意義的偏差數(shù)據(jù)。
以某船的電力系統(tǒng)為例,為實(shí)現(xiàn)基于數(shù)據(jù)挖掘的故障診斷,對(duì)其信息數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)進(jìn)行設(shè)計(jì),該系統(tǒng)主要由故障數(shù)據(jù)收集、數(shù)據(jù)監(jiān)視器、故障數(shù)據(jù)分析、數(shù)據(jù)集成器、調(diào)度中心數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘等6個(gè)模塊組成,見(jiàn)圖1。
圖1 數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)架構(gòu)
1) 故障數(shù)據(jù)收集模塊。通過(guò)故障數(shù)據(jù)收集模塊收集船舶電力系統(tǒng)中的故障錄波數(shù)據(jù)、保護(hù)及斷路器動(dòng)作信息。將通過(guò)該模塊收集的數(shù)據(jù)存入原始故障數(shù)據(jù)庫(kù)中。
2) 數(shù)據(jù)監(jiān)視器模塊。通過(guò)數(shù)據(jù)監(jiān)視器模塊監(jiān)測(cè)并提取變化的故障數(shù)據(jù),將其存入數(shù)據(jù)庫(kù)中。同時(shí),自動(dòng)開(kāi)啟一系列數(shù)據(jù)抽取和精化處理過(guò)程。
3) 故障數(shù)據(jù)分析模塊。通過(guò)故障數(shù)據(jù)分析模塊,采用各種故障分析方法,從原始數(shù)據(jù)中采集數(shù)據(jù)故障特征(可利用本文所述故障分析技術(shù)實(shí)現(xiàn),如相量分析技術(shù)、小波分析技術(shù)、神經(jīng)網(wǎng)絡(luò)技術(shù)和專家系統(tǒng)技術(shù)等)。
4) 數(shù)據(jù)集成器模塊。數(shù)據(jù)集成器模塊主要用來(lái)對(duì)故障數(shù)據(jù)分析模塊采集的數(shù)據(jù)進(jìn)行集成,待后續(xù)存入數(shù)據(jù)倉(cāng)庫(kù)中。同時(shí),該模塊能對(duì)原始數(shù)據(jù)(如故障錄波文件)與經(jīng)故障數(shù)據(jù)分析模塊分析得到的數(shù)據(jù)建立關(guān)聯(lián),從而在查詢分析結(jié)果時(shí)高效地查找出原始數(shù)據(jù)。
5) 調(diào)度中心數(shù)據(jù)倉(cāng)庫(kù)。調(diào)度中心數(shù)據(jù)倉(cāng)庫(kù)用于保存經(jīng)故障數(shù)據(jù)分析模塊和數(shù)據(jù)集成器模塊處理的數(shù)據(jù)。
6) 數(shù)據(jù)挖掘模塊。數(shù)據(jù)挖掘模塊主要用于對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的原始數(shù)據(jù)的規(guī)律進(jìn)行挖掘。
從某種意義上說(shuō),數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘技術(shù)是對(duì)系統(tǒng)中的原有數(shù)據(jù)和系統(tǒng)原有處理能力的一種系統(tǒng)集成。數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘系統(tǒng)的架構(gòu)應(yīng)與系統(tǒng)其余部分相協(xié)調(diào),不能因引入數(shù)據(jù)挖掘技術(shù)而導(dǎo)致系統(tǒng)中出現(xiàn)數(shù)據(jù)或處理的重復(fù)設(shè)置。例如:數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中的數(shù)據(jù)源(原始數(shù)據(jù)庫(kù))與故障信息系統(tǒng)中的故障錄波數(shù)據(jù)庫(kù)、保護(hù)和斷路器動(dòng)作信息庫(kù)等是相同的實(shí)體;數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中的故障數(shù)據(jù)處理模塊實(shí)際上利用的是故障信息系統(tǒng)中已有的各種故障分析功能。因此,故障信息數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘系統(tǒng)是在原故障信息系統(tǒng)的基礎(chǔ)上“進(jìn)化”而來(lái)的,并非推翻原系統(tǒng)重新設(shè)計(jì),也不是創(chuàng)建一個(gè)與原系統(tǒng)并列運(yùn)行的系統(tǒng)。
隨著船舶電力系統(tǒng)的復(fù)雜度不斷提高,監(jiān)控系統(tǒng)中表征其特性的狀態(tài)參數(shù)的數(shù)量,以及導(dǎo)致其出現(xiàn)異?;蚬收系囊蛩匾苍诓粩嘣黾?,當(dāng)狀態(tài)參數(shù)過(guò)多且實(shí)時(shí)數(shù)據(jù)刷新過(guò)快時(shí),若僅采用傳統(tǒng)的監(jiān)控手段,操作人員很難根據(jù)經(jīng)驗(yàn)對(duì)故障進(jìn)行分類甄別,并及時(shí)做出正確的決策。數(shù)據(jù)挖掘技術(shù)為解決海量數(shù)據(jù)條件下的船舶電力系統(tǒng)輔助決策問(wèn)題提供了理論和方法支撐。
數(shù)據(jù)挖掘是指在數(shù)據(jù)源的基礎(chǔ)上,發(fā)現(xiàn)隱藏在數(shù)據(jù)深層次中對(duì)人們有用的模式,可按功能的不同分為描述性挖掘和預(yù)測(cè)性挖掘2類,其中:描述性挖掘是指對(duì)數(shù)據(jù)庫(kù)中原始數(shù)據(jù)的一般特性進(jìn)行描述;預(yù)測(cè)性挖掘是指根據(jù)現(xiàn)有的原始數(shù)據(jù),對(duì)系統(tǒng)未來(lái)的狀態(tài)進(jìn)行預(yù)測(cè)。另外,模式可按實(shí)際作用的不同分為分類、數(shù)值預(yù)測(cè)、聚類、關(guān)聯(lián)規(guī)則和屬性約簡(jiǎn)等5類。
1) 分類是指通過(guò)學(xué)習(xí)一個(gè)已分類的樣本集,對(duì)未來(lái)樣本進(jìn)行分類的方法。
2) 數(shù)值預(yù)測(cè)是分類學(xué)習(xí)的一種變體,其結(jié)論是一個(gè)數(shù)值,而不是一個(gè)分類。本文的研究不涉及此類算法。
3) 聚類是指尋找能組合在一起的樣本,并據(jù)此對(duì)數(shù)據(jù)進(jìn)行分組。這種算法主要應(yīng)用于數(shù)據(jù)集中不包含決策屬性的情形。采用聚類算法可將距離相近的樣本集合在一起。本文用到的聚類技術(shù)涉及到的算法主要是EM算法。聚類也稱無(wú)指導(dǎo)的學(xué)習(xí)。
4) 關(guān)聯(lián)規(guī)則主要用來(lái)尋找各特性之間的關(guān)聯(lián),此類算法是從分類問(wèn)題中衍生而來(lái)的,本文的研究不涉及相關(guān)內(nèi)容。
5) 屬性約簡(jiǎn)多應(yīng)用在分類之前,此類算法主要用于分析數(shù)據(jù)集中各屬性的特征,并去掉對(duì)分類結(jié)果影響較小的屬性,以達(dá)到降低問(wèn)題的復(fù)雜度、提高分類或預(yù)測(cè)的準(zhǔn)確度的目的。
Prism算法是典型的模塊化分類規(guī)則歸納學(xué)習(xí)算法。該算法在尋找某個(gè)屬性進(jìn)行規(guī)則求精過(guò)程中,總是選擇能使信息增益最大的屬性與值配對(duì),從而有效避免出現(xiàn)決策樹(shù)學(xué)習(xí)中的子樹(shù)冗余問(wèn)題。
Prism算法采用覆蓋法產(chǎn)生分類規(guī)則集。覆蓋法通過(guò)依次取出每個(gè)類得到能覆蓋所有屬于該類別的實(shí)例,同時(shí)剔除不屬于該類別的實(shí)例。覆蓋法的特點(diǎn)決定了其會(huì)產(chǎn)生一個(gè)規(guī)則集,而不是決策樹(shù)。
Prism算法只建立正確的規(guī)則,利用正確率公式衡量規(guī)則的成功率。任何正確率低于100%的規(guī)則都是“不正確”的。Prism算法流程圖見(jiàn)圖2。
圖2 Prism算法流程圖
評(píng)價(jià)是數(shù)據(jù)挖掘中非常重要的過(guò)程。評(píng)價(jià)的第一個(gè)任務(wù)是對(duì)挖掘算法的性能提出衡量指標(biāo),以便對(duì)結(jié)果進(jìn)行對(duì)比和分析。因?yàn)閷?duì)于相同的數(shù)據(jù)集而言,采用不同的挖掘方法得到的結(jié)論有所不同。這種差異需用量化的方法衡量。評(píng)價(jià)的第二個(gè)任務(wù)是利用各種衡量指標(biāo)對(duì)不同算法的實(shí)際挖掘性能進(jìn)行衡量。當(dāng)數(shù)據(jù)量(即訓(xùn)練樣本)很充足時(shí),評(píng)估會(huì)比較容易。但是,當(dāng)數(shù)據(jù)量有限時(shí),如何進(jìn)行評(píng)價(jià)是一個(gè)關(guān)鍵問(wèn)題。必須尋找一些可行、可信的方法,對(duì)數(shù)據(jù)挖掘結(jié)果進(jìn)行評(píng)價(jià),以得到令人信服和滿意的結(jié)果。
1) 基于統(tǒng)計(jì)的挖掘性能評(píng)估方法。
當(dāng)訓(xùn)練樣本和測(cè)試數(shù)據(jù)有限時(shí),常用的挖掘性能評(píng)估方法有旁置法和交叉驗(yàn)證法2種。
(1) 旁置法將數(shù)據(jù)分成2部分,分別用于測(cè)試和訓(xùn)練。在實(shí)際挖掘過(guò)程中,測(cè)試數(shù)據(jù)占總數(shù)據(jù)的1/3,另外2/3為訓(xùn)練數(shù)據(jù)。為保證訓(xùn)練或測(cè)試的樣本具有代表性,實(shí)際中的隨機(jī)取樣采用分層技術(shù)完成,這樣數(shù)據(jù)在訓(xùn)練集和測(cè)試集中的每個(gè)類都有其應(yīng)有的比例。另一種減小旁置法引起的偏差的方法是重復(fù)旁置法。該方法選取不同的隨機(jī)樣本進(jìn)行一定次數(shù)的訓(xùn)練和測(cè)試。在迭代過(guò)程中,對(duì)隨機(jī)選取的一定比例的數(shù)據(jù)進(jìn)行訓(xùn)練,剩余的數(shù)據(jù)用于進(jìn)行測(cè)試。對(duì)多次迭代的誤差率進(jìn)行平均,得到一個(gè)綜合誤差率。在實(shí)際應(yīng)用過(guò)程中,一般將分層與重復(fù)2種手段結(jié)合起來(lái)應(yīng)用。
(2) 交叉驗(yàn)證法是通過(guò)確定一個(gè)折數(shù)(即數(shù)據(jù)拆分的分區(qū)數(shù)量)對(duì)數(shù)據(jù)進(jìn)行輪流分區(qū)測(cè)試的方法。當(dāng)擬定折數(shù)為時(shí),數(shù)據(jù)將被分配到個(gè)分區(qū)內(nèi),輪流將各分區(qū)應(yīng)用于測(cè)試中,其余分區(qū)應(yīng)用于訓(xùn)練中。通過(guò)次重復(fù)測(cè)試之后,每個(gè)數(shù)據(jù)都會(huì)測(cè)試1次。在實(shí)際使用時(shí),交叉驗(yàn)證的折數(shù)一般設(shè)為10折,且通常與分層技術(shù)結(jié)合使用。這種標(biāo)準(zhǔn)的訓(xùn)練測(cè)試方法稱為分層10折交叉驗(yàn)證法。本文后續(xù)的分類算法均采用分層10折交叉驗(yàn)證法。
2) 挖掘成本的衡量。
對(duì)于數(shù)據(jù)挖掘中的二值性(即類的取值只有2種)問(wèn)題,一般會(huì)產(chǎn)生正確的肯定(True Positive,TP)、正確的否定(True Negative,TN)、錯(cuò)誤的肯定(False Positive,F(xiàn)P)和錯(cuò)誤的否定(False Negative,F(xiàn)N)等4種結(jié)果。定義分類的綜合成功率為
(6)
誤差率為
(7)
式(6)和式(7)中:為綜合成功率;為正確的分類數(shù);為總體分類數(shù);為誤差率;為錯(cuò)誤的分類數(shù)。
描述TP、TN、FP和FN之間的關(guān)系的方法一般有混淆矩陣和可視化2種。對(duì)于混淆矩陣法,設(shè)某數(shù)據(jù)集有、和等3個(gè)類值,其混淆矩陣實(shí)例見(jiàn)表1?;煜仃嚨男斜硎绢愔祵?duì)應(yīng)的真實(shí)實(shí)例的個(gè)數(shù),如表1中的第一行表示屬于的真實(shí)實(shí)例的個(gè)數(shù);混淆矩陣的列表示分類值對(duì)應(yīng)的實(shí)際實(shí)例的個(gè)數(shù)。由此,矩陣的下標(biāo)(,)便表示此次挖掘結(jié)果中將屬于類的實(shí)例分到類中的實(shí)例的個(gè)數(shù)。
表1 混淆矩陣實(shí)例
以某船的電力監(jiān)控系統(tǒng)為例,利用其狀態(tài)監(jiān)測(cè)數(shù)據(jù),對(duì)本文提出的方法的有效性進(jìn)行試驗(yàn)驗(yàn)證。以該系統(tǒng)的部分狀態(tài)監(jiān)控?cái)?shù)據(jù)(見(jiàn)表2)為例,運(yùn)用Prism算法對(duì)其進(jìn)行挖掘分析。表2中:No.1~No.25為實(shí)例編號(hào);PL1~PL3為電力線路潮流標(biāo)幺值;V1~V3為母線電壓標(biāo)幺值;CB1和CB2為斷路器狀態(tài);Decision為針對(duì)已有參數(shù)作出的決策;S表示安全;U1為1級(jí)異常警報(bào);U2為2級(jí)異常警報(bào)。在對(duì)表2進(jìn)行數(shù)據(jù)挖掘之前,需對(duì)其進(jìn)行離散化,使挖掘結(jié)果的知識(shí)表達(dá)更加清晰。
表2 信息監(jiān)控?cái)?shù)據(jù)庫(kù)數(shù)據(jù)表
表2中需離散化的參數(shù)有PL1~PL3和V1~V3,其離散化區(qū)間的邊界點(diǎn)取值標(biāo)準(zhǔn)見(jiàn)表3和表4。對(duì)表2進(jìn)行離散化之后所得結(jié)果見(jiàn)表5。
表3 線路潮流PL的離散化方案
表4 母線電壓V的離散化方案
表5 表2的離散化結(jié)果
對(duì)于表5,可用統(tǒng)計(jì)直方圖的形式進(jìn)行可視化顯示,見(jiàn)圖3。圖3中,每個(gè)直柱(屬性值)均包含1種或多種顏色(黑色、深灰色和淺灰色分別代表S、U1和U2等3種決策屬性),不同顏色在直柱中所占比例代表在對(duì)應(yīng)的特定屬性值實(shí)例子集中,取相應(yīng)決策屬性的實(shí)例所占的比例。
a) PL1
b) PL2
c) PL3
d) V1
e) V2
f) V3
g) CB1
h) CB2
i) Decision圖3 表5的統(tǒng)計(jì)直方圖
采用Prism算法進(jìn)行分類,還可挖掘出有用的if-then規(guī)則,此類規(guī)則是形成船舶能量管理專家?guī)斓幕A(chǔ),具體如下:
If V1 = NORMAL then S
If CB1 = OFF and PL2 = NORMAL then U2
If PL1 = HIGH and V1 = LOW then U2
If V2 = LOW and CB1 = ON then U1
If PL2 = HIGH and V1 = HIGH then U1
以某船電力監(jiān)控系統(tǒng)狀態(tài)監(jiān)控?cái)?shù)據(jù)為例,采用Prism算法對(duì)其進(jìn)行挖掘分析。通過(guò)Prism算法對(duì)算例離散化數(shù)據(jù)進(jìn)行分類,運(yùn)用3.2節(jié)中的評(píng)估方法完成對(duì)挖掘分類結(jié)果、分類精確度指標(biāo)等性能評(píng)估及挖掘成本的衡量,結(jié)果見(jiàn)表6~表8。從表6~表8中可看出,采用Prism算法對(duì)電力系統(tǒng)故障數(shù)據(jù)進(jìn)行挖掘是有效可行的。
表6 Prism算法分類結(jié)果
表7 Prism算法分類精確度指標(biāo)
表8 Prism算法混淆矩陣
本文融合數(shù)據(jù)倉(cāng)庫(kù)技術(shù)和數(shù)據(jù)挖掘技術(shù),設(shè)計(jì)了船舶電力系統(tǒng)故障信息數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)架構(gòu),對(duì)采用的數(shù)據(jù)挖掘技術(shù)的主要方法和挖掘算法的性能評(píng)估進(jìn)行了研究,提出了基于Prism算法的電力監(jiān)控信息數(shù)據(jù)挖掘方法,并通過(guò)仿真試驗(yàn)驗(yàn)證了該方法的有效性。試驗(yàn)結(jié)果表明,該方法能為船舶電力系統(tǒng)故障診斷提供輔助決策,助力船舶合理安排檢修計(jì)劃,提高船舶電力系統(tǒng)的安全性和穩(wěn)定性,為船舶電力故障診斷決策系統(tǒng)設(shè)計(jì)提供參考。