杜 仲
(四川航空股份有限公司重慶分公司,重慶 401120)
數(shù)據(jù)挖掘是一門新興技術(shù),面對(duì)的是大量的、隨機(jī)的、不完全的數(shù)據(jù),需要從大量、不完全以及隨機(jī)的數(shù)據(jù)中提取人們?nèi)庋蹮o(wú)法識(shí)別的、隱含的數(shù)據(jù)信息,并且這些信息又是具有指導(dǎo)性和決策性的信息,對(duì)航空維修具有重要意義。數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)了對(duì)數(shù)據(jù)庫(kù)的檢索、查詢、分析等功能,并且還能對(duì)航空維修需要的信息進(jìn)行詳細(xì)分析,進(jìn)一步指導(dǎo)實(shí)際問(wèn)題的解決;能發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)系、事件之間的關(guān)系以及規(guī)律,從而對(duì)航空維修事件進(jìn)行有效分析。
研究數(shù)據(jù)挖掘技術(shù)在航空維修中的應(yīng)用之前,首先對(duì)此文涉及的理論進(jìn)行簡(jiǎn)要論述,掌握其基本的理論含義,有利于進(jìn)一步分析研究。因此,首先進(jìn)行理論概念綜述,更好的認(rèn)識(shí)數(shù)據(jù)挖掘技術(shù)[1]。
隨著信息產(chǎn)業(yè)的發(fā)展,成千上萬(wàn)個(gè)數(shù)據(jù)庫(kù)開(kāi)始應(yīng)用于各個(gè)行業(yè)、領(lǐng)域,數(shù)據(jù)涌現(xiàn)的趨勢(shì)不可改變,巨大挑戰(zhàn)是如何處理數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,將有用的數(shù)據(jù)盡快地提取和分析。為解決這一問(wèn)題,數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生。
數(shù)據(jù)挖掘的屬性比較特殊,有許多學(xué)科交叉的屬性,它與統(tǒng)計(jì)學(xué)科、數(shù)據(jù)庫(kù)理論、知識(shí)工程以及數(shù)據(jù)可視化等技術(shù)密切相關(guān)。并且由于其數(shù)據(jù)能大范圍的使用而引發(fā)廣泛的關(guān)注,最主要的意義是能夠轉(zhuǎn)換數(shù)據(jù),將其轉(zhuǎn)變?yōu)榭捎眯畔?。?shù)據(jù)挖掘重要的依靠是數(shù)據(jù)庫(kù),數(shù)據(jù)庫(kù)已經(jīng)得到了廣泛應(yīng)用,而數(shù)據(jù)庫(kù)之所以被廣泛的接受,其中最重要的原因是數(shù)據(jù)庫(kù)技術(shù)與新型技術(shù)的集成使用。隨著數(shù)據(jù)庫(kù)儲(chǔ)存量的增大和數(shù)據(jù)庫(kù)的廣泛使用,與其相關(guān)的處理技術(shù)也會(huì)得到一定的發(fā)展,新的需求促使新技術(shù)的產(chǎn)生。后續(xù)的發(fā)現(xiàn)和研討,將為數(shù)據(jù)挖掘技術(shù)提供更多的機(jī)遇。
數(shù)據(jù)挖掘的任務(wù)主要分為兩類。一類做預(yù)測(cè)任務(wù),就是通過(guò)現(xiàn)有的數(shù)據(jù)及知識(shí)屬性,預(yù)測(cè)特定的屬性值。另一類是描述任務(wù),此任務(wù)項(xiàng)目的工作通常是探查性的,并且通常需要進(jìn)行后期的技術(shù)檢驗(yàn)以及結(jié)果的解釋。在航空領(lǐng)域中,數(shù)據(jù)挖掘工作可以應(yīng)用于復(fù)雜的航空維修工作,因?yàn)楹娇站S修工作的細(xì)節(jié)比較瑣碎、工作內(nèi)容復(fù)雜并且沒(méi)有明顯的規(guī)律可以遵循,人們通常都是根據(jù)經(jīng)驗(yàn)進(jìn)行維修,除此之外很難發(fā)現(xiàn)相應(yīng)的規(guī)律。此時(shí),數(shù)據(jù)挖掘顯現(xiàn)出它的特點(diǎn)和優(yōu)勢(shì)。在航空維修中,數(shù)據(jù)挖掘的主要任務(wù)就是從海量的數(shù)據(jù)中尋找和捕捉人類肉眼無(wú)法獲取的信息和數(shù)據(jù),提高航空維修的準(zhǔn)確度。因此,數(shù)據(jù)挖掘技術(shù)是航空維修必需的技術(shù),從任務(wù)領(lǐng)域中,也可以看出進(jìn)一步進(jìn)行數(shù)據(jù)挖掘在航空維修中的應(yīng)用研究有著十分重要的作用。
由于航空維修工作的需要,根據(jù)實(shí)際情況建造航空維修數(shù)據(jù)挖掘系統(tǒng)框架。航空維修數(shù)據(jù)挖掘系統(tǒng)總體框架由3 層結(jié)構(gòu)組成。第一層結(jié)構(gòu)為數(shù)據(jù)存儲(chǔ),第二層是數(shù)據(jù)挖掘,第三層是圖形用戶界面。其中,第一層的數(shù)據(jù)來(lái)源是以往航空維修數(shù)據(jù)庫(kù)的數(shù)據(jù)資料,但對(duì)原始數(shù)據(jù)進(jìn)行了集成及轉(zhuǎn)換處理,然后進(jìn)入數(shù)據(jù)挖掘庫(kù)。數(shù)據(jù)庫(kù)系統(tǒng)主要存儲(chǔ)航空維修數(shù)據(jù)中某一類的維修數(shù)據(jù),數(shù)據(jù)挖掘是該結(jié)構(gòu)的核心內(nèi)容。最后傳輸?shù)接脩艚缑?,輸出模式可以為可視化模式?/p>
2.2.1 問(wèn)題定義
由于研究的模型是基于航空維修數(shù)據(jù)建立的,屬于特定領(lǐng)域。因此,為了提出一個(gè)有意義并且能夠利用現(xiàn)有條件解決的問(wèn)題,必須掌握一定的航空維修知識(shí)。然而,部分學(xué)者在研究數(shù)據(jù)挖掘時(shí),并沒(méi)有意識(shí)到問(wèn)題的描述,建立模型時(shí)只選擇未知的相關(guān)性制定變量[2]。這一步驟要求我們了解該領(lǐng)域知識(shí),現(xiàn)實(shí)中這些問(wèn)題都是通過(guò)該領(lǐng)域的專家和數(shù)據(jù)挖掘?qū)<液献魍瓿?,因此一個(gè)成功的數(shù)據(jù)挖掘應(yīng)用中,專家之間的合作不單單存在于初始階段,也處于整個(gè)數(shù)據(jù)挖掘過(guò)程之中。也就是需要明確的定義業(yè)務(wù)問(wèn)題,感受領(lǐng)域的相關(guān)信息,理解知識(shí),搞清楚用戶的需求。認(rèn)清問(wèn)題是數(shù)據(jù)挖掘最重要的一步,雖然結(jié)果不可預(yù)測(cè),但是分析的問(wèn)題要有依據(jù)的,不能盲目應(yīng)用,否則必然失敗。
2.2.2 數(shù)據(jù)準(zhǔn)備
第一步需要數(shù)據(jù),進(jìn)一步探索和尋找與航空維修有關(guān)的資料和數(shù)據(jù)信息,同時(shí)還需要挑選出適合于數(shù)據(jù)挖掘應(yīng)用的信息和數(shù)據(jù)。此階段要確定數(shù)據(jù)收集方式,一般有兩種收集方式,一種由專家控制的收集,另一種是觀察法收集。觀察法收集時(shí),數(shù)據(jù)是未知的,取樣分布也是未知的,但可以掌握數(shù)據(jù)搜集對(duì)理論分布的影響。其次要進(jìn)行數(shù)據(jù)預(yù)處理,這是整個(gè)過(guò)程之中十分重要的工作。內(nèi)容包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變化、數(shù)據(jù)規(guī)約。最后是數(shù)據(jù)轉(zhuǎn)換,根據(jù)具體問(wèn)題建立模型,隨后確定相應(yīng)的算法,將數(shù)據(jù)轉(zhuǎn)換為適用的形式,此階段的作用是為了適用模型算法,為后續(xù)工作提供便利。
2.2.3 數(shù)據(jù)挖掘
此階段的工作是明確合適的算法,剩余的工作都可以自動(dòng)合成。
2.2.4 結(jié)果分析
數(shù)據(jù)挖掘中得到的系列信息及模型,是否能有效處理航空維修中的問(wèn)題、挖掘到有價(jià)值、有意義的數(shù)據(jù)信息,都需要進(jìn)行相關(guān)的歸納、研究、評(píng)估、分析工作。該階段要注意的問(wèn)題是結(jié)果分析的方法通常根據(jù)數(shù)據(jù)挖掘操作進(jìn)行處理,可視化技術(shù)為主要的技術(shù)手段。
2.2.5 知識(shí)集成
知識(shí)集成就是把收集到的通過(guò)分析得到的知識(shí),整理歸納到業(yè)務(wù)信息系統(tǒng)中。
通常所說(shuō)的數(shù)據(jù)源發(fā)揮的作用是提供挖掘數(shù)據(jù)存儲(chǔ)地址,在整個(gè)過(guò)程中,數(shù)據(jù)源扮演著一個(gè)存儲(chǔ)器的角色,存儲(chǔ)大量分析數(shù)據(jù)。數(shù)據(jù)源表示到數(shù)據(jù)地址的一個(gè)鏈接,并且系列定義物理地址的連接字符串等。字符串包含服務(wù)器的名稱、安全性、超時(shí)值等信息。
需要生成的包括數(shù)據(jù)庫(kù)對(duì)象所使用的模型,包含N 個(gè)基礎(chǔ)數(shù)據(jù)源中選定的數(shù)據(jù),可以通過(guò)N 個(gè)數(shù)據(jù)源的生成,包含單獨(dú)存在的關(guān)系、相應(yīng)的計(jì)算等,客戶無(wú)法通過(guò)客戶端看到數(shù)據(jù)[3]。
挖掘結(jié)構(gòu)定義生成挖掘模型的數(shù)據(jù)域,數(shù)據(jù)挖掘結(jié)構(gòu)不包括算法以及算法類型。同一個(gè)數(shù)據(jù)挖掘結(jié)構(gòu)能創(chuàng)建多個(gè)數(shù)據(jù)挖掘模型,并且建立的挖掘模型都由一個(gè)數(shù)據(jù)源發(fā)展而成。
建設(shè)模型是整個(gè)過(guò)程的重心和重點(diǎn),簡(jiǎn)單的說(shuō),可以把數(shù)據(jù)挖掘模型看作是一個(gè)樹(shù)狀圖,用來(lái)存儲(chǔ)相關(guān)信息,數(shù)據(jù)挖掘模型的任務(wù)是存儲(chǔ)數(shù)據(jù)挖掘模型。創(chuàng)建模型時(shí)需要指定列的具體用法,輸入列是識(shí)別信息以及學(xué)習(xí)信息,輸出列則是分析和預(yù)測(cè)。
模型處理在此階段也可以說(shuō)為模型訓(xùn)練,在此模型的數(shù)據(jù)處理中,數(shù)據(jù)挖掘算法把處理集中的數(shù)據(jù)輸入沒(méi)有經(jīng)過(guò)處理的模型,把訓(xùn)練數(shù)據(jù)輸入后,數(shù)據(jù)不存到挖掘模型中,只進(jìn)行分析,從中找到一些規(guī)則和模式,再根據(jù)模式和利用這規(guī)則填充模型。
飛機(jī)啟動(dòng)系統(tǒng)是飛機(jī)重要的組成部分,但是在日常工作中,經(jīng)常因?yàn)轱w行系統(tǒng)故障造成機(jī)器無(wú)法正常運(yùn)行。因此要通過(guò)海量的維修數(shù)據(jù)和信息的分析和處理,使用數(shù)據(jù)挖掘技術(shù)解決飛行系統(tǒng)故障。要對(duì)故障進(jìn)行分析,并且預(yù)測(cè)下一階段的趨勢(shì),提前準(zhǔn)備。其他的維修工作也可以參照,做法是利用粗糙集約簡(jiǎn)的方法來(lái)解剖和分離出故障的關(guān)鍵性原因,然后分析故障數(shù)據(jù),研究故障類型,進(jìn)行時(shí)間序列相似性的處理搜索,并且對(duì)未來(lái)情況進(jìn)行判斷,做出合理的預(yù)測(cè)。在處理過(guò)程中,要對(duì)故障模式以及失效率高數(shù)進(jìn)行分析,該方法可以用到不同系統(tǒng)的飛機(jī)數(shù)據(jù)處理,建立起故障預(yù)測(cè)模型,對(duì)于航空維修決策的制定有著重要意義,可以減少維修成本,保障人員安全[4]。
目前,航空飛行安全面臨著許多新的特點(diǎn)、新的問(wèn)題,提升飛行安全最重要的工作就是進(jìn)行航空維修,航空維修離不開(kāi)信息的分析及利用。因此,應(yīng)該建立起一個(gè)一體化的系統(tǒng)研究模型,讓決策者以及工作人員能透過(guò)大數(shù)據(jù)準(zhǔn)確把握復(fù)雜的業(yè)務(wù)信息,能對(duì)信息進(jìn)行客觀分析,對(duì)航空維修保障工作有指導(dǎo)意義,從而提升航空安全管理水平和企業(yè)經(jīng)濟(jì)效益。