帥 勇,宋太亮,肖自強
(1.裝甲兵工程學院,北京 100072;2.中國國防科技信息中心,北京 100142)
基于綜合模型的可靠性參數(shù)選擇方法*
帥 勇1,宋太亮2,肖自強1
(1.裝甲兵工程學院,北京 100072;2.中國國防科技信息中心,北京 100142)
為了解決裝備方案與論證階段可靠性參數(shù)及其數(shù)量選擇問題,依據(jù)文本挖掘的思想對文本數(shù)據(jù)進行特征提取和特征集縮減,利用FP-Growth算法構(gòu)建文本數(shù)據(jù)的FP-Tree來推理關(guān)鍵因素之間的頻繁集,利用模糊貝葉斯網(wǎng)絡(luò)和抽樣分布的思想,對頻繁集中形成關(guān)聯(lián)關(guān)系的關(guān)鍵因素及其主要參數(shù)進行了模糊化處理,消除主觀因素的影響并獲得所有屬性變量之間的條件互信息和最大權(quán)重有向樹,對模糊先驗概率估計和條件概率估計進行了推理,歸納了參數(shù)學習方法并建立綜合評估模型,最后通過案例驗證了綜合模型的建立與推理方法,結(jié)果表明模型有效和可信。
FP-Growth,模糊貝葉斯網(wǎng)絡(luò),文本挖掘,關(guān)聯(lián)規(guī)則,可靠性參數(shù)
在裝備研制的方案與論證階段,設(shè)計者會根據(jù)系統(tǒng)工程原理和裝備的戰(zhàn)技術(shù)特點確定裝備的可靠性參數(shù),如選擇平均故障間隔時間(MTBF)、致命性故障間的任務(wù)時間(MTBCF)或平均維修間隔時間(MTBM)等。但是對不同類型的裝備,如何選擇其可靠性參數(shù),以及選擇幾個可靠性參數(shù)合適,往往通過設(shè)計的經(jīng)驗來決定,缺乏系統(tǒng)的方法和手段。
隨著網(wǎng)絡(luò)通信與計算機技術(shù)的廣泛應(yīng)用和信息采集技術(shù)與智能設(shè)備的快速發(fā)展,以文本形式存在的非結(jié)構(gòu)化數(shù)據(jù)所占的比例逐漸加大,其中所包含的信息量和價值也不斷增加,如何從文本中發(fā)掘這些設(shè)計特性之間的關(guān)聯(lián)關(guān)系并將其用于指導裝備的研制成為一項重要的課題。本文采用文本挖掘、關(guān)聯(lián)規(guī)則分析和模糊貝葉斯網(wǎng)絡(luò)3種方法建立綜合模型,利用文本挖掘技術(shù)對文本進行預處理,使其能夠適用于頻繁樹關(guān)聯(lián)規(guī)則的運算,利用FP-Growth算法分析各關(guān)聯(lián)因素之間的關(guān)系,通過模糊貝葉斯網(wǎng)絡(luò)對各因素之間的關(guān)系模型進行訓練并驗證關(guān)聯(lián)結(jié)果,最后通過案例驗證了綜合模型的可行性和有效性。
與數(shù)據(jù)挖掘的概念有所不同,文本挖掘主要著力于從非結(jié)構(gòu)化或者半結(jié)構(gòu)化的文本中抽取有用的知識,而數(shù)據(jù)挖掘則主要是從結(jié)構(gòu)化的數(shù)據(jù)庫中發(fā)現(xiàn)數(shù)據(jù)的主要模式[1]。文本挖掘的主要用途是從文本中提取出未知的知識。由于必須處理非結(jié)構(gòu)化的文本數(shù)據(jù),文本挖掘涵蓋了信息技術(shù)、文本分析、模式識別、統(tǒng)計學、數(shù)據(jù)可視化、數(shù)據(jù)庫技術(shù)、機器學習以及數(shù)據(jù)挖掘等技術(shù),是一個多學科復雜的領(lǐng)域。文本挖掘的一般處理過程如圖1所示[1]。
圖1 文本挖掘的一般處理過程
FP-Growth算法(頻繁模式增長)運用一種專門為其設(shè)計的稱作頻繁樹(FP-Tree)的存儲結(jié)構(gòu)用于存儲事務(wù)數(shù)據(jù),這種樹型結(jié)構(gòu)利用結(jié)點共用的存儲方式對數(shù)據(jù)庫的存儲空間進行極大地壓縮,而FP-Growth則在頻繁樹上能夠在不生成候選頻繁集的情形下直接搜索全部頻繁集的一種算法[1]。FP-Growth算法采用的一種分而治之(Divide and Conquer)策略,試驗表明,F(xiàn)P-Growth算法比Apriori算法至少要快一個數(shù)量級以上[2]。
貝葉斯網(wǎng)絡(luò)是用來表示變量之間連接關(guān)系概率的圖形模式,是解決不確定性知識推理的主要方法,它提供了一種自然的表示因果信息的方法,用來發(fā)現(xiàn)數(shù)據(jù)潛在的關(guān)系[3]。模糊性反映主觀上的不確定性,即人們對有關(guān)問題定義或概念描述在語言意義理解上的不確定性。
本文結(jié)合3種數(shù)據(jù)挖掘算法的思想,通過文本挖掘技術(shù)對文本數(shù)據(jù)進行特征表示與提取,獲得縮減的特征集,利用FP-Growth算法對經(jīng)過處理后的文本數(shù)據(jù)集建立FP-Tree,發(fā)掘各個參數(shù)頻繁項集的子集,最后利用模糊貝葉斯網(wǎng)絡(luò)推理評估結(jié)果,驗證各頻繁項集子集的正確性并分析建模結(jié)果,整體建模流程如圖2所示。
圖2 整體建模流程圖
對于需要挖掘的關(guān)鍵因素,設(shè)定其屬于集合(X1,X2,…,Xn),各關(guān)鍵因素主要描述參數(shù)屬于集合{(x11,x12,…,x1i),(x21,x22,…,x2j),…,(xn1,xn2,…,xnk)},其中 n,i,j,k 為正整數(shù),n 為關(guān)鍵因素的總數(shù)。建模過程中利用文本挖掘技術(shù)將各關(guān)鍵因素描述參數(shù)的特征集歸因入該關(guān)鍵因素中,用于整體評價該關(guān)鍵因素之間的關(guān)聯(lián)關(guān)系。
2.1.1 文本數(shù)據(jù)預處理方法
本文對文本預處理采取逆向最大匹配法(ReverseMaximum Method,RM法)[1],該方法選取包含6~8個漢字的符號串作為最大符號串,把最大符號串與詞典中的單詞條目相匹配。如果兩者不能匹配,就削掉一個漢字繼續(xù)匹配,直到在詞典中找到相應(yīng)的單詞位置,匹配的方向是從左向右。實驗表明,對于漢語來說,逆向最大匹配法比最大匹配法更有效。
2.1.2 特征表示
文本特征表示指的是文本的元數(shù)據(jù),分為描述性特征(如文本的名稱,日期,大小,類型)及其語義性特征(文本的作者,機構(gòu),標題,內(nèi)容等)。特征表示是以一定的特征項來代表文檔,在進行文本挖掘時只需對這些特征項進行處理,從而實現(xiàn)對非結(jié)構(gòu)化文本的處理。向量空間模型(Vector SpaceModel,VSM)是效果較好的方法之一。在該模型中,文檔空間被看成由一組正交詞條向量所組成的向量空間,每個文檔d表示為其中的一個范化特征矢量:
式中ti為詞條項,wi(d)為ti在d中的權(quán)重??梢詫中出現(xiàn)的所有單詞作為ti,也可以要求ti是d中出現(xiàn)的所有短語,從而提高內(nèi)容特征表示的準確性。
2.1.3 特征提取
用向量空間模型得到的特征向量的維數(shù)往往會達到數(shù)十萬維,如此高維的特征對即將進行的分類學習未必全是重要和有益的,而且高維的特征會大大延長機器的學習時間,這便是特征提取所要完成的工作。特征提取算法通過構(gòu)造一個評價函數(shù),對每個特征進行評估,然后把特征按分值高低排列,預定分數(shù)最高的特征將被選取。在文本處理中,常用的評估函數(shù)有信息增益、期望交叉熵、互信息、文本證據(jù)權(quán)和詞頻。本文采用文本證據(jù)權(quán)來進行特征提取,該評估函數(shù)用于衡量類的概率和給定特征時類的條件概率之間的差別,其在實驗中的效果要優(yōu)于期望交叉熵。文本證據(jù)權(quán)評估函數(shù)如下:
2.1.4 特征集的縮減(公式)
特征集的縮減通過潛在的語義索引(latentsemantic indexing)方法,利用矩陣理論中的“奇異值分解”(Singular Value Decomposition)技術(shù),將詞頻矩陣轉(zhuǎn)化為K×K的奇異矩陣,其基本步驟如下:
①建立詞頻矩陣;②詞頻矩陣的奇異值分析,分解詞頻矩陣為3個矩陣U、S、U。U和V是正交矩陣(UV=I),S是奇異值的對角矩陣(K×K);③對于每一個文檔d,用排除了SVD中消除后的詞的新向量替換原向量;④保存所有向量集合,用高級多維索引技術(shù)為其創(chuàng)建索引;⑤用轉(zhuǎn)換后的文檔向量進行相似度計算。
①設(shè)定最小支持度閾值,對經(jīng)過處理的文本數(shù)據(jù),尋找出頻繁項集,并按支持度的大小進行排序,組成列表,令該列表為L,則有L={(xi,m),(xj,p),…,(xk,q)}。其中 i,j,k,m,p,q 為任意正整數(shù),且m≥p≥q;
②從優(yōu)先度最低的項目開始,讀取包含該項目的全部事務(wù)數(shù)據(jù),并構(gòu)建關(guān)于該項目條件的頻繁樹;
③對于條件頻繁樹,根據(jù)最小支持度進行剪枝,刪除小于最小支持度的節(jié)點;
④對經(jīng)過剪枝后的條件頻繁樹提出頻繁集,得到所有包含該項目的頻繁集;
⑤按照優(yōu)先度的逆序,選擇下一個項目,重復②~④的做法,找到全部包含該項目的頻繁集。頻繁模式樹的構(gòu)造過程如圖3所示;
⑥直到找到全部包含優(yōu)秀度最高的項目的頻繁集,則算法結(jié)束。
2.3.1 模糊貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)建立
針對需要挖掘的影響因子,根據(jù)貝葉斯網(wǎng)絡(luò)的參數(shù)學習原理,以上屬性參數(shù)需要符合以下兩個假設(shè):
圖3 頻繁模式樹的構(gòu)造過程
依據(jù)貝葉斯網(wǎng)絡(luò)節(jié)點,定義合適的隸屬度將其模糊化,得到各個屬性的模糊化權(quán)重及取值。
FTANC的結(jié)構(gòu)學習方式為:FTANC是至多只有兩個結(jié)點的樹增廣樸素模糊貝葉斯網(wǎng)絡(luò)模型,其學習結(jié)構(gòu)算法和步驟為[3]:
第1步:模糊化屬性變量,如果屬性取值不能精確描述,或者屬性取值連續(xù),則對這些屬性定義合適的隸屬度uxi(xi)將屬性模糊化,而對于隨機取值的屬性則進行模糊化處理。
第2步計算所有屬性變量之間的條件互信息。
從而有:
①按權(quán)重值的大小從高到低對邊進行排序;②根據(jù)邊的權(quán)重值大小按照從高到低的順序選擇連接,邊的循環(huán)連接過程中不能使連接形成回路;③對連接邊進行選擇,這些被選中的邊構(gòu)成了最大權(quán)重無向樹;④令其中的某個結(jié)點為根節(jié)點,以根節(jié)點作為所有邊延伸方向的起點,從而實現(xiàn)無向樹到有向樹的轉(zhuǎn)變。
第4步:增加一個類結(jié)點(該類結(jié)點通常與關(guān)鍵因素的屬性有關(guān)),并在所有關(guān)鍵因素屬性結(jié)點與該類結(jié)點之間增加一個弧。
2.3.2 模糊貝葉斯網(wǎng)絡(luò)參數(shù)建立
①模糊先驗概率估計
只需要從樣本中學習得到p(xi),就可以通過定義給出ux?i(xi)[2];
②模糊條件概率估計
③FTANC參數(shù)學習算法
FTANC參數(shù)學習算法過程以下[3]:
TAN網(wǎng)的每個結(jié)點至多有兩個父節(jié)點,將分兩種情況考慮模糊條件概率的計算。
根據(jù)FTANC結(jié)果學習階段給出的計算公式,就可以得到模糊貝葉斯網(wǎng)絡(luò)的CPT表。
對于需要進行關(guān)聯(lián)規(guī)則分析的文本數(shù)據(jù),將需要挖掘的關(guān)鍵因素及其主要描述參數(shù)作為搜索的關(guān)鍵詞,用于綜合判定各關(guān)鍵因素之間的潛在關(guān)系。
對于給定的文本數(shù)據(jù),分析過程如下:
①按照逆向最大匹配法統(tǒng)計文本中關(guān)鍵詞出現(xiàn)的頻率,并進行文本特征提取和特征集縮減;
②對處理后的各關(guān)鍵因素頻次建立頻繁模式樹,獲取各關(guān)鍵因素之間的關(guān)聯(lián)關(guān)系頻繁集;
③針對頻繁集中的關(guān)鍵因素,將關(guān)鍵因素及其關(guān)鍵詞出現(xiàn)轉(zhuǎn)化為權(quán)重,對應(yīng)的形容詞采用抽樣分布中避免“棄真”和“取偽”的思想,即將文本中出現(xiàn)諸如“高,強”等形容詞歸納為一個等級,認為該屬性趨近于1具有很高可能性,取值范圍是(0.9,1);如出現(xiàn)“低、弱”等形容詞歸納為一個等級,認為該屬性趨近于1具有很低的可能性,取值范圍是(0,0.1)。為了便于計算,取各區(qū)間的平均值0.95和0.05。各關(guān)鍵因素樣本量化等級如表1所示。
表1 關(guān)鍵因素樣本量化
④權(quán)重集模糊化處理。依據(jù)建模假設(shè),設(shè)貝葉斯網(wǎng)絡(luò)有 n 個結(jié)點,分別是 X1,X2,…,Xn,下面分別用 x1,x2,…,xn來表示 X1,X2,…,Xn的一個取值。由于屬性取值不能精確描述,那么定義合適的隸屬度將其模糊化,其中1≤i≤n滿足
在對屬性進行“模糊化”的處理時,變量x對A的隸屬度只能是0或1。按照上述方式分別將這n個屬性變量模糊化成n個離散的模糊變量的一個取值。
⑤建立屬性變量的樹增廣樸素貝葉斯(TANC)網(wǎng)。
⑥參數(shù)學習與模糊推理。模糊先驗概率的學習和 FNBC(Fisher Naive Bayes Classifier)中先驗概率的學習方法一樣,模糊條件概率的學習需要按照2.3節(jié)中的要求分為兩種情況來說明。
⑦將生成數(shù)據(jù)用于與實際文本數(shù)據(jù)進行比較,評判或驗證關(guān)聯(lián)關(guān)系建立的可行性和效率。
本文以某型裝甲裝備的動力系統(tǒng)為案例進行分析。在設(shè)計該裝備的動力系統(tǒng)之前,采集該類型裝備的動力系統(tǒng)設(shè)計文檔6份,其中使用到的可靠性參數(shù)包括:平均故障間隔時間、平均維修間隔時間、致命性故障間的任務(wù)時間、可靠壽命、使用壽命、平均故障前時間,其關(guān)聯(lián)性分析參數(shù)代號如表2所示。
將這6個參數(shù)作為文本挖掘的依據(jù),采用綜合模型對這些參數(shù)與可靠性之間的關(guān)聯(lián)關(guān)系進行預測,并將結(jié)果與已有報告結(jié)果進行比較和分析。
表2 關(guān)聯(lián)性分析參數(shù)代號
①利用編程對文本數(shù)據(jù)進行處理,提取文檔中參數(shù)出現(xiàn)的頻次,并將其進行特征提取和縮減,定義可靠性的分類代號為p,最終縮減的頻次特征集如表3所示。
表3 文本數(shù)據(jù)縮減特征集
②建立頻繁樹模型。由于本案例只需要分析可靠性與其參數(shù)之間的關(guān)系,為了便于計算,當p的頻次與其它關(guān)鍵因素頻次一致時,將p的排序后移一位。給定最小支持度閾值為2,從圖4中可知,在p參與的所有文本集中,F(xiàn)P-Tree中有3條路可選,即{(e,5),(a,1),(c,1),(f,1),(p,1)}、{(e,5),(b,3),(f,2),(d,2),(p,1)}、{(e,5),(b,1),(a,1),(f,1),(p,1)}和{(b,1),(a,1),(f,1),(d,1),(p,1)}。那么含有p的樣本數(shù)據(jù)是:{(e,1),(a,1),(c,1),(f,1),(p,1)}、{(e,1),(b,1),(f,1),(d,1),(p,1)}、{(e,1),(b,1),(a,1),(f,1),(p,1)}和{(b,1),(a,1),(f,1),(d,1),(p,1)}。根據(jù)給定的最小支持度閾值,頻繁集{(e,2),(f,2),(p,2)}、{(e,2),(a,2),(f,2),(p,2)}、{(e,2),(b,2),(f,2),(p,2)}、{(a,2),(c,2),(p,2)}、{(b,2),(d,2),(p,2)}和{(b,2),(a,2),(p,2)}滿足要求,記錄為{e,f,p}、{e,a,f,p}、{e,b,f,p}、{a,c,p}、{b,d,p}和{b,a,p}。根據(jù)關(guān)聯(lián)關(guān)系推演,可以認為在最小支持度為2時,與可靠性關(guān)聯(lián)性最強的可能性有6種,其中4種可能性的使用參數(shù)量為2,兩種可能性的使用參數(shù)量為3。針對這種模糊的關(guān)聯(lián)關(guān)系,建立模糊貝葉斯網(wǎng)絡(luò)對案例進行訓練,并比較訓練結(jié)果與實際結(jié)果的正確性。
圖4 可靠性管理分析FP-Tree
③針對上一步的關(guān)聯(lián)關(guān)系分析,按照綜合評估模型的方法統(tǒng)計關(guān)鍵詞及其形容詞所出現(xiàn)的頻次,并依據(jù)關(guān)鍵因素樣本量化等級進行區(qū)分。依據(jù)綜合模型第⑤步要求,建立屬性變量的樹增廣樸素貝葉斯(TANC)網(wǎng)。以{e,a,f,p}和{e,b,f,p}為例,其樹增廣樸素貝葉斯網(wǎng)結(jié)構(gòu)如圖5所示。
圖5 各關(guān)聯(lián)關(guān)系樹增廣樸素貝葉斯網(wǎng)結(jié)構(gòu)
由于可靠性參數(shù)的指標不存在隨機變量問題,所以在進行模糊化的時候只需要將所有變量正常模糊化處理即可。對于可靠性評定結(jié)果C,定義結(jié)果的取值為(好,差),故C的取值范圍分別為(0.05,0.95)。根據(jù)表2對屬性量化處理依據(jù),指標X1,X2,…,X6及處理結(jié)果 C 模糊化為模糊變量(,可靠性各參數(shù)評價結(jié)果的詞頻如表 4所示。
表4 可靠性參數(shù)評價結(jié)果頻次
可以比較出較大,則c?最大評分參量的取值為0.95,表示使用壽命和平均故障前時間對該型號裝備動力系統(tǒng)的可靠性評價結(jié)果為好,與實際報告中的結(jié)論一致。
對案例中的數(shù)據(jù),利用編程進行推理測試,結(jié)果和可靠性報告中的評價一致視為推理正確,F(xiàn)TANC評價的準確率為推理正確數(shù)與可推理案例的總數(shù)之比,分類結(jié)果如表5所示。
在當前案例的背景下,通過模型推理差異的比較,推理正確數(shù)和正確率最高分別是{e,f,p}、{e,a,f,p}和{b,d,p},最低的為{b,a,p}。此結(jié)果的意義是在最小支持度閾值為2的情況下,使用組合{e,f,p}、{e,a,f,p}或{b,d,p}來對可靠性進行評估的準確率較高,而使用{b,a,p}來評估可靠性準確率較低。通過運算過程中對差值的比較,還可以發(fā)現(xiàn){e,a,f,p}組合計算出的差值較其他兩個組合更大,說明使用平均維修間隔時間、使用壽命與平均故障前時間評估可靠性的靈敏性更強。因此,對于該型號裝備動力系統(tǒng)的可靠性參數(shù),建議選擇數(shù)量為3個,分別是平均維修間隔時間、使用壽命與平均故障前時間。
表5 FTANC分類結(jié)果比較表
與傳統(tǒng)的可靠性參數(shù)及其數(shù)量的選擇方法相比,基于綜合模型的可靠性參數(shù)選擇算法既發(fā)揮了文本數(shù)據(jù)的集成性,又發(fā)現(xiàn)了可靠性與其參數(shù)之間的關(guān)聯(lián)性。同時,利用模糊貝葉斯網(wǎng)絡(luò)模型進行訓練得出的結(jié)果比使用非模糊樹增廣樸素貝葉斯模型網(wǎng)絡(luò)模型的精度更高。因此,綜合模型具有較高的精度、較快的處理速度以及較好的結(jié)果區(qū)分度,其建模的結(jié)果是可信的。
文本挖掘主要是尋找自然語言文本中的規(guī)律、模式或者趨向,并且通常是為了特定目的進行的關(guān)于文本的分析。通過對數(shù)據(jù)的兩次掃描,F(xiàn)P-Growth算法避免了候選集項的產(chǎn)生,并極大地減少了數(shù)據(jù)交換和頻繁匹配的開銷。貝葉斯網(wǎng)絡(luò)具有正向推理和逆向診斷的特點,其分析針對的是滿足條件下的整體原因與結(jié)果的不確定性,而模糊性的特點則是人類問題概念的描述對語言意義理解的不確定性。本文結(jié)合以上3種方法的優(yōu)點,利用文本挖掘的方法對文檔進行特征提取和特征集縮減,保證了文檔的高相似度,利用FP-Growth算法構(gòu)件FP-Tree,推理出關(guān)鍵因素的關(guān)聯(lián)關(guān)系,模糊化處理關(guān)鍵因素過程中采用了貝葉斯網(wǎng)絡(luò)和抽樣分布的思想,構(gòu)建了最大權(quán)重無向樹和有向樹,在構(gòu)建模糊貝葉斯網(wǎng)路網(wǎng)絡(luò)參數(shù)模型過程中,推算了模糊先驗概率、模糊條件概率及參數(shù)學習方法,最后利用案例對綜合模型進行了推算和驗證,結(jié)果顯示該模型具有可行性和有效性。
由于篇幅的限制,本文采用的案例量和影響因素量較小,可能會影響到關(guān)聯(lián)性分析的準確性;案例中使用的最小支持度閾值為2,如果使用最小支持度閾值為3也是可以計算出結(jié)果的,但不便于比較模糊貝葉斯訓練結(jié)果;對于頻繁集關(guān)鍵因素模糊化處理方法過于理想化,使得某些權(quán)重的反應(yīng)靈敏度受到影響,降低了模型的推廣性,如果能夠在(0,1)之間利用隨機數(shù)賦予權(quán)值并多次仿真,訓練結(jié)果可能會更加接近于實際。
[1]劉世平.數(shù)據(jù)挖掘技術(shù)及應(yīng)用[M].北京:高等教育出版社,2010.
[2]鄭巖.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘原理及應(yīng)用[M].北京:清華大學出版社,2011.
[3]廖芹,郝志峰,陳志宏.數(shù)據(jù)挖掘與數(shù)學建模[M].北京:國防工業(yè)出版社,2010.
[4]成小良.無線傳感器網(wǎng)絡(luò)剩余能量實時監(jiān)測方法研究[D].北京:清華大學,2010.
[5]Averill M.Law.Simulation Modeling and Analysis[M].北京:清華大學出版社,2009.9.
[6]Lonnie D B,Jeffrey LW.Systems Analysis&Design for the GolbalEnterprise[M].北京:高等教育出版社,2008.
[7]Han JW,KamberM,Pei J.DataMining Concepts and Techniques[M].北京:機械工業(yè)出版社,2012.
[8]陳燕.數(shù)據(jù)挖掘技術(shù)與應(yīng)用[M].北京:清華大學出版社,2011.
[9]Krauthausen P,Hanebeck UD.Intention Recognition forPartial-order Plans using Dynamic Bayesian Network[C]//12th IntConfon Information Fusion.Seattle,2009.
[10]Cho H C,F(xiàn)adaliM S,Yeo DY.Nonlinear Network Induced Time Delay System with Online Dynamic Bayesian Learning[C]//Int JointConf.Fukuoka,2009.
Research of Reliability Parameters Selection Method Based on Com prehensiveM odel
SHUAIYong1,SONGTai-liang2,XIAOZi-qiang1
(1.Academy of Armored Force Engineering,Beijing 100072,China;2.China Defense Science&Technology Information Center,Beijing 100142,China)
For the sake of solving the problem of selecting the reliability parameters and their number during the pierod of projecting and argumenting,this article extracts the feature and curtail feature sets from text data based on the thought of textmining,constructs FP-Tree of the text data to reason frequent itemset between the key factors by FP-Growth arithmetic,fuzzifys the key attributes that forms associated relationship in frequent itemsets and theirmain paremeter based on the thought of fuzzy bayesian network and sample distribution,eliminates the subjective influence factors and obtains condition mutual information and maximum weight directed tree between all the attribute variables,reasons fuzzy prior probability and contingent probability and concludes parameter learning method,establishes the integrated model,validates the foundation and reasoning method through the example finally and the result shows that themodel is believable and effective.
FP-Growth,fuzzy bayesian network,textmining,association rules,reliability parameter
TP311
A
1002-0640(2015)11-0062-07
2014-09-22
2014-11-08
軍隊科研計劃基金資助項目(2010SC22;2012QC49)
帥 勇(1983- ),男,重慶人,博士研究生。研究方向:裝備保障信息化與數(shù)據(jù)挖掘。