胡維迪 王 煒 何 欣 張涵宇
(云南大學(xué)軟件學(xué)院 昆明 650500)
橋梁劣化因果分析就是找出影響橋梁健康狀況較大的屬性以及屬性組合。隨著交通數(shù)據(jù)的完備,人們提出了許多數(shù)據(jù)驅(qū)動(dòng)的橋梁等級(jí)狀況預(yù)測(cè)方法。如使用馬爾可夫鏈[2~3]、人工神經(jīng)網(wǎng)絡(luò)(ANN)[4~5]、模糊技術(shù)[6]、回歸分析[7~8]。這些模型將橋梁數(shù)據(jù)轉(zhuǎn)化為不同的特征,并依據(jù)這些特征進(jìn)行預(yù)測(cè)。目前,對(duì)橋梁劣化因果的分析方法,存在選取的橋梁屬性較少為單目標(biāo)或幾個(gè)目標(biāo),單目標(biāo)即使用與橋梁健康狀況相關(guān)的一個(gè)屬性進(jìn)行分析,比如只考慮橋梁建成年限[9],只考慮溫度[10]。多目標(biāo)即使用與橋梁健康狀況相關(guān)的多個(gè)屬性進(jìn)行分析,比如考慮橋梁的材料、交通流量和降雨等環(huán)境因素[13~14],使用多目標(biāo)橋梁劣化分析更能反映出橋梁各個(gè)屬性之間對(duì)橋梁劣化的影響。但這些方法對(duì)實(shí)驗(yàn)數(shù)據(jù)要求較高,如馬爾科夫鏈方法需要橋梁的歷史數(shù)據(jù)滿足等時(shí)距和時(shí)間跨度較大的數(shù)據(jù),回歸方法需要將橋梁數(shù)據(jù)都轉(zhuǎn)化為數(shù)值型數(shù)據(jù)等等。
數(shù)據(jù)挖掘是從市場(chǎng)交易中發(fā)現(xiàn)知識(shí)的最有用的工具,其最重要的應(yīng)用之一是發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,從中找到兩個(gè)或多個(gè)變量的取值之間存在某種規(guī)律性。大多數(shù)關(guān)聯(lián)規(guī)則算法基于Agrawal等提出的方法[11~12]。
該文采用關(guān)聯(lián)規(guī)則算法,對(duì)實(shí)驗(yàn)數(shù)據(jù)要求較低,能處理任何類型的數(shù)據(jù),能清晰反映橋梁各個(gè)屬性間的關(guān)聯(lián)因果關(guān)系。但是,關(guān)聯(lián)規(guī)則算法在高支持度和高置信度下,會(huì)產(chǎn)生關(guān)聯(lián)規(guī)則較少及無關(guān)聯(lián)規(guī)則產(chǎn)生問題;在相對(duì)低支持度和低置信度下,會(huì)產(chǎn)生的大量關(guān)聯(lián)規(guī)則和一些誤導(dǎo)關(guān)聯(lián)規(guī)則問題,都影響著關(guān)聯(lián)規(guī)則的質(zhì)量和實(shí)驗(yàn)結(jié)果的準(zhǔn)確性。
針對(duì)以上問題,提出了一種多目標(biāo)橋梁劣化的因果分析方法,在關(guān)聯(lián)規(guī)則挖掘算法的基礎(chǔ)上引入遺傳算法和灰色關(guān)聯(lián)分析方法對(duì)云南省亞熱帶季風(fēng)氣候地區(qū)橋梁進(jìn)行了分析。
多目標(biāo)橋梁劣化因果分析抽象如下。目的是找出對(duì)于橋梁健康影響較大的屬性,設(shè)xi、xj表示橋梁相關(guān)的屬性值,找出后項(xiàng)集分別含有1類橋、2類 橋 等 關(guān) 聯(lián) 規(guī) 則,{x2,x3,…,xi}→{1類,…}、{x5,x6,…,xj}→{2類,…}、{x3,x5,…,xi}→{3類,…}等等。
設(shè)I={i1,i2,…,im}是由m個(gè)不同項(xiàng)目組成的集合,每個(gè)ik稱為一個(gè)項(xiàng)目。集合I稱為項(xiàng)集。長(zhǎng)度為K的項(xiàng)集稱為K-項(xiàng)集。設(shè)D={t1,t2,…,tn}是數(shù)據(jù)庫事務(wù)的集合。設(shè)X是一個(gè)項(xiàng)集,事務(wù)T包含X。
若項(xiàng)集A?I,B?I,并且A∩B=?,則A→B的蘊(yùn)含式稱為關(guān)聯(lián)規(guī)則,其中A稱為規(guī)則的前項(xiàng)集,B為規(guī)則的后項(xiàng)集。關(guān)聯(lián)規(guī)則挖掘就是發(fā)現(xiàn)A→B的蘊(yùn)含式。
關(guān)聯(lián)規(guī)則A→B的支持度指在所有事務(wù)中同時(shí)含有A和B的概率,記為Sup(A∪B),公式為
式中,|D|表示數(shù)據(jù)庫D的全部事務(wù)數(shù)。
關(guān)聯(lián)規(guī)則A→B的置信度指當(dāng)出現(xiàn)項(xiàng)集A的全部事務(wù)數(shù)時(shí)出現(xiàn)B的概率,記為Cοnf(A→B),公式為
項(xiàng)集X支持度不小于用戶設(shè)定的最小閾值,則稱X為頻繁項(xiàng)集。Apriori算法是挖掘頻繁項(xiàng)集和關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘算法。
遺傳算法最早由John·Holland教授提出,他通過觀察生物進(jìn)化過程提出了遺傳算法的原型[15],遺傳算法是一種通過模擬自然進(jìn)化過程搜索最優(yōu)解的方法。圖1為遺傳算法的流程圖。
圖1 遺傳算法的流程
1982年我國學(xué)者鄧聚龍教授發(fā)表第一篇中文論文《灰色控制系統(tǒng)》標(biāo)志著灰色系統(tǒng)這一學(xué)科誕生。在社會(huì)系統(tǒng)、經(jīng)濟(jì)系統(tǒng)等抽象系統(tǒng)里,包含有多種因素。想要知道這些因素哪些是主要的,哪些是次要的,哪些影響大,哪些影響小,哪些需要抑制,哪些需要發(fā)展,灰色關(guān)聯(lián)分析能夠很好地解決。
針對(duì)Apriori算法挖掘關(guān)聯(lián)規(guī)則對(duì)支持度和置信度難以確定的問題,使用了遺傳算法來解決。對(duì)遺傳算法中復(fù)雜的多目標(biāo)適應(yīng)度函數(shù)求解問題中,使用灰色關(guān)聯(lián)分析方法來解決。三個(gè)算法協(xié)同進(jìn)行以實(shí)現(xiàn)最終目標(biāo),即更高的關(guān)聯(lián)規(guī)則質(zhì)量與可靠性。圖2為整個(gè)算法的執(zhí)行流程。
圖2 算法流程
文獻(xiàn)[1]中,Qodmanan等提出了新的適應(yīng)度函數(shù)用于挖掘出支持度和置信度較高的規(guī)則,對(duì)關(guān)聯(lián)規(guī)則A→B,公式如下:
興趣度用于衡量規(guī)則的新奇性,關(guān)聯(lián)規(guī)則挖掘最要的目的就是找到一些隱藏的信息,在文獻(xiàn)[14]中對(duì)興趣度做了如下定義:
對(duì)于理解度函數(shù),關(guān)聯(lián)規(guī)則后項(xiàng)集含有橋梁狀況等級(jí)之外,其他屬性盡可能少,此外,為了便于理解和閱讀,前項(xiàng)集中應(yīng)不含有較多的屬性,定義理解度的公式如下:
式中,|A|、|B|分別表示前項(xiàng)集和后項(xiàng)集屬性的數(shù)量。
灰色關(guān)聯(lián)分析的步驟:
1)依據(jù)分析目的確定分析指標(biāo)體系,收集分析數(shù)據(jù)。
其中m為指標(biāo)的個(gè)數(shù),i=1,2,…,n。
2)確定參考數(shù)據(jù)列:可以以各指標(biāo)的最優(yōu)值(或最劣值)構(gòu)成參考數(shù)據(jù)列,或者根據(jù)評(píng)價(jià)目的選擇其它參照值。即:
3)對(duì)指標(biāo)數(shù)據(jù)進(jìn)行無量綱化。經(jīng)無量綱化后的數(shù)據(jù)序列矩陣如下:
4)逐個(gè)計(jì)算每一個(gè)被評(píng)價(jià)對(duì)象指標(biāo)序列(比較序列)與參考序列對(duì)應(yīng)元素的絕對(duì)差值。
|x0(k)-xi(k)|(k=1,…,m,i=1,…,n)n為被評(píng)價(jià)對(duì)象的個(gè)數(shù))。
6)計(jì)算關(guān)聯(lián)系數(shù)。
式中k=1,…,m。其中ρ為分辨系數(shù),0<ρ<1。
當(dāng)用各指標(biāo)的最優(yōu)值(或最劣值),構(gòu)成參考數(shù)據(jù)列計(jì)算關(guān)聯(lián)系數(shù)時(shí),計(jì)算方式為
其中,k=1,…,m。
7)計(jì)算關(guān)聯(lián)序:以反映各評(píng)價(jià)對(duì)象與參考序列的關(guān)聯(lián)關(guān)系,記為
8)若各指標(biāo)在綜合評(píng)價(jià)中所起的作用不同,可對(duì)關(guān)聯(lián)系數(shù)求加權(quán)平均值即:
式中,k=1,…,m。其中Wk為各指標(biāo)的權(quán)重。
將上節(jié)中確定的3個(gè)分目標(biāo)函數(shù)以序號(hào)形式表示:分目標(biāo)1,分目標(biāo)2,分目標(biāo)3。將多目標(biāo)函數(shù)的分目標(biāo)數(shù)值看作是3個(gè)指標(biāo)的觀測(cè)數(shù)據(jù)。把挖掘出的n個(gè)關(guān)聯(lián)規(guī)則進(jìn)行編碼后得到了設(shè)計(jì)空間的設(shè)計(jì)變量的n個(gè)取值點(diǎn),得到多目標(biāo)函數(shù)序列構(gòu)成的n個(gè)待檢指標(biāo)序列。將多目標(biāo)函數(shù)優(yōu)化轉(zhuǎn)化為單目標(biāo)函數(shù)的優(yōu)化問題,數(shù)學(xué)模型為
式中,X*表示設(shè)計(jì)空間的一個(gè)最優(yōu)解,使灰色關(guān)聯(lián)度函數(shù)G(X)在滿足特定的約束條件下達(dá)到最大值F(X*),G0j(X)表示待檢序列與理想最優(yōu)序列的灰色關(guān)聯(lián)度。
最優(yōu)解構(gòu)成理想的最優(yōu)序列。
對(duì)設(shè)計(jì)變量的n個(gè)取值點(diǎn),分別算出3個(gè)分目標(biāo)的函數(shù)值,形成待檢序列。
其中i=1,2,…,n。分別計(jì)算出n個(gè)待檢序列與最優(yōu)序列的灰色關(guān)聯(lián)序r i,i=1,2,3。由式(9)定義適應(yīng)度函數(shù)如下:
由文獻(xiàn)[1、16~17]取值情況,本文中,我們?nèi)1=3,w2=2,w3=1。
遺傳操作是遺傳算法的重要組成部分,包括選擇、交叉、變異三個(gè)步驟:
1)選擇算子。選擇用來實(shí)施適者生存的原則,選擇算子的作用效果是提高了群體的平均適應(yīng)度。實(shí)驗(yàn)使用了傳統(tǒng)的輪盤賭選擇算子。
2)交叉算子。交叉算子是產(chǎn)生新個(gè)體的主要方法,決定了遺傳算法的全局搜索能力。實(shí)驗(yàn)使用了兩點(diǎn)交叉操作,且交叉概率為0.9。
3)變異算子。變異算子只是產(chǎn)生新個(gè)體的輔助方法,決定了遺傳算法的局部搜索能力。實(shí)驗(yàn)采用基本的變異算子,變異的概率設(shè)為0.1。
運(yùn)用云南省公路橋梁數(shù)據(jù)來驗(yàn)證本研究所提出的方法。
實(shí)驗(yàn)數(shù)據(jù)由云南省交投集團(tuán)公路建設(shè)有限公司提供,包含了云南省各個(gè)地區(qū)的橋梁數(shù)據(jù)。將云南省按氣候劃分為溫帶季風(fēng)氣候、亞熱帶季風(fēng)氣候和熱帶雨林氣候。針對(duì)亞熱帶季風(fēng)氣候地區(qū)的橋梁歷史數(shù)據(jù)進(jìn)行挖掘分析,使用Python語言挖掘工具,由于橋梁數(shù)據(jù)中三類橋幾乎沒有,所以實(shí)驗(yàn)中只考慮一類、二類橋。
橋梁相關(guān)數(shù)據(jù)包括下穿通道名等19個(gè)屬性與橋梁等級(jí)狀況,共2794條數(shù)據(jù)。數(shù)據(jù)格式如表1所示。
表1 實(shí)驗(yàn)數(shù)據(jù)格式
上部構(gòu)造-形式空心板梁剛構(gòu)上部構(gòu)造-材料上部_鋼筋混凝土上部_預(yù)應(yīng)力混凝土下部構(gòu)造-形式重力式橋臺(tái)柱式墩重力臺(tái)T型墩下部構(gòu)造-材料下部_鋼筋混凝土下部_鋼筋漿砌混凝土下部構(gòu)造-基礎(chǔ)形式擴(kuò)大基礎(chǔ)摩擦樁基礎(chǔ)伸縮縫類型CD-60型鋼伸縮縫橋梁類型小橋中橋支座形式板式橡膠支座矩形板式橡膠支座地震動(dòng)峰值加速度系數(shù)0.05g~0.1g 0.4g年平均氣溫15℃~25℃15℃以下最冷月平均最低氣溫2℃以下5℃以上最熱月平均最高氣溫25℃以上25℃以下年平均降水量1000mm以下1000mm~1500mm雨天天數(shù)1000d~1300d 1300d~1600d雪天天數(shù)五天以下五天以上總體狀況評(píng)定等級(jí)1 2
對(duì)橋梁數(shù)據(jù)進(jìn)行簡(jiǎn)單的數(shù)據(jù)分析。如圖3。
圖3 下穿通道與橋梁等級(jí)分布
為了證明提出的實(shí)驗(yàn)方法的有效性,本文將Apriori關(guān)聯(lián)規(guī)則算法作為對(duì)照實(shí)驗(yàn)。對(duì)處理后的橋梁數(shù)據(jù),通過設(shè)定合適的支持度和置信度后,挖掘出一類橋、二類橋的相關(guān)關(guān)聯(lián)規(guī)則。按Qodman?an等衡量支持度和置信度的方法(Sup_Cοnf),即式(3),分別求出一類橋和二類橋的平均Sup_Cοnf。再與我們的實(shí)驗(yàn)方法求出的一類橋和二類橋的平均Sup_Cοnf比較,Sup_Cοnf值越高,即挖掘的關(guān)聯(lián)規(guī)則質(zhì)量越高。
在實(shí)驗(yàn)室中設(shè)置最小支持度為0.2,最小置信度為0.4。經(jīng)實(shí)驗(yàn)挖掘出形如A→B的關(guān)聯(lián)規(guī)則,其中與一類橋相關(guān)的規(guī)則有162條,實(shí)驗(yàn)部分結(jié)果如表2,與二類橋相關(guān)的規(guī)則有63條,實(shí)驗(yàn)部分結(jié)果如表3。
表2 一類橋部分關(guān)聯(lián)規(guī)則
表3 二類橋部分關(guān)聯(lián)規(guī)則
對(duì)關(guān)聯(lián)規(guī)則采用實(shí)數(shù)編碼的方式,即每一條規(guī)則編碼成一條染色體。對(duì)前項(xiàng)集A的每一個(gè)屬性的屬性值進(jìn)行編碼,每個(gè)屬性X下的屬性值賦值為i=1,2,3,…。若該規(guī)則里沒有該屬性值記為0。例如:形如規(guī)則(五天以下、十年橋、15℃~25℃、常規(guī))->(1、25℃以上)經(jīng)實(shí)數(shù)編碼后為0,0,1,1,0,0,0,0,0,0,0,3,0,2,0,0,0,1,0,0,2,0。其中,前17個(gè)編碼值為前項(xiàng)集,后5個(gè)編碼值為后項(xiàng)集。
分別將一類、二類的相關(guān)規(guī)則編碼后的染色體,作為設(shè)計(jì)空間的設(shè)計(jì)變量,用灰色關(guān)聯(lián)分析求出每個(gè)分目標(biāo)的關(guān)聯(lián)系數(shù)。得到對(duì)一類橋、二類橋的分目標(biāo)函數(shù)關(guān)聯(lián)系數(shù)表4、表5。
表4 一類橋分目標(biāo)關(guān)聯(lián)系數(shù)
表5 二類橋分目標(biāo)關(guān)聯(lián)系數(shù)
一類橋的適應(yīng)度函數(shù)為
二類橋的適應(yīng)度函數(shù)為
實(shí)驗(yàn)中,采用了Geatpy提供的進(jìn)化算法模板sga_real_temple。設(shè)置最大遺傳代數(shù)為1000次。實(shí)驗(yàn)結(jié)果見表6。
表6 一類橋遺傳算法實(shí)驗(yàn)結(jié)果
對(duì)于最優(yōu)一代的控制變量我們解碼后為(道路、十年橋、下部_鋼筋混凝土、15℃~25℃、1000mm~1500mm)->(一類)。輸出目標(biāo)函數(shù)值最優(yōu)的前10條控制變量經(jīng)解碼后進(jìn)行分析。具體分析在實(shí)驗(yàn)結(jié)果分析中給出。
規(guī)則(板式橡膠支座)->(一類)不在出現(xiàn)在結(jié)果中,我們查看可知該規(guī)則的置信度為0.426。遺傳算法確實(shí)能為我們消除一些弱關(guān)聯(lián)規(guī)則。
對(duì)于二類橋,相關(guān)結(jié)果見表7。
表7 二類橋遺傳算法實(shí)驗(yàn)結(jié)果
對(duì)于最優(yōu)一代的控制變量解碼后為(瀝青混凝土、大橋、2℃~5℃、小于1000mm、五天以上)->(二類)。輸出目標(biāo)函數(shù)值最優(yōu)的前10條控制變量經(jīng)解碼后進(jìn)行分析。
規(guī)則(重力式橋臺(tái)柱式墩)->(二類),屬性值重力式橋臺(tái)柱式墩不在出現(xiàn)在結(jié)果中。查看可得該規(guī)則的置信度為0.452。
最后,用對(duì)照實(shí)驗(yàn)即Apriori算法與提出改進(jìn)的Apriori算法+灰色關(guān)聯(lián)算法+遺傳算法對(duì)比,對(duì)于一類橋的平均Sup_Cοnf,結(jié)果見表8。
表8 一類橋?qū)嶒?yàn)結(jié)果對(duì)比
對(duì)于二類橋的平均Sup_Cοnf,結(jié)果見表9。
表9 二類橋?qū)嶒?yàn)結(jié)果對(duì)比
經(jīng)遺傳算法和灰色關(guān)聯(lián)分析方法后,Apriori算法挖掘的關(guān)聯(lián)規(guī)則的可靠性有了進(jìn)一步的提高。
下面對(duì)亞熱帶地區(qū)橋梁健康狀況影響較大的因素進(jìn)行總結(jié)。其中,橋齡是影響橋梁健康的一個(gè)重要因素,橋齡增加會(huì)使橋梁出現(xiàn)一定程度的劣化情況;下穿通道為道路情況多為一類橋,而下穿通道為河流的情況時(shí),橋梁多為二類橋;橋面鋪裝采用瀝青混凝土?xí)r,橋梁多為二類橋,而采用水泥混凝土?xí)r多為一類橋,當(dāng)然,要考慮到目前大多數(shù)通行量較大的公路橋梁采用橋面鋪裝材料為瀝青混凝土;當(dāng)橋梁類型為中橋時(shí),橋梁狀況多為一類,而當(dāng)橋梁類型為大橋時(shí),橋梁狀況多為二類,這可能與它的通行量息息相關(guān);對(duì)于上部構(gòu)造材料選取預(yù)應(yīng)力鋼筋混凝土效果可能會(huì)更好;下部構(gòu)造形式采用重力式橋臺(tái)柱式墩時(shí),效果要好;下部構(gòu)造材料采用鋼筋混凝土的效果要比漿砌片塊石混凝土的效果要好;對(duì)于地震動(dòng)峰值加速度系數(shù),即云南省亞熱帶地區(qū)橋梁的抗震設(shè)防標(biāo)準(zhǔn),系數(shù)為0.05g~0.1g、0.2g的橋梁健康狀況要比系數(shù)為0.4g的橋梁健康狀況要好的多;溫度也是影響橋梁健康的一個(gè)重要因素,年平均氣溫更高,且最冷月平均最低氣溫更低,最熱月平均最高氣溫更高地區(qū)的橋梁要比年平均氣溫更低,且最冷月平均最低氣溫更高,最熱月平均最高氣溫更低地區(qū)的橋梁更健康;年降雨量的多少與橋梁的將健康狀況成正相關(guān),降雨量多的地區(qū)橋梁健康狀況要更好;在中國天氣網(wǎng)上將查閱到的2011年-2018年云南亞熱帶各地區(qū)的雨天天數(shù)、雪天天數(shù)進(jìn)行分析,雨天天數(shù)在1000天~1300天多為一類橋,雨天在1300天~1600天時(shí),橋梁多為二類橋,且雪天天氣更多的地區(qū),橋梁多為二類橋。
為了更科學(xué)地進(jìn)行橋梁劣化因果分析,首先對(duì)云南省地區(qū)的橋梁進(jìn)行了氣候帶的劃分。在進(jìn)行了Apriori算法分析后,運(yùn)用了多目標(biāo)的遺傳算法解決了Apriori算法對(duì)挖掘的關(guān)聯(lián)規(guī)則進(jìn)一步優(yōu)化,確定了適應(yīng)度函數(shù),在針對(duì)多目標(biāo)規(guī)劃的求解問題中,改變了目前針對(duì)多目標(biāo)關(guān)聯(lián)規(guī)則挖掘中通常采用的自定義目標(biāo)函數(shù)權(quán)重的方法,使用了基于灰色關(guān)聯(lián)分析的求解算法,把多目標(biāo)規(guī)劃問題轉(zhuǎn)變?yōu)閱文繕?biāo)規(guī)劃問題,有效地解決了這一問題。得到了實(shí)用的關(guān)于橋梁劣化因果關(guān)系的關(guān)聯(lián)規(guī)則,在對(duì)云南省亞熱帶地區(qū)橋梁在修建時(shí)采取的材料、構(gòu)造方式以及對(duì)橋梁的維修加固等提供了可靠的科學(xué)的輔助決策。經(jīng)過遺傳算法的多目標(biāo)關(guān)聯(lián)規(guī)則挖掘后,能刪除一些弱關(guān)聯(lián)規(guī)則與誤導(dǎo)關(guān)聯(lián)規(guī)則。但是,實(shí)驗(yàn)數(shù)據(jù)還不全,沒有某些可能對(duì)橋梁健康狀況影響較大的屬性,如車輛通行量等。