李雪劍,秦斌,肖藝峰,付澤坤
江南造船(集團)有限責任公司 江南研究院,上海201913
近年來,隨著液化天然氣市場的發(fā)展,涌現(xiàn)了不同類型的液化天然氣(LNG)船,例如,采用C型獨立液艙維護系統(tǒng)的3×104m3(30K)LNG船,A型獨立液艙的8.4×104和8.6×104m3(84K和86K)大型全冷式液化氣船(VLGC),以及B型獨立液艙的9.8×104m3(98K )超大型液化乙烷運輸船(VLEC)等。隨著液化天然氣船品類越來越豐富,船體結構設計也趨于復雜,除了確定性強度要求外,還需對影響結構安全性、適用性、耐久性的不確定因素進行準確評估[1]。
結構可靠性設計是一種基于數(shù)理統(tǒng)計和概率論,用于處理工程中可能存在的各種隨機變量的方法。結構設計中不確定的隨機變量包括:外力載荷、幾何尺寸、材料屬性、生產過程和工作環(huán)境等,以向量的形式表示為X=(X1,X2,···,Xn)。在結構可靠性設計中,通過定義一個關于X的功能函數(shù)Z(X)來 明確結構的極限狀態(tài),Z<0表明結構處于失效狀態(tài)。實際工程計算中通常采用近似計算的方法獲得結構的失效概率,典型的如一階可靠性法(first-order reliability method,F(xiàn)ORM)、二階可靠性法(second-order reliability method,SORM)和蒙特卡羅法(Monte Carlo,MC)等[2]。但是,F(xiàn)ORM和SORM在處理隱式、失效面附近的非線性程度很高的功能函數(shù)時,這兩種方法計算的精度難以滿足工程要求;而MC法雖然可以求解隱式問題,但在處理復雜系統(tǒng)時,單個樣本點的計算時間過長,大量的采樣點使得計算成本巨大,在實際工程中不具備可操作性。
為了解決MC法計算效率低的問題,可以采用近似模型技術代替?zhèn)鹘y(tǒng)的復雜分析模型中的有限元程序,以此來縮短單個樣本點的計算時間。金偉良等[3]通過構建最小二乘支持向量機(LSSVM)模型擬合失效面,并結合MC法生成的樣本點來計算結構的失效概率。李放等[4]用人工少數(shù)類過采樣(synthetic minority over-sampling technique,SMOTE)算法合成失效面附近的新樣本點,添加到訓練集來構建梯度以提升決策樹(gradient boosting decision tree,GBDT)近似模型,并完成了結構的可靠性分析。然而,因失效點和可靠點在設計空間中的占比不均衡,直接用MC法生成的樣本點作為訓練集來構建近似模型,容易造成模型在失效面附近的精度不夠。而SMOTE算法構造的新樣本是原數(shù)據(jù)集中不存在的,并不能提供有益信息且會增加類之間出現(xiàn)重疊的可能性。
基于上述問題,本文擬提出以局部離群因子(local outlier factor,LOF)作為篩選準則,直接從樣本集中獲得樣本分布均衡的訓練集,并選擇更加容易實現(xiàn)且能夠并行計算的隨機森林(random forest,RF)模型作為近似模型來判別失效點,用以提高MC法計算結構可靠性的效率。
LOF算法是一種典型的基于密度的高精度離群點檢測方法[5],其核心思想是針對給定的數(shù)據(jù)集,為每個數(shù)據(jù)點分配一個局部離群因子,用以表征其局部鄰域內點的密集程度。該因子越大說明數(shù)據(jù)點偏離局部中心越遠,該點是離群點的可能性也越高,在“類別不平衡”問題中,它就是少數(shù)類數(shù)據(jù)點。以下為LOF算法最重要的幾個概念定義。
k pk k(p)k o Do p d(p,o)k(p)d(p,o)
定義1:-鄰近距離。對象數(shù)據(jù)點 的-鄰近距離記作-distance,其中 為任意正整數(shù)。對象 屬于數(shù)據(jù)集 ,將對象 與 之間的距離記作。滿足以下條件時,-distance= 。ko′∈D{p}d(p,o′)≤d(p,o)
1) 在集合中至少存在 個對象, ,使得;k?1o′∈D{p}d(p,o′) 2) 在集合中至多存在 個對象, ,使得 ;k pk pkpk 定義2:-鄰域。給定對象 的-鄰近距離,則的-鄰域是指數(shù)據(jù)集中與 的距離不超過-鄰近距離的所有對象,記作 式中,q為對象p的k最近鄰。 定義3:可達距離。對象o相對于對象p的可達距離定義如下: 定義4:局部可達密度。對象p的局部可達密度是p的k鄰域內所有點平均可達距離的倒數(shù),定義為 對于同一個簇內鄰域點,它們的可達距離可能是較小值,使得Nk?distance(p)(p)內點的可達距離之和越小,局部可達密度越大。 定義5:局部離群因子。對象p的局部離群因子是鄰域Nk?distance(p)(p)內 其他點與p的局部可達密度之比的平均數(shù),即 對于 ,若該值接近1,說明 的鄰域點密度差不多,可能和鄰域屬于同一個簇。若小于1,說明 的密度高于其鄰域點密度,表明 處在一個相對密集的區(qū)域。而若大于1,則表明 與其他數(shù)據(jù)點比較疏遠,很可能是離群點。 LOFLOFk(p)δ δ δLOFk(p)p p pp p p算法通過求出數(shù)據(jù)集中每個點的局部離群因子,并對這些 值進行排序,然后設定閾值,將排序后的離群因子值超過 的對象作為離群點集合,其中 值根據(jù)不同數(shù)據(jù)集規(guī)模和設計經驗確定。 隨機森林[6]是并行式集成學習方法套袋法(Bagging)[7]的一個擴展變體,它不僅容易實現(xiàn)而且計算量小。RF在基學習器的訓練過程中引入隨機屬性的選擇,然后通過Bagging對基學習器進行集成。通常采用分類回歸樹,即CART決策樹作為基學習器,因為它能夠有效地處理數(shù)據(jù)樣本的非線性問題,適用于解決數(shù)據(jù)樣本和目標變量之間關系模糊不明確的復雜性問題[8]。 CART決策樹的生成就是遞歸地構建二叉樹,并且針對分類和回歸問題使用不同的策略。其中分類樹使用基尼指數(shù)(Gini不純度)最小化準則選擇屬性構建模型,基尼指數(shù)是數(shù)據(jù)集不確定性的度量,其定義如下: 式中:S為數(shù)據(jù)集包含的類別數(shù);pi為數(shù)據(jù)點屬于第i類的概率。 回歸樹采用啟發(fā)式方法對屬性空間進行劃分,劃分的每個單元都對應1個固定值,可使用平方誤差最小化準則求解固定值的最優(yōu)解,它的定義為 式中:Rm為劃分的第m個 單元,其中m=1,2,···,M,M為劃分的最大單元數(shù);cm為 單元Rm上的固定輸出值;I(x∈Rm)為 指示函數(shù),當x屬 于單元Rm時值為1,否則為0。 RF模型構建的步驟是:首先,從給定的含有n個 訓練樣本、m個屬性的數(shù)據(jù)集中進行Bootstrap有放回的抽樣,組成含n個樣本的新訓練集Si;然后,以訓練集Si訓練模型節(jié)點時,從節(jié)點所有的樣本屬性中隨機選擇m′個屬性,選擇其中最佳屬性分裂節(jié)點來構建CART樹;重復上述步驟T次得到T個決策樹;這T個CART樹形成隨機森林,通過結合策略將每棵樹的預測結果進行整合后作為RF模型的輸出。RF模型原理如圖1所示,圖中Ti為第i個決策樹模型。 圖1 隨機森林模型原理Fig.1 Principle of RF model 通過樣本擾動和屬性擾動使基學習器具有多樣性,最終集成的RF模型的泛化性能由于個體學習器之間差異度的增加而進一步提升,不僅準確率、運行速度要高于Adaboost算法[9],同時對于離群點的魯棒性也更好。而且,Bootstrap抽樣使得生成每個決策樹時約有1/3的樣本(稱為袋外樣本)未被使用,通過計算袋外誤差率可以建立模型誤差的無偏估計,不再需要獨立的測試集,使得模型的構建更加簡單。 實際工程中事物的不確定性現(xiàn)象是客觀存在的,對于不確定性因素可用隨機性來描述[10-11]。因此,在結構可靠性分析中可將結構載荷、材料強度、彈性模量等視為隨機變量[12]。隨機變量通常具有相應的統(tǒng)計規(guī)律,MC法就是根據(jù)統(tǒng)計規(guī)律隨機采樣來估算結構的近似失效概率l?[13]: 式中:N為總采樣點數(shù);Xi為 樣 本點;Z(Xi)為結構的功能函數(shù)。式(7)以失效點在所有樣本點中出現(xiàn)的頻率作為結構的失效概率。實際工程結構的失效概率l非常小,使用MC法估算的相對誤差為 式中:Var(l?)為 近似失效概率的方差;E[l?]為近似失效概率的均值。 假設結構的實際失效概率為l=10?4,通常估算的相對誤差要滿足e=0.01,為了保證近似精度,根據(jù)式(8),MC法需要的總采樣數(shù)應達到N≈=108。 由于Z(Xi)常常不具有明確合理的解析表達式,因此需要借助計算耗時的有限元軟件來分析樣本點是否失效。而總采樣點數(shù)N=108,若通過有限元法判別每個樣本點是否失效,將耗時巨大。 本文提出的改進RF-MC法旨在利用計算量小、高效并行計算的RF模型替代有限元法來判斷失效點。通過MC法對高可靠性的結構進行采樣時,其所獲得的樣本集極不均衡,失效點占比非常小,屬于少數(shù)類樣本[14]。當使用樣本不平衡的數(shù)據(jù)集對RF模型進行訓練時,模型的預測精度可能會很低。由于少數(shù)類樣本也可以被看作離群點或異常點,因此,本文使用LOF算法進行樣本篩選,以保證訓練集中的可靠點和失效點的比例均衡,從而提高模型在失效面附近的精度。改進RF-MC算法的流程如圖2所示。 圖2 改進RF-MC方法流程Fig.2 Workflow of improved RF-MC method 1) 確定功能函數(shù)Z(Xi)中影響結構狀態(tài)和性質的隨機變量及其所服從的概率分布。對于概率分布不確定的變量,可以使用正態(tài)分布來近似,均值取設計中的實際值,變異系數(shù)取0.1。 2) 采用MC法在設計空間內生成含有N個樣本點Xi(i=1,2,···,N)的 樣本集X。此時,無需調用有限元模型計算樣本點的功能函數(shù)值。 3) 設置鄰域值k,使用LOF算法計算樣本集中每個點的局部離群因子,即LOFk(p)。因為LOFk(p)反映了樣本鄰域點的分布密度,所以當LOFk(p)>1 時,表明樣本點Xi離其他點比較疏遠。在工程結構中,失效域內的樣本點出現(xiàn)概率非常低,在樣本空間中會遠離其他點,亦即其LOFk(p)?1,因此,可以將失效點看作離群點通過LOF算法篩選得到。 4) 確定局部離群因子的閾值上限δu和閾值下限δl,將樣本集X中 δl≤LOFk(p)≤δu的樣本點加入到子集X′。 通過δl篩選出樣本集中的離群點,離群點不僅包含失效面附近的點,而且還包括遠離失效面的點,這些屬于噪聲的點會增加模型的誤差,因此,可使用δu來排除遠離失效面的點。 5) 調用有限元模型計算樣本子集X′的功能函數(shù)值作為響應集Z(X′), 然后將X′作 為輸入,Z(X′)作為輸出建立RF模型。選取合適的模型參數(shù)可提高擬合精度,但參數(shù)值與精度值通常不是線性關系,若CART樹個數(shù)過大或過小都不利于模型精度,因此使用機器學習庫scikit-learn提供的交叉驗證和網(wǎng)格搜索模塊選取合適的RF模型參數(shù)。 6) 使用袋外樣本評估RF模型的平均絕對百分比誤差?。若模型精度不符合要求,返回步驟2)重新訓練RF模型,并將 (X′,Z(X′))添加至新生成的訓練集。本文驗證所允許的誤差 ?<0.05。 7) 重復上述迭代過程,直至模型精度滿足平均絕對百分比誤差的要求。使用RF模型替代有限元法預測每個樣本點的功能函數(shù)值,并根據(jù)MC法的公式(5)計算失效概率。 8) 考慮到算法結果存在一定隨機性,在局部離群因子和RF模型參數(shù)確定后將多次計算結構失效概率,若所有結果的標準差小于允許值,則將平均值作為算法最終結果,反之,則說明算法不穩(wěn)定、擬合效果不佳,需要重新調整參數(shù)訓練模型。本文建議的運行次數(shù)是9次,標準差的允許值取平均值的10%。 本文提出的改進RF-MC法主要通過局部離群因子的 鄰 域 值k, δu和 δl來控制樣 本 點 的篩選。為了使生成的訓練集中的可靠點和失效點分布均衡,合理控制參數(shù)很重要??紤]到工程中隨機變量服從的概率分布大多未知,所以本文方法采用的正態(tài)分布,如此,可以使用服從多元正態(tài)分布的樣本點來研究控制參數(shù)對算法效率的影響。 這里,分析含兩個設計變量的可靠性問題,其變量相互獨立且服從標準的正態(tài)分布,且使用LOF算法檢測樣本集中的離群點。改變鄰域值k并固定其他參數(shù)來觀察離群點數(shù)量變化,如圖3所示,可以發(fā)現(xiàn)離群點數(shù)量先減后增。考慮到正態(tài)分布的特征,較小的k值計算得到的樣本點LOFk(p)比較接近,難以區(qū)分離群點和密集點,隨著k值的增大,算法區(qū)分出離群點的能力增強,使得曲線呈下降趨勢;而當k值過大時,失效面附近的可靠點因既不靠近樣本點的密集區(qū)域,又遠離失效點,計算得到的LOFk(p)較大時也會被視為離群點,使曲線呈上升趨勢。因此,較大的k值有助于獲得分布均衡的訓練集,但k值過大會增加計算量。所以綜合考慮后,建議k值取30。本文認為閾值超過1.5的點是噪聲,故要求δu≤ 1.5,而δl需根據(jù)數(shù)據(jù)集的規(guī)模和設計經驗選取,一般取值范圍為[1,1.3]。 當局部離群因子較接近時,可根據(jù)LOFk(p)進行排序,取值最大的一部分樣本點。為簡化流程,本文取排序后前50個點加入訓練集。 圖3 離群點數(shù)量隨k值變化曲線Fig.3 The number of outliers varying with k-value 為了對比本文方法與陳松坤等[14]提出的BPMC法,本文采用該文獻中的一個具有解析表達式的功能函數(shù): 式中:U1和U2均為設計變量,兩者相互獨立且均服從標準正態(tài)分布。分別使用MC法、BP-MC法和改進RF-MC法進行求解,同時,為了保證結果具有可比性,使用了相同數(shù)量的樣本訓練模型,結果如表1所示。 表1 算例1計算結果Table 1 Calculation results of Case 1 綜合考慮計算的準確率和樣本點計算次數(shù),可以發(fā)現(xiàn):改進RF-MC法使用的樣本點數(shù)量遠小于MC法,計算時間得到極大縮減;與BP-MC法相比,改進RF-MC法準確率更高,且在篩除遠離失效面的點時直接使用LOFk(p),而BP-MC法需要訓練出模型進行預測后篩選樣本,因此改進RF-MC法更加簡便。 平面十桿形桁架結構被廣泛用于驗證結構設計優(yōu)化算法。該算例[1]是失效面為隱式的十桿形桁架結構,如圖4所示,圖中,L為桁架長度,P為節(jié)點上作用的載荷。由圖可見,節(jié)點(1)和節(jié)點(6)為簡支,節(jié)點(2)和節(jié)點(3)均含垂直向下的集中力(444.822 kN)。水平、橫向和對角桁架的橫截面積A1,A2和A3為隨機變量均服從正態(tài)分布,參數(shù)見表2。 圖4 十桿形桁架結構Fig.4 Crossbar truss structure 表2 基本隨機變量統(tǒng)計特征值Table 2 Statistical characteristic values of basic random variable 除表2中參數(shù)外,其他參數(shù)是確定的。包括:L=9.144 m;彈性模量E=68.95 MPa;密度ρ=2.7×103kg/m3;集中力P=444.822 kN。由于算例具有隱式的失效面,需要使用有限元分析結構響應來計算功能函數(shù)值。假設節(jié)點(3)的最大許用位移為101.6 mm,有限元計算得到的位移為d(A1,A2,A3),則節(jié)點(3)的功能函數(shù)為 通過對比改進RF-MC法與工程中被普遍視為理論解的MC法,可以發(fā)現(xiàn)改進RF-MC法在復雜結構可靠性分析中具有較高的精度,結果如表3所示。 表3 算例2計算結果Table 3 Calculation results of Case 2 本文以某型采用A型獨立液艙的液化石油氣(LPG)船中間艙某一檔垂向支座的支撐肘板為研究對象,使用改進RF-MC法計算其結構可靠性,并與采用MC法得到的結構失效概率比較,圖5是采用MC法計算的失效概率隨采樣數(shù)的收斂情況。為了驗證算法的準確性,需要通過有限元軟件計算獲取模型訓練數(shù)據(jù)。使用Abaqus有限元軟件,借助于該軟件內核支持的Python語言進行編程修改input文件的設計參數(shù)來獲取樣本點。 圖5 MC法計算結果Fig.5 Calculation result of MC method 選取的模型范圍是中間艙頂邊艙以下左舷結構,如圖6所示。有限元模型共有9 715個單元,其中板材使用殼單元,加強筋使用梁單元建模,邊界條件是模型兩端固支,載荷是目標支座及附近支座的支反力,它是根據(jù)船級社軟件計算出的所有工況中的最大作用力。通過分析選取出21個對支撐肘板強度有影響的設計變量,分別為:11個支座支反力(包括垂向支座、防橫搖支座、防縱搖支座),8個板材厚度(包括目標支座肘板、內底板、縱桁、肋板等)和2個縱骨腹板厚度(包括內底縱骨、外底板縱骨)。設計變量服從的分布如表4所示。需要說明的是,當設計變量服從均勻分布時,表4中參數(shù)1為上限,參數(shù)2為下限; 當設計變量服從正態(tài)分布時,參數(shù)1為均值,參數(shù)2為方差。表4中各變量含義分別為:f1為防縱搖支座支反力;f2為防橫搖支座支反力;f3為垂向支座支反力;d1為縱桁板厚;d2為垂向支座肘板厚度;d3為防縱搖支座肘板厚度;d4為肋板厚度;d5為支座支撐結構板厚;d6為內底板厚度;d7為內底板縱骨腹板厚度;d8為外板縱骨腹板厚度。 表4 A型液艙支座結構的設計變量分布Table 4 Design variables distribution of A-type liquid tank support 圖6 有限元計算模型Fig.6 Finite element model 根據(jù)船級社規(guī)范[15]以及該船的設計方案,選取本文研究對象的結構許用合成應力為252 MPa。該結構的功能函數(shù)為 式 中 :X=(X1,X2,···,X21),為 設 計變 量 向量;σ(X)von為通過有限元計算得到的實際合成應力。 MC法和本文改進RF-MC法的計算結果對比如表5所示,可以發(fā)現(xiàn)改進RF-MC法在只使用250個樣本點計算結構失效概率的情況下,計算值與理論值間的誤差只有2.77%,精度較高。對于A型獨立液艙支座這類復雜結構,本文進行一次有限元計算需耗時約2 min,而MC法計算可靠度的樣本數(shù)達到105量級,由于本文方法使用較少的樣本點,可以使時間成本大為縮減。 表5 算例3計算結果Table 5 Calculation results of Case 3 綜合考慮實際工程應用中對復雜結構進行可靠性分析的需求,本文提出了一種改進RF-MC法來計算結構失效概率。該方法通過LOF算法確定樣本點的LOFk(p)篩選失效面附近的訓練集,然后使用訓練集構建RF模型擬合結構功能函數(shù)。不同于BP-MC法使用近似模型預測樣本點到失效面間的距離,本文方法是通過選取合適的局部離群因子的上限閾值將樣本集中遠離失效面的噪聲點予以排除,以保證模型擬合精度,在方法流程上更簡便高效;另外,不同于GBDT-MC法使用SMOTE算法對失效面附近的樣本進行插值,本文方法使用的樣本都由MC法直接生成,從而避免了插值樣本可能不存在樣本空間而造成模型擬合精度差的問題。 本文使用具有解析表達式的算例1并借助有限元軟件求解的算例2,驗證了本文提出的改進RF-MC法在求解結構可靠性問題中的適用性。最后,將該方法應用于LPG船A型獨立液艙支座結構的可靠性分析,結果表明,本文方法計算的結果與MC法的結果(工程中被普遍認為是理論解)之間的誤差較小,且大幅減少了計算時間。本文的研究可為以后計算LNG船舶相似結構的失效概率提供高效、可靠的方法,也可以為機器學習方法在復雜船舶結構設計中的應用提供可行的技術方案。1.2 隨機森林模型
2 基于改進RF-MC的結構可靠性分析
3 算例驗證
3.1 算例1
3.2 算例2
3.3 算例3
4 結 論