陳孝聰, 張恩啟, 程 斌, 王 浩
(1.上海交通大學(xué) 船舶海洋與建筑工程學(xué)院,上海 200240;2.東南大學(xué) 土木工程學(xué)院,南京 210096)
拉索作為斜拉橋的重要受力構(gòu)件,具有質(zhì)量輕、阻尼小和柔度大的特征,易在外部激勵荷載作用下發(fā)生不同類型的大幅振動,從而引起拉索錨固端產(chǎn)生疲勞裂紋,降低拉索的使用性能和壽命。在工程應(yīng)用中多采用被動黏滯阻尼器來抑制拉索的大幅振動,但黏滯阻尼器能提供的最大模態(tài)阻尼較為固定[1],且受阻尼器安裝高度限制難以有效控制超長斜拉索的振動。一般可采用慣質(zhì)阻尼器[2-4]、MR阻尼器[5-6]等取代黏滯阻尼器,并對拉索進(jìn)行多模態(tài)振動控制。其中MR阻尼器具有可變阻尼的特性,已有研究表明[7]利用MR阻尼器進(jìn)行半主動控制可獲得比最優(yōu)黏滯阻尼器更好的控制效果,且比拉索主動控制的輸入能量更低。
MR阻尼器的減振控制效果與拉索振動頻率、振動幅度、阻尼器施加電壓、荷載作用形式等因素都有關(guān)[8-9],半主動控制算法直接決定其控制效果。為此,國內(nèi)外學(xué)者已針對拉索半主動控制算法開展了大量的研究,Johnson等提出了剪切最優(yōu)H2/LQG算法,采用兩級控制器實現(xiàn)了從LQG主動控制到半主動控制的轉(zhuǎn)變。李惠等[10]利用LQG主動控制和限界Hrovat控制算法確定磁流變阻尼器控制力,基本實現(xiàn)了主動控制達(dá)到的效果。Weber F等[11]提出了基于調(diào)幅LQR控制的近似同位控制策略,通過對主動控制力特性的近似等效實現(xiàn)對拉索的多模態(tài)振動控制。Chen等[12]基于LQG控制實現(xiàn)了對自感應(yīng)MR阻尼器的半主動控制。Zhao等[13]提出了基于LQR控制的最優(yōu)等效控制算法,利用等效剛度和等效阻尼近似得到最優(yōu)控制力,從而提高計算效率。以上控制策略以主動控制算法如LQR或LQG為基礎(chǔ)計算最優(yōu)控制力,一般需要對拉索-阻尼器系統(tǒng)振動特性建立精確的動力學(xué)模型和系統(tǒng)狀態(tài)空間方程[14],且需要根據(jù)有限數(shù)量的傳感器測量值對拉索振動狀態(tài)得到準(zhǔn)確估計,從而獲得有效的反饋增益矩陣進(jìn)行動力學(xué)求解。
為了使振動控制策略更容易實施,需降低對精確數(shù)學(xué)模型的依賴性,并根據(jù)有限實時測量值進(jìn)行在線反饋控制。對此鄔喆華等[15]提出了基于位移和速度方向的Bang-Bang控制算法,根據(jù)阻尼器活塞位移和速度方向來實現(xiàn)半主動控制,但該算法存在阻尼器型號的有效區(qū)間。Zhou等[16]提出了僅利用阻尼器活塞位移和速度信息的調(diào)制均勻摩擦算法,但控制器增益值需要由結(jié)構(gòu)參數(shù)分析確定。Liu等[17]提出了僅利用阻尼器活塞加速度信息的積分加二重積分控制算法,實現(xiàn)了對拉索的無模型同位控制。
本文采用基于深度強(qiáng)化學(xué)習(xí)的振動控制算法實現(xiàn)對拉索-阻尼器系統(tǒng)的無模型控制,即控制策略無需基于被控系統(tǒng)的精確數(shù)學(xué)模型,僅通過對系統(tǒng)的部分狀態(tài)觀測直接得到最優(yōu)控制動作,從而實現(xiàn)端到端的在線控制。通過數(shù)值仿真方法建立斜拉索-阻尼器環(huán)境模型與控制算法進(jìn)行交互,并考慮斜拉索的隨機(jī)風(fēng)荷載作用場景,將該算法的振動控制效果與黏滯阻尼器最優(yōu)被動控制、Bang-Bang經(jīng)典控制等進(jìn)行對比分析,驗證控制算法的有效性。
本文主要針對拉索的平面內(nèi)振動進(jìn)行控制,并考慮拉索垂度和抗彎剛度的影響,拉索-阻尼器系統(tǒng)計算模型如圖1所示。
圖1 拉索-阻尼器系統(tǒng)計算模型
拉索在橫向荷載作用下的無量綱動力學(xué)方程可以表示為
(1)
(2)
式中:t代表振動時長;m代表拉索單位長度質(zhì)量;T代表拉索靜態(tài)張力;L代表拉索的總長度;w0代表拉索基頻。動力學(xué)方程中拉索振動響應(yīng)可以采用Galerkin方法求解,將拉索y向振動位移表示振型函數(shù)的組合形式,并需滿足邊界條件,即
(3)
φj(0)=φj(1)=0
(4)
式中:qj(t)為第j階模態(tài)的廣義位移坐標(biāo);φj(x)表示第j階模態(tài)的形函數(shù)。為了減少計算所需模態(tài)數(shù)量,提高振動響應(yīng)的求解效率,引入“0階”振動模態(tài),以靜力狀態(tài)下的位形作為形函數(shù),即所有形函數(shù)為
φj(x)=sin(jπx),j=1,2,…,n-1
(5)
由于拉索的各階模態(tài)振型正交,因此可得振動方程的矩陣形式
(6)
φ(xd)|=|[φ0(xd),φ1(xd),φ2(xd),…,φn(xd)]T
(7)
質(zhì)量矩陣M、剛度矩陣K、阻尼矩陣C、荷載矩陣Fy對應(yīng)的元素可以表示為
(8)
強(qiáng)化學(xué)習(xí)是一種通過智能體與環(huán)境進(jìn)行交互得到最優(yōu)決策序列的計算方法。智能體負(fù)責(zé)選擇控制動作和改進(jìn)控制策略,是運(yùn)行強(qiáng)化學(xué)習(xí)算法的主體;環(huán)境即智能體所處的場景,環(huán)境會根據(jù)智能體的動作進(jìn)行狀態(tài)轉(zhuǎn)換,并量化評價智能體的動作[18]。在拉索減振應(yīng)用中,智能體為強(qiáng)化學(xué)習(xí)控制算法,環(huán)境模型為拉索-阻尼器被控系統(tǒng)。
在控制過程中,智能體感知到環(huán)境模型當(dāng)前狀態(tài)si,根據(jù)控制策略π(a|s)選擇動作ai作用于環(huán)境,使環(huán)境模型從si進(jìn)入到下一狀態(tài)si+1,環(huán)境根據(jù)獎勵函數(shù)R(s)評估si+1的優(yōu)劣,并給予智能體回報ri+1。該過程將一直迭代循環(huán),形成一條如s0,a0,r1,s1,a1,r2,s2,…的狀態(tài)-動作-獎勵序列。智能體通過最大化總體收益來優(yōu)化控制策略,該收益不但包括當(dāng)前時刻的即時回報,也包括后續(xù)序列的延遲回報,從而使智能體做出更有遠(yuǎn)見的決策。智能體在t步所獲得的整體收益Gt可以表示為時間折扣因子γ與后續(xù)單步回報的組合,γ值的大小取決于其對未來收益的關(guān)心程度,γ=0表示只關(guān)注當(dāng)前步的回報,γ=1表示關(guān)注未來所有步的回報。整體收益公式為
(9)
大部分強(qiáng)化學(xué)習(xí)算法都涉及到價值函數(shù)的迭代計算,價值函數(shù)可以用來評價智能體策略在給定狀態(tài)下的優(yōu)劣程度。Q學(xué)習(xí)算法為一種基于價值迭代的控制算法,其采用動作價值函數(shù)Q(s,a)描述狀態(tài)s下選擇動作a的價值,該函數(shù)由貝爾曼最優(yōu)方程計算
Q(st,at)=
(10)
采用時序差分法來更新當(dāng)前時刻的動作價值
Q(st,at)=Q(st,at)+αδt
(11)
式中,α為步長參數(shù),δt為時間差分值,即
(12)
(13)
除了采用參數(shù)化函數(shù)降低狀態(tài)空間的復(fù)雜性,DQN算法也通過經(jīng)驗回放池隨機(jī)采樣減少了對樣本序列的依賴,且通過固定目標(biāo)DQN網(wǎng)絡(luò)提高了算法的收斂性和穩(wěn)定性。在公式(13)表示的算法基礎(chǔ)上,研究人員提出了Double DQN[20]和Dueling DQN[21]的優(yōu)化方法。Double DQN采用兩個參數(shù)不同的DQN網(wǎng)絡(luò)分別負(fù)責(zé)動作選擇和策略評估,解決了值函數(shù)估計的誤差問題,其動作價值函數(shù)可以表示為
(14)
Dueling DQN利用狀態(tài)價值函數(shù)V(s;w,α)和動作優(yōu)勢函數(shù)A(s,a;w,β)的組合,加速智能體學(xué)習(xí)最優(yōu)控制策略的過程,其中α,β都為近似函數(shù)參數(shù)集合,則動作狀態(tài)價值函數(shù)可以表示為
(15)
本文將經(jīng)過Double DQN和Dueling DQN技術(shù)優(yōu)化后的DQN控制算法應(yīng)用于拉索振動控制場景,整體控制框架如圖2所示。智能體根據(jù)拉索振動狀態(tài)有限觀測值st-1采用ε-貪心方法選擇MR阻尼器施加電壓a,拉索在外部荷載ft和阻尼力作用下更新狀態(tài)至st,根據(jù)獎勵函數(shù)R(st)產(chǎn)生回報rt。
上述交互過程會產(chǎn)生一個包含狀態(tài)、動作和收益的樣本(st-1,a,st,rt),并將其存入經(jīng)驗回放池。其中,狀態(tài)st采用t時刻阻尼器作用點位置的瞬時位移、速度、加速度值。a為離散動作空間內(nèi)的電壓值,取MR阻尼器最大控制電壓10 V,電壓離散點間隔為0.5 V。為降低測量要求,并盡量捕捉拉索振動狀態(tài),算法分別取L/4、L/2、3L/4位置的瞬時位移、速度值計算單步收益rt,且均方值越小,回報越大,因此回報函數(shù)可以設(shè)置為
(16)
式中,k1和k2分別為權(quán)重系數(shù),可根據(jù)控制目標(biāo)設(shè)定。
當(dāng)經(jīng)驗回放池達(dá)到一定規(guī)模時,算法將隨機(jī)采取定量樣本訓(xùn)練內(nèi)部Dueling DQN網(wǎng)絡(luò),樣本數(shù)量根據(jù)參數(shù)分析結(jié)果確定。利用網(wǎng)絡(luò)輸出結(jié)果計算時序差分值δt,以梯度下降法更新神經(jīng)網(wǎng)絡(luò)權(quán)重等參數(shù),最終使智能體達(dá)到最佳決策狀態(tài)。此外,控制框架將智能體輸出決策和訓(xùn)練神經(jīng)網(wǎng)絡(luò)設(shè)置為異步程序,從而滿足實時計算效率要求。
圖2 深度強(qiáng)化學(xué)習(xí)振動控制框架
本算例選取岳陽洞庭湖大橋A11斜拉索作為仿真對象[22],如圖3所示。拉索主要參數(shù)為:索長114.72 m,設(shè)計索力為3 095 kN,單位長度質(zhì)量為51.8 kg/m,拉索直徑為119 mm,斜拉索傾角為37°,由理論計算得到的前三階模態(tài)頻率分別為為1.06 Hz、2.13 Hz、3.20 Hz。仿真時阻尼器安裝位置距拉索下錨固端距離為斜拉索長度的2%。
圖3 洞庭湖橋A11斜拉索及3號節(jié)點位置
本算例采用拉索的風(fēng)致振動響應(yīng)來驗證控制算法的有效性。風(fēng)荷載可以表示為平均風(fēng)壓和脈動風(fēng)壓之和,在振動控制研究中僅考慮脈動風(fēng)壓的作用,一般將脈動風(fēng)假設(shè)為平穩(wěn)高斯隨機(jī)過程,并可通過線性濾波法或諧波合成法進(jìn)行模擬。本文將采用諧波合成法進(jìn)行風(fēng)荷載的模擬,取Davenport譜作為脈動風(fēng)功率目標(biāo)譜,取地面粗糙度指數(shù)為0.1,取橋面距地面高度為52 m,所在場地20 m高度處的標(biāo)準(zhǔn)設(shè)計風(fēng)速V20為28 m/s,截止頻率為10π,卡門常數(shù)為0.4,地面粗糙長度為0.03,頻率點數(shù)取4 096個。沿A11斜拉索從下至上選取均勻分布的40個節(jié)點并進(jìn)行編號,如圖3所示。通過模擬計算可得到每個節(jié)點的瞬時風(fēng)速時程曲線,其中3號節(jié)點的瞬時風(fēng)速時程曲線如圖4所示。圖5給出了3號節(jié)點脈動風(fēng)模擬功率譜和目標(biāo)功率譜,結(jié)果說明兩者能量分布吻合性較好,驗證了風(fēng)速時程模擬的精度。
圖4 3號節(jié)點瞬時風(fēng)速時程
圖5 3號節(jié)點風(fēng)速功率譜與目標(biāo)功率譜
基于模擬的風(fēng)速,作用于拉索的風(fēng)荷載可由下式計算[23]
(17)
式中:ρ為空氣密度(取1.23 kg/m3);v(z,t)為節(jié)點瞬時風(fēng)速;CH為風(fēng)阻系數(shù)(取0.7);D為拉索等效直徑;θ為拉索傾斜角。
α(u)=αa+αbu
c0(u)=c0a+c0b
c1(u)=c1a+c1bu
(18)
式中:z,y為內(nèi)變量;k1為蓄能器剛度;c0為高速率時的黏滯阻尼系數(shù);c1為低速率時的黏滯阻尼系數(shù);k0為高速率時的等效剛度;x0為蓄能器的初始位移;α,β,γ,A為描述阻尼力-速度曲線中線性段和屈服漸變段的關(guān)鍵參數(shù)。
取已在洞庭湖拉索減振研究中應(yīng)用的RD-1005型阻尼器作為作動器,并采用Liao等[25]對該阻尼器現(xiàn)象模型參數(shù)的辨識結(jié)果進(jìn)行數(shù)值模擬,參數(shù)如表1所示。
表1 RD-1005型MR阻尼器現(xiàn)象模型參數(shù)
本算例采用Newmark-β算法對拉索的風(fēng)致振動響應(yīng)進(jìn)行求解,取關(guān)鍵計算參數(shù)α=0.5,β=0.25,以保證算法的收斂性。取動力仿真時長為160 s,其中拉索風(fēng)致振動時長為100 s,自由振動時長為60 s。仿真步長Δt=0.02 s,在每個仿真步長內(nèi)設(shè)定最大迭代子步數(shù)為30,并設(shè)定精度限值,當(dāng)達(dá)到最大迭代步數(shù)或滿足精度要求時則退出循環(huán)??紤]前10階振動模態(tài),利用Galerkin法計算拉索風(fēng)致動力響應(yīng),為使振動控制效果更突出,對風(fēng)荷載予以一定程度放大。
以無控制下的拉索振動響應(yīng)為參考進(jìn)行標(biāo)準(zhǔn)化處理,表2對比了全仿真時長160 s內(nèi)拉索在四種控制策略下的位移、速度、加速度響應(yīng)的均方根和最大值。結(jié)果表明,在隨機(jī)風(fēng)荷載作用下,VD多模態(tài)控制、Bang-Bang控制、深度強(qiáng)化學(xué)習(xí)控制策略均能實現(xiàn)有效減振。與無控制工況對比,深度強(qiáng)化學(xué)習(xí)控制下的位移、速度、加速度響應(yīng)的最大值分別降低了4.79%,37.3%,52.8%,均方根分別降低了46.9%,62.4%,69.7%。與VD多模態(tài)控制相比,深度強(qiáng)化學(xué)習(xí)控制下的位移、速度響應(yīng)的最大值分別降低了1.08%,2.52%,加速度響應(yīng)最大值則略差于被動控制,三種響應(yīng)的均方根分別降低了9.68%,11.09%,3.41%。與Bang-Bang經(jīng)典控制相比,深度強(qiáng)化學(xué)習(xí)控制在位移、速度和加速度響應(yīng)的最大值分別降低了3.15%,3.52%,26.7%,均方根分別降低了4.29%,5.62%,8.56%。綜合以上分析結(jié)果可以得出,深度強(qiáng)化學(xué)習(xí)控制策略的減振效果總體優(yōu)于VD多模態(tài)控制和Bang-Bang控制。且相較于加速度響應(yīng),該控制策略在速度和位移響應(yīng)上的減振優(yōu)勢更顯著,這與獎勵函數(shù)的特性有關(guān)。智能體為取得最大收益,更傾向于使拉索維持在位移、速度均方根值小的低能量狀態(tài),而主動調(diào)節(jié)阻尼器電壓會提高局部加速度響應(yīng),這也解釋了深度強(qiáng)化學(xué)習(xí)控制下的拉索加速度幅值略高于最優(yōu)被動控制的現(xiàn)象。
表2 不同控制策略下拉索的標(biāo)準(zhǔn)化振動響應(yīng)對比
取拉索跨中位置在80~120 s的振動響應(yīng)對不同算法控制效果進(jìn)行可視化分析,如圖6所示。結(jié)果表明,基于深度強(qiáng)化學(xué)習(xí)的半主動控制策略要優(yōu)于VD多模態(tài)控制和Bang-Bang控制。其中位移和速度響應(yīng)的優(yōu)化效果較為明顯,加速度響應(yīng)的穩(wěn)定性略差于最優(yōu)被動控制,與前述分析結(jié)果一致。
圖7為全仿真時長內(nèi)拉索全長的振動響應(yīng)輪廓線。結(jié)果表明,深度強(qiáng)化學(xué)習(xí)控制算法對應(yīng)的位移輪廓和速度輪廓要優(yōu)于其余兩種控制策略,而加速度輪廓略差于VD多模態(tài)控制策略,優(yōu)于Bang-Bang控制策略。由加速度響應(yīng)輪廓可以看到Bang-Bang控制策略在阻尼器位置的加速度值較為突出,這是由于其控制律較為固定,只基于阻尼器活塞的相對速度和相對位移,沒有對拉索狀態(tài)的適應(yīng)性調(diào)節(jié),且容易受到測量誤差的影響,因此容易造成局部區(qū)域的穩(wěn)定性較差,而深度強(qiáng)化學(xué)習(xí)算法的控制效果更為穩(wěn)定。
(a) 位移響應(yīng)時程曲線對比
(a) 位移響應(yīng)輪廓對比
本文提出了一種基于深度強(qiáng)化學(xué)習(xí)算法的拉索半主動自適應(yīng)控制策略,利用優(yōu)化后的DQN控制算法實現(xiàn)了對拉索振動的無模型控制。對比分析了VD多模態(tài)控制、MR阻尼器Bang-Bang控制、深度強(qiáng)化學(xué)習(xí)控制策略下的拉索風(fēng)振控制效果,研究結(jié)論如下:
(1) 深度強(qiáng)化學(xué)習(xí)控制算法可實現(xiàn)對拉索風(fēng)致振動的有效控制,且控制效果總體優(yōu)于VD多模態(tài)控制和Bang-Bang控制,為拉索振動半主動控制提供了新的解決思路。
(2) 深度強(qiáng)化學(xué)習(xí)控制算法具有自適應(yīng)特性,僅在特定位置點設(shè)置觀測器即可實現(xiàn)拉索振動的在線控制,無需建立全狀態(tài)反饋。此外,該算法能夠?qū)崿F(xiàn)從拉索振動狀態(tài)到最優(yōu)控制電壓的直接決策,無需建立MR阻尼器逆模型進(jìn)行控制力到電壓的二次轉(zhuǎn)換,從而控制策略更易實施。