周 楠,王 森,王 晶,沈 棟
(北京化工大學信息科學與技術(shù)學院,北京 100029)
迭代學習控制是根據(jù)其環(huán)境獲得知識或經(jīng)驗的過程,并參考知識或經(jīng)驗對環(huán)境采取行動,從而改善下一次的性能表現(xiàn).1984年,日本學者Arimoto提出了迭代學習控制理論[1],自此便引起了人們的廣泛研究.它是一種模仿人類學習能力的先進智能控制方式,具有嚴格的數(shù)學描述,適用于有限時間區(qū)間上重復運動的被控對象,最早起源于工業(yè)機器人控制問題[2–3].迭代學習控制需要較少的系統(tǒng)先驗知識,方式簡單,因此可用于具有不確定性、非線性和復雜性的系統(tǒng)[4],例如機器人系統(tǒng)、無縫鋼管張減過程壁厚控制系統(tǒng)以及諸多工業(yè)過程控制系統(tǒng)[5].
為獲得良好的控制性能,大多數(shù)有關(guān)迭代學習控制的研究,都依賴于對整個系統(tǒng)信息和運行數(shù)據(jù)的獲取和利用,即假設學習算法所需數(shù)據(jù)的測量或傳輸,是以無限精度執(zhí)行的.在實際情況下,通過共享通信網(wǎng)絡來交換控制器和執(zhí)行器、傳感器之間信息的網(wǎng)絡化控制系統(tǒng)已經(jīng)成為國際自動控制領域的一個熱點研究課題[6].在過去10年中,網(wǎng)絡系統(tǒng)成功應用于控制、故障診斷、信號處理、信息融合等領域,已經(jīng)有許多關(guān)于控制和穩(wěn)定性問題的可用結(jié)果[7].對比傳統(tǒng)的點對點控制模式,網(wǎng)絡化控制系統(tǒng)具有易安裝和易設置、少布線和低維護成本、可實現(xiàn)資源共享等優(yōu)點.
隨著通信,電子技術(shù)和計算機的快速發(fā)展與廣泛應用,網(wǎng)絡通信被引入計算機控制領域[8].在實際應用中,需考慮通信網(wǎng)絡帶來的影響.由通信約束導致不完備信息的因素很多,既有客觀因素,也有主觀因素.沈棟等將不完備信息場景分為兩類[9]:被動不完備信息和主動不完備信息.被動不完備信息的迭代學習控制重點研究隨機數(shù)據(jù)包丟失、通信延遲、容量限制以及迭代變長度,它們的信息丟失均是由實際條件和現(xiàn)場環(huán)境,或其他硬件限制(傳感器/執(zhí)行器飽和)造成[10].在研究數(shù)據(jù)包丟失時,有兩種主要的迭代學習算法設計方案,一種是事件觸發(fā),另一種是迭代觸發(fā),不同之處在于學習更新時如何處理丟失的數(shù)據(jù),對丟失數(shù)據(jù)進行充分補償可以有效提高跟蹤性能.因此,針對具體問題制定具體的補償機制具有重要意義,但相關(guān)研究成果較少.在研究通信延遲時,用伯努利隨機變量描述隨機時滯,在收斂性分析中采用期望值消除隨機性.迭代變長問題目前取得了一些進展,大多數(shù)文獻考慮離散時間系統(tǒng),系統(tǒng)被限制為線性或全局利普希茨非線性,基于平均算子的迭代學習控制器設計被廣泛研究.在主動不完備信息場景下,考慮了兩種降低數(shù)據(jù)量的措施,即采樣數(shù)據(jù)迭代學習控制和量化迭代學習控制.與采樣數(shù)據(jù)迭代學習控制相關(guān)聯(lián)的主要問題有兩個:采樣瞬間的行為和采樣間隔性能如何.具體來說,前者的目標是構(gòu)造適當?shù)膶W習算法以保證在采樣時刻收斂,而后者則側(cè)重于定量分析不同采樣時刻之間的跟蹤性能和可能的解決方案,以減少采樣間隔內(nèi)的跟蹤誤差.與傳統(tǒng)的量化控制相比,量化迭代學習控制還處于初級階段.由于網(wǎng)絡的傳輸容量有限,被控對象與控制器之間的通訊能力往往有限,傳輸?shù)臄?shù)據(jù)應在發(fā)送到下一個網(wǎng)絡節(jié)點之前進行量化[11–12].即把采樣得到的信號進行幅度離散,可有效地降低傳輸數(shù)據(jù)量,從而滿足系統(tǒng)的帶寬要求,這是減少傳輸負擔的必要條件,量化器為此提供了極大的優(yōu)勢[13].因此,研究其對控制性能的影響以及如何克服影響并提高系統(tǒng)的魯棒性非常重要,但在迭代學習控制領域,基于數(shù)據(jù)量化、數(shù)據(jù)包丟失設計控制器以及相關(guān)跟蹤性能的分析還處于起步階段.
卜旭輝等[14]給出了量化迭代學習控制的早期嘗試,輸出測量值由對數(shù)量化器量化后,傳輸?shù)娇刂破饕愿驴刂坡?通過使用扇形界和傳統(tǒng)的壓縮映射方法,表明跟蹤誤差收斂到一個小范圍,其上限取決于量化密度.為實現(xiàn)零誤差跟蹤性能,沈棟等又提出量化跟蹤誤差的方法[15–16],使用P型迭代學習律可以保證零誤差收斂.卜旭輝等人提出量化控制輸入更新信號,采用二維模型理論給出了系統(tǒng)漸近穩(wěn)定性條件[17].除此之外還擴展到了隨機系統(tǒng)[18].在數(shù)據(jù)包丟失情況下,提出間歇性和連續(xù)性迭代學習律,如果未接收到信息,前者將停止控制律的更新,而后者將根據(jù)最新的可用信息繼續(xù)進行更新[19].沈棟等[20]探討了數(shù)據(jù)丟包迭代學習控制的通用情況,允許數(shù)據(jù)丟失在測量端和執(zhí)行器端隨機發(fā)生,提出了針對計算輸入和實際輸入的更新機制,并將這兩個更新過程轉(zhuǎn)化為馬爾可夫鏈模型.上述方法僅借助前一批次的跟蹤誤差信息來修正當前批次控制信號,是典型的開環(huán)學習方式,但實際上還可以利用當前批次所獲信息來構(gòu)造學習算法,形成閉環(huán)學習過程.相較而言,閉環(huán)學習比開環(huán)學習修正及時,通過較少的迭代次數(shù)即可改善系統(tǒng)穩(wěn)定性能.但由于因果性,無法準確獲得當前誤差的導數(shù)信號[21].
本文討論迭代學習控制在網(wǎng)絡環(huán)境中執(zhí)行,且同時存在量化和數(shù)據(jù)包丟失的情況.方便起見,僅考慮輸出測量端存在通信信道的情況.將數(shù)據(jù)包丟失描述為一個概率已知的伯努利序列,采用對數(shù)量化器,將量化的跟蹤誤差傳送回控制器.基于反饋輔助PD型迭代學習律,利用前一批次和當前批次產(chǎn)生的跟蹤誤差信號來更新控制輸入.當初始狀態(tài)精確重置時,能保證零誤差收斂,并加快系統(tǒng)的收斂速度.而對于初態(tài)偏移情況,則證明了跟蹤誤差與初始狀態(tài)偏差的界成正比,且反饋輔助PD型迭代學習控制算法仍然保持穩(wěn)健的性能,同時可以發(fā)現(xiàn),較大的初始偏差會導致較大的跟蹤誤差范圍.通過數(shù)值仿真,對比了反饋輔助PD型學習律與開環(huán)P型、PD型學習律的收斂性能,驗證了所提學習算法的有效性及優(yōu)越性.本文貢獻如下:1)在具有通信約束的環(huán)境下,提出了反饋輔助PD型迭代學習控制律,采用壓縮映射法分析證明了同時存在數(shù)據(jù)量化和數(shù)據(jù)包丟失時,所提控制算法依然可以保證跟蹤誤差漸近收斂到零;2)通過數(shù)值仿真對比反饋輔助PD型學習律與P型、PD型學習律的控制效果,驗證了所提方法可以很好地提高學習過程的收斂速度;3)討論了存在初態(tài)偏移時反饋輔助PD型迭代學習控制的理論分析與仿真結(jié)果.
考慮如下離散線性時不變系統(tǒng)
其中:k=1,2,···表示迭代次數(shù);t=0,1,···N表示在一次迭代過程中的不同時間;N是迭代長度;xk(t),uk(t),yk(t)分別是狀態(tài)、輸入和輸出;A,B,C是適當維數(shù)的矩陣.本文雖考慮時不變系統(tǒng),但下述結(jié)果可以平推至時變系統(tǒng)情形.假設CB是列滿秩的.CB列滿秩是迭代學習算法收斂的一個充分必要條件.為了判斷在所提出的控制結(jié)構(gòu)下是否存在收斂學習法則,僅需要檢查輸出輸入耦合矩陣是否為列滿秩.該假設的物理意義是系統(tǒng)的相對階數(shù)為1,在實際中可以滿足[22–24].
定義參考軌跡yd(t),t=0,1,···,N.
控制目標是找到一個輸入序列{uk(t)},使得對于任意t當k →∞時,輸出yk(t)收斂到y(tǒng)d(t).為了后續(xù)分析,需要如下假設條件.
假設1參考軌跡yd(t)可實現(xiàn),即存在唯一的輸入ud(t)使得
其中存在一個合適的初始狀態(tài)xd(0).
假設2滿足相同初始條件,即對于所有批次,xk(0)=xd(0),xd(0)是期望的初始狀態(tài).
假設3初始狀態(tài)從xd(0)偏移,但應該是有界的,即‖xd(0)?xk(0)‖ε,其中ε是正常數(shù).
在本文中,對于任何確定的跟蹤軌跡,在操作之前首先傳輸?shù)较到y(tǒng),產(chǎn)生跟蹤誤差,再將其量化和傳輸回控制器.在這個過程中,數(shù)據(jù)包丟失情況經(jīng)常發(fā)生.假設控制器具有智能檢測功能,它可以確定數(shù)據(jù)是否丟失[25].本文將討論對于系統(tǒng)(1)和期望軌跡yd(t),在數(shù)據(jù)量化和隨機數(shù)據(jù)包丟失的情況下,如何設計控制律使得系統(tǒng)的魯棒性增強.
定義Q(·)為所選量化器.本文使用對數(shù)量化器[26].
其中μ是量化密度,相應的量化器Q(·)如下:
其中ζ=(1 ?μ)/(1+μ).很明顯量化器Q(·)對稱且時不變.
對數(shù)量化器的量化誤差滿足下述扇形界性質(zhì)[27]:
將數(shù)據(jù)包丟失模型描述為具有已知概率的伯努利二進制序列[28].定義隨機參數(shù)αk(t)是0–1伯努利序列,即αk(t)∈{0,1}. αk(t)=0表示數(shù)據(jù)丟失,否則未丟失,且滿足
現(xiàn)給出引理1用于之后的證明過程[29]:
引理1定義η為伯努利二進制隨機變量,P{η=1}=,P{η=0}=1 ?M是正定矩陣.那么當且僅當滿足如下條件之一時,等式E‖I ?ηM‖=‖I ?M‖成立:
針對以上控制目標,本文利用前次迭代產(chǎn)生的輸出信號ek(t)與ek(t+1)和當前次迭代產(chǎn)生的輸出反饋信號,構(gòu)成控制輸入的修正項,從而提高學習過程的收斂速度,提出反饋輔助PD型量化迭代學習控制律
控制結(jié)構(gòu)圖如圖1所示.
圖1 反饋輔助PD型量化迭代學習控制系統(tǒng)結(jié)構(gòu)圖Fig.1 Structure of the feedback-assisted PD-type quantized iterative learning control system
如果控制器增益L2=0,K=0,則控制律為P型迭代學習律
如果控制器增益K=0,則控制律為PD型迭代學習律
其中:ek(t)=yd(t)?yk(t)為跟蹤誤差信號,L1,L2,K為學習增益矩陣.
“村委會這兒一共安了幾個喇叭?”“8個?!薄岸际悄男┎块T給安的?”“我也說不清,都是上面來人說安就安了。”
在此節(jié),如下定理刻畫了算法(6)的收斂性質(zhì).
定理1考慮存在量化誤差的系統(tǒng)(1)和更新律(6),假設1–2成立.如果增益矩陣L1滿足那么隨著k →∞,系統(tǒng)的跟蹤誤差收斂到零.
證記δuk(t)=ud(t)?uk(t), δxk(t)=xd(t)?xk(t).用ud(t)兩邊同時減去式(6),結(jié)合式(4),可以得到
注意到,Γ,L,H均為下三角矩陣,H對角線元素為I,Γ對角線元素為ρ<1.因此,當k →∞時,Vk→0,或者等價的,對于任意時間,k→∞,‖δuk(t)‖→0.由式(15)和時間的有限性可知,對于任意時間,k →∞, ‖δxk(t)‖→0,因此有k →∞,‖ek(t)‖→0.系統(tǒng)的零誤差跟蹤性能得證. 證畢.
推論1對于離散線性時不變系統(tǒng)(1),同時考慮數(shù)據(jù)量化與數(shù)據(jù)包丟失,采用P型學習律
假設1–2成立.如果增益矩陣L1滿足
那么隨著k →∞,系統(tǒng)的跟蹤誤差收斂到零.
推論2對于離散線性時不變系統(tǒng)(1),同時考慮數(shù)據(jù)量化與數(shù)據(jù)包丟失,采用PD型學習律
假設1–2成立.如果增益矩陣L1滿足
那么隨著k →∞,系統(tǒng)的跟蹤誤差收斂到零.
注1上述推論與定理1的證明過程類似,此處略.
定理2考慮存在量化誤差的系統(tǒng)(1)和更新律(6),假設1和假設3成立.如果增益矩陣L1滿足
那么當?shù)螖?shù)k →∞時,跟蹤誤差收斂到小范圍內(nèi),其界限與偏差ε成正比,即
其中γ是一個適當?shù)某?shù).
證該證明過程沿著定理1,式(10)–(14)的推導保持不變,但式(15)變化為
考慮如下線性系統(tǒng):
期望參考軌跡
初始狀態(tài)設定為對于所有k,xk(0)=xd(0)=0,初始輸入選為u0(t)=0.給定量化器參數(shù)z0=2,μ=0.85,則ζ=0.08.分別選擇學習增益L1=0.8,L2=0.3,K=0.2.該算法執(zhí)行20次迭代,考慮系統(tǒng)在反饋輔助PD型學習律、PD型學習律、P型學習律下的收斂性能.考慮3種數(shù)據(jù)包丟失的情況:
情況1無數(shù)據(jù)包丟失,即=1;
情況210%的數(shù)據(jù)包丟失,即=0.9;
情況340%的數(shù)據(jù)包丟失,即=0.6.
具體仿真結(jié)果如下:
情況1無數(shù)據(jù)丟失情況下,圖2(a)–2(c)分別描述在第2次、第3次、第5次、第20次迭代時,反饋輔助PD型學習律、PD型學習律、P型學習律的跟蹤性能.圖2(d)對比了不同學習律下系統(tǒng)沿迭代軸的跟蹤誤差.圖2(e)–2(f)描述了第3和5次迭代時,3種學習律的跟蹤效果.
可以看出,在無數(shù)據(jù)丟失情況下,反饋輔助PD型學習律、PD型學習律、P型學習律均可保證零誤差收斂.但反饋輔助PD型學習律效果最好,在第3次迭代時幾乎收斂到期望軌跡.
情況210%數(shù)據(jù)丟失情況下,圖3(a)–3(c)分別描述在第2次、第3次、第5次、第20次迭代時,反饋輔助PD型學習律、PD型學習律、P型學習律的跟蹤性能.圖3(d)對比了不同學習律下系統(tǒng)沿迭代軸的跟蹤誤差.圖3(e)–3(f)描述了第3和5次迭代時,3種學習律的跟蹤效果.
可以看出,在10%數(shù)據(jù)丟失情況下,反饋輔助PD型學習律、PD型學習律、P型學習律均可保證零誤差收斂.但反饋輔助PD型學習律效果最好、收斂速度最快.
圖2 無數(shù)據(jù)丟失情況下Fig.2 No data loss
圖3 10%數(shù)據(jù)丟失情況下Fig.3 10%data loss
情況340%數(shù)據(jù)丟失情況下,圖4(a)–4(c)分別描述在第2次、第3次、第5次、第20次迭代時,反饋輔助PD型學習律、PD型學習律、P型學習律的跟蹤性能.圖4(d)對比了不同學習律下系統(tǒng)沿迭代軸的跟蹤誤差.圖4(e)–4(f)描述了第5和20次迭代時,3種學習律的跟蹤效果.
圖4 40%數(shù)據(jù)丟失情況下Fig.4 40%data loss
可以看出,在40%數(shù)據(jù)丟失情況下,反饋輔助PD型學習律、PD型學習律、P型學習律均可保證零誤差收斂.但反饋輔助PD型學習律效果最好,收斂速度最快.
數(shù)據(jù)包丟失的影響:圖5(a)–5(f)分別在第3次迭代時,對比了0,10%,40%數(shù)據(jù)丟失情況下,反饋輔助PD型學習律、PD型學習律、P型學習律的跟蹤性能.
可以看出,與情況1–2丟失0,10%數(shù)據(jù)相比,跟蹤誤差收斂速度變慢,這與數(shù)據(jù)丟失程度增加有關(guān).但反饋輔助PD型迭代學習控制仍具有較好的收斂性能.
圖5 數(shù)據(jù)包丟失對學習律的影響Fig.5 Impact of packet loss on learning law
初態(tài)偏移的影響:為了驗證在不同初始狀態(tài)下的收斂性,讓初始狀態(tài)在[?ε,ε]之間隨機偏移,令ε=1,2.如下圖所示,反饋輔助PD型迭代學習控制算法仍然保持穩(wěn)健的性能,同時可以發(fā)現(xiàn),較大的初始偏差會導致較大的跟蹤誤差范圍.
情況1:分別令ε=1,2,10%的數(shù)據(jù)包丟失時,3種學習律的跟蹤誤差.
情況2:令ε=2
圖6 初態(tài)偏差對學習律的影響Fig.6 Initial state shifts on learning law
1) 10%的數(shù)據(jù)包丟失時,在第3次迭代下,3種學習律的跟蹤效果.
2) 第3次迭代時,3種學習律在無數(shù)據(jù)丟包、10%數(shù)據(jù)丟包、40%數(shù)據(jù)丟包下的跟蹤效果.
本文針對同時具有數(shù)據(jù)量化和數(shù)據(jù)包丟失的網(wǎng)絡線性系統(tǒng),設計反饋輔助PD型迭代學習控制算法.將數(shù)據(jù)包丟失描述為一個概率已知的伯努利過程,采用對數(shù)量化器,將量化的跟蹤誤差傳送回控制器.利用前一批次和當前批次產(chǎn)生的跟蹤誤差信號來更新控制輸入.當初始狀態(tài)精確重置時,能保證零誤差收斂,并加快系統(tǒng)的收斂速度.而對于初態(tài)偏移情況,則證明了跟蹤誤差與初始狀態(tài)偏差的界成正比,且反饋輔助PD型迭代學習控制算法仍然保持穩(wěn)健的性能,同時可以發(fā)現(xiàn),較大的初始偏差會導致較大的跟蹤誤差范圍.此外,反饋輔助PD型迭代學習控制引入了當前迭代次跟蹤誤差的反饋.客觀上說,應該有助于提升控制器對非重復干擾等因素的魯棒性.如何進一步從非重復干擾魯棒性的角度分析反饋輔助PD型迭代學習算法的優(yōu)勢將是筆者未來工作的重點.