高洪森,游國棟,王 雪,房誠信,張 尚
(1. 天津力神電池股份有限公司,天津 300384;2. 天津科技大學(xué)電子信息與自動化學(xué)院,天津 300222)
隨著新能源交通工具的普及,鋰離子電池具有了廣泛的應(yīng)用空間.鋰離子電池的狀態(tài)估計是儲能系統(tǒng)的重要組成部分之一[1-3].鋰離子電池狀態(tài)估計的準確性與電池的充放電過程以及新能源交通工具的運行狀態(tài)密切相關(guān).為了提高鋰離子電池狀態(tài)估計的精度,國內(nèi)外相關(guān)學(xué)者進行了大量研究.
卡爾曼濾波(Kalman filter)是一種利用線性系統(tǒng)狀態(tài)方程,通過系統(tǒng)輸入輸出觀測數(shù)據(jù),對系統(tǒng)進行最優(yōu)估計的算法.由于觀測數(shù)據(jù)中包括系統(tǒng)中的噪聲和干擾的影響,所以最優(yōu)估計也可看作是濾波過程,是一種常見的鋰離子電池狀態(tài)估計算法[4-5].鋰離子電池運行狀態(tài)復(fù)雜,狀態(tài)估計受很多因素的干擾.針對串聯(lián)鋰離子電池組不一致性辨識與狀態(tài)估計,葛云龍等[6]提出一種STF&LM算法,該算法將各單體狀態(tài)、內(nèi)阻估計誤差控制在合理范圍內(nèi),提升了電池組不一致性辨識與狀態(tài)估計.程澤等[7]在分析鋰離子電池二階RC等效電路基礎(chǔ)上,將Sage-Husa自適應(yīng)濾波思想與傳統(tǒng)平方根無跡卡爾曼濾波(squareroot unscented Kalman filter,SRUKF)相結(jié)合,構(gòu)建了一種自適應(yīng)平方根無跡卡爾曼濾波算法,該算法提高了對電池歐姆電阻和容量的估計.上述算法大都設(shè)置已知系統(tǒng)的噪聲特性,然而系統(tǒng)的過程噪聲方差陣或觀測噪聲方差陣事先是未知的,并且具有很強的不確定性和時變性,因此如果出現(xiàn)錯誤的參數(shù)估計常常會造成濾波的發(fā)散.
深度強化學(xué)習(xí)將深度學(xué)習(xí)感知能力和強化學(xué)習(xí)決策能力相結(jié)合,可直接根據(jù)輸入圖像進行控制,是一種更接近人類思維方式的人工智能方法[8-10].文獻[11]利用深度強化學(xué)習(xí)思維,提出了一種強化學(xué)習(xí)的鋰離子電池的狀態(tài)估計算法,該方法對于鋰離子電池的狀態(tài)估計更加精確和靈活,弊端是更改參數(shù)存在困難.文獻[12]和[13]分別將神經(jīng)網(wǎng)絡(luò)和卡爾曼濾波算法相結(jié)合,提出了兩種不同的算法,實驗均驗證了能夠提高鋰離子電池狀態(tài)估計的精度.上述算法中初始學(xué)習(xí)參數(shù)的選擇主要依靠經(jīng)驗,若選擇不當(dāng)?shù)脑?,很容易產(chǎn)生局部最優(yōu)解.趙明等[14]將深度學(xué)習(xí)與卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合,應(yīng)用于地震波形自動分類與識別,并以汶川余震事件中 8900個檢測數(shù)據(jù)作為訓(xùn)練值,訓(xùn)練和檢測準確率均達到 95%以上.針對蜂窩網(wǎng)資源分配多目標優(yōu)化問題,廖曉閩等[15]構(gòu)建了一種深度強化學(xué)習(xí)的蜂窩網(wǎng)資源分配算法,論文通過 Q-learning機制設(shè)計了誤差函數(shù),DNN的權(quán)值利用梯度下降法訓(xùn)練,訓(xùn)練結(jié)果表明該算法能夠自主設(shè)置資源分配方案的偏重程度,且收斂速度快.
基于上述分析,本文通過對鋰離子電池二階 RC等效電路拓撲,建立了離散系統(tǒng)數(shù)學(xué)模型,提出了一種新的深度強化學(xué)習(xí)卡爾曼濾波鋰離子電池荷電狀態(tài)(SOC)估計方法.首先,通過分析鋰離子電池二階RC等效電路模型,建立了電池的狀態(tài)空間模型,并利用傳統(tǒng)的卡爾曼濾波算法構(gòu)建了鋰離子電池的離散系統(tǒng)數(shù)學(xué)模型.結(jié)合人工智能思想,進一步設(shè)計了一個深度強化學(xué)習(xí)卡爾曼濾波鋰離子電池SOC估計方法.最后,通過貝葉斯規(guī)則確保了最佳協(xié)方差.仿真結(jié)果表明,該算法能夠較好地提高電池 SOC估計的精度.
鋰離子電池的運行狀態(tài)較為復(fù)雜,其涉及電化學(xué)反應(yīng)、電荷傳遞等多個相互耦合的過程,具有強烈的非線性動態(tài)特性.針對鋰離子電池的 SOC估計,學(xué)者們建立了不同的模型,其主要包括等效電路模型、電化學(xué)模型和人工神經(jīng)元網(wǎng)絡(luò)模型.等效電路模型可以更準確地表達鋰離子電池外特性,最能代表電池的動態(tài)特性線性模型.論文將二階等效電路模型作為研究對象(如圖1),數(shù)學(xué)模型為
式中:r0為鋰離子電池內(nèi)阻;r1、r2,C1、C2為鋰離子電池的極化內(nèi)阻和極化電容;it為鋰離子電池電流;u0為鋰離子電池內(nèi)阻端電壓;uOCV為鋰離子電池開路電壓;u1、u2分別為鋰離子電池的極化內(nèi)阻 r1、r2的電壓;ut為鋰離子電池開路端電壓;t為運行時間.
圖1 鋰離子電池等效電路Fig. 1 Equivalent circuit model for lithium-ion battery
采用安時積分法有鋰離子電池的SOC
式中:λ為庫侖效率系數(shù);Qc為電池標定容量;t0為初始時間;St0和St分別為SOC的初始值和變化值.
式中:τ1=r1C1,τ2=r2C2;uk( uk= it,k)為控制變量;yk( yk= ut,k)為觀測變量;T為變化周期;為系統(tǒng)噪聲干擾,協(xié)方差為Q;vk為觀測噪聲干擾,協(xié)方差為R.
通過放電實驗可以得到SOC-OCV關(guān)系式.圖2為天津力神公司生產(chǎn)的 18650型鋰離子電池在常溫(20~25℃)下的SOC-OCV特性曲線圖.
圖2 鋰離子電池SOC-OCV特性曲線Fig. 2 SOC-OCV characteristic mapping curve of lithium-ion battery
結(jié)合公式(1)—(3),應(yīng)用卡爾曼濾波器,建立鋰離子電池的離散系統(tǒng)數(shù)學(xué)模型
式中:噪聲干擾wk、vk分別設(shè)置為 wk∈(0,Q),vk∈(0,R).
強化學(xué)習(xí)由動物學(xué)習(xí)、參數(shù)擾動自適應(yīng)控制等理論發(fā)展而來,是一種機器學(xué)習(xí)算法.深度強化學(xué)習(xí)將深度學(xué)習(xí)的感知能力和強化學(xué)習(xí)的決策能力相結(jié)合,不斷以試錯的方式與環(huán)境進行交互,通過最大化累積獎賞的方式獲得最優(yōu)策略[10].本文采用深度 Q網(wǎng)絡(luò)(DQN,deep Q-network)具體求解資源分配問題,核心思想是將值網(wǎng)絡(luò)作為評判模塊,基于值網(wǎng)絡(luò)遍歷當(dāng)前觀測狀態(tài)下的各種動作,與環(huán)境進行實時交互,將狀態(tài)、動作和獎懲值存儲在記憶單元中,采用 Q-learning算法反復(fù)訓(xùn)練值網(wǎng)絡(luò),最后選擇能獲得最大價值的動作作為輸出.基于深度強化學(xué)習(xí)的卡爾曼鋰電池SOC估計的基本框架如圖3所示.
圖3 深度強化學(xué)習(xí)的卡爾曼濾波SOC估算原理圖Fig. 3 SOC estimation process under reinforcement learning of Kalman filters
圖 3中sk為算法進行到第 t(t=1,2,…,k,…,n)步時對應(yīng)的觀測,uk為觀測sk下所執(zhí)行的動作,r(sk, uk) =rk為觀測sk下執(zhí)行動作uk后,獲得的獎賞(或懲罰).
深度學(xué)習(xí)卡爾曼估計電池 SOC估算流程如圖 4所示.
圖4 深度學(xué)習(xí)卡爾曼濾波鋰離子電池SOC估算流程圖Fig. 4 SOC estimation flow chart under reinforcement learning of Kalman Filters
將卡爾曼濾波算法與深度強化學(xué)習(xí)相結(jié)合,對鋰離子電池SOC進行估計,有動作狀態(tài)值函數(shù)
定義最佳Q函數(shù)為
利用貝葉斯規(guī)則,方程(6)可以改寫為
式中:f為過渡函數(shù),即 sk+1=f(sk, uk, ak).
由此可知,設(shè)置sk和uk為決策量,則可獲得最佳協(xié)方差.
在 MATLAB環(huán)境下,模擬天津力神公司生產(chǎn)的18650型鋰離子充放電過程,仿真數(shù)據(jù)采用圖 2數(shù)據(jù),SOC真實的初始值為 1,設(shè)定初始值為 0.9.圖 5為平方根高階容積卡爾曼濾波(square-root unscented Kalman filter,SRUKF)和深度強化學(xué)習(xí)卡爾曼濾波(reinforcement learning Kalman filter,RLKF)SOC 估計曲線.由圖 5可以看出:兩種方法都能較準確地跟蹤鋰離子電池 SOC的設(shè)置值,其中本文所提方法較接近SOC的設(shè)置值.
圖5 SOC估計曲線Fig. 5 SOC estmation curves
圖6為兩種方法對SOC估計誤差的比較曲線.
圖6 SOC估計誤差比較曲線Fig. 6 Comparative curves of SOC estmation errors
由圖6可以看出:平方根高階容積卡爾曼濾波策略估計值與設(shè)定值的誤差維持在 0.16上下,本文所提方法估計值與設(shè)定值的誤差保持在 0.14左右,誤差較前一種方法小,表明對鋰離子電池的 SOC估計精度較高,進而證明深度強化學(xué)習(xí)卡爾曼濾波可以提升鋰離子電池的SOC估計精度.
為了進一步驗證所提方法的有效性,本文通過設(shè)定工況(采用美國聯(lián)邦城市運行工況(federal urban driving schedule,F(xiàn)UDS))對鋰離子電池的充放電進行實驗,并對兩種方法(SRUKF和 RLKF)的估計結(jié)果進行了對比.采用安時積分法獲得鋰離子電池SOC的實際值,和仿真一樣SOC真實的初始值設(shè)置為1,初始值設(shè)定為0.9.圖7和圖8分別為SOC估計比較曲線和SOC估計誤差比較曲線.
圖7 FUDS工況下SOC估計曲線Fig. 7 SOC estmation curves of FUDS test
圖8 FUDS工況下SOC估計誤差比較曲線Fig. 8 Comparative curves of SOC estmation errors in FUDS test
由圖7可知:兩種方法均可快速準確地跟蹤到鋰離子電池SOC的設(shè)置值,符合工程鋰離子電池SOC的變化特性.由圖 8可知:RLKF算法對鋰離子電池SOC估計精度更高,且自適應(yīng)能力更強.在開始的200min內(nèi),估計值與真實值之間的差值基本保持在0.14以下;在200min之后,誤差值持續(xù)降低,原因是RLKF具有在線修正 SOC估計誤差的特性.反觀SRUKF算法鋰離子電池SOC估計誤差曲線,在有效的工況時間內(nèi),其估計誤差已超過了 0.16.進一步驗證了RLKF算法對鋰離子電池SOC估計的有效性.
針對鋰離子電池的荷電狀態(tài)(state of charge,SOC)估算精度問題,結(jié)合傳統(tǒng)的卡爾曼濾波算法和深度強化學(xué)習(xí)思想,論文提出了一種新的深度強化學(xué)習(xí)卡爾曼濾波鋰離子電池 SOC估計方法,并進行了仿真驗證.仿真及實驗結(jié)果表明,該估算方法在利用兩種算法優(yōu)點的基礎(chǔ)上,通過貝葉斯規(guī)則可以確保系統(tǒng)的最佳協(xié)方差,有效降低了估算過程的計算量,進而提升SOC估算的精度,具有較好的實用性.