陳吉清,李子涵,蘭鳳崇,蔣心平,潘威,陳繼開
(1.華南理工大學(xué)機(jī)械與汽車工程學(xué)院,廣州 510640;2.華南理工大學(xué),廣東省汽車工程重點(diǎn)實(shí)驗(yàn)室,廣州 510640)
汽車動力電池的健康狀態(tài)(SOH)估計(jì)作為電池管理系統(tǒng)(BMS)最重要的功能之一[1],直接影響車輛行駛與安全。電池狀態(tài)估計(jì)方法大致分為兩類:基于模型的方法和數(shù)據(jù)驅(qū)動方法?;谀P偷姆椒ǚ譃殡娀瘜W(xué)模型[2]和等效電路模型[3]。等效電路模型應(yīng)用簡便但其魯棒性和精確度隨老化下降較快[4-5];電化學(xué)模型的估計(jì)精度顯著提升,但模型較為復(fù)雜[6]。
數(shù)據(jù)驅(qū)動方法將電池視作一個(gè)“黑箱”,不考慮電池內(nèi)部變化,在沒有先驗(yàn)?zāi)P偷那疤嵯?,根?jù)電池充放電過程中的電流、電壓、溫度等外部數(shù)據(jù),對電池健康狀態(tài)進(jìn)行估計(jì)[7]。數(shù)據(jù)驅(qū)動方法分為兩步:構(gòu)建特征和選取模型。Shen 等[8]選用多個(gè)充電片段中固定時(shí)間間隔的電壓、電流、容量矩陣做輸入,驗(yàn)證了不同尺寸的輸入特征對估計(jì)精確度的影響;選擇合適的模型對特征進(jìn)行訓(xùn)練及估計(jì),Hu 等[9]基于k 最近鄰回歸建立非線性核回歸模型,應(yīng)用粒子群優(yōu)化尋找模型最優(yōu)權(quán)重組合,實(shí)現(xiàn)準(zhǔn)確預(yù)測電池狀態(tài),Tian 等[10]用卷積神經(jīng)網(wǎng)絡(luò)(CNN)通過部分充電曲線預(yù)測整段充電曲線,并借遷移學(xué)習(xí)提高神經(jīng)網(wǎng)絡(luò)方法在數(shù)據(jù)量較少時(shí)的適應(yīng)性,實(shí)現(xiàn)模型在小樣本數(shù)據(jù)集上的準(zhǔn)確估計(jì)。
值得關(guān)注的是,與基于實(shí)驗(yàn)室數(shù)據(jù)的SOH 估計(jì)不同,基于實(shí)車行駛數(shù)據(jù)的SOH 估計(jì)研究并不成熟[11]。一方面,實(shí)車運(yùn)行數(shù)據(jù)難以構(gòu)建和實(shí)驗(yàn)室數(shù)據(jù)相同且有效的健康特征。實(shí)車的放電過程受駕駛員駕駛風(fēng)格影響,很難捕捉電壓和電流變化規(guī)律;充電工況多為多段恒流充電,具有一定的穩(wěn)定性和變化規(guī)律,但實(shí)際充電過程很少有滿充滿放的充電片段,導(dǎo)致部分特征無法應(yīng)用。Ding 等[12]使用無監(jiān)督學(xué)習(xí)方法實(shí)現(xiàn)相關(guān)輸入?yún)?shù)的多層特征融合,自動學(xué)習(xí)數(shù)據(jù)的高層相關(guān)性,提高實(shí)車運(yùn)行工況數(shù)據(jù)的利用程度。胡杰等[13]利用非支配排序遺傳算法對實(shí)車充電曲線進(jìn)行精度與效率的多目標(biāo)優(yōu)化,將估計(jì)電池容量的最佳電壓區(qū)間作為健康因子,降低了實(shí)車充電數(shù)據(jù)區(qū)間不完整的影響。
另外,實(shí)車復(fù)雜運(yùn)行工況引起的較大噪聲,以及電池健康衰退趨勢的強(qiáng)非線性,要求估計(jì)模型既能夠解決非線性問題,又可以提高泛化性能,避免過擬合。李夢飛等[14]選用有較強(qiáng)非線性處理能力的BP神經(jīng)網(wǎng)絡(luò)模型對SOH 估計(jì),可以較好地適應(yīng)實(shí)車數(shù)據(jù)的非線性和復(fù)雜性;肖遷等[15]建立LightGBM 模型,利用弱分類器迭代訓(xùn)練得到最優(yōu)模型,解決噪聲引起的過擬合問題,實(shí)現(xiàn)有效估計(jì)。
針對實(shí)車數(shù)據(jù)難以提取有效特征的問題,使用增量容量分析,從部分充電片段中提取出有效表征電池健康狀態(tài)衰減的IC 曲線峰作為特征,再基于t-SNE 算法對多維特征進(jìn)行非線性降維,降低特征信息冗余,提升特征估計(jì)質(zhì)量;針對實(shí)車運(yùn)行工況數(shù)據(jù)的噪聲大以及電池健康衰退趨勢的非線性,采用支持向量回歸(SVR)方法對高維非線性特征數(shù)據(jù)實(shí)現(xiàn)較為精確的電池健康狀態(tài)估計(jì)。
對實(shí)車SOH 估計(jì)構(gòu)造總體框架如圖1 所示,主要分為數(shù)據(jù)預(yù)處理、特征提取和估計(jì)模型訓(xùn)練3 個(gè)部分。在本節(jié)對使用的各算法進(jìn)行理論推導(dǎo),包括對實(shí)車數(shù)據(jù)使用增量容量分析提取特征;使用t-SNE 算法對增量容量分析特征進(jìn)行非線性降維,優(yōu)化特征;訓(xùn)練和優(yōu)化支持向量回歸(SVR)模型,對實(shí)車SOH進(jìn)行準(zhǔn)確估計(jì)。
圖1 方法整體框架
基于充電曲線提取特征大多需要電池的完整充放電片段,但在對數(shù)據(jù)分析時(shí),發(fā)現(xiàn)使用的實(shí)車數(shù)據(jù)很少有滿充滿放片段,多數(shù)充電片段只能夠覆蓋充電曲線的中部,SOC 值變化多集中在30%-70%區(qū)間。充電過程中,電壓上升趨勢在曲線中部減緩,電池內(nèi)部達(dá)到相對平衡狀態(tài),此區(qū)間稱為電平臺,電池在電平臺區(qū)間充入大量電量,如何基于此階段提取特征是實(shí)現(xiàn)實(shí)車SOH 估計(jì)的重點(diǎn)。此區(qū)間曲線變化趨勢較小,而充電電流不穩(wěn)定,不易直接使用充電曲線特征。使用增量容量分析不完整不穩(wěn)定的充電曲線中提取IC 峰特征,有效表征電池健康狀態(tài)。充電曲線電平臺與增量容量曲線波峰的對應(yīng)關(guān)系如圖2所示。
圖2 充電曲線與IC對照
增量容量分析(ICA)是對充電曲線數(shù)據(jù)微分,充電容量對充電電壓求導(dǎo):
式中:Qi為時(shí)刻i對應(yīng)電量;Ui為對應(yīng)電壓。將平緩曲線區(qū)間轉(zhuǎn)換為dQ/dU-U曲線上明顯的峰值點(diǎn),可以更直觀地反映充電片段數(shù)據(jù)和電池健康狀態(tài)衰退的關(guān)系,對SOH進(jìn)行估計(jì)。
增量容量分析是一種基于數(shù)學(xué)手段的特征提取方法,將外部直接可測的電壓、電流數(shù)據(jù)轉(zhuǎn)化為IC曲線的峰位置和峰高度等加工特征,而峰特征的變化則對應(yīng)電池內(nèi)部的活性材料損失和電池內(nèi)阻增加的化學(xué)反應(yīng)[16]。該方法靈活性很高,不局限于特定的電池或?qū)嶒?yàn)室測試環(huán)境;另外較窄SOC 范圍內(nèi)數(shù)據(jù)即可提取有效特征信息,在復(fù)雜的實(shí)車運(yùn)行工況下,也能表征電池健康狀態(tài)。
一般而言,輸入模型的特征維數(shù)越多,越能夠涵蓋更多電池健康狀態(tài)的信息,狀態(tài)估計(jì)越精確。但部分特征包含信息較少,另外特征參數(shù)之間可能存在的高度相關(guān)性會造成信息冗余。不僅會導(dǎo)致估計(jì)時(shí)長增加,甚至?xí)霈F(xiàn)模型過擬合的情況。需要對特征信息降維,即在保留原有特征重要信息的前提下,降低特征空間的維數(shù)。實(shí)車運(yùn)行數(shù)據(jù)的復(fù)雜性和不確定性會造成特征的高度非線性,使得常用的線性降維方法無法充分獲取高維特征蘊(yùn)含的信息。
傳統(tǒng)的線性降維方法(如PCA、LDA等),默認(rèn)先進(jìn)行投影變換,尋找一個(gè)使其目標(biāo)最大化的低維空間,即目標(biāo)空間必定是高維空間線性變換的子空間;基于t-分布的隨機(jī)近鄰嵌入算法(t-SNE)是一種非線性降維方法,非線性降維相比線性降維能夠有效地將特征數(shù)據(jù)投影到低維空間并保證嚴(yán)格的分割界面。算法思想是將高維數(shù)據(jù)直接映射到低維空間,用低維數(shù)據(jù)反映原數(shù)據(jù)的本質(zhì)結(jié)構(gòu)特征,而盡量保持?jǐn)?shù)據(jù)間的空間距離不變,即保持特征在高位空間分布與低維空間分布特性一致[17-18]。
t-SNE 算法使用條件概率的形式來表示高維特征數(shù)據(jù)之間的相似性,并假設(shè)高維空間樣本數(shù)據(jù)點(diǎn)服從高斯分布,低維空間樣本點(diǎn)則服從t樣本。對給定高維空間的數(shù)據(jù)x1,x2,…,xn,有pj|i表示數(shù)據(jù)點(diǎn)xi為中心時(shí),xj是其近鄰點(diǎn)的概率,σi為高斯分布的標(biāo)準(zhǔn)差,采用的高斯分布公式如下:
對映射在低維空間的點(diǎn)y1,y2,…,yn,計(jì)算在低維空間中的概率qj|i:
采用相對熵(KLD)來衡量兩個(gè)分布之間的相似性,為保證兩個(gè)分布相似,令KL代價(jià)函數(shù)最小化,對代價(jià)函數(shù)進(jìn)行梯度下降,公式如下:
對低維數(shù)據(jù)y1,y2,…,yn進(jìn)行梯度更新:
隨機(jī)近鄰嵌入(SNE)傾向于保留局部特征,即在高維距離較近的點(diǎn)在低維時(shí)會聚在一起,因此降維后會出現(xiàn)“擁擠問題”。t-SNE 算法使用對稱SNE簡化了梯度公式,并在低維空間使用t分布代替高斯分布,使得數(shù)據(jù)在低維空間,同類數(shù)據(jù)的距離減少,不同類間的距離增大,解決了降維的“擁擠問題”,實(shí)現(xiàn)了高維數(shù)據(jù)的有效降維。t 分布的概率密度函數(shù)形式如下:
式中:Γ為伽馬函數(shù);ν為自由度,其值越小越平坦。
實(shí)車數(shù)據(jù)的IC 峰特征有小樣本、長時(shí)間窗口的特點(diǎn),支持向量回歸(SVR)算法非常適用于解決有限樣本的非線性問題。
支持向量機(jī)(SVM)是基于統(tǒng)計(jì)學(xué)習(xí)理論,依據(jù)VC維框架和結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理,通過尋找平衡模型復(fù)雜度和學(xué)習(xí)能力的最優(yōu)條件,進(jìn)而建立模型并得到最優(yōu)結(jié)果的分類算法[19]。SVM依靠核函數(shù)將非線性樣本數(shù)據(jù)轉(zhuǎn)換到高維空間,在高維空間實(shí)現(xiàn)線性可分,求取最優(yōu)平面確保樣本點(diǎn)距離平面距離達(dá)到最遠(yuǎn),實(shí)現(xiàn)對非線性數(shù)據(jù)的最優(yōu)分類。
支持向量回歸(SVR)是SVM在回歸擬合上的推廣算法,在SVM 分類算法的基礎(chǔ)上引入了ε不敏感損失函數(shù),SVR 是尋找一個(gè)最優(yōu)平面使得所有訓(xùn)練樣本距離平面的誤差距離最小,實(shí)現(xiàn)非線性樣本的回歸擬合。
S={(x)1,y1,…,(x)n,yn∣xi∈Rn,yi∈R} 為樣本數(shù)據(jù)集(xi是輸入的特征向量,yi是輸出目標(biāo)值),回歸函數(shù)為
式中:w為權(quán)重;b為偏差;Φ(x)為非線性映射函數(shù);K(xj,x1)為核函數(shù),使得低維空間的非線性函數(shù)映射到高維空間后具有線性性質(zhì)。針對數(shù)據(jù)數(shù)量大小適中,特征維數(shù)較小的數(shù)據(jù)集一般選用如下高斯核函數(shù):
式中σ為高斯徑向基函數(shù)核函數(shù)寬度參數(shù)。σ值越小學(xué)習(xí)能力越差,σ越大回歸預(yù)測效果就越好,但容易過擬合,反而降低對新樣本的預(yù)測能力,由于參數(shù)σ可以調(diào)節(jié),使得高斯核函數(shù)具有很高的靈活性。
定義ε為線性不敏感損失函數(shù),SVR 將樣本點(diǎn)距離小于ε的損失定為0,公式如下:
式中:y是對應(yīng)的真實(shí)值;f(x)是通過樣本集訓(xùn)練構(gòu)造出的回歸估計(jì)函數(shù),使得預(yù)測值和目標(biāo)值之間距離小于ε。引入松弛變量ξi、,求解w和b公式為
式中:C為懲罰因子,值越大表示對于誤差距離大于ε的樣本懲罰越大,會影響擬合效果;ε代表了核的方差,值越小表示函數(shù)的預(yù)測值誤差越小。
支持向量回歸算法的精度主要取決于模型參數(shù),可以使用遺傳算法實(shí)現(xiàn)自適應(yīng)尋找最優(yōu)模型參數(shù)組合,用均方誤差(MSE)作為適應(yīng)度函數(shù)來描述個(gè)體優(yōu)劣,用均方根誤差表示回歸方程的性能,在全局范圍內(nèi)對SVR 模型參數(shù)不敏感損失函數(shù)ε、懲罰常數(shù)C和核函數(shù)寬度σ進(jìn)行優(yōu)化。保證模型獲得最優(yōu)的回歸性能,最大化模型的預(yù)測精度。
使用10 輛純電動運(yùn)營車輛一年的電池?cái)?shù)據(jù),車輛動力電池為額定容量180 A·h(1/3C 放電,25 ℃)的三元鋰離子電池組。通過車載數(shù)據(jù)記錄儀采集電池組日常數(shù)據(jù),包括車輛速度、行駛里程、溫度等26項(xiàng)數(shù)據(jù)。采樣周期為10 s,獲取數(shù)據(jù)總計(jì)約千萬條,樣本數(shù)量可以確保數(shù)據(jù)具有一定的代表性和廣泛性[13]。
由于外界工況條件多變和傳感器存在誤差,實(shí)車采集數(shù)據(jù)存在缺失、噪聲大的問題。另外,與實(shí)驗(yàn)室數(shù)據(jù)不同,實(shí)車無法獲取電池SOH 的準(zhǔn)確標(biāo)簽值。因此,如何對數(shù)據(jù)預(yù)處理是實(shí)車SOH 估計(jì)的難點(diǎn)。本節(jié)對實(shí)車原始數(shù)據(jù)進(jìn)行預(yù)處理工作,預(yù)處理流程如圖3 所示,保證數(shù)據(jù)的準(zhǔn)確性、完整性和連續(xù)性;提取合適的健康狀態(tài)的標(biāo)簽,得到可靠的高質(zhì)量數(shù)據(jù)集。
圖3 數(shù)據(jù)處理流程
首先對原始數(shù)據(jù)初步篩選指標(biāo),只保留與本研究相關(guān)字段信息,如表1所示。
表1 數(shù)據(jù)分類與說明
數(shù)據(jù)清洗是提升數(shù)據(jù)質(zhì)量的重要步驟,包括對數(shù)據(jù)進(jìn)行缺失值填充和異常值處理。實(shí)車數(shù)據(jù)中,數(shù)值型信息缺失表現(xiàn)為 “NAN”空值,數(shù)值信息和SOH 聯(lián)系緊密且缺失值占比較小,可以用缺失值前后數(shù)據(jù)的平均值進(jìn)行填充,完善數(shù)據(jù)。文字型數(shù)據(jù)存在“無法獲取”的空值,可直接使用上下數(shù)據(jù)進(jìn)行填補(bǔ);基于3δ原則檢測存在少量異常值,可以使用平均值進(jìn)行修正,保證數(shù)據(jù)完整且連續(xù)。
得到完整連續(xù)的實(shí)車數(shù)據(jù)后,基于時(shí)間維度和車輛狀態(tài)對數(shù)據(jù)進(jìn)行劃分,得到所需的有效充電片段,流程如圖4所示。
圖4 片段劃分流程
實(shí)車運(yùn)行放電過程受外界工況影響變化很大,電流電壓等數(shù)據(jù)不穩(wěn)定,不適用于實(shí)車數(shù)據(jù)的特征提取。對充電循環(huán)統(tǒng)計(jì)分析,得知實(shí)車的充電片段起點(diǎn)多集中于20%-40%區(qū)間,結(jié)束多在70%-90%區(qū)間,充電片段的區(qū)間范圍與區(qū)間長度滿足進(jìn)行增量容量分析的需求。對車輛數(shù)據(jù)進(jìn)行充電片段提取,車輛的完整連續(xù)數(shù)據(jù)量和提取的有效充電片段數(shù)量如表2所示。
表2 車輛數(shù)據(jù)量
提取出有效充電片段后,可以基于片段容量重新進(jìn)行車輛SOH 的標(biāo)定,以解決實(shí)車數(shù)據(jù)集存在電池SOH 指標(biāo)不精確的問題,為后續(xù)模型訓(xùn)練提供精確標(biāo)簽。SOH即當(dāng)前電池的額定容量與初始額定容量的比值:
式中:Ccur為電池當(dāng)前額定容量;Crated為初始額定容量。電池初始額定容量Crated已知,需要計(jì)算電池當(dāng)前額定容量Ccur。一段時(shí)間內(nèi),SOC 的變化量可以表示為
式中ΔC是使用安時(shí)積分法計(jì)算的電池變化容量。綜合式(11)和式(12)推導(dǎo)電池當(dāng)前額定容量:
聯(lián)合式(11)和式(13)計(jì)算充電片段SOH值,對所有充電片段繪制SOH-時(shí)間散點(diǎn)圖,觀察電池健康狀態(tài)隨時(shí)間的變化,圖5 所示以車輛1 為例,圖中的紅色圓形散點(diǎn)代表依據(jù)單個(gè)片段充入容量計(jì)算所得的SOH 值。圖中數(shù)據(jù)散點(diǎn)整體呈線性分布,電池健康狀態(tài)隨時(shí)間變化線性下降,從100%下降到93%,符合電池容量的一般衰減趨勢。另外從圖中可以看出原始數(shù)據(jù)分散性較強(qiáng):車輛充電過程中外部溫度影響和傳感器故障等,使電池的健康狀態(tài)值在同一時(shí)間段內(nèi)并不穩(wěn)定。因此,還需要對電池的數(shù)據(jù)標(biāo)簽進(jìn)一步修正,對標(biāo)定SOH 值進(jìn)行回歸降噪,去除不符合電池下降趨勢的數(shù)據(jù)點(diǎn),保證數(shù)據(jù)接近真實(shí)衰退狀態(tài),保證后續(xù)數(shù)據(jù)訓(xùn)練結(jié)果的準(zhǔn)確性[14],圖中黑色正方形散點(diǎn)為修正后的SOH標(biāo)定值。
圖5 電池健康狀態(tài)衰退趨勢
圖6 紅色曲線為上述方法提取出的一段較完整的充電片段曲線,橫軸為充電容量,縱軸是充電電壓。片段整體趨勢明顯,在充電初期,電壓上升較快;在曲線中部減緩,電池在這部分上升緩慢的電平臺區(qū)間充入大部分電量。但顯然原始充電曲線局部呈階梯狀,無法對其有效求導(dǎo),做增量容量分析。這是因?yàn)閷?shí)車數(shù)據(jù)的采樣周期為10 s,間隔較大,造成了數(shù)據(jù)不連貫,需要對充電片段數(shù)據(jù)進(jìn)行平滑擬合處理。曲線平滑的效果受平滑方法的選擇和平滑窗口大小的影響,圖中黑色曲線是使用高斯濾波對原始充電曲線做出修正后的數(shù)據(jù)[20],數(shù)據(jù)平滑效果良好,并且基本保留了原始充電數(shù)據(jù)蘊(yùn)含的變化趨勢信息[21]。
圖6 充電曲線片段
獲得平滑連續(xù)的充電曲線后,就可以對其做增量容量分析(IC),提取IC 曲線峰特征。以車輛1 為例,其增量容量曲線與峰特征隨循環(huán)次數(shù)的變化趨勢如圖7 所示。IC 曲線上有兩個(gè)明顯的峰,對應(yīng)充電過程中電池內(nèi)部相平衡的兩個(gè)電壓平臺。在不同循環(huán)次數(shù)下的增量容量曲線,IC峰呈明顯變化趨勢。
圖7 IC曲線峰特征
隨著循環(huán)次數(shù)的增加,曲線兩個(gè)波峰的峰值降低,表明電池內(nèi)部鋰離子隨循環(huán)次數(shù)的增加而不斷減少,活性材料減少,參與電池化學(xué)反應(yīng)的化學(xué)物質(zhì)不足,反應(yīng)速率變慢;另外,隨著循環(huán)次數(shù)的增加,增量容量曲線的I峰稍微向右偏移,即電池的第1個(gè)電壓平臺在升高,而II 峰明顯左移,電池的第2 個(gè)電壓平臺降低,兩個(gè)電壓平臺之間的距離減少,鋰離子電池內(nèi)部的極化現(xiàn)象嚴(yán)重,極化內(nèi)阻增大,導(dǎo)致電池內(nèi)阻變大;而且電池曲線的峰面積不斷變小,說明電池的可充入容量在不斷降低,電池容量減少,電池健康狀態(tài)衰退明顯。
選用IC 曲線上可以有效提取的I峰高度、位置、面積、右斜率以及II峰高度、位置、面積、左斜率作為8 個(gè)初步特征,多個(gè)特征變化明顯,充分包含電池健康狀態(tài)衰退信息。曲線峰高度以及峰位置變化表征電池內(nèi)部的相變過程,峰下所包含的面積代表電池在這一充電平臺過程中充入的容量,峰斜率能夠表示鋰離子電池內(nèi)部液相和固相化學(xué)反應(yīng)的相變速率。
對多維IC 特征數(shù)據(jù)進(jìn)行降維處理,首先使用傳統(tǒng)的線性降維算法PCA、基于核函數(shù)的降維算法KPCA 對IC 特征降維分析,計(jì)算線性降維算法的解釋方差累計(jì)貢獻(xiàn)率如圖8 所示,一般而言,保留累計(jì)貢獻(xiàn)率在95%以上的前k個(gè)主成分基本可以保證不丟失信息。
圖8 累計(jì)貢獻(xiàn)率
總體而言,對原始數(shù)據(jù)可以降維到二至三維數(shù)據(jù),仍可以保證90%以上的貢獻(xiàn)率。分別使用線性降維算法PCA、KPCA 和非線性降維算法多維標(biāo)度法(MDS)、基于t 分布隨機(jī)近鄰嵌入法(t-SNE)對原始IC特征數(shù)據(jù)降維到二維和三維。圖9所示為降維的可視化效果,圖中散點(diǎn)表示降維后的特征數(shù)據(jù)分布。
在圖9中,每個(gè)坐標(biāo)軸都表示特征數(shù)據(jù)降維后的一個(gè)成分,需要注意的是降維后的數(shù)據(jù)無量綱,某一維不再表征具體的含義,對比可得出:線性降維算法PCA 無論降維到二維還是三維,數(shù)據(jù)都比較擁擠,不能保持原始特征數(shù)據(jù)的結(jié)構(gòu);高斯核KPCA降維算法使得數(shù)據(jù)間距改變了兩到三個(gè)數(shù)量級,使相對緊湊的原始數(shù)據(jù)變得發(fā)散,數(shù)據(jù)結(jié)構(gòu)也有較大改變;非線性降維MDS 算法將數(shù)據(jù)降維至二維或三維,效果都優(yōu)于線性降維算法,但數(shù)據(jù)依舊較密集,結(jié)構(gòu)的變化較大;t-SNE 算法能夠在低維依然保持?jǐn)?shù)據(jù)間距大小合適,緊湊而不密集,在低維保持原始特征的數(shù)據(jù)結(jié)構(gòu),改善降維算法的擁擠問題。
圖9 降維可視化效果對比
線性降維算法PCA、KPCA 只能保證數(shù)據(jù)降維后的累計(jì)貢獻(xiàn)率,而數(shù)據(jù)的原始結(jié)構(gòu)被嚴(yán)重破壞;非線性降維算法在不損失數(shù)據(jù)信息的基礎(chǔ)上,保證降維后的低維數(shù)據(jù)保持原始數(shù)據(jù)結(jié)構(gòu),其中t-SNE 在低維空間(二維或三維)能更好地表示高維數(shù)據(jù)的內(nèi)部結(jié)構(gòu),優(yōu)化IC 特征數(shù)據(jù),更好地保留原始數(shù)據(jù)的信息,提升后續(xù)電池健康狀態(tài)預(yù)測模型的輸入特征質(zhì)量。
為定量驗(yàn)證不同降維變換后的特征數(shù)據(jù)的效果,使用支持向量回歸模型對SOH 估計(jì)驗(yàn)證,均方誤差(MSE)、平均絕對誤差(MAE)衡量估計(jì)精度,數(shù)值越小估計(jì)越準(zhǔn)確;同時(shí)使用決定系數(shù)R2評估模型估計(jì)的擬合程度,取值范圍為[0,1],越接近數(shù)值1說明模型擬合效果越好,輸入特征數(shù)據(jù)質(zhì)量越高。計(jì)算公式如下:
式中:為模型預(yù)測值;yi表示真實(shí)值;表示樣本均值。
為對比不同降維方法對估計(jì)精度的影響,使用支持向量回歸(SVR)算法分別對未降維、PCA 降維、MDS 降維和t-SNE 降維后的IC 特征數(shù)據(jù)估計(jì)電池SOH 狀態(tài)。抽取車輛使用過程中充電循環(huán)次數(shù)前70%的數(shù)據(jù)作為SVR 模型的訓(xùn)練集,剩余30%作為測試集評價(jià)估計(jì)效果,結(jié)果如圖10所示。
圖10 降維特征估計(jì)值對比
不降維的原始IC 特征信息完整,在訓(xùn)練集估計(jì)效果較好,但在測試集中由于信息冗余,導(dǎo)致估計(jì)結(jié)果嚴(yán)重偏離真實(shí)值;而PCA 線性降維數(shù)據(jù)由于降維破壞了原有數(shù)據(jù)結(jié)構(gòu),損失了數(shù)據(jù)部分信息,模型估計(jì)效果甚至差于原始特征數(shù)據(jù);非線性降維算法MDS 和t-SNE 估計(jì)效果較好,其中t-SNE 降維特征估計(jì)結(jié)果最接近真實(shí)值的分布。
表3 為幾種降維特征數(shù)據(jù)對應(yīng)的模型估計(jì)的具體結(jié)果。由表可見,相比于原始特征數(shù)據(jù)的平均絕對誤差(MAE)值1.377%,PCA 降維未能提升估計(jì)誤差,而非線性降維算法MDS 和t-SNE 都較好地提升了估計(jì)精度,其中t-SNE 估計(jì)精度最高。圖11 為測試集的估計(jì)誤差。由圖11 可以清晰地看出,t-SNE非線性降維特征對應(yīng)的SVR 模型估計(jì)精度最高,其最大誤差不超過2.5%,平均絕對誤差1.109%,均方誤差1.932%,決定系數(shù)0.796。結(jié)果表明使用t-SNE 非線性降維后的IC 特征數(shù)據(jù)可以有效提升電池SOH 估計(jì)的準(zhǔn)確性,另外降維方法的使用能夠縮短一定的估計(jì)用時(shí),在保證估計(jì)精度的同時(shí),提升了估計(jì)效率。
表3 數(shù)據(jù)分類與說明
圖11 測試集估計(jì)誤差對比
針對實(shí)車行駛工況數(shù)據(jù)的問題,提出一種基于非線性降維處理IC 特征的狀態(tài)估計(jì)方法,可以實(shí)現(xiàn)對車輛動力電池健康狀態(tài)的有效估計(jì)。采用實(shí)車數(shù)據(jù)充電片段,通過對原始充電曲線的平滑降噪處理,提取出IC峰值和峰值對應(yīng)位置等8個(gè)特征。為解決多維特征的冗余性,將非線性降維方法應(yīng)用于IC 特征的降維,得到三維特征子空間用于表征電池健康狀態(tài)的變化。驗(yàn)證了IC 方法可以作為實(shí)車運(yùn)行數(shù)據(jù)的特征,有效表征電池的健康狀態(tài)。
結(jié)合SVR 算法構(gòu)建電池SOH 估計(jì)模型,驗(yàn)證方法的估計(jì)性能。結(jié)果表明SVR 模型能夠?qū)崿F(xiàn)較為精確的SOH 估計(jì),驗(yàn)證了SVR 可以解決實(shí)車數(shù)據(jù)存在的小樣本和強(qiáng)非線性問題;其中使用t-SNE 降維后特征數(shù)據(jù)的方法估計(jì)精度最高,平均絕對誤差為1.109%,相對于未降維特征降低了0.268%,比PCA和MDS 降維特征分別降低了0.273%和0.043%,同時(shí),降維特征方法的計(jì)算效率有一定提高。t-SNE降維特征在改善數(shù)據(jù)冗余的基礎(chǔ)上,更好地保留了原始數(shù)據(jù)信息,降低計(jì)算用時(shí)。提出的方法能有效地處理復(fù)雜的實(shí)車數(shù)據(jù),實(shí)現(xiàn)計(jì)算效率和估計(jì)精度的平衡。