吳振庭
(中山市技師學院計算機應用系,廣東 中山 528400)
復雜的室外環(huán)境導致光伏系統(tǒng)容易發(fā)生短路或接地等電氣故障,光伏電池內(nèi)部出現(xiàn)異常老化或熱點問題,以及外部物體引起部分遮光故障等[1-2]?;覊m堆積是戶外光伏系統(tǒng)不可避免的問題,灰塵附著在光伏組件表面會導致兩種后果。首先,直接影響的是光伏發(fā)電的損耗,灰塵沉積將光伏系統(tǒng)的發(fā)電量減少20%,甚至80%衰減。此外,光伏組件表面不同程度積灰也會造成光伏系統(tǒng)相應程度的失配故障。另一方面,長期不清潔的光伏組件可能導致光伏組件下邊緣出現(xiàn)熱點和不可逆的損壞。因此,監(jiān)測灰塵沉積狀況,診斷污染環(huán)境下的光伏故障,是提高光伏系統(tǒng)可靠性的重要任務。
近年來針對各種光伏故障檢測和分類方法發(fā)展了很多先進的技術。文獻[3]將擴頻時域反射計用于確定光伏系統(tǒng)的阻抗變化,以檢測線路接地故障。然而,其精度容易受到光伏系統(tǒng)不同配置的影響。文獻[4]通過降低故障光伏組件的溫度水平來消除各種類型的熱點,并改進了部分遮光條件下的發(fā)電。文獻[5]研究了一種基于統(tǒng)計的方法,通過特定的檢測規(guī)則檢測線路和線路接地故障。文獻[6]中的主成分分析和文獻[7]中的小波包也被用來檢測光伏系統(tǒng)的故障,但上述方法通常依賴于通過對故障系統(tǒng)的嚴格分析得出的手動閾值,這可能會限制監(jiān)測性能和應用成效。
此外,隨著人工智能技術的發(fā)展,機器學習技術得到了廣泛的應用。文獻[8]通過測量光伏系統(tǒng)的總電壓和串電流,采用隨機森林(Random Forest,RF)算法識別光伏故障。雖然RF 訓練模型可以避免過擬合問題,但是其收斂時間隨著決策樹的數(shù)目而增加。文獻[9]介紹了一種將閾值法與人工神經(jīng)網(wǎng)絡(Artificial Neural Network,ANN)相結合的診斷算法,用于識別六種PV 故障。然而,人工神經(jīng)網(wǎng)絡方法學習速度慢,缺乏泛化能力。文獻[10]研究了一種基于I-V曲線測量的優(yōu)化核極值學習機來識別PV 故障。為了利用最大功率點跟蹤算法檢測低輻射下的線間故障,現(xiàn)有文獻多基于多分辨率信號分解提取故障特征,然而,基于瞬態(tài)信號的方法可能無法檢測在無輻照度條件下發(fā)生的故障。文獻[11]提出了一種基于I-V曲線不同點的面積和斜率的變維降維,然而該方法需要計算太多的特征來進行最優(yōu)選擇,并且需要為多類問題訓練多個模型。文獻[12]將功率比和電壓比作為人工神經(jīng)網(wǎng)絡和模糊邏輯系統(tǒng)的輸入特征,用于檢測故障組件和部分陰影條件,但僅通過兩個參數(shù)無法檢測出異常老化或嚴重積塵的內(nèi)部故障。此外,文獻[11-12]中的檢測精度容易受到PV 仿真模型的影響,并且性能受限于它們的特征歸一化方法。
上述文獻提出的PV 故障診斷的機器學習方法中,監(jiān)督學習占主導地位。然而,監(jiān)督學習往往需要大量昂貴的標記數(shù)據(jù),這受到從實際光伏發(fā)電廠獲取錯誤數(shù)據(jù)的困難限制。實際光伏系統(tǒng)運維(Opera-Tional & Maintenance,O&M)公司往往會在云中存儲大量未標記的歷史數(shù)據(jù)以供充分利用。而半監(jiān)督學習算法可以利用這些未標記的歷史數(shù)據(jù)和少量的標記數(shù)據(jù)進行分類,在光伏故障診斷中具有良好的應用前景。文獻[13]提出了半監(jiān)督ELM(semi-supervised ELM,SSELM)算法,與其他算法相比,具有更好的性能。然而,超參數(shù)的選取直接影響到分類精度,因此在SSELM 中訓練模型的泛化能力需進一步提高。
綜上,本文分析了光伏串在不同故障狀態(tài)下的I-V曲線。在光伏串正常運行的情況下,利用低成本數(shù)據(jù)對I-V曲線的特征參數(shù)歸一化方程進行調(diào)整。研究了一種混合人工蜂群優(yōu)化和半監(jiān)督極值學習機(ABC-SSELM)作為光伏串故障診斷的模式識別方法。所提光伏故障診斷技術能有效識別短路、局部遮光、異常老化、非均勻污穢和污穢條件下的故障。所提診斷模型只需要少量的標記數(shù)據(jù),就可以利用光伏系統(tǒng)的歷史未標記數(shù)據(jù)。此外,采用模擬故障標記樣本代替實驗樣本,進一步節(jié)省了人工成本和時間。本文使用兩個不同的光伏組件來驗證模擬與實驗數(shù)據(jù),最終,通過與其他機器學習方法的比較驗證了所提方法可靠性和準確性。
本節(jié)光伏系統(tǒng)是由13 個串聯(lián)光伏組件組成的,每個組件由60 個串聯(lián)單元組成,這些單元通過三個旁路二極管均勻地聚集成三個子串。MATLAB/Simulink 仿真的I-V測試電路和光伏組件如圖1 所示,通過控制電壓源輸出值的線性增加,記錄光伏串的輸出電流和電壓,然后將相應的數(shù)據(jù)輸入MATLAB,得到最終的I-V曲線。光伏串的輸出采用整流二極管,從而避免負電流的產(chǎn)生,輻照度和溫度由每個子串的增益放大器設置。
圖1 基于MATLAB/Simulink 的I-V 測試電路及光伏組件建模
本文研究的光伏串故障包括短路、異常老化、兩種類型的局部遮光和不均勻沾污。STC 單一故障條件下的典型I-V曲線如圖2 所示。異常老化使I-V曲線的下端變形,老化電阻可由式(1)和式(2)定義。根據(jù)在全局最大功率點跟蹤點(Global Maximum Power Point tracking,GMPPT)激活陰影光伏組件內(nèi)部的旁路二極管,陰影故障可分為兩種類型:旁路二極管反向部分陰影(partial shading with the bypass-diode reversed,PSBR)和旁路二極管開啟部分陰影(partial shading with the bypass-diode,PSBD)。在污穢情況下,灰塵附著在光伏組件的表面,從而減少了面板上的入射輻射量,這種現(xiàn)象對I-V曲線的電流有很大的影響。本文認為灰塵堆積是一種特殊的遮光形式。值得注意的是,光伏組件的輸出電流由陰影度決定,因此,短路電流(Isc)是衡量PV 串積灰嚴重程度的重要指標。在實際的光伏電池串中,因為每個光伏組件都有不同程度的灰塵沉積,因此短路電流(Isc)能更具體地表示電池串中污染最小的光伏組件。
圖2 STC 下單個故障典型I-V 曲線
式中:(I1,V1),(I2,V2)和(I3,V3)是離(0,Voc)最近的三個I-V點。為了抑制外部干擾和測量噪聲,可以通過平均Rs的三個估計值對式(1)、式(2)進行修正。
表1 總結了STC 單一故障狀態(tài)下I-V曲線的特征參數(shù),將開路電壓Voc、短路電流Isc、最大功率點電壓Vm和電流Im、等效串聯(lián)電阻Rs作為光伏故障診斷特征。這些不同變化的特征表現(xiàn)了STC 下不同故障的特征,因此,當光伏串的選定特征可以轉(zhuǎn)換為STC 下的特征時,可以準確地判別光伏系統(tǒng)的故障類型。在STC 中,短路、PSBO 和非均勻污穢下的異常老化特性可視為單一故障狀態(tài)的疊加。
表1 STC 故障特征的變化
為了消除輻照度和溫度對光伏系統(tǒng)和傳感器布置的影響,本文采用文獻中的特征歸一化方法進行精確識別。利用光伏串在不同輻照度下的低成本正常運行數(shù)據(jù),對輸出I-V曲線特性方程的未知系數(shù)(a、b、c、d、e)進行校正,如式(3)~式(7)。將輸出方程移位,除以相應的參考值,即可得到式(8)~式(12)的歸一化方程。對I-V曲線的特征參數(shù)(Voc、Isc、Vm、Im、Rs)進行式(8)~式(12)歸一化,可以形成一個五維診斷特征。
式中:G是測量的輻照度;Gstc是值為1 000 W/m2的常數(shù);dT是測量的溫度減去STC 溫度;Voc,f、Isc.f、Vm.f、Im.f和Rs.f代表開路電壓、短路電流、MPPT 點的電壓和電流,并分別對不同輻照度和不同溫度下的等效串聯(lián)電阻進行參數(shù)擬合。Voc.stc、Isc.stc、Vm.stc、Im.stc和Rs.stc分別表示STC 下的開路電壓、短路電流、MPPT 點的電壓和電流以及等效串聯(lián)電阻;Voc、Isc、Vm、Im和Rs分別表示開路電壓、短路電流、MPPT 點的電壓和電流以及等效串聯(lián)電阻的測量值。
極限學習機類似于單隱層前饋網(wǎng)絡(Single Hidden Layer Feed Forward Network,SLFN),包括輸入層、隱藏層和輸出層。ELM 具有快速訓練速度的能力,其結構如圖3 所示。
圖3 ELM 網(wǎng)絡
ELM 的關鍵是以最小的誤差找到從輸入到輸出的映射空間,對于N樣本(xi,yi),其中xi∈Rp,yi∈Rq,p和q代表個體維度。給定隱藏節(jié)點L和激活函數(shù)g(*),根據(jù)連續(xù)概率分布隨機生成連接權重(wj)和隱藏偏差(bj)。隱藏層(H)的輸出矩陣可以定義為:
ELM 網(wǎng)絡的輸出層可以表示為:
式中:β是隱藏層和輸出層之間的權重,且通過以下Moore-Penrose 求逆可以得到唯一的最小范數(shù)最小二乘解:
式中:?是矩陣的Moore-Penrose 逆。
ELM 通常不太適合處理超出校準數(shù)據(jù)范圍的數(shù)據(jù)。作為一種有監(jiān)督的學習算法,ELM 要求大的標記樣本難以獲得,并且不能使用未標記樣本?;诹餍渭僭O,將流形正則化框架引入到ELM 中,以改進ELM 的損失函數(shù),形成半監(jiān)督ELM(SSELM)。流形的正則化項可以表示如下:
式中:wij是xi和xj之間的成對相似度,如式(17)所示。L∈R(l+u)×(l+u)是定義如(18),其中l(wèi)和u分別表示有標記和無標記訓練樣本的數(shù)目,本文選取了10 個最近鄰圖。Tr(*)表示矩陣的跟蹤運算符。
式中:矩陣D是具有以下元素的診斷矩陣:
SSELM 的目標函數(shù)定義為:
式中:λ是流形項的懲罰系數(shù);εi是第i個標記訓練樣本引起的誤差向量。與加權ELM 類似,Ci是針對不同類別模式的懲罰系數(shù),用于解決不平衡數(shù)據(jù)的問題,其定義為:
式中:C0是用戶定義的參數(shù);Ni是標記為yi的訓練樣本數(shù)。
根據(jù)文獻[13],當標記的訓練數(shù)據(jù)的數(shù)目大于或等于隱藏層中的神經(jīng)元數(shù)目時,可以通過下式求解:
當標記訓練數(shù)據(jù)的個數(shù)小于隱層神經(jīng)元個數(shù)時,采用以下替代方法計算解:
SSELM 與傳統(tǒng)的支持向量機(TSVM)和拉普拉斯支持向量機(LAPSSVM)相比的優(yōu)點是能自然地處理多分類問題,其主要實現(xiàn)是計算H矩陣和求解輸出權重β。然而,懲罰系數(shù)λ和C0的選取與SSELM 的性能有關,通常采用人工設定的經(jīng)驗值。此外,由于缺少有標記的驗證數(shù)據(jù)集,可能導致不適定的SSELM 模型,從而出現(xiàn)過擬合問題。因此,采用人工蜂群算法對懲罰系數(shù)進行優(yōu)化,提高了SSELM 模型的泛化能力。
人工蜂群算法(Artificial Bee Colony,ABC)是一種受蜂群覓食行為啟發(fā)的群體智能算法。在控制參數(shù)較少的情況下,ABC 算法的性能優(yōu)于或類似于其他基于種群的算法,如粒子群優(yōu)化(Particle Swarm Optimization,PSO)和遺傳算法(Genetic Algorithm,GA)。ABC 的搜索模型包括四個基本部分:食物來源、雇傭、旁觀者和偵察蜂,優(yōu)化的目標是尋找食物源周圍的最佳花蜜。ABC 算法在SSELM 中的實現(xiàn)可以解釋如下。
(1)初始化:本文將種群數(shù)S設為10,最大循環(huán)數(shù)(MCN)設為100。采用擬優(yōu)化的SS-ELM 參數(shù)(λ和C0)的實數(shù)編碼方法進行降維。
此外,ABC中每個食物源的位置可以用以下二維空間表示:
式中:S是蜜蜂種群的數(shù)量。食物源位置的上下限限制如下:
此外,初始食物來源的位置可以隨機生成為:
(2)受雇蜜蜂:每種食物源xi相應地被送到一只受雇的蜜蜂尋找花蜜,如式(28)。如果發(fā)現(xiàn)了更好的花蜜,則食物源就更新到新位置,即更新xi為vi。否則,食物源xi仍然存在。在這項研究中,ABC的目標是尋找適應度函數(shù)的最小值,如(29)所示。
式中:φid是均勻分布在[-1,1]上的隨機數(shù);當滿足條件(*)時,I(*)趨于統(tǒng)一和yk表示標記樣本的預測和原始標記表示未標記樣本的預測值表示xi的10 個鄰近鄰的預測。式(29)右側的第一項是標記數(shù)據(jù)的訓練錯誤數(shù)據(jù),中間項表示未標記樣本的聚類,這意味著具有相同結構的未標記樣本屬于同一類,第三項是SSELM 中輸出權重的范數(shù),系數(shù)(af和bf)是互補權重,這意味著有標記和無標記數(shù)據(jù)的重要性與其數(shù)量成反比。cf的值遠小于af,bf代表了從最滿足適應度函數(shù)前兩項的值中找到的SSELM 模型的最佳泛化能力。
(3)旁觀者蜜蜂:根據(jù)雇傭蜜蜂提供的新的食物來源信息,根據(jù)適應度值(30),發(fā)給旁觀者蜜蜂以一定概率進一步探索食物來源,旁觀者蜜蜂的搜索策略與雇傭蜜蜂相同(28)。
(4)偵察蜂:一些食物來源可能在幾代受雇和旁觀的蜜蜂之后保持不變,這可能會陷入局部最優(yōu)。因此,根據(jù)式(27),偵察蜂經(jīng)營者丟棄未改變的食物來源,而尋找新的食物來源。
在有足夠標記數(shù)據(jù)的情況下,基于驗證集的訓練誤差,采用ABC 算法確定最優(yōu)懲罰參數(shù)λ和C0。然而,在實際的光伏系統(tǒng)中,故障標記數(shù)據(jù)很難獲得。SSELM 的訓練模型可能導致基于標記數(shù)據(jù)不足的訓練誤差的不適定模型。本文還考慮了未標記數(shù)據(jù)的聚類度和SSELM 的輸出權重,前饋神經(jīng)網(wǎng)絡的權值范數(shù)越小,其泛化性能越好。由于ABC 的適應度函數(shù)(29)是為了優(yōu)化相應的參數(shù),并尋找SSELM 模型的最佳泛化能力,因此,可通過權衡系統(tǒng)性能和計算時間來選擇SSELM 中隱藏的節(jié)點數(shù)。
通過ABC 法進行參數(shù)優(yōu)化,得到最優(yōu)的PV 故障診斷模型,所提光伏故障診斷技術如圖4 所示。值得注意的是,利用正常I-V曲線的參數(shù)對規(guī)范化方程進行定期調(diào)整,可以適應光伏組件的自然老化,保持光伏故障診斷模型的長期可靠性。
圖4 提出的光伏故障診斷方法的框架
本文根據(jù)光伏系統(tǒng)的積灰特性,分析了粉塵對光伏組件輸出特性的影響,在故障識別類型中考慮了光伏系統(tǒng)中的非均勻污垢和非均勻污垢發(fā)生時的故障?,F(xiàn)有文獻還沒有同時考慮粉塵的影響來解決光伏故障診斷問題。圖4 是基于機器學習的光伏故障診斷技術的總體框架,包括數(shù)據(jù)采集、數(shù)據(jù)預處理和診斷模型建立。與其他文獻相比,該方法的一個創(chuàng)新點是步驟4 的ABC-SSELM 半監(jiān)督學習算法。該算法只需要少量的標記數(shù)據(jù),可以利用光伏系統(tǒng)的歷史未標記數(shù)據(jù)建立故障診斷模型。以往的研究中,有監(jiān)督學習算法只能使用昂貴的標記數(shù)據(jù)來建立相應的模型。本文將參數(shù)規(guī)范化方法與模擬標號數(shù)據(jù)相結合,可以使模擬標記數(shù)據(jù)代替實際光伏系統(tǒng)的故障標記數(shù)據(jù),大大降低了光伏電站信息再處理的人力和時間成本。
如第1 節(jié)所述,正常運行和五種故障類型包括短路、旁路二極管反向部分遮光(PSBR)、旁路二極管開啟部分遮光(PSBO)、異常老化和不均勻臟污。此外,本文還研究了短路、PSBO 和非均勻污穢下的異常老化等混雜故障。因此有九種光伏運行狀態(tài),包括正常運行模式和非正常運行模式,需要加以全面判別。
兩種類型的組件,包括多晶硅制造的PVM1 和單晶硅制造的PVM2,如表2 所示,用于形成兩個光伏系統(tǒng)(3.51 kWp 和3.9 kWp),13 個組件串聯(lián),用于仿真模擬和實驗驗證。
表2 PVM1 和PVM2 光伏組件參數(shù)
(1)仿真數(shù)據(jù)采集
第1 節(jié)中,在不同的條件下建立了I-V測試電路,得到了相應的I-V曲線。輻照度增益放大器的值在[0.3,0.6]范圍內(nèi)隨機選取以模擬PSBO 條件,而在[0.88,0.95]范圍內(nèi)隨機選取以模擬PSBR 條件。作為一種特殊的陰影,各模塊的輻照度增益放大器范圍設為[0.7,0.9],以模擬非均勻污染情況。非正常老化故障時,老化電阻值為[3 Ω,10 Ω]。輻照度在100 W/m2到1 200 W/m2之間,溫度在35 ℃到65 ℃之間同步變化。這些變化的步驟由式(31)中的確定值(A)和隨機變化值(B)確定,以反映真實的環(huán)境。每9 類有600 個模擬數(shù)據(jù)樣本,一個PV 串的模擬數(shù)據(jù)樣本總數(shù)為5 400 個。
(2)實驗數(shù)據(jù)采集
實驗現(xiàn)場布置如圖5 所示。在實驗案例中,光伏系統(tǒng)的I-V曲線由美國TES 電子公司生產(chǎn)的太陽系分析儀(PROVA011)采集,光伏板的實時輻照度和溫度由匹配的傳感器測量。如圖5 所示,短路故障是由Y 分支連接器引起的。使用小塊,例如小磚塊或丟棄的煙盒,來模擬PSBR 條件。使用薄塑料片或紙片來模擬PSBO 條件。
圖5 實驗硬件平臺與故障產(chǎn)生機制
此外,本文亦以硬紙板作為外部物體,模擬局部陰影情況。異常老化故障采用滑動變阻器作為老化電阻,與光伏子串串聯(lián)。圖6 描繪了非均勻土壤及其混合斷層的實驗。在本研究中,以面粉模擬灰塵沉積,并在每個模組中加入50 克面粉。由于每個模塊子串的輸出電流受最大陰影單元的限制,一些沒有足夠陰影區(qū)域的單元不會影響整體輸出特性,然而,這將增加由嚴重陰影形成熱點的可能性。在這個實驗裝置中,人工噴霧很難確定每個子串中最嚴重陰影單元的相同程度,這自然會產(chǎn)生非均勻粉塵沉積的等效輸出特性。實驗環(huán)境的輻照度范圍為100 W/m2~1 000 W/m2。圖7 描繪了在單次故障發(fā)生,輻照度為700 W/m2時的實驗I-V曲線。圖7中的特性與圖2 中的特性相似,PVM1 和PVM2 的測量數(shù)據(jù)總數(shù)分別為3 064 和3 013。實驗中的數(shù)據(jù)選擇準則是測量I-V曲線時天氣穩(wěn)定,也就是說,排除了在測量期間天氣變化劇烈時的實驗數(shù)據(jù)。
圖6 非均勻腐蝕條件下的實驗故障設置
圖7 單故障條件下700 W/m2 輻照下的實驗I-V 曲線
通過數(shù)值模擬和實驗平臺的搭建,得到了不同輻照度下光伏串的I-V曲線,以及開路電壓Voc、短路電流Isc、最大功率點電壓Vm和電流Im的特性參數(shù),并提取等效串聯(lián)電阻Rs作為診斷特征。此外,通過參數(shù)歸一化消除了實驗中的客觀誤差,如光伏板與被測背板之間的溫差;電池與被測電池之間的輻照度不一致,以及被測設備引起的誤差等。因此,在本研究中,測量值可作為參考值,盒形圖是通過設置單個故障來直觀地顯示參數(shù)規(guī)范化的性能。以PVM1 為例,圖8 描繪了歸一化模擬和實驗數(shù)據(jù)的統(tǒng)計分布,這些特征在STC 中表現(xiàn)出相同的聚類和統(tǒng)一特征。雖然實驗樣本受到各種環(huán)境因素的干擾而存在異常值,但其分布與仿真樣本相似。該結果驗證了參數(shù)規(guī)范化的有效性,為無數(shù)據(jù)情況下用仿真數(shù)據(jù)代替實測數(shù)據(jù)提供了依據(jù)。
圖8 五個標準化特征變量的盒形圖
為了驗證所提出的ABC-SSELM 算法對9 種PV狀態(tài)的分類性能,從相應的數(shù)據(jù)集中隨機獲得不同數(shù)量的未標記歷史數(shù)據(jù),并且在每次訓練中標記數(shù)據(jù)的數(shù)量是遞增的,剩下的數(shù)據(jù)用于檢驗訓練模型。此外,在每種情況下運行50 次,并使用平均精度來衡量所提出算法的性能。
(1)算例1:仿真驗證
在這種情況下,標記和未標記的訓練和測試數(shù)據(jù)是從仿真數(shù)據(jù)集創(chuàng)建的。PVM1 和PVM2 在不同情況下的ABC-SSELM 仿真結果如圖9(a)和10(a)所示,隨著標記樣品數(shù)量的增加,測試精度迅速提高,“UL”表示算例中要使用的未標記數(shù)據(jù)的數(shù)量。此外,隨著未標記數(shù)據(jù)的增加,訓練模型的穩(wěn)定性得到提高,測試精度得到進一步提高。當標記數(shù)據(jù)的個數(shù)達到總數(shù)據(jù)的0.67%時,在不同未標記數(shù)據(jù)個數(shù)情況下,平均識別率都在98%以上。結果表明,大量未標記數(shù)據(jù)可以用來提高訓練模型的泛化和精度。此外,標記數(shù)據(jù)的個數(shù)占總數(shù)據(jù)個數(shù)的0.67%以上,在仿真驗證中能夠很好地實現(xiàn)對9 種光伏狀態(tài)的分類。
圖9 基于PVM1 的ABC-SSELM 在不同情況下的性能
圖10 基于PVM2 的ABC-SSELM 在不同情況下的性能
(2)算例2:實驗驗證
在實驗算例中,由實驗平臺生成有標記和無標記的訓練和測試數(shù)據(jù)。PVM1 和PVM2 在不同情況下的ABC-SSELM 仿真結果如圖9(b)和10(b)所示,未標記數(shù)據(jù)和標記數(shù)據(jù)的數(shù)量對測試精度的影響與模擬數(shù)據(jù)相似。需要注意的是,與模擬數(shù)據(jù)不同,測量的實驗數(shù)據(jù)中存在很多干擾因素,這將降低整體精度。然而,隨著未標記樣本和標記樣本的增加,所提出的ABC-SSELM 仍然表現(xiàn)良好。當標記樣本數(shù)增加到45 個(僅占總樣本數(shù)的1.5%)時,PVM1 和PVM2 在所有情況下的平均準確度都高于96%。值得注意的是,少數(shù)標記數(shù)據(jù)的質(zhì)量直接影響檢測結果,換句話說,診斷模型會受到帶有相當大噪聲的標記數(shù)據(jù)的影響。
(3)算例3:混合仿真與實驗驗證
在這種情況下,由于光伏系統(tǒng)的故障數(shù)據(jù)很難獲取,通常用仿真數(shù)據(jù)代替被測數(shù)據(jù),驗證相應的性能。從仿真數(shù)據(jù)集中提取有標記的樣本,而將測量數(shù)據(jù)集分為無標記樣本和測試樣本。從圖9(c)和10(c)中可以看出,未標記數(shù)據(jù)對測試精度的影響高于前兩種情況,主要原因是模擬數(shù)據(jù)和實測數(shù)據(jù)的分布不同。所提出的ABC-SSELM 方法可以從未標記數(shù)據(jù)的分布中學習,提高訓練模型的泛化能力,隨著未標記樣本的增加,實驗數(shù)據(jù)的分布更加明確,訓練模型的性能更加穩(wěn)定,測試精度明顯提高。
表3 總結了90 個標記數(shù)據(jù)和500 個未標記數(shù)據(jù)的分類結果(平均值±方差),標記數(shù)據(jù)在所有情況下占相應數(shù)據(jù)集不到總數(shù)據(jù)數(shù)的3%。需要注意的是,算例3 中PVM2 的測試精度甚至優(yōu)于算例2 中的測試精度,這意味著使用模擬標記數(shù)據(jù)替換具有足夠歷史未標記數(shù)據(jù)的被測數(shù)據(jù)可能具有更好的性能。其原因是,被測標記數(shù)據(jù)可能帶有稱為離群值的大噪聲,會影響模型的建立,而模擬數(shù)據(jù)在圖8(a)中顯示出更好的聚類效果。
表3 在不同情況下ABC-SSELM 的性能
表1 STC 下的診斷特征是建立PV 診斷模型的必要條件,降維方法可能更適合于連續(xù)數(shù)據(jù)或高維數(shù)據(jù),但在本文的框架中很難應用。例如,文獻[6]使用了一種基于主成分分析(PCA)的多元統(tǒng)計方法對PV 故障進行分類,輸入數(shù)據(jù)都是I-V曲線上的采樣點,其數(shù)據(jù)預處理過程各不相同。本節(jié)以PVM1 為例,對ABC-SSELM 方法與其他機器學習方法進行了性能比較。在此比較中,基于參數(shù)網(wǎng)格搜索的原始SSELM,和基于分類和回歸樹(SAMMECART)的多類指數(shù)損失函數(shù)的階段性建模,以及文中介紹的粒子群優(yōu)化算法SSELM(PSO-SSELM),應用局部和全局一致性學習(LGC)算法。
圖11(a)和11(b)分別描述了由監(jiān)督學習(包括ELM 和SAMME-CART)進行比較的分類結果。對于算例2,在充分的數(shù)據(jù)條件下,所提出的ABC-SSELM與ELM 和SAMME-CART 具有競爭性的準確性。然而,監(jiān)督學習需要大量的標記數(shù)據(jù)進行訓練,對未標記數(shù)據(jù)不敏感。因此,ELM 和SAMME-CART 在算例2中沒有標記數(shù)據(jù)的情況下性能較差,特別是ELM。而所提出的ABC-SSELM 保持了良好的性能。由于算例3 的訓練和測試數(shù)據(jù)分布不同,即使增加訓練標記,也無法改善ELM 和SAMME-CART 的性能,而所提出的ABC-SSELM 在這種情況下仍能保持很好的性能。對于圖11(a)中的情況3,隨著模擬標記數(shù)據(jù)的增加,所提出的ABC-SSELM 在識別測量樣品方面的測試精度略有下降。當模擬標記數(shù)據(jù)的個數(shù)遠大于被測數(shù)據(jù)的個數(shù)時,訓練模型會明顯地被模擬標記數(shù)據(jù)所支配,而從未標記數(shù)據(jù)中學習的較少。因此,在實際應用中,模擬標記數(shù)據(jù)的數(shù)量不應超過未標記歷史數(shù)據(jù)的數(shù)量。
圖11 ABC-SSELM 與其他機器學習方法的性能比較
圖11(c)和圖11(d)描述了所提出的ABCSSELM 與文獻[13]中的原始SSELM 和PSO-SSELM進行比較的分類結果。原始SSELM 在沒有標記數(shù)據(jù)的情況下容易產(chǎn)生不適定模型。此外,PSO 用于優(yōu)化SSELM 中的懲罰系數(shù),形成具有相同目標函數(shù)的PSO-SELM,與所提出的ABC-SSELM(的性能進行比較,兩種群優(yōu)化算法迭代次數(shù)均設置為100。從圖11(d)可以看出,算例2 情況下,兩種算法運行結果類似。算例3 情況下,ABC-SSELM 算法的性能比PSO-SSELM 算法要好得多,且ABC 算法比PSO算法需要確定的參數(shù)更少。
在文獻[14-15]中,采用基于圖形的半監(jiān)督學習算法適合于診斷PV 故障,其中引用了LGC 算法。LGC 是一種標記傳播算法,不需要初始訓練模型就可以識別樣本。文獻[14]將測試數(shù)據(jù)不斷地輸入到LGC 中,并實時更新相應的模型,具有O(n3)的時間復雜度。為了降低算法的計算復雜度,并與ABC-SSELM 算法進行比較,文章采用300 個隨機未標記數(shù)據(jù)和不同數(shù)量的標記數(shù)據(jù),在不通過測試數(shù)據(jù)更新模型的情況下,對LGC 算法進行驗證,其設置與ABC-SSELM 算法相同。從圖11(e)可以看出,對于算例2 和3,所提ABC-SSELM 的分類結果都優(yōu)于LGC 算法。此外,LGC 的每一個測試樣本都需要重新訓練模型進行預測,且耗時顯著。此外,LGC的實際應用更容易受到異常值的影響,導致性能下降。顯然,所提光伏故障診斷技術可以解決文獻[14-15]中用模擬數(shù)據(jù)代替實測數(shù)據(jù)的問題。
以帶有90 個標記數(shù)據(jù)和500 個未標記數(shù)據(jù)的PVM1 模塊為例,表4 總結了不同診斷方法的計算時間比較,結果表明,本文提出的ABC-SSELM 的樣本測試時間與其他基于ELM 的方法相當,比SAMME-CART 的監(jiān)督學習方法和LGC 半監(jiān)督方法測試時間短得多。此外,文獻[14-15]中LGC 方法的測試時間會隨著數(shù)據(jù)的增加而減慢,這將增加大數(shù)據(jù)的計算復雜度。而ABC-SSELM 方法結構簡單,因此在線測試速度最快。
表4 不同診斷方法計算時間對比
以帶有90 個標記數(shù)據(jù)和500 個未標記數(shù)據(jù)的PVM1 模塊為例,在算例2 和算例3 中運行100 次。圖12 給出了所提ABC-SSELM 方法中受隱藏節(jié)點數(shù)影響的平均精度。從圖12 可以看出,當隱藏節(jié)點的數(shù)目增加到7 個時,平均精度可以逐漸提高。由于診斷特征的規(guī)范化和參數(shù)的優(yōu)化,少量的隱藏節(jié)點即能夠滿足該方法的要求。因此,本研究將ABCSSELM 方法中的隱藏節(jié)點數(shù)設為7。
圖12 ABC-SSELM 中隱藏節(jié)點數(shù)的影響
在第3.3 節(jié)和第3.4 節(jié)中,使用標記樣本和未標記樣本的動態(tài)變化來驗證所提出的ABC-SSELM 方法的優(yōu)越性能。圖9~圖11 中的每一點表示9 個光伏運行狀態(tài)下的平均分類精度。以帶有90 個標記數(shù)據(jù)和500 個未標記數(shù)據(jù)的PVM1 模塊為例,每種情況下運行10 次,表5 總結了9 種光伏運行狀態(tài)的平均精度。從表5 可以看出,所提出的ABC-SSELM 方法對9 種光伏運行狀態(tài)的平均分類精度均超過98.44%。
表5 PVM1 在三種情況下的分類精度 單位:%
從以上三個算例的驗證和與其他方法的比較來看,本文提出的ABC-SSELM 方法具有明顯的優(yōu)越性。在實際應用中,所提光伏故障診斷技術可以充分利用光伏公司存儲的大量歷史數(shù)據(jù)。此外,少量的標記數(shù)據(jù)可以被模擬數(shù)據(jù)代替,這進一步節(jié)省了人力和時間成本。雖然在實際應用中需要一個在線的I-V跟蹤器和相關的傳感器,但所提出的光伏故障診斷技術可以監(jiān)測每個光伏串的運行狀態(tài),以告知潛在的故障,并帶來經(jīng)濟效益。根據(jù)全球不同的環(huán)境,結合當?shù)氐奶鞖忸A報,可以對光伏板實施有效的清潔方案。
本文設計了一種混合人工蜂群算法和半監(jiān)督極值學習機(ABC-SSELM)用于光伏發(fā)電故障診斷。其考慮了短路、旁路二極管反向部分遮光(PSBR)、旁路二極管開啟部分遮光(PSBO)、異常老化和非均勻污穢五種故障類型和正常運行情況。此外,還研究了短路、PSBO 和非均勻污穢下的異常老化等混合故障。最后通過3.51 kWp 和3.9 kWp 的實際光伏串,驗證了所提方法的有效性。
與有監(jiān)督的機器學習不同,ABC-SSELM 算法可以充分利用未標記的歷史數(shù)據(jù),只需要總數(shù)據(jù)集中1%~3%的標記數(shù)據(jù),同時,優(yōu)化了診斷模型的泛化能力。在混合仿真和實驗驗證中,所提出的ABCSSELM 的平均精度比LGC 算法提高了2.94%,比SSELM 提高了1.26%,比SAMME-CART 提高了7.37%,比ELM 提高了69.28%,比PSO-SSELM 提高了0.42%。
對于所提出的光伏故障診斷技術,可以用模擬的故障數(shù)據(jù)代替難以獲取的標記故障數(shù)據(jù)。在大規(guī)模光伏發(fā)電系統(tǒng)中,甚至可以實現(xiàn)更好的分類精度,避免潛在的安全問題和額外的人工成本。