張麗霞,趙 騫,李國良
(1.遼寧省大數(shù)據(jù)管理中心(遼寧省信息中心),遼寧 沈陽 110002;2.沈陽工業(yè)大學(xué) 理學(xué)院,遼寧 沈陽 110870)
風(fēng)能具有清潔、可再生、儲量豐富等特點(diǎn)。風(fēng)特征的統(tǒng)計(jì)與分析對風(fēng)資源的評估、風(fēng)電場的選址、機(jī)組的設(shè)計(jì)和布置起到重要作用[1],[2]。在風(fēng)特征中,風(fēng)速和風(fēng)向的聯(lián)合概率分布同時描述了風(fēng)速和風(fēng)向的概率分布。風(fēng)速風(fēng)向聯(lián)合分布模型是一種典型的角度-線性分布,目前常用方法的不足之處是相鄰風(fēng)向上的風(fēng)速概率變化往往不連續(xù)。
為得到連續(xù)而準(zhǔn)確的概率分布,學(xué)者們利用各種計(jì)算機(jī)數(shù)值擬合方法來擬合風(fēng)速風(fēng)向聯(lián)合概率分布,如年最大風(fēng)作用時序法、隨機(jī)過程極值超越理論法和聯(lián)合分布概率方法[3]~[5]。隨機(jī)過程極值超越理論法是將風(fēng)速平均值看作具有二維平穩(wěn)隨機(jī)矢量的過程[6]。文獻(xiàn)[7]采用了角度-線性分布模型和截尾正態(tài)-威布爾混合分布[8]的形式來描述風(fēng)速線性變量,利用von Mises混合分布的形式描述風(fēng)向變量[9],并對卡納里島的測風(fēng)數(shù)據(jù)進(jìn)行了分析,分析結(jié)果表明,與文獻(xiàn)[10]建立的高斯模型相比,該模型與實(shí)測數(shù)據(jù)的符合程度更高。文獻(xiàn)[11]基于Copula函數(shù)研究了風(fēng)速風(fēng)向聯(lián)合分布的相關(guān)性。文獻(xiàn)[12]基于最大熵原理提出了風(fēng)速風(fēng)向聯(lián)合概率密度函數(shù)建模方法。上述方法雖然在一定程度上得到了一個連續(xù)變化的概率分布,但所用模型通常不具有較強(qiáng)的通用性。
移動最小二乘法(MLS)是一種分區(qū)域擬合的方法,每個節(jié)點(diǎn)都有一組基系數(shù)aj(xnode)用于定義該位置附近的擬合曲線。MLS通用性較高,離散數(shù)據(jù)的分布無顯著規(guī)律時,也能實(shí)時擬合。
但是,MLS方法普遍存在過擬合的問題。為使模型具有準(zhǔn)確的表達(dá)能力,可以在代價(jià)函數(shù)J中引入正則化項(xiàng),而傳統(tǒng)的正則方法采用單一的正則項(xiàng)系數(shù),無差別的對較大基系數(shù)進(jìn)行抑制,忽略了基函數(shù)的不同階次對過擬合現(xiàn)象帶來的不同嚴(yán)重程度的影響。針對這一問題,本文提出了一種改進(jìn)型的正則化MLS方法,將傳統(tǒng)正則化方法中的單一的正則項(xiàng)系數(shù)改進(jìn)為正則項(xiàng)系數(shù)矩陣,對不同的基函數(shù)系數(shù)賦予不同的正則項(xiàng)系數(shù),從而能夠針對基函數(shù)中的高次項(xiàng)進(jìn)行有效抑制。將該方法應(yīng)用于風(fēng)電場風(fēng)速風(fēng)向概率分布的三維曲面擬合,最終得到了較好的擬合效果。
在一組不同位置的節(jié)點(diǎn)(node)空間坐標(biāo)x附近建立各自的擬合函數(shù)。每個節(jié)點(diǎn)位置xnode處均有 一 組aj(xnode)與pj(x)的 組 合,基 函 數(shù) 的 常 用 形式如表1所示。選定基函數(shù)形式后,只需要計(jì)算該點(diǎn)的一系列系數(shù)aj即可。每個節(jié)點(diǎn)的系數(shù)aj取值僅考慮其鄰域內(nèi)的采樣點(diǎn),且距離節(jié)點(diǎn)越近的采樣點(diǎn)貢獻(xiàn)越大。
表1 常用基函數(shù)形式Table1 Common basis function forms
xnode附 近 的 擬 合 函 數(shù) 用unode(x)表 示。
式中:x為xnode附近的任意點(diǎn)位置坐標(biāo)。
對于函數(shù)unode(x)的精確局部逼近,需要使各采樣點(diǎn)空間位置xp的擬合函數(shù)值unode(xp)與采樣值up之間的加權(quán)殘差平方和達(dá)到最小。定義代價(jià)函數(shù)J為
式中:s=|xnode-xp|/rneibor為采樣點(diǎn)xp距離xnode的距離與鄰域半徑rneibor的比值,rneibor為經(jīng)驗(yàn)參數(shù),需要根據(jù)采樣點(diǎn)之間的疏密程度進(jìn)行選取。
式(2)的矩陣形式可表示為
式中:
由此可以解得節(jié)點(diǎn)處系數(shù)矩陣為
求出系數(shù)矩陣后,應(yīng)用式(1),得到該節(jié)點(diǎn)鄰域內(nèi)的擬合函數(shù)unode(x)。該節(jié)點(diǎn)處擬合函數(shù)值為
將以上過程應(yīng)用于所有節(jié)點(diǎn),便得到了完整區(qū)域的所有擬合節(jié)點(diǎn)值,從而得到擬合曲面。
引入正則項(xiàng)后,殘差項(xiàng)J變?yōu)镴r。
式中:rj為懲罰因子。
擬合過程中,高次項(xiàng)基更容易引起過擬合,因此,應(yīng)該將高次基系數(shù)設(shè)置較大的正則項(xiàng)系數(shù)rj,以便給予其更高的懲罰,將低次基系數(shù)設(shè)置較小的正則項(xiàng)系數(shù),甚至可以設(shè)置為0。將所有的正則項(xiàng)系數(shù)rj組成對角矩陣R。
結(jié) 合 式(13)可 將 式(12)寫 成 矩 陣 形 式。
結(jié) 合 式(9),將 式(14)對Anode求 偏 導(dǎo) 數(shù),并 使之等于零。
通過式(15)進(jìn)一步解得系數(shù)矩陣Anode為
將式(16)帶入式(11)得到該節(jié)點(diǎn)的擬合值。當(dāng)矩陣R取0時,式(15)將退化為非正則化形式[式(10)]。
本文采用汕頭市南澳洋東海上風(fēng)電項(xiàng)目20180109-20190108的測風(fēng)數(shù)據(jù),其每小時觀測的年風(fēng)資源數(shù)據(jù)見表2。
表2 汕頭市南澳洋東海上風(fēng)電項(xiàng)目測風(fēng)數(shù)據(jù)Table2 Wind measurement data of offshore wind power project in Shantou
利用計(jì)算機(jī)編程技術(shù)統(tǒng)計(jì)出的風(fēng)速風(fēng)向概率分 布 如 圖1所 示。圖1(a),(b)分 別 為 風(fēng) 速 風(fēng) 向 聯(lián)合概率分布的柱狀圖和等高線,風(fēng)概率主要分布在Ⅰ,Ⅱ兩 個 區(qū) 域。圖1(c),(d)分 別 為 風(fēng) 速 和 風(fēng)向的邊緣概率分布。
圖1 原始風(fēng)速風(fēng)向概率分布Fig.1 Probability distribution of original speed and direction
由圖1可知:風(fēng)速為單峰分布,極大值在風(fēng)速為5~8m/s時;風(fēng)向?yàn)殡p峰分布,Ⅰ峰出現(xiàn)在風(fēng) 向 為40~50°,Ⅱ峰 出 現(xiàn) 在 風(fēng) 向 為210~230°。圖1雖能反映風(fēng)的概率分布,但是從結(jié)果上看,相鄰區(qū)域的概率分布具有一定的離散性,過渡不連續(xù),這一方面是由于采樣點(diǎn)本身具有一定的隨機(jī)性,另一方面是由于采樣點(diǎn)數(shù)據(jù)量有限,無法達(dá)到無限多,從而導(dǎo)致統(tǒng)計(jì)的概率分布圖與真實(shí)的概率分布偏差較大。
在表2中隨機(jī)選取80%數(shù)據(jù)經(jīng)過歸一化處理后作為擬合用數(shù)據(jù),其余20%數(shù)據(jù)經(jīng)過歸一化處理后作為測試用數(shù)據(jù)。擬合模型中,基函數(shù)選擇2維二階形式(表1),鄰域半徑選擇3。
2維二階形式的基函數(shù)共有6個。第1個為常 數(shù)1,代 表 零 次 基 函 數(shù);第2,3個 分 別 為x,y,代表 一 次 基 函 數(shù);第4,5,6個 分 別 為xy,x2,y2,代 表二次基函數(shù)。為了降低模型復(fù)雜度,將相同次基函數(shù)賦予相同正則項(xiàng)系數(shù),即將式(13)中r1取為c0,r2~r3取 為c1,r4~r6取 為c2,結(jié) 果 如 式 (17)所示。
由于零次項(xiàng)不應(yīng)該受到懲罰,因此,c0取為0,一次項(xiàng)應(yīng)該得到較小的懲罰,因此,將c1取為較小的正實(shí)數(shù),二次項(xiàng)應(yīng)該得到較大的懲罰,因此,將c2取為較大正實(shí)數(shù)。
現(xiàn) 將c0,c1,c2均 取 為0,使 之 退 化 成 傳 統(tǒng)MLS,擬合結(jié)果如圖2所示。其中,圖2(a)為對圖1(a)擬 合 后 的 三 維 曲 面,圖2(b)為 擬 合 后 的 等 高線圖。
圖2 傳統(tǒng)MLS擬合結(jié)果Fig.2 Fitting result of traditional MLS
由圖2可知,擬合結(jié)果與圖1所示的原始圖像存在較大差別,說明此時過擬合現(xiàn)象嚴(yán)重。進(jìn)一步將測試用數(shù)據(jù)代入擬合后曲面,得到該模型對測試用數(shù)據(jù)的預(yù)測結(jié)果與實(shí)際結(jié)果的均方根誤差MSE為0.18。
將c0恒取為0,而c1,c2在一定范圍內(nèi)變化時,模型對測試數(shù)據(jù)的預(yù)測結(jié)果與實(shí)測結(jié)果的MSE之間的變化關(guān)系如圖3所示。
圖3 不同c1,c2取值對應(yīng)測試集MSE結(jié)果Fig.3 MSE result of test set with different c1and c2
由圖3可知:在c2相同的條件下,MSE隨c1的增大而增大,說明對低次基系數(shù)進(jìn)行抑制會產(chǎn)生欠擬合,從而增大模型的預(yù)測誤差;在c1相同的條件下,逐漸增大c2,MSE將經(jīng)歷先減小后增大的過程,說明隨著對高次基系數(shù)懲罰程度的逐漸增加,過擬合程度逐漸得到降低;當(dāng)c2增加到3000時,擬合程度整體達(dá)到最優(yōu),此后,隨著c2繼續(xù)增加,由于對二次基系數(shù)的過渡抑制導(dǎo)致欠擬合,因此,MSE開始逐漸增加。
由圖3可 知,在c1取0,c2取3000時 得 到 最小的MSE,此時的擬合結(jié)果如圖4所示。
圖4(a),(b)分 別 為 擬 合 后 的 曲 面 圖 和 等 高線 圖。圖4(c),(d)分 別 為 擬 合 后 風(fēng) 速 和 風(fēng) 向 的 邊緣概率分布曲線。結(jié)合圖1和圖4可知,圖4中的擬合曲面與圖1(a),(b)的采樣點(diǎn)統(tǒng)計(jì)結(jié)果一致,圖4中的擬合后的邊緣概率密度分布也明顯與圖1(c),(d)一 致。
圖4 MLS曲面擬合的風(fēng)速風(fēng)向概率密度分布Fig.4 Probability density distribution of wind speed and direction surface fitted by MLS
取c1=0,c2=3000,將擬合過程分別應(yīng)用于2017年莊河海上測風(fēng)數(shù)據(jù),高度為10m和100m的測風(fēng)數(shù)據(jù)(表3)擬合結(jié)果分別如圖5,6所示。
表3 莊河海上測風(fēng)數(shù)據(jù)Table3 Wind measurement data of offshore in Zhuanghe
由 圖5(a),(b)可 知,概 率 分 布 在 不 同 區(qū) 域 的波動較大,無法明顯觀察出風(fēng)速、風(fēng)向的分布規(guī)律。
由 圖5(c),(d)可 知:風(fēng) 速 風(fēng) 向 聯(lián) 合 概 率 分 布仍然主要集中在Ⅰ,Ⅱ兩個區(qū)域;區(qū)域Ⅰ的風(fēng)速較小,平均風(fēng)速為5m/s,風(fēng)向分布范圍較大,多集中在150~200°;區(qū)域Ⅱ的風(fēng)速較大,平均風(fēng)速為8 m/s,風(fēng)向分布范圍較小,多集中在330~350°。這主要是由于區(qū)域Ⅰ多由夏季風(fēng)組成,風(fēng)向由陸地到海洋,上風(fēng)向受陸地建筑物影響,風(fēng)速較小,而風(fēng)向變化范圍較大,區(qū)域Ⅱ多由冬季風(fēng)組成,風(fēng)向由海洋到陸地,上風(fēng)向不受陸地建筑物影響,風(fēng)速較大,風(fēng)向較集中。
圖5 高度10m風(fēng)速風(fēng)向聯(lián)合概率分布Fig.5 Joint probability distribution of wind speed and direction at10m height
由圖6可知:原始采樣點(diǎn)的概率分布仍然具有較大波動,而擬合后的概率分布規(guī)律較明顯;與10m高度風(fēng)速的概率分布相比,區(qū)域Ⅰ的平均風(fēng)速有所升高,由5m/s變?yōu)?m/s,風(fēng)向分布范圍變小,由150~200°變 為170~200°,而 區(qū) 域Ⅱ的 變 化不明顯。這主要是由于100m遠(yuǎn)大于建筑物高度,因此,風(fēng)速、風(fēng)向受建筑物影響較小。
圖6 高度100m風(fēng)速風(fēng)向聯(lián)合概率分布Fig.6 Joint probability distribution of wind speed and direction at100m height
針對MLS方法中存在的過擬合問題,本文提出了一種改進(jìn)型的正則化MLS方法,進(jìn)一步考慮了基函數(shù)多項(xiàng)式中不同階次項(xiàng)對過擬合現(xiàn)象產(chǎn)生不同程度的影響,對不同階次基函數(shù)系數(shù)賦予不同的正則項(xiàng)系數(shù),從而針對基函數(shù)中的高次項(xiàng)進(jìn)行有效抑制。將該方法應(yīng)用于風(fēng)電場風(fēng)速風(fēng)向概率分布的三維曲面擬合,得到以下結(jié)論。
①該改進(jìn)型正則化MLS方法有效克服了傳統(tǒng)MLS方法在對風(fēng)概率分布擬合過程中存在的過擬合問題。正則項(xiàng)系數(shù)c1,c2的最優(yōu)取值分別為0和3000,此時模型對測試集數(shù)據(jù)預(yù)測結(jié)果的MSE誤差由原來的0.18降為0.013,圖像顯示結(jié)果表明,擬合效果得到較大程度的提高。
②使用該方法對3個不同區(qū)域風(fēng)分布樣本進(jìn)行測試。測試結(jié)果表明,經(jīng)該方法擬合后,風(fēng)概率分布規(guī)律性明顯增強(qiáng),能夠有效描述風(fēng)資源特性,為風(fēng)能的充分利用提供了技術(shù)支撐,并且該模型能夠在相同的參數(shù)下完成對多區(qū)域風(fēng)分布擬合,具有較強(qiáng)的通用性。