冀心成,汪衍凱,張 迎,許彥杰
(山東建筑大學信息與電氣工程學院,山東 濟南 250101)
日光是現代建筑的設計中要考慮的重要部分。通過最大限度地利用自然采光,可以顯著減少人工照明和能源消耗[1]。據報道,建筑居住者更喜歡自然光而不是人造光,日光在一定程度上提高了居住者的生產力,并提升室內空間的整體氛圍[2]。與常用的人工照明系統(tǒng)相比,日光在建筑室內空間中具有較強的表現力[3]。通過使用日光照明和人工照明的集成調光控制,可以大大節(jié)省能源,在照明和總能耗方面分別節(jié)省約35%和13%[4-5]。當日光不足以達到所需的設計照度時,室內照明水平由人工照明補足。因此,在日光條件下更精確的照明預測對于實現建筑節(jié)能至關重要[6]。
生活中的室內照度受氣象條件和時間粒度屬性等因素的影響較大,室內用戶在同一位置的照度往往千差萬別,如陰雨天室內照度偏低,預測模型不能準確得到該位置點的實際照度,這就為用戶所在位置實現人工補光從而完成正常工作帶來了諸多不便。雖然日光預測技術得到了快速發(fā)展,但是在實際應用中還是以機理模型[7-8]和經驗模型[9]的方法進行照度預測,這些方法不能滿足實際生活中多時變、多氣象、高效率和高精度的要求。因此,對天然采光條件下的室內空間照度分布進行高效預測具有重要意義。
為了解決上述問題,日光預測技術逐漸向機器學習方向靠攏。機器學習技術[10]利用實測日光數據來學習響應變量和因果變量之間的模式和關系,并且在學習這些模式后,它們可以用于估計或預測未來特定時間或特定條件下的響應變量[11]。由于其處理復雜非線性問題的能力,已經并將繼續(xù)受到建筑設計界的廣泛認可。該方法可以在不需要原始建筑信息或進行任何計算模擬的情況下實現。Ayoub等人[12]認為,在現有文獻中幾乎找不到使用機器學習算法來預測建筑物的照明條件和采光性能的研究。原因是由于該方法相對新穎且應用領域廣泛。
目前對日光相關研究的機器學習算法當中,較為常用的方法包括神經網絡[13-14]、隨機森林[15]、支持向量機[16]、長短期記憶模型(LSTM)[17]、多元線性回歸(ML)[17]和BP 反向傳播神經網絡[18]等算法。其中,隨機森林表現出了較好的預測性能。然而,在實際應用中發(fā)現,上述方法不僅需要大量的訓練時間,還有可能出現“過擬合”等問題,不適用于小規(guī)模數據,難以實時調整日光預測模型參數,從而導致其難以靈活應對各種室內環(huán)境,泛化能力較差。
基于上述研究,本文提出一種基于主成分分析(Principal Component Analysis,PCA)和貝葉斯優(yōu)化梯度提升回歸樹(Daylight Illumination prediction of Gradient Boosting regression Tree based on Bayesian optimization,DI-BOGBRT)的室內日光環(huán)境照度預測方法。該方法共分為2 個部分:數據預處理與特征重塑、貝葉斯優(yōu)化GBRT 預測模型。該方法的優(yōu)點在于:1)由于日光的非線性特性導致模型預測誤差大,而GBRT 能夠處理非線性數據;2)充分考慮多特征之間的內在相關性;3)利用隨機森林確定初始參數,提高GBRT 的全局收斂與穩(wěn)定性;4)交叉驗證和貝葉斯優(yōu)化確定GBRT 的最優(yōu)超參數,提高預測性能。該方法不僅可以使模型輸出數據指導建筑照明的高效調度,還在優(yōu)化室內工作面照度、提高用戶視覺舒適度以及節(jié)能減耗等方面,提供一種科學合理的參考意見。
本文提出的DI-BOGBRT 方法是一種基于多特征的預測方法,用于從樣本數據中準確預測室內某位置照度。DI-BOGBRT 將建筑內部屬性、時間粒度參數、人員位置坐標以及透過窗子的平均照度這4 種特征輸入到模型進行分析,并通過訓練GBRT 時4 種特征數據相互作用。為了克服數據高維度以及GBRT參數眾多、人工調參耗時且存在不確定性等[19]缺點,本文分別通過啞變量和主成分分析等特征處理手段將用于學習的數據先進行降維處理,然后利用交叉驗證和貝葉斯優(yōu)化梯度提升回歸樹進行室內照度預測,增強模型的泛化能力[20],提高方法的預測性能。
DI-BOGBRT 方法工作流程如圖1 所示。首先輸入已測得的4 種樣本數據,然后對輸入數據進行預處理,最后經過4 個步驟實現DI 的預測:1)對于特征數據當中的非數字特征,利用啞變量處理為數字特征,保證為算法提供更準確的信息;2)利用主成分分析法對4 種特征數據進行降維重塑;3)利用隨機森林確定初始參數,并構建基于交叉驗證和貝葉斯優(yōu)化的GBRT 模型,提高GBRT 的全局收斂與穩(wěn)定性;4)訓練GBRT 模型,根據訓練完成的GBRT 模型預測每個室內位置的照度值。
圖1 DI-BOGBRT預測模型的建模流程
本文樣本數據是來自不同氣象、時間屬性的日光照度分布數據。由于機器學習在建模期間一般使用的都是純數值型數據,對于表征氣象屬性的非數字特征,本文采用啞變量來增加輸入信息的準確性。啞變量處理可以將非數字特征變量轉化為線性不相關的矩陣。然后將新得到的數據樣本根據主成分分析(PCA)的降維思想將高維度數據映射到低維度空間。PCA使用方差作為信息量的衡量指標,通過特征值分解來找到降維后的空間V。每個主成分都獨立于其他主成分,并且源自重要的模擬參數(即建筑內部屬性、時間粒度參數、人員位置坐標以及透過窗子的平均照度)。降維時,對于d維空間的n個樣本Z=,通過式(1)產生樣本集X0的協(xié)方差矩陣:
利用矩陣相關知識求解特征值與特征值分別對應的特征向量μ( )μ1,μ2,…,μk。由式(2)計算第p個主成分的累計貢獻率ηp,當ηp大于某個閾值(本文規(guī)定達到80%以上)時,可認為主成分數目為p。
由此可見,通過主成分分析可以將樣本降維,樣本從n×d維降低至n×p維,這樣就只保留了貢獻率較高的部分[21]。降維完成之后,PCA 找到的每個新特征向量就叫做“主成分”,而被丟棄的特征向量被認為信息量很少,這些信息很可能就是噪音。此時,主成分分析得到的新變量可以表示為:
梯度提升回歸樹為基于Boosting 迭代思想的集成學習算法,該算法利用原始訓練集獲取第一棵決策樹,此后每一輪迭代中的目標都是擬合上一輪弱學習器的殘差。該方法目前已應用于多個研究領域,并取得了較好的預測效果[22-23]。在GBRT 算法模型中,部分超參數需要人為設置,如學習速率(learning_rate)、最大迭代次數(n_estimators)、決策樹最大深度(max_depth)、子采樣比例(subsample)和節(jié)點分裂閾值(min_impurity_decrease)等。這些參數直接影響模型的拓撲結構和預測性能,不同的參數組合會使回歸預測模型對于同一樣本的擬合效果有差異,而人工經驗調參需耗費大量時間且存在不確定性[24]。因此,本文利用貝葉斯優(yōu)化算法[25]實現自適應調參,并構建BOGBRT 回歸預測模型?;诮徊骝炞C和貝葉斯優(yōu)化GBRT 的基本思想是將GBRT 與交叉驗證、貝葉斯優(yōu)化算法相結合。利用五折交叉驗證劃分數據集,以提高模型的泛化能力;當GBRT 算法訓練模型的收斂速度慢時,將GBRT 樹的節(jié)點分裂閾值和樹的深度等參數作為貝葉斯優(yōu)化算法的輸入信息,然后通過貝葉斯優(yōu)化算法最大化采集函數來選擇下一個最有“潛力”的評估點,最后繼續(xù)使用GBRT 算法訓練模型。構建模型步驟如下:
步驟1 輸入數據集。PCA的結果特征作為GBRT模型的輸入特征,記為人員位置的照度記為輸出特征fM(x)。其中,xi為影響人員位置照度的因素,X為輸入樣本空間;yi為人員位置照度,Y為輸出樣本空間。
步驟2 參數初始化。隨機森林的預測結果,即模型初始參數H0 為:learning_rate、max_depth、n_estimators、min_impurity_decrease、subsample。
步驟3 根據式(4)產生樹的初值。
步驟4 建立一系列CART回歸樹,在第m(m=1,2,…,M)次迭代中,對于每一個樣本(xi,yi),規(guī)定損失值的負梯度作為殘差估計值(見式(5)),根據平方損失函數(見式(6))計算每個個體的適應度大小。
步驟5 根據式(7)分別計算每個葉子節(jié)點的最佳擬合值,并更新第n棵樹的回歸樹模型。
步驟6 采用高斯過程作為代理模型,基于提升策略的PI 函數(見式(9))作為采集函數,然后利用后驗分布模型估計值大于當前實際觀測值的概率來尋找下一個個體。
其中,f(x)和f(x+)分別為高斯過程所得目標值和當下最佳目標值;θ為平衡全局與局部搜索關系的參數;μ(x)和σ(x)分別為目標函數的均值和方差;?(x)為高斯分布累計密度函數。
步驟7 比較當前個體最優(yōu)適應度值,并更新最優(yōu)個體信息。
步驟8 根據損失是否連續(xù)100次沒有下降來判斷算法是否滿足終止條件。若連續(xù)100 次沒有下降就設置算法提前停止。若不滿足,則返回步驟4 進行下一次迭代,通過多次迭代以減小訓練殘差,最后將所有訓練好的回歸樹的結果求和;否則,輸出模型的最優(yōu)解。
步驟9 將得到的最優(yōu)參數組合賦值給GBRT 模型形成強學習器,利用訓練樣本數據構建BOGBRT回歸預測模型(見式(10)),并利用測試樣本數據驗證模型的精確性。
為防止日光等不確定性外部因素造成的誤差,本文對樣本數據引入高斯白噪聲,并在不同氣象和時間條件的樣本數據中選擇訓練樣本。利用經過上述步驟訓練完成的GBRT 模型,對測試數據集進行預測。根據國家標準《建筑照明設計標準》GB50034—2013,用戶位置處的照度值在300 lx~500 lx 之間滿足實際用戶需求,優(yōu)先計算日光照度值,輔助人工照明,實現用戶位置的照度實時預測。本文采用梯度提升回歸樹算法對室內空間照度分布進行處理時,重點包括2個方面的工作,一方面是數據預處理提取特征,另一方面是利用特征數據預測照度。本文相關工作是在AMD Ryzen 5 4500U的配置上使用Python 3.8和DIALux Evo照明設計軟件實現的。
本文模型的訓練和驗證使用的數據是通過日光模擬計算工具DIALux evo[26-27]獲得的。本文在山東師范大學文宗樓1-508 實驗室的基礎上設計一個高度為3 m 的12 m×7.2 m 通用模型(見圖2)。該房間窗戶的尺寸為1.4 m×8 m,窗戶的下邊緣距水平地面0.7 m,窗戶的左邊緣距垂直墻壁為2 m。該模型以房間內有門的垂直墻壁和其相鄰的垂直墻壁與水平地面的交點作為坐標原點,并沿著水平地面和垂直墻壁建立XYZ 坐標系。以平行于水平地面0.75 m 高度時的平面為照度計算工作面,距離照度計算工作面2.8 m 處為燈具安裝平面。房間的反射系數為天花板(燈具安裝平面)70%,墻壁50%,地面20%。維護系數為0.8。
圖2 設計空間的三維尺寸圖
本文采取對稱配置燈具的方式在天花板上安裝了24 盞24 W 的LED 燈具(燈具的參數設定:光通量為2462 lm,色溫為4000 K,維護系數設定為0.8)。本文所用照明設備以6×4模式布局,安裝高度設置為距地面2.8 m,均采用使照度較為均勻的直接照明的方式,并且具有朗伯斯輻射。
2.2.1 實驗數據采集
根據李光皓等人[18]總結的近年來研究人員選取機器學習算法實現建筑采光的輸入參數、輸出參數、建筑類型以及數據來源的統(tǒng)計表顯示:超過半數研究將照度值作為機器學習的預測目標,室內工作面照度分布的預測需要保證在時間序列上的數據獲取,且要保證一定的泛化能力,因此輸入特征也應具備一定的實時性與靈活性。此外,由于在天然采光條件下,窗戶代表了允許建筑物內部自然光的最基本資源。
基于上述研究,本文采集的數據主要包括建筑內部屬性、時間粒度參數、人員位置坐標以及透過窗子的工作點照度,將它們作為預測模型的輸入特征,旨在面對建筑的多樣性也能保證良好的泛化能力,合理預測室內工作面照度分布情況。建筑內部屬性考察了窗戶左下角的位置坐標(2 m,0.7 m)、窗墻比(WWR = 0.311)等易測量參數。時間粒度參數考慮了4個典型日期不同氣象條件下當前天的小時數。
為了驗證DI-BOGBRT 算法的合理性和可靠性,本文首先使用模擬數據進行實驗。本文開發(fā)了幾個通用模型來匹配所有的預期場景。例如,在晴天(sunny)和陰天(cloudy)的2 種天氣狀況下模擬了春分(The spring equinox,se)、夏至(The summer solstice,ss)、秋分(The autumnal equinox,ae)和冬至日(The winter solstice,ws)的模型。在照度計算工作面上,數據采集時間從7:00—18:00 每整小時數對室內照度進行模擬,不同氣象條件下采用不同的計算網格,共計3060 組數據樣本,這些數據的特征如表1所示。技術路線如圖3所示。
表1 模型開發(fā)的輸入參數
圖3 技術路線圖
2.2.2 數據特征處理
由于真實情況中的數據受環(huán)境影響,故本文在數據預處理時加入了高斯白噪聲,然后利用啞變量處理已收集的氣象數據,一定程度上保證了向算法傳達最準確的信息。數據處理描述如下:人員位置處的照度數據引入了高斯白噪聲,引入前的照度數據為172 lx、引入后的照度數據為171.91 lx 等。其中,所有非數值信息均需由獨熱編碼處理將字母轉化為數值形式,便于算法識別計算。本文采集到的非數值信息主要包括氣象條件和日期。在編碼過程中氣象條件和日期等6 個特征形成一個6×6 的矩陣,其每行元素自左向右依次為晴(As)、陰(Ac)、春分(se)、夏至(ss)、秋分(ae)和冬至(ws),對應特征變量元素記為1,其余特征元素記為0,如春分表示為[0 0 1 0 0 0]1×6,經由上述操作處理后的數據送入PCA 中輸出最終的特征數據。在本文案例中,對于所開發(fā)的模型,輸入數據集按照5 折交叉驗證隨機劃分訓練集和驗證集,從而降低過擬合的可能性。
2.3.1 GBRT模型優(yōu)化前后預測結果對比分析
本文利用訓練集對GBRT 和BOGBRT 模型分別進行訓練,然后選用測試集數據評估優(yōu)化過程中各種參數組合下的BOGBRT 模型預測精度。針對上述模型的參數特性,本文以室內預測照度為目標變量,模型待優(yōu)化超參數的尋優(yōu)區(qū)間為:最大迭代次數[40,100]、學習率[0.1,1]、子采樣比例[0.6,0.9]、決策樹最大深度[2,10]和節(jié)點分裂閾值[0,5]。為提高模型的泛化能力,本文使用5 折交叉驗證對BOGBRT 模型進行訓練。對于目標變量室內照度預測,最優(yōu)最大迭代次數為82,學習率為0.19,子采樣比例為0.69,決策樹最大深度為6。圖4 和圖5 為貝葉斯優(yōu)化前后的GBRT模型預測結果。
圖4 貝葉斯優(yōu)化的GBRT預測結果
圖5 未優(yōu)化的GBRT預測結果
由圖4 和圖5 可以看出,相比于GBRT 模型的預測結果,貝葉斯優(yōu)化后的GBRT 模型預測值與實際測量值吻合度更高。此外,超參數在最優(yōu)組合下經過5 折交叉驗證,BOGBRT 模型的預測偏差穩(wěn)定在70 lx。而優(yōu)化前的GBRT 模型預測誤差已經高于150 lx,表明引入交叉驗證和貝葉斯優(yōu)化算法優(yōu)化GBRT 模型的超參數有利于顯著提高GBRT 模型的預測精度。
2.3.2 DI-BOGBRT與其他模型對比結果分析
本文采用均方根誤差RMSE、平均絕對誤差MAE、擬合優(yōu)度R2作為性能驗證指標,統(tǒng)計評價指標反映日光條件下的室內照度預測值與實際值的吻合程度。性能指標RMSE、MAE與R2的計算公式分別為:
其中,m是數據樣本數量;是第j個人所在位置的測量照度數據;Ej(θ)是在j(j=1,2,…,m)處的預測值,SSE為差平方和,SST為總高差平方和。
為檢驗模型的預測性能,本文采用目前使用率較高的隨機森林[15](RF)和人工神經網絡[14](ANN)等經典的黑箱預測模型作為對比模型,并分別計算不同算法在測試集的預測誤差,如表2所示。預測曲線見圖6。
表2 測試樣本集預測結果對比
圖6 DI-BOGBRT模型和其他模型的局部測試結果對比
從表2中可以看出,GBRT 模型相比RF 模型具有較好地預測性能;與RF和ANN這2種預測模型相比,DI-BOGBRT 模型的擬合精度最高,其擬合優(yōu)度R2達到了0.9912。就MAE 和RMSE 而言,在4 個季節(jié)的樣本中DI-BOGBRT 模型均獲得最低值。此外,圖6 顯示的3 種方法中,DI-BOGBRT 模型在預測天然采光下的室內照度與實際照度仍最為接近。DI-BOGBRT的性能優(yōu)勢主要由3 個方面導致:一是DI-BOGBRT在不同條件的樣本中選擇大量訓練數據進行訓練,提高了容錯率;二是其他方法最多考慮到利用PCA 降維加快算法的收斂速度,而DI-BOGBRT 通過啞變量處理和PCA 進行數據預處理,并利用隨機森林的訓練結果作為GBRT 的初值大大加快了模型的收斂速度,巧妙地利用GBRT 解決多特征之間的關聯(lián)性;三是DI-BOGBRT 使用交叉驗證和貝葉斯優(yōu)化GBRT 模型,增強了模型的魯棒性。
綜上所述,本文所建立的DI-BOGBRT 模型能更好地描述自變量和因變量的非線性關系。采用貝葉斯優(yōu)化算法可以快速實現GBRT 模型的自適應調參,結合交叉驗證的方法還能有效提高模型的泛化能力,使得模型具備一定的環(huán)境適用性。因此,本文所開發(fā)模型DI-BOGBRT 能夠準確預測室內人員位置照度信息,為后續(xù)反饋給人工照明系統(tǒng)實現精準補光做好基礎。
本文展示了2022 年09 月23 日在9:00 a.m.、13:00 p.m.、17:00 p.m.的數據特征,如圖7所示。此時,6 位用戶的位置坐標分別為(1,5.04),(3,1.8),(5,3.6),(7,0.72),(9,5.04),(11,2.16),從圖7 可以看出。3 個時間粒度屬性下不同位置的照度誤差棒長短較為均勻,即模型預測值與真實值的誤差較小,實驗數據的可信度較高。
圖7 2022年09月23日在9:00 a.m.、13:00 p.m.,、17:00 p.m.這3個時間間隔內不同人員位置的數據特征
此外,上述3 個不同時間的各位用戶所處位置的相對誤差如表3 所示。當用戶在靠近墻邊時,預測照度的誤差較大,當用戶在空曠位置時,誤差較小。17:00 p.m.的天空亮度漸暗,預測誤差要明顯高于另外2個時間的誤差。
表3 室內人員位置照度預測結果分析
實驗結果表明,用戶位置點的照度不僅與到窗戶的距離遠近有關,時間粒度屬性也會造成照度預測不準確的問題。此外,本文為增強仿真數據的可信度時還引入了高斯白噪聲,這些因素均導致了邊緣位置照度預測誤差較大。而在實際生活中,室內人員極少分布在房間的邊緣位置處辦公,故本文在剔除邊緣位置的照度數據后,計算得到的各位置點照度的平均相對誤差均低于8%,房間非邊緣位置的平均相對誤差更是低至5%以內。因此,本文提出的DI-BOGBRT 算法可以精準實現一年四季里不同氣象條件、不同時間屬性的室內人員位置點照度的預測,為后續(xù)實現人工補光打下基礎。
判斷現有模型的預測精度能否指導照明系統(tǒng)的調光決策往往由國家相關照明設計標準GB50034—2013 確定。同時在CIE 標準CIES008/E—2001 的修訂說明中規(guī)定,人眼能夠明顯感知到照度變化的照度級差近似1.5 倍[28],以普通辦公室工作面標準照度值300 lx 為參考,其臨近照度值級別分別為200 lx 和500 lx,最小照度差值為100 lx。以本文開發(fā)的BOGBRT 模型為例,室內各位置點照度實測值與預測值的殘差基本穩(wěn)定在70 lx,結果表明,該方法具備一定的適用性,并可有效指導照明系統(tǒng)進行合理的調光決策,從而實現人工補光。
辦公室內人員所在位置對室內光環(huán)境有重要影響,尤其是對于自然光照射的建筑。本文開發(fā)了一種DI-BOGBRT 算法來預測室內日光照度的分布并進行性能評估。研究結論如下:
1)本文首先利用啞變量處理氣象特征,保證為算法提供更為準確的信息;使用PCA 方法對特征變量進行降維和特征重塑,為GBRT模型預測室內照度提供更有效的輸入變量,有效提高了預測模型的運行效率。
2)本文基于加入高斯白噪聲的3060 組仿真數據探索了梯度提升回歸樹算法在室內工作面照度預測方面的應用,采用交叉驗證和貝葉斯優(yōu)化算法來提高基于GBRT 的日光模型的準確性和泛化性能。相比于傳統(tǒng)的RF、GBRT 和ANN 模型,本文提出的DIBOGBRT 模型在自適應調參、高精度預測和易于應用等方面為建筑師在建筑設計早期估計日光性能的過程中提供了較大的便利。本文闡述的自然光照度分布預測方法可以同時預測多處人員位置點照度,不僅可以為室內用戶帶來便利,還對未來建筑的照明智慧化調光及間接節(jié)能方面具有正向促進作用。
3)本文分析了室內照度真實值與預測值之間的預測殘差,以普通辦公室工作面標準照度值300 lx為參考,各人員位置點的預測殘差均穩(wěn)定在±70 lx,在一定程度上滿足用戶的需求照度。此外,預測數據可反饋于照明系統(tǒng)的調光決策,以便更精準地實現人工補光。