俞準(zhǔn),劉竹清,李郡,周亞蘋,黃余建,張國強
(1.湖南大學(xué) 土木工程學(xué)院,湖南 長沙 410082;2.湖南大學(xué) 建筑安全與環(huán)境國際聯(lián)合研究中心,湖南 長沙 410082)
建筑在室行為是影響建筑能耗的主要因素之一[1].就住宅建筑而言,研究表明對其住戶的在室行為,尤其是在室狀態(tài)(即居民是否在室),進行合理定量描述和準(zhǔn)確長期預(yù)測,是提升建筑能耗預(yù)測和模擬精度的有效手段[2].現(xiàn)有住宅建筑在室狀態(tài)預(yù)測模型主要包括統(tǒng)計概率模型、數(shù)據(jù)挖掘模型、馬爾可夫鏈(Markov Chain,MC)模型和Agent-based 模型,其中應(yīng)用最為廣泛的是馬爾可夫鏈模型[3],該模型考慮了在室狀態(tài)在時間上的關(guān)聯(lián)性并能在一定程度上刻畫建筑住戶行為的隨機性.例如,Richardson 等人[4]基于英國TUS 數(shù)據(jù)庫,分別針對工作日及非工作日建立MC 模型以預(yù)測住戶在室狀態(tài).結(jié)果表明該方法可以較好地預(yù)測在室狀態(tài),但其局限性也較為明顯,主要體現(xiàn)在該方法是對數(shù)據(jù)庫中所有住戶進行統(tǒng)一預(yù)測,忽略了不同住戶之間的差異性.考慮到不同特征住戶的在室規(guī)律有所不同,該方法必然導(dǎo)致模型預(yù)測性能下降.對此,有學(xué)者在對住戶進行分類的基礎(chǔ)上進行在室狀態(tài)預(yù)測.例如,F(xiàn)lett 等人[5]首先選取部分住戶特征參數(shù)對英國住宅進行分類,然后對不同類住戶在室狀態(tài)進行分別預(yù)測.該方法可在有效降低計算量的同時提高模擬精度,但仍存在明顯的局限性:一是所選取的住戶特征參數(shù)受研究者自身經(jīng)驗和主觀因素影響,容易忽略部分與在室行為相關(guān)的重要因素;二是沒有考慮不同因素對住戶在室行為的影響程度大小,限制了模型預(yù)測性能的提升.此外,部分學(xué)者嘗試采用無監(jiān)督聚類分析方法從住戶在室狀態(tài)信息中直接獲取不同住戶群體[6],再對不同群體住戶在室狀態(tài)進行預(yù)測.該方法可保證同一住戶群體具有相似的在室作息規(guī)律,從而提升了模型預(yù)測性能,但由此獲取的住戶群體其社會經(jīng)濟背景等特征可能具有顯著差異,導(dǎo)致在實際應(yīng)用中對某一住戶進行能耗模擬時難以確定該住戶屬于哪類群體,從而限制了該方法的實用性.
針對上述問題,本文通過引入Spearman 相關(guān)性分析及聚類分析對馬爾可夫鏈模型進行改進,提出一種基于住戶差異性的馬爾可夫鏈在室狀態(tài)預(yù)測模型(Resident-differentiated,Markov Chain Occupancy Prediction Model with Cluster analysis,RMCPMC).該模型綜合考慮了不同特征參數(shù)對住戶在室行為的影響差異,對住戶進行合理的分類,在此基礎(chǔ)上進一步建立在室狀態(tài)預(yù)測模型.本研究采用英國2000 年TUS 數(shù)據(jù)庫對模型結(jié)果進行驗證,并與傳統(tǒng)馬爾可夫鏈模型進行了對比分析.
本文提出的基于相關(guān)性分析和聚類分析的住戶在室狀態(tài)預(yù)測模型流程如圖1 所示.
圖1 住戶在室狀態(tài)預(yù)測模型流程圖Fig.1 The flow chart of occupancy prediction model
由圖1 可知,本研究所提出的模型主要包括以下步驟:
1)數(shù)據(jù)預(yù)處理.對數(shù)據(jù)進行清理、篩選和轉(zhuǎn)換,并通過隨機抽樣選取80%數(shù)據(jù)作為訓(xùn)練集,20%數(shù)據(jù)作為測試集[7].
2)特征參數(shù)選取及賦權(quán).通過Spearman 相關(guān)性分析,計算不同特征參數(shù)與住戶總在室時長之間的相關(guān)系數(shù),在此基礎(chǔ)上選取合適的特征參數(shù),并將相關(guān)性系數(shù)作為權(quán)值賦予各特征參數(shù).
3)典型住戶在室狀態(tài)模式提取.將賦權(quán)后的特征參數(shù)作為對象特征,采用聚類分析將住戶劃分成若干類.
4)預(yù)測模型建立.確定各類住戶初始時刻在室狀態(tài)概率和狀態(tài)轉(zhuǎn)移概率矩陣,以分別建立馬爾可夫鏈預(yù)測模型.
5)模型驗證.對測試集住戶進行在室模式匹配(即所屬聚類類別),并采用各馬爾可夫鏈模型分別進行預(yù)測,將預(yù)測結(jié)果與實際在室狀態(tài)數(shù)據(jù)進行對比分析.
本文對原始數(shù)據(jù)的預(yù)處理過程主要包括數(shù)據(jù)清理、數(shù)據(jù)轉(zhuǎn)換和無量綱化處理.
1)數(shù)據(jù)清理:由于不同因素影響(如調(diào)查對象漏填等問題),數(shù)據(jù)庫存在部分住戶數(shù)據(jù)不完整的情況.為避免缺失數(shù)據(jù)影響模型結(jié)果,本文剔除該部分?jǐn)?shù)據(jù).
2)數(shù)據(jù)轉(zhuǎn)換:數(shù)據(jù)庫中所測參數(shù)的類型包括數(shù)值型(如住戶年齡)和分類型(如住戶性別).不同類型的數(shù)據(jù)難以直接進行對比分析,因此本文將分類型參數(shù)轉(zhuǎn)換為數(shù)值型參數(shù),如住戶性別為“男”則轉(zhuǎn)化成數(shù)值1,反之則為2.
3)無量綱化處理:在應(yīng)用過程中,取值范圍小的參數(shù)易受取值范圍大的參數(shù)影響而被忽略其重要性.為此,本文對參數(shù)進行無量綱化處理,將不同參數(shù)的取值范圍轉(zhuǎn)化為相同區(qū)間,如[0,1][8].
由于住戶不同特征因素對其在室行為的影響程度不同,有必要對其相關(guān)性進行分析,以確定不同影響因素對住戶在室狀態(tài)的影響程度.本文采用Spearman 相關(guān)性分析確定不同特征參數(shù)與住戶總在室時長的關(guān)聯(lián)程度.Spearman 相關(guān)性分析是衡量2個變量的依賴性的統(tǒng)計方法,它利用單調(diào)方程評價2 個統(tǒng)計變量的相關(guān)性.其中相關(guān)系數(shù)用符號ρ 表示,計算公式如(1)所示[9].
式中:xi、yi、及分別為2 變量原始值及均值.
聚類分析是一種根據(jù)研究對象相似性將數(shù)據(jù)集劃分為若干類或簇的過程,目的是保證“類內(nèi)相似性和類間排他性”[10].本文選用劃分聚類分析中kmeans 算法對加權(quán)特征參數(shù)進行聚類分析以得到不同住戶群體,其核心思想為指定初始聚類類別及質(zhì)心,并重復(fù)迭代直至算法收斂.其最佳聚類數(shù)k 可通過Calinski-Harabasz(CH)指標(biāo)和Davies-Bouldin(DB)指標(biāo)確定.2 指標(biāo)包含對類內(nèi)相似度與類間分離度的計算,CH 指標(biāo)越大而DB 指標(biāo)越小,則類內(nèi)相似度和類間分散度越高,說明聚類效果更優(yōu).本文采用開源數(shù)據(jù)挖掘軟件RapidMiner[11]進行聚類分析,該軟件是一個具有豐富數(shù)據(jù)挖掘分析和算法功能的開源軟件,通過將不同功能的算子連接形成流程來實現(xiàn)其功能,簡單易學(xué)且具有可視化特性.
馬爾可夫鏈模型假定住戶tn時刻在室狀態(tài)僅與上一時刻tn-1的在室狀態(tài)有關(guān),其計算公式如式(2)所示[12-13].
式中:Xtn-1為隨機變量;xtn-1為隨機變量在上一時刻tn-1的狀態(tài),t1<t2<…<tn.
該模型可通過初始在室概率p0和狀態(tài)轉(zhuǎn)移概率矩陣(Transition Probability Matrices,TPM)這兩個參數(shù)進行描述.將該模型應(yīng)用于住戶在室行為預(yù)測時,TPM 的大小取決于在室狀態(tài)數(shù)目(文中為“在室”和“離開”2 種狀態(tài)),如圖2 所示.此外,考慮到在室狀態(tài)具有動態(tài)變化特征,本文采用隨模擬步長(即10 min)變化的不均勻TPM.計算p0和TPM 公式如下[14]:
圖2 狀態(tài)轉(zhuǎn)移概率矩陣結(jié)構(gòu)圖Fig.2 The structure diagram of transition probability matrices
式中:p0為住戶初始狀態(tài)為xi的概率;N 為樣本總數(shù);xi為第i 個住戶的初始在室狀態(tài).
式中:pij為狀態(tài)i 轉(zhuǎn)移到狀態(tài)j 的轉(zhuǎn)移概率;nij為tn至tn+1時刻狀態(tài)i 轉(zhuǎn)移到狀態(tài)j 的數(shù)目.
式中:TPMtn為tn時刻的轉(zhuǎn)移概率矩陣為tn時刻狀態(tài)0 轉(zhuǎn)移到狀態(tài)1 的轉(zhuǎn)移概率,余類推.
在確定模型參數(shù)之后,為對在室狀態(tài)進行隨機預(yù)測,本文基于初始概率和狀態(tài)轉(zhuǎn)移概率矩陣,通過生成0-1 之間的隨機數(shù)并將其與相應(yīng)累計概率分布比較推斷出最可能出現(xiàn)的在室狀態(tài).
英國國家統(tǒng)計局于2000 年在全國范圍內(nèi)開展了時間利用調(diào)查,建立了Time Use Survey(TUS)數(shù)據(jù)庫[15],該數(shù)據(jù)庫以問卷調(diào)查的形式收錄了約2 萬個住宅住戶單人日志,且對所有月份及星期天數(shù)均有涵蓋,其記錄的詳細日常活動信息能夠提供豐富的住戶行為數(shù)據(jù).這些日志主要包含兩部分內(nèi)容:
1)與住戶日?;顒酉嚓P(guān)的影響因素,包含詳細的個人信息(如年齡、性別、民族、職業(yè)、收入、住戶與其他住戶的關(guān)系等)和住宅信息(住宅類型、家用電器及車輛擁有權(quán)、家庭收入等).
2)住戶24 h(從4:00am 到次日3:50am)具體的日?;顒?,包含一天工作日和一天非工作日,該信息是由住戶主動記錄每間隔10 min 其主要日?;顒印⒋我粘;顒?、相應(yīng)位置及是否有陪同人員等.
為評估模型的整體性能,本文采用平均絕對誤差(Mean Absolute Error,MAE)和均方根誤差(Root Mean Square Error,RMSE)兩個指標(biāo)對模型預(yù)測精度進行評價.MAE 和RMSE 反映預(yù)測在室狀態(tài)概率的整體誤差,計算公式如下:
對TUS 數(shù)據(jù)清理后共有12 166 個住戶日志數(shù)據(jù)完整且滿足研究需求,本文選取這部分?jǐn)?shù)據(jù)作為研究樣本,并從樣本中包含的日?;顒臃诸愔型茢喑鲈谑仪闆r,其具體信息見表1.此外,從數(shù)據(jù)庫中選取了12 類可能對住戶在室行為產(chǎn)生影響的因素,具體分類及內(nèi)容見表2,其中表2 中的分類數(shù)值均根據(jù)其相應(yīng)順序轉(zhuǎn)為有序數(shù)值,例如,工作狀態(tài)共計4種,依次編碼為1~4.
通過萬能試驗機(GP-TS2000)測試焊后鋁合金對焊樣品的拉伸強度,拉伸試樣為Φ15 mm×40 mm棒材對焊件.焊后試樣經(jīng)切割、鑲嵌、拋光,并用化學(xué)腐蝕液腐蝕后,制備成所需金相試樣.腐蝕液配方為:V(HF)∶V(HCl)∶V(HNO3)∶V(H2O3)=2∶3∶5∶10.使用光學(xué)顯微鏡觀察焊接接頭的金相組織.
表1 住戶日?;顒臃诸惡拖鄳?yīng)的在室信息Tab.1 Classification of resident daily activities and occupancy information
表2 在室行為相關(guān)的影響因素Tab.2 Influencing factors related to the occupancy
本文以住戶總在室時長為目標(biāo)函數(shù),對影響因素進行相關(guān)性分析,結(jié)果見表3.由表3 可知,在12個影響因素中,工作狀態(tài)、身份信息、經(jīng)濟活躍情況和年齡與住戶的總在室時長正相關(guān)系數(shù)較大,這意味著住戶的這四類因素與住戶在室持續(xù)時長具有顯著相關(guān)性.在分析和預(yù)測住宅建筑住戶在室模式時,應(yīng)重點考察這四種影響因素.此外,住戶住宅類型以及生活狀況與總在室時長的相關(guān)性幾乎為零,這表明二者對在室行為的影響可忽略不計.因此在后續(xù)研究中將這兩個因素剔除,最終選取10 個影響因素作為聚類特征參數(shù),并根據(jù)相關(guān)性系數(shù)為各特征參數(shù)賦予相應(yīng)權(quán)值.
表3 影響因素相關(guān)性分析結(jié)果Tab.3 Correlation analysis results of influencing factors
在得到相關(guān)系數(shù)后,應(yīng)以賦權(quán)特征參數(shù)為分類指標(biāo)對訓(xùn)練集數(shù)據(jù)進行聚類分析.針對不同聚類類別數(shù)目(本文設(shè)定范圍為2~10),分別計算CH 和DB指標(biāo),結(jié)果見表4.由表4 可知,在k=2 時,CH 指標(biāo)最大,DB 指標(biāo)最小,即在保證類內(nèi)相似最高的情況下類與類之間的距離最遠,聚類效果最優(yōu).因此,本文將樣本住戶分為2 類進行研究.
表4 聚類CH 指標(biāo)和DB 指標(biāo)結(jié)果Tab.4 The CH and DB results
表5 為對賦權(quán)特征參數(shù)進行聚類后,2 個聚類的聚類中心(即每個特征參數(shù)的平均值)、住戶數(shù)量及占比情況.圖3 給出了4 個重要特征參數(shù)在這2 個聚類的詳細分布情況.結(jié)合表5 和圖3 可看出,第1類住戶的工作狀態(tài)、身份信息、經(jīng)濟活躍和年齡均為最大,這表明該聚類多為不在工作且不在學(xué)校、退休、經(jīng)濟狀態(tài)不活躍、年齡較大的人員;第2 類住戶多為處于工作狀態(tài)、擁有全職工作、經(jīng)濟狀態(tài)活躍、年齡較小的人員.
表5 聚類分析結(jié)果Tab.5 Cluster analysis results
圖3 4 個重要特征參數(shù)在聚類1 和聚類2 的分布Fig.3 Distribution of four important characteristics in cluster 1 and cluster 2
由上述結(jié)果可看出兩類住戶具有明顯不同的特征,為進一步分析不同住戶特征對在室行為模式的影響,圖4 給出了兩類住戶的在室狀態(tài)概率分布圖.從圖中可知,兩類住戶的在室模式存在顯著差異.例如,在8:00—18:00 時間段,第2 類住戶不在室概率明顯高于第1 類住戶,其主要原因是第2 類住戶大部分為年齡相對較小的全職工作人員,白天通常處于外出工作狀態(tài);相反,對于第1 類住戶(年齡較大的退休或無工作住戶),其主要日?;顒訛閭€人護理、休閑娛樂等室內(nèi)活動,外出活動時間較短.由此可知,兩種在室模式與聚類所獲取的住戶特征較為吻合,表明基于住戶典型特征參數(shù)能夠合理劃分住戶并識別不同住戶的在室行為模式,使得同一類住戶的在室行為模式更為接近.
圖4 典型住戶在室模式Fig.4 Typical resident occupancy patterns
在聚類分析所劃分的兩類住戶的基礎(chǔ)上,本文采用訓(xùn)練集建立了基于住戶差異性的馬爾可夫鏈在室狀態(tài)預(yù)測模型(RMCPMC 模型).為驗證模型的有效性,以測試集樣本住戶加權(quán)特征參數(shù)與兩聚類中心的歐氏距離為依據(jù)評判住戶歸屬典型類別,分別根據(jù)所建立的RMCPMC 模型進行預(yù)測.經(jīng)分析測試集中有955 名住戶(39.25%)屬于第1 類,1 478 名住戶(60.75%)屬于第2 類.為保證驗證結(jié)果的公平性與合理性,應(yīng)以數(shù)據(jù)集樣本數(shù)目為模擬次數(shù)進行預(yù)測[4].因此,本文以測試集中各個聚類的樣本數(shù)量為模擬次數(shù)模擬住戶在室行為.
圖5 不同模型模擬結(jié)果對比圖Fig.5 Occupancy prediction results based on different models
表6 給出了本文所提出的RMCPMC 模型與傳統(tǒng)MC 模型的整體預(yù)測結(jié)果.從表6 中可知,相比于傳統(tǒng)MC 模型,本文所提出的預(yù)測模型的MAE 和RMSE 分別減少了20.57%和15.35%.從總體預(yù)測結(jié)果來看,模型整體預(yù)測性能大幅提升.這一結(jié)果表明,通過合理識別相似的建筑在室行為模式,能夠?qū)崿F(xiàn)提升在室行為預(yù)測精度的目的.
表6 兩種模型預(yù)測整體誤差Tab.6 The overall prediction error based on two models
本文主要結(jié)論如下:
1)住戶特征差異與建筑在室行為具有較強關(guān)聯(lián),因此在研究住戶在室行為時應(yīng)對住戶不同特征與在室行為進行相關(guān)性分析.就本文所采用的數(shù)據(jù)庫而言,其中相關(guān)性較強的影響因素包括住戶的工作狀態(tài)、經(jīng)濟水平、年齡和身份信息.
2)本文方法能綜合考慮住戶差異性對建筑在室行為的影響,通過合理區(qū)分不同建筑住戶特征以識別相應(yīng)的典型在室模式.本次研究通過聚類分析獲得2 類具有明顯不同特征的住戶:第1 類住戶多為不在工作且不在學(xué)校、退休、經(jīng)濟狀態(tài)不活躍、年齡較大的人員;第2 類住戶多為處于工作狀態(tài)、擁有全職工作、經(jīng)濟狀態(tài)活躍、年齡較小的人員.且兩類住戶在室模式與聚類所獲取住戶特征較吻合.
3)與傳統(tǒng)MC 模型相比,RMCPMC 模型整體預(yù)測精度顯著提升,RMCPMC 模型可根據(jù)住戶特征參數(shù)有效判別住戶所屬類別,獲得更加合理的模型輸入?yún)?shù),預(yù)測結(jié)果更符合實際,模型預(yù)測誤差MAE和RMSE 分別減少了20.57%和15.35%.
本文模型的建立和評估均是以英國2000 年TUS 數(shù)據(jù)庫為例,將其應(yīng)用于我國時應(yīng)結(jié)合我國住宅建筑室內(nèi)人員特征,從數(shù)據(jù)采集、模型參數(shù)選取和聚類分析參數(shù)權(quán)重分配等方面進行考慮.同時,就新建住宅住戶行為預(yù)測而言,考慮到其住戶特征難以獲取,應(yīng)基于其規(guī)劃設(shè)計信息選擇已有類似住宅并采用相關(guān)參數(shù)進行預(yù)測,在后期業(yè)主入住后再收集住戶信息對模型進行校核和修正.
此外,本文研究主要針對建筑住戶在室狀態(tài)(即在室和不在室)的預(yù)測進行分析和驗證,在此基礎(chǔ)上,未來應(yīng)進一步細化住戶在室行為(如主動/被動在室狀態(tài)、與能耗相關(guān)行為等)建立相應(yīng)預(yù)測模型,以獲取住戶更全面且詳細的在室狀態(tài),并將其與能耗預(yù)測模型相耦合,達到提高能耗模擬精度的目的.