段在鵬,李 帆,邱少輝,俞思雅,張一洋
(1.福州大學(xué) 環(huán)境與安全工程學(xué)院,福建 福州 350108;2.中鋁瑞閩股份有限公司,福建 福州 350108)
城市快速發(fā)展過(guò)程中遺留大批隱患房屋,目前房屋排查完全采用人工排查手段,排查成本高、效率低。
截至2020年底,中國(guó)各個(gè)城市地鐵線路總里程已經(jīng)達(dá)5 180.6 km[1],但地鐵線路規(guī)劃建設(shè)不可避免地會(huì)下穿城市建筑群,從而對(duì)地上建筑產(chǎn)生影響。國(guó)內(nèi)學(xué)者針對(duì)地鐵施工對(duì)周邊房屋的影響做了大量研究:錢(qián)春宇等[2]研究地鐵盾構(gòu)施工和運(yùn)營(yíng)振動(dòng)對(duì)城墻和鐘樓的影響;崇金玲[3]研究地鐵運(yùn)營(yíng)產(chǎn)生的振動(dòng)對(duì)古建筑結(jié)構(gòu)性能的影響。在現(xiàn)代建筑方面,宋波等[4]監(jiān)測(cè)地鐵通過(guò)時(shí)建筑物的振動(dòng)加速度,研究地鐵運(yùn)行對(duì)鄰近磚混結(jié)構(gòu)建筑物的影響;于凱文等[5]系統(tǒng)研究地鐵運(yùn)營(yíng)對(duì)沿線不同基礎(chǔ)型式建筑物的振動(dòng)影響規(guī)律。
國(guó)內(nèi)外對(duì)建筑結(jié)構(gòu)安全分析的研究大多集中在計(jì)算機(jī)模擬和無(wú)損探測(cè)方面:Guo等[6]通過(guò)建立力學(xué)仿真模型研究客運(yùn)滑道的安全性;Bernardi等[7]提出基于CFD技術(shù)模擬和熱力有限元模型的結(jié)構(gòu)安全評(píng)估方法;Isaac等[8]通過(guò)對(duì)比標(biāo)準(zhǔn)區(qū)間分析和參數(shù)化區(qū)間分析發(fā)現(xiàn),標(biāo)準(zhǔn)區(qū)間分析方法在某些情況下會(huì)得出具有誤導(dǎo)性的結(jié)論;Daou等[9]通過(guò)數(shù)字模擬建模驗(yàn)證碼頭結(jié)構(gòu)的安全性。無(wú)損探測(cè)在結(jié)構(gòu)安全評(píng)價(jià)方面得到一定應(yīng)用:Stefan等[10]利用超聲波探測(cè)和概率分析對(duì)大橋結(jié)構(gòu)安全性進(jìn)行評(píng)估;常銀生等[11]以南京地鐵3號(hào)線為例,提出利用房屋結(jié)構(gòu)信息和抵抗不均勻沉降能力等情況初步判斷房屋的安全性能;張飛[12]以廈門(mén)1號(hào)線為背景提出對(duì)地鐵沿線老舊房屋進(jìn)行安全現(xiàn)狀評(píng)價(jià)的具體方法;蔣智勇等[13]提出在地鐵施工前對(duì)老舊房屋安全性能鑒定和測(cè)試的方法。近年來(lái),利用計(jì)算學(xué)習(xí)進(jìn)行房屋性能評(píng)估的方法逐漸盛行:Zhang等[14]提出用于震后結(jié)構(gòu)安全性評(píng)估的機(jī)器學(xué)習(xí)框架;Lee等[15]利用深度神經(jīng)網(wǎng)絡(luò)(DNN)實(shí)現(xiàn)對(duì)老舊房屋采暖能耗的預(yù)測(cè),均取得較好的效果。
鑒于此,本文基于房屋基本數(shù)據(jù)(建筑年份、結(jié)構(gòu)類(lèi)型、基礎(chǔ)類(lèi)型、地理位置等),利用4種不同機(jī)器學(xué)習(xí)算法分別對(duì)某市地鐵沿線老舊房屋的安全狀況進(jìn)行預(yù)測(cè),采用不同指標(biāo)比較不同分類(lèi)器的性能,驗(yàn)證利用機(jī)器學(xué)習(xí)預(yù)測(cè)房屋安全性的可行性。
本文實(shí)驗(yàn)選取某市地鐵1號(hào)線與2號(hào)線沿線老舊房屋作為預(yù)測(cè)對(duì)象,每棟房屋屬性見(jiàn)表1,共收集11個(gè)指標(biāo)。
表1 實(shí)驗(yàn)數(shù)據(jù)屬性Table 1 Introduction to experimental data attributes
房屋安全現(xiàn)狀分為存在安全隱患和暫無(wú)安全隱患2級(jí),由技術(shù)人員現(xiàn)場(chǎng)從房屋基礎(chǔ)、外觀、結(jié)構(gòu)等方面進(jìn)行辨識(shí),具體分級(jí)標(biāo)準(zhǔn)見(jiàn)表2。
表2 房屋安全現(xiàn)狀分級(jí)標(biāo)準(zhǔn)Table 2 Classification standard of building safety status
研究區(qū)域衛(wèi)星圖像如圖1所示。該區(qū)域地鐵線路穿過(guò)市中心,沿線街道存在大量老舊房屋,各類(lèi)用途房屋占比情況見(jiàn)表3。
表3 房屋用途統(tǒng)計(jì)表Table 3 Statistical table of building usages
房屋數(shù)據(jù)各指標(biāo)相關(guān)性熱力圖如圖2所示。由圖2可知,與房屋安全性(安全現(xiàn)狀)相關(guān)性最高的指標(biāo)為房屋改造情況,相關(guān)系數(shù)絕對(duì)值達(dá)0.7;其次為房屋結(jié)構(gòu)類(lèi)型、基礎(chǔ)類(lèi)型和設(shè)計(jì)情況,相關(guān)系數(shù)絕對(duì)值均大于0.1。
1)缺失值和離群值。收集到的數(shù)據(jù)數(shù)量充足且完整性較高,含有缺失值和異常值的樣本量很少,因此本文通過(guò)人工篩選的方式對(duì)這部分樣本進(jìn)行剔除。
2)變量處理。對(duì)年份、建筑面積、地上及地下樓層數(shù)等連續(xù)型變量進(jìn)行標(biāo)準(zhǔn)化處理,采用Standard Scaler[16]對(duì)訓(xùn)練集和測(cè)試集進(jìn)行標(biāo)準(zhǔn)化。對(duì)于離散型變量,本文采用獨(dú)熱編碼(One-Hot Encoding)[17]的方式進(jìn)行處理。
本文實(shí)驗(yàn)共收集房齡大于20 a的老舊房屋數(shù)據(jù)2 431條,其中暫無(wú)安全隱患數(shù)據(jù)與存在安全隱患數(shù)據(jù)的比例為2 407∶24,“暫無(wú)安全隱患”數(shù)據(jù)量遠(yuǎn)大于“存在安全隱患”數(shù)據(jù)量,屬極端不平衡數(shù)據(jù)。
在數(shù)據(jù)層面,樣本不均衡性解決辦法主要包括過(guò)采樣和欠采樣(下采樣)2種,欠采樣方法在樣本正負(fù)例比例過(guò)大時(shí)失去作用,目前對(duì)這種數(shù)據(jù)集效果較好的處理方法為數(shù)據(jù)過(guò)采樣技術(shù)(SMOTE)[18-19],在諸如醫(yī)療等非均衡樣本機(jī)器學(xué)習(xí)領(lǐng)域得到廣泛應(yīng)用[20-21],并取得很好的效果。
研究數(shù)據(jù)屬極端不平衡數(shù)據(jù),若采用欠采樣,則易造成數(shù)據(jù)浪費(fèi),故本文采用過(guò)采樣思路中的SMOTE模型進(jìn)行研究。SMOTE通過(guò)插值法生成新樣本,使得輸入數(shù)據(jù)集達(dá)到平衡。過(guò)采樣前后訓(xùn)練集中正負(fù)類(lèi)樣本數(shù)量統(tǒng)計(jì)見(jiàn)表4。
表4 過(guò)采樣前后訓(xùn)練集正負(fù)樣本數(shù)量統(tǒng)計(jì)Table 4 Statistics on positive and negative samples numbers of training set before and after oversampling
本文所有程序均基于Python3.7環(huán)境,各分類(lèi)器主要參數(shù)如下,未標(biāo)明參數(shù)均采用默認(rèn)值。
1)KNN,Bayes 2個(gè)分類(lèi)器的參數(shù)均采用默認(rèn)值。
2)Logistic:max_iter=2 000。
3)SVM:懲罰系數(shù)C:2;內(nèi)核類(lèi)型kernel:‘linear’;分類(lèi)策略decision_function_shape:‘ovo’。
實(shí)驗(yàn)數(shù)據(jù)離散變量多且存在大量相似數(shù)據(jù),本文采用One-Hot Encode+KFOLD+SMOTE的方式對(duì)數(shù)據(jù)進(jìn)行加工,算法流程如圖3所示。
圖3 算法流程示意Fig.3 Schematic diagram of algorithm flow chart
實(shí)驗(yàn)數(shù)據(jù)集共2 431條數(shù)據(jù),訓(xùn)練集與測(cè)試集劃分比例為1∶1。為避免隨機(jī)性,實(shí)驗(yàn)2次訓(xùn)練所用數(shù)據(jù)不存在交叉,即將第1次實(shí)驗(yàn)的測(cè)試集作為第2次訓(xùn)練的訓(xùn)練集,2次實(shí)驗(yàn)結(jié)果的混淆矩陣如圖4所示。
圖4 實(shí)驗(yàn)結(jié)果混淆矩陣Fig.4 Confusion matrix of experimental results
從2次實(shí)驗(yàn)的混淆矩陣可知,綜合負(fù)例檢出率和正例誤判率,Bayes模型在4個(gè)模型中表現(xiàn)最差;邏輯回歸模型和SVM模型的表現(xiàn)比較出色,負(fù)例檢出率均大于70%,正例誤判率較低,但無(wú)法進(jìn)一步做出比較。
根據(jù)2次實(shí)驗(yàn)結(jié)果生成的PR曲線,整條曲線反應(yīng)在不同判別閾值情況下模型的預(yù)測(cè)能力(用AP值量化)如圖5所示。由圖5可知,KNN和Bayes模型2次實(shí)驗(yàn)的PR曲線非常接近,但效果均不佳;從AP值來(lái)看,邏輯回歸和SVM的差距并不明顯,但邏輯回歸有部分閾值的Precision值和Recall值大于其他3個(gè)模型,即通過(guò)優(yōu)化判定閾值,邏輯回歸效果較好。
圖5 PR曲線Fig.5 Precision-Recall (PR) curves
根據(jù)2次實(shí)驗(yàn)結(jié)果生成的ROC曲線如圖6所示。ROC曲線表示選取不同判定閾值時(shí),真正率(TPR=TP/(TP+FN))隨假正率(FPR=FP/(FP+TN))的變化情況。ROC曲線越向上遠(yuǎn)離Chance線,分類(lèi)器性能越好。由圖6可知,KNN分類(lèi)器在不同測(cè)試集上的波動(dòng)性較大,性能不夠穩(wěn)定,Bayes分類(lèi)器2次實(shí)驗(yàn)結(jié)果均不理想,邏輯回歸和SVM分類(lèi)器在2次實(shí)驗(yàn)中ROC曲線均十分穩(wěn)定,且邏輯回歸分類(lèi)器的表現(xiàn)要略?xún)?yōu)于SVM分類(lèi)器。
圖6 ROC曲線Fig.6 Receiver Operating Characteristic (ROC) curves
各分類(lèi)器2次實(shí)驗(yàn)表現(xiàn)的定量評(píng)價(jià)指標(biāo)匯總見(jiàn)表5。由表5可知,無(wú)論是從準(zhǔn)確率、精確率、召回率這類(lèi)2級(jí)指標(biāo),還是F1_score3級(jí)指標(biāo)來(lái)看,邏輯回歸模型比其他3種分類(lèi)器表現(xiàn)更為突出,其準(zhǔn)確率(Accuracy)高達(dá)99.02%,查準(zhǔn)率(Precision)達(dá)到75.63%,驗(yàn)證邏輯回歸模型分類(lèi)器的有效性。
表5 評(píng)價(jià)指標(biāo)匯總Table 5 Summary of evaluation indexes
1)通過(guò)對(duì)11個(gè)房屋指標(biāo)進(jìn)行統(tǒng)計(jì)分析發(fā)現(xiàn),城市中存在很多經(jīng)不合理設(shè)計(jì)、結(jié)構(gòu)老化、違規(guī)改造的老舊房屋,其中違規(guī)建造導(dǎo)致的上下樓體結(jié)構(gòu)不一致、地基滑移,違規(guī)改造造成的樓體結(jié)構(gòu)損壞更易影響樓體的結(jié)構(gòu)安全。
2)通過(guò)模型擬合結(jié)果可知,在使用的10個(gè)指標(biāo)中,房屋是否經(jīng)過(guò)改造和是否經(jīng)過(guò)正規(guī)設(shè)計(jì)、基礎(chǔ)、結(jié)構(gòu)指標(biāo)與房屋是否有安全隱患有較強(qiáng)的相關(guān)性,因此在城市房屋安全隱患整治過(guò)程中,應(yīng)尤其注重對(duì)于違規(guī)建造和改造的房屋的排查。
3)KNN、Bayes、Logistic、SVM 4個(gè)分類(lèi)器對(duì)于正例樣本均能達(dá)到較好的分類(lèi)性能,但Bayes分類(lèi)器的錯(cuò)誤分類(lèi)最多,表現(xiàn)最差。在房屋安全性負(fù)例樣本預(yù)測(cè)中,KNN和Bayes分類(lèi)器效果相近,檢出率約為50%,基于邏輯回歸和SVM的分類(lèi)器表現(xiàn)較好,達(dá)70%左右的檢出率。
中國(guó)安全生產(chǎn)科學(xué)技術(shù)2022年3期