郭茂祖,王偲佳,王鵬躍,李 陽,趙玲玲
(1.北京建筑大學電氣與信息工程學院,北京 100044;2.建筑大數(shù)據(jù)智能處理方法研究北京重點實驗室(北京建筑大學),北京 100044;3.北京建筑大學建筑與城市規(guī)劃學院,北京 100044;4.哈爾濱工業(yè)大學計算機科學與技術(shù)學院,黑龍江哈爾濱 150001)
街區(qū)作為城市結(jié)構(gòu)的基本組成部分,是城市規(guī)劃和設(shè)計中的重要研究對象。城市街區(qū)的品質(zhì)、功能等方面的評估分析工作也是城市規(guī)劃和設(shè)計工作中必不可少的一環(huán)。城市規(guī)劃和設(shè)計領(lǐng)域中所定義的街區(qū)通常是指被道路包圍的區(qū)域,或借助其他自然特征或人文特征進行劃分的區(qū)域。街區(qū)的品質(zhì)評價方法能夠以統(tǒng)一的測度指標對各街區(qū)的品質(zhì)進行客觀評估。街區(qū)品質(zhì)評估的結(jié)果可以作為街區(qū)品質(zhì)提升工作和后期街區(qū)建設(shè)規(guī)劃工作的基礎(chǔ),有著重要的價值和意義。
已有的城市街區(qū)品質(zhì)評估方法側(cè)重于物質(zhì)空間及社會屬性[1]。目前對于城市街區(qū)品質(zhì)評估的研究,以及街區(qū)品質(zhì)評估體系的構(gòu)建、測度指標的制定和品質(zhì)類別的區(qū)分等仍以定性研究[2,3]為主。街區(qū)品質(zhì)類別的確定主要由業(yè)內(nèi)資深專家基于業(yè)內(nèi)文字概念的定義、描述以及從業(yè)多年的經(jīng)驗積累進行主觀判斷,由于不同職業(yè)培養(yǎng)體系和不同文化背景下的業(yè)內(nèi)專家對于城市街區(qū)品質(zhì)類別的認知和偏好略有不同,所以導(dǎo)致主觀判斷得出的街區(qū)品質(zhì)評估結(jié)果不統(tǒng)一,缺乏科學的評判標準。
針對這些弊端,有研究人員提出了基于街景的智能評價方法[4,5]和基于生物傳感器的感知評價方法[6]。在近幾年的研究中,Rundle等[7]利用街景圖像對紐約37個步行街區(qū)環(huán)境美感與其他物質(zhì)空間指標進行評價。Naik等[8]通過街景圖像評價美國21個城市街道空間的安全度。Ewing等[9]基于已有的指標體系從不同維度對街景圖像的空間圍合度、意象性等量化評價進行打分。韓君偉[10]借助數(shù)字攝像和計算機圖像處理技術(shù)將視覺熵引入量化商業(yè)步行街道景觀視覺復(fù)雜性的研究中。龍瀛等[11]將大數(shù)據(jù)與街景數(shù)據(jù)結(jié)合,對北京和成都的街道空間進行品質(zhì)分析,并得出評價指標為人口密度、城市活力、界面特征、交通特征、開發(fā)強度、可達性等。唐婧嫻等[4]通過計算機圖像識別、圖像分割技術(shù)和人口訪問調(diào)查方法研究北京和上海的中心區(qū)街道品質(zhì),得出街道環(huán)境設(shè)計要素為綠化率、街道高寬比、街道尺度、街道活力、街道圍合度、人性化尺度、通透性、整潔度、意象化等。樊鈞等[12]在對蘇州古城區(qū)街道空間慢行品質(zhì)的研究中,通過空間網(wǎng)絡(luò)分析、聚類算法等技術(shù)分析,得出評價指標為興趣點、位置服務(wù)數(shù)據(jù)、街道尺度、組織結(jié)構(gòu)、綠化率、空間活力、設(shè)施均好性、街道五感等。這些方法合理降低了專家評估的主觀性,但因為只側(cè)重于某測度指標中的某一方面,所以導(dǎo)致評估所參考的指標不夠全面。
隨著開源社區(qū)的發(fā)展,城市中累積的海量多源大數(shù)據(jù)為城市街區(qū)的研究提供了更寬廣的角度和思考,其中各街區(qū)品質(zhì)測度指標數(shù)據(jù)主要包括實地調(diào)查數(shù)據(jù)[13,14]、地理信息數(shù)據(jù)[15,16]、街景圖片數(shù)據(jù)[17-19]、空間句法評價[20,21]等。
人工智能的飛速發(fā)展促使各領(lǐng)域研究人員將人工智能用于解決行業(yè)內(nèi)的部分問題。在城市規(guī)劃領(lǐng)域中,過去專家常用人工方式評估街區(qū)品質(zhì),但隨著數(shù)據(jù)逐漸增多,人工評估的時間成本和人力成本增大。另外,專家的從業(yè)經(jīng)驗和個人觀念使得街區(qū)品質(zhì)評估帶有主觀性,從而無法嚴格執(zhí)行現(xiàn)有規(guī)范。基于人工智能的街區(qū)品質(zhì)評估方法可有效緩解上述問題,但目前使用人工智能的街區(qū)品質(zhì)評估方法與實際應(yīng)用的研究成果較少。本文綜合研究人員在各方面提出的街區(qū)品質(zhì)測度指標,提出全面的城市街區(qū)品質(zhì)測度指標,并綜合城市街區(qū)品質(zhì)評估的研究情況,提出使用衛(wèi)星圖像取代街景圖像作為輸入圖像,降低街景圖像采集位置與視角不統(tǒng)一造成的偏差;將非圖像型數(shù)據(jù)與圖像型數(shù)據(jù)提取的特征進行融合,從多角度充分提取街區(qū)的品質(zhì)特征;針對小樣本和數(shù)據(jù)不平衡場景,本文使用樸素隨機過采樣方法削弱真實數(shù)據(jù)集的不平衡性對模型訓練的影響,并使用隨機森林(Random Forest,RF)作為街區(qū)品質(zhì)類別的分類器,以提高街區(qū)品質(zhì)評估模型的適用性和泛化性。
根據(jù)不同街區(qū)相關(guān)數(shù)據(jù)得到的特征,可分為非圖像型數(shù)據(jù)和圖像型數(shù)據(jù),其中非圖像型數(shù)據(jù)以各項人工采集或傳感器采集的數(shù)值為主,如研究對象的數(shù)目或比值等,各項數(shù)值組合在一起形成一維特征向量,通過計算特征向量在多維度坐標中的距離等進行分析從而完成街區(qū)品質(zhì)評估;圖像型數(shù)據(jù)以彩色照片或灰度圖為主,經(jīng)由圖像特征提取得到特征矩陣,并經(jīng)過特征矩陣間的計算完成街區(qū)品質(zhì)評估。雖然非圖像型數(shù)據(jù)與圖像型數(shù)據(jù)在格式和計算方法上略有區(qū)別,但步驟和原理相近。
圖像型數(shù)據(jù)除像素矩陣形式外,還可基于圖像識別、語義分割等方法通過識別圖像中對象的種類數(shù)、數(shù)目、面積占比和在圖像中的位置等進行信息提取,并將得到的圖像特征與數(shù)值特征進行特征融合。特征融合問題常見于多模態(tài)的研究中,較為常見的特征融合方法主要為拼接和對位求和。
針對真實數(shù)據(jù)集的不平衡性易導(dǎo)致提取到的特征向量類別不平衡,從而影響訓練效果的問題,有關(guān)研究常對數(shù)據(jù)集進行過采樣和欠采樣等處理。常見的過采樣方法為樸素隨機過采樣、合成少數(shù)類過采樣技術(shù)(Synthetic Minority Over-sampling Technique,SMOTE)[22]、合成邊緣少數(shù)類過采樣技術(shù)(Borderline-Synthetic Minority Over-sampling Technique,Borderline-SMOTE)[23]、自適應(yīng)合成抽樣(Adaptive Synthetic Sampling,ADASYN)[24]等,欠采樣方法為樸素隨機欠采樣等。由于真實數(shù)據(jù)集的街區(qū)品質(zhì)類別標簽須由人工標注,人力、物力成本高,所以數(shù)據(jù)量較少。樸素隨機過采樣方法利用有放回的抽取方法,從少數(shù)類樣本中隨機采樣,以此代替現(xiàn)有的數(shù)據(jù)集,其優(yōu)點在于增加了少數(shù)類樣本的權(quán)重,但有可能造成過擬合。本文選擇樸素隨機過采樣作為城市街區(qū)品質(zhì)評估中的預(yù)處理方法。
城市街區(qū)的品質(zhì)評估問題可轉(zhuǎn)化為分類問題,其中專家標注的街區(qū)品質(zhì)分為A、B、C 3個類別。真實數(shù)據(jù)集包含141個街區(qū)的數(shù)據(jù),屬于小型樣本,且以非圖像型數(shù)據(jù)為主,故機器學習算法更適合用于以上問題。基于機器學習的分類算法以支持向量機(Support Vector Machine,SVM)、決策樹、隨機森林為主。
本文使用衛(wèi)星圖像,通過指定顏色范圍的內(nèi)容識別與占比計算,提取各街區(qū)的綠化比率值,并與非圖像型特征進行特征融合。融合后的特征進行樸素隨機過采樣處理,減少數(shù)據(jù)的不平衡性對模型訓練的影響。模型使用隨機森林對城市街區(qū)進行分類,通過品質(zhì)類別的確定完成城市街區(qū)的品質(zhì)評估,具體結(jié)構(gòu)如圖1所示。
圖1 街區(qū)品質(zhì)評估模型結(jié)構(gòu)
為全面、客觀、精確地對影響城市街區(qū)各品質(zhì)評估的因素進行表達,本文以物質(zhì)空間實地調(diào)研、空間句法效能分析以及開源數(shù)據(jù)獲取等方式構(gòu)建城市街區(qū)品質(zhì)的測度指標:建筑風貌、重要歷史建筑數(shù)量、街道建筑高寬比、沿街建筑功能種類、小品服務(wù)設(shè)施種類、停車位數(shù)量、公交地鐵站點站距、停車干擾度、人行道寬度、沿街空間出入口數(shù)量、綠化覆蓋率、植被豐富度、道路交通可達性、街道交通潛力、沿街開敞空間可達性、空間視線吸引力、公共交通步行可達性、公共基礎(chǔ)服務(wù)設(shè)施可達性、人流聚集度、功能密度、天空寬闊度、功能混合度和綠化占比,其中,綠化占比是由圖像提取的特征,簡稱為圖像型特征。以上指標參考近年來城市規(guī)劃專家關(guān)于街區(qū)品質(zhì)評估問題所提出的評價體系與相關(guān)指標[25-29],從自然環(huán)境、人文環(huán)境和社會環(huán)境等方面綜合評價街區(qū)公共空間的品質(zhì)。
在城市街區(qū)品質(zhì)測度指標中,由衛(wèi)星圖像計算得出的綠化占比與由街景圖像計算得出的綠視率在定義上相近,二者在街區(qū)綠化品質(zhì)的表達上存在互補作用。街景圖像是以人類視角在街道某一特定點位,以街道中線為基準拍攝的圖像,主要由中間道路、兩側(cè)的綠化和建筑等設(shè)施組成。衛(wèi)星圖像的拍攝視角為俯視,其拍攝到的綠化情況與側(cè)視拍到的街景圖像綠化情況不同。街景圖像中的綠視率是以人為本的感官品質(zhì)指標,而綠化占比注重公共空間內(nèi)客觀存在的綠化面積,兩者互補。故本文提出一種街區(qū)品質(zhì)評估的改進方法,即利用衛(wèi)星圖像代替街景圖像,并將圖像特征與數(shù)值特征融合,基于隨機森林構(gòu)建街區(qū)品質(zhì)的分類模型。
首先將由物質(zhì)空間實地調(diào)研、空間句法效能分析以及開源數(shù)據(jù)等方式獲取到的街區(qū)非圖像型數(shù)據(jù)進行整理,驗證是否存在缺省值并將缺省特征補零。
2.2.1 街區(qū)衛(wèi)星圖像分割與預(yù)處理
通過谷歌衛(wèi)星地圖獲取高清衛(wèi)星圖像,并結(jié)合街區(qū)輪廓矢量數(shù)據(jù)進行框選和截取,獲得嚴格按照街區(qū)輪廓劃分的衛(wèi)星圖像并編號。由于模型輸入圖像須為規(guī)則圖形,故將原街區(qū)圖像取最小外接矩形并全白填充背景,避免無關(guān)內(nèi)容影響模型訓練。此外,本文預(yù)先對截取的街區(qū)圖像進行銳化處理,增強圖像中各邊界、輪廓線和其他細節(jié),使其更加清晰。
2.2.2 街區(qū)衛(wèi)星圖像特征表示
圖像型特征主要通過圖像矩陣中各像素值的計算進行提取,圖像型數(shù)據(jù)集中的街區(qū)衛(wèi)星圖為RGB三通道圖像,通過各通道間同一位置像素值的比較,確定此位置是否屬于綠化范圍,并計算代表街區(qū)綠化特征的像素數(shù)在整體街區(qū)像素數(shù)中的占比,即街區(qū)綠化占比。綠化占比作為樣本的圖像型特征,以首尾拼接的方式與多維數(shù)值特征進行融合。
使用樸素隨機過采樣方法對融合后的特征進行預(yù)處理,并與SMOTE、Borderline-SMOTE和ADASYN等常見的過采樣方法進行對比。
本文使用隨機森林算法作為分類器, 隨機森林是一種特殊的使用決策樹作為模型的bagging。首先,用bootstrap方法生成多個訓練集,并分別對每個訓練集構(gòu)造一棵決策樹,然后在節(jié)點尋找特征進行分裂時,在特征中隨機抽取一部分特征,在抽到的特征中間找到最優(yōu)解,應(yīng)用于節(jié)點進行分裂。
隨機森林的方法基于集成的思想,集成了多棵決策樹,并對樣本和特征進行采樣從而避免過擬合。前文隨機過采樣方法可能引起的過擬合,將在隨機森林的分類器部分得到緩解。本文對融合后的特征進行歸一化預(yù)處理,降低量綱對模型訓練的影響,并利用隨機過采樣方法對小樣本類進行過采樣,降低數(shù)據(jù)不平衡性。隨機過采樣后得到的平衡數(shù)據(jù)集輸入隨機森林模型進行訓練,其中訓練集占比80%,測試集占比20%。具體如算法1所示。
算法1街區(qū)品質(zhì)評估算法
輸入:街區(qū)衛(wèi)星圖像picture, 街區(qū)非圖像型特征表示Jiequ;
輸出:基于數(shù)據(jù)融合的街區(qū)特征表示Fusion,各項特征的重要性,街區(qū)品質(zhì)的預(yù)測類別;
for picture ∈{picture1,picture2,…,picturen}
for pixel∈all pixels
計算屬于街區(qū)的像素數(shù)
計算屬于綠化的像素數(shù)
end for
計算綠化占比(綠化像素數(shù)/街區(qū)像素數(shù))
end for
for Jiequ ∈{Jiequ1,Jiequ2,…,Jiequn}
將樣本的picture和Jiequ特征首尾相連生成融合特征Fusion
構(gòu)建新數(shù)據(jù)集
end for
forn∈[少數(shù)類樣本個數(shù),多數(shù)類樣本個數(shù)]
從少數(shù)類中有放回地隨機抽取樣本
構(gòu)建平衡數(shù)據(jù)集
end for
for number ∈[1,100]
隨機劃分訓練集和測試集
訓練集歸一化
由訓練集訓練隨機森林分類器
由隨機森林對測試集進行預(yù)測
end for
以北京市西城區(qū)展覽館路街道內(nèi)的各公共空間街區(qū)[30,31]為研究對象(圖2),進行城市街區(qū)品質(zhì)評估方法的實驗驗證。
圖2 展覽館路街道地塊
實驗使用的真實數(shù)據(jù)集由5位建筑學專家通過實地調(diào)研和考察,按少數(shù)服從多數(shù)原則確定各街區(qū)最終的空間品質(zhì)等級,將各個街區(qū)按空間品質(zhì)分為A、B、C 3個等級。Jiequ數(shù)據(jù)集包含141個數(shù)據(jù),每個數(shù)據(jù)代表一個公共空間街區(qū),各品質(zhì)類別樣本個數(shù)及占比如表1所示。
表1 Jiequ數(shù)據(jù)集組成
本文使用網(wǎng)格法最終確定的隨機森林參數(shù)為n_estimators=21,max_depth=7,max_features=4,min_samples_leaf=1,min_samples_split=2,criterion=‘gini’,n_ jobs=-1。
3.2.1 使用圖像和非圖像數(shù)據(jù)進行街區(qū)品質(zhì)評估結(jié)果對比
為了驗證圖像與融合特征對街區(qū)品質(zhì)特征的表達能力是否更強,且是否有利于提高街區(qū)品質(zhì)評估的正確率,分別使用圖像特征和非圖像特征,與本文提出的融合特征進行對比。該對比方法可以驗證融合特征的可行性和有效性。一方面,本文使用梯度直方圖(Histogram of Oriented Gradient,HOG)和像素篩選作為圖像特征提取方法;另一方面,本文已將各項測度指標作為數(shù)值向量的各維度,可直接作為非圖像特征進行后續(xù)計算,因此無需進行非圖像特征提取。
首先,本文僅使用非圖像特征進行街區(qū)品質(zhì)評估,分別選取傳統(tǒng)機器學習中較常用的算法:Extreme Gradient Boosting(XGBoost)、邏輯回歸(Logistic Regression,LR)、隨機森林(RF)和支持向量機(SVM)進行實驗對比,結(jié)果如表2所示,RF和SVM的正確率較XGBoost和LR提高約7個百分點。
表2 各機器學習模型對比結(jié)果
為探究圖像特征提取方法對街區(qū)品質(zhì)評估正確率的影響,本文選擇SVM作為分類器,并設(shè)置balanced參數(shù),以此減少數(shù)據(jù)平衡性等其他因素的影響。在不進行圖像特征提取的情況下,使用原圖像進行街區(qū)品質(zhì)評估的正確率約為42.5%,使用HOG傳統(tǒng)特征提取方法進行街區(qū)品質(zhì)評估的正確率約為58%,提高約16個百分點;使用像素篩選法提取圖像中的綠色像素(綠色通道值大于其他兩通道),并進行街區(qū)品質(zhì)評估的正確率約為63.5%,比原圖像法的正確率提高約21個百分點,比HOG方法正確率提高約5個百分點。
由以上兩組實驗結(jié)果可知,使用圖像和非圖像數(shù)據(jù)進行街區(qū)品質(zhì)評估的正確率不同,使用圖像型數(shù)據(jù)進行評估的正確率相比非圖像型數(shù)據(jù)下降約20個百分點。因為非圖像型數(shù)據(jù)的各項指標經(jīng)過專家篩選,所以其街區(qū)品質(zhì)表達能力更強,與街區(qū)品質(zhì)類別的相關(guān)性更強,但由于非圖像型特征不含空間關(guān)系等弊端,正確率僅為82.76%。因此,基于圖像特征和非圖像特征在街區(qū)品質(zhì)表達角度上的差異及其互補性,提出將兩種特征融合的街區(qū)品質(zhì)評估算法。由于街區(qū)數(shù)據(jù)集的不平衡性,本文使用不同的過采樣方法進行對比,實驗結(jié)果如表3所示。
表3 過采樣方法的對比結(jié)果
由表3可見,基于樸素隨機過采樣方法的街區(qū)品質(zhì)評估正確率高于SMOTE、Borderline-SMOTE和ADASYN方法,且在使用樸素隨機過采樣方法的前提下,以RF作為分類器的街區(qū)品質(zhì)評估正確率為90.98%,比以SVM作為分類器的正確率提高約4個百分點??梢姡疚奶岢龅氖褂脴闼仉S機過采樣方法將融合特征平衡化,并使用RF作為分類器的街區(qū)品質(zhì)評估方法具有可行性。
3.2.2 使用混淆矩陣評價本文方法
從圖3的混淆矩陣可以看出,隨機生成訓練集和測試集后,街區(qū)品質(zhì)評估模型的正確率保持在17,14和16,但對于品質(zhì)類別B和C的分類效果較差,容易混淆B類和C類從而造成分類錯誤,說明真實樣本中B類樣本和C類樣本具有一定的相似性,甚至在多維特征空間中兩種類別的空間存在交集。
圖3 本文方法中各品質(zhì)類別的混淆矩陣
3.2.3 各項指標的重要性評估
本文使用RF模型輸出各項指標的重要性并排序,重要性從高到低依次為綠化覆蓋率、空間視線吸引力、綠化占比、天空寬闊度、人行道寬度、道路交通可達性、植被豐富度、沿街開敞空間可達性、重要歷史建筑、街道建筑高寬比、人流聚集度、公交地鐵距離、停車干擾度、功能混合度、街道交通潛力、功能密度、停車位數(shù)量、公共交通步行可達性、沿街建筑功能種類、小型服務(wù)設(shè)施種類、公共廁所設(shè)施可達性、建筑風貌和出入口數(shù)量。由圖像像素計算得出的綠化占比的重要性排在第3,可見其街區(qū)品質(zhì)的表達能力較強,在一定程度上提高了街區(qū)品質(zhì)評估的正確率。重要性排序的結(jié)果說明以衛(wèi)星圖像提取的綠化占比作為圖像特征,有較大的重要性,其重要性僅次于綠化覆蓋率和空間視線吸引力??梢?,街區(qū)品質(zhì)與綠化和人類視野感受的關(guān)聯(lián)性較大,本文提出利用衛(wèi)星圖像獲取圖像特征并進行特征融合的方法是合理且有效的。
綜上所述,本文提出的衛(wèi)星圖像代替街景圖像進行城市街區(qū)綠化情況的特征表示方法,不僅符合城市規(guī)劃與設(shè)計領(lǐng)域?qū)τ诮謪^(qū)品質(zhì)評估在概念上的要求,而且確實有利于提高城市街區(qū)品質(zhì)評估模型的性能。隨機過采樣與隨機森林的結(jié)合,在本文研究的展覽館路街道內(nèi)街區(qū)數(shù)據(jù)集上達到了90.98%的正確率,相較未使用過采樣和多特征融合的方法提高了約8個百分點,表明本文提出的算法具有較好的實用性和泛化性。
本算法以衛(wèi)星圖像取代街景圖像作為輸入圖像的新方式,經(jīng)實驗證實可有效降低街景圖采集位置與視角不統(tǒng)一造成的偏差;針對已有研究注重指標中的某一方面而忽略全面評估的情況,提出將非圖像型數(shù)據(jù)與圖像型數(shù)據(jù)提取的特征進行融合,綜合多種數(shù)據(jù)形式對城市街區(qū)各項與品質(zhì)有關(guān)的因素進行全面表征;使用樸素隨機過采樣方法削弱真實數(shù)據(jù)集的不平衡性對模型訓練的影響,同時使用隨機森林作為分類器,利用隨機森林能有效降低過擬合的可能性,中和樸素隨機過采樣容易過擬合的問題。
未來的工作將進一步對圖像特征進行挖掘,在數(shù)值特征和圖像特征數(shù)量增加的情況下,提出更有效的多模態(tài)特征融合方法。