辛洪波, 儲琳琳, 顧志銘
(1. 復(fù)旦大學(xué) 計算機科學(xué)技術(shù)學(xué)院, 上海 200433; 2. 國網(wǎng)上海市電力公司 市南供電公司, 上海 200233)
城市規(guī)劃發(fā)展是電力系統(tǒng)進行中長期負(fù)荷預(yù)測的重要依據(jù)[1-2],而相關(guān)規(guī)劃圖紙資料則是進行負(fù)荷預(yù)測的基礎(chǔ)性資料.然而,電力設(shè)計部門獲得的城市規(guī)劃資料多是PDF格式的電子文檔或紙質(zhì)文檔.在實際的應(yīng)用與分析過程中,圖紙內(nèi)容的資料給數(shù)字化應(yīng)用以及數(shù)據(jù)的分析和整理帶來了一定的困難.因此,利用計算機技術(shù)對圖紙內(nèi)容進行智能識別具有重要意義.
圖紙資料一般由圖像和文字構(gòu)成,圖像處理、字符識別等技術(shù)手段是實現(xiàn)圖紙信息化的重要方法.彩色圖像分割技術(shù)作為圖像信息提取的關(guān)鍵技術(shù),在各行各業(yè)受到了廣泛關(guān)注[3-4].于藝銘等[5]針對圖像過分割問題,采用領(lǐng)域灰度值相匹配原則提出了一種基于Lab分通道直方圖的彩色圖像分割算法;任大勇等[6]針對分水嶺圖像分割算法中的缺陷,通過引入位圖切割的方法,實現(xiàn)了在邊緣模糊處的準(zhǔn)確切割;呂雪等[7]研究了最小化能量函數(shù)和Canny算子邊緣檢測技術(shù)在圖像自動分割中的應(yīng)用;朱占龍等[8]采用對模糊C均值聚類算法的目標(biāo)函數(shù)引入總隸屬度的方法,實現(xiàn)了對無損檢測圖像的有效分割,并增強算法的魯棒性.
目前圖像分割算法的應(yīng)用研究多是在經(jīng)典圖像處理算法的基礎(chǔ)上,針對各個專業(yè)的應(yīng)用需求進行改進和優(yōu)化[9-11].為了解決城市規(guī)劃圖紙中圖像識別與提取問題,并以此為基礎(chǔ)建立基于空間信息的電力系統(tǒng)負(fù)荷預(yù)測模型[12],本文提出了一種基于改進的模糊C均值聚類算法的城市規(guī)劃圖紙智能識別技術(shù),并通過建立用地性質(zhì)與歷史負(fù)荷之間的映射關(guān)系,實現(xiàn)了基于用地規(guī)劃智能識別的電力系統(tǒng)中長期負(fù)荷預(yù)測.
圖紙內(nèi)容的自動化識別包含了圖像預(yù)處理、特征提取、要素的形態(tài)分析、文字識別、語義理解等多個方面[13].由城市規(guī)劃圖紙的特征可知,彩色信息在城市規(guī)劃圖紙中占據(jù)著重要地位,直接表征了不同地塊的用地性質(zhì).如何得到一個清晰、完整的分割圖像和其用地性質(zhì)是進行電力系統(tǒng)負(fù)荷預(yù)測的關(guān)鍵.
模糊C均值聚類算法(FCM)是一種經(jīng)典的彩色圖像分割算法,其基本原理是通過對隸屬度矩陣和聚類中心向量的不斷迭代使得目標(biāo)函數(shù)值最小,進而完成圖像區(qū)域內(nèi)各個像素點的聚類[14-15].
假設(shè)X={x1,x2,…,xN}為待分類樣本集合,N為樣本總數(shù),將所有樣本一共分為C類,則算法的目標(biāo)函數(shù)采用類內(nèi)加權(quán)誤差平方和的方式定義,其表達式為
(1)
式中:dik為第i個樣本和第k個聚類中心之間的差異,可用歐式距離來表示;uik為第i個樣本屬于第k個分類的隸屬度,取值范圍在0~1,其數(shù)值越大,樣本屬于第k個分類的概率就越大;m為加權(quán)指數(shù),取值范圍通常取1.5~2.5,本文取2.對式(1)使用拉格朗日進行近似求解,可以得到隸屬度和聚類中心的迭代公式為
(2)
(3)
經(jīng)典的FCM圖像分割算法,分割過程中依賴于聚類中心,且計算隸屬度時只利用了當(dāng)前像素信息,對噪聲較為敏感,同時沒有考慮到不同類的尺寸大小以及像素點的疏密因素對聚類結(jié)果的影響,因此導(dǎo)致了圖像切割時的誤差較大.
針對FCM算法的缺陷,為了能將其應(yīng)用于規(guī)劃圖紙的聚類分析中,本文提出了以下改進方法,以提高圖像分割效率和準(zhǔn)確度.
1) 為了克服FCM算法在處理不同聚類尺寸以及數(shù)據(jù)疏密時的缺陷,本文重新定義樣本到聚類中心的距離為
(4)
式中,rk為第k個聚類中心的半徑.設(shè)Ak是第k個聚類協(xié)方差陣,計算表達式為
(5)
采用新的距離之后,當(dāng)某一個點位于聚類中心附近時,可以將其與聚類中心歸為同一類.同時該模型考慮了樣本的密集因素,且對不同大小的類均能夠較好地聚類.
2) 為了避免類中心聚集,可以在目標(biāo)函數(shù)中增加對類中心的約束,使得類中心互相遠離.具有類中心約束的FCM算法的目標(biāo)函數(shù)定義為
(6)
式中:M為第i個像素的鄰域像素集;NR為鄰域像素點的個數(shù),本文選擇像素點周圍3×3的區(qū)域作為鄰域像素區(qū);α為控制鄰域項分割結(jié)果的常數(shù).
基于FCM算法的圖像分割步驟如下:
1) 設(shè)置分類個數(shù)C,加權(quán)指數(shù)m,分割控制常數(shù)α以及迭代的終止閾值和迭代上限.
2) 初始化聚類中心向量,并計算更新隸屬度矩陣、類協(xié)方差陣、距離dik和聚類中心的半徑.
3) 若存在dik=0的情況,則令uik=1,其他項的隸屬度為0.
4) 當(dāng)滿足迭代誤差要求或達到迭代上限時,停止迭代;否則,返回步驟2)重新進行計算.
本文以從政府官方網(wǎng)站下載得到的上海市某地區(qū)規(guī)劃圖紙為例進行區(qū)域分割和識別,樣本圖紙及地塊編號如圖1所示.表1為該圖紙中的地塊信息,由圖紙規(guī)劃用地信息可知,規(guī)劃區(qū)域內(nèi)可將其分為8種不同類型的用地性質(zhì),分別用不同的顏色標(biāo)注.
圖1 樣本圖紙及地塊編號Fig.1 Sample drawing and land numbering
表1 樣本圖紙各地塊信息Tab.1 Land information in sample drawings
在采用FCM進行圖像分割的過程中,由于彩色圖像處理的是一組三維數(shù)據(jù),所以運算量較大.在實際處理過程中為了提高運算效率,在進行聚類選擇質(zhì)心時,本文首先將原始圖像壓縮為略縮圖,通過圖紙信息和對略縮圖的聚類分析方式確定初始質(zhì)心.因為在實際操作中,略縮圖是原始圖像數(shù)據(jù)的壓縮,既保留了原有圖像的部分特征,同時又可以提高聚類效率.
對于樣本空間的選擇,本文直接使用RGB值作為待聚類的數(shù)據(jù).在實際計算過程中發(fā)現(xiàn),彩色圖像的數(shù)據(jù)中有較多的像素值是一樣的.為了減少不必要的運算,文中在進行圖像分割之前,首先計算出圖像中實際像素特征值的個數(shù)及其數(shù)量;然后對每一個獨立的像素特征值進行計算,大幅度地提高了計算效率.
以處理圖1所示規(guī)劃設(shè)計圖為例,初始化最大迭代數(shù)為30,分類數(shù)為10.采用從略縮圖中獲取質(zhì)心的方式,若使用原始RGB像素作為特征值,則共耗時約37.85 s;若使用不重復(fù)的RGB像素作為特征值進行聚類分析,則共耗時約15.18 s,圖像處理效率可提升約60%.
硬件平臺采用了第11代i7處理器,16 GB內(nèi)存,CPU頻率為2.5 GHz,最高睿頻4.9 GHz,八核心十六線程.實驗過程中分類個數(shù)和用地類型數(shù)量有關(guān),分割控制常數(shù)α取0.85,迭代終止閾值為1×10-5,最大迭代次數(shù)為100次.
對圖像進行聚類分割過程中,規(guī)劃邊界線的紅色區(qū)域與規(guī)劃區(qū)內(nèi)地塊的紅色標(biāo)識顏色特征值相重合,進行聚類分析時比較容易將兩種符號歸為一類,如圖2所示.由于邊界區(qū)域線具有明顯的輪廓特征,因此可采用邊緣檢測的方式,利用Roberts算子進行邊緣提取,然后將規(guī)劃區(qū)域外的圖像全部用白色像素替代,即可得到無紅色虛線標(biāo)注的規(guī)劃圖紙.
圖2 邊界線聚類結(jié)果Fig.2 Clustering results of boundary lines
為了更直觀地比對兩種算法的分割效果,本文對不同性質(zhì)的地塊分割結(jié)果進行二值化處理.典型地塊的聚類分割結(jié)果如圖3和圖4所示.
圖3 機場用地聚類結(jié)果Fig.3 Clustering results of airport land
圖4 公共綠地聚類結(jié)果Fig.4 Clustering results of public green space
由圖3機場用地的聚類分析結(jié)果可知,當(dāng)圖紙中存在具有相似特征值的像素點時,常規(guī)的FCM聚類算法會將其歸為一類,使得聚類結(jié)果存在較多的噪聲,而優(yōu)化后的FCM算法則有較好的去噪能力.若結(jié)合邊緣檢測技術(shù),即可以完成對目標(biāo)區(qū)域的提取.
由圖4所示的公共綠地聚類結(jié)果可知,由于公共綠地和生產(chǎn)防護綠地的顏色相近,即特征值之間的差異較小,因此常規(guī)的FCM聚類分析方法對其分辨能力較弱,且區(qū)分難度較大;而優(yōu)化后的FCM可以對兩種地塊進行較好地區(qū)分.
為了定量分析兩種算法的聚類效果,本文通過建立像素點個數(shù)與土地面積之間的映射關(guān)系來比對聚類結(jié)果和實際規(guī)劃面積之間的差值,具體結(jié)果如表2所示.由表2中數(shù)據(jù)可知,傳統(tǒng)的FCM聚類算法得到聚類面積與實際規(guī)劃面積誤差在-24.23%~16.33%之間;而改進的FCM算法得到的聚類面積和實際規(guī)劃面積誤差在-6.95%~13.08%之間.對N1-09地塊聚類誤差較大的原因在于該地塊自身面積較小,受第一表面文字遮擋的部分占據(jù)了地塊較大面積,因此對其面積進行準(zhǔn)確估計存在一定困難.此外,采用改進FCM聚類算法對規(guī)劃圖中不同地塊的聚類面積估計的誤差均不大于10%,可以滿足負(fù)荷預(yù)測的應(yīng)用需求.
表2 樣本圖紙聚類結(jié)果Tab.2 Clustering results of sample drawings
電力系統(tǒng)負(fù)荷的快速精準(zhǔn)預(yù)測對于了解電網(wǎng)規(guī)劃建設(shè)具有重要意義.利用規(guī)劃圖紙獲取地塊編號、用地性質(zhì)、建筑面積、容積率、地塊面積等信息后,根據(jù)《國網(wǎng)上海市電力公司配電網(wǎng)網(wǎng)格化規(guī)劃遠景飽和負(fù)荷預(yù)測技術(shù)原則》,可以對各個地塊的負(fù)荷進行計算,進而得到規(guī)劃建設(shè)地區(qū)的負(fù)荷值,以指導(dǎo)電網(wǎng)規(guī)劃和建設(shè).
圖紙中的用地性質(zhì)對負(fù)荷預(yù)測的計算有直接影響,當(dāng)各地塊中含有建筑面積信息時,可使用建筑面積進行負(fù)荷預(yù)測計算,計算表達式為
(7)
式中:S1為地塊建筑面積;λ為負(fù)荷指標(biāo);β為地塊內(nèi)部同時率.
圖紙中無建筑面積信息時,可使用地塊的容積率和用地面積進行負(fù)荷預(yù)測計算,即
(8)
式中:S2為地塊用地面積;γ為負(fù)荷密度.
在無容積率也無建筑面積和用地總面積等信息時,可使用相鄰地塊的同類用地容積率對負(fù)荷進行測算.此外,當(dāng)供電區(qū)域內(nèi)同一用地性質(zhì)負(fù)荷超過80%時,取地塊間的同時率為0.9;當(dāng)負(fù)荷為60%~80%時,取同時率為0.85;當(dāng)負(fù)荷低于60%時,取同時率為0.8.
表3為樣本區(qū)域的負(fù)荷預(yù)測值,由于負(fù)荷預(yù)測問題的超前性,為了實現(xiàn)具有較好適應(yīng)性的電力系統(tǒng)規(guī)劃,負(fù)荷預(yù)測一般需要給出電力負(fù)荷發(fā)展的高、低水平,即表3中負(fù)荷預(yù)測的高方案、低方案.由預(yù)測結(jié)果可知,對于公共用地而言,例如公共綠地或交通用地等,由于其負(fù)荷較低,且基本保持不變,所以預(yù)測準(zhǔn)確率較高.對于其他用地性質(zhì)的負(fù)荷而言,其預(yù)測值的準(zhǔn)確率大于90%.
表3 負(fù)荷預(yù)測結(jié)果Tab.3 Load forecasting results
為了說明文中方案的可行性,在負(fù)荷預(yù)測過程中本文只考慮了用地性質(zhì)和用地面積的因素.實際應(yīng)用過程中,應(yīng)充分考慮各種有用信息,以提高負(fù)荷預(yù)測的準(zhǔn)確率.
本文研究了基于用地規(guī)劃識別技術(shù)的電力系統(tǒng)中長期負(fù)荷預(yù)測方法,主要結(jié)論如下:
采用重新定義樣本到聚類中心的距離和調(diào)整目標(biāo)函數(shù)的方式,可以提高FCM聚類算法在圖像分割中的抗干擾性.在本文所述的實驗條件下,所提出的改進FCM算法得到的聚類面積和實際規(guī)劃面積誤差為-6.95%~13.08%.利用地塊面積以及負(fù)荷指標(biāo)方式得到的負(fù)荷預(yù)測數(shù)值的準(zhǔn)確率平均值約為96.4%,可以滿足電力系統(tǒng)負(fù)荷預(yù)測以及配網(wǎng)建設(shè)的規(guī)劃需求.