唐忠林,許盛宏,譚志遠
基于大數(shù)據(jù)對運營商基站覆蓋中心點的預測及對比分析
唐忠林,許盛宏,譚志遠
(中國電信股份有限公司廣東研究院,廣東 廣州 510630)
為深入了解運營商的網(wǎng)絡覆蓋程度,提升網(wǎng)絡資源投放效率,通過Mean-Shift算法對基站的MR數(shù)據(jù)做首次聚類分析,預測出局部最優(yōu)的基站覆蓋中心點,再用DBSCAN算法預測出全局最優(yōu)的基站覆蓋中心點。在此基礎上分析三大運營商基站小區(qū)在地理位置上的部署密集程度,從而獲得每個運營商的網(wǎng)絡熱點區(qū)域分布,為網(wǎng)絡規(guī)劃和智慧網(wǎng)優(yōu)提供全方位的分析方法。
MR Mean-Shift DBSCAN 聚類算法
隨著大數(shù)據(jù)時代的發(fā)展,人們對LBS(Location Based Services,基于位置服務)的需求也快速增長,無線定位技術(shù)逐步得到重視,位置服務已經(jīng)成為一種熱門的技術(shù)。輔助GPS(AGPS)定位技術(shù)結(jié)合了GPS定位和蜂窩基站定位的優(yōu)勢,借助蜂窩網(wǎng)絡的數(shù)據(jù)傳輸功能,可以快速精準地定位,在移動設備尤其是手機終端中被廣泛使用[1]。運營商通過更新4G網(wǎng)絡主設備網(wǎng)管,即新增輔助GPS和異網(wǎng)檢測功能,實現(xiàn)了基站MR(Measurement Report,測量報告)數(shù)據(jù)版本升級。在新的數(shù)據(jù)源中不僅能夠獲取到精確的GPS地理信息,同時異網(wǎng)檢測功能也可以針對其他運營商網(wǎng)絡覆蓋強度進行周期測量,從而解決了當前MR應用過程中定位精度不足和只能評估本網(wǎng)絡覆蓋情況的局限[2]。通過本次研究,可以有效拓展MR的分析能力,針對三網(wǎng)(中國移動、中國電信、中國聯(lián)通)的覆蓋情況進行對比分析。
本文通過對輔助GPS數(shù)據(jù)的挖掘分析,預測出運營商的基站覆蓋中心點,可以實現(xiàn)運營商之間的網(wǎng)絡可持續(xù)化對比,為解決傳統(tǒng)三網(wǎng)對比測試樣本不充足、對比不全面的問題提供一種有效解決方案。
以基站采集到的終端測量報告作為數(shù)據(jù)源,并將數(shù)據(jù)源按頻點和PCI(Physical Cell Identifier,物理小區(qū)標識)進行分組,對分組后的每組數(shù)據(jù)用Mean-Shift(偏移均值向量算法)算法做首次密度聚類[3-4],找到局部最優(yōu)的基站覆蓋中心點。結(jié)合專業(yè)的業(yè)務背景知識,對局部基站覆蓋中心點用DBSCAN算法做二次聚類,找到全局最優(yōu)的基站覆蓋中心點[5-8]。最后用本網(wǎng)的主覆蓋小區(qū)來驗證所預測出來的基站覆蓋中心點的正確性。具體流程如圖1所示:
圖1 運營商基站覆蓋中心點預測流程
本模型采用中國電信全省MR的輔助GPS相關數(shù)據(jù),主要包括:各運營商的頻點、PCI、用戶個人上報的百度經(jīng)緯度、地市、中國電信主服務小區(qū)百度經(jīng)緯度等屬性,并對每條記錄中的異常數(shù)據(jù)、無效數(shù)據(jù)進行了清洗。
為減少鄰區(qū)等干擾因素影響模型的準確度,本模型只提取了室外且相距主服務小區(qū)1 km以內(nèi)的MR記錄。
Mean-Shift算法是一個迭代的過程。對于d維空間的N個樣本點,首先隨機選擇一個點,并以這個點為圓心、以R為半徑做一個d維的高維球,落在這個球內(nèi)的所有樣本點和圓心都會產(chǎn)生一個向量,每個向量都以圓心為起點、以球內(nèi)的樣本點為終點,計算出球內(nèi)所有向量的和,最終得出Mean-Shift向量。再以Mean-Shift向量的終點為圓心重復上述步驟。由同起點向量求和法則可知,Mean-shift向量最終將收斂到概率密度最大的區(qū)域[9]。
Mean-Shift向量的基本形式如下:
其中,x為空間中任意一點;D表示在N個樣本點xi中有D個點落在SD區(qū)域中。
Mean-Shi ft算法的偽代碼思想如下:
(1)隨機選擇一點為中心點,固定一個窗口,計算出Mean-Shift向量;
(2)判斷是否達到收斂,若收斂則終止,否則執(zhí)行第(3)步;
(3)以Mean-Shift向量的終點為新的中心,重復上述步驟[10]。
由于獲取到的用戶輔助GPS數(shù)據(jù)呈現(xiàn)出無規(guī)律分布,因此采用基于概率密度的Mean-Shift算法進行聚類分析。該算法忽略了數(shù)據(jù)源中的異常值,每次只對窗口內(nèi)局部數(shù)據(jù)進行計算,計算完成后再移動窗口。
本模型首先以中國電信的數(shù)據(jù)作訓練集,以頻點和PCI作為分組條件,分別把具有相同頻點和PCI的個人上報百度經(jīng)緯度進行聚類。經(jīng)過多次模型訓練并結(jié)合業(yè)務實際,本模型最終設置的Mean-Shift窗寬系數(shù)為0.02,聚類得到多個同一頻點和PCI下多個基站覆蓋中心經(jīng)緯度。
預測中國電信室外的基站覆蓋中心點有159 284個,將預測出來的覆蓋中心點經(jīng)緯度與中國電信MR數(shù)據(jù)本身提供的小區(qū)百度經(jīng)緯度在百度地圖上作距離對比。結(jié)果表明,對于廣州市區(qū)統(tǒng)計出基站覆蓋中心點有80.3%落在主覆蓋小區(qū)對應方向角附近150 m以內(nèi),但在同一頻點和PCI下有部分預測的基站覆蓋中心點相距較近。結(jié)合專業(yè)的業(yè)務知識,運用區(qū)域聚類算法DBSCAN進行二次聚類,將屬于同頻點同PCI且相距較近的基站覆蓋中心點聚為一個新中心點。
DBSCAN是一種基于高密度連通區(qū)域的聚類算法,能夠?qū)⒕哂凶銐蚋呙芏鹊膮^(qū)域劃分為簇。該算法需要兩個核心的參數(shù):一個參數(shù)是半徑,表示以給定點P為中心的圓形鄰域的范圍;另一個參數(shù)是以點P為中心的鄰域內(nèi)最少點的數(shù)量[11]。
基于本模型需求和專業(yè)的業(yè)務知識,模型設置的半徑為200 m,鄰域內(nèi)最少點數(shù)量設置為1,從而可以將具有相同頻點和PCI且距離較近的基站覆蓋中心點聚類成一個新的中心點。
將基站覆蓋中心點經(jīng)緯度與中國電信MR數(shù)據(jù)提供的小區(qū)經(jīng)緯度作距離核對,該模型預測出中國電信室外共有155 244個基站覆蓋中心點。對于廣州市區(qū)統(tǒng)計出基站覆蓋中心點有83.6%落在主覆蓋小區(qū)對應方向角附近150 m以內(nèi),符合實際業(yè)務規(guī)則。
DBSCAN算法的偽代碼思想如下:
(1)選取鄰域半徑為200 m,鄰域內(nèi)最少點數(shù)為1;
(2)隨機選取一點為中心點,計算相同頻點和PCI下的主覆蓋小區(qū)中心點的距離,若滿足條件,則加入該鄰域,并以新加入的點為中心判斷其余點是否滿足條件,直到遍歷完所有點,計算出該鄰域新的中心點,并把屬于該鄰域的點從原數(shù)據(jù)中刪除;
(3)從剩余的點中隨機選取一點為新的中心,重復第(2)步直到原數(shù)據(jù)中所有點都被重新歸類完畢為止。
通過上述模型,采用相同的方法可以預測出異網(wǎng)基站覆蓋中心點的位置及其數(shù)量,預測出運營商A室外有231 948個基站覆蓋中心點、運營商B室外有92 668個基站覆蓋中心點。將三家運營商的基站覆蓋中心點預測結(jié)果顯示在百度地圖上,以廣州兩個區(qū)域Ⅰ、Ⅱ為例,具體如圖2和圖3所示:
圖2 區(qū)域Ⅰ運營商基站覆蓋中心點對比
圖3 區(qū)域Ⅱ運營商基站覆蓋中心點對比
其中,扇形表示運營商真實的主覆蓋小區(qū)所在的位置;圓形表示用模型預測出來的基站覆蓋中心點所在的位置;黃色表示運營商A、藍色表示運營商B、紅色表示運營商C。
從圖2和圖3可以看出,預測得到的基站覆蓋中心點跟真實的小區(qū)相距較近,能夠直觀地描繪出三家運營商的覆蓋區(qū)域及覆蓋密度。通過這種直觀的比較,不僅可以掌握異網(wǎng)的大致網(wǎng)絡分布,而且也易于了解哪些區(qū)域是本網(wǎng)盲區(qū)、哪些區(qū)域需要加強覆蓋,為網(wǎng)絡建設規(guī)劃和智慧網(wǎng)優(yōu)提供強有力的支撐。
本文通過對MR數(shù)據(jù)的挖掘分析,預測出運營商的基站覆蓋中心點,可以全面掌握運營商主覆蓋小區(qū)的大致分布和覆蓋密度,為全面評估網(wǎng)絡覆蓋程度提供有力支撐,也為掌握異網(wǎng)的網(wǎng)絡規(guī)劃和發(fā)展規(guī)模提供理論依據(jù)。后續(xù)將對全集團的MR數(shù)據(jù)做相同的挖掘分析,為全集團的網(wǎng)絡規(guī)劃、智慧網(wǎng)優(yōu)、優(yōu)化布局提供全方位智能化分析方法,進一步提升網(wǎng)絡資源投放效率。
[1] 左超,耿慶鵬,劉旭峰. 基于大數(shù)據(jù)的電信業(yè)務發(fā)展策略研究[J]. 郵電設計技術(shù), 2013(10): 1-4.
[2] 顧芳,劉旭峰,左超. 大數(shù)據(jù)背景下運營商移動互聯(lián)網(wǎng)發(fā)展策略研究[J]. 郵電設計技術(shù), 2012(8): 21-24.
[3] Ester M, Kriegel H P, Sander J, et al. A density-based algorithm for discovering clusters in large spatial databases with noise[J]. Knowlegdge Discovety Data Mining, 1996: 226-231.
[4] 彭寧嵩,楊杰,劉志,等. Mean-Shift跟蹤算法中核函數(shù)窗寬的自動選取[J]. 軟件學報, 2005,16(9): 1542-1550.
[5] 何中勝,劉宗田,莊燕濱. 基于數(shù)據(jù)分區(qū)的并行DBSCAN算法[J]. 小型微型計算機系統(tǒng), 2006,27(1): 114-116.
[6] 熊忠陽,孫思,張玉芳,等. 一種基于劃分的不同參數(shù)值的DBSCAN算法[J]. 計算機工程與設計, 2005(9): 2319-2321.
[7] 榮秋生,顏君彪,郭國強. 基于DBSCAN聚類算法的研究與實現(xiàn)[J]. 計算機應用, 2004,24(4): 45-46.
[8] 王桂芝. 基于密度聚類分析的相關算法研究[J]. 電腦知識與技術(shù), 2013(30): 6714-6716.
[9] D Comaniciu, P Meer. Mean shift: a robust approach toward feature space analysis[J]. Journal of Image and Signal Processing, 2002,24(5): 603-619.
[10] RT Collins. Mean-shift blob tracking through scale space[J]. Computer Vision and Pattern Recognition,2003: 234.
[11] 韓利釗,錢雪忠,羅靖,等. 基于區(qū)域劃分的DBSCAN多密度聚類算法[J/OL]. [2017-06-14]. http://www.arocmag.com/article/02-2018-06-047.html.★
Prediction and Comparative Analysis on Coverage Center of the Operator’ Base Station Based on Big Data
TANG Zhonglin, XU Shenghong, TAN Zhiyuan
(Guangdong Research Institute of China Telecom Co., Ltd., Guangzhou 510630, China)
In order to deeply acquaint operators’ network coverage level and enhance the deployment of network resources, the fi rst clustering analysis on MR data was done based on Mean-Shift algorithm to predict the locally optimal center of the base station coverage. Then, DBSCAN algorithm was used to predict the globally optimal center of the base station coverage. Based on this, the geographic deployment density of base stations for the major three operators was analyzed to obtain the network hotspot area distribution of each operator. It provides a comprehensive analysis method to the network planning and intelligent network optimization.
MR Mean-Shift DBSCAN clustering algorithm
10.3969/j.issn.1006-1010.2017.22.001
TP312
A
1006-1010(2017)22-0001-04
唐忠林,許盛宏,譚志遠. 基于大數(shù)據(jù)對運營商基站覆蓋中心點的預測及對比分析[J]. 移動通信, 2017,41(22): 1-4.
2017-07-11
袁婷 yuanting@mbcom.cn
唐忠林:工程師,碩士畢業(yè)于華南理工大學,現(xiàn)任職于中國電信股份有限公司廣東研究院,從事大數(shù)據(jù)挖掘、算法模型等工作。
許盛宏:工程師,學士畢業(yè)于重慶郵電學院,現(xiàn)任職于中國電信股份有限公司廣東研究院,從事核心網(wǎng)研究及支撐工作。
譚志遠:工程師,學士畢業(yè)于華南理工大學,現(xiàn)任職于中國電信股份有限公司廣東研究院,從事大數(shù)據(jù)數(shù)據(jù)庫、數(shù)據(jù)平臺管理、云計算等技術(shù)研究及支撐工作。