曾 進(jìn),李皓杰
(中國(guó)聯(lián)合通信股份有限公司重慶市分公司云網(wǎng)接入網(wǎng)運(yùn)營(yíng)中心,重慶 401121)
沿街商鋪是眾多商鋪形式中的一種,指毗鄰街道、擁有臨街鋪面、經(jīng)營(yíng)與老百姓衣食住行相關(guān)產(chǎn)品和服務(wù)的商業(yè)鋪面,通常分布在街道兩側(cè)樓房的底層。隨著現(xiàn)代社會(huì)發(fā)展,沿街商鋪已經(jīng)成為人們?nèi)粘I钪胁豢苫蛉钡囊徊糠?,?duì)城市的經(jīng)濟(jì)發(fā)展、社會(huì)繁榮和生活質(zhì)量的提高具有重要作用。對(duì)于網(wǎng)絡(luò)運(yùn)營(yíng)商來說,沿街商鋪場(chǎng)景具有用戶停留時(shí)間長(zhǎng)、網(wǎng)絡(luò)使用度高、人流密集、用戶價(jià)值高、區(qū)域代表性強(qiáng)、口碑效應(yīng)明顯等特點(diǎn),存在廣闊的市場(chǎng)空間,對(duì)推進(jìn)公司基礎(chǔ)業(yè)務(wù)領(lǐng)域創(chuàng)新發(fā)展具有重要意義。但是,有別于大型商場(chǎng)和超市,沿街商鋪由于縱深大、規(guī)模小、數(shù)量多、分布密,往往沒有針對(duì)性的部署室內(nèi)分布系統(tǒng),僅僅依靠室外宏站無法滿足用戶深度覆蓋需求,存在商業(yè)區(qū)和住宅區(qū)之間不平衡問題,嚴(yán)重影響城市居民生活質(zhì)量。對(duì)運(yùn)營(yíng)商來說,如何精準(zhǔn)洞察沿街商鋪覆蓋問題、以點(diǎn)帶面提升用戶體驗(yàn)是亟待攻克的難題。本文通過研究基于華為云瞰系統(tǒng)的沿街商鋪覆蓋評(píng)估方法,為洞察商鋪網(wǎng)絡(luò)覆蓋問題提供了新的思路,也為城市治理和公共服務(wù)提供了一些有價(jià)值的參考。
當(dāng)前行業(yè)對(duì)于沿街商鋪覆蓋主要有3種評(píng)估方法,如表1 所示。其中“CQT(Call Quality Test)遍歷測(cè)試評(píng)估”和“基于DT(Drive Test)路測(cè)的虛擬評(píng)估”均需要依靠人工測(cè)試來完成,耗時(shí)耗力、效率低、成本高,同時(shí)“基于DT 路測(cè)的虛擬評(píng)估”不能反映用戶室內(nèi)真實(shí)網(wǎng)絡(luò)體驗(yàn),準(zhǔn)確性不足?!盎贛R(Measurement Report,測(cè)量報(bào)告)數(shù)據(jù)評(píng)估”技術(shù)評(píng)估周期長(zhǎng),同時(shí)評(píng)估精度受數(shù)據(jù)質(zhì)量、地圖精度等因素影響,普遍精度不高。因此當(dāng)前迫切需要一種評(píng)估手段,能反映用戶真實(shí)體驗(yàn)的同時(shí)節(jié)省人力資源投入,進(jìn)一步提升沿街商鋪深度覆蓋率和用戶感知。
表1 沿街商鋪現(xiàn)有三種網(wǎng)絡(luò)覆蓋評(píng)估技術(shù)特點(diǎn)對(duì)比
華為通過整合行業(yè)OTT(Over The Top,通過互聯(lián)網(wǎng)向用戶提供各種應(yīng)用服務(wù))和終端性能管理數(shù)據(jù),開發(fā)出“云瞰”服務(wù)解決方案,它具備競(jìng)對(duì)公正、3D定位精準(zhǔn)、覆蓋評(píng)估無損、語音體驗(yàn)地理化精準(zhǔn)評(píng)估等關(guān)鍵能力,如圖1 所示。云瞰系統(tǒng)可將采集的樓宇MR 覆蓋信息與終端進(jìn)入樓宇時(shí)的當(dāng)前Wi-Fi、氣壓等信息進(jìn)行關(guān)聯(lián),形成增強(qiáng)型MR,并上報(bào)至終端云數(shù)據(jù)平臺(tái),支撐運(yùn)營(yíng)商對(duì)整體、樓宇、道路等場(chǎng)景以進(jìn)行網(wǎng)絡(luò)質(zhì)量和體驗(yàn)的洞察分析。
圖1 華為云瞰系統(tǒng)整體流程
本文研究探索了基于華為云瞰樓宇級(jí)覆蓋數(shù)據(jù)的二次定位方法,構(gòu)建了從云瞰樓宇數(shù)據(jù)清洗→沿街商鋪數(shù)據(jù)定位→沿街商鋪三維建?!亟稚啼伕采w評(píng)估模型構(gòu)建與校正的覆蓋評(píng)估體系,具體實(shí)現(xiàn)思路如圖2所示。首先對(duì)云瞰樓宇數(shù)據(jù)進(jìn)行清洗,將不包含商鋪特征信息的OTT 數(shù)據(jù)篩除,并對(duì)該部分?jǐn)?shù)據(jù)進(jìn)行算法定位,得到沿街商鋪增強(qiáng)型MR 采樣信息;結(jié)合爬取的商鋪POI 信息構(gòu)建沿街商鋪3D 模型,對(duì)落入3D 模型的采樣點(diǎn)進(jìn)行覆蓋評(píng)估;最后引入線性回歸算法,將未落入模型的樣本根據(jù)影響因子賦予相應(yīng)權(quán)重,用以校正評(píng)估模型,大大提升了覆蓋評(píng)估效率和精準(zhǔn)度。
圖2 基于云瞰的沿街商鋪覆蓋評(píng)估思路
基于華為云瞰系統(tǒng),可以采集全重慶樓宇級(jí)MR采樣數(shù)據(jù),其中包含商場(chǎng)、商鋪、寫字樓、停車場(chǎng)等數(shù)據(jù)。利用云瞰系統(tǒng)數(shù)據(jù)進(jìn)行二次清洗,將云瞰樓宇級(jí)采樣點(diǎn)中包含商鋪特征的視為有效采樣點(diǎn),其余數(shù)據(jù)視為臟數(shù)據(jù),清洗出樓宇級(jí)內(nèi)的商鋪有效樣本。云瞰樓宇商鋪數(shù)據(jù)清洗流程如圖3 所示。
圖3 云瞰樓宇商鋪數(shù)據(jù)清洗流程
云瞰樓宇商鋪數(shù)據(jù)清洗過程如下:①對(duì)云瞰原始樓宇數(shù)據(jù)數(shù)據(jù)進(jìn)行采集和存儲(chǔ)。此步驟收集的原始采樣點(diǎn)數(shù)據(jù)包括樓宇區(qū)域內(nèi)高層、商鋪、地下車庫等全部區(qū)域,數(shù)據(jù)內(nèi)容包含用戶MR 覆蓋信息及業(yè)務(wù)特征信息。②收集沿街商鋪特征。沿街商鋪特征信息主要體現(xiàn)在用戶被動(dòng)采集的數(shù)據(jù)中是否包含面向商戶的微信/支付寶支付信息。③對(duì)采集的數(shù)據(jù)進(jìn)行清洗。提取原始數(shù)據(jù)中包含商鋪特征信息的采樣點(diǎn),通過此特征篩除非商鋪采樣點(diǎn)。④商鋪數(shù)據(jù)存儲(chǔ)。通過本地?cái)?shù)據(jù)庫存儲(chǔ)包含商鋪特征信息的采樣點(diǎn)[1]。
商鋪數(shù)據(jù)清洗采用萊茵達(dá)準(zhǔn)則(3σ準(zhǔn)則),在95%或99.7%的置信概率下,以采集數(shù)據(jù)標(biāo)準(zhǔn)偏差的3 倍作為誤差判斷的標(biāo)準(zhǔn)進(jìn)行判斷,如果數(shù)據(jù)大于該標(biāo)準(zhǔn),則判定為誤差較大的數(shù)據(jù)不在隨機(jī)誤差之內(nèi)。這類誤差較大的數(shù)據(jù)即為系統(tǒng)中的異常數(shù)據(jù),需要在清洗時(shí)進(jìn)行刪除,具體算法如下:對(duì)于采集到的數(shù)據(jù)x1、x2…x n,先計(jì)算其算數(shù)平均數(shù)和誤差vi=xi-可以求得標(biāo)準(zhǔn)差為1;當(dāng)時(shí),認(rèn)為xi為異常值,即不包含商鋪特征信息的值,應(yīng)剔除;當(dāng)xi為正常數(shù)據(jù),進(jìn)行保留,經(jīng)過清洗便得到包含商鋪特征信息的采樣點(diǎn)數(shù)據(jù)[2]。
清洗好云瞰采樣點(diǎn)數(shù)據(jù)后,需要進(jìn)一步完成高度定位以滿足后續(xù)沿街商鋪內(nèi)覆蓋評(píng)估精確度要求。根據(jù)現(xiàn)場(chǎng)調(diào)研,重慶沿街商鋪主要分布在道路兩旁樓房底層,樓層數(shù)量為1—2 層,平均高度為10 m,考慮MR 采樣點(diǎn)數(shù)據(jù)誤差,對(duì)數(shù)據(jù)定位設(shè)置5 m 高度偏置,即認(rèn)為15 m 以上的商鋪采樣點(diǎn)屬于無效商鋪采樣點(diǎn)。采用的主要定位算法有2 種:①基于位置指紋的Wi-Fi定位算法,該算法定位準(zhǔn)確度較高,為優(yōu)先使用的定位算法;②基于氣壓信息的定位方法,在沒有Wi-Fi 信息時(shí),使用終端自帶氣壓傳感器信息完成數(shù)據(jù)高度定位[3]。
3.2.1 基于位置指紋的Wi-Fi 定位算法
設(shè)備在開啟Wi-Fi 的情況下,即可掃描并收集周圍的AP(Access Point,接入點(diǎn))信號(hào),無論是否加密、是否已連接,甚至信號(hào)強(qiáng)度不足以顯示在無線信號(hào)列表中,都可以獲取到AP 廣播出來的MAC(Media Access Control,硬件位置)地址?;谖恢弥讣y的Wi-Fi 定位算法如圖4 所示。將采樣點(diǎn)中這些能夠標(biāo)示AP 的信息(包含終端Wi-Fi 的多徑結(jié)構(gòu)及接收功率等信號(hào)特征)與云瞰平臺(tái)Wi-Fi 信號(hào)位置信息指紋庫進(jìn)行比對(duì),可以確定采樣點(diǎn)在樓宇內(nèi)的相對(duì)高度,進(jìn)一步篩選出沿街商鋪的有效采樣點(diǎn)。
圖4 基于位置指紋的Wi-Fi 定位算法示意圖
采樣點(diǎn)數(shù)據(jù)位置指紋獲?。簭牟蓸狱c(diǎn)數(shù)據(jù)中分離Wi-Fi 定位的關(guān)鍵字段形成位置指紋。
采樣點(diǎn)數(shù)據(jù)定位:通過加權(quán)KNN(K-Nearest Neighbor)算法進(jìn)行指紋匹配定位,在位置指紋數(shù)據(jù)庫中選擇多個(gè)(K≥2)合適的離線位置指紋[4],求多個(gè)(K≥2)離線位置指紋的橫縱坐標(biāo),并求平均值,得到帶高度的采樣點(diǎn)定位信息,即:
3.2.2 基于氣壓信息的定位算法
依據(jù)大氣壓值會(huì)隨海拔高度增加而減小的物理規(guī)律,建立氣壓高度模型,如圖5 所示。通過不同氣壓值的高度變化,可以計(jì)算終端采樣點(diǎn)在樓宇內(nèi)的相對(duì)高度,進(jìn)一步篩選出沿街商鋪的有效采樣點(diǎn)。
圖5 基于氣象信息的定位算法示意圖(單位:hPa)
采樣點(diǎn)氣壓信息獲?。簭牟蓸狱c(diǎn)數(shù)據(jù)中分離氣壓傳感器信息關(guān)鍵字段,形成氣壓信息。
采樣點(diǎn)海拔高度計(jì)算:根據(jù)接采樣點(diǎn)中的氣壓信息,使用標(biāo)準(zhǔn)大氣模型來計(jì)算用戶的海拔高度,在具體應(yīng)用中使用的公式為具體實(shí)現(xiàn)算法,即:
式(2)中:h為待定位目標(biāo)的海拔高度;h0為基準(zhǔn)點(diǎn)海拔高度;tm為2 個(gè)等壓面P0和P之間的平均攝氏溫度;P0為基準(zhǔn)點(diǎn)氣壓;P為待定位目標(biāo)所在位置的氣壓;t0為基準(zhǔn)點(diǎn)溫度;t為測(cè)量的溫度。
地面氣壓分布一般在970~1 040 hPa,將P0賦值為1 000 hPa,h0為云瞰平臺(tái)收集的基準(zhǔn)點(diǎn)海拔高度,t0為20 ℃,則計(jì)算采樣點(diǎn)海拔高度的表達(dá)式變?yōu)椋?/p>
采樣點(diǎn)相對(duì)高度計(jì)算:根據(jù)計(jì)算得到的采樣點(diǎn)海拔高度度信息h,結(jié)合云瞰系統(tǒng)采集的每個(gè)樓宇底層海拔高度h1,可以計(jì)算得出到每個(gè)采樣點(diǎn)相對(duì)于樓宇的相對(duì)高度h2,并將帶相對(duì)高度的采樣點(diǎn)定位信息存儲(chǔ)于云瞰服務(wù)器[3],可得h2=h-h(huán)1。
通過高德地圖API(Application Program Interface,應(yīng)用程序接口),爬取重慶市商鋪級(jí)POI 信息,生產(chǎn)重慶沿街商鋪二維平面圖層,結(jié)合重慶沿街商鋪平均高度10 m 進(jìn)行三維切片建模,具體實(shí)現(xiàn)步驟如圖6 所示。
圖6 沿街商鋪三維建模流程
POI 數(shù)據(jù)爬?。菏紫?,使用高德地圖提供的API接口,以GET 方式請(qǐng)求商鋪數(shù)據(jù),然后將返回的JSON(JavaScript Object Notation,一種輕量級(jí)的數(shù)據(jù)交互格式)數(shù)據(jù)解析為Python(計(jì)算機(jī)編程語言)對(duì)象,使用json.loads()函數(shù)將JSON 數(shù)據(jù)解析為Python 對(duì)象,生成POI 信息表。
解析JSON 數(shù)據(jù):提取所需的POI 信息。使用Python 的json 模塊處理JSON 數(shù)據(jù),提取所需的POI信息,如名稱、地址、類型、評(píng)分等。
POI 數(shù)據(jù)解析和存儲(chǔ):使用BeautifulSoup 庫對(duì)HTML(超文本標(biāo)記語言)文檔進(jìn)行解析,提取商鋪信息,將提取的POI 數(shù)據(jù)存儲(chǔ)到本地?cái)?shù)據(jù)庫中。
沿街商鋪三維建模:使用云瞰平臺(tái)的E3DX 模塊,將商鋪級(jí)POI 數(shù)據(jù)以及上文分析得到高度進(jìn)行3D 建模渲染,得到如圖7 所示的商鋪級(jí)3D 模型。
圖7 沿街商鋪三維建模渲染示意圖
基于重慶主城區(qū)商鋪級(jí)3D 模型,結(jié)合沿街商鋪數(shù)據(jù)清洗和定位結(jié)果,構(gòu)建沿街商鋪覆蓋評(píng)估模型,如圖8 所示。落入商鋪3D 模型的采樣點(diǎn)為有效采樣點(diǎn),對(duì)該部分有效采樣點(diǎn)的網(wǎng)絡(luò)覆蓋情況加權(quán)平均得到商鋪覆蓋情況,基于這種方法可以對(duì)沿街商鋪進(jìn)行覆蓋評(píng)估。
圖8 沿街商鋪有效采樣點(diǎn)示意圖
由于沿街商鋪移動(dòng)網(wǎng)絡(luò)無線環(huán)境復(fù)雜,為驗(yàn)證該覆蓋評(píng)估方法的準(zhǔn)確性,研究小組在重慶主城9 區(qū)各抽選350 個(gè),共計(jì)3 150 個(gè)研究商鋪進(jìn)行人工CQT 遍歷測(cè)試。
將模型評(píng)估結(jié)果與人工測(cè)試結(jié)果進(jìn)行對(duì)比,若同一商鋪2 種評(píng)估方法得到的覆蓋差異在±5 dB 內(nèi),則認(rèn)為該商鋪覆蓋評(píng)估準(zhǔn)確,反之則不準(zhǔn)確,最后統(tǒng)計(jì)評(píng)估準(zhǔn)確商鋪的數(shù)量占比,目標(biāo)要求達(dá)到90%以上。具體檢驗(yàn)過程如表2 所示。
表2 沿街商鋪覆蓋預(yù)評(píng)估準(zhǔn)確率比較試驗(yàn)內(nèi)容表
試驗(yàn)統(tǒng)計(jì)結(jié)果如圖9 所示,覆蓋評(píng)估準(zhǔn)確的沿街商鋪共有1 958 個(gè),評(píng)估準(zhǔn)確率僅為62.16%,與預(yù)期目標(biāo)要求差距較大。
圖9 3 150 個(gè)沿街商鋪覆蓋評(píng)估結(jié)果統(tǒng)計(jì)
為進(jìn)一步校正調(diào)優(yōu)覆蓋評(píng)估模型,消除差異,提升評(píng)估精準(zhǔn)性,對(duì)3 150 個(gè)沿街商鋪預(yù)評(píng)估結(jié)果進(jìn)行分析,評(píng)估準(zhǔn)確率低的主要原因如下:①預(yù)評(píng)估模型中只將落入商鋪模型的采樣點(diǎn)作為有效評(píng)估采樣數(shù)據(jù),其余數(shù)據(jù)一刀切為無效數(shù)據(jù),很大程度上減少了評(píng)估樣本量;②高德地圖爬取的POI 也存在一定誤差,導(dǎo)致約23%的商鋪有效采樣點(diǎn)在3D 模型以外,使得該評(píng)估方法與實(shí)際有較大差異。
因此,通過線性回歸算法對(duì)沿街商鋪覆蓋評(píng)估模型進(jìn)行校正,對(duì)沿街商鋪的采樣點(diǎn)賦予影響因子,如圖10 所示。將商鋪場(chǎng)景模型內(nèi)的采樣點(diǎn)影響因子權(quán)重設(shè)置為X0,將場(chǎng)景模型外的采樣點(diǎn)根據(jù)到場(chǎng)景邊框的不同距離β設(shè)置影響因子權(quán)重為X1、X2…XM,從而擴(kuò)大有效樣本量,提升評(píng)估精準(zhǔn)度。
圖10 沿街商鋪覆蓋評(píng)估MR 采樣點(diǎn)校正示意圖
具體線性回歸校準(zhǔn)步驟如下。
3.5.1 線性回歸模型選擇
采用的線性回歸模型函數(shù)表達(dá)式為:
式(3)中:y⌒為模型輸出的預(yù)估值,即實(shí)際覆蓋評(píng)估值;β0…βm為預(yù)測(cè)系數(shù),即模型外采樣點(diǎn)數(shù);m為所使用自變量x的總數(shù)。
3.5.2 線性回歸模型訓(xùn)練
在線性回歸算法中,擁有多個(gè)模型評(píng)估的判斷指標(biāo),在對(duì)覆蓋模型校正時(shí),主要使用均方誤差(MSE,Mean Squared Error)以及決定系數(shù)(R2)的值進(jìn)行最終線性模型準(zhǔn)確度的評(píng)估,以確定相關(guān)聯(lián)自變量x的選擇與使用。該過程主要分為以下3 步。
第一步:計(jì)算決定系數(shù)(R2),它是一種用來反映因變量的波動(dòng)有多少百分比可被自變量的波動(dòng)所描述,決策系數(shù)(R2)值越高則表明模型越好,應(yīng)用所有的自變量,依據(jù)(R2)值選擇最優(yōu)的自變量進(jìn)行線性回歸模型的搭建,最終得到最優(yōu)自變量為采樣點(diǎn)到模型距離,計(jì)算表達(dá)式為:
第二步:計(jì)算均方誤差,它是反映估計(jì)值與被估計(jì)值之間差異程度的一種度量,均方誤差MSE 的值越小,表明模型所輸出的預(yù)測(cè)值與實(shí)際值間的誤差越小,準(zhǔn)確度則越高。首先,基于得到的R2值,即采樣點(diǎn)到模型距離,選擇相對(duì)較優(yōu)的自變量進(jìn)行多元線性模型的搭建,計(jì)算均方誤差MSE 值;其次,將應(yīng)用所有的自變量到多元線性回歸模型中,計(jì)算均方誤差MSE 并與之前選取部分自變量的所得的MSE 值進(jìn)行比較討論[4],計(jì)算表達(dá)式為:
第三步:通過以上線性回歸模型評(píng)估得到在3D 模型外的采樣點(diǎn)區(qū)間影響因子的合理配置,具體結(jié)果如表3 所示。
表3 未落入沿街商鋪模型內(nèi)的采樣點(diǎn)影響因子
3.5.3 模型校準(zhǔn)效果檢驗(yàn)
3.5.3.1 原試驗(yàn)場(chǎng)景評(píng)估檢驗(yàn)
利用校準(zhǔn)后的覆蓋評(píng)估模型再次對(duì)之前選取的3 150 個(gè)商鋪進(jìn)行覆蓋評(píng)估,如圖11 所示。校準(zhǔn)后評(píng)估準(zhǔn)確率明顯改善,評(píng)估準(zhǔn)確的商鋪增加了947 個(gè),覆蓋評(píng)估準(zhǔn)確率由62.16%提升至92.22%,達(dá)到預(yù)期目標(biāo)。
圖11 校準(zhǔn)后評(píng)估準(zhǔn)確率分析圖(原3 150 個(gè)商鋪)
3.5.3.2 新場(chǎng)景評(píng)估檢驗(yàn)
為確保評(píng)估方法同樣適用于其余商鋪,將評(píng)估范圍擴(kuò)展至整個(gè)重慶區(qū)域,共抽選了5 300 個(gè)沿街商鋪重新進(jìn)行覆蓋評(píng)估和現(xiàn)場(chǎng)測(cè)試,如圖12 所示。評(píng)估準(zhǔn)確的商鋪共有5 023 個(gè),準(zhǔn)確率為94.77%,同樣達(dá)到預(yù)期目標(biāo)。
圖12 校準(zhǔn)后評(píng)估準(zhǔn)確率分析圖(新的5 300 個(gè)商鋪)
經(jīng)過對(duì)8 450 個(gè)沿街商鋪的評(píng)估結(jié)果對(duì)比分析,證明了基于云瞰的沿街商鋪覆蓋評(píng)估方法準(zhǔn)確率能保持在90%以上,將此方法用于全重慶沿街商鋪的覆蓋評(píng)估是完全可行的。
通過對(duì)云瞰系統(tǒng)樓宇覆蓋數(shù)據(jù)進(jìn)行二次開發(fā),構(gòu)建沿街商鋪覆蓋評(píng)估的新方法,經(jīng)驗(yàn)證其評(píng)估準(zhǔn)確率達(dá)90%以上,采用高效且準(zhǔn)確的商鋪評(píng)估手段,大幅節(jié)約運(yùn)營(yíng)商人工評(píng)估成本,有效提升沿街商鋪的深度覆蓋水平,改善用戶體驗(yàn),達(dá)到提質(zhì)降本增效目的。同時(shí),為后續(xù)同類場(chǎng)景網(wǎng)絡(luò)評(píng)估提供了更多可借鑒的選擇,為攻堅(jiān)深度覆蓋難點(diǎn)提供了更多的解決方案。