潘 暉,齊詠嘉,杭旭峰,姚賽彬,黃久成(中國(guó)聯(lián)通上海分公司,上海 200080)
傳統(tǒng)的道路優(yōu)化采用DT 路測(cè)分析加KPI 指標(biāo)監(jiān)控的方式。DT 路測(cè)分析需要測(cè)試工程師使用專(zhuān)業(yè)的測(cè)試軟件和測(cè)試設(shè)備模擬用戶(hù)使用情況沿一定道路進(jìn)行現(xiàn)場(chǎng)實(shí)地測(cè)試,這種優(yōu)化方式成本高,路測(cè)數(shù)據(jù)樣本量小,具有時(shí)間、地點(diǎn)的隨機(jī)性,無(wú)法模擬真實(shí)用戶(hù)感知。KPI指標(biāo)監(jiān)控是先篩選出定軌道路沿線(xiàn)主控小區(qū)然后進(jìn)行大量KPI 指標(biāo)性能統(tǒng)計(jì),這種方式會(huì)引入大量非定軌道路用戶(hù),同時(shí)也需要投入大量人力物力,準(zhǔn)確性和效率都大打折扣。而高架、高鐵、高速、地鐵等快速道路由于用戶(hù)行駛路線(xiàn)相對(duì)固定且行駛速度相對(duì)較快,對(duì)于用戶(hù)感知的要求更高。此外2G/3G/4G 的多網(wǎng)融合,以及5G 網(wǎng)絡(luò)的垂直應(yīng)用等多方面都對(duì)網(wǎng)絡(luò)優(yōu)化的響應(yīng)支撐能力提出新的挑戰(zhàn)。
為解決傳統(tǒng)路測(cè)優(yōu)化方式固定、周期性長(zhǎng)、工作量大、耗時(shí)等問(wèn)題,網(wǎng)絡(luò)優(yōu)化的智能轉(zhuǎn)型刻不容緩。以上海高架道路為例,根據(jù)最新統(tǒng)計(jì)上海高架日均車(chē)流量已經(jīng)達(dá)到201萬(wàn),面對(duì)如此大的樣本數(shù)量,網(wǎng)絡(luò)優(yōu)化工作能否引入大數(shù)據(jù)分析和AI智能識(shí)別的方式,精準(zhǔn)定位出定軌道路用戶(hù)呢?本文基于真實(shí)定軌道路用戶(hù)的海量業(yè)務(wù)分析,將用戶(hù)感知情況自動(dòng)關(guān)聯(lián)至小區(qū),為網(wǎng)絡(luò)優(yōu)化提供充分?jǐn)?shù)據(jù)依據(jù),將優(yōu)化模式由傳統(tǒng)的線(xiàn)下模式轉(zhuǎn)型為線(xiàn)上模式,從而大幅提高網(wǎng)絡(luò)優(yōu)化效率,有效降低優(yōu)化成本。
本文運(yùn)用用戶(hù)感知識(shí)別算法主要結(jié)合前期全上海定軌道路傳統(tǒng)DT 路測(cè)樣本指紋庫(kù)數(shù)據(jù),通過(guò)自動(dòng)采集上海聯(lián)通移網(wǎng)用戶(hù)的XDR、MR、CDR 等數(shù)據(jù)與指紋庫(kù)進(jìn)行運(yùn)動(dòng)特征判定,并運(yùn)用聚類(lèi)分析方式實(shí)現(xiàn)定軌道路建模和用戶(hù)識(shí)別,通過(guò)Python 進(jìn)行環(huán)境搭建,嵌入PostgreSQL 數(shù)據(jù)庫(kù)應(yīng)用以及KNIME 和Tableau 的大數(shù)據(jù)挖掘和可視化工具,最終實(shí)現(xiàn)定軌道路用戶(hù)感知識(shí)別?;诖髷?shù)據(jù)分析和AI 技術(shù)識(shí)別方式相對(duì)傳統(tǒng)的道路測(cè)試方式數(shù)據(jù)采集效率更高、成本更低、數(shù)據(jù)更豐富,也能更真實(shí)地反映現(xiàn)網(wǎng)用戶(hù)的網(wǎng)絡(luò)感知。
定軌道路用戶(hù)感知識(shí)別是一種典型的聚類(lèi)分析算法應(yīng)用場(chǎng)景。聚類(lèi)就是按照某個(gè)特定標(biāo)準(zhǔn)(如距離準(zhǔn)則)把一個(gè)數(shù)據(jù)集分割成不同的類(lèi)或簇,使得同一個(gè)簇內(nèi)數(shù)據(jù)對(duì)象的相似性盡可能大,同時(shí)不在同一個(gè)簇中的數(shù)據(jù)對(duì)象的差異性也盡可能的大。即聚類(lèi)后同一類(lèi)的數(shù)據(jù)盡可能聚集到一起,不同類(lèi)數(shù)據(jù)盡量分離。
聚類(lèi)技術(shù)通常又被稱(chēng)為無(wú)監(jiān)督學(xué)習(xí),因?yàn)榕c監(jiān)督學(xué)習(xí)不同,在聚類(lèi)中是沒(méi)有那些表示數(shù)據(jù)類(lèi)別的分類(lèi)或分組信息的。
a)聚類(lèi)(Clustering):簡(jiǎn)單地說(shuō)就是把相似的東西分到一組,聚類(lèi)并不關(guān)心某一類(lèi)是什么,只需要把相似的東西聚到一起。因此,一個(gè)聚類(lèi)算法通常只需要知道如何計(jì)算相似度就可以開(kāi)始工作了,因此聚類(lèi)通常并不需要使用訓(xùn)練數(shù)據(jù)進(jìn)行學(xué)習(xí),這在機(jī)器學(xué)習(xí)中被稱(chēng)作無(wú)監(jiān)督學(xué)習(xí)(unsupervised learning)。
b)分類(lèi)(Classification):對(duì)于一個(gè)classifier,通常需要告訴它“這個(gè)東西被分為某某類(lèi)”這樣一些例子,理想情況下,一個(gè)classifier 會(huì)在它得到的訓(xùn)練集中進(jìn)行“學(xué)習(xí)”,從而具備對(duì)未知數(shù)據(jù)進(jìn)行分類(lèi)的能力,這種提供訓(xùn)練數(shù)據(jù)的過(guò)程通常叫做監(jiān)督學(xué)習(xí)(supervised learning)。
定軌道路用戶(hù)識(shí)別由于沒(méi)有足夠多的樣本數(shù)量作為訓(xùn)練集,是一種典型的無(wú)監(jiān)督學(xué)習(xí)的應(yīng)用場(chǎng)景,非常適用聚類(lèi)分析算法。
選定算法以后,需要進(jìn)行定軌道路用戶(hù)數(shù)據(jù)建模,具體實(shí)現(xiàn)步驟如圖1所示。
圖1 數(shù)據(jù)建模
a)對(duì)每個(gè)用戶(hù)的業(yè)務(wù)詳單進(jìn)行排序,然后根據(jù)運(yùn)動(dòng)時(shí)序及站點(diǎn)更新進(jìn)行運(yùn)動(dòng)特征建模。
b)對(duì)建模的數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗和一致性檢查。
c)計(jì)算出每個(gè)用戶(hù)的運(yùn)動(dòng)模型后與特征指紋庫(kù)進(jìn)行比對(duì)聚類(lèi)出定軌道路用戶(hù),最終得出聚類(lèi)模式。
數(shù)據(jù)源方面本文引入了XDR 數(shù)據(jù),數(shù)據(jù)量由以前的每日2 億的語(yǔ)音CDR 數(shù)據(jù)提升至每日80 億的XDR數(shù)據(jù),判斷運(yùn)動(dòng)特征的方法也由傳統(tǒng)KPI 的小時(shí)粒度切片方式升級(jí)為業(yè)務(wù)遍歷方式。最后通過(guò)從全量XDR 數(shù)據(jù)匹配重點(diǎn)道路工參表,運(yùn)用聚類(lèi)算法計(jì)算出每個(gè)用戶(hù)每天的運(yùn)動(dòng)軌跡,判斷用戶(hù)是否為運(yùn)動(dòng)狀態(tài)。
基于移動(dòng)性原理,用戶(hù)在定軌道路移動(dòng)的過(guò)程中會(huì)從一個(gè)位置區(qū)移動(dòng)到另一個(gè)位置區(qū),位置更新的數(shù)據(jù)將被記錄為網(wǎng)絡(luò)側(cè)大數(shù)據(jù)。如果網(wǎng)絡(luò)側(cè)用戶(hù)在短時(shí)間內(nèi)發(fā)生多個(gè)位置區(qū)更新,則將其定義為運(yùn)動(dòng)特征用戶(hù),同時(shí)將位置更新的時(shí)間間隔與定軌道路運(yùn)行時(shí)長(zhǎng)匹配,將定軌道路用戶(hù)從大網(wǎng)用戶(hù)中分離出來(lái)并進(jìn)行聚類(lèi)分析。當(dāng)用戶(hù)每次占用的基站發(fā)生改變,計(jì)算出當(dāng)前與上次轉(zhuǎn)換是否超過(guò)15 min,如果沒(méi)有超過(guò)則運(yùn)動(dòng)繼續(xù),否則此次運(yùn)動(dòng)結(jié)束,基于此算法來(lái)獲取大量的用戶(hù)運(yùn)動(dòng)行程碎片。
得到大量的用戶(hù)運(yùn)動(dòng)碎片之后,首先對(duì)用戶(hù)行程碎片進(jìn)行時(shí)序排列,記錄兩端用戶(hù)碎片時(shí)間。將第1個(gè)運(yùn)動(dòng)碎片占用的最后一個(gè)基站和下一個(gè)運(yùn)動(dòng)碎片占用的第一個(gè)基站進(jìn)行經(jīng)緯度匹配。通過(guò)計(jì)算基站經(jīng)緯度站距與運(yùn)動(dòng)碎片相鄰時(shí)間差的比值得到用戶(hù)運(yùn)動(dòng)速度,如果運(yùn)動(dòng)速度大于30 km/h,則認(rèn)為用戶(hù)在2 個(gè)運(yùn)動(dòng)碎片之間依然保持運(yùn)動(dòng)狀態(tài),兩端用戶(hù)碎片可以合并,最終形成完整的用戶(hù)運(yùn)動(dòng)軌跡和運(yùn)動(dòng)時(shí)間(見(jiàn)圖2)。
圖2 運(yùn)動(dòng)碎片合并
1.5.1 區(qū)塊化切割
如圖3所示,根據(jù)定軌道路和站點(diǎn)路段匝道分布,將上海高速、高架、高鐵、地鐵場(chǎng)景切割為2 263 個(gè)區(qū)塊化路段,其中14 條高架切分成174 條具體區(qū)塊路段。
圖3 高架路段分割圖
1.5.2 指紋庫(kù)識(shí)別
以DT 數(shù)據(jù)作為指紋庫(kù),將區(qū)塊路段按照實(shí)際覆蓋距離進(jìn)行道路路段細(xì)分,如圖4所示。
1.5.3 定軌道路用戶(hù)聚類(lèi)
將實(shí)際業(yè)務(wù)詳單與DT 指紋庫(kù)進(jìn)行匹配,并通過(guò)用戶(hù)運(yùn)動(dòng)軌跡匹配定軌道路軌跡,如果用戶(hù)連續(xù)占用該道路的3 個(gè)路段ID,則將該用戶(hù)聚類(lèi)為該定軌道路路段用戶(hù),例如延安高架道路一共有10個(gè)不同的路段ID(每個(gè)路段ID 對(duì)應(yīng)多個(gè)站點(diǎn)),如果一個(gè)運(yùn)動(dòng)行程中占用大于3 個(gè)路段ID 就判斷他為延安高架用戶(hù),并識(shí)別出其在延安高架上的開(kāi)始、結(jié)束時(shí)間和開(kāi)始、結(jié)束地點(diǎn)。每個(gè)運(yùn)動(dòng)行程會(huì)和所有重點(diǎn)道路做匹配,滿(mǎn)足匹配要求即為該重點(diǎn)道路用戶(hù),如圖5所示。
圖4 DT指紋庫(kù)
定軌道路用戶(hù)需要至少占用3 個(gè)連續(xù)路段,如果少于3 個(gè)路段就進(jìn)行定軌道路識(shí)別,會(huì)引入大量非道路用戶(hù),導(dǎo)致自動(dòng)識(shí)別準(zhǔn)確度下降。例如一個(gè)非定軌道路用戶(hù)在路段A 與路段B 之間通話(huà),他同時(shí)占用路段A 與路段B 的主控基站,該用戶(hù)也會(huì)被聚類(lèi)為定軌道路用戶(hù),導(dǎo)致識(shí)別準(zhǔn)確度下降。
本文的用戶(hù)模型改變了以往傳統(tǒng)時(shí)間切片方式,由業(yè)務(wù)遍歷方式進(jìn)行用戶(hù)畫(huà)像識(shí)別(見(jiàn)圖6)。該技術(shù)以用戶(hù)感知驅(qū)動(dòng)診斷網(wǎng)絡(luò)問(wèn)題關(guān)聯(lián)MR 數(shù)據(jù)和信令數(shù)據(jù),端到端分析定軌道路網(wǎng)絡(luò)感知。
該技術(shù)通過(guò)手機(jī)上報(bào)的GNSS 經(jīng)緯度信息以及相關(guān)優(yōu)化參數(shù),輔助網(wǎng)絡(luò)精準(zhǔn)分析、優(yōu)化,結(jié)合用戶(hù)CDR話(huà)單預(yù)測(cè)用戶(hù)軌跡。對(duì)于室外用戶(hù),利用電子地圖索引和CDR 樣本的軌跡預(yù)測(cè)出用戶(hù)實(shí)際經(jīng)過(guò)的道路,并確認(rèn)用戶(hù)發(fā)生問(wèn)題的精確位置,同時(shí)對(duì)模型識(shí)別用戶(hù)進(jìn)行空間定位,并投射到GIS 中。該技術(shù)通過(guò)對(duì)用戶(hù)問(wèn)題點(diǎn)進(jìn)行匯聚,發(fā)現(xiàn)問(wèn)題路段或用戶(hù)投訴風(fēng)險(xiǎn)路段并進(jìn)行預(yù)警。
圖5 定軌道路匹配
圖6 業(yè)務(wù)級(jí)遍歷模式
通過(guò)用戶(hù)手機(jī)號(hào)碼,實(shí)現(xiàn)定軌道路用戶(hù)與業(yè)務(wù)質(zhì)量、終端數(shù)據(jù)、3G MR、XDR 數(shù)據(jù)關(guān)聯(lián),精準(zhǔn)定位網(wǎng)絡(luò)問(wèn)題(見(jiàn)圖7)。
基于XDR 的用戶(hù)行為模型分析,輔助匹配道路特征指紋庫(kù)及用戶(hù)感知話(huà)單數(shù)據(jù),實(shí)現(xiàn)定軌道路MR 覆蓋和語(yǔ)音感知智能評(píng)估。
由于全網(wǎng)用戶(hù)每天的XDR 數(shù)據(jù)達(dá)到10 億級(jí),需搭建5臺(tái)服務(wù)器進(jìn)行SEQ數(shù)據(jù)處理,每臺(tái)機(jī)器共有100個(gè)分區(qū)表,也就是每臺(tái)機(jī)器都要調(diào)用100次存儲(chǔ)過(guò)程。由于數(shù)據(jù)量龐大,可通過(guò)定時(shí)任務(wù)的方式每天凌晨進(jìn)行數(shù)據(jù)聚類(lèi),每天數(shù)據(jù)處理時(shí)間達(dá)到6 h 以上。最終輸出道路級(jí)、用戶(hù)級(jí)分析結(jié)果。各個(gè)環(huán)節(jié)處理流程如圖8所示。
圖7 多維度數(shù)據(jù)關(guān)聯(lián)
本文介紹的基于XDR 大數(shù)據(jù)分析和AI 技術(shù)的定軌道路用戶(hù)感知識(shí)別技術(shù)通過(guò)對(duì)終端上報(bào)的XDR 信息進(jìn)行精準(zhǔn)定位,結(jié)合電子道路與采樣點(diǎn)擬合技術(shù),突破了傳統(tǒng)的單一終端主干道測(cè)試的模式,實(shí)現(xiàn)全民測(cè)試、全量測(cè)試。該技術(shù)通過(guò)平臺(tái)化自動(dòng)分析處理,快速匯聚問(wèn)題道路,并提供友好界面呈現(xiàn)。目前基于XDR 大數(shù)據(jù)分析和AI 技術(shù)的定軌道路用戶(hù)感知識(shí)別技術(shù)已投入上海聯(lián)通網(wǎng)絡(luò)優(yōu)化中心實(shí)際生產(chǎn)中,通過(guò)可視化大屏可實(shí)現(xiàn)實(shí)時(shí)KPI監(jiān)控和單用戶(hù)感知定位分析,可視化監(jiān)控系統(tǒng)如圖9所示。
用戶(hù)級(jí)感知情況可以在tableau 大屏中通過(guò)SQL語(yǔ)句對(duì)單用戶(hù)行程進(jìn)行查詢(xún),得到如表1所示的結(jié)果。
圖8 數(shù)據(jù)建模執(zhí)行流程圖
基于XDR 大數(shù)據(jù)分析和AI 技術(shù)的定軌道路用戶(hù)感知識(shí)別技術(shù)已納入網(wǎng)絡(luò)優(yōu)化實(shí)際生產(chǎn)中,為優(yōu)化工程師助力提效。
通過(guò)此算法,系統(tǒng)可每日自動(dòng)輸出高掉話(huà)路段、質(zhì)差路段,納入日常優(yōu)化管控表,形成從智能識(shí)別到自動(dòng)診斷再到優(yōu)化閉環(huán)的問(wèn)題點(diǎn)管控機(jī)制。值得一提的是,自動(dòng)識(shí)別出的問(wèn)題點(diǎn)中有些是日常優(yōu)化過(guò)程中未發(fā)現(xiàn)的,這幫助優(yōu)化工程師發(fā)現(xiàn)了網(wǎng)絡(luò)的隱性問(wèn)題。如表2所示,目前經(jīng)過(guò)算法的調(diào)優(yōu)和改進(jìn),系統(tǒng)可日均智能識(shí)別定軌道路用戶(hù)30 000個(gè)以上。
圖9 可視化監(jiān)控系統(tǒng)
表1 單用戶(hù)運(yùn)動(dòng)軌跡查詢(xún)
表2 各路段識(shí)別用戶(hù)數(shù)
自XDR 大數(shù)據(jù)分析和AI 技術(shù)的定軌道路用戶(hù)感知識(shí)別技術(shù)納入網(wǎng)絡(luò)優(yōu)化生產(chǎn)以來(lái),上海聯(lián)通實(shí)現(xiàn)了80%的路測(cè)優(yōu)化自動(dòng)執(zhí)行,且規(guī)范了優(yōu)化方法和手段,大幅提升了網(wǎng)絡(luò)優(yōu)化工作效率。質(zhì)差及高掉話(huà)等用戶(hù)感知隱性問(wèn)題點(diǎn)的發(fā)現(xiàn)及時(shí)率從30%提高到95%,網(wǎng)絡(luò)優(yōu)化效率提升90%,日常優(yōu)化問(wèn)題點(diǎn)覆蓋率達(dá)到90%以上;工作自動(dòng)執(zhí)行可完成率達(dá)到70%以上,節(jié)約了運(yùn)維成本,提高了優(yōu)化效率。目前已累計(jì)識(shí)別用戶(hù)感知類(lèi)優(yōu)化問(wèn)題點(diǎn)220 個(gè),表3 列出了部分問(wèn)題路段。
后續(xù)通過(guò)指紋庫(kù)的擴(kuò)建精準(zhǔn)化定位,可以從定軌道路場(chǎng)景識(shí)別推廣至省一級(jí)以上干線(xiàn)道路場(chǎng)景。同時(shí)隨著關(guān)聯(lián)的數(shù)據(jù)越來(lái)越豐富,識(shí)別的用戶(hù)業(yè)務(wù)也越來(lái)越多樣,后續(xù)將引入KQI數(shù)據(jù)和VoLTE 話(huà)單甚至5G業(yè)務(wù)等數(shù)據(jù),從語(yǔ)音感知端到端分析,擴(kuò)展到VoLTE、視頻、游戲等多業(yè)務(wù)感知識(shí)別。
本文提出的定軌道路感知識(shí)別技術(shù)帶來(lái)的經(jīng)濟(jì)效益如下。
表3 高掉話(huà)路段示例
a)統(tǒng)一采集存儲(chǔ)和計(jì)算,提高資源利用率,減少重復(fù)建設(shè)。
b)減少測(cè)試工作的人員和設(shè)備的支出,釋放優(yōu)化分析人員成本。
c)本文提出的算法是自主研發(fā),鍛煉了網(wǎng)絡(luò)優(yōu)化工程師的自主開(kāi)發(fā)能力,節(jié)省了工程建設(shè)費(fèi)用。
d)通過(guò)定軌道路用戶(hù)的自動(dòng)識(shí)別降低路測(cè)成本,全網(wǎng)定軌道路評(píng)估能力從每月1 次提升到每天1 次,全年節(jié)省道路測(cè)試1 000 次,節(jié)省費(fèi)用測(cè)試560 萬(wàn)元(全網(wǎng)單次路測(cè)成本約為15 000 km×30 km/元=45 萬(wàn)元)。
本文提出的定軌道路感知識(shí)別技術(shù)帶來(lái)的社會(huì)效益如下:
基于XDR 大數(shù)據(jù)分析和AI 技術(shù)的定軌道路自動(dòng)感知識(shí)別,實(shí)現(xiàn)了語(yǔ)音感知監(jiān)控可視化,深化了五心服務(wù),體現(xiàn)了中國(guó)聯(lián)通的匠心網(wǎng)絡(luò)精神,在業(yè)界取得很好反響。經(jīng)過(guò)上海聯(lián)通的實(shí)際生產(chǎn)推廣,對(duì)其他省分、電信友商提供了很好的參考借鑒。網(wǎng)絡(luò)質(zhì)量的改善,降低了用戶(hù)投訴率,提升了用戶(hù)滿(mǎn)意度,對(duì)和諧社會(huì)的建設(shè)也起到積極作用。在2018 年上海第一屆世界進(jìn)口博覽會(huì)上,本文提出的基于XDR 大數(shù)據(jù)分析和AI 技術(shù)的定軌道路自動(dòng)感知識(shí)別可視化大屏,部署在市通信管理局、市進(jìn)博會(huì)保障中心,其對(duì)網(wǎng)優(yōu)指標(biāo)的可視化監(jiān)控保障支撐,以及對(duì)進(jìn)博會(huì)的安全保障都起到了積極輔助支撐作用。
在網(wǎng)絡(luò)優(yōu)化工作中可通過(guò)大數(shù)據(jù)技術(shù)進(jìn)行多維度數(shù)據(jù)的融合來(lái)打破數(shù)據(jù)壁壘,實(shí)現(xiàn)更多的數(shù)據(jù)碰撞,衍生百花齊放的應(yīng)用。網(wǎng)絡(luò)優(yōu)化工作能夠依托現(xiàn)有大數(shù)據(jù)平臺(tái)和AI 技術(shù),將網(wǎng)絡(luò)中海量的MR、MDT、XDR、CDR 等數(shù)據(jù)關(guān)聯(lián)融合并實(shí)現(xiàn)共享,將用戶(hù)感知問(wèn)題從小區(qū)級(jí)衍生到用戶(hù)級(jí)。網(wǎng)絡(luò)優(yōu)化工作需要從用戶(hù)感知出發(fā),從常規(guī)業(yè)務(wù)、用戶(hù)、覆蓋、容量、質(zhì)量及3G/4G 等多維度進(jìn)行數(shù)據(jù)深度關(guān)聯(lián)處理,通過(guò)大數(shù)據(jù)處理和AI等技術(shù)的運(yùn)用,支撐面向規(guī)劃、面向網(wǎng)絡(luò)、面向客戶(hù)、面向市場(chǎng)的相關(guān)工作,這才是增效降本的有效方法。