劉煉
摘 要 隨著中國移動網(wǎng)格化運營的推進,尋找特定小區(qū)中的住戶,已經(jīng)成為一個重要課題。傳統(tǒng)的小區(qū)寬帶住戶尋找方法,多是通過夜間用戶通信基站的臨近小區(qū)進行匹配,面臨兩大問題,一方面是由于基站信號覆蓋半徑過大,導致基站經(jīng)緯度無法準確代表用戶晚間居住地經(jīng)緯度,另一方面由于小區(qū)經(jīng)緯度僅僅由小區(qū)四個頂點代表,且為人為輸入誤差較多,導致小區(qū)的覆蓋范圍經(jīng)緯度表征不充分不準確,最終導致無法準確識別小區(qū)位置以及其內(nèi)住戶。本文提出了一種利用DBSCAN算法,處理用戶夜間常住地高精度MR坐標點云,來表征小區(qū)并尋找點云覆蓋范圍內(nèi)住戶的方法。首先在寬帶付費手機用戶的夜間MR點云空間上,自動剔除噪聲點即非小區(qū)實際住戶,進而通過小區(qū)寬帶住戶點云尋找其他手機用戶的點云,從而實現(xiàn)全量寬帶小區(qū)住戶識別。
關(guān)鍵詞 小區(qū)住戶;MR;DBSCAN;密度聚類;精準營銷
引言
針對用戶的電信營銷活動已經(jīng)從傳統(tǒng)的廣泛撒網(wǎng)方式,轉(zhuǎn)化為特定屬性客戶群的精準營銷。當前,基于客戶屬性標簽的精準化營銷技術(shù)已經(jīng)發(fā)展的較為成熟,主要是將基于機器學習或深度學習算法的各種推薦模型運用在實際營銷場景中,但基于空間的精準化營銷技術(shù)還未形成較為成熟的方法,現(xiàn)有的位置營銷也大都基于人工劃定范圍開展,效率較低,不利于高質(zhì)量營銷活動的開展。
傳統(tǒng)的空間層面的精準營銷技術(shù)通過儀器測量各小區(qū)或單位的邊界坐標,然后在測量的邊界范圍內(nèi)尋找覆蓋用戶開展定向營銷活動,存在如下問題:
(1)小區(qū)或單位的邊界坐標為手工上傳,人為因素會導致大量的假數(shù)據(jù)和誤差數(shù)據(jù)
(2)小區(qū)住戶夜間坐標存在誤差,在小區(qū)邊界準確時,反而可能導致住戶無法歸入小區(qū)。
1目的
利用DBSCAN密度聚類算法代替?zhèn)鹘y(tǒng)的區(qū)域位置人工測量和標注方法,解決了傳統(tǒng)人工方法會出現(xiàn)的計算區(qū)域邊界和實際邊界有較大誤差,甚至無法計算的問題,并能夠根據(jù)計算輸出的區(qū)域核心用戶點經(jīng)緯度,進而計算識別目標區(qū)域內(nèi)的經(jīng)緯度密度可達的其他目標用戶[1]。
2技術(shù)方案
2.1 DBSCAN 算法介紹
DBSCAN,全稱基于密度的噪聲適應(yīng)空間聚類,是比較有代表性的基于密度的聚類算法
(1)算法目標:將足夠高密度的核心點劃分成簇,并能在具有噪聲的空間數(shù)據(jù)庫中發(fā)現(xiàn)任意形狀的簇
(2)算法核心思想:從某個核心點出發(fā),不斷向密度可達的區(qū)域擴張,從而得到一個包含核心點和邊界點的最大化區(qū)域,區(qū)域中任意兩點密度相連
(3)算法優(yōu)點:能發(fā)現(xiàn)任意形狀的簇,聚類結(jié)果幾乎不依賴于結(jié)點遍歷順序,能夠有效剔除噪聲點
2.2 方案中對DBSCAN 算法的應(yīng)用說明
該方案中對DBSCAN 算法的應(yīng)用,通過基于該算法構(gòu)建機器學習模型對小區(qū)寬帶用戶的經(jīng)緯度數(shù)據(jù)進行分析計算,最終輸出代表各小區(qū)范圍內(nèi)的核心點成員經(jīng)緯度,而整個過程需要通過反復調(diào)參優(yōu)化完成,具體過程如下:
(1)輸入數(shù)據(jù):歸屬于各小區(qū)的寬帶用戶MR經(jīng)緯度數(shù)據(jù)。
(2)算法入?yún)ⅲ篹ps(密度半徑)、min_samples(密度半徑內(nèi)經(jīng)緯度最少個數(shù))。
(3)模型輸出:小區(qū)核心寬帶用戶MR經(jīng)緯度、識別的小區(qū)全量住戶。
(4)寬帶覆蓋小區(qū)核心寬帶住戶計算過程描述:
1)基于DBSCAN 算法構(gòu)建模型,賦予密度半徑參數(shù)eps和鄰域密度閾值min_samples初始值,根據(jù)精度需要eps取值范圍從0.0001到0.01;根據(jù)實際小區(qū)寬帶住戶數(shù),min_samples首輪取值范圍為500到2。
2)固定eps=0.0001(折算約100米)不變,將min_samples從200開始進行模型聚類,如果該小區(qū)寬帶用戶經(jīng)緯度聚類結(jié)果為多個簇,則將min_samples加1,如果該小區(qū)寬帶用戶經(jīng)緯度聚類結(jié)果為空,則將min_samples減1,再次聚類,如此循環(huán),直到聚類結(jié)果為一個簇,跳出循環(huán)。
3)此時輸出的聚類結(jié)果即為居住在該小區(qū)的核心寬帶住戶的MR經(jīng)緯度,其鄰域半徑的圓的集合代表該小區(qū)的實際地理范圍。
寬帶覆蓋小區(qū)全量住戶計算過程描述:
4)針對每個目標小區(qū),在已經(jīng)計算出的該小區(qū)核心寬帶住戶MR點中基于經(jīng)度和緯度計算出中心位置點,再基于該中心位置點在經(jīng)度和緯度方向上往外延伸經(jīng)緯度0.015,圈定該范圍內(nèi)所有非核心寬帶用戶作為待篩選用戶。
5)基于二分查找算法依次計算各待篩選用戶MR點跟每個核心住戶MR點的距離,當與某個核心點經(jīng)度和緯度之差均小于鄰域半徑參數(shù)eps時,將該待篩選用戶標注為居住在該小區(qū)的其他住戶(非核心寬帶住戶),其與核心寬帶住戶共同構(gòu)成寬帶覆蓋小區(qū)全量住戶。
方案示意圖:
說明:紅色點為計算出的寬帶覆蓋小區(qū)核心寬帶住戶,圓圈代表該小區(qū)實際地理范圍,圓圈中的黑色點為居住在該小區(qū)非核心寬帶住戶。
3方案優(yōu)點
本方案擺脫了傳統(tǒng)人工方法給定小區(qū)邊界產(chǎn)生的誤差和臟數(shù)據(jù)問題,取而代之采用住戶高精度MR坐標表征小區(qū)物理覆蓋范圍。采用比較其他用戶夜間坐標和已知住戶夜間坐標的距離來判定其他用戶是否為小區(qū)實際住戶,取代了將其他用戶夜間坐標和小區(qū)邊界進行比較來判斷是否為居住在該小區(qū),避免了用戶自身坐標不準或小區(qū)邊界不準導致的二者匹配不準問題
4實施效果
湖北移動共有寬帶覆蓋小區(qū)75820個,項目上線后共識別寬帶覆蓋小區(qū)44646個,完成6520020位用戶的居住小區(qū)識別,極大地方便了市場部門實施小區(qū)寬帶精準營銷。隨著高精度用戶位置數(shù)據(jù)的來源豐富和覆蓋用戶更多,模型將自動實現(xiàn)更多的小區(qū)及其住戶的識別。
5結(jié)束語
由于特定小區(qū)寬帶用戶的夜間居住地存在天然唯一聚類簇的物理現(xiàn)實,DBSCAN密度聚類算法可以很好地剔除非居住在該小區(qū)的噪聲用戶,利用運營商已有的MR等高精度用戶經(jīng)緯度數(shù)據(jù),可以實現(xiàn)不依賴小區(qū)經(jīng)緯度的小區(qū)住戶篩選。
參考文獻
[1] 羅云朝,丁一.基于DBSCAN聚類算法的重要位置提取及聚類[J].中文科技期刊數(shù)據(jù)庫(文摘版)工程技術(shù),2017(6):384.