• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于譜聚類建模的外來常住人口識(shí)別研究

      2018-08-03 06:46:54徐珊珊唐大鵬梁偉明董會(huì)孫煒程
      江蘇通信 2018年2期
      關(guān)鍵詞:常住人口外地口徑

      徐珊珊 唐大鵬 梁偉明 董會(huì) 孫煒程

      南京華蘇科技有限公司

      0 引言

      隨著經(jīng)濟(jì)體制改革的推進(jìn),城市中外來常住人口迅速擴(kuò)大,成為了一個(gè)不可忽視的特殊群體。常住人口,作為一種統(tǒng)計(jì)口徑,主要針對(duì)地區(qū)而言,常住人口與戶籍人口的統(tǒng)計(jì)口徑不同,在社會(huì)與政府部門工作中發(fā)揮著不同的作用。在當(dāng)前流動(dòng)人口規(guī)模大、人戶分離現(xiàn)象較為普遍的情況下,常住人口更能準(zhǔn)確地反映一個(gè)地區(qū)的人口規(guī)模與現(xiàn)狀,對(duì)于政府制定相關(guān)政策與服務(wù)措施提供更為有效的信息。所以統(tǒng)計(jì)外來常住人口數(shù)量對(duì)于了解國情國力,制定人口計(jì)劃和經(jīng)濟(jì)、社會(huì)發(fā)展計(jì)劃,進(jìn)行人口科學(xué)研究,都有十分重要的意義。

      但人口統(tǒng)計(jì)一直是一項(xiàng)費(fèi)時(shí)費(fèi)力的工作。現(xiàn)有的外來常住人口識(shí)別方法中,主要靠人工來完成,通過發(fā)放問卷的方式或者電話外呼的方式來確認(rèn),這種方法不但耗費(fèi)人力物力,而且效率低下。部分運(yùn)營商也會(huì)采取口徑的方式進(jìn)行定義,但此種定義規(guī)則缺乏科學(xué)解釋性。如何減少人力物力,采用更高效科學(xué)的手段對(duì)外來常住人口進(jìn)行識(shí)別是一項(xiàng)具有挑戰(zhàn)的工作。本文根據(jù)移動(dòng)手機(jī)用戶駐留數(shù)據(jù),使用大數(shù)據(jù)手段對(duì)外來常住人口進(jìn)行統(tǒng)計(jì),從而為政府提供具有科學(xué)解釋性的數(shù)據(jù)支撐,既不用像傳統(tǒng)普查方式那樣費(fèi)時(shí)費(fèi)力,也讓識(shí)別結(jié)果更具科學(xué)性。

      移動(dòng)運(yùn)營商所收集的用戶駐留信息可以統(tǒng)計(jì)用戶在本市的駐留天數(shù)、駐留時(shí)長以及ECI切換數(shù)據(jù)。其中常住和非常住用戶在駐留特征上一定不同,因此通過對(duì)駐留信息進(jìn)行處理形成駐留特征變量,則可使用聚類算法對(duì)兩類用戶進(jìn)行區(qū)分。

      研究結(jié)果表明,利用機(jī)器學(xué)習(xí)算法可以使用科學(xué)的方法對(duì)外來常住人口進(jìn)行識(shí)別,且識(shí)別準(zhǔn)確率較高。

      1 背景

      人口是一個(gè)地區(qū)發(fā)展最重要的基礎(chǔ),人口的多少與質(zhì)量直接關(guān)系到所在地區(qū)的經(jīng)濟(jì)水平、生活質(zhì)量以及未來的發(fā)展?jié)摿?。人口、資源、環(huán)境三者相互影響、相互制約,人口規(guī)模的增減會(huì)直接影響地區(qū)的資源消耗與環(huán)境保護(hù)這兩項(xiàng)指標(biāo)水平的高低。其中常住人口更能準(zhǔn)確地反映一個(gè)地區(qū)的人口規(guī)模與現(xiàn)狀,對(duì)于政府制定相關(guān)政策與服務(wù)措施提供更為有效的信息。

      目前大多數(shù)研究都只停留在宏觀的常住人口規(guī)模預(yù)測上,宋漢杰在多模型方法下的地區(qū)常住人口規(guī)模預(yù)測分析一文中,通過運(yùn)用一元線性回歸法、二次指數(shù)平滑法、灰色GM(1,1)模型預(yù)測法,分別對(duì)2013—2020年株洲市的常住人口進(jìn)行了短期預(yù)測。另一項(xiàng)研究也是采用Logistic模型對(duì)青島常住人口進(jìn)行預(yù)測,從而了解青島人口發(fā)展趨勢。從以往這些研究中發(fā)現(xiàn),對(duì)人口微觀上的研究非常少,并沒有細(xì)分到單個(gè)常住人口的識(shí)別。

      當(dāng)用戶缺乏標(biāo)簽時(shí),對(duì)用戶的劃分則需要用到非監(jiān)督機(jī)器學(xué)習(xí)算法。無監(jiān)督學(xué)習(xí)中最典型的就是聚類算法,聚類可根據(jù)用戶數(shù)據(jù)特征,將有相似特征的數(shù)據(jù)點(diǎn)聚成一組。每一個(gè)組都被稱作一個(gè)集群(簇)。對(duì)象之間的相似性可通過解析方式進(jìn)行定義。存在很多不同的聚類算法,其區(qū)別在于衡量對(duì)象相似性的標(biāo)準(zhǔn)不同:可通過距離、密度、圖論或是統(tǒng)計(jì)分布來衡量。

      本文采用無監(jiān)督機(jī)器學(xué)習(xí)算法,挖掘出常住人口與非常住人口的駐留行為特征,對(duì)單個(gè)用戶進(jìn)行識(shí)別,從而便于政府部門進(jìn)行管理。

      2 概述

      本文中所研究的數(shù)據(jù)來自無錫移動(dòng)通信公司(位于中國江蘇省)。下面,我們?cè)斒隽藷o錫移動(dòng)公司目前的相關(guān)數(shù)據(jù)情況。

      2.1 外來人口

      在外來人口的定義上,本文根據(jù)運(yùn)營商的要求對(duì)外來人口做出如下定義。根據(jù)手機(jī)號(hào)碼歸屬地和身份證信息共分為以下四種用戶類型,如圖1所示。

      (1)本地號(hào)碼本地戶籍的用戶;

      (2)本地號(hào)碼外地戶籍本地戶口的用戶;

      (3)本地號(hào)碼外地戶籍外地戶口的用戶;

      (4)外地號(hào)碼的用戶。

      其中第一類和第二類人均不歸類為外來人口,所以常住外來人口識(shí)別只需針對(duì)第三類和第四類用戶進(jìn)行分析。

      圖1 全網(wǎng)用戶分類圖

      2.2 數(shù)據(jù)集

      為了保護(hù)用戶隱私,目前無錫移動(dòng)僅能為我們提供一種類型的數(shù)據(jù):用戶駐留數(shù)據(jù)。駐留數(shù)據(jù)主要包括用戶在某個(gè)時(shí)刻某一小區(qū)下的駐留時(shí)長。

      本文用于實(shí)驗(yàn)的是無錫2月用戶駐留數(shù)據(jù)(包含2/3/4G所有數(shù)據(jù)),按照以上四類用戶共分為四個(gè)數(shù)據(jù)集,包含以下字段:用戶手機(jī)號(hào),小區(qū)唯一標(biāo)識(shí)碼,秒級(jí)駐留時(shí)長,時(shí)間,以及一些標(biāo)簽變量。其中第一類數(shù)據(jù)集中包含236個(gè)用戶,第二類數(shù)據(jù)集中包含182個(gè)用戶,第三類數(shù)據(jù)集中包含178個(gè)用戶,第四類數(shù)據(jù)集中包含199個(gè)用戶,共795個(gè)用戶。本文用于建模的主要為第三類和第四類用戶。

      3 建模與算法

      本文的目的是區(qū)分外來流動(dòng)人口和外來常住人口。但數(shù)據(jù)中缺乏標(biāo)簽,因此選擇無監(jiān)督學(xué)習(xí)中的聚類算法完成兩類人口的區(qū)分,主要分為以下幾個(gè)步驟:

      (1)數(shù)據(jù)預(yù)處理。即將數(shù)據(jù)中的異常值和缺失值從數(shù)據(jù)集中剔除;

      (2)變量轉(zhuǎn)換。即對(duì)駐留數(shù)據(jù)進(jìn)行變形轉(zhuǎn)換,運(yùn)用統(tǒng)計(jì)手段處理產(chǎn)生新的可用變量;

      (3)變量篩選。目的為避免某些相關(guān)性較強(qiáng)的變量影響最終的聚類結(jié)果;

      (4)數(shù)據(jù)標(biāo)準(zhǔn)化。目的是為消除各變量由于量綱不同所產(chǎn)生的影響;

      (5)聚類模型相關(guān)機(jī)器學(xué)習(xí)算法。

      3.1 數(shù)據(jù)預(yù)處理

      前面已經(jīng)提到,本文將使用到用戶駐留數(shù)據(jù),所以在建模前需要對(duì)數(shù)據(jù)中的缺失值和異常值進(jìn)行處理。通過對(duì)數(shù)據(jù)進(jìn)行觀察發(fā)現(xiàn),有些數(shù)據(jù)中的用戶標(biāo)識(shí)碼和小區(qū)標(biāo)識(shí)碼存在缺失,對(duì)于此類數(shù)據(jù),我們選擇行刪除的方式進(jìn)行處理。有些用戶的駐留時(shí)長也會(huì)存在異常值,理論上駐留時(shí)長應(yīng)該在0-3600s之間,對(duì)于大于3600s和小于0s的數(shù)據(jù)需要?jiǎng)h除。

      3.2 變量轉(zhuǎn)換

      為了保護(hù)客戶隱私,運(yùn)營商只能提供用戶駐留數(shù)據(jù)。未經(jīng)處理的駐留數(shù)據(jù)無法用于用戶聚類分析,因此要對(duì)駐留數(shù)據(jù)進(jìn)行轉(zhuǎn)換,運(yùn)用統(tǒng)計(jì)手段處理產(chǎn)生新的可用變量。根據(jù)用戶駐留數(shù)據(jù)進(jìn)行如下統(tǒng)計(jì)分析,形成以下15個(gè)新變量∶

      (1)統(tǒng)計(jì)各用戶一個(gè)月中駐留的天數(shù)總和

      (2)統(tǒng)計(jì)各用戶一個(gè)月中駐留的小時(shí)數(shù)總和

      (3)統(tǒng)計(jì)各用戶一個(gè)月中駐留的秒數(shù)總和

      (4)統(tǒng)計(jì)各用戶工作日eci類別總數(shù)(只統(tǒng)計(jì)駐留超過10min 的 eci)

      (5)統(tǒng)計(jì)各用戶休息日eci類別總數(shù)(只統(tǒng)計(jì)駐留超過10min 的 eci)

      (6)統(tǒng)計(jì)各用戶工作日eci總和

      (7)統(tǒng)計(jì)各用戶休息日eci總和

      (8)統(tǒng)計(jì)各用戶工作日駐留的天數(shù)總和

      (9)統(tǒng)計(jì)各用戶休息日駐留的天數(shù)總和

      (10)統(tǒng)計(jì)各用戶工作日駐留的小時(shí)數(shù)總和

      (11)統(tǒng)計(jì)各用戶休息日駐留的小時(shí)數(shù)總和

      (12)統(tǒng)計(jì)各用戶工作日駐留秒數(shù)總和

      (13)統(tǒng)計(jì)各用戶休息日駐留秒數(shù)總和

      (14)統(tǒng)計(jì)各用戶平均每天駐留時(shí)長(按小時(shí)統(tǒng)計(jì))

      (15)統(tǒng)計(jì)各用戶平均每天駐留時(shí)長(按秒統(tǒng)計(jì))

      3.3 變量篩選

      在進(jìn)行聚類分析時(shí),若各變量間存在強(qiáng)相關(guān)性,則會(huì)導(dǎo)致相關(guān)變量權(quán)重增大,影響最終聚類結(jié)果。因此在做聚類分析之前,需要通過相關(guān)性檢驗(yàn)對(duì)變量進(jìn)行篩選。

      Pearson相關(guān)系數(shù)又叫做Pearson積矩相關(guān)系數(shù),是一種統(tǒng)計(jì)學(xué)參數(shù),一般用來定量的衡量變量之間的相關(guān)關(guān)系,其計(jì)算公式如公式(1)所示:

      上式中,變量X是所有點(diǎn)的x坐標(biāo)的集合,變量Y是所有點(diǎn)的y坐標(biāo)的集合,N表示點(diǎn)的總個(gè)數(shù)。Pearson相關(guān)系數(shù)的絕對(duì)值越大,反映變量之間的相關(guān)性越強(qiáng)。當(dāng)相關(guān)系數(shù)越接近于1或-1,表示相關(guān)度越強(qiáng);當(dāng)相關(guān)系數(shù)越接近于0,表示相關(guān)度越弱。當(dāng)相關(guān)系數(shù)大于0時(shí),表示為正相關(guān);當(dāng)相關(guān)系數(shù)小于0時(shí),表示為負(fù)相關(guān)。通常情況下可以通過相關(guān)系數(shù)的絕對(duì)值取值范圍判斷變量的相關(guān)強(qiáng)度,相關(guān)系數(shù)和相關(guān)強(qiáng)度的關(guān)系如表1所示。

      表1 相關(guān)系數(shù)和相關(guān)強(qiáng)度關(guān)系表

      圖2為各變量之間的相關(guān)性可視化圖,通過圖形可以更直觀的看出各變量之間的相關(guān)性,根據(jù)相關(guān)系數(shù)和相關(guān)強(qiáng)度關(guān)系表可以刪除具有強(qiáng)相關(guān)的變量。

      圖2 變量相關(guān)性可視化圖

      3.4 數(shù)據(jù)標(biāo)準(zhǔn)化

      由于轉(zhuǎn)換的新變量在量綱上不同,因此進(jìn)行聚類之前要先對(duì)變量進(jìn)行無量綱化的處理,本文采用了min-max標(biāo)準(zhǔn)化,即對(duì)原始數(shù)據(jù)進(jìn)行線性變換,使結(jié)果映射到[0,1]之間,公式為:

      其中max為樣本數(shù)據(jù)的最大值,min為樣本數(shù)據(jù)的最小值。

      3.5 聚類模型相關(guān)機(jī)器學(xué)習(xí)算法

      完成變量篩選及無量綱化處理后,則可對(duì)用戶進(jìn)行聚類分析。聚類就是按照事物的某些特征,把事物分成若干類或簇,使得在同一個(gè)類內(nèi)的對(duì)象之間最大程度相似,而不同類之間的對(duì)象最大程度不同。聚類作為無監(jiān)督學(xué)習(xí)方法,廣泛地應(yīng)用在了各個(gè)領(lǐng)域,本文嘗試了以下四種聚類算法:

      (1)均值聚類

      首先從n個(gè)數(shù)據(jù)對(duì)象任意選擇k個(gè)對(duì)象作為初始聚類中心;而對(duì)于所剩下的其他對(duì)象,則根據(jù)他們與這些聚類中心的相似度(距離),分別將他們分配給與其最相似的聚類;然后再計(jì)算每個(gè)所獲新聚類的聚類中心(該聚類中所有對(duì)象的均值);不斷重復(fù)這一過程直到標(biāo)準(zhǔn)測度函數(shù)開始收斂為止。一般都采用均方差作為標(biāo)準(zhǔn)測度函數(shù)。K個(gè)聚類具有以下特點(diǎn):各聚類本身盡可能的緊湊,而各聚類之間盡可能的分開。

      (2)Ward層次聚類

      Ward層次聚類方法具體的可以分為兩大類,第一,分裂型層次聚類方法,即在聚類開始時(shí)假定所有數(shù)據(jù)點(diǎn)都屬于同一個(gè)類,在迭代的過程中,利用相應(yīng)的準(zhǔn)則一個(gè)類被一直的分解,使之成為更小類,直到滿足預(yù)定的條件時(shí),分裂的過程停止。第二,合并型層次聚類方法,相反的,設(shè)每個(gè)樣本點(diǎn)都是一個(gè)獨(dú)立的類,之后把相似度高的類逐漸合并,當(dāng)滿足算法的終止條件時(shí),停止迭代。

      (3)DBSCAN算法

      是一種基于高密度聯(lián)通區(qū)域的聚類算法,它將類簇定義為高密度聯(lián)通區(qū)域的聚類算法,它將類簇定義為高密度相連點(diǎn)的最大集合。它本身對(duì)噪聲不敏感,并且能發(fā)現(xiàn)任意形狀的類簇。DBSCAN算法需要輸入兩個(gè)參數(shù):一個(gè)參數(shù)是半徑(Eps),表示以給定點(diǎn)p為中心的圓形領(lǐng)域的范圍;另一個(gè)參數(shù)是以點(diǎn)p為中心的領(lǐng)域內(nèi)最少點(diǎn)的數(shù)量(min_sample)。如果滿足:以點(diǎn)p為中心,半徑為Eps的鄰域內(nèi)的點(diǎn)的個(gè)數(shù)不少于min_sample,則稱點(diǎn)p為核心點(diǎn)。

      (4)譜聚類

      譜聚類原理上是一種基于圖論的聚類方法。將樣本看成頂點(diǎn),樣本的相似度看作帶權(quán)邊。這樣,把樣本集劃分成K個(gè)簇的過程就等同于一個(gè)圖的分割問題。要求組間相似度低,組內(nèi)相似度高。如圖3所示,譜聚類能對(duì)任意形狀的樣本空間聚類,并能獲得全局最優(yōu)解,其基本思想是通過對(duì)樣本數(shù)據(jù)的拉普拉斯矩陣進(jìn)行特征分解而得到的特征向量進(jìn)行聚類。假定將每個(gè)數(shù)據(jù)樣本看作圖中的頂點(diǎn)V,且樣本中的數(shù)據(jù)對(duì)之間都有一定的相似性,由樣本間的相似度,將頂點(diǎn)間的邊E賦權(quán)重值W,得到一個(gè)無向加權(quán)圖G = (V,E),V = {v1,v2,…,vn}表示點(diǎn)集。圖G中,可將聚類問題轉(zhuǎn)化為在圖G上的圖劃分問題。圖論中的劃分準(zhǔn)則一般有Minimum Cut、Normalized Cut、Ratio Cut、Average Cut、Min-max Cut、MN Cut等,劃分準(zhǔn)則的好壞對(duì)聚類結(jié)果的優(yōu)劣產(chǎn)生很大影響。

      圖3 譜聚類無向圖劃分圖

      4 結(jié)果分析

      本節(jié)主要從下幾個(gè)部分展示模型的結(jié)果:

      (1)列出兩到三個(gè)選擇的特征變量

      (2)展示聚類中的最優(yōu)聚類個(gè)數(shù)

      (3)列出兩種聚類效果的比較結(jié)果

      (4)展示模型最終聚類效果

      (5)對(duì)比口徑法和聚類法結(jié)果

      4.1 特征標(biāo)量的選擇

      通過相關(guān)性檢驗(yàn)對(duì)變量進(jìn)行篩選后,結(jié)合最終聚類效果共保留了十一個(gè)變量。其中用戶一個(gè)月中駐留的天數(shù)總和是最重要的特征之一。從經(jīng)驗(yàn)判斷,一般常住人口一個(gè)月中駐留的天數(shù)一般較長。

      用戶平均每天駐留時(shí)長也是另一個(gè)重要的特征向量。一般常住人口不僅在一個(gè)月中駐留的天數(shù)較長,且每天的駐留時(shí)間也會(huì)比較長。通過這個(gè)變量可以排除一些每天路過無錫的過路人。

      4.2 最優(yōu)聚類個(gè)數(shù)的確定

      在進(jìn)行聚類分析前,首先要確定最優(yōu)聚類個(gè)數(shù)。本文結(jié)合輪廓系數(shù)和業(yè)務(wù)背景對(duì)K值進(jìn)行了選擇。其中輪廓系數(shù)法結(jié)合了凝聚度和分離度,可以以此來判斷聚類的優(yōu)良性,其值在-1到+1之間取值,值越大表示聚類效果越好。于是我們可以計(jì)算在每個(gè)簇?cái)?shù)條件下的輪廓系數(shù),當(dāng)輪廓系數(shù)取最大時(shí),其相應(yīng)的簇個(gè)數(shù)是最好的。如圖4所示,輪廓系數(shù)方法建議最優(yōu)簇?cái)?shù)為K=2。結(jié)合實(shí)際情況考慮,需要人群區(qū)分為非常住和常住,也是兩類的情況。因此在最終的聚類算法中,將K值設(shè)為2。

      4.3 多種聚類效果的比較

      本文嘗試了k-means、層次聚類、DBSCAN、譜聚類共四種聚類算法。以上四種算法在數(shù)據(jù)集的聚類效果上差別較大。以下圖形展示了在第三類數(shù)據(jù)集上各算法的聚類效果比較,各聚類算法在第四類數(shù)據(jù)集上的表現(xiàn)與第三類數(shù)據(jù)集類似。

      下圖中的橫坐標(biāo)表示用戶一個(gè)月中的駐留天數(shù)總和,縱坐標(biāo)表示用戶平均每天駐留時(shí)長。一般常住人口在行為特征上表現(xiàn)為一個(gè)月中駐留天數(shù)長且每天駐留時(shí)間也較久。從各聚類結(jié)果中可以看出,只有譜聚類能夠很好地挖掘出此類行為特征。

      圖4 輪廓系數(shù)圖

      圖5 聚類結(jié)果二維分布圖

      4.4 最終聚類效果

      衡量各種聚類效果,本文最終選擇譜聚類作為最終聚類算法。譜聚類不對(duì)樣本空間的整體結(jié)構(gòu)做任何假設(shè),能夠識(shí)別樣本點(diǎn)在空間上的非凸分布。因此,譜聚類方法適用于具有任何分布形狀的樣本空間,從而求解到全局最優(yōu)解。同時(shí),譜聚類算法在實(shí)現(xiàn)上僅涉及標(biāo)準(zhǔn)的線性代數(shù)方法,易于實(shí)現(xiàn)。而傳統(tǒng)的k-means聚類中,當(dāng)樣本維數(shù)增大時(shí),k-means計(jì)算會(huì)很困難。因?yàn)樵趉-means中,輸入計(jì)算的是歐式空間中的原始向量。而且k-means求得的是一種局部最優(yōu)策略,SSE不一定是最小的。

      圖6、圖7分別為第三類和第四類用戶樣本數(shù)據(jù)集的最終聚類效果圖,從圖中可以看出聚類效果較好地區(qū)分了外來常住與非常住人群。外來常住人口在特征上基本表現(xiàn)為一個(gè)月中駐留天數(shù)長且每天駐留時(shí)間也較久,而非常住人口基本表現(xiàn)為駐留天數(shù)短。將聚類標(biāo)簽與運(yùn)營商口徑法的結(jié)果進(jìn)行對(duì)比,用戶標(biāo)簽完全相同的平均占比高達(dá)92%以上。

      圖6 第三類用戶聚類效果圖

      圖7 第四類用戶聚類效果圖

      4.5 口徑法和聚類法結(jié)果對(duì)比

      表2、3分別為本地號(hào)碼外地戶籍外地戶口和外地號(hào)碼的結(jié)果對(duì)比。無錫移動(dòng)通過口徑法對(duì)外來常住人口進(jìn)行了判斷,認(rèn)為除本地用戶外,當(dāng)月每天晚9點(diǎn)至第二天8點(diǎn)時(shí)間內(nèi)駐留超過5小時(shí)并且駐留7天以上的人即為外來常住人口。通過對(duì)比口徑法的結(jié)果,本地號(hào)碼外地戶籍外地戶口這類用戶中,聚類法得到的結(jié)果與口徑法結(jié)果完全一致的用戶有163個(gè),占總用戶數(shù)的91.57%;在外地號(hào)碼這類用戶中,聚類法得到的結(jié)果與口徑法結(jié)果完全一致的用戶有186個(gè),占總用戶數(shù)的93.47%。

      在本地號(hào)碼外地戶籍外地戶口這類用戶中,口徑法判斷為常住,而聚類法判斷為非常住的用戶有兩個(gè),從駐留原始數(shù)據(jù)中可以看出,這兩個(gè)用戶2月在無錫分別只駐留了5天和6天,且為連續(xù)駐留,理論上不應(yīng)認(rèn)為是常住人口。而口徑法判斷為非常住,聚類法判斷為常住的用戶有13個(gè),這13個(gè)用戶2月在無錫最少駐留12天,且每日駐留時(shí)間較長,理論上應(yīng)判斷為常住。外地號(hào)碼這類用戶中的情況也是如此。

      表2 本地號(hào)碼外地戶籍外地戶口結(jié)果對(duì)比表

      表3 外地號(hào)碼結(jié)果對(duì)比表

      5 總結(jié)

      本文通過對(duì)用戶駐留數(shù)據(jù)進(jìn)行轉(zhuǎn)換處理,形成用戶駐留行為特征變量,并采用多種聚類算法對(duì)外來常住人口進(jìn)行識(shí)別。最后選取了計(jì)算速度快且能產(chǎn)生全局最優(yōu)解的譜聚類算法進(jìn)行建模預(yù)測。預(yù)測結(jié)果表明預(yù)測精度較高,與口徑法判斷結(jié)果基本一致,且能識(shí)別出口徑法中無法判斷的異常事件。此模型不僅可以為政府部門節(jié)省人力物力資源,也能有力支撐運(yùn)營商在外來常住人口市場營銷服務(wù)工作的開展,為市場部門提供精細(xì)化營銷所必須的分析支撐服務(wù)。

      猜你喜歡
      常住人口外地口徑
      出行安全
      廣東:2022 年常住人口與戶籍人口均過億
      步槍口徑之爭(下)
      步槍口徑之爭(上)
      北京城市副中心:常住人口控制在130萬以內(nèi)
      北京郊區(qū)外埠車猛增本地人高價(jià)買外地牌
      全口徑預(yù)決算審查監(jiān)督的實(shí)踐與思考
      2015年上海市常住人口首現(xiàn)負(fù)增長
      中老年健康(2016年5期)2016-06-13 01:08:46
      借傘
      胰腸全口徑端側(cè)吻合在胰十二指腸切除術(shù)中的應(yīng)用
      浪卡子县| 信阳市| 金昌市| 永州市| 仁布县| 子长县| 镇雄县| 晋宁县| 萨嘎县| 留坝县| 德令哈市| 三江| 延寿县| 石家庄市| 凌云县| 曲周县| 康平县| 东阳市| 新民市| 清水河县| 昌邑市| 玉屏| 正蓝旗| 黔南| 红河县| 石河子市| 区。| 怀仁县| 阿荣旗| 苗栗市| 登封市| 德惠市| 新源县| 应城市| 招远市| 色达县| 台江县| 富锦市| 孟津县| 吴桥县| 青冈县|