汪洋 姚偉娜 沈廣才 楊明
摘要:手機信號中包含實時定位時空信息,這些移動時空數據中包含了豐富的時空特征和行為信息,通過對時空數據進行分析和處理,可有效挖掘人類活動規(guī)律與行為特征,實現用戶畫像,為個性化推薦、突發(fā)事件預防、城市計算提供必要基礎。本文提出了基于手機移動時空信息的用戶畫像框架,著重介紹了對于關鍵技術如停留點與停留區(qū)檢測、重要位置識別、位置語義分析、用戶行為分析等的實現方法,對系統(tǒng)中的隱私保護問題、數據精度與識別準確性等問題也給出了進一步的意見。
關鍵詞:時空數據處理;停留點;停留點聚類;軌跡模式;重要地點識別;行為分析
中圖分類號:TP18? ? ? ?文獻標識碼:A
文章編號:1009-3044(2021)26-0098-03
開放科學(資源服務)標識碼(OSID):
1 引言
隨著移動互聯網、位置服務等技術的高速發(fā)展以及移動設備的普及,產生了海量的時空數據。在用戶時空數據中包含了豐富的時空特征和行為信息,通過對時空數據語義的處理和分析,可以挖掘人類活動規(guī)律與行為特征、城市車輛移動特征、用戶行為喜好特征等有用信息,對于提升社會工作效率、提前預測并防范突發(fā)事件有著關鍵作用。基于時空數據的用戶畫像已經在許多領域得到了應用,用戶畫像方法不僅應用于電子商務和內容推送領域,在人才評價、旅游服務[3]、在線評價[4]、社交[5]甚至于刑偵等多個領域發(fā)揮著重大作用。
移動通信網絡能夠定期或不定期地主動或被動地記錄手機用戶時間線的基站編號,手機等移動終端收集到的定位數據可以來自移動通信網絡、Wi-Fi接入點位置信息等,記錄了移動對象的位置、時間、速度和方向等行為特征。移動終端通過對不同基站下行導頻信號(電信網內為測量或監(jiān)控的目的而發(fā)送的信號)進行測量,得到不同基站下行導頻的參考信號強度和到達時間。依據該測量結果以及基站的坐標,便能計算出移動終端所在的位置信息。此外,OTT 定位指基于App軟件獲取用戶的位置信息,依托互聯網應用向海量用戶提供的定位服務。通過 LTE網絡S1-U 接口(即基站與分組核心網之間的通訊接口)中的數據解析提取出用戶位置服務的經緯度信息,并利用用戶標識以及此時刻的MR(移動通信)數據進行關聯,并利用特定算法實現MR(移動通信)數據更高精度的定位。
時空數據一般來都具有時空序列性、異頻采樣性、數據質量較差等的特點。汪倩等人對用戶畫像實現流程和用戶畫像應用進行了綜述。用戶畫像實現除了簡單通過統(tǒng)計數據的方法實現外,還常運用基于向量空間模型的方法、基于潛在Dirichlet 主題模型的方法、基于貝葉斯網絡的方法、基于本體(Ontology)的方法、基于神經網絡的方法等來建模。高強等人[7]對于軌跡數據預處理方法以及噪音濾波、軌跡壓縮等方法進行了歸納和總結,介紹了目前軌跡數據處理中所使用的核心算法。
基于手機時空數據的用戶畫像構建方法是通過對用戶所產生的移動時空數據進行深度挖掘和剖析,通過檢測算法實現停留點的檢測再對用戶停留點語義進行理解和發(fā)掘并尋找用戶停留點間語義聯系,從而達到對用戶潛在屬性(交通工具、頻繁模式、周期模式等行為分析)和行為模式的發(fā)掘。實現用戶重要地點識別(家,單位,其他重要場所),實現推薦服務、位置服務和用戶畫像分析的應用。
2 畫像構建框架和基本步驟
用戶畫像是通過借用已經分析出的用戶日軌跡、重要停留點、用戶個性化行為和行為規(guī)律等重要信息的分析,來實現對用戶屬性、偏好、行為和生活規(guī)律的分析,形成對用戶的基礎認識。要刻畫一個人物畫像,要了解其的生活規(guī)律,習慣,愛好,性格,而這些可以通過對用戶停留點語義的分析實現。
基于時空數據的畫像構建思想和框架如圖1,基本步驟包括動時空數據預處理、停留點檢測、停留區(qū)識別、重要位置識別與語義理解、用戶行為分析等。保證數據的準確性、完整性、可信性和可解釋性,是后續(xù)處理的基礎。經過預處理的時空信息是按時間序列組成的位置序列,這些時空信息包含用戶的運動和停留軌跡,其中的停留點具有豐富的信息,因此需要將時空數據中的停留點檢測出來。用戶的停留點并不局限一個點,有些停留點彼此靠近,形成停留區(qū)域,停留區(qū)不僅可合并停留點數目,減少處理信息,還能提高位置語義理解精確度。許多停留區(qū)如家、工作單位具有很明顯的時空特征,很容易借助算法從停留區(qū)中識別出來。識別出的位置信息通常只是具體的地理位置信息,還需要結合地圖或導航進行具體位置語義解析和翻譯,通過語義信息分析可以獲取用戶的相關信息。在用戶行為分析中,還可以借助時空數據中的時間信息獲得用戶的活動軌跡圖,利用日期信息獲得用戶獲得的頻率和周期信息,利用合適的數據挖掘方法獲得用戶的行為信息,從而構建出用戶畫像。
3 關鍵步驟的處理與算法實現
3.1 數據預處理
數據預處理階段主要完成對數據進行缺失值填補、噪點消除和分類提取。將缺失值以其他同類型的特定字符進行替代。
預處理后的數據主要包括用戶編號、時間、經度、維度等有價值信息。并將數據按照用戶和日期進行劃分和提取,將同一用戶同一天的數據單獨提取和存儲,以便于在停留點檢測時不會因為數據的原因而無法達到預期效果。預處理后數據效果如圖2。
3.2停留點檢測算法
由于時空數據包含著該數據點采集的時間和數據點的經緯度信息等,所以我們可以通過對數據點間的距離和時間差的限制來實現停留點的檢測和初步篩選?;痉椒ㄊ峭ㄟ^定義一段時間內移動距離不超過特定值的點即為停留點。
停留點算法思想,參數含義以及參數設置及影響。
輸入:預處理后的數據集,停留點時間限,停留點距離限
輸出:停留點集合 sp={s}
i=0,pointNumber=len(G),sp_ID = 0