程豪,呂曉玲,范超,趙昱
(1.中國科學技術協(xié)會創(chuàng)新戰(zhàn)略研究院調(diào)查統(tǒng)計中心,北京100012;2.中國人民大學a.應用統(tǒng)計科學研究中心;b.統(tǒng)計學院,北京100872;3.QuestMobile&人大統(tǒng)計移動互聯(lián)網(wǎng)大數(shù)據(jù)研究院,北京100015)
近年來,“打造智能生活”的理念不斷落實到社會各個領域。作為智能化產(chǎn)業(yè)之一,智能手機的迅猛發(fā)展,影響并改變著人們的生活方式。智能手機的普及和推廣直接導致海量數(shù)據(jù)和信息的產(chǎn)生。比如,越來越多的用戶位置信息(GPS軌跡、手機的基站定位數(shù)據(jù)等)能夠被精確地記錄和獲取[1]。隨著日常運營中生成和積累的用戶行為數(shù)據(jù)的逐漸堆積龐大,給人類在這些數(shù)量龐雜、種類繁多的資源中甄別并獲取有價值的信息資源增加了難度[2]。因此,數(shù)據(jù)清洗和數(shù)據(jù)分析顯的更為重要。而針對智能手機監(jiān)測數(shù)據(jù)的數(shù)據(jù)清洗方案鮮有人涉及,如何在盡可能保證信息不受損失的同時,清晰條理的提出一套智能手機數(shù)據(jù)清洗方案顯得尤為迫切。
目前有關手機大數(shù)據(jù)的研究主要集中通過手機GPS或通信基站來獲取用戶的具體地理位置經(jīng)緯度數(shù)據(jù),以此來分析用戶的行為軌跡特征,研究的內(nèi)容主要集中在智能交通和用戶行為兩個方面[3]。在智能交通方面,Zhang等[4]研究數(shù)據(jù)驅(qū)動下的智能交通系統(tǒng),Cao等[5]根據(jù)GPS軌跡繪制電子地圖等;在用戶行為方面,Pablo[6]根據(jù)行為理解提煉出用戶行為模式、Leskovec等[7]在考慮時間因素下討論社交關系、David等[8]根據(jù)地理信息完成服務推薦研究等。但是,這些研究往往基于用戶在生活中進行用餐、購物、旅游等與物理世界緊密相連的行為[1],將用戶的生活狀態(tài)和興趣習慣毫無保留的予以公開,其敏感性導致研究工作受到局限。此外,將研究關注在用戶行為軌跡方面,而非手機屬性本身,對手機智能化推廣指導借鑒意義不大。在智能手機逐步取代傳統(tǒng)功能型手機的大潮中,通過對手機用戶群體現(xiàn)在選擇偏好和潛在需求的深入研究[9],并提供方法學依據(jù),成為智能手機廠商成功打開市場急需思考的問題。
因此,本文提出以APP應用程序為用戶行為標識,分析不同手機屬性下的用戶行為特征,預測選擇偏好,為智能手機監(jiān)測數(shù)據(jù)的研究提供一種新思路。
本文數(shù)據(jù)來自QM公司的智能手機監(jiān)測數(shù)據(jù)。該數(shù)據(jù)包括2015年2月1日到5月17日內(nèi)13余萬安卓系統(tǒng)用戶,具備數(shù)據(jù)量巨大(Volume)、增長速度快(Velocity)、內(nèi)容多樣化(Variety)、價值密度低(Value)的4V特征。見表1所示。
本文以Shell、Python為工具[10],根據(jù)手機用戶數(shù)據(jù)特點和分析目的,提取用戶ID全集及相關信息表和用戶APP使用信息表。其中,用戶ID全集及相關信息表包含用戶的地理位置和手機型號數(shù)據(jù)。這兩項數(shù)據(jù)是用戶重要的特征標簽,但并非所有的用戶都存在地理位置和手機型號信息記錄,本文提取在106天中同時存在該兩項信息記錄的人群。
用戶ID全集及相關信息表的提取流程如下(流程圖見圖1):
圖1 用戶ID全集及其相關信息表的提取流程圖
第1步:根據(jù)106天每天的地理位置數(shù)據(jù)表,將用戶ID及所在省份合并作為唯一標識,進行word count處理。
第2步:根據(jù)106天每天的手機型號信息表,以用戶ID、品牌、型號、尺寸、分辨率為唯一標識進行word count處理。
第3步:將106天的word count結果合并,進而得到在Location表和手機信息表中都出現(xiàn)過的所有用戶ID,并記錄他們被監(jiān)測的天數(shù)、次數(shù)。
第4步:106天匯總結果中可能存在用戶ID重復的問題,原因是某用戶在這106天中出入了多個省份,或者是使用過不同的手機。為解決該問題,本文將用戶在106天內(nèi)停留時間最長的省份作為該用戶的常駐省份,將其使用時間最長的手機型號作為該用戶的常用手機。
第5步:最后根據(jù)用戶ID匹配的省份和手機信息,將無法匹配的用戶刪除,最終得到132845名用戶ID全集及相關信息表。
用戶APP使用信息表的提取流程如下(流程圖見圖2):
圖2 APP使用信息表的提取流程圖
第1步:提取每天的App行為監(jiān)測表,按用戶ID以及打標簽后的APP類別作為唯一識別,匯總每人每天每類APP的使用時長,把不屬于APP分揀表內(nèi)的APP標記為ELSE類處理。
第2步:利用第1步得到的匯總數(shù)據(jù),根據(jù)用戶ID將其各類APP使用時間進行連接,進而得到每人每天每類APP使用情況矩陣。該矩陣中每一行代表一個用戶,每一列代表一個APP,每個位點的數(shù)據(jù)代表該用戶當天使用該APP的時間。
第3步:根據(jù)用戶ID將第2步中得到的用戶APP使用情況矩陣進行匯總,進而得到106天每人每類APP總使用時間及使用天數(shù)矩陣,最后刪除ELSE類所在的列。
根據(jù)數(shù)據(jù)中的現(xiàn)有信息,以20類APP使用時間(單位:秒)作為用戶行為特征的標識,通過研究手機名牌、價格、屏幕大小和分辨率四個屬性與20類APP間的關系,對用戶進行分類,并為不同類用戶貼標簽。由于任一屬性與APP間的相關系數(shù)都較低(大多在0.1以下),故可以推斷變量間不存在顯著的線性關系??紤]到所選模型要既能夠分析數(shù)據(jù)間的非線性特征,又能對變量間的關系有較強的解釋性,因此選擇決策樹[11]作為分析工具,分析用戶行為特征。需要說明的是,本文以使用人數(shù)超過100為標準,從3000多款手機型號中選取240個具體型號(涉及用戶102614人),通過中關村在線(www.zol.com.cn)網(wǎng)站獲得手機價格。
經(jīng)統(tǒng)計,102614個用戶中三星和小米的使用比重最高(分別占43.7%和22.3%)。這兩個品牌中國市場也極具代表性,不妨以品牌二分類變量(三星、小米)為因變量,20類APP的使用時間為自變量,構建決策樹1(如圖3所示)。102614個用戶中,手機價格的中位數(shù)為1400元,不妨定義小于等于1400元的手機為價格相對便宜的低端手機,大于1400元的手機為價格較貴的高端手機,即把手機價格轉(zhuǎn)換為取值為高端和低端的二分類因變量,構建決策樹2(如下頁圖4所示)。同理,以屏幕尺寸的中位數(shù)為5寸為分界,將小于5寸的手機定義為小屏幕手機,大于等于5寸的手機定為大屏幕手機,構建決策樹3(如下頁圖5所示)。設定對角線分辨率<=1500為低分辨率手機,對角線分辨率>1500為高分辨率手機,構建決策樹4(如下頁圖6所示)。
圖3 基于手機品牌構建的決策樹1
圖4 基于手機價格構建的決策樹2
圖5 基于手機屏幕大小構建的決策樹3
圖6 基于手機屏幕分辨率構建的決策樹
圖3表明,區(qū)分三星和小米用戶的最主要變量是系統(tǒng)工具(手機自帶的應用、刷機軟件等)。三星手機用戶的特征是對系統(tǒng)工具的使用更頻繁,且非常喜歡使用通信聊天APP(微信、QQ等),會使用網(wǎng)絡金融APP(理財、基金應用等),但對于鬧鐘、天氣預報等實用工具的使用則較少;而部分小米用戶非常喜歡滴滴打車等汽車服務類應用,對手機自帶的系統(tǒng)工具則使用較少,但對鬧鐘、萬年歷等實用工具的使用相對多一些。因此,三星手機的特點是手機內(nèi)已事先安裝了大量質(zhì)量較好的APP(如日歷、鬧鐘等功能),用戶已無需再下載安裝這類實用軟件,導致對系統(tǒng)工具使用較多而對實用工具APP使用較少。而有些用戶可能覺得預裝的APP過多,因此會用ROOT系統(tǒng)工具軟件來卸載部分APP。小米手機用戶追求的是手機性價比,注重價格,使用者多為年輕人,他們易于嘗試新鮮事物,因此對滴滴打車這類既方便又省錢的新鮮事物感興趣。
圖4表明,判別用戶使用手機價位的最重要變量是實用工具,使用高端機的用戶特點是喜歡使用效率辦公APP,也會使用新聞資訊APP,相比低端手機用戶,游戲軟件的使用也更為頻繁,但對打車軟件(即汽車服務)使用較少;而低端機型用戶的特點是基本不使用新聞資訊和效率辦公APP,對APP的普遍使用相對較少。因此,中高收入者一般會使用高端機型,他們大多屬于社會精英,注重辦事效率和時事新聞,而不太關注像滴滴打車這種“占便宜”的行為。高端機通常是大屏幕、高分辨率、運行速度快,適合玩游戲。而低端機配置一般,內(nèi)置軟件的用戶體驗也一般,使用APP會降低手機運行速度,因此對APP整體使用較少。此外,一般老年人會選擇低端機,對APP的整體使用也相對較少。
圖5表明,區(qū)分用戶屏幕大小偏好的最重要變量是系統(tǒng)工具,大屏手機用戶更愛玩游戲,愛聊天,使用主題美化APP和效率辦公軟件。而小屏手機則對這些APP使用較少。因此,大屏手機更適合玩游戲,適合聊QQ,也適合通過主題美化軟件為屏幕設定更漂亮的壁紙,且大屏手機可能價格更貴,因此,注重效率的社會精英更青睞這類手機。而小屏手機則不適合玩游戲,不適合長時間看手機屏幕,用戶僅是用于最基本的通信功能,較少使用游戲、主題美化等APP。
圖6表明,使用高分辨率用戶的特點是經(jīng)常使用通信聊天、游戲和網(wǎng)絡視頻APP,使用低分辨的用戶則不常用這些APP。顯然,因為高分辨率的手機屏幕更加清楚,更適合打游戲、看視頻及網(wǎng)上聊天。
根據(jù)用戶行為特征研究建立監(jiān)督學習下的預測模型,預測不同特征的用戶更傾向于選擇使用哪類手機,可為手機廠商提供巨大的商業(yè)前景。按照Breiman對統(tǒng)計模型的劃分[11,12],本文分別選擇4個數(shù)據(jù)模型(線性判別分析、二次判別分析、Probit回歸和Logistic回歸)和4個算法模型(決策樹、Bagging、隨機森林和人工神經(jīng)網(wǎng)絡)。其中,判別分析和Logistic回歸是統(tǒng)計學中常用的分類方法,應用領域非常廣泛,特別在醫(yī)學生物學領域和經(jīng)濟管理等研究領域。需要說明,線性判別需要假定兩類樣本的協(xié)方差矩陣相同,而二次判別的假定不同。作為最早的組合數(shù)方法之一,Bagging實現(xiàn)了從訓練集中隨機抽取部分樣本生成決策樹[11]。而在此基礎上提出的隨機森林在每個分割節(jié)點處隨機選取一定數(shù)量的變量而非所有變量,避免某些“強勢”變量支配模型。大量研究表明,隨機森林具有很高的預測準確率,對異常值和噪聲具有很好的容忍度,且不容易出現(xiàn)過擬合[11]。人工神經(jīng)網(wǎng)絡(NNET)作為一種按照誤差逆?zhèn)鞑ニ惴ㄓ柧毜亩鄬忧梆伨W(wǎng)絡,具有良好的自適應能力和自學習能力[11,13]。人工神經(jīng)網(wǎng)絡可以通過比較模型在測試集和訓練集上的分類正確率,以訓練集分類正確率最大處為最佳層數(shù)(見表2)。
表2 人工神經(jīng)網(wǎng)絡的最佳層數(shù)
研究表明,對于價格和分辨率,選取1層最為合適,對于品牌和屏幕大小,選取2層最為合適(見表2)。確定好人工神經(jīng)網(wǎng)絡的最佳層數(shù)后,用決策樹(DT)、Bagging(BG)、隨機森林(RF)、人工神經(jīng)網(wǎng)絡(NNET)、Logistic回歸(LR)、Probit回歸(PR)、線性判別分析(LDA)和二次判別分析(QDA)進行10折交叉驗證,計算測試集和訓練集的平均正確率。
顯然,兩種組合方法(Bagging和隨機森林)在訓練集上表現(xiàn)最優(yōu),手機4個屬性的分類正確率幾乎均為1(見表3)。但是,測試集上的分類表現(xiàn)才是手機選擇偏好預測效果的評判標準。研究表明,根據(jù)手機價格預測用戶選擇偏好效果最好的模型為Bagging(0.662);根據(jù)手機品牌預測用戶選擇偏好效果最好的模型為隨機森林(0.858),Bagging(0.857)的表現(xiàn)不差上下;根據(jù)手機屏幕分辨率預測用戶選擇偏好效果最好的模型為Logistic回歸(0.696);根據(jù)手機屏幕大小預測用戶選擇偏好效果最好的模型為隨機森林(0.628)。
表3 8個模型在測試集和訓練集的平均正確率
以測試集上分類正確率為評判標準,預測效果最佳者推薦為手機偏好預測模型。4個手機屬性中有2個(手機品牌和手機屏幕大?。┩扑]隨機森林,3個(手機價格、手機品牌和手機屏幕大?。┩扑]組合算法。因此,應該推薦組合算法(尤其是隨機森林)作為手機屬性整體意義上的最佳預測模型。4個手機屬性中,手機價格、手機分辨率和手機屏幕大小在8個模型下的分類正確率都不是很高(低于0.700)。而8個模型在手機品牌這一屬性的分類正確率幾乎都在相對較高的水平(80%左右),明顯高于其他屬性。因此,可以考慮根據(jù)手機品牌一個屬性對手機選擇偏好進行預測,減少獲取手機價格、手機分辨率和手機屏幕大小信息的任務量,提高預測效率。綜上所述,根據(jù)手機品牌,選擇組合算法,依次計算隨機森林和Bagging的分類正確率,兼顧兩種模型的預測效果,為手機生產(chǎn)廠商推測消費者選擇偏好提供指導和借鑒。
智能手機的推廣和普及隨時隨地產(chǎn)生海量的數(shù)據(jù)信息。這些數(shù)據(jù)的清洗會直接影響后續(xù)研究結論。就用戶ID全集及相關信息表和用戶APP使用信息表的數(shù)據(jù)提取問題,本文提出一套清洗方案,為大數(shù)據(jù)清洗提供一種思路。智能手機用戶行為特征分析揭示了不同手機屬性下用戶行為規(guī)律:(1)三星用戶更傾向使用系統(tǒng)工具、通信聊天、網(wǎng)絡金融,小米用戶更傾向使用汽車服務、實用工具;(2)高端機用戶較多使用效率辦公、游戲,關注新聞資訊,低端機用戶較少使用APP;(3)大屏手機用戶喜歡玩游戲、網(wǎng)聊和美化手機,小屏手機用戶則對以上行為不感興趣;(4)高分辨率手機用戶較常使用通信聊天、游戲、網(wǎng)絡視頻,低分辨率手機用戶則較少使用上述應用。這些研究結論反饋用戶的真實感受與偏好,明確智能手機未來的研發(fā)方向,縮短產(chǎn)品更新速率,也為手機生產(chǎn)和銷售提供指導和借鑒。以用戶行為特征分析為基礎,預測手機選擇偏好面臨模型選擇的挑戰(zhàn)。通過8大模型的對比研究,選擇針對智能手機選擇偏好預測效果最好的模型——隨機森林和Bagging,為智能手機由研發(fā)階段投入市場環(huán)節(jié)提供方法學依據(jù),提升整個智能產(chǎn)業(yè)的運營效率,為打造智能生活提供基石。
但是,本文以安卓系統(tǒng)的智能手機用戶為例,沒有涉及蘋果用戶。用戶行為特征與選擇偏好預測的相關結論是否適用于所有智能手機數(shù)據(jù),有待進一步研究。
[1]張富崢.基于大規(guī)模位置和消費數(shù)據(jù)的用戶行為理解[D].合肥:中國科學技術大學博士學位論文,2015.
[2]呂苗.基于情境的商品個性化推薦方法研究[D].大連:大連理工大學博士學位論文,2015.
[3]陳康,黃曉宇,王愛寶等.基于位置信息的用戶行為軌跡分析與應用綜述[J].電信科學,2013,(4).
[4]Zhang J P,Wang F Y,Wang K F.Data-driven Intelligent Transportation Systems:A Survey[J].IEEE Transations on Intelligent Transportation Systems,2011,(7).
[5]Cao L,Krumm J.From GPS Traces to a Routable Road Map[R].17thACM SIGSPATIAL International Conference on Advances in Geographic Information Systems,2009.
[6]PabloBellver A K.Extracting Patterns From Location History[R].In Proceedings of the 19th ACM SIGSPATIAL International Conference on Advances in Geographic Information Systems,2011.
[7]Leskovec J,Kleinberg J,Faloutsos C.Graphs Over Time:Densification Laws,Shrinking Diameters and Possible Explanations[R].Proceedings of the Eleventh ACM SIGKDD International Conference on Knowledge Discovery in Data Mining,2005.
[8]Crandalla D J,Backstromb L,Cosleyc D.Inferring Social Ties from Geographic Coincidences[J].Proceedings of the National Academy of Sciences of the United States of America,2010,(10).
[9]楊歡.基于聯(lián)合分析的智能手機購買偏好研究——以北京地區(qū)大學生為樣本[D].北京:北京工商大學碩士論文,2013.
[10]Miller T W.Modeling Techniques in Predictive Analytics With Python and R[M].London:Pearson Education,Inc.,2014.
[11]Hastie T,Tibshirani R,Friedman J.The Elements of Statistical Learning:Data Mining,Inference and Prediction[M].Heidberg:Springer,2001.
[12]Breiman L.Statistical Modeling:The Two Culture[J].Statistical Science,2001,(16).
[13]劉鵬飛.基于神經(jīng)網(wǎng)絡的數(shù)據(jù)統(tǒng)計研究[D].西安:西安科技大學碩士論文,2012.