徐 恩, 於志文, 杜 賀, 郭 斌
(西北工業(yè)大學 計算機學院普適與智能計算研究所 陜西 西安 710129)
用戶畫像[1]是基于一系列數(shù)據(jù)的模型.用戶具有人口統(tǒng)計信息以及隱含特征,如愛好和人格特征.基于用戶畫像,我們可以標記一個或一類用戶并獲得他們的信息結(jié)構(gòu).此外,用戶畫像可以更準確地了解此人,并實現(xiàn)精準營銷和個性化服務(wù).例如,用戶畫像可以用于推薦[2-3].根據(jù)用戶的年齡和性別,360公司為不同年齡段和性別的用戶創(chuàng)建個性化的應(yīng)用推薦.不同年齡的人對應(yīng)用程序有不同的偏好.文獻[4]指出不同性別的用戶使用手機的習慣也會有差異.因此,了解用戶的年齡和性別有助于為不同用戶提供適當?shù)姆?wù).文獻[5]提出的大五人格是一個識別人格的研究框架,其中包含5個因素來描述人的人格特征.文獻[6]證明大五人格與手機使用有關(guān)聯(lián).在本文中,我們提出了基于多維感知數(shù)據(jù)的用戶畫像模型.從年齡、性別和人格特征方面描述用戶.我們使用隨機森林回歸算法來估計用戶年齡,使用隨機森林分類來檢測他們性別,并且利用支持向量回歸(support vector regression,SVR)算法識別人格特征.我們構(gòu)建用戶畫像的方法經(jīng)過驗證是有效的.
我們的工作主要涉及兩個方面:用戶識別和用戶大五人格預(yù)測.文獻[7]利用加速度傳感器、GPS數(shù)據(jù),識別用戶五種移動類型.文獻[8]利用用戶的移動軌跡和無線終端的電子信號識別用戶.文獻[9]從用戶安裝的程序列表刻畫用戶的基本屬性.本文不僅關(guān)注用戶的外在特征,也分析用戶的內(nèi)在屬性[10].現(xiàn)已有大量的研究旨在挖掘用戶的大五人格.例如文獻[6]根據(jù)采集的SMS、通話記錄、應(yīng)用程序登錄情況和藍牙記錄分析用戶的人格. 文獻[11]基于用戶的Facebook點贊情況分析其人格特征.文獻[12]分析不同人格特征的人對手機功能的關(guān)注點.文獻[13]基于微博信息分析用戶的情緒.文獻[14]基于用戶文本評論分析用戶的情感傾向.以往基于智能手機的研究多從短信和通話情況出發(fā)收集數(shù)據(jù),而在采集短信和通話信息時,可能會侵犯到用戶的隱私.因此本文采集非敏感數(shù)據(jù),且在用戶本地處理不用上傳至服務(wù)器,分析用戶使用習慣,對用戶的大五人格進行識別.
我們首先利用內(nèi)置的傳感器和事件監(jiān)聽器收集用戶的數(shù)據(jù).接下來,根據(jù)人們使用手機不同場景提取不同的特征,并使用相應(yīng)的模型實現(xiàn)用戶畫像構(gòu)建.
數(shù)據(jù)采集:系統(tǒng)通過手機中的傳感器和事件監(jiān)聽器收集數(shù)據(jù).系統(tǒng)中傳感器的采樣率設(shè)置為SENSOR_DELAY_GAME采樣率.如果狀態(tài)改變,則記錄其余信息.
特征提?。何覀兲崛∮脩舢嬒駱?gòu)建的使用特征、偏好特征和活動特征.具體來說,在年齡估計部分,我們在解鎖屏幕場景中收集加速度計、磁力計和光線傳感器數(shù)據(jù).對于解鎖屏幕,我們分析了拿起手機階段的仰角和傾角,以及滑動屏幕階段的觸摸特征.在性別檢測中,我們通過加速度計、磁力計和陀螺儀感知數(shù)據(jù)計算解鎖屏幕場景中仰角和傾斜角度.在人格特征識別中,我們獲取不同的時間窗口下應(yīng)用程序使用情況、電池、耳機、手機模式、網(wǎng)絡(luò)和屏幕狀態(tài)等特征.
構(gòu)建用戶畫像:本工作中的用戶畫像包括年齡估計、性別檢測和人格特征識別.對于年齡估計和人格特征識別,利用Pearson相關(guān)系數(shù)挖掘使用習慣和用戶屬性之間的關(guān)系.我們應(yīng)用隨機森林回歸方法進行年齡估計,使用隨機森林分類方法進行性別檢測,并采用SVR進行人格特征鑒定.
年齡和性別是關(guān)于人的兩個最基本的人口統(tǒng)計學屬性.了解用戶的年齡和性別有助于提供個性化的服務(wù).
對于加速度計和磁力計,它們是三軸傳感器.有時,智能手機的變化可能會反映在傳感器的一個或兩個方向上.因此,我們將三軸感應(yīng)數(shù)據(jù)轉(zhuǎn)換為單軸,以更好地了解傳感器值的變化,所用公式為
(1)
同時,我們使用加速度計和磁力計來計算方位值且利用滑動窗口來獲得關(guān)鍵點.
一般來說,解鎖屏幕的過程可以分為兩個步驟:拿起手機和滑動屏幕.
圖1 解鎖屏幕動作過程中的方向改變Fig.1 Change of direction during unlocking screen action
從圖1中可以看到,一開始手機的仰角和傾斜角度始終是水平的,這意味著手機穩(wěn)定放置;那么當用戶拿起電話時就會有一個明確的轉(zhuǎn)折點,而且仰角顯示出明顯的下降,并且在曲線上升之后,轉(zhuǎn)為穩(wěn)定之前還有另一個轉(zhuǎn)折點,第二個轉(zhuǎn)折點表示開始滑屏.
1) 拿起手機:在圖2(a)中,我們可以看到兒童波動幅度最大,這意味著孩子們拿起手機會有較大的前后晃動.從圖2(b)看出,老人拿起手機時,波動比小孩小.成人可以用最小的振幅拿起手機.在拿起手機階段,我們提取了8個特征:當用戶拿起手機時,手機仰角和傾角的最大值、最小值、平均值和方差.
圖2 用戶拿起手機時仰角的變化Fig.2 Change of elevation angle when user picks up mobile phone
2) 滑屏解鎖:如圖3所示,我們可以看到,所有用戶在滑動屏幕上花費的時間明顯不同.老人需要更長的時間來解鎖.對于一些孩子來說,他們比大多數(shù)老人需要更長的時間,因為他們太小了,無法方便地使用手機.但是對于大多數(shù)孩子來說,他們的滑動時間比老年人短.
基于上述觀察,滑動屏幕過程中的特征對于預(yù)測用戶的年齡非常有用.這個年齡預(yù)測系統(tǒng)不會使用用戶的敏感信息.我們總共提取了以下特征.
滑動起始區(qū):起點區(qū)域和終點區(qū)域.我們將手機屏幕分成8*10個區(qū)域.
滑動角度:滑動軌跡與水平軸之間的角度,定義為sa.
滑動距離:滑動的長度,定義為sd.
滑動持續(xù)時間:用戶開始觸摸和離開屏幕的持續(xù)時間,定義為st.
滑動速度:滑動距離與滑動持續(xù)時間的比值,定義為sd/st.
由文獻[15]可知男性平均手掌比女性大,手指長度更長.文獻[16]證明了拇指長度不同會生成不同的滑動手勢.另外手掌的大小和彎曲角度不同,手機的傾仰角也會不同.這些理論激勵我們探索不同性別人群使用手機的區(qū)別.
對于絕大多數(shù)用戶來說,他/她解鎖手機需要拿起手機并輕掃屏幕來解鎖.根據(jù)年齡預(yù)測中對解鎖場景的分析,我們用同樣的方法,分析不同性別用戶在解鎖屏幕場景中的操作.當女性拿起手機時,我們可以觀察到仰角變化更劇烈.由文獻[16]可知,當涉及滑動手勢時,男性的完成時間更短、速度更快、加速度更大.結(jié)合年齡預(yù)測中的滑動屏幕動作,我們提取了相同的特征:滑動起始區(qū)域、滑動角度、滑動距離、滑動持續(xù)時間和滑動速度.如圖4所示,我們可以看到,當滑動屏幕解鎖手機時,男性比女性滑動速度快.這與文獻[16]的研究結(jié)果一致.
圖3 解鎖屏幕的滑動時間Fig.3 The time of the slide to unlock screen
圖4 解鎖畫面中的滑屏速率Fig.4 The speed of the slider when unlocking the screen
3.4.1年齡階層 在年齡預(yù)測中,我們將人們分為兒童、中青年和老年人,以分析他們使用手機時的差異.根據(jù)世界衛(wèi)生組織的研究報告(https://www.who. int/healthinfo/survey/ageingdefnolder/en/),我們將年齡大于等于60歲的人視為老年人,18歲以下的人可視為兒童.在我們的工作中,將5~18歲的人視為兒童,因為該年齡的用戶能夠使用手機.
3.4.2年齡預(yù)測 預(yù)測年齡是一個回歸問題.我們在年齡預(yù)測中探索多種監(jiān)督學習方法:構(gòu)建線性回歸、支持向量回歸、決策樹、神經(jīng)網(wǎng)絡(luò)和隨機森林模型,并利用10倍交叉驗證來衡量預(yù)測年齡的能力.同時使用均方根誤差、決策系數(shù)和Pearson相關(guān)系數(shù)來評估預(yù)測結(jié)果.
3.4.3性別分類 我們使用隨機森林、樸素貝葉斯、多層感知器和支持向量機來構(gòu)建性別分類系統(tǒng).為了訓練每個預(yù)定義屬性的分類器,我們使用10倍交叉驗證策略.
3.4.4數(shù)據(jù)采集 在年齡預(yù)測實驗中,我們招募了35名志愿者,其中包括12名兒童、10名老年人和13名中青年.其中男性18人,女性17人.在用戶性別分類實驗中,我們招募了30名大學生作為志愿者,其中男性15人,女性15人.在數(shù)據(jù)采集中,用戶在使用手機時,應(yīng)安裝About_YOUR_Property應(yīng)用程序.采集使用手機滑屏解鎖過程中傳感器的數(shù)據(jù).在兩個實驗中分別采集了將近8 000條的數(shù)據(jù).
3.5.1年齡預(yù)測 在年齡預(yù)測中,我們從解鎖屏幕場景提取了16個特征參數(shù).首先,我們使用特征分布來評估特征.然后,基于Pearson相關(guān)系數(shù)評估這些特征.
圖5 年齡預(yù)測中的特征分布Fig.5 The characteristic distribution in age prediction
特征分布及相關(guān)性分析:我們將解鎖屏幕過程劃分為拿起手機和滑屏解鎖.滑動窗口用于確定用戶拿起手機滑屏的時間點.圖5即為解鎖屏幕時,滑屏速率分布圖.從中我們可以看出,當用戶滑屏解鎖時,69.45%的小孩滑屏速率為1.21~3.74 px/ms;51.50%的中青年滑屏速率為1.99~3.30 px/ms;而所有老人滑屏速率為0.03~1.82 px/ms.我們使用Pearson相關(guān)系數(shù)(用r表示)來計算特征與年齡之間的相關(guān)性.拿起手機時,用戶的年齡與仰角的最小值呈正相關(guān)(r=0.329,p<0.001),這意味著當老人拿起手機時,手機的仰角較大.
3.5.2性別分類 在這個實驗中,我們將評估解鎖屏幕場景下16個特征的分布情況.
特征分布:依據(jù)經(jīng)驗,同樣我們將滑屏窗口的大小選定為0.2 s,而兩個相鄰的滑動窗口之間的時間間隔選定為0.1 s.如圖6為解鎖屏幕時手機仰角方差的變化分布直方圖.從中我們可以看出,當方差在0~400范圍內(nèi),男性用戶有93.33%的人集中在這個區(qū)間,而女性用戶只用73.33%集中在這個區(qū)間.依此可以知道女性用戶滑屏解鎖時手機仰角的波動更大.
3.6.1年齡預(yù)測 均方根誤差和決策系數(shù)R是實驗評估標準參數(shù).通過利用提取的特征,我們使用隨機森林回歸算法來實現(xiàn)用戶年齡預(yù)測.均方根誤差值為4.445,相關(guān)系數(shù)為0.985,R2為0.971.
我們選擇線性回歸、支持向量回歸、決策樹、神經(jīng)網(wǎng)絡(luò)和隨機森林5種回歸模型來評估年齡識別系統(tǒng).圖7顯示了每個分類模型的結(jié)果.隨機森林的均方誤差為4.445,表明實測年齡與實際年齡的偏差為4.445歲,優(yōu)于其他4種模式.
圖6 性別預(yù)測中的特征分布Fig.6 The characteristic distribution in gender prediction
圖7 不同方法的均方根誤差Fig.7 The RMSE of different methods
3.6.2性別分類 最終我們將準確率和召回率作為用戶性別識別系統(tǒng)的評價標準參數(shù).我們分別構(gòu)造了隨機森林、多層感知機、支持向量機和樸素貝葉斯4種分類器對用戶的性別進行預(yù)測分析.如圖8所示為4種算法的表現(xiàn)結(jié)果,相對來說,隨機森林算法構(gòu)造的分類器要優(yōu)于其他3種算法構(gòu)建的分類器.隨機森林算法構(gòu)建的分類器準確率能夠達到91.70%,召回率能夠達到73.30%.
圖8 4種算法結(jié)果Fig.8 The results of four algorithms
完整的用戶畫像應(yīng)該包含外在和內(nèi)在屬性.我們將識別用戶的人格特征來描述他/她的內(nèi)在屬性.基于文獻[16],我們開發(fā)了一款名為WhatsHabit的應(yīng)用程序,用于收集應(yīng)用程序的使用情況、電池、耳機、移動模式、網(wǎng)絡(luò)和屏幕狀態(tài)數(shù)據(jù).我們收集了大約兩周的應(yīng)用程序使用情況.
我們分別選擇1、6、12、18、24小時為時間窗口采集數(shù)據(jù).
應(yīng)用程序使用中的特征提?。河捎谟行〢PP對應(yīng)的數(shù)據(jù)比較稀疏.也就是說,有一些APP可能僅被一位用戶使用過一次,所以我們按照Google Store將用戶APP進行分類,并剔除一些系統(tǒng)自帶的應(yīng)用程序,最后將32位用戶的所有應(yīng)用分成28類.同時,我們從7個大方面展開,提取相應(yīng)的特征.分別是每個類別的應(yīng)用程序使用的次數(shù)、每類應(yīng)用程序安裝的個數(shù)以及每個類別的使用時間.
電池電量:對于電池電量,大約每五分鐘完成一次掃描.因為每位用戶采集了兩周的數(shù)據(jù),因此我們記錄電量的消耗情況、充電次數(shù)以及在每個時間窗口內(nèi)用戶最常用的充電方式.
是否插入耳機:考慮到不同人格特征的用戶在使用手機時會有不同的偏好,因此采集手機中耳機狀態(tài)變化時間及變化情況,進而計算用戶連接或不連接耳機的次數(shù),以及耳機最常用的連接狀態(tài).
情景模式:情景模式一般包含標準模式、靜音模式和振動模式.統(tǒng)計用戶最常使用的情景模式以及在一個時間窗口內(nèi),切換情景模式的次數(shù).
聯(lián)網(wǎng)情況:記錄了手機的聯(lián)網(wǎng)方式,包含最常見的5類,即Wi-Fi、4G、3G、2G和沒有聯(lián)網(wǎng).統(tǒng)計連接不同網(wǎng)絡(luò)的次數(shù),并計算其均值,并記錄用戶在不同時間窗口下最常使用的聯(lián)網(wǎng)方式.
屏幕狀態(tài):考慮到由于人格特征不同,每個用戶每天花在手機上的時間可能存在差異.我們統(tǒng)計用戶開關(guān)屏的次數(shù);并計算人格特征與使用手機時長的關(guān)系.
用戶人格識別可以分為兩個方面:基于問卷結(jié)果的用戶自我評估和基于手機使用的人格識別.
基于問卷結(jié)果的用戶自我評估.用戶需要填寫“大五人格”問卷,其中包含60道題,每一個問題我們根據(jù)實驗人員的選項給其計分,其中包括正向計分和負向計分兩種.最后我們將用戶在5個分量表上獲得的積分視為他們各自的大五人格特征.
基于手機使用的人格識別.我們收集了大約兩周的數(shù)據(jù).然后,我們從這些數(shù)據(jù)中提取出有效特征,并將各個特征與用戶關(guān)聯(lián),最終構(gòu)建一個用戶與使用手機習慣的特征矩陣.
我們利用實驗人員使用習慣特征矩陣與大五人格矩陣構(gòu)建5個回歸模型,分別得到手機使用習慣與大五人格之間的回歸方程.為了防止過擬合,我們采取十折交叉驗證法檢驗系統(tǒng)的準確率.
4.3.1實驗設(shè)置 在實驗中,招募了32名大學生,共16名男生和16名女生作為志愿者.我們采集了兩周的用戶手機使用信息.總共采集7類特征,最終采集了78.9 MB數(shù)據(jù).
4.3.2功能評估 在實驗中,首先評估特征對人格特征識別的有效性.我們使用Pearson相關(guān)分析來評估.模型會受到異常值的影響,通過經(jīng)驗去除相關(guān)性小于0.3的32名志愿者大五人格的問卷結(jié)果顯示如表1.
1) 開放性:開放性較高的用戶更愿意使用AC充電(r=0.337,p=0.030).高度開放性的人不經(jīng)常打開文件管理(r=-0.458,p=0.004).高度開放的用戶傾向于在音樂和音頻應(yīng)用程序上花費更多時間(r=0.404,p=0.011).同時,他們將安裝較少的安全類應(yīng)用程序(r=-0.377,p=0.017).
表1 大五人格統(tǒng)計結(jié)果Tab.1 The Result of Big Five Personality
2) 盡責性:盡責性與手機充電次數(shù)呈正相關(guān)(r=0.400,p=0.012),與用戶點亮屏幕的次數(shù)呈負相關(guān)(r=-0.436,p=0.006).責任心與通信應(yīng)用的數(shù)量呈負相關(guān)(r=-0.421,p=0.008)和社交應(yīng)用(r=-0.376,p=0.017)也是負相關(guān),會在旅行應(yīng)用(r=0.398,p=0.012)上花更多時間.
3) 外傾性:外傾性的用戶傾向少用耳機(r=-0.504,p=0.002),耳機連接時間也更短(r=-0.359,p=0.022).用戶解鎖屏幕的次數(shù)也與外傾性呈負相關(guān)(r=-0.384,p=0.015).外傾性用戶更傾向于使用體育應(yīng)用(r=0.457,p=0.004).書籍應(yīng)用內(nèi)向用戶會更喜歡(r=-0.443,p=0.006).
4) 宜人性:宜人性用戶可能會經(jīng)常使用耳機(r=-0.365,p=0.020).高度友善的用戶會使用更多的通信軟件(r=0.319,p=0.038).宜人性得分越高的用戶越喜歡使用教育軟件.宜人性與游戲應(yīng)用程序之間存在正相關(guān)關(guān)系(r=0.405,p=0.011).
5) 神經(jīng)質(zhì):神經(jīng)質(zhì)與通信軟件的數(shù)量呈負相關(guān)(r=-0.310,p=0.042).高神經(jīng)質(zhì)用戶使用手機傾向振動模式(r=-0.371,p=0.018),更多的耳機連接(r=0.303,p=0.046),更多的新聞雜志應(yīng)用(r=0.350,p=0.025).用戶打開音樂應(yīng)用的次數(shù)與神經(jīng)質(zhì)呈正相關(guān)(r=0.346,p=0.026).
4.3.3人格特征識別評估 同時,為了評估回歸模型的擬合優(yōu)度,我們使用確定系數(shù)(R2)作為評估標準,R2表示回歸直線對觀測值的擬合程度.
我們使用十倍交叉驗證來確定與大五人格對應(yīng)的5個回歸方程的參數(shù)和權(quán)重.對于開放性、盡責性、外傾性、宜人性和神經(jīng)質(zhì),我們使用SVR回歸模型來計算均方根誤差,并且該值分別為0.290、0.351、0.465、0.302、0.452.表明預(yù)測值和真實值之間的誤差分別為±0.29、±0.35、±0.47、±0.30、±0.45,r分別為0.81、0.05、0.62、0.57、0.62,p≤0.05.
在本文中,我們基于手機感知數(shù)據(jù)從年齡,性別和人格特征描述用戶.年齡預(yù)測和性別分類主要利用手機中的加速度、磁力計和陀螺儀傳感器.在人格特征方面,我們收集應(yīng)用使用情況、電池、耳機、情景模式、網(wǎng)絡(luò)和屏幕狀態(tài)數(shù)據(jù).然后,使用隨機森林回歸模型預(yù)測年齡,隨機森林分類模型識別性別,并利用SVR來識別人格特征.
我們通過35、30和32個手機用戶分別進行的實驗來評估系統(tǒng).實驗結(jié)果表明,我們的方法在預(yù)測年齡方面達到了4.370的均方根誤差,在性別分類方面達到了91.70%的精確度.大五人格的均方根誤差分別為0.29、0.35、0.47、0.30、0.45.