四川大學(xué)錦江學(xué)院 張 穎 劉 群 趙淑賢
截至2019年12月,我國(guó)手機(jī)網(wǎng)民規(guī)模達(dá)9.04億,可以看出手機(jī)的使用越來(lái)越普遍,手機(jī)屹然成為人們?nèi)粘I钪斜夭豢缮俚牟糠?,那么隨之而來(lái)的手機(jī)隱私安全問(wèn)題也越來(lái)越突出。小小的智能手機(jī)幾乎隨時(shí)隨地保存大量個(gè)人信息,手機(jī)聯(lián)系人電話、照片、APP平臺(tái)賬號(hào)、聊天記錄等等,如果一旦泄露到網(wǎng)絡(luò)上或者被不法分子利用詐騙,會(huì)對(duì)個(gè)人造成很大的損失或者傷害。而且移動(dòng)互聯(lián)網(wǎng)的發(fā)展帶來(lái)很多新興網(wǎng)絡(luò)業(yè)務(wù),手機(jī)支付、電子商務(wù)等,在提供便利操作的同時(shí),也涉及了手機(jī)用戶的財(cái)產(chǎn)安全,這類安全問(wèn)題更不能忽視。現(xiàn)有的智能手機(jī)用戶認(rèn)證方式雖一定程度上保證用戶隱私,但存在部分缺陷。所以最好的方式是對(duì)手機(jī)進(jìn)行嚴(yán)格且有效的身份認(rèn)證來(lái)避免用戶信息泄露。
本文的研究?jī)?nèi)容主要分為兩大部分:一是用戶行為數(shù)據(jù)采集。采集的數(shù)據(jù)主要來(lái)自智能手機(jī)內(nèi)置傳感器數(shù)據(jù),為此設(shè)計(jì)了一個(gè)基于Android的采集APP,安裝在不同用戶手機(jī)上,可以長(zhǎng)時(shí)間不間斷循環(huán)采集內(nèi)置各種傳感器數(shù)據(jù),每天定時(shí)自動(dòng)聯(lián)網(wǎng)上傳云端。采集的周期大概2個(gè)月左右,循環(huán)采集的數(shù)據(jù)數(shù)目巨大,會(huì)通過(guò)Python腳本遷移到本地?cái)?shù)據(jù)庫(kù)保存,為以后做出進(jìn)一步處理。二是用特征提取和用戶認(rèn)證,對(duì)比數(shù)據(jù)發(fā)現(xiàn)用戶在接聽、撥打電話時(shí)傳感器數(shù)據(jù)的區(qū)別很大,可提取相應(yīng)的特征值進(jìn)行分析。發(fā)現(xiàn)相比一般在最開始使用手機(jī)時(shí)的用戶認(rèn)證,可在使用手機(jī)的過(guò)程中(接聽、撥打電話時(shí))區(qū)分機(jī)主還是非機(jī)主來(lái)進(jìn)一步完成手機(jī)用戶認(rèn)證。如果用戶長(zhǎng)時(shí)間使用過(guò)程中忘記鎖屏而忙于其他事情了,這種時(shí)候會(huì)通過(guò)這種身份認(rèn)證發(fā)現(xiàn)非機(jī)主的行為特征與手機(jī)用戶的不一樣,讓手機(jī)及時(shí)鎖定,避免手機(jī)信息泄露。
基于Android平臺(tái),利用JAVA語(yǔ)言調(diào)用接口編程實(shí)現(xiàn)了一套用戶行為數(shù)據(jù)采集APP,可以每天循環(huán)采集手機(jī)內(nèi)置大量傳感器數(shù)據(jù)以供后期分析,采集數(shù)據(jù)如表1所示。并且將采集APP安裝在10個(gè)用戶智能手機(jī)上,分別包括在校學(xué)生,工作上班族、退休人員等,不同年齡段,不同階層的手機(jī)用戶更能看出在使用手機(jī)過(guò)程中的區(qū)別。采集時(shí)間持續(xù)兩個(gè)月,遷移到數(shù)據(jù)庫(kù)的有效傳感器數(shù)據(jù)共10萬(wàn)多條。
針對(duì)采集到的大量數(shù)據(jù),基本上都是手機(jī)最原始的數(shù)據(jù),而用戶在平時(shí)使用手機(jī)時(shí)自身因素和環(huán)境因素都會(huì)對(duì)手機(jī)傳感器采集到的數(shù)據(jù)產(chǎn)生影響,部分采集到的數(shù)據(jù)有偏差,所以需要先對(duì)其進(jìn)行各種預(yù)處理,包括數(shù)據(jù)清理階段,把少部分缺失的數(shù)據(jù)補(bǔ)全,個(gè)別異常的數(shù)據(jù)刪掉。數(shù)據(jù)去噪階段,手機(jī)內(nèi)置的傳感器數(shù)據(jù)會(huì)因?yàn)楹芏喹h(huán)境因素的噪聲受到干擾,對(duì)原始數(shù)據(jù)進(jìn)行降噪去噪處理。數(shù)據(jù)轉(zhuǎn)換階段,對(duì)采集到的不同數(shù)據(jù)按照其各自的采集時(shí)間分類分塊。
表1 數(shù)據(jù)信息
用戶在實(shí)際生活中使用手機(jī)最頻繁的手勢(shì)、最普遍的手勢(shì)是撥打、接聽電話,每個(gè)人在打電話的行為習(xí)慣也就不相同,比如退休人員年齡偏大,手機(jī)大多不隨身攜帶,接打電話的時(shí)候通常是從某個(gè)包中找到動(dòng)作較為遲緩,對(duì)于上班族通常上班完成業(yè)務(wù)需要經(jīng)常接打電話,次數(shù)頻率高,而在校學(xué)生更多使用手機(jī)是為了手機(jī)上網(wǎng),區(qū)別于前兩者。有時(shí)每個(gè)人接打電話的方式也不同,有的用戶從一開始接聽到最后結(jié)束手機(jī)都一直貼近耳朵,有的用戶喜歡接通時(shí)才把手機(jī)靠近耳朵通話,有人喜歡外放接聽等等。所以可以采集用戶在接聽電話過(guò)程中的手機(jī)內(nèi)部傳感器數(shù)據(jù),包括加速度傳感器、距離傳感器、陀螺儀等等數(shù)據(jù),觀察其中的共同和差異,提取它們的特征值利用SVM分類算法對(duì)用戶進(jìn)行區(qū)分,在使用手機(jī)的過(guò)程中完成用戶認(rèn)證過(guò)程。
大部分人在使用手機(jī)時(shí)可以從口袋、桌面、書包等地方拿到手機(jī),然后會(huì)抬起手臂,最后把手機(jī)貼近耳朵進(jìn)行通話。在這個(gè)快速完成接聽電話的過(guò)程中,雖然時(shí)間短,但是因?yàn)槊總€(gè)人的手臂胖瘦,手臂長(zhǎng)短和用力的不同,每個(gè)時(shí)刻手機(jī)內(nèi)置的加速度傳感器、距離傳感器、陀螺儀的數(shù)據(jù)也在不停發(fā)生變化,形成的軌跡也不同。手機(jī)APP在數(shù)據(jù)采集時(shí)也是以響鈴開始,到接聽電話、掛斷電話為止連續(xù)記錄了各個(gè)傳感器變化的值,分析數(shù)據(jù)來(lái)區(qū)分是否是用戶本人操作,如果不是可以及時(shí)鎖定手機(jī)。
若采集的數(shù)據(jù)以每次接聽電話為單位,把每個(gè)用戶在此過(guò)程中的行為軌跡具體畫出來(lái),會(huì)發(fā)現(xiàn)其中波峰波谷個(gè)數(shù)、傳感器數(shù)據(jù)的最大值最小值、趨勢(shì)走向等表現(xiàn)出一些特征,因此提取的特征值包括距離傳感器、加速度傳感器X,Y,Z軸、陀螺儀X,Y,Z軸的最大最小值、均值、方差,出現(xiàn)波峰波谷的個(gè)數(shù)以及峰度,如表2所示。
表2 提取特征值
每次一共提取的特征屬性有種40余種,把采集到的所有數(shù)據(jù)分成兩部分,其中85%的數(shù)據(jù)用來(lái)作為訓(xùn)練集,來(lái)不停訓(xùn)練,15%作為測(cè)試集,觀察分類結(jié)果。利用Weka工具中的SVM算法(支持向量機(jī))得到的性能數(shù)據(jù)表如表3所示。部分含義如下:
(1)Precision 準(zhǔn)確率:
(2)Recall 召回率:
(3)F-Measure F度量:Precision 和Recall的調(diào)和平均數(shù),主要評(píng)估準(zhǔn)確率召回率上的平衡性。
曲線下面積比例(ROC Area)是準(zhǔn)確率和召回率的曲線面積求得,可以說(shuō)明SVM這種分類算法的準(zhǔn)確性,面積越大準(zhǔn)確性越高,通過(guò)比較發(fā)現(xiàn)三個(gè)學(xué)生的ROC Area值最大,說(shuō)明此分類方式對(duì)于學(xué)生來(lái)說(shuō)可以較為精確地區(qū)分使用手機(jī)時(shí)是機(jī)主還是非機(jī)主。上班族和退休人員的ROC Area值雖然沒(méi)有學(xué)生的高,但是差不多都是0.9左右,總體來(lái)看,此分類方法的準(zhǔn)確性較高,可以在實(shí)際手機(jī)使用過(guò)程中,特別是接聽撥打電話時(shí)及時(shí)判斷發(fā)現(xiàn)是否是手機(jī)用戶在操作手機(jī),對(duì)用戶身份進(jìn)行認(rèn)證,如果不是本人使用,可采取一定措施鎖定手機(jī),進(jìn)一步保護(hù)手機(jī)信息不被泄露。
表3 支持向量機(jī)用戶認(rèn)證的準(zhǔn)確率
此外本文還采用其他算法進(jìn)行對(duì)比分析,一種是采用貝葉斯算法中的樸素貝葉斯對(duì)數(shù)據(jù)再進(jìn)一步分析對(duì)比,另一種是利用Weka工具中決策樹C4.5選取最能區(qū)分的特征值構(gòu)建決策樹。分別選擇不同數(shù)據(jù)進(jìn)行訓(xùn)練測(cè)試,計(jì)算出三種算法的平均準(zhǔn)確率和平均召回率,得到的性能結(jié)果如表4所示,可以看到支持向量機(jī)對(duì)手機(jī)用戶的認(rèn)證的平均準(zhǔn)確率最高,認(rèn)證的準(zhǔn)確性最好。
表4 不同方法用戶認(rèn)證對(duì)比
小結(jié):通過(guò)自己設(shè)計(jì)的數(shù)據(jù)采集軟件,在小范圍不同用戶的智能手機(jī)上安裝循環(huán)采集傳感器等數(shù)據(jù),對(duì)大量的數(shù)據(jù)做遷移、預(yù)處理分析之后發(fā)現(xiàn)通過(guò)支持向量機(jī)算法對(duì)用戶在撥打接聽電話中提取到的特征值進(jìn)行分類識(shí)別,進(jìn)一步對(duì)用戶身份進(jìn)行認(rèn)證,平均準(zhǔn)確率達(dá)到86.3%,說(shuō)明可以在使用手機(jī)的過(guò)程中對(duì)用戶身份進(jìn)行進(jìn)一步認(rèn)證,區(qū)分是否是用戶本人在操作手機(jī),并且還可以作為對(duì)傳統(tǒng)手機(jī)用戶認(rèn)證方式的補(bǔ)充,加強(qiáng)的手機(jī)的安全性,最大可能避免用戶信息泄露,及時(shí)保護(hù)手機(jī)用戶隱私。并且通過(guò)與樸素貝葉斯算法和決策樹算法比較,發(fā)現(xiàn)采用SVM算法的平均準(zhǔn)確率最高,分類效果最好,后面的實(shí)際應(yīng)用中可優(yōu)先采用此 分類方法完成用戶認(rèn)證。