尚 暉
(浙江工貿(mào)職業(yè)技術(shù)學院,溫州 325002)
各類APP 依靠互聯(lián)網(wǎng)擴大影響,為提高自身在同行業(yè)中的競爭優(yōu)勢,采用傳統(tǒng)用戶分類模型,對注冊用戶進行分類以便提供更好的服務(wù).互聯(lián)網(wǎng)具有強大的通訊和社交功能,互聯(lián)網(wǎng)企業(yè)以互聯(lián)網(wǎng)為依托,開發(fā)具有企業(yè)特色的APP 軟件,吸引使用者利用APP 瀏覽網(wǎng)上信息.但隨著信息化時代到來,企業(yè)發(fā)現(xiàn)互聯(lián)網(wǎng)帶來的豐厚利益,越來越多的企業(yè)投身到互聯(lián)網(wǎng)行業(yè)中,競爭變得越來越激烈,因此為了提高自身的競爭優(yōu)勢,提出利用一種分類手段,將網(wǎng)站中的互聯(lián)網(wǎng)用戶進行分類,相關(guān)學者對此進行了仔細研究.歐陽曄等[1]提出一個基于機器學習算法的分類模型,旨在利用該算法,對網(wǎng)絡(luò)用戶瀏覽偏好進行分類;王嘉祺等[2]提出用戶分類系統(tǒng)在不同的社交網(wǎng)絡(luò)中發(fā)揮著重要的作用,例如惡意賬號檢測,高影響力用戶發(fā)現(xiàn)及會員用戶發(fā)現(xiàn).引入深度學習技術(shù)來解決用戶分類問題,且使用了陌陌的真實數(shù)據(jù)進行評估,對于不同的分類目標,均可取得較好的效果,但是分類準確度較低;蒲杰方,盧熒玲[3]篩選了14個關(guān)鍵變量作為影響客戶是否購買定期存款的影響因素,并對重要特征進行初步分析;根據(jù)數(shù)據(jù)特征利用k-means 聚類算法對銀行的客戶群進行分類,從而得出三類最有可能購買定期存款的客戶群,剖析每一類客戶群的特征,從而有針對性地為其提供差別化的分類,但是分類用時較長.這些傳統(tǒng)模型的使用效果沒有達到預(yù)期,因此研究一個全新的互聯(lián)網(wǎng)用戶分類模型.
支持向量機簡稱為SVM,是將風險控制在最小的一個機器學習算法,通過SVM的計算,得到全局最優(yōu)解,同時將計算難度降至最低,減小以往學習算法的計算誤差.支持向量機解決了局部極小值的問題,且具有較好的推廣能力,對于數(shù)據(jù)檢測、數(shù)據(jù)挖掘以及數(shù)據(jù)處理等研究領(lǐng)域,有不錯的使用效果.為進一步提高支持向量機的使用性能,以原有支持向量機為依據(jù),對SVM改進,得到全新的TWSVM和NPSVM.改進后的SVM數(shù)據(jù)擬合性更好、求解數(shù)據(jù)的能力更強,因此在互聯(lián)網(wǎng)用戶分類研究中,引入改進的SVM 進一步完善互聯(lián)網(wǎng)用戶分類方法.
假設(shè)互聯(lián)網(wǎng)用戶瀏覽網(wǎng)絡(luò)信息的時間序列為u(t),其中t∈(1,N);令嵌入維數(shù)為n,時間延遲為λ,則N′=N?(n?1)λ,表示重構(gòu)后的相空間矢量長度,重構(gòu)后獲得n維相空間相點Um,m∈(1,N′),表示Um的每一個分量都有n個元素,即維數(shù)[4].以u(t)中的u(m)為起點,每隔λ個互聯(lián)網(wǎng)用戶信息,重構(gòu)相空間相點在相空間的軌跡,公式為:
模型設(shè)置合適的嵌入維數(shù),則重構(gòu)的相空間可以準確模擬互聯(lián)網(wǎng)用戶的瀏覽軌跡.根據(jù)混沌理論可知,嵌入維數(shù)n的值太小,c=1,2,···,n,重構(gòu)空間中的用戶信息,會因吸引子的作用,而產(chǎn)生扭結(jié)和重疊現(xiàn)象,此時的信息距離過于接近,數(shù)據(jù)之間交融,難以進行分類.同時噪聲的維數(shù)是無窮大的,若嵌入維數(shù)n的值太大則n?c空間將被舍入誤差完全覆蓋,因此在設(shè)置嵌入維數(shù)n時,采用誤差最小算法設(shè)置嵌入維數(shù)[5].
獲得網(wǎng)絡(luò)用戶的時間序列數(shù)據(jù) {um},其中um=u(t0+m?t),M表示樣本數(shù)據(jù)個數(shù);t0表示用戶瀏覽網(wǎng)頁的初始時間;?t表示樣本時間間隔.根據(jù)同樣的假設(shè)條件,則其在n維空間Dn中形成的新向量Um可被定義為:
DnUiUj
根據(jù)式(2)的計算結(jié)果,在中定義到的距離,公式為:
式中,s表示信息長度;r表示空間所占范圍比[6].根據(jù)嵌入定理,令最佳延遲時間為λ,則n為最佳嵌入維數(shù)時的映射關(guān)系為f:D→Dn,其中f表示關(guān)系參數(shù),D表示網(wǎng)絡(luò)空間中的用戶信息.則存在公式:
利用映射f的連續(xù)性,當Ui靠近Uj時,ui+n與uj+n之間也應(yīng)靠近.記Ui的最鄰近點是Ui?,則:
計算平均一步誤差,結(jié)果為:
當n比最佳嵌入維數(shù)小時,誤差q(n,λ)較大;當n達到最小嵌入維數(shù)時,因為映射f所以q(n,λ)減少.當n繼續(xù)增大時,q(n,λ)隨之變化,當q(n,λ)為最小時得到的最佳嵌入維數(shù)n,可以作為最佳結(jié)果[7].將該結(jié)果帶入式(1),重構(gòu)的相空間可以反映互聯(lián)網(wǎng)用戶的瀏覽軌跡,完成對樣本數(shù)據(jù)的構(gòu)造.
根據(jù)互聯(lián)網(wǎng)用戶在瀏覽網(wǎng)頁信息時瀏覽軌跡,計算用戶屬性偏好度,將分值作為用戶分類的依據(jù).根據(jù)物聯(lián)網(wǎng)客戶的瀏覽軌跡,設(shè)置用戶標簽,包括:財經(jīng)、科技、數(shù)碼、社交、交通、天氣、新聞、法律、品牌、美食以及保險等.利用數(shù)學算法,計算用戶瀏覽軌跡中,存在的邏輯、類似偏好等,從而形成分類定義[8].
對第1.1 節(jié)構(gòu)造的樣本進行統(tǒng)計,合理轉(zhuǎn)化統(tǒng)計結(jié)果擬合出函數(shù)圖像,根據(jù)圖像中正負樣本的差異指標重新清洗用戶信息,再次通過轉(zhuǎn)化得到擬合函數(shù)圖像,若圖中的樣本數(shù)據(jù)分布分散,說明提取的構(gòu)造樣本存在問題,需要重新執(zhí)行上述操作;若函數(shù)分布差異性明顯,說明維度有效.用戶偏好B的變化控制樣本在相空間的變化.假設(shè)用戶偏好存在w個,則有B1,B2,B3,···,Bw,數(shù)學算法的計算結(jié)果為:
式中,Zi表示構(gòu)造的樣本數(shù)據(jù)集合;τi表示受偏好B變化影響的標簽偏移閾值;φ表示偏好差異[9].將顯著性問題轉(zhuǎn)化為偏好B在D空間內(nèi)是否影響網(wǎng)頁瀏覽選擇行為,即檢驗G0:τ1=τ2=···=τw是否成立.給出下列方程,其中各項參數(shù)為驗證所需的指標.
上述公式中n表示結(jié)果總數(shù);表示總均值;表示總方差平方和;表示組內(nèi)平方和;表示組間平方和[10].根據(jù)上述指標,得到G0的拒絕域為:
得到的檢驗結(jié)果可分為4 種情況:高度顯著、顯著、有一定影響、無顯著影響,根據(jù)該結(jié)果得到用戶偏好B變化下對于互聯(lián)網(wǎng)信息選擇的影響程度建立一個互聯(lián)網(wǎng)需求客戶分類數(shù)據(jù)表,如表1所示[11].
表1 互聯(lián)網(wǎng)需求客戶分類數(shù)據(jù)表
按照上述分解結(jié)果,制定一個詳細的用戶分類策略,加強模型的分類效果.
根據(jù)制定的分類策略,利用改進的SVM 設(shè)計分類模型對互聯(lián)網(wǎng)用戶進行分類.用戶的非線性可分情形下假設(shè)兩個用戶的選擇向量分別為x和y,則經(jīng)過改進SVM的非線性函數(shù)F的分類模型過程如下:
步驟1.計算待分類樣本與訓練集之間的距離,計算方法主要有歐氏距離;
步驟2.按距離遞增次序排序;
步驟3.選取與當前點距離最小的k個互聯(lián)網(wǎng)用戶;
步驟4.統(tǒng)計前k個互聯(lián)網(wǎng)用戶所在類別出現(xiàn)的頻率;
步驟5.返回前k個互聯(lián)網(wǎng)用戶出現(xiàn)頻率最高的類別作為互聯(lián)網(wǎng)用戶劃分目標.
將用戶選擇向量映射到特征空間K內(nèi),則兩個向量的歐氏距離為:
式中,H(?)代表核函數(shù)[12,13],那么特征空間樣本的中心向量C為:
根據(jù)上述公式計算類中心,再計算兩類中心的距離,公式為:
式中,C+表示正類中心;C?表示負類中心.計算兩類樣本與其他用戶樣本信息之間的距離,當該距離小于公式(12)的計算結(jié)果時,將樣本作為有效候選支持向量,即:
圖1為保留滿足L′ 圖1 預(yù)選有效的候選支持向量 根據(jù)圖1的示意圖可知,根據(jù)L′和L對特征空間中互聯(lián)網(wǎng)用戶選擇進行劃分,以此將選擇偏好相同的用戶歸集到一個數(shù)據(jù)集合中得到如表1所示的分類結(jié)果,至此實現(xiàn)基于改進SVM的互聯(lián)網(wǎng)用戶分類[15]. 以互聯(lián)網(wǎng)上某一期間的新聞作為實驗測試基本條件,利用設(shè)計的分類模型分別統(tǒng)計該期間的新聞?wù)宫F(xiàn)量P和點擊量c lick,其中得到的新聞?wù)宫F(xiàn)量統(tǒng)計分析結(jié)果如表2所示. 表2 新聞?wù)宫F(xiàn)量統(tǒng)計分析表 表2中,展現(xiàn)次數(shù)為瀏覽過某條新聞的用戶數(shù)量.已知此次展現(xiàn)次數(shù)的最小值為1,最大值為645,均值為11,其中展現(xiàn)次數(shù)為50的新聞,所占比例為0.0009,表1是20 次以內(nèi)展現(xiàn)次數(shù)的統(tǒng)計結(jié)果.根據(jù)表中數(shù)據(jù)可知,展現(xiàn)次數(shù)小于10的累積分布率約為78.06%,展現(xiàn)次數(shù)小于20的累積分布率約為89.42%.分類模型取新聞?wù)宫F(xiàn)量P的對數(shù),得到下圖2所示的新聞?wù)宫F(xiàn)量P的分布圖. 根據(jù)圖中顯示數(shù)據(jù)可知,得到的分布是一個長尾的冪律分布,大部分點集中分布在較小展現(xiàn)量處.新聞作為網(wǎng)民了解國情、社會事件的重要媒介,更新速度十分迅速.用戶根據(jù)自身偏好,只瀏覽自身感興趣的新聞類型.因此該模型推斷出大量用戶瀏覽新聞的時間較為零散,專門定點瀏覽新聞的用戶數(shù)量較少.因此該分類模型根據(jù)這一分析,以用戶偏好作為參考進行互聯(lián)網(wǎng)用戶分類.為了實驗測試的嚴謹性,對該模型進行3 次性能測試,并計算該分類模型的分類準確率,當該模型的分類準確率在95%以上時,證明該模型成立且具有使用價值.表3為模型分類準確性計算結(jié)果. 圖2 分類模型得到的新聞?wù)宫F(xiàn)量分布圖 表3 分類模型分類準確性測試結(jié)果 根據(jù)表中的數(shù)據(jù)計算結(jié)果可知,3 次測試下基于改進SVM的互聯(lián)網(wǎng)用戶分類結(jié)果,其分類平均準確率為98.56%,滿足預(yù)期,因此進行下一步對比實驗. 實驗測試環(huán)境和測試條件不變,分別利用3個模型對瀏覽新聞的用戶進行分類,對照組1是基于SVM的互聯(lián)網(wǎng)用戶分類模型,對照組2是文獻[3]模型,實驗組為基于改進SVM的互聯(lián)網(wǎng)用戶分類模型,對比3 種模型.實驗結(jié)果如圖3所示. 根據(jù)圖中數(shù)據(jù)可知,實驗組模型的學習樣本數(shù)量與模型自身提供的樣本數(shù)量幾乎一致.對照1 組模型的學習樣本數(shù)量,在模型自身提供的樣本數(shù)量達到1000 時其學習數(shù)量迅速下降且難以恢復(fù).對照2 組模型的學習樣本數(shù)量,比其自身提供的樣本數(shù)量少了近1 倍.相比較而言,此次設(shè)計的模型性能更好.表4為模型性能比較分析結(jié)果. 根據(jù)表中分析結(jié)果可知,3 組模型雖然都是根據(jù)用戶偏好特征進行分類,但獲取偏好特征的方式不同,再加之模型自身約束了選擇的樣本,導(dǎo)致模型學習性能下降.可見此次設(shè)計的分類模型,解決了模型學習能力不足的問題. 傳統(tǒng)的分類模型與此次設(shè)計的分類模型都將用戶偏好作為詳細分類的依據(jù),改進的SVM 充分發(fā)揮其強大的學習能力,對分類后的樣本數(shù)據(jù)進行學習,當該模型獲取到入網(wǎng)用戶信息后,根據(jù)其瀏覽內(nèi)容迅速判斷用戶類型,提醒軟件推送用戶感興趣的各類信息.此次研究受時間的限制沒有介紹SVM的改進內(nèi)容,而是直接將改進后的SVM 投入使用,在今后的研究項目將對改進過程、改進內(nèi)容加以描述. 圖3 模型學習能力比較結(jié)果 表4 模型性能比較2 實驗研究
2.1 性能測試
2.2 對比測試
3 結(jié)束語