涂劍峰,林立鑫,劉承啟
(1.江西科技學(xué)院信息工程學(xué)院,江西 南昌 330098;2. 江西科技學(xué)院網(wǎng)絡(luò)信息中心,江西 南昌 330098;3. 南昌大學(xué)信息技術(shù)辦公室,江西 南昌 330031)
在信息雜亂的網(wǎng)絡(luò)數(shù)據(jù)庫(kù)中,用戶(hù)想要遵循自身需求檢索興趣話(huà)題并對(duì)其深入分析,不僅會(huì)受到數(shù)據(jù)庫(kù)內(nèi)泛濫信息的影響,出現(xiàn)目標(biāo)信息挖掘不徹底或推送信息與目標(biāo)信息不相符等問(wèn)題。考慮到網(wǎng)絡(luò)用戶(hù)的切身需求,各種電商、社交、媒體、APP等信息技術(shù)服務(wù)企業(yè)陸續(xù)推出針對(duì)用戶(hù)的智能服務(wù)[1-2],但就目前各企業(yè)的信息推送服務(wù)而言,網(wǎng)絡(luò)用戶(hù)對(duì)其推送的信息內(nèi)容并未持有較高的滿(mǎn)意度,導(dǎo)致這一問(wèn)題的主要原因包括但不限于用戶(hù)行為了解不透徹、查詢(xún)信息數(shù)據(jù)庫(kù)排版不精簡(jiǎn)及用戶(hù)所有瀏覽頁(yè)面掌握不全面。為了將信息精準(zhǔn)、有序的推送到用戶(hù)面前,國(guó)內(nèi)外相關(guān)人員展開(kāi)對(duì)信息精準(zhǔn)推送方法的研究。
喻迎春等人[3]提出基于微信的氣象災(zāi)害預(yù)警信息精準(zhǔn)智能推送技術(shù),通過(guò)設(shè)計(jì)智能推送平臺(tái),將實(shí)時(shí)發(fā)布的預(yù)警信息作為支撐平臺(tái)業(yè)務(wù)運(yùn)行的網(wǎng)格化靶點(diǎn)。通過(guò)讀取用戶(hù)位置信息,實(shí)現(xiàn)信息精準(zhǔn)推送模型的建立,該方法存在用戶(hù)滿(mǎn)意度差的問(wèn)題。張然等人[4]提出科技期刊郵件推送的用戶(hù)調(diào)研與策略分析方法,通過(guò)在人群中派發(fā)問(wèn)卷報(bào)告對(duì)網(wǎng)絡(luò)用戶(hù)的實(shí)際需求實(shí)例調(diào)研,并將實(shí)例調(diào)研結(jié)果作為案例分析對(duì)象,深入探討用戶(hù)推送需求,實(shí)現(xiàn)信息精準(zhǔn)推送模型的建立。張青等人[5]提出基于BBCAL模型的法條自動(dòng)推送方法,通過(guò)在用戶(hù)訴求中捕捉專(zhuān)業(yè)性術(shù)語(yǔ)特征并將其投入到BiLSTM模型中,以此獲取其更深層次的含義。將專(zhuān)業(yè)性術(shù)語(yǔ)特征的深層次含義與當(dāng)前任務(wù)最相關(guān)信息同時(shí)輸入BERT模型中,實(shí)現(xiàn)信息精準(zhǔn)推送模型的建立,上述方法存在推送精度不高的問(wèn)題。
為了解決上述方法中存在的問(wèn)題,提出基于用戶(hù)畫(huà)像的信息精準(zhǔn)推送模型。
用戶(hù)畫(huà)像[6]又稱(chēng)戶(hù)畫(huà)像,指的是以不同方式勾畫(huà)用戶(hù)角色、闡明用戶(hù)需求、聯(lián)系用戶(hù)興趣的一種有效工具??紤]到用戶(hù)行為[7]的抽象性,用戶(hù)畫(huà)像需要從社會(huì)屬性、專(zhuān)業(yè)背景、日常習(xí)慣等多方位收集,將用戶(hù)動(dòng)態(tài)信息與靜態(tài)信息結(jié)構(gòu)化。由此可知,建立用戶(hù)畫(huà)像,需要從采集用戶(hù)信息和處理用戶(hù)信息兩個(gè)方面入手。
1)采集用戶(hù)信息
用戶(hù)信息的采集是建立用戶(hù)畫(huà)像的關(guān)鍵步驟。鑒于用戶(hù)信息的多樣性和用戶(hù)基數(shù)的龐大規(guī)模,用戶(hù)信息的采集工作并不局限在單一數(shù)據(jù)來(lái)源,而是擴(kuò)展至關(guān)聯(lián)程度和統(tǒng)一程度較為緊密的多樣數(shù)據(jù)來(lái)源。視二者為融合用戶(hù)信息的高質(zhì)量數(shù)據(jù),對(duì)二者展開(kāi)空間全方位、時(shí)間全過(guò)程的采集工作。由于用戶(hù)喜好傾向存在時(shí)間差異,因此將用戶(hù)動(dòng)態(tài)行為數(shù)據(jù)具體分為顯性可變數(shù)據(jù)(當(dāng)前喜好傾向)和隱性可變數(shù)據(jù)(以往喜好傾向),以此消除時(shí)間誤差所導(dǎo)致的喜好傾向異質(zhì)化現(xiàn)象。數(shù)據(jù)來(lái)源如下圖1所示。
圖1 數(shù)據(jù)來(lái)源
空間全方位采集公式如下:
(1)
式中,αi表示信息缺省值;αj表示用戶(hù)初始化興趣集;q表示用戶(hù)瀏覽的頁(yè)面文本;xij表示用戶(hù)歷史行為;f1表示網(wǎng)站訪(fǎng)問(wèn)數(shù)據(jù)量;xi表示用戶(hù)重返網(wǎng)站次數(shù)占總訪(fǎng)問(wèn)次數(shù)的比值;f2表示動(dòng)態(tài)本體權(quán)重;xj表示靜態(tài)本體權(quán)重。
時(shí)間全進(jìn)程采集公式如下:
(2)
式中,y2表示用戶(hù)心理趨勢(shì);n表示搜索引擎響應(yīng)時(shí)長(zhǎng);σ表示數(shù)據(jù)源獨(dú)立性;mi表示用戶(hù)數(shù)據(jù)分析的信用度;Io表示用戶(hù)反饋產(chǎn)生的互動(dòng)數(shù)據(jù)流;Δs表示用戶(hù)行為內(nèi)在變化;s2表示用戶(hù)行為發(fā)展規(guī)律。
2)處理用戶(hù)信息
經(jīng)過(guò)采集的用戶(hù)信息存在分量較高的高斯白噪聲[8],不能作為樣本數(shù)據(jù)建立信息精準(zhǔn)推送模型。為了獲得更為精確的推送結(jié)果,在建立信息精準(zhǔn)推送模型前,優(yōu)先利用DVMD去噪算法消除用戶(hù)信息噪聲。
不同于傳統(tǒng)去噪算法,DVMD在解決約束變分問(wèn)題[9-10]上具有較為獨(dú)特的優(yōu)勢(shì)。通過(guò)分解數(shù)據(jù)分量,并度量各分量瞬時(shí)頻率,以捕捉藏匿在用戶(hù)信息間的噪聲信號(hào)。在成功識(shí)別噪聲信號(hào)后,DVMD引入狄拉克函數(shù)編寫(xiě)卷積符號(hào)標(biāo)注藏匿噪聲的數(shù)據(jù)段,并在不改變用戶(hù)信息能量密度及周期常量的前提下,通過(guò)模態(tài)分量的疊加重構(gòu)剔除用戶(hù)信息噪聲,獲取不存在高頻噪聲分量和數(shù)值突變點(diǎn)的清晰數(shù)據(jù)。數(shù)據(jù)分量分解公式如下:
(3)
瞬時(shí)頻率度量公式如下:
(4)
狄拉克函數(shù)的表達(dá)式如下:
N=z′×Δ(τ)
(5)
式中,z′表示用戶(hù)行為接觸點(diǎn);Δ(τ)表示卷積符號(hào)的先驗(yàn)參數(shù)。
模態(tài)分量疊加重構(gòu)公式如下:
(6)
式中,g表示初始噪聲幅值;j表示去噪實(shí)例的信號(hào)理論值;O表示噪聲信號(hào)波形;b表示噪聲信號(hào)頻譜;im表示重構(gòu)指征;υ表示自適應(yīng)模態(tài)分量疊加準(zhǔn)則。
將經(jīng)過(guò)降噪處理的用戶(hù)信息已完全具備形象化特征,不僅充分貼近用戶(hù)實(shí)際生活,還自成標(biāo)簽,屬于信息推送服務(wù)中應(yīng)用價(jià)值較高的用戶(hù)畫(huà)像。
信息精準(zhǔn)推送模型的宗旨在于依靠信息技術(shù)向目標(biāo)用戶(hù)源源不斷地推送符合用戶(hù)畫(huà)像的實(shí)時(shí)信息,以此達(dá)到鞏固用戶(hù)流量、加強(qiáng)用戶(hù)關(guān)系、防止用戶(hù)流失的目的。由于信息精準(zhǔn)推送模型通過(guò)追蹤用戶(hù)畫(huà)像提供的用戶(hù)行為傾向獲取隱藏的未知線(xiàn)索,因此信息精準(zhǔn)推送模型主要采用支持向量機(jī)(SVM)[11]組建。支持向量機(jī)是目前世界范圍內(nèi)解決預(yù)測(cè)問(wèn)題評(píng)分最高的分類(lèi)方法,該方法在改進(jìn)傳統(tǒng)預(yù)測(cè)方法的基礎(chǔ)上,以主、客觀(guān)設(shè)定補(bǔ)償?shù)姆绞教畛湎∈栊詥?wèn)題中的單位平均值與中間值,以此進(jìn)一步提升預(yù)測(cè)結(jié)果的精確度。將支持向量機(jī)應(yīng)用在個(gè)性化的信息推送問(wèn)題上,其核心思路圍繞用戶(hù)興趣領(lǐng)域中推薦價(jià)值最高的信息類(lèi)別展開(kāi)。
除預(yù)測(cè)推送信息外,模型還離不開(kāi)服務(wù)體系的層次化模塊。在數(shù)據(jù)驅(qū)動(dòng)環(huán)境下引入Storm[12]、Storm steaming實(shí)時(shí)計(jì)算框架作為信息精準(zhǔn)推送模型的外骨骼,信息精準(zhǔn)推送模型如下圖2所示。
如上圖2可見(jiàn),信息精準(zhǔn)推送模型包括四個(gè)模塊,即數(shù)據(jù)來(lái)源層、精準(zhǔn)應(yīng)用層、用戶(hù)數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)處理層。其中,用戶(hù)數(shù)據(jù)倉(cāng)庫(kù)作為模型核心結(jié)構(gòu),起到真正意義上的精準(zhǔn)信息推送作用。模型提取用戶(hù)畫(huà)像關(guān)鍵詞[13]獲取用戶(hù)畫(huà)像針對(duì)不同詞匯的特征向量,將特征向量輸入支持向量機(jī)中,就用戶(hù)的不同喜好傾向開(kāi)啟分類(lèi)。支持向量機(jī)在過(guò)濾掉推送價(jià)值較低的信息類(lèi)別后,輸出針對(duì)目標(biāo)用戶(hù)的推送價(jià)值較高的信息類(lèi)別,實(shí)現(xiàn)信息精準(zhǔn)推送。
基于用戶(hù)畫(huà)像的關(guān)鍵詞特征向量提取過(guò)程如下:根據(jù)統(tǒng)計(jì)學(xué)方法[14]可知來(lái)自單一數(shù)據(jù)來(lái)源和多數(shù)據(jù)來(lái)源的用戶(hù)畫(huà)像在表征問(wèn)題特征上并不具備正相關(guān)性,因此低頻出現(xiàn)的詞匯與高頻出現(xiàn)的詞匯之間并沒(méi)有明顯的維度差異,這意味著隨機(jī)出現(xiàn)的詞匯既是用戶(hù)畫(huà)像的一部分,又存在脫離實(shí)際情況的概率。關(guān)鍵詞的提取工作相當(dāng)于給每個(gè)詞匯追索一串字符,讓其擁有與自身使用頻率相匹配的權(quán)重值。經(jīng)過(guò)權(quán)重值標(biāo)注的用戶(hù)畫(huà)像不再以執(zhí)行文本的形式出現(xiàn)在用戶(hù)畫(huà)像中,而是以特征向量的形式,時(shí)刻準(zhǔn)備與其它具有標(biāo)志意義的特征向量展開(kāi)碰撞。統(tǒng)計(jì)學(xué)方法的表達(dá)式如下:
(7)
式中,ρij表示用戶(hù)數(shù)量;s*表示用戶(hù)近期檢索的歷史記錄;ζ表示空缺值;ri表示非空缺值;rj表示特征詞集合。
詞匯使用頻率的計(jì)算公式如下:
(8)
權(quán)重值匹配公式如下:
(9)
式中,w′表示基寬向量;φ表示用戶(hù)畫(huà)像的不均勻性;B表示預(yù)測(cè)集容量。
不同詞匯特征向量的表達(dá)式如下:
C=Yln2+qs
(10)
式中,Y表示特征向量的維度;2表示網(wǎng)頁(yè)瀏覽記錄;qs表示鄰接特征向量在維度上的互相對(duì)應(yīng)關(guān)系。
支持向量機(jī)是建立在超平面配置補(bǔ)空間[15]基礎(chǔ)上的分類(lèi)算法,主要分類(lèi)對(duì)象是現(xiàn)實(shí)中非線(xiàn)性分布的樣本數(shù)據(jù)。在信息精準(zhǔn)推送模型內(nèi)部,基于用戶(hù)畫(huà)像的關(guān)鍵詞特征向量作為樣本數(shù)據(jù)與支持向量機(jī)結(jié)合。支持向量機(jī)的表達(dá)式如下:
(11)
式中,tij表示決策平面;ds表示類(lèi)別屬性;F表示樣本數(shù)據(jù)。經(jīng)過(guò)反復(fù)聚類(lèi)迭代,模型輸出特征向量分類(lèi)結(jié)果,實(shí)現(xiàn)信息精準(zhǔn)推送。
為了驗(yàn)證基于用戶(hù)畫(huà)像的信息精準(zhǔn)推送模型的整體有效性,需要對(duì)其測(cè)試。
采用所提方法、基于微信的氣象災(zāi)害預(yù)警信息精準(zhǔn)智能推送技術(shù)(文獻(xiàn)[3]方法)和科技期刊郵件推送的用戶(hù)調(diào)研與策略分析方法(文獻(xiàn)[4]方法)向3名試驗(yàn)人員發(fā)送9條內(nèi)容各異的推送信息,并記錄每名試驗(yàn)人員對(duì)各推送內(nèi)容的滿(mǎn)意程度(滿(mǎn)意/不滿(mǎn)意)。其中一名試驗(yàn)人員的滿(mǎn)意度記錄流程如下圖3所示。
圖3 用戶(hù)滿(mǎn)意度記錄流程
規(guī)定用戶(hù)滿(mǎn)意的推送內(nèi)容為1分,不滿(mǎn)意的推送內(nèi)容為0分。依照?qǐng)D3繪制3名試驗(yàn)人員基于推送內(nèi)容的滿(mǎn)意度調(diào)查報(bào)告。滿(mǎn)意度調(diào)查報(bào)告如下表1所示。
根據(jù)表1中記錄的滿(mǎn)意度調(diào)查數(shù)據(jù),可以計(jì)算出不同方法的用戶(hù)滿(mǎn)意度。用戶(hù)滿(mǎn)意度計(jì)算公式如下:
(12)
式中,r表示滿(mǎn)意數(shù)值;c表示不滿(mǎn)意數(shù)值。
將不同方法的滿(mǎn)意度調(diào)查數(shù)據(jù)帶入上述公式中,可知所提方法的滿(mǎn)意度約等于85%,文獻(xiàn)[3]方法的滿(mǎn)意度67%,文獻(xiàn)[4]方法的滿(mǎn)意度約等于70%。由此可知,采用所提方法獲取的推送信息更貼近用戶(hù)興趣方向,真正做到了以用戶(hù)興趣為導(dǎo)向,為用戶(hù)提供個(gè)性化需求定制服務(wù)。因?yàn)樗岱椒ㄔ诮⑿畔⒕珳?zhǔn)推送模型的過(guò)程中,以單一數(shù)據(jù)來(lái)源和多數(shù)據(jù)來(lái)源的用戶(hù)畫(huà)像為樣本數(shù)據(jù),提取其關(guān)鍵詞特征向量并輸入支持向量機(jī)中。經(jīng)上述對(duì)比可知,所提方法在用戶(hù)滿(mǎn)意度方面明顯優(yōu)于其它兩種方法。
為了進(jìn)一步驗(yàn)證所提方法的實(shí)用性,采用所提方法、文獻(xiàn)[3]方法和文獻(xiàn)[4]方法向1名試驗(yàn)人員發(fā)送5條內(nèi)容各異的推送信息。將不同方法獲取的推送信息視為預(yù)測(cè)值,用戶(hù)理想信息視為實(shí)際值,繪制三維空間中預(yù)測(cè)值與實(shí)際值的回歸圖。不同方法的回歸圖如下圖4所示。
圖4 不同方法的回歸圖
如上圖4可見(jiàn),采用所提方法獲取的推送信息與用戶(hù)理想信息的擬合度較高,說(shuō)明所提方法的推送精度較高。采用文獻(xiàn)[3]方法和文獻(xiàn)[4]方法獲取的推送信息與用戶(hù)理想信息的擬合度較低,且回歸圖中預(yù)測(cè)值與實(shí)際值距離回歸平面較遠(yuǎn),說(shuō)明文獻(xiàn)[3]方法和文獻(xiàn)[4]方法的推送精度較低。經(jīng)上述對(duì)比,進(jìn)一步驗(yàn)證了所提方法的實(shí)用性。
用戶(hù)畫(huà)像被廣泛應(yīng)用于個(gè)性化推薦服務(wù)、用戶(hù)行為分析和知識(shí)問(wèn)答領(lǐng)域,成為當(dāng)下社會(huì)的熱議話(huà)題。為了發(fā)現(xiàn)廣大用戶(hù)潛在需求,并精準(zhǔn)匹配相對(duì)應(yīng)的信息資源,提出基于用戶(hù)畫(huà)像的信息精準(zhǔn)推送模型。通過(guò)獲取實(shí)際生活中的用戶(hù)信息,采用DVMD去噪方法,消除用戶(hù)信息中的噪聲,獲取更為清晰的優(yōu)化信息。將與支持向量機(jī)Storm、Storm steaming實(shí)時(shí)計(jì)算框架結(jié)合,建立信息精準(zhǔn)推送模型。實(shí)驗(yàn)表明所提方法用戶(hù)滿(mǎn)意度高,且推送精準(zhǔn)度高。在未來(lái)研究工作中,對(duì)信息精準(zhǔn)推送過(guò)程實(shí)時(shí)監(jiān)控,是研究人員下一步工作的重點(diǎn)。