蔡 娟
(天津商業(yè)大學寶德學院,天津 300384)
網(wǎng)絡(luò)信息的爆發(fā)式增長與種類的復(fù)雜以及新型電子商務(wù)服務(wù)的出現(xiàn),導(dǎo)致用戶因種類繁多的信息無法做出有效選擇。這種多樣性的選擇不會出現(xiàn)經(jīng)濟效益,反而會影響用戶的滿意度。推薦系統(tǒng)被證明是一種非常有效解決信息過載問題的工具。推薦系統(tǒng)對海量數(shù)據(jù)進行挖掘,為用戶展示該用戶不熟悉且滿足用戶當前需求的信息。但在推薦過程中容易出現(xiàn)外界干擾,導(dǎo)致推薦出的數(shù)據(jù),不是最優(yōu)信息,不能有效滿足用戶的全部需要,導(dǎo)致降低用戶的體驗。
為了解決這種問題,國內(nèi)學者提出如下解決方案。文獻[1]首先把遺忘曲線與記憶周期作為時間元素引入算法中,使艾賓浩斯遺忘曲線融合指數(shù)函數(shù),從而取得時間和興趣衰減的函數(shù)關(guān)聯(lián)度,以此優(yōu)化用戶項目的測評分數(shù),讓目標用戶對待預(yù)測的項目評分更為精準。但是與其它方法相同,該算法在特定的交易平臺能夠很好完成對數(shù)據(jù)的推薦,但是大環(huán)境中抗干擾能力相對較差。文獻[2]首先憑借用戶測評矩陣和商品種類信息,建造用戶針對種類的用戶興趣偏好矩陣,然后使用K-Means算法對項目集進行聚類,并基于用戶編號矩陣搜索預(yù)估值所對應(yīng)的臨近用戶,然后結(jié)合項目相似度的加權(quán)算法在所有項目種類中對稀疏矩陣進行填充,進而對用戶的編號矩陣聚類,最后,通過填充后的測評矩陣,在所有用戶類別中使用協(xié)同過濾算法對商品測評分數(shù)預(yù)測,并與用戶矩陣融合,從而達到目的。但是該方法需要對用戶偏好、用戶編號、商品測評分數(shù)設(shè)置矩陣,而計算這些矩陣需要消耗大量的時間,導(dǎo)致該算法的推薦效率降低。文獻[3]首先從交易數(shù)據(jù)中提取出用戶偏好信息,并將其作為類似鄰居的選擇指標,然后使用top-k算法確定服務(wù)的類型與用戶近似鄰居集合,最后將連通類似鄰居的偏好比值與經(jīng)調(diào)整的皮爾遜相關(guān)系數(shù)算法估算用戶的Qos值,從而偏好信息推薦給用戶。但是該方法缺少對干擾元素的抑制,導(dǎo)致推薦給用戶的商品不一定是用戶的偏好商品。
針對上述問題,本文提出了一種海量交易數(shù)據(jù)抗干擾推薦算法,該算法首先使用決策樹和自適應(yīng)門限算法對用戶偏好進行抗干擾處理,抑制其干擾因素,然后通過融合聚類與協(xié)同過濾算法對用戶偏好和商品類型分類,最后將兩種算法融合構(gòu)建模型,實現(xiàn)將最優(yōu)信息推薦給急需用戶。
2.1.1 模型期望信號
在交易數(shù)據(jù)檢測過程中,首先使用交易數(shù)據(jù)決策樹進行群體搜索,計算決策節(jié)點的誤差率,利用ef或ei表示,以此對臨近的兩個檢測周期結(jié)果分析Δe=ef-es,其存在三種狀況:①若Δe≤T1,表示目前沒有監(jiān)測到交易數(shù)據(jù);②若Δe≥TH,表示存在網(wǎng)絡(luò)交易[4]中含有概念交易數(shù)據(jù),利用當前獲取的樹構(gòu)造更新劣質(zhì)子樹;③反之證明Δe的產(chǎn)生是因為干擾元素,調(diào)整ef與es為接下來的檢測提供依據(jù),重復(fù)運行上述環(huán)節(jié)知道完成交易數(shù)據(jù)的訓(xùn)練。利用當前數(shù)據(jù)塊的分類精度es,來更新每一個歷史數(shù)據(jù)的平均分類精度。
利用FLMS自適應(yīng)算法對交易數(shù)據(jù)中出現(xiàn)的干擾因素進行過濾,該算法將陣元1作為主天線自適應(yīng)處理的期望信號,其它M-1個輔助陣元[5]作為干擾因素抑制信號,自適應(yīng)的調(diào)節(jié)權(quán)值矢量W,進而對準干擾信號的射入方向?qū)崟r檢測。設(shè)定w1代表未授權(quán)1向量,因此期望信號是
(1)
(2)
(3)
所以FLMS的迭代過程使用式(4)、(5)計算,其中n代表迭代次數(shù)
e(n)=d(n)-wH(n)x(n)
(4)
w(n+1)=w(n)+2μx(n)e*(n)
(5)
FLMS算法計算量較小,并且容易被實現(xiàn),但是該算法會被延遲抽頭的數(shù)量所影響,隨著延遲抽頭的總數(shù)增加,其收斂的速度會大幅度降低,無法達到實時處理的效果。在延遲抽頭[6]數(shù)量增加時,需要快速收斂的自適應(yīng)算法才可以實現(xiàn)實時跟蹤,并抑制相關(guān)的干擾因素。
2.1.2 模型干擾抑制過程分析
為了提高海量交易數(shù)據(jù)的抗干擾性,本文通過自適應(yīng)門限的變換干擾抑制方法對交易數(shù)據(jù)中的干擾因素進行處理,保證網(wǎng)絡(luò)上的順利交易。憑借DFT的變換域技術(shù)抑制窄帶干擾的原理構(gòu)造,用圖1表示。
圖1 變換或抑制干擾的原理構(gòu)造圖
首先通過加窗操作對輸入的交易數(shù)據(jù)處理,進而改進DFT引發(fā)的頻譜[7]泄露問題,利用合適的濾波算法對干擾譜線進行降低操作或歸零,然后將約束操作的頻域分量轉(zhuǎn)換為時域,再進行后續(xù)的處理。但是加窗操作會使交易數(shù)據(jù)出現(xiàn)衰減的情況,所以需要將交易數(shù)據(jù)進行重疊操作,進而修正。
約束操作可以利用自適應(yīng)算法憑借干擾的波動情況擬定適合的自適應(yīng)門限,進而保證系統(tǒng)能夠更加準確的過濾相關(guān)的干擾因素,保證有價值的信號可以順利的傳輸。如果噪聲為高斯白噪聲,則白噪聲干擾信號用e描述,T表示分析門限。其監(jiān)測門限的確定指標是
Rr{|S(k)+G(k)|≤T}=1-e-T22Nδ
(6)
式中,S(k),G(k)分別為使用在描述噪聲譜線和信號譜線,N表示FFT的點數(shù),σ為使用在描述高斯噪聲方差。若式(6)的交易數(shù)據(jù)流小于門限T,則能夠降低高于門限的價值信號產(chǎn)生的干擾。利用式(6)時需要單獨預(yù)測σ,但是在現(xiàn)實情況中其擁有一定的限制性。經(jīng)??梢詰{借譜線幅值獲取平方Ck=(S(k)+G(k))2(k=1,2,…,N)來確定門限。首先擬定一種較大的固定門限Tm,保證Ck(k=1,2,…,N)的最大值Cmax小于Tm,再檢測門限可以按照下列公式自適應(yīng)設(shè)置為
(7)
式中,H為門限優(yōu)化因子。應(yīng)選擇適合的門限優(yōu)化因子確保式(7)的概率最大化。運行FPGA操作前應(yīng)當明確FFT的點數(shù)N,根據(jù)利用的FPGA部件資源的排序和快速博里葉轉(zhuǎn)換[8]獲取相關(guān)的邏輯資源,通過MAT-LAB獲取Tm和H。FPGA中的轉(zhuǎn)換域操作的數(shù)據(jù)在A/D轉(zhuǎn)換前能夠利用自助增益管理進行處理,使相關(guān)的信號波動轉(zhuǎn)換區(qū)域擁有穩(wěn)定性。此類情況下分析網(wǎng)絡(luò)交易數(shù)據(jù)在沒有干擾條件下,輸入的信噪比范圍與數(shù)據(jù)塊長度,能夠獲取不同信噪比時的Cmax。因此對于一個交易快從不同的數(shù)據(jù)碼元進行FFT處理,獲得的Cmax存在一定的差異性,需要以最大的Cmax保證Tm值,本文設(shè)定Tm=3.8×1011。H的取值可以經(jīng)過下式計算
(8)
考慮到一定的冗余度,可以選擇H=20。這樣,自適應(yīng)門限就可以經(jīng)過式(8)確定了。利用上述分析的方法可以實時的對交易數(shù)據(jù)中存在相關(guān)的干擾因素進行處理,并確保網(wǎng)絡(luò)交易的順利運行。
在購買商進行商品交易時,主要利用交易對象以及需求交易的商品種類進行推薦的,不過由于商品交易存在選擇性。因此,需要將所有經(jīng)過聚類技術(shù)的預(yù)推薦交易信息進行分組。
所有的商品交易信息平臺都是從事各種行業(yè)的購買商獲取商品的主要途徑,同時可以及時、有效且精準的將信息推薦至所需用戶。其商品信息的交易平臺推薦模塊,其主要是利用算法分析、數(shù)據(jù)采集以及信息推薦所組成,具體如下圖所示。
圖2 信息推薦模塊結(jié)構(gòu)示意圖
推薦模塊主要是利用待測用戶所需求的精準性、數(shù)據(jù)的相關(guān)性、各個需求層次的順序、分類精準性等進行考慮。與此同時還要考慮推薦信息吸引度以及多樣性等。
本文將聚類思想引進協(xié)同過濾算法中,首先需要對購買商所存在的交易信息分數(shù)進行評測,然后分類,并估算標準用戶和普通用戶間的相似度,對交易信息中所觸碰到的用戶進行估算,最后能夠?qū)δ繕松碳遗c該交易用戶之間的類似度進行排序。
2.2.1 待推薦內(nèi)容信息項目測評矩陣
首先擬出相關(guān)的定義S={U,V,N,Tij},其中U={u1,u2,…,un}、V={v1,v2,…,vn}、Bi={x1,x2,…,xn}、N={n1,n2,…,nn}、Tij={tn,m,1≤n,1≤m}。
U代表用戶推薦集合,V為內(nèi)容數(shù)據(jù)的推薦集合,Bi表示第i種推薦對象憑借待推薦的內(nèi)容信息測評集合,N是Bi的中心向量集合,而Tij為用戶對待推薦內(nèi)容的數(shù)據(jù)測評聯(lián)系,即測評矩陣。矩陣內(nèi)容如表1所示。
表1 待推薦內(nèi)容信息項目測評矩陣
在交易系統(tǒng)中,vm代表購買商和交易需求的信息評測關(guān)系,即指購買商un相對交易所需求信息tn,m的測評數(shù)據(jù)。
2.2.2 用戶相似度計算
(9)
商品交易信息集合Vij,那么ui,uj即購買商共通測評的關(guān)系程度集合,再以式(9)為基礎(chǔ),對用戶ui,uj之間的相同項目類數(shù)關(guān)系值進行相似度計算,其公式如下
(10)
在式(10)中,sim(ui,uj)為購買商ui,uj在商品交易信息集合Vij上的類似值。
2.2.3 加權(quán)平均值的預(yù)測測評
在使用計算而得到的購買商相關(guān)業(yè)務(wù)集合。再經(jīng)過交易信息推薦給類似的購買商。設(shè)置預(yù)推薦購買商ui有K中從事相關(guān)業(yè)務(wù)的用戶,憑借式(9)、式(10)的關(guān)聯(lián)度的計算,待推薦的購買商以及待推薦內(nèi)容中沒有測評信息集合關(guān)系公式如下所示,就是對P進行測評
(11)
式中,Qi代表用戶ui的K種鄰居的集合。tip代表購買商ui在沒測評數(shù)據(jù)集合p上的預(yù)測具體分值。
對待測評的交易數(shù)據(jù)分值計算,接著能夠得到分值相對比較高的交易數(shù)據(jù)項目,然后推薦至用戶。將以上的商品交易信息平臺與實際的情況進行融合,接著利用聚類思想把協(xié)同過濾的推薦算法,其關(guān)鍵的環(huán)節(jié)為定義并重新敘述。然后再融入聚類計算,以此將用戶推薦速度提高,聚類思想的關(guān)鍵性,也可以提升交易平臺中的推薦算法精準度。
憑借式(11),計算目標購買商ui,uj相對于沒有測評分數(shù)項目的評分。對比測評分數(shù)的閾值,以此生成項目的推薦集合。故加權(quán)平均值的預(yù)測的測評,即為用戶個性化數(shù)據(jù)推薦函數(shù)。為檢驗本文方法的有效性及可行性,需對其進行仿真。
仿真環(huán)境為Intel Celeron Tulatin1GHz CPU和384MB SD內(nèi)存的硬件環(huán)境和MATLAB6.1的軟件環(huán)境。在進行仿真的過程中,利用表1的待推薦內(nèi)容數(shù)據(jù)項目測評矩陣,結(jié)合本文上述算法進行計算,再把計算結(jié)果和傳統(tǒng)方法計算結(jié)果對比。
在上述參數(shù)設(shè)置的基礎(chǔ)上,進行算法的誤碼率檢測。為檢驗本文方法的優(yōu)越性能,本文的誤碼率檢測將在多因素干擾環(huán)境下進行,本文將在多址干擾、單音干擾以及三音干擾的情況下,分析數(shù)據(jù)推薦過程中的誤碼情況。通常情況,誤碼率大小介于10E-8~10E-11之間,表示數(shù)據(jù)推薦性能最優(yōu)。
通過分析圖3可知,在不同干擾條件下,本文推薦算法的誤碼率均處于10E-8~10E-11之間,說明本文算法具有較高的抗干擾性能。這是由于本文算法利用FLMS自適應(yīng)算法對交易數(shù)據(jù)中出現(xiàn)的干擾因素進行過濾,此外,本文算法還考慮延遲抽頭數(shù)量,采用快速收斂的自適應(yīng)算法,提高算法收斂速度,實現(xiàn)實時處理,提高抗干擾性,降低算法誤碼率。
圖3 不同干擾條件下的數(shù)據(jù)誤碼率
檢驗本文方法推薦精度。在進行實驗時,對和目標購買商關(guān)聯(lián)度較高用戶排序。將用戶數(shù)量從1增加至100,間隔每10個用戶進行采集一次,就可以得到本文算法與文獻算法在海量交易數(shù)據(jù)中對用戶進行商品推薦效果,以誤差值為指標,判斷用戶意圖數(shù)據(jù)的推薦效果。在用戶總數(shù)的變化中,其算法的TIC分析具體實驗結(jié)果如下所示。
表2 需求與推薦
圖4 推薦情況分析曲線圖
根據(jù)上述實驗,可知本文算法的推薦準確率高。本文方法使用在海量交易數(shù)據(jù)中,能夠有效的為購買商推薦其有興趣或急需的商品交易數(shù)據(jù)信息,使得用戶在最短時間接受到最有用的信息,并且本文方法不會受到其它干擾因素的影響,能夠精準的為用戶推薦感興趣的商品。
本文提出的海量交易數(shù)據(jù)抗干擾推薦算法,基于決策樹節(jié)點對海量交易數(shù)據(jù)歷史數(shù)據(jù)平均分類準度進行更新,并通過自適應(yīng)門限變換算法對交易數(shù)據(jù)干擾因素進行抑制,最后使用融合聚類算法和協(xié)同過濾算法將交易數(shù)據(jù)干擾抑制算法、加權(quán)平均值測評分數(shù)和用戶相似度融合,獲取模塊,利用模塊內(nèi)的用戶聚類分析算法對交易數(shù)據(jù)分組,以此通過協(xié)同過濾可以將交易數(shù)據(jù)推送至效用較高的用戶,進而實現(xiàn)海量交易數(shù)據(jù)的抗干擾推薦。仿真結(jié)果證明,本文方法能夠有效的將干擾因素抑制,并且本文方法的推薦效率較高,不會出現(xiàn)推薦誤差。