侯蓉
摘要:文章介紹了徑向基函數(shù)(RBF)的原理、學(xué)習(xí)算法及其在電子商務(wù)領(lǐng)域中的應(yīng)用。文章研究的增量RBF模型及窗口式在線RBF模型都具有較好的泛化性能,以淘寶網(wǎng)的“淘寶眼鏡銷量”作為實(shí)例,將增量式RBF學(xué)習(xí)算法以及在線式RBF學(xué)習(xí)算法模型應(yīng)用到淘寶網(wǎng)的眼鏡銷量的預(yù)測(cè)中,實(shí)驗(yàn)結(jié)果證明,基于徑向基函數(shù)的在線RBF學(xué)習(xí)算法模型可為淘寶網(wǎng)眼鏡銷量預(yù)測(cè)提供參考依據(jù)。
關(guān)鍵詞:大數(shù)據(jù);徑向基函數(shù)(RBF);增量學(xué)習(xí)算法;窗口式在線學(xué)習(xí)算法
中國(guó)作為最大的發(fā)展中國(guó)家,近幾年經(jīng)濟(jì)增長(zhǎng)趨勢(shì)日益快速,整體經(jīng)濟(jì)發(fā)展較為平穩(wěn),國(guó)內(nèi)居民收入也不斷提高,保障了電子市場(chǎng)的繁榮發(fā)展。隨著我國(guó)經(jīng)濟(jì)供給側(cè)改革,電商將在推動(dòng)我國(guó)經(jīng)濟(jì)增長(zhǎng)的過(guò)程中起著舉足輕重的作用。電商不僅引領(lǐng)消費(fèi)者的購(gòu)物習(xí)慣和生活方式的變革,也成為了拉動(dòng)消費(fèi)增長(zhǎng)的主力軍。
天貓?zhí)詫毦W(wǎng)的注冊(cè)用戶數(shù)截至2018年3月已經(jīng)達(dá)到了5.52億,據(jù)相關(guān)數(shù)據(jù)表明,每天有幾千萬(wàn)固定訪客,平均每分鐘售出5萬(wàn)件左右商品的商品數(shù)。當(dāng)天貓的注冊(cè)用戶數(shù)量急劇攀升,交易數(shù)量急劇增加,數(shù)據(jù)流也隨之不斷擴(kuò)大,而如何處理并利用好這些數(shù)據(jù)對(duì)商家就顯得異常重要了。商家通過(guò)提高自身經(jīng)營(yíng)信息化水平,通過(guò)對(duì)大數(shù)據(jù)的分析處理從而提取有價(jià)值的信息和知識(shí),不僅可以增加其經(jīng)營(yíng)、管理及決策的科技含量,還可以提高商家的競(jìng)爭(zhēng)優(yōu)勢(shì)從而擴(kuò)大商業(yè)規(guī)模,促進(jìn)企業(yè)發(fā)展。
大數(shù)據(jù)的重要性使得各個(gè)企業(yè)乃至各個(gè)行業(yè)都開(kāi)始研究其帶來(lái)的價(jià)值。通過(guò)統(tǒng)計(jì)、分析、建立數(shù)據(jù)模型,依據(jù)對(duì)相關(guān)數(shù)據(jù)的分析,找出問(wèn)題和趨勢(shì),為店鋪的整體運(yùn)營(yíng)決策提供充分的數(shù)據(jù)支持,從而提升營(yíng)業(yè)額和流量。本文主要探討如何采用徑向基函數(shù)處理大數(shù)據(jù),針對(duì)RBF增量式在線學(xué)習(xí)算法來(lái)實(shí)現(xiàn)。本文算法通過(guò)嚴(yán)格的數(shù)學(xué)推理,將RBF增量式在線學(xué)習(xí)算法轉(zhuǎn)化為分塊矩陣求逆的遞歸運(yùn)算。并將該算法應(yīng)用到了以淘寶網(wǎng)眼鏡銷量的預(yù)測(cè)中,經(jīng)試驗(yàn)結(jié)果表明,本文所提方法能有效地處理大數(shù)據(jù)的預(yù)測(cè)分析問(wèn)題。
一、徑向基函數(shù)的在線學(xué)習(xí)算法
增量式在線學(xué)習(xí),樣本集是遞增的,即樣本集{(X■,Y■)}■■(t表示一個(gè)自然數(shù))隨著時(shí)刻的遞進(jìn)而每次新增固定數(shù)量(l個(gè))的樣本。令樣本集表示為{(xi,yi)},其中x(t)=[x1,x2,…,xt],y(t)=[y1,y2,…,yt]T,xt∈Rn,yt∈R。則根據(jù)上文,我們可以把徑向基函數(shù)矩陣表示為矩陣A的形式,即:
A=φ(||x■-x■||),φ(||x■-x■||),…,φ(||x■-x■||)φ(||x■-x■||),φ(||x■-x■||),…,φ(||x■-x■||) ? ? ?┆ ? ? ? ? ? ? ? ? ? ??塤 ? ? ? ? ? ? ? ? ? ? ? ┆φ(||x■-x■||),φ(||x■-x■||),…,φ(||x■-x■||)■
徑向基函數(shù)的輸出表達(dá)式為:
f(x)=■βiφ(||x-xt||)(1)
當(dāng)用徑向基函數(shù)表達(dá)式作為預(yù)測(cè)模型時(shí),需要滿足如下的插值條件:
f(xt)=F(xt)(2)
即 A·βt=F(3)
其中,F(xiàn)=F(1) ?┆F(t)(4)
當(dāng)(4)式在樣本點(diǎn)不重合,且函數(shù)A為正定函數(shù)時(shí)存在唯一解,此時(shí)
β^=A-1×F(5)
從式(3)可以看出,如果要求出■,則必須要求出徑向基核函數(shù)A的逆函數(shù)A-1。在A的行列式維數(shù)較高的情況下,求逆的復(fù)雜性較大,所以我們可以通過(guò)分塊矩陣計(jì)算的技巧來(lái)求解A-1。
在t時(shí)刻,徑向基函數(shù)矩陣At是t×t的方陣:
A=φ(||x■-x■||),φ(||x■-x■||),…,φ(||x■-x■||) ? ? ?┆ ? ? ? ? ? ? ? ? ? ??塤 ? ? ? ? ? ? ? ? ? ? ? ┆φ(||x■-x■||),φ(||x■-x■||),…,φ(||x■-x■||)
在t+1時(shí)刻,新數(shù)據(jù)樣本(xt+1,yt+1)將會(huì)加進(jìn)來(lái),樣本總數(shù)將達(dá)到t+1個(gè),此時(shí)核函數(shù)為(t+1)×(t+1)維的方陣At+1,它比t時(shí)刻的核函數(shù)At多一行一列:
A=φ(||x■-x■||) φ(||x■-x■||) … φ(||x■-x■||) φ(||x■-x■||) ? ? ?┆ ? ? ? ? ? ?… ? ? ? ? ??塤 ? ? ?… ? ? ? ? ? ? ? ? ?┆φ(||x■-x■||) φ(||x■-x■||) … φ(||x■-x■||) φ(||x■-x■||)φ(||xt+1-x■||) φ(||xt+1-x■||) … φ(||xt+1-x■||) φ(||x■-x■||)■
At+1是一個(gè)(t+1)×(t+1)維的方陣,我們通過(guò)對(duì)At和At+1的元素進(jìn)行比較可以看出,At+1可以寫成如式(10)的分塊矩陣的形式:
At+1= A■ ? ? H(t)H(t)■ ?f(t)(6)
其中,H(t)=[φ(||x■-x■||),…,φ(||x■-x■||)]T
f(t)=φ(||x■-xt+1||)
我們先定義一個(gè)分塊矩陣B,此時(shí)B為:
B=B11 B12B21 B22
當(dāng)B-1和B■■存在時(shí),則有如下結(jié)論:
B=B11 B12B21 B22=B■■ 0 ?00+B■■B12(B22-B21B■■B12)-1B21B■■ B■■B12(B22-B21B■■B12)-1-(B22-B21B■■B12)-1B21B■■(B22-B21B■■B12)-1=B■■ 0 ?00+B■■·B12 ?-E·(B22-B21·B■■·B12)-1[B21·B■■ -E]
其中B11為一對(duì)稱矩陣,B12為一列向量I,B21為行向量IT,B22為一個(gè)不為零的標(biāo)向量q,令A(yù)=B22-B21·B■■·B12上式可以簡(jiǎn)化為:
B-1=B■ ?B■B■ ?B■■=■B■■ ?00 ? ? 0+B■■·I E·A-1·[IT·B■■ ?-E]=B■■ ?00 ? ? 0+R·RT·Z
(7)
其中,R=[IT·B■■ ?-E]
Z=[q-IT·B■■·I]-1
借鑒文獻(xiàn)[10]中分塊矩陣的求逆方法式可以求出A■■:
A■■=At ? ? ? ?A(t)H(t)T ? f(t)=A■■ ?00 ? ? 0+r1(t+1)r1(t+1)TZ1(t+1)(8)
其中,r1(t+1)=[H(t)T·A■■,-E]T
Z1(t+1)=[f(t)-H(T)T·A■■·H(t)]-1
由式(8)可以看出,A■■可以通過(guò)A■■遞推求得,當(dāng)t比較小的時(shí)候,可直接求得矩陣A■■,如當(dāng)t=2時(shí),求得A■■,這樣就避免了大矩陣的求逆運(yùn)算,從而提高運(yùn)算效率。
綜合以上討論,徑向基函數(shù)(RBF)的增量學(xué)習(xí)算法可以總結(jié)如下:
1.初始化,求出A■■、β(1);
2.令t=2,根據(jù)初始數(shù)據(jù)計(jì)算A■■,β(2);
3.采集新數(shù)據(jù),得到新數(shù)據(jù)對(duì)[x(t),y(t)],用式(12)計(jì)算A■■;
4.計(jì)算β(t),再利用式(5)■βtφ(||x-xt||)計(jì)算y(x,t);
5.令t=t+1,回到(3);
6.當(dāng)所有樣本訓(xùn)練完畢,增量算法循環(huán)結(jié)束。
二、在線RBF在淘寶商鋪營(yíng)銷預(yù)測(cè)中應(yīng)用的仿真實(shí)驗(yàn)
(一)數(shù)據(jù)集說(shuō)明
本文主要研究的是基于徑向基函數(shù)的在線學(xué)習(xí)算法在淘寶網(wǎng)商戶進(jìn)行營(yíng)銷預(yù)測(cè)的應(yīng)用分析。所以本文采用了由某數(shù)據(jù)供應(yīng)商提供的“淘寶搜索眼鏡銷量排名100頁(yè)寶貝”的數(shù)據(jù)。通過(guò)對(duì)本章收集的4999條數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)一共有18個(gè)變量即18個(gè)維度。其中商用名稱和信用這兩個(gè)文本變量本實(shí)驗(yàn)無(wú)法進(jìn)行數(shù)據(jù)處理;其他16個(gè)變量是數(shù)值型變量。
(二)數(shù)據(jù)處理
首先,由于本文獲取的數(shù)據(jù)集中的16個(gè)數(shù)值變量里的主信用占比的所有數(shù)據(jù)顯示都為100,所以舍去這一變量;其次,在數(shù)據(jù)集中還有2個(gè)文本變量,且其中的“信用”這一文本變量對(duì)我們最后需要預(yù)測(cè)的結(jié)果具有一定的影響度,所以在實(shí)驗(yàn)之前,首先要對(duì)數(shù)據(jù)集中的文本信息變量“信用”進(jìn)行分析轉(zhuǎn)變。從淘寶平臺(tái)可知信用變量主要含“天貓、心、鉆、金冠、藍(lán)冠、其他”六個(gè)等級(jí),每個(gè)等級(jí)下又分5個(gè)不同的低一等級(jí),通過(guò)將獲取的數(shù)據(jù)按照信用變量這一類別進(jìn)行整理分析得表1。
從表1中可以看出,獲取的數(shù)據(jù)主要表現(xiàn)為20中不同信用等級(jí)表現(xiàn),且不同的信用等級(jí)其所對(duì)應(yīng)的頻數(shù)也不同,及不同的信用表現(xiàn)對(duì)商品的銷量具有一定的影響力。根據(jù)表1所示,頻數(shù)最高的是“天貓”,其次是“4心”,再次是“3藍(lán)冠”、“1藍(lán)冠”,最后是“2心”、“2金冠”、“其他”;采樣的數(shù)據(jù)集的整體信用分布較為均勻。根據(jù)淘寶有關(guān)信用分級(jí)的規(guī)定,我們將總共21類信用等級(jí)根據(jù)信用好壞來(lái)進(jìn)行賦值,信用好對(duì)應(yīng)的分?jǐn)?shù)就高,信用差的對(duì)應(yīng)的分?jǐn)?shù)就低,具體的分?jǐn)?shù)取值如下表2所示。
根據(jù)表2中將信用進(jìn)行數(shù)值化處理的規(guī)則,我們將信用這一變量加入其它數(shù)值變量行列中進(jìn)行統(tǒng)計(jì)量整理,如表3所示。由表3可以看出,寶貝收藏量的最大值為90043,最小值為0,標(biāo)準(zhǔn)差高達(dá)4085.989,說(shuō)明不同的商品種類收藏量的差距較明顯,客戶的偏好程度較為明顯。
(三)實(shí)驗(yàn)結(jié)果與分析
本文實(shí)驗(yàn)首先是對(duì)淘寶網(wǎng)數(shù)據(jù)進(jìn)行增量學(xué)習(xí)實(shí)驗(yàn)部分的結(jié)果,增量學(xué)習(xí)實(shí)驗(yàn)部分我們對(duì)其的預(yù)測(cè)精度及數(shù)據(jù)訓(xùn)練時(shí)間進(jìn)行了統(tǒng)計(jì)。實(shí)驗(yàn)第二部分是對(duì)淘寶網(wǎng)數(shù)據(jù)進(jìn)行窗口式在線學(xué)習(xí)的實(shí)驗(yàn)部分,通過(guò)對(duì)數(shù)據(jù)集進(jìn)行預(yù)測(cè)來(lái)評(píng)判訓(xùn)練模型是否滿足要求。
在本次實(shí)驗(yàn)中,對(duì)實(shí)驗(yàn)的預(yù)測(cè)精度的判別方式為考量其誤差率,公式為:
誤差率=(|實(shí)際值-預(yù)測(cè)值|)/實(shí)際值*100%
由于本實(shí)驗(yàn)分為兩個(gè)部分進(jìn)行,所以我們將數(shù)據(jù)集分為兩個(gè)部分,第一部分是用于增量學(xué)習(xí)的數(shù)據(jù),取前500個(gè)數(shù)據(jù)進(jìn)行實(shí)驗(yàn);第二部分是面向流式動(dòng)態(tài)數(shù)據(jù)的窗口式在線學(xué)習(xí)算法的數(shù)據(jù),取數(shù)據(jù)集的后3453個(gè)數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。
本次實(shí)驗(yàn)的基于徑向基函數(shù)的學(xué)習(xí)算法的實(shí)現(xiàn)和仿真均是基于MATLAB實(shí)現(xiàn)的。增量學(xué)習(xí)以及離線學(xué)習(xí)的實(shí)驗(yàn)結(jié)果如圖1和圖2所示。
為保證實(shí)驗(yàn)的公平性,上述實(shí)驗(yàn)的增量算法與離線算法是在相同的環(huán)境下進(jìn)行的實(shí)驗(yàn),且采用了同一組數(shù)據(jù)集。兩種算法的運(yùn)行時(shí)間結(jié)果如圖1和圖2所示,相同的樣本集,增量學(xué)習(xí)的時(shí)長(zhǎng)明顯比離線學(xué)習(xí)的時(shí)長(zhǎng)要短很多。說(shuō)明增量學(xué)習(xí)算法有效的解決了海量數(shù)據(jù)運(yùn)算時(shí)間長(zhǎng)的問(wèn)題。在淘寶網(wǎng)的用戶與客戶之間的實(shí)時(shí)交互過(guò)程中,會(huì)產(chǎn)生大量數(shù)據(jù),增量算法既彌補(bǔ)了機(jī)器存儲(chǔ)空間不足,也提高了數(shù)據(jù)處理的訓(xùn)練效率,大大縮減了數(shù)據(jù)處理的時(shí)間成本。
數(shù)據(jù)集的前500個(gè)數(shù)據(jù)的實(shí)驗(yàn)結(jié)束之后,以前500個(gè)數(shù)據(jù)作為初始數(shù)據(jù),構(gòu)建在線RBF模型,并對(duì)數(shù)據(jù)集的后3453個(gè)數(shù)據(jù)進(jìn)行實(shí)時(shí)在線處理。此實(shí)驗(yàn)的窗口固定為500,然后每次遞進(jìn)一個(gè)新的數(shù)據(jù),同時(shí)刪除窗口內(nèi)的一個(gè)舊數(shù)據(jù),更新模型,再對(duì)下一個(gè)數(shù)據(jù)進(jìn)行預(yù)測(cè),依次類推,直至數(shù)據(jù)訓(xùn)練結(jié)束,實(shí)驗(yàn)完成。本實(shí)驗(yàn)對(duì)流式數(shù)據(jù)處理的誤差結(jié)果如圖3所示。
通過(guò)對(duì)前文中的數(shù)據(jù)集進(jìn)行簡(jiǎn)單的統(tǒng)計(jì)處理可知,在18個(gè)變量中“近30天的平均成交量”(即本實(shí)驗(yàn)需要預(yù)測(cè)的銷售量)這一變量的基本情況如下,其中最小值為18件,中位數(shù)為56件,平均數(shù)為218.3件,最大值為9798件。對(duì)數(shù)據(jù)集中的后3453個(gè)數(shù)據(jù)進(jìn)行預(yù)測(cè)的誤差,并且對(duì)這3453個(gè)誤差結(jié)果進(jìn)行求取平均誤差率,結(jié)果為0.2251%。無(wú)論是標(biāo)準(zhǔn)誤差的差值大小,還是平均誤差率的實(shí)驗(yàn)結(jié)果,都是比較精確的,很好地實(shí)時(shí)處理了流式數(shù)據(jù),這也驗(yàn)證了在線RBF學(xué)習(xí)算法的有效性。圖3中在橫坐標(biāo)為2500左側(cè)出現(xiàn)了較大的波動(dòng),是由于該店鋪在該銷量的時(shí)段采取了一些營(yíng)銷手段,以比平時(shí)更低的價(jià)格進(jìn)行推廣活動(dòng),從而促使了銷量與平時(shí)的銷量相比出現(xiàn)了較大的差距,從而導(dǎo)致了實(shí)驗(yàn)結(jié)果的出現(xiàn)。但是該實(shí)驗(yàn)的整體預(yù)測(cè)結(jié)果較為平緩,依舊是具有說(shuō)服力的。本實(shí)驗(yàn)的所采取的算法適合較為常規(guī)的銷量預(yù)測(cè),對(duì)于突發(fā)狀態(tài)及其他一些偶發(fā)情況的預(yù)測(cè)時(shí),波動(dòng)可能會(huì)較大,但實(shí)驗(yàn)誤差都在可接受范圍之內(nèi),在線RBF學(xué)習(xí)算法對(duì)于處理流式動(dòng)態(tài)數(shù)據(jù)依舊是有效的。
三、結(jié)論
在線RBF學(xué)習(xí)算法在淘寶網(wǎng)的商品的銷量預(yù)測(cè)得到了很好了應(yīng)用,通過(guò)預(yù)測(cè)結(jié)果分析用戶對(duì)商品的喜好,并根據(jù)不用客戶的偏好進(jìn)行設(shè)計(jì)“私人訂制”的推薦營(yíng)銷,提高訂單成交的成功率;并可以根據(jù)預(yù)測(cè)結(jié)果制定合理的庫(kù)存管理、商品訂購(gòu)等運(yùn)營(yíng)規(guī)劃。在線RBF學(xué)習(xí)算法為電商企業(yè)的精準(zhǔn)營(yíng)銷以及科學(xué)管理提供了有效的理論依據(jù),該算法具有一定的社會(huì)實(shí)用價(jià)值。
參考文獻(xiàn):
[1]Kum H C, Ahalt S, Carsey T M. Dealing with data:governments records[J].Science,2011(6035).
[2]阿里巴巴公布2018年財(cái)年報(bào)告:營(yíng)收2502.66億元,同比增長(zhǎng)58%.搜狐科技頻道[EB/OL].http://www.sohu.com/a/230459978_485557,2018-05-04.
[3]陳原,劉惠,周文豪.大數(shù)據(jù)在淘寶網(wǎng)電子商務(wù)模式創(chuàng)新中的應(yīng)用研究[J].價(jià)值工程,2015(05).
[4]黃丹丹,王明宇,劉淑珍.阿里大數(shù)據(jù)戰(zhàn)略探析[J].電子商務(wù),2013(12).
[5]Viktor, Mayer-Schonberger, Kemeth, et al. Big Data:A Revolution That will Transform How we live,work,and think[M]. Hodder & Stroughton,2012.
[6]李國(guó)杰,程學(xué)旗.大數(shù)據(jù)研究:未來(lái)科技及經(jīng)濟(jì)社會(huì)發(fā)展的重大戰(zhàn)略領(lǐng)域[J].中國(guó)科學(xué)院院刊,2012(06).
[7]Michael V,Boland, MD,Big Data,Big Challenges[J].Ophthalmology.2016(01).
[8]Liran E and Jonathan L,Economics in the age of big data[J].Science,2014(6210).
[9]周曉劍.基于徑向基函數(shù)的分?jǐn)?shù)年齡假設(shè)[J].統(tǒng)計(jì)與決策,2016(03).
[10]張浩然,汪曉東.回歸最小二乘支持向量機(jī)的增量和在線式學(xué)習(xí)算法[J].計(jì)算機(jī)學(xué)報(bào),2006(03).
(作者單位:南京郵電大學(xué)管理學(xué)院)