張湛梅,張曉川/Zhang Zhanmei,Zhang Xiaochuan
(中國(guó)移動(dòng)通信集團(tuán)廣東有限公司 廣州510630)
2012年,手機(jī)用戶總數(shù)達(dá)10.52億,手機(jī)網(wǎng)民規(guī)模達(dá)3.88億人,手機(jī)首次超越臺(tái)式電腦成為第一大上網(wǎng)終端[1]。易觀國(guó)際分析曾預(yù)測(cè),2013年中國(guó)移動(dòng)互聯(lián)網(wǎng)市場(chǎng)規(guī)模將突破3 000億元人民幣,這一切意味著移動(dòng)互聯(lián)時(shí)代已經(jīng)全面來(lái)臨。
移動(dòng)互聯(lián)網(wǎng)產(chǎn)業(yè)鏈不斷裂變和細(xì)化,使大部分增量利潤(rùn)涌向了創(chuàng)新型技術(shù)公司,電信運(yùn)營(yíng)企業(yè)管道化的趨勢(shì)日漸明顯。與此同時(shí),傳統(tǒng)話音業(yè)務(wù)飽和,呈現(xiàn)不斷減少的趨勢(shì),運(yùn)營(yíng)商也面臨著不小的挑戰(zhàn)[2]。在此發(fā)展形勢(shì)下,運(yùn)營(yíng)商需要更好地發(fā)掘滿足客戶方方面面需求的互聯(lián)網(wǎng)內(nèi)容,爭(zhēng)取將內(nèi)容型數(shù)據(jù)業(yè)務(wù)作為公司新的利潤(rùn)增長(zhǎng)點(diǎn)。
傳統(tǒng)的技術(shù)需要利用爬蟲(chóng)技術(shù)抓取一定量的文本內(nèi)容,然后利用關(guān)鍵字匹配技術(shù)對(duì)文本進(jìn)行分類。這種方法需要設(shè)置爬蟲(chóng)服務(wù)器集群、分析服務(wù)器集群、搜索服務(wù)器集群,以定位內(nèi)容的分類和客戶的瀏覽行為[3]。這種技術(shù)能夠精準(zhǔn)識(shí)別客戶的具體偏好,但是成本較高,文本識(shí)別技術(shù)復(fù)雜,且其只重點(diǎn)關(guān)注客戶某一內(nèi)容業(yè)務(wù)的偏好(主要是網(wǎng)頁(yè))。但客戶對(duì)于不同內(nèi)容業(yè)務(wù),如手機(jī)上網(wǎng)或手機(jī)閱讀,存在著一定的關(guān)聯(lián)強(qiáng)度,強(qiáng)關(guān)聯(lián)的偏好可用來(lái)實(shí)現(xiàn)不同客戶不同內(nèi)容業(yè)務(wù)的滲透推薦,解決新業(yè)務(wù)的用戶拓展難題。
為解決上述問(wèn)題,本方案首先綜合所有不同性質(zhì)、不同粒度的互聯(lián)網(wǎng)內(nèi)容業(yè)務(wù)(如夢(mèng)網(wǎng)業(yè)務(wù)、手機(jī)報(bào)紙、手機(jī)閱讀、手機(jī)上網(wǎng)等傳統(tǒng)的內(nèi)容業(yè)務(wù)以及手機(jī)視頻、手機(jī)游戲、全曲音樂(lè)等廣義的內(nèi)容業(yè)務(wù)),然后根據(jù)用戶對(duì)這些業(yè)務(wù)分類內(nèi)容的瀏覽行為信息,構(gòu)建一個(gè)可拓展應(yīng)用的分析系統(tǒng),最后通過(guò)設(shè)計(jì)偏好關(guān)聯(lián)網(wǎng)絡(luò)來(lái)全維度識(shí)別和剖析用戶的互聯(lián)網(wǎng)內(nèi)容偏好?;陉P(guān)聯(lián)網(wǎng)絡(luò)的移動(dòng)互聯(lián)網(wǎng)內(nèi)容偏好分析系統(tǒng)如圖1所示。
管理不同數(shù)據(jù)源的數(shù)據(jù),但只關(guān)注用戶對(duì)業(yè)務(wù)內(nèi)容的閱讀行為信息。例如,對(duì)于WAP日志,涉及時(shí)間、URL、流量、會(huì)話、協(xié)議、網(wǎng)關(guān)、狀態(tài)等信息,但本技術(shù)方案只收集與用戶閱讀相關(guān)的行為數(shù)據(jù)。
根據(jù)新增內(nèi)容業(yè)務(wù)的性質(zhì),確定內(nèi)容的范圍和粒度,用行為數(shù)據(jù)進(jìn)行建模,為后續(xù)內(nèi)容分類和偏好評(píng)分做好數(shù)據(jù)準(zhǔn)備工作。
對(duì)于已有分類的內(nèi)容業(yè)務(wù),直接采用其具體的內(nèi)容分類信息,并將粒度控制在閱讀行為能到達(dá)的最小層面(如中國(guó)移動(dòng)的手機(jī)閱讀基地?cái)?shù)據(jù),粒度可以到達(dá)用戶閱讀每一本圖書(shū)的具體信息,類似地,全曲音樂(lè)具體到某一首歌,手機(jī)游戲具體到某一游戲);對(duì)于沒(méi)有分類的內(nèi)容業(yè)務(wù),則建立標(biāo)準(zhǔn)的分類規(guī)則,并將粒度控制在三級(jí)以內(nèi),原則是用盡可能少的規(guī)則,覆蓋80%的用戶 (如WAP手機(jī)閱讀,只需定位起點(diǎn)網(wǎng)、騰訊書(shū)城等幾個(gè)主流網(wǎng)站,就可以覆蓋絕大部分手機(jī)閱讀用戶)。例如,對(duì)于手機(jī)上網(wǎng),可以利用簡(jiǎn)單的URL匹配來(lái)定位內(nèi)容分類,匹配規(guī)則樣例見(jiàn)表1。
將用戶在不同性質(zhì)內(nèi)容業(yè)務(wù)的閱讀行為數(shù)據(jù)都進(jìn)行標(biāo)準(zhǔn)化,再綜合這3個(gè)維度,對(duì)用戶的內(nèi)容偏好程度進(jìn)行量化評(píng)分。對(duì)于不同性質(zhì)的內(nèi)容業(yè)務(wù),如手機(jī)報(bào)紙、手機(jī)閱讀、手機(jī)上網(wǎng)等,一方面是業(yè)務(wù)性質(zhì)層面,如內(nèi)容形式、收費(fèi)標(biāo)準(zhǔn)不同;另一方面是用戶的閱讀行為特征也會(huì)有較大差異,如閱讀的次數(shù)、時(shí)間、周期等。因此,需要在業(yè)務(wù)層面對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,才能使不同性質(zhì)、不同粒度的內(nèi)容在最終的綜合評(píng)分上具有公平的比較性。例如,對(duì)于不同性質(zhì)的業(yè)務(wù)(如手機(jī)閱讀與手機(jī)上網(wǎng))進(jìn)行內(nèi)容偏好程度評(píng)分或者評(píng)級(jí)的步驟如圖2所示。
圖1 基于關(guān)聯(lián)網(wǎng)絡(luò)的移動(dòng)互聯(lián)網(wǎng)內(nèi)容偏好分析系統(tǒng)
其中,維度權(quán)重和變量權(quán)重通過(guò)最小粒度到最大粒度依次求解,而評(píng)分過(guò)程則分階層從低到高依次加權(quán)求和,計(jì)算樣例如圖3所示。
以頻度為例,通過(guò)熵值法可直接求解得到閱讀天數(shù)、閱讀次數(shù)和平均每天閱讀次數(shù)這3個(gè)三級(jí)變量的權(quán)重系數(shù)[4],從而得到頻度的綜合評(píng)分表達(dá)式為:頻度=0.25×閱讀次數(shù)+0.65×閱讀天數(shù)+0.10×平均每天閱讀次數(shù)。類似地,可以求解得到粘度、額度的權(quán)重系數(shù)。然后將這3個(gè)評(píng)分再次輸入熵值法模型,求解得到這3個(gè)維度的權(quán)重系數(shù)。最終得到WAP內(nèi)容偏好程度評(píng)分表達(dá)式為:內(nèi)容偏好評(píng)分S=0.63×頻度+0.21×粘度+0.16×額度。 這里用 Sui表示用戶u對(duì)于內(nèi)容分類i的偏好評(píng)分。
構(gòu)建和維護(hù)內(nèi)容偏好的關(guān)聯(lián)網(wǎng)絡(luò),包括網(wǎng)絡(luò)中關(guān)聯(lián)所對(duì)應(yīng)的邊權(quán)計(jì)算以及邊的增加、刪除、更新。本系統(tǒng)的偏好關(guān)聯(lián)強(qiáng)度用來(lái)量化兩種業(yè)務(wù)內(nèi)容之間的關(guān)系緊密程度,具體是指偏好某一內(nèi)容的用戶同時(shí)偏好另一種內(nèi)容的可能性大小[5]??紤]到當(dāng)前需要拓展一個(gè)內(nèi)容業(yè)務(wù)到系統(tǒng)中,因此,對(duì)已有用戶的業(yè)務(wù)和新增無(wú)用戶的業(yè)務(wù)分情況討論。
3.5.1 已經(jīng)具備一定用戶的內(nèi)容業(yè)務(wù)A
如上例中的WAP手機(jī)上網(wǎng)業(yè)務(wù),則可以按照上述3.1~3.4節(jié)處理,得到用戶對(duì)于業(yè)務(wù)A的每個(gè)分類的內(nèi)容偏好 (例如手機(jī)閱讀,則A1=玄幻,A2=言情…的分類偏好)。其中,n為業(yè)務(wù)A的內(nèi)容分類個(gè)數(shù)。對(duì)于業(yè)務(wù)A,構(gòu)建關(guān)聯(lián)網(wǎng)絡(luò)的步驟如下。
(1)對(duì)于每一個(gè)業(yè)務(wù),構(gòu)建業(yè)務(wù)內(nèi)部所有內(nèi)容偏好的關(guān)聯(lián)子網(wǎng)絡(luò)
圖2 內(nèi)容偏好評(píng)分
圖3 內(nèi)容偏好評(píng)分變量權(quán)重
用點(diǎn)代表內(nèi)容分類,點(diǎn)的連邊代表內(nèi)容之間的偏好關(guān)聯(lián),而邊的權(quán)重則代表內(nèi)容之間的偏好關(guān)聯(lián)強(qiáng)度。例如,某業(yè)務(wù)A內(nèi)部關(guān)聯(lián)網(wǎng)絡(luò)的形狀如圖4所示。其中,對(duì)于業(yè)務(wù)A的任意兩個(gè)內(nèi)容Ai與Aj,對(duì)應(yīng)的偏好關(guān)聯(lián)連邊為AEij,而對(duì)應(yīng)的關(guān)聯(lián)強(qiáng)度則為連邊的權(quán)重Wij。
圖4 某業(yè)務(wù)內(nèi)容偏好關(guān)聯(lián)網(wǎng)絡(luò)
(2)計(jì)算關(guān)聯(lián)網(wǎng)絡(luò)每一條邊的權(quán)重即計(jì)算每一對(duì)內(nèi)容的偏好關(guān)聯(lián)強(qiáng)度。計(jì)算表達(dá)式為
(3)檢驗(yàn)關(guān)聯(lián)網(wǎng)絡(luò)每一條邊的可信任度
即評(píng)估兩個(gè)內(nèi)容之間的偏好關(guān)聯(lián)是否可靠穩(wěn)定[6]。
現(xiàn)有技術(shù)根據(jù)用戶閱讀信息(如網(wǎng)頁(yè))來(lái)分析偏好,但由于這些信息存在噪音 (如頁(yè)面捆綁、跳轉(zhuǎn)、彈出等),包含的不是用戶真實(shí)偏好的分類內(nèi)容,分析結(jié)果存在誤差,不利于應(yīng)用。本方案提供一種檢驗(yàn)偏好可信任度的方法:對(duì)于任意一對(duì)內(nèi)容偏好i與j,如果存在另一個(gè)內(nèi)容偏好k,使得則確定內(nèi)容偏好與的關(guān)聯(lián)是可以信任的。其中為內(nèi)容偏好與的關(guān)聯(lián)強(qiáng)度,而與為內(nèi)容偏好k與的關(guān)聯(lián)強(qiáng)度。這一步將剔除不符合上述不等式的所有偏好關(guān)聯(lián)。例如,對(duì)于圖4中A業(yè)務(wù)的內(nèi)容偏好與假設(shè)其關(guān)聯(lián)強(qiáng)度為發(fā)現(xiàn)與和有關(guān)聯(lián)的是且假設(shè)關(guān)聯(lián)強(qiáng)度分別為代入上述不等式進(jìn)行檢驗(yàn),由于不等式0.45×0.45≤0.50×0.46成立,因此,內(nèi)容偏好A2與A4的關(guān)聯(lián)是可信任的,如圖5所示。
圖5 某業(yè)務(wù)可信任內(nèi)容偏好關(guān)聯(lián)網(wǎng)絡(luò)
(4)計(jì)算不同業(yè)務(wù)之間的關(guān)聯(lián)強(qiáng)度,并檢驗(yàn)其可信任程度
根據(jù)前面3個(gè)步驟的計(jì)算,已經(jīng)得到每個(gè)業(yè)務(wù)內(nèi)部不同內(nèi)容偏好之間的關(guān)聯(lián)強(qiáng)度,這一步需要計(jì)算不同業(yè)務(wù)的內(nèi)容偏好之間的關(guān)聯(lián)強(qiáng)度,且關(guān)聯(lián)強(qiáng)度的計(jì)算方法與(2)一致。如圖6所示,對(duì)于業(yè)務(wù)A3與C3,對(duì)應(yīng)的連邊為
圖6 多業(yè)務(wù)內(nèi)容偏好關(guān)聯(lián)網(wǎng)絡(luò)
3.5.2 完全沒(méi)有用戶或者用戶數(shù)量極少的新增內(nèi)容業(yè)務(wù)B
本方案提出一種虛關(guān)聯(lián)方法,充分利用前面已經(jīng)構(gòu)建好的偏好關(guān)聯(lián)網(wǎng)絡(luò)來(lái)拓展新內(nèi)容業(yè)務(wù)的潛在用戶。
①對(duì)于當(dāng)前新增的內(nèi)容分類,依然可以按照3.1~3.3節(jié)處理,對(duì)這個(gè)內(nèi)容業(yè)務(wù)進(jìn)行數(shù)據(jù)建模,得到業(yè)務(wù) B 的內(nèi)容分類其中,m 為業(yè)務(wù)B的內(nèi)容分類個(gè)數(shù)。
②由于新增的業(yè)務(wù)(或內(nèi)容)用戶數(shù)較少,因此與其他業(yè)務(wù)內(nèi)容偏好的關(guān)聯(lián)數(shù)量很少甚至為0。為了解決這個(gè)問(wèn)題,對(duì)于任意一個(gè)新增的內(nèi)容分類Bi,定位一個(gè)與其內(nèi)容性質(zhì)最相似的其他業(yè)務(wù)內(nèi)容偏好Xj(建議用專家經(jīng)驗(yàn)方法),建立一個(gè)虛關(guān)聯(lián),并初始化關(guān)聯(lián)強(qiáng)度為對(duì)于任意一個(gè)其他業(yè)務(wù)的內(nèi)容偏好Yk,其與Xj的關(guān)聯(lián)強(qiáng)度可以通過(guò)上述步驟計(jì)算得到。則Bi與Yk的關(guān)聯(lián)強(qiáng)度表達(dá)式為:
利用偏好之間的關(guān)聯(lián)強(qiáng)度,預(yù)測(cè)出每個(gè)用戶最合適的推薦內(nèi)容。對(duì)于推薦的方法,本技術(shù)方案建議采用最熱門(mén)推薦和協(xié)同過(guò)濾推薦。
(1)對(duì)用戶已經(jīng)閱讀的同分類內(nèi)容進(jìn)行最熱門(mén)推薦
方法是選擇用戶評(píng)分排名最靠前的Top 3內(nèi)容偏好,推薦對(duì)應(yīng)內(nèi)容分類在當(dāng)前閱讀用戶數(shù)量最多的內(nèi)容。
(2)對(duì)用戶從未閱讀過(guò)的分類內(nèi)容進(jìn)行協(xié)同過(guò)濾推薦[7,8]
本技術(shù)方案采用了經(jīng)典的Item-Base算法,但做了一定的改進(jìn)。用關(guān)聯(lián)強(qiáng)度代表相似度,則對(duì)于用戶未閱讀過(guò)的任一內(nèi)容其推薦預(yù)測(cè)評(píng)分公式為
結(jié)合各種服務(wù)營(yíng)銷平臺(tái),利用反饋結(jié)果對(duì)關(guān)聯(lián)網(wǎng)絡(luò)進(jìn)行反饋優(yōu)化,更新步驟如下。
①對(duì)于每個(gè)進(jìn)行了推薦的用戶u,對(duì)其反饋結(jié)果為成功的推薦內(nèi)容偏好進(jìn)行加分,并將其偏好評(píng)分更新為而對(duì)于反饋結(jié)果為失敗的內(nèi)容偏好進(jìn)行減分,并將其偏好評(píng)分更新為最后對(duì)用戶u的所有內(nèi)容偏好進(jìn)行重新排名。
②對(duì)于每個(gè)進(jìn)行了推薦的內(nèi)容Xx,利用更新的偏好評(píng)分,按照3.5.1節(jié)的所有步驟,重新計(jì)算并更新與Xx有關(guān)聯(lián)的所有內(nèi)容Yy的偏好關(guān)聯(lián)強(qiáng)度。
圖7 新增業(yè)務(wù)內(nèi)容偏好關(guān)聯(lián)網(wǎng)絡(luò)
根據(jù)以上介紹的方法和舉例,建立手機(jī)閱讀拉新模型。各層權(quán)重見(jiàn)表2。
根據(jù)權(quán)重,輸出陽(yáng)江、韶關(guān)、惠州2014年6月的手機(jī)閱讀拉新模型名單。從3個(gè)方面評(píng)估此模型,包括歷史數(shù)據(jù)評(píng)估模型、實(shí)驗(yàn)設(shè)計(jì)評(píng)估模型以及營(yíng)銷效果評(píng)估模型。評(píng)估方法如圖8所示,其中,行動(dòng)組為模型打分排名靠前(前10%)的營(yíng)銷客戶;對(duì)照組為非模型打分隨機(jī)抽取一定數(shù)量的客戶(1 000名);不行動(dòng)組為行動(dòng)組中隨機(jī)抽取一定數(shù)量的客戶(1 000名)。歷史數(shù)據(jù)指手機(jī)閱讀基地2013年6~12月PUSH成功的最高值,包括閱讀和付費(fèi)閱讀??傮w看來(lái),在同等營(yíng)銷條件下,手機(jī)閱讀拉新模型的提升效果顯著:閱讀成功率提升了2.6倍,付費(fèi)閱讀成功率提升了3倍。
(1)模型效果評(píng)估(歷史標(biāo)桿對(duì)比)
以惠州為例,與2013年的6~12月PUSH成功的最高值進(jìn)行對(duì)比。2014年6月利用模型名單,短信營(yíng)銷了125 290個(gè)行動(dòng)組用戶,成功轉(zhuǎn)化為閱讀用戶的有13.6%,提升了4.2倍;成功轉(zhuǎn)化為付費(fèi)閱讀的用戶有1.5%,提升了42.6倍。
(2)模型效果評(píng)估(實(shí)驗(yàn)設(shè)計(jì)對(duì)比)
以韶關(guān)為例,2014年6月?tīng)I(yíng)銷行動(dòng)組用戶有40504個(gè),與對(duì)照組對(duì)比,轉(zhuǎn)化為閱讀用戶的有14.8%,提升了2倍;轉(zhuǎn)化為付費(fèi)閱讀用戶的有1.7%,提升了1.3倍。
(3)營(yíng)銷效果評(píng)估(實(shí)驗(yàn)設(shè)計(jì)對(duì)比)
以陽(yáng)江為例,2014年6月?tīng)I(yíng)銷行動(dòng)組用戶有40 062個(gè),與不行動(dòng)組對(duì)比,轉(zhuǎn)化為閱讀用戶的有15%,提升了1.2倍;轉(zhuǎn)化為付費(fèi)閱讀用戶的有1.4%,提升了1.3倍。
本文建立了一個(gè)可拓展的內(nèi)容偏好分析體系。該體系能將不同內(nèi)容性質(zhì)的移動(dòng)互聯(lián)網(wǎng)業(yè)務(wù)內(nèi)容納入一個(gè)統(tǒng)一的體系,實(shí)現(xiàn)客戶的內(nèi)容偏好分析。同時(shí),該體系具有可拓展性,當(dāng)新的業(yè)務(wù)內(nèi)容需要進(jìn)行推廣時(shí),只需將該業(yè)務(wù)納入體系,系統(tǒng)即可充分利用客戶其他不同業(yè)務(wù)的內(nèi)容偏好,進(jìn)行協(xié)同過(guò)濾,做出最合適的推薦,從而實(shí)現(xiàn)新業(yè)務(wù)、新客戶的拓展。
表2 手機(jī)閱讀內(nèi)容偏好綜合得分
圖8 評(píng)估方法
[1]漆晨曦.電信客戶社交網(wǎng)絡(luò)分析方法與營(yíng)銷應(yīng)用探討[J].電信科學(xué),2012,(7):5-9.
[2] 陳慶.網(wǎng)絡(luò)營(yíng)銷與傳統(tǒng)營(yíng)銷的比較研究[J].商業(yè)文化 (下半月),2011,(2):154.
[3] 金濤.網(wǎng)絡(luò)爬蟲(chóng)在網(wǎng)頁(yè)信息提取中的應(yīng)用研究[J].現(xiàn)代計(jì)算機(jī),2012,(1):16-18.
[4]陸添超,康凱.熵值法和層次分析法在權(quán)重確定中的應(yīng)用[J].電腦編程技巧與維護(hù),2009,(22):19-20.
[5]馬衛(wèi)東,李幼平,馬建國(guó)等.面向Web網(wǎng)頁(yè)的區(qū)域用戶行為實(shí)證研究[J].計(jì)算機(jī)學(xué)報(bào),2008,31(6):960-967.
[6]馬衛(wèi)東,李幼平,馬建國(guó)等.狀態(tài)行為關(guān)聯(lián)的可信網(wǎng)絡(luò)動(dòng)態(tài)信任計(jì)算研究[J].通信學(xué)報(bào),2010,31(12):12-19.
[7]方娟,梁文燦.一種基于協(xié)同過(guò)濾的網(wǎng)格門(mén)戶推薦模型[J].電子與信息學(xué)報(bào),2010,32(7):1585-1590.
[8]傅國(guó)強(qiáng).基于關(guān)聯(lián)規(guī)則的協(xié)同垃圾郵件過(guò)濾系統(tǒng)研究[J].深圳職業(yè)技術(shù)學(xué)院學(xué)報(bào),2005,4(3):15-18.