中國(guó)電信股份有限公司江蘇分公司互聯(lián)網(wǎng)與增值業(yè)務(wù)運(yùn)營(yíng)支撐中心 胡仲剛 汪敏娟
基于客戶移動(dòng)互聯(lián)網(wǎng)行為的信息價(jià)值挖掘應(yīng)用
中國(guó)電信股份有限公司江蘇分公司互聯(lián)網(wǎng)與增值業(yè)務(wù)運(yùn)營(yíng)支撐中心 胡仲剛 汪敏娟
在分析移動(dòng)互聯(lián)網(wǎng)高速發(fā)展和用戶需求的基礎(chǔ)上,重點(diǎn)闡述了移動(dòng)互聯(lián)網(wǎng)用戶行為的信息價(jià)值挖掘流程和關(guān)鍵技術(shù),并對(duì)其在個(gè)性化內(nèi)容推薦、精準(zhǔn)業(yè)務(wù)營(yíng)銷、定向廣告投放和業(yè)務(wù)能力開(kāi)放等4個(gè)方面應(yīng)用進(jìn)行了探討。
移動(dòng)互聯(lián)網(wǎng);行為分析;信息挖掘
為幫助用戶快速找到自己感興趣的內(nèi)容,需對(duì)用戶移動(dòng)互聯(lián)網(wǎng)訪問(wèn)行為進(jìn)行挖掘分析。移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)具有數(shù)據(jù)量大、數(shù)據(jù)結(jié)構(gòu)復(fù)雜、數(shù)據(jù)內(nèi)容分散等特點(diǎn),為了從浩如煙海的數(shù)據(jù)中提取出有效信息,需借助有效的數(shù)據(jù)挖掘技術(shù),采取合適的數(shù)據(jù)挖掘策略。通過(guò)從用戶、終端、產(chǎn)品等多個(gè)維度進(jìn)行挖掘分析,確定用戶的興趣偏好并形成客戶畫(huà)像。再根據(jù)具體的營(yíng)銷任務(wù),通過(guò)針對(duì)性的營(yíng)銷手段,快速將合適的內(nèi)容推送給合適的用戶,從而實(shí)現(xiàn)移動(dòng)互聯(lián)網(wǎng)精細(xì)化運(yùn)營(yíng)的目標(biāo)。
1.1 信息價(jià)值挖掘流程
基于客戶移動(dòng)互聯(lián)網(wǎng)行為的信息價(jià)值挖掘是一項(xiàng)復(fù)雜的工程,需采集并整合處理用戶基礎(chǔ)信息、網(wǎng)絡(luò)流量信息、用戶訪問(wèn)內(nèi)容和用戶終端信息等,對(duì)數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析和挖掘,提供具有價(jià)值的商業(yè)和服務(wù)信息,并應(yīng)用于業(yè)務(wù)運(yùn)營(yíng)。如圖 1 所示,相關(guān)流程可劃分為數(shù)據(jù)采集、分析挖掘和業(yè)務(wù)應(yīng)用3個(gè)部分。
1.1.1 數(shù)據(jù)采集
從IT(信息技術(shù))系統(tǒng)獲取用戶基礎(chǔ)信息,通過(guò)DPI(深度包檢測(cè))系統(tǒng)從分組域網(wǎng)絡(luò)獲取用戶的上網(wǎng)行為數(shù)據(jù),從終端信息采集系統(tǒng)獲取用戶終端和業(yè)務(wù)支持能力信息,通過(guò)搜索引擎爬蟲(chóng)獲取用戶訪問(wèn)網(wǎng)頁(yè)內(nèi)容。從數(shù)據(jù)源采集到的數(shù)據(jù)具有流量大、報(bào)文格式復(fù)雜等特點(diǎn),不能直接進(jìn)行處理,需要先進(jìn)行清洗和預(yù)處理,轉(zhuǎn)換為標(biāo)準(zhǔn)、精簡(jiǎn)、有效的數(shù)據(jù)。
1.1.2 分析挖掘
從數(shù)據(jù)采集層獲取有效數(shù)據(jù),將用戶的真實(shí)身份、網(wǎng)絡(luò)流量和訪問(wèn)網(wǎng)頁(yè)內(nèi)容進(jìn)行對(duì)應(yīng),通過(guò)相關(guān)模型和算法進(jìn)行有效的數(shù)據(jù)挖掘。具體可從以下維度進(jìn)行:
訪問(wèn)偏好分析:根據(jù)用戶訪問(wèn)的URL(統(tǒng)一資源定位),對(duì)基于HTTP(超文本傳輸協(xié)議)形式的頁(yè)面進(jìn)行語(yǔ)意分析和內(nèi)容分類,確定客戶的訪問(wèn)興趣偏好。
搜索偏好分析:將公共、行業(yè)、典型門戶站內(nèi)等搜索引擎進(jìn)行分類,構(gòu)成搜索興趣偏好,通過(guò)搜索變量解析,挖掘出搜索的關(guān)鍵字。
應(yīng)用偏好分析:分析安卓和iPhone的下載行為,分析用戶使用各種應(yīng)用的次數(shù)、時(shí)長(zhǎng)、流量等信息。
專題偏好分析:通過(guò)對(duì)非文本形式的音樂(lè)、視頻、下載、游戲、閱讀和圖片等信息的挖掘,通過(guò)對(duì)文本形式的房產(chǎn)、汽車等信息的挖掘,確定客戶的專題興趣偏好。
行為特征分析:在客觀行為分析的基礎(chǔ)上,挖掘客戶各種偏好的忠誠(chéng)度、訪問(wèn)頻度、上網(wǎng)習(xí)慣、流量分布及沉默規(guī)律等。
1.1.3 業(yè)務(wù)應(yīng)用
實(shí)現(xiàn)目標(biāo)客戶挖掘,對(duì)外提供能力輸出,為具體運(yùn)營(yíng)和營(yíng)銷提供決策支持。具體包括:
目標(biāo)客戶提?。焊鶕?jù)客戶的自然屬性、終端構(gòu)成、上網(wǎng)行為、興趣偏好等提取目標(biāo)客戶。支持營(yíng)銷主題、客戶特征、客戶規(guī)模等多種條件提取方式。
應(yīng)用接口:構(gòu)建開(kāi)放的支撐平臺(tái),提供標(biāo)準(zhǔn)化的API(應(yīng)用程序接口),幫助第三方系統(tǒng)根據(jù)用戶喜好推薦相應(yīng)的內(nèi)容。
1.2 關(guān)鍵技術(shù)
1.2.1 垂直搜索引擎
垂直搜索引擎是信息價(jià)值挖掘的重要內(nèi)核之一。與綜合搜索引擎相比,垂直搜索引擎的信息服務(wù)模式有所變化,它更加注重信息的專深性,克服了綜合搜索引擎信息查準(zhǔn)率低、有用信息含量低等不足。垂直搜索引擎實(shí)現(xiàn)了網(wǎng)頁(yè)信息的結(jié)構(gòu)化抽取,是一種搜索質(zhì)量更準(zhǔn)確、相關(guān)性更復(fù)雜的搜索引擎。其主要技術(shù)特點(diǎn)如下:
結(jié)構(gòu)化:專業(yè)的結(jié)構(gòu)設(shè)置,使信息更加準(zhǔn)確和清晰。
個(gè)性化:根據(jù)專業(yè)結(jié)構(gòu),建立最合理的索引,快速定位內(nèi)容變更。
專業(yè)性:開(kāi)發(fā)針對(duì)非傳統(tǒng)文本內(nèi)容的分析,如文本文件下載、音頻視頻軟件的頭文件信息分析,能夠?qū)⒎侵髁髅襟w的信息進(jìn)行提取。
功能性:優(yōu)化對(duì)新增行業(yè)的快速接入模式。
目前,用戶移動(dòng)互聯(lián)網(wǎng)行為除了文本信息以外,還有大量非文本信息,如聽(tīng)音樂(lè)、看視頻、讀小說(shuō)、玩游戲等非文本形式,無(wú)法通過(guò)頁(yè)面URL挖掘。垂直搜索引擎能很好地解決以上問(wèn)題,可以實(shí)現(xiàn)對(duì)音樂(lè)庫(kù)、視頻庫(kù)、下載庫(kù)、游戲庫(kù)、小說(shuō)庫(kù)、圖片庫(kù)、閱讀庫(kù)、房產(chǎn)庫(kù)、汽車庫(kù)等專題信息的實(shí)時(shí)維護(hù)更新。
1.2.2 人工智能分析
人工智能分析是信息價(jià)值挖掘重要內(nèi)核之二。用戶訪問(wèn)移動(dòng)互聯(lián)網(wǎng)內(nèi)容爬?。╟rawling)后,是通過(guò)人工智能分析模型來(lái)進(jìn)行處理的。具體包括:
無(wú)效頁(yè)面過(guò)濾:在一個(gè)網(wǎng)站中,存在很多如廣告、導(dǎo)航頁(yè)面、功能頁(yè)面、提示頁(yè)面等沒(méi)有實(shí)際主題的頁(yè)面,需預(yù)先進(jìn)行過(guò)濾。一般來(lái)說(shuō),對(duì)具有特定特征的無(wú)效頁(yè)面系統(tǒng)將自動(dòng)過(guò)濾,對(duì)沒(méi)有特定特征的頁(yè)面采取人工設(shè)置過(guò)濾的方式進(jìn)行過(guò)濾。
頁(yè)面垃圾過(guò)濾:在頁(yè)面中,除了主題內(nèi)容以外,還有一些諸如廣告條、頁(yè)面美化等非主題信息,這些內(nèi)容如果也參與到分詞中提取關(guān)鍵詞將會(huì)造成很大的偏差。因此,需要在分詞前對(duì)頁(yè)面進(jìn)行清洗,以保證清洗后的部分只有具體的主題內(nèi)容。
頁(yè)面內(nèi)容分析:將頁(yè)面內(nèi)容過(guò)濾成有效的、可利用的真實(shí)數(shù)據(jù)后,分析出信息的標(biāo)題、元信息和正文,并進(jìn)行切詞及剔除虛詞,獲取整篇內(nèi)容的關(guān)鍵詞條,為內(nèi)容分類提供基礎(chǔ)數(shù)據(jù)。根據(jù)知識(shí)庫(kù)和專家規(guī)則庫(kù)及預(yù)先設(shè)置好的類別,進(jìn)行內(nèi)容的分類處理。通過(guò)自動(dòng)學(xué)習(xí)機(jī)的自學(xué)功能來(lái)發(fā)現(xiàn)知識(shí),實(shí)現(xiàn)知識(shí)庫(kù)和專家規(guī)則庫(kù)的自動(dòng)優(yōu)化。
1.2.3 內(nèi)容聚類分析
內(nèi)容聚類分析是信息價(jià)值挖掘重要內(nèi)核之三。對(duì)經(jīng)過(guò)內(nèi)容分析的頁(yè)面進(jìn)行聚類分析,把若干相似度高的內(nèi)容聚類成一組,然后分析各組內(nèi)容的相同與不同信息。
目前,聚類算法主要有兩種,一是以G-HAC等算法為代表的層次凝聚法,另一種是以K-means算法為代表的平面劃分法。其中,前者是最為常用的聚類方法,他能夠生成層次的嵌套聚類,并且準(zhǔn)確度高,但在每?jī)蓚€(gè)聚類合并時(shí),需要全局的比較所有聚類的相似度,確定適當(dāng)?shù)拈y值,計(jì)算出最佳效果。
內(nèi)容聚類在客戶訪問(wèn)過(guò)的內(nèi)容中,挖掘出相同的內(nèi)容或類似的內(nèi)容,形成內(nèi)容類別,再結(jié)合客戶基礎(chǔ)信息、頁(yè)面訪問(wèn)信息等生成客戶畫(huà)像。
1.2.4 行為分析模型
行為分析模型是信息價(jià)值挖掘重要內(nèi)核之四。在進(jìn)行人工智能分析和內(nèi)容聚類分析時(shí),需通過(guò)建立相關(guān)的行為分析模型來(lái)實(shí)現(xiàn)。主要有:
文本挖掘模型:基于訓(xùn)練語(yǔ)料庫(kù),通過(guò)一定的模型訓(xùn)練算法,構(gòu)造文本智能分類模型。把構(gòu)造完成的文本智能分類模型保存到數(shù)據(jù)庫(kù)中,對(duì)文本內(nèi)容進(jìn)行分詞分析,根據(jù)已訓(xùn)練好的分類模型進(jìn)行內(nèi)容分類。
用戶應(yīng)用偏好模型:根據(jù)用戶使用各類應(yīng)用的情況進(jìn)行分析,通過(guò)應(yīng)用知識(shí)庫(kù)識(shí)別應(yīng)用,計(jì)算用戶應(yīng)用興趣偏好模型。
用戶搜索偏好模型:主要根據(jù)用戶在主流的搜索網(wǎng)站的搜索情況進(jìn)行分析。分析用戶搜索主流搜索網(wǎng)站的搜索記錄,對(duì)用戶的搜索內(nèi)容進(jìn)行分類記錄,計(jì)算用戶搜索興趣偏好模型。
用戶瀏覽行為聚類模型:根據(jù)選擇的聚類分析指標(biāo),利用上面提到的聚類挖掘算法對(duì)客戶進(jìn)行分群。聚類指標(biāo)可自主選擇,模型輸出包括:每個(gè)客戶群的客戶數(shù)、百分比、各項(xiàng)指標(biāo)的分布情況等。
數(shù)據(jù)關(guān)聯(lián)分析模型:根據(jù)用戶的基礎(chǔ)信息、終端信息和訪問(wèn)的網(wǎng)頁(yè)內(nèi)容進(jìn)行關(guān)聯(lián)分析,找出其中的關(guān)聯(lián)關(guān)系,用于針對(duì)性營(yíng)銷。
移動(dòng)互聯(lián)網(wǎng)用戶行為分析是真實(shí)的、客觀的、多維度的分析,其準(zhǔn)確度取決于行為分析模型。
目前,基于客戶移動(dòng)互聯(lián)網(wǎng)行為的信息價(jià)值挖掘,結(jié)合業(yè)務(wù)發(fā)展需要,可以開(kāi)展個(gè)性化內(nèi)容推薦、精準(zhǔn)業(yè)務(wù)營(yíng)銷、定向廣告投放和對(duì)外能力開(kāi)放等業(yè)務(wù)應(yīng)用。
2.1 個(gè)體客戶的個(gè)性化內(nèi)容推薦
針對(duì)個(gè)體客戶,從用戶、終端、產(chǎn)品等多個(gè)維度進(jìn)行分析,生成客戶畫(huà)像。根據(jù)多維度的客戶畫(huà)像,提供個(gè)性化的門戶頁(yè)面,針對(duì)性地進(jìn)行內(nèi)容推薦。同時(shí),通過(guò)客戶行為分析反饋客戶特征變化,形成閉環(huán)營(yíng)銷系統(tǒng)。具體流程見(jiàn)圖 2。
如用戶訪問(wèn)業(yè)務(wù)門戶時(shí),為其推薦合適的游戲、應(yīng)用、視頻等。根據(jù)用戶的興趣偏好推薦合適的內(nèi)容,有利于增加用戶黏性,降低流失率。
2.2 群體客戶的精準(zhǔn)業(yè)務(wù)營(yíng)銷
針對(duì)群體客戶,在客戶畫(huà)像基礎(chǔ)上,通過(guò)建立營(yíng)銷活動(dòng)挖掘模型,實(shí)現(xiàn)特定業(yè)務(wù)精確受眾群體的客戶挖掘。在具體業(yè)務(wù)推廣時(shí),可以按照營(yíng)銷主題、客戶特征、客戶規(guī)模等多種條件提取目標(biāo)客戶,實(shí)施精準(zhǔn)營(yíng)銷,進(jìn)而達(dá)到“提高效率、降低成本、減少投訴、增加效益”的目的。具體流程見(jiàn)圖 3。
精準(zhǔn)營(yíng)銷可以基于多種方式,如營(yíng)業(yè)廳實(shí)體渠道、外呼營(yíng)銷,以及傳統(tǒng)的短信、彩信和WAP(無(wú)線應(yīng)用協(xié)議)推送等。對(duì)營(yíng)銷活動(dòng)效果進(jìn)行評(píng)估,將營(yíng)銷成功的客戶與挖掘的興趣偏好客戶進(jìn)行對(duì)比,找出存在的問(wèn)題,為再次營(yíng)銷提供修正方案。
2.3 媒體客戶的定向廣告投放
定向廣告投放是運(yùn)營(yíng)商根據(jù)客戶的興趣偏好,向商家的目標(biāo)客戶群進(jìn)行廣告推送的行為。它是一種基于用戶行為挖掘分析的精確廣告投放,通過(guò)策劃數(shù)據(jù)挖掘維度鎖定用戶群,由傳媒公司策劃廣告創(chuàng)意,對(duì)目標(biāo)用戶群進(jìn)行廣告投放,為后向廣告商提供個(gè)性化差異化服務(wù)。下面以挖掘具有房產(chǎn)、汽車等興趣偏好的客戶進(jìn)行定向廣告投放為例,如表 1 所示。
結(jié)果表明,基于用戶行為的定向廣告投放成功率為普通投放效果的幾百倍,既節(jié)約了資源,又達(dá)到良好的投放效果。定向廣告投放能精準(zhǔn)的將廣告信息投放給最合適的移動(dòng)用戶群體,對(duì)開(kāi)展移動(dòng)互聯(lián)網(wǎng)后向經(jīng)營(yíng)、探索新興商業(yè)模式等有重要意義。
2.4 合作伙伴的業(yè)務(wù)能力開(kāi)放
開(kāi)放已經(jīng)成為移動(dòng)互聯(lián)網(wǎng)時(shí)代的潮流。在國(guó)外,F(xiàn)acebook平臺(tái)上的第三方應(yīng)用數(shù)量已超過(guò)24 000個(gè),每天有超過(guò)40萬(wàn)人的開(kāi)發(fā)者圍繞這個(gè)平臺(tái)做開(kāi)發(fā)應(yīng)用。在國(guó)內(nèi),新浪微博、騰訊、百度、盛大、開(kāi)心網(wǎng)等相繼開(kāi)放互聯(lián)領(lǐng)域的API,力求在網(wǎng)民中為自己塑造開(kāi)放平臺(tái)的形象。構(gòu)建開(kāi)放的支撐平臺(tái),提供標(biāo)準(zhǔn)化的API,幫助第三方系統(tǒng)根據(jù)用戶喜好推薦相應(yīng)的內(nèi)容,可以有效地實(shí)現(xiàn)資源整合、信息共享和業(yè)務(wù)協(xié)同。
隨著移動(dòng)互聯(lián)網(wǎng)的迅速發(fā)展,流量經(jīng)營(yíng)成為運(yùn)營(yíng)商創(chuàng)新發(fā)展的核心。深化流量經(jīng)營(yíng)的一個(gè)重要手段是用戶訪問(wèn)信息的挖掘與分析。通過(guò)對(duì)移動(dòng)互聯(lián)網(wǎng)中各項(xiàng)數(shù)據(jù)進(jìn)行挖掘和分析,能夠?qū)τ脩舻氖褂眯袨?、興趣偏好、發(fā)展趨勢(shì)等進(jìn)行全面了解,進(jìn)而開(kāi)展針對(duì)性營(yíng)銷和提供個(gè)性化服務(wù),再通過(guò)客戶行為分析反饋客戶特征變化,從而形成良性的閉環(huán)營(yíng)銷體系。如何高效地對(duì)用戶移動(dòng)互聯(lián)網(wǎng)行為進(jìn)行挖掘,充分發(fā)揮智能管道的優(yōu)勢(shì),實(shí)現(xiàn)精細(xì)化的業(yè)務(wù)運(yùn)營(yíng),是未來(lái)探索的一個(gè)重要方向。