鐘慶
【摘 要】提出一種基于移動互聯(lián)網個體用戶的實際行為得出其喜好標簽,據此將同類信息推送給個體用戶的方法,該方法能夠實現精確推送,因此推送的內容更加容易被用戶接受,從而商業(yè)價值性價比更高。首先闡述了個體用戶實際行為數據的提取方法,比較了各方法的優(yōu)缺點;其次提出了一種固定質心的k-means文本聚類方法,能夠快速、準確地實現用戶喜好標簽分類;最后分析了精確營銷模式以及后續(xù)的研究方向。
【關鍵詞】喜好標簽 移動互聯(lián)網 用戶行為分析 文本聚類 精確營銷
中圖分類號:TP301.6 文獻標志碼:A 文章編號:1006-1010(2016)09-0093-04
1 引言
近年來,隨著智能移動終端的基本普及,移動互聯(lián)網[1]發(fā)展迅猛,在人們的衣食住行中無時無刻不扮演著重要角色,可以說移動互聯(lián)網正在或者已經改變了人們的生活方式。移動互聯(lián)網有兩個特點:一是移動通信與互聯(lián)網二者融合,即用戶可以通過移動終端和互聯(lián)網實現隨時互聯(lián);二是大批應用伴隨移動互聯(lián)網而產生,這些應用與移動終端的可移動性、可便攜性相結合,隨時為用戶提供個性化服務[2]。用戶可以通過移動互聯(lián)網實現實時的信息接收、發(fā)送和交互等。運營商和各大電商們也充分抓住這個機會,利用移動互聯(lián)網通道,將大量的信息資源推送給群體用戶,而對于個體用戶而言,由于這種信息推送沒有針對性,在反復收到海量信息后,心理上會造成疲勞甚至是反感。另一方面,個體用戶在尋找自己喜歡或者希望獲得的信息資源時又很困難。因此,根據移動互聯(lián)網個體用戶的實際行為,分析出其喜好標簽,從而實現信息精確推送,可以有效地解決這一問題,這既能為運營商和電商們發(fā)掘潛在用戶,又能改善個體用戶的體驗,最終實現雙贏。
早期對互聯(lián)網用戶行為的分析[3]比較多,方法也比較成熟,已經形成基本的網絡特性,這種用戶行為研究偏向于探究個體用戶的上網意圖,比如:瀏覽網頁的頻率、停留的時間、網頁的分類等。但是目前對于移動互聯(lián)網用戶行為的分析方法還不夠成熟,尤其是國內,對在該方面的研究成果非常有限。本文主要闡述了一種基于喜好標簽的移動互聯(lián)網用戶行為分類方法,該方法從微觀角度,根據個體用戶對于移動互聯(lián)網的實際使用數據,得到用戶的喜好標簽,從而達到用戶分類的目的。在這個過程中,列舉了幾種典型的移動互聯(lián)網原始數據獲取方法,分析了各方法的優(yōu)缺點,進而通過聚類算法,將原始數據進行文本聚類,從而得到用戶分類的結果。最后還闡述了該方法的應用遠景以及對其商業(yè)價值的預判。
2 數據獲取
移動互聯(lián)網體系包括3個層面:移動終端、移動網絡和應用服務。首先針對移動互聯(lián)網的應用服務層進行原始數據收集。移動互聯(lián)網的數據獲取方式大致分為兩種,一種是基于WAP(Wireless Application Protocol,無線應用通訊協(xié)議)網關的采集,另一種是基于網絡交換機數據包的采集。
WAP網關是承載移動數據業(yè)務的關鍵網元,起到了數據業(yè)務統(tǒng)一接入的作用,因此WAP網關是移動終端連接移動互聯(lián)網的重要樞紐[4]?;赪AP網關進行移動互聯(lián)網數據采集是通過WAP網關的自帶功能,將WAP協(xié)議下的數據分成多個詳細字段,將這些字段數據信息進行一次日志化。由于這些都是原始數據,包含很多冗余信息,這樣會使用戶行為的分類不夠準確,從而導致最終分類錯誤,因此需要利用信息過濾程序對原始數據進行信息過濾,形成最終具有固定模式的有效數據集,最后再將這些真正有價值的信息寫進日志文件,即可完成數據采集。這種數據獲取方法的優(yōu)點是簡單方便,利用WAP網關自帶功能即可完成對原始數據的采集;另一方面,這種采集方式也是基于用戶請求的應用層協(xié)議,不會把底層的數據全部采集過來,簡化了過濾過程。由于此處數據獲取是為最終的用戶行為分類做準備,因此需要盡量多地獲取數據,但無需全部獲取,對于加密型WAP協(xié)議等,可以只獲取通道途徑,無需獲取實際內容。
網絡交換機是一種用于擴大網絡的器材,能夠為子網絡提供連接的通道。隨著互聯(lián)網逐漸成為當今越來越重要的局域網組網技術,網絡交換機也成為了最普及的交換機[5]。基于網絡交換機數據包的采集方法是利用網絡數據包捕獲應用,將需要的網絡數據捕獲、過濾,從而完成數據采集。具體過程是在網絡交換機上放置一種數據包采集應用,將流過該網絡交換機的所有數據中屬于個體用戶的數據包識別并捕獲,構成原始數據集,然后經過信息過濾程序、文件重組等過程,形成最終的有效數據集。這種方法的缺點是設置過濾條件比較困難,需要調用一些庫函數等工具,并且設置過程也比較復雜。
3 數據分析
在數據獲取的基礎上,利用文本聚類的方法,對有效數據進行分析,最終達到用戶分類的目的。
計算機處理無結構的詞語文本比較困難,通常采用的方法是利用VSM(Vector Space Model,向量空間模型)在預處理的基礎上,將詞語文本描述成為一個N維特征空間中的一個N維向量,進而通過對向量的科學計算實現詞語文本的分類。文本聚類[6]的主要依據是認為同類的文本相似度大,不同類的文本相似度小,進而將同類文本聚集到一起,得到聚類結果。目前比較主流的文本聚類算法包括基于劃分法、基于層次法、基于密度法、基于網格法和基于模型法等。文本聚類被廣泛地應用于搜索引擎、信息處理等領域[7]。
針對移動互聯(lián)網個體用戶喜好標簽的文本分類,可以先設定K個喜好標簽(比如社交、購物、讀書、游戲等),以這些標簽作為聚類核心,將采集到的用戶數據進行聚類,得到個體用戶的分類結果。本文在K-means經典算法的基礎上,增加對移動互聯(lián)網個體用戶喜好分類的特性,提出一種固定質心的文本聚類數據分析方法。K-means算法[8]是一種典型的基于劃分的方法,屬于一種基于質心的聚類技術,其基本原理是從n個數據對象中任意選擇k個對象作為初始的聚類點,對于其他對象,根據他們與這些聚類點的相似度(距離),將他們分配給與其最相似的簇,然后重新計算簇的平均值,更新聚類點,重復這一過程,直到簇的劃分不再發(fā)生變化。這種文本聚類方法的優(yōu)點是簡單易行并且能夠處理大規(guī)模的數據集。但同時該算法的缺點也比較明顯,即容易陷入局部最小,很難保證全局最優(yōu),而且初始聚類點的選擇和k值的設定會在很大程度上影響最終的聚類效果。因此針對個體用戶喜好分類的特性,采用固定質心的方式,即將最終的喜好分類標簽指定為初始的聚類點和k值,然后進行聚類,這樣不僅可以實現分類最優(yōu),而且簡化了算法、提高了效率。
為驗證算法效果,采用60個原始文本集(優(yōu)酷、群聊、淘寶等),以“網購、影音和社交”作為初始聚類點(k值取3),利用K-means算法進行文本聚類,效果如圖1、圖2所示:
由上述示例可以看出,本文提出的簡化K-means算法能夠較好地實現文本分類。
4 商業(yè)模式
人可以控制自己的消費意圖,但是極易受到外部的影響,所以商家通過推送大量的信息來盡量引導用戶消費。而通過對用戶的實際行為進行標簽分類,推送用戶最可能喜歡或者最想得到的信息,更容易被用戶所接受,可以更高效地產生商業(yè)價值。對于個體用戶的區(qū)分,實際上是精確營銷[9]的理念,精確營銷是相對于大眾營銷而言的,大眾營銷是典型的產品導向方式,就是使用同樣的營銷組合,含糊不清地針對每一個顧客。大眾營銷假設每一個人都是相同的,并且認為每一個人都是潛在顧客,試圖把產品賣給每一個人。在移動互聯(lián)網時代,這種大眾營銷集中體現在群推信息,但由于沒有針對性,前期投入很大,效果卻達不到預期。而精確營銷是在充分了解顧客信息的基礎上,針對顧客偏好,有針對性地進行一對一的營銷。精確營銷是由直復營銷、數據庫營銷等多種手段相互結合[10],但前提是掌握精確的營銷信息。因此,本文中闡述的利用個體用戶的具體實際行為數據進行收集,針對這些數據進行喜好標簽的分類分析,得到用戶最喜歡或最有可能需要的信息進行推送的方式,實現了精確營銷。這不僅可以幫助商家節(jié)省推廣成本,更能改善用戶體驗,幫助用戶擺脫海量信息轟炸的煩惱,可輕松快速地找到自己需要的信息,最終實現雙贏。
后續(xù)工作可以在用戶喜好分類的基礎上,打破單一的分類模式,對喜好標簽做權重分配排序,得到個體用戶的喜好標簽序列,按照權重推送用戶可能需要的信息。同時可以將信息進行分類,用戶可以根據自身需求,自主選擇需要的信息類別,然后查找具體的信息內容,從而充分發(fā)揮用戶的主觀能動性,提高信息采用率。
5 結束語
在移動互聯(lián)網時代,實現信息的有效推送,既可以提高用戶感知,又能夠縮減商家的推銷成本。本文通過有效的數據采集方法,獲取個體用戶的實際行為數據,在此基礎上,對數據進行聚類分析,得到用戶的喜好標簽分類。后續(xù)引入精確營銷的概念,針對喜好標簽的分類結果進行相關信息的準確推送。最后提出優(yōu)化方案,將喜好標簽做權重分配排序,按照權重進行信息的層次化推送,或在信息分類的基礎上,幫助用戶實現自主選擇。
參考文獻:
[1] 吳吉義,李文娟,黃劍平,等. 移動互聯(lián)網研究綜述[J]. 中國科學: 信息科學, 2015,45(1): 30-36.
[2] 中國工業(yè)和信息化部電信研究院. 移動互聯(lián)網白皮書[EB/OL]. [2016-01-24]. http://wenku.baidu.com/link?url=sn5w0sXSannzh3hYnxKJoAhz7uZOpdFinanla_j26c2cpjt0ASZ3ESHCfkmWJ0mlFDBIcMrY7hs6tWHuVDKgur9NaPgJU4OqMdnvD5sueVO.
[3] 董富強. 網絡用戶行為分析研究及其應用[D]. 西安: 西安電子科技大學, 2005.
[4] 鐘磊,張健. WAP網關在移動網絡業(yè)務中的應用分析[J]. 廣西通信技術, 2012(1): 6-9.
[5] 王璐. 移動互聯(lián)網用戶行為分析[D]. 重慶: 重慶郵電大學, 2012.
[6] 吳啟明,易云飛. 文本聚類綜述[J]. 河池學院學報, 2008,28(2): 86-91.
[7] 李春青. 文本聚類算法研究[J]. 軟件導刊, 2015(1): 74-76.
[8] Anil K J. Data clustering: 50 years beyond K-Means[J]. Pattern Recognition Letters, 2010,31(8): 651-666.
[9] Zabin J, Brebach G. Precision Marketing[M]. Mass Marketing, 2004.
[10] 呂巍. 精確營銷[M]. 北京: 機械工業(yè)出版社, 2008.