陳康,付華崢,陳翀,張宇藝,韋譽(yù)
(1.中國電信股份有限公司廣州研究院,廣東 廣州 510630;2.廣東工業(yè)大學(xué)計(jì)算機(jī)學(xué)院,廣東 廣州 510006;3.廣州優(yōu)億信息科技有限公司,廣東 廣州 510630)
運(yùn)營技術(shù)廣角
基于DPI的用戶興趣實(shí)時(shí)分類
陳康1,付華崢1,陳翀1,張宇藝2,韋譽(yù)3
(1.中國電信股份有限公司廣州研究院,廣東 廣州 510630;2.廣東工業(yè)大學(xué)計(jì)算機(jī)學(xué)院,廣東 廣州 510006;3.廣州優(yōu)億信息科技有限公司,廣東 廣州 510630)
近年來,隨著大數(shù)據(jù)發(fā)展熱潮興起,電信運(yùn)營商能獲得的DPI數(shù)據(jù)規(guī)模越來越大。如何對(duì)如此海量的DPI數(shù)據(jù)進(jìn)行實(shí)時(shí)的挖掘和分類是運(yùn)營商研究的熱點(diǎn)。設(shè)計(jì)了一種基于混合n-gram特征的URL分類算法和基于Doc2Vec模型的文本分類算法相結(jié)合的DPI數(shù)據(jù)分類方法,大大提高了DPI數(shù)據(jù)的分類速度和分類準(zhǔn)確率,為電信運(yùn)營商進(jìn)行精準(zhǔn)營銷提供了良好的基礎(chǔ)。
DPI;URL分類;文本分類;n-gram;Doc2Vec
隨著通信行業(yè)的深度變革,國內(nèi)通信行業(yè)的市場環(huán)境和競爭格局發(fā)生了根本性的變化。在企業(yè)服務(wù)質(zhì)量差異較小、價(jià)格競爭瓶頸狀況明顯的情況下,企業(yè)自身運(yùn)營能力的提升將是企業(yè)在激烈的競爭中掌握主動(dòng)權(quán)的一個(gè)關(guān)鍵轉(zhuǎn)折點(diǎn)。根據(jù)用戶的消費(fèi)信息挖掘出不同消費(fèi)群體的需求,為用戶提供更加優(yōu)質(zhì)的服務(wù),提升用戶對(duì)電信運(yùn)營商的滿意度和黏性,這將是電信企業(yè)技術(shù)研究的重要方向,也是響應(yīng)“互聯(lián)網(wǎng)+”戰(zhàn)略的重要舉措。
當(dāng)前,隨著大數(shù)據(jù)相關(guān)技術(shù)迅速發(fā)展,電信運(yùn)營商開始建立基于數(shù)據(jù)挖掘的商業(yè)智能系統(tǒng)。同時(shí),電信企業(yè)能夠獲取的用戶數(shù)據(jù)越來越豐富,其中包括:產(chǎn)品/服務(wù)使用信息、用戶基本信息、語音話單數(shù)據(jù)、用戶上網(wǎng)數(shù)據(jù)和信令數(shù)據(jù)等。通過DPI(deep packet inspection,深度分組檢測(cè))分析技術(shù),能夠較好地識(shí)別網(wǎng)絡(luò)上的流量類別、應(yīng)用層上的應(yīng)用種類等。然后基于DPI數(shù)據(jù)進(jìn)行分析挖掘,可以形成一套完整豐富、動(dòng)態(tài)更新的用戶行為標(biāo)簽體系?;谒鶚?gòu)建的用戶標(biāo)簽,電信運(yùn)營商可以充分地了解用戶的需求,從而實(shí)現(xiàn)精準(zhǔn)化營銷、提升營銷效果[1]。在構(gòu)建用戶標(biāo)簽體系的過程中,一個(gè)重要的工作是對(duì)能夠反映用戶興趣的DPI數(shù)據(jù)進(jìn)行實(shí)時(shí)的分類。傳統(tǒng)的分類方法有兩種,一種是基于DPI數(shù)據(jù)中的URL來分類,另一種是基于用戶DPI數(shù)據(jù)對(duì)應(yīng)的網(wǎng)頁內(nèi)容分類?;赨RL進(jìn)行分類的速度較快,但在準(zhǔn)確性方面卻略顯不足,而基于網(wǎng)頁內(nèi)容進(jìn)行分類的準(zhǔn)確性較高,但在處理海量的DPI數(shù)據(jù)時(shí),通過獲取DPI數(shù)據(jù)中的URL字段對(duì)應(yīng)的網(wǎng)頁內(nèi)容再進(jìn)行分類是不現(xiàn)實(shí)的。在電信運(yùn)營商每天要處理的信息量規(guī)模巨大的今天,迫切需要一個(gè)高效、準(zhǔn)確的分類方法。
鑒于此,本文提出了一種基于混合n-gram特征的URL分類算法和基于Doc2Vec模型的文本分類算法相結(jié)合的DPI分類方法,實(shí)現(xiàn)了對(duì)超大規(guī)模的用戶上網(wǎng)DPI數(shù)據(jù)的快速分類以及分類器的自動(dòng)學(xué)習(xí)和更新。相比于現(xiàn)有的分類模型,本文實(shí)現(xiàn)了以下方面的提高:在URL分類上,URL的類別特征表示使用的是混合n-gram,參考文獻(xiàn)[2]很好地闡述了URL的混合n-gram的特征表示的優(yōu)越性,減少了很多關(guān)鍵詞的遺漏,提高了分類的準(zhǔn)確度;在文本分類上,使用Doc2Vec實(shí)現(xiàn)了文檔的語義表達(dá),并在此基礎(chǔ)上實(shí)現(xiàn)了更為精準(zhǔn)的文本分類;對(duì)于海量的用戶DPI數(shù)據(jù),通過結(jié)合以上的兩種分類方法,即URL分類和文本分類,設(shè)計(jì)了一個(gè)新的DPI分類架構(gòu),達(dá)到了較好的實(shí)時(shí)分類效果,大大提高了對(duì)DPI數(shù)據(jù)分類的速度和準(zhǔn)確度。
DPI技術(shù)是一種基于應(yīng)用層的流量監(jiān)測(cè)和控制的技術(shù)。DPI技術(shù)除了分析IP分組的4層以下的內(nèi)容,即源地址、源端口、目的地址、目的端口和協(xié)議類型外,還增加了應(yīng)用層分析,用以辨別各種業(yè)務(wù)和應(yīng)用,從而得到業(yè)務(wù)類型、業(yè)務(wù)狀態(tài)和業(yè)務(wù)內(nèi)容等信息。寬帶DPI數(shù)據(jù)格式定義見表1。
表1 寬帶DPI數(shù)據(jù)格式定義
通過DPI技術(shù),電信運(yùn)營商能夠展開有針對(duì)性的營銷,有效地進(jìn)行業(yè)務(wù)識(shí)別、業(yè)務(wù)控制和業(yè)務(wù)統(tǒng)計(jì),從而能充分地挖掘出自身的價(jià)值,在激烈的競爭中處于有利的地位。
[3]得,中國電信全網(wǎng)根據(jù)用戶互聯(lián)網(wǎng)訪問的DPI數(shù)據(jù)信息的差異,分為公有信息和協(xié)議特有信息。本文主要針對(duì)HTTP特有的協(xié)議信息進(jìn)行了深入探討。其中,對(duì)于該協(xié)議信息中的URL字段是本文中對(duì)用戶DPI數(shù)據(jù)進(jìn)行URL分類和文本分類的基礎(chǔ)。
隨著大數(shù)據(jù)的蓬勃發(fā)展,針對(duì)獲得的海量DPI數(shù)據(jù),各大電信運(yùn)營商的大數(shù)據(jù)研發(fā)團(tuán)隊(duì)對(duì)此進(jìn)行了不同程度的深入挖掘研究,其中涉及的關(guān)鍵技術(shù)有URL分類和文本分類。
在URL分類的研究方面,參考文獻(xiàn)[3]使用爬蟲技術(shù)建立的豐富的URL類別庫結(jié)合人工標(biāo)注的方式構(gòu)建URL分類體系,作為實(shí)現(xiàn)對(duì)DPI數(shù)據(jù)結(jié)構(gòu)化轉(zhuǎn)換與分類的基礎(chǔ)。該方案對(duì)于電信運(yùn)營商利用用戶DPI數(shù)據(jù)進(jìn)行深入挖掘分類研究有一定參考價(jià)值。然而,在URL分類失敗的情況下,只討論了人工識(shí)別環(huán)節(jié),這使得在所構(gòu)建的URL分類體系上存在頑健性較差的問題。參考文獻(xiàn)[2]與參考文獻(xiàn)[4]提出的兩種URL分類方法有一個(gè)共同的特點(diǎn),就是將URL當(dāng)作文本進(jìn)行分類。在傳統(tǒng)文本分類中,需要先對(duì)文本進(jìn)行特征提取,因此URL特征提取是URL分類中很重要的步驟。參考文獻(xiàn)[2]提出了一種單一n-gram的特征提取方式,但這會(huì)導(dǎo)致很多關(guān)鍵詞的遺漏,降低分類的準(zhǔn)確率。
參考文獻(xiàn)[5]很好地闡述了URL分類的優(yōu)點(diǎn),如分類速度快,但是在準(zhǔn)確性方面,由于URL中包含的類別信息有限,所以分類準(zhǔn)確性不高。對(duì)于海量的DPI用戶數(shù)據(jù),除了直接使用URL進(jìn)行分類,還可以通過獲取URL對(duì)應(yīng)的文本內(nèi)容進(jìn)行分類。在文本分類中,傳統(tǒng)的分類算法包括:Rocchio線性分類算法、基于實(shí)例的k最近鄰分類算法(k-nearest neighbor,kNN)、樸素貝葉斯分類算法(na?ve Bayes,NB)、決策樹分類算法(decision tree,DT)、基于支持向量機(jī)的分類算法(support vector machine,SVM)。本文中的文本分類使用的是基于SVM的分類算法。參考文獻(xiàn)[6]與參考文獻(xiàn)[7]很好地深入分析了基于SVM的文本分類算法,并研究指出了SVM是一種具有很好的泛化能力和出色的分類性能的技術(shù)。在傳統(tǒng)的分類模型中,文本分類算法是基于關(guān)鍵詞向量的,這損失了文本中的語義信息。因此,本文中使用的是基于Doc2Vec模型的文本分類算法,這實(shí)現(xiàn)了文檔的語義表達(dá),并在此基礎(chǔ)上實(shí)現(xiàn)了更為精準(zhǔn)的文本分類。對(duì)于文本分類,由參考文獻(xiàn)[8]可知,學(xué)術(shù)界已經(jīng)做了大量的技術(shù)積累。相比于URL分類,文本分類準(zhǔn)確性高。但是在處理大規(guī)模的DPI數(shù)據(jù)時(shí),文本分類還是存在一些值得學(xué)術(shù)界深入研究和突破的瓶頸:首先由于下載量大,給網(wǎng)絡(luò)的帶寬帶來了較大的負(fù)載;其次就是分類時(shí)延高,用戶體驗(yàn)較差。
對(duì)于海量的DPI數(shù)據(jù)分類,單獨(dú)使用URL分類或文本分類,都存在較為明顯的缺陷。鑒于此,本文選擇基于混合n-gram特征的URL分類算法和基于Doc2Vec模型的文本分類算法相結(jié)合的DPI數(shù)據(jù)分類方法,實(shí)現(xiàn)了對(duì)超大規(guī)模的用戶上網(wǎng)記錄實(shí)時(shí)、高效、準(zhǔn)確地分類。圖1展示了本文設(shè)計(jì)的DPI數(shù)據(jù)分類流程。若URL分類器對(duì)待分類的DPI數(shù)據(jù)中的URL分類成功,則直接返回分類結(jié)果;若分類失敗,則提取該DPI數(shù)據(jù)中的URL對(duì)應(yīng)的網(wǎng)頁正文,然后用文本分類器對(duì)其進(jìn)行分類,返回分類結(jié)果并更新URL分類器,以此增加URL分類器的分類內(nèi)容儲(chǔ)備,從而提高URL分類器對(duì)DPI數(shù)據(jù)中URL的分類速度和分類成功率,提升整體分類效率。
4.1 URL分類
如參考文獻(xiàn)[9]所述,URL一般格式為:Protocol://[user: password]@host[:port]/path/[?query][#fragment]。據(jù)觀察,大多數(shù)情況下URL中隱含有類別的信息。各個(gè)網(wǎng)站的URL組織的風(fēng)格不一致,但相同類別網(wǎng)站的URL具有一定的規(guī)律性,即URL中的一些片段隱含有類別的信息。鑒于此,提出了一個(gè)基于n-gram的URL分類算法,基本思想是使用n-gram實(shí)現(xiàn)URL的特征提取,并結(jié)合TF-IDF對(duì)特征進(jìn)行篩選,然后使用樸素貝葉斯分類器進(jìn)行分類。n-gram是一種常用的語言模型,該模型假設(shè)第n個(gè)詞的出現(xiàn)只與前面n-1個(gè)詞相關(guān),而與其他任何詞都不相關(guān)[10]。因此,在對(duì)URL進(jìn)行特征提取時(shí),選取一系列連續(xù)的n個(gè)字母的子字符串作為URL的特征。
以網(wǎng)頁http://www.allwatchers.com/Topics/Info_3922.asp中的“allwatchers”為例,進(jìn)行n-gram的切割后得到的詞組見表2中的前3行。對(duì)“allwatchers”進(jìn)行切割,得到單詞“all”“watch”“watchers”這樣的短詞組合才是有意義的。但在單一的n值的情況下,“all”與“watch”不能同時(shí)存在,“allwatchers”中的信息并沒有被充分利用。n-gram算法很難選擇最佳的n值。如果n太小或者太大,URL中的關(guān)鍵字會(huì)被分割或被拼湊成其他的模樣,信息就會(huì)丟失,而通常情況下這些關(guān)鍵詞能夠反映出URL類別的特征。為了解決這個(gè)問題,本文不使用單一的n值,選用了一種all-gram的思想,即使用一系列的n來分割URL。通過這樣的方法生成的n-gram子串,會(huì)減少很多關(guān)鍵詞的遺漏,如表2中的最后一行,選取3、4、5作為n值的時(shí)候,分割得到的詞集中既有“all”,也有“watch”。
圖1 DPI數(shù)據(jù)進(jìn)行URL分類和正文分類流程
表2 allwatchers切割后的詞集
經(jīng)過n-gram分割后得到了長度不一的短詞,然后通過計(jì)算得到詞頻,再代入由樸素貝葉斯公式變化得到的式子中即可計(jì)算出該URL所屬分類的概率。樸素貝葉斯分類是一種較為簡單的分類算法,其通過求解待分類項(xiàng)出現(xiàn)的條件下各個(gè)類別出現(xiàn)的概率,然后將待分類項(xiàng)歸為概率值最大的類別:
分類概率的計(jì)算式見式(1),URL經(jīng)過all-gram處理后得到n個(gè)短詞,分別為w1,w2,…,wi,…,wn?,F(xiàn)有個(gè)類別,分別為C1,C2,…,Ci,…,Cn。P(w1w2…wn)代表URL出現(xiàn)的概率,它的值對(duì)所有的類別均相同。因此這個(gè)問題可以等價(jià)于求解式(2):
4.2 基于用戶瀏覽內(nèi)容的分類
用戶瀏覽的內(nèi)容最終會(huì)被轉(zhuǎn)換成文本的形式用于分類,通過文本分類來確定URL所屬的類別。文本分類是通過訓(xùn)練已標(biāo)注的文檔集合,找出文檔特征和文檔類別間的關(guān)系模型,再利用訓(xùn)練得到的關(guān)系模型對(duì)新的文檔進(jìn)行分類。本文使用Doc2Vec模型將文章表征為向量,構(gòu)建SVM分類器,從而實(shí)現(xiàn)文本分類。Doc2Vec是在Word2Vec基礎(chǔ)上提出的文章向量化方法。在文本訓(xùn)練階段用Doc2Vec模型將大量人工分類的文章映射成一定維度的向量集合,然后使用向量集訓(xùn)練SVM分類器。
在參考文獻(xiàn)[12]中介紹了PV-DBOW與PV-DM兩種Doc2Vec訓(xùn)練模型。PV-DM、PV-DBOW分別與Word2Vec中的cbow、skip-gram相似,區(qū)別是Doc2Vec中的兩個(gè)模型均增加了一個(gè)代表文章的向量(paragraph vector)作為輸入。兩種模型在訓(xùn)練的時(shí)候調(diào)整文章向量,使得其能很好地表示所對(duì)應(yīng)的文章。兩種模型在訓(xùn)練的時(shí)候除了存儲(chǔ)詞的向量外也會(huì)存儲(chǔ)代表文章的文章向量。隨著訓(xùn)練的文章數(shù)量的增加,其存儲(chǔ)文章向量消耗的空間呈線性增長,模型的可擴(kuò)展性不好且訓(xùn)練階段的文章向量對(duì)本文的文本分類用處不大。因此,基于PV-DBOW模型的思想設(shè)計(jì)了一個(gè)將文章表示成向量的模型。該模型把訓(xùn)練步驟拆分為兩步,首先將文章分詞、去停詞后的詞集通過Word2Vec模型映射成向量,再使用映射得到的向量訓(xùn)練出文章的文章向量。本文設(shè)計(jì)的模型結(jié)構(gòu)與PV-DBOW模型的結(jié)構(gòu)相似,不同之處在于PV-DBOW在訓(xùn)練模型的時(shí)候,會(huì)同時(shí)更新詞向量和文章向量,也就是詞向量和文章向量是同時(shí)訓(xùn)練得到的;而本文只是借助了PV-DBOW模型的結(jié)構(gòu),利用已有的詞向量去訓(xùn)練文章向量,也就是說詞向量是需要預(yù)先訓(xùn)練好且不會(huì)更新。
4.3 DPI實(shí)時(shí)分類系統(tǒng)
圖2展示了DPI實(shí)時(shí)分類系統(tǒng)的架構(gòu)。清洗器(cleaner)的職責(zé)是對(duì)DPI數(shù)據(jù)進(jìn)行清洗,過濾不能反映用戶行為的DPI數(shù)據(jù)。如用戶瀏覽網(wǎng)頁時(shí),除了目標(biāo)網(wǎng)站的URL請(qǐng)求外,瀏覽器還會(huì)在后臺(tái)請(qǐng)求css、js、gif等無法反映用戶行為的數(shù)據(jù)。分類器(classifier)的作用是對(duì)待分類的DPI數(shù)據(jù)中的URL字段進(jìn)行分類,若分類成功則直接返回分類結(jié)果;若分類失敗,則寫入U(xiǎn)RL到反饋隊(duì)列(queue)。反饋隊(duì)列中的URL會(huì)被爬蟲提取并抓取用戶瀏覽的內(nèi)容轉(zhuǎn)換成文本數(shù)據(jù)。得到的文本數(shù)據(jù)最終會(huì)被分類訓(xùn)練器(classifier trainer)進(jìn)行文本分類,返回處理結(jié)果并更新分類器。
分類結(jié)果最終輸出給寫(writer)模塊進(jìn)行存儲(chǔ)。系統(tǒng)架構(gòu)如圖2所示。
圖2 系統(tǒng)架構(gòu)
5.1 實(shí)驗(yàn)數(shù)據(jù)的獲取
本文所涉及的實(shí)驗(yàn)需要海量的DPI數(shù)據(jù)提供支撐,然而電信運(yùn)營商所能獲得的眾多DPI數(shù)據(jù)并沒有標(biāo)注,給分類算法帶來了較為嚴(yán)峻的挑戰(zhàn)。因此,基于這樣的一種思路來獲取實(shí)驗(yàn)所需的DPI數(shù)據(jù):首先,按照業(yè)務(wù)的要求把數(shù)據(jù)源劃分為七大版塊:教育、養(yǎng)老、金融、旅游、汽車、體育以及科學(xué);然后,通過導(dǎo)航網(wǎng)站的不同板塊進(jìn)行搜索或通過搜索網(wǎng)站進(jìn)行關(guān)鍵字搜索。例如:通過寶馬、奔馳等字眼來獲取汽車板塊的內(nèi)容;通過籃球、足球等關(guān)鍵字來獲取體育版塊的內(nèi)容。由于各種類型的導(dǎo)航網(wǎng)站或者是大型的搜索網(wǎng)站,其提供的各個(gè)板塊的內(nèi)容都是廣大群眾所關(guān)注的內(nèi)容,所以,根據(jù)本文所設(shè)計(jì)的方法獲得的DPI數(shù)據(jù)能夠較好地反映出用戶的愛好和興趣。本文對(duì)每一個(gè)板塊都收集足夠數(shù)量的頁面,然后使用爬蟲獲取這些頁面的URL,這樣,每一個(gè)板塊都得到了足夠數(shù)量的URL,接著采用分層抽樣的方法,在每一個(gè)板塊中抽取實(shí)驗(yàn)所需的URL,并獲取該URL對(duì)應(yīng)的頁面內(nèi)容。最后得到實(shí)驗(yàn)所需的有標(biāo)注的URL庫和相應(yīng)的文本庫,可以用于后續(xù)的分析。
5.2 URL分類準(zhǔn)確率
本實(shí)驗(yàn)使用單獨(dú)URL分類以及DPI分類算法 (即URL分類結(jié)合文本分類)兩種方法對(duì)同一個(gè)標(biāo)注好的數(shù)據(jù)集進(jìn)行分類,并記錄各分類的準(zhǔn)確率然后進(jìn)行比較[13]。本實(shí)驗(yàn)使用Python3實(shí)現(xiàn)實(shí)驗(yàn)算法。本實(shí)驗(yàn)使用pyspider來實(shí)現(xiàn)數(shù)據(jù)的抓取,分詞工具使用 jieba提取正文使用boilerpipe,文本表征向量的Doc2Vec、Word2Vec使用的是gensim的庫。經(jīng)過測(cè)試,當(dāng)Word2Vec模型訓(xùn)練的迭代次數(shù)為6時(shí),其發(fā)現(xiàn)語義相近的詞語效果最好。
本實(shí)驗(yàn)使用第5.1節(jié)中獲取的數(shù)據(jù)集,共339 912條數(shù)據(jù)。構(gòu)建URL分類模型的時(shí)候,各個(gè)類別以8∶2的比例隨機(jī)劃分訓(xùn)練集以及測(cè)試集,混合n-gram參數(shù)值為5、6。為了使實(shí)驗(yàn)具有可對(duì)比性,DPI分類算法中使用的URL分類模型與單獨(dú)使用URL分類方法中的模型為同一個(gè)模型。在DPI分類算法中,URL分類結(jié)果中概率最大的兩個(gè)類別的預(yù)測(cè)值之差小于預(yù)設(shè)的閾值的時(shí)候,判定為分類失敗,然后使用文本分類進(jìn)行分類。文本分類中的SVM分類器使用URL分類模型的訓(xùn)練集中URL對(duì)應(yīng)的文本數(shù)據(jù)向量化后的向量集訓(xùn)練得到。分類失敗的時(shí)候,取URL對(duì)應(yīng)的文本數(shù)據(jù)用Doc2Vec模型向量化后的向量作為SVM分類器的輸入進(jìn)行分類。分類結(jié)果以文本分類結(jié)果為準(zhǔn)。分類結(jié)束后,統(tǒng)計(jì)各分類結(jié)果,實(shí)驗(yàn)結(jié)果如圖3所示。
圖3 準(zhǔn)確率記錄
由圖3可見,URL分類結(jié)合文本分類方法相比單一的URL分類方法,分類的準(zhǔn)確率有很大的提升,各分類的準(zhǔn)確率達(dá)到90%以上。
5.3 基于Storm實(shí)現(xiàn)的URL分類吞吐量實(shí)驗(yàn)
實(shí)驗(yàn)環(huán)境由10臺(tái)服務(wù)器構(gòu)成,Storm、HDFS部署在其中,操作系統(tǒng)均是CentOS 6.4,CPU為32核,內(nèi)存131 GB。所有節(jié)點(diǎn)使用jdk1.8.0_45版的Java、apache-storm-0.10.0版的Storm、hadoop-2.6.0-cdh5.7.1版的Hadoop。10臺(tái)機(jī)器中選其中1臺(tái)作為Storm的Nimbus、HDFS的namenode,同時(shí)也與其他節(jié)點(diǎn)一樣作為 Storm的 supervisor、HDFS的datanode。
本實(shí)驗(yàn)程序僅測(cè)試 URL分類模塊功能。Spout從Kafka讀取HDFS上的數(shù)據(jù)交由CleanerBolt過濾不能反映用戶行為的DPI數(shù)據(jù),然后用ClassifierBolt進(jìn)行分類。分類結(jié)果最后由FeedBackBolt輸出。本實(shí)驗(yàn)固定Spout、Bolt的數(shù)目,對(duì)參數(shù)topology.max.spout.pending(簡稱pending)的值進(jìn)行修改,通過其Ack機(jī)制與Metric API計(jì)算并記錄其拓?fù)洌╰opology)的運(yùn)行情況。本文主要關(guān)注處理時(shí)延、處理速率兩個(gè)統(tǒng)計(jì)項(xiàng)。處理時(shí)延是指一個(gè)URL從輸入到輸出分類結(jié)果整個(gè)過程所花的平均時(shí)間。處理速率即每秒處理的URL數(shù)目。根據(jù)業(yè)務(wù)的特點(diǎn)與程序的實(shí)現(xiàn)以及實(shí)際運(yùn)行過程中對(duì)jvm的運(yùn)行情況的觀察,設(shè)置每個(gè)寫模塊的大小為20 GB,jvm的垃圾回收器為G1。Storm吞吐量實(shí)驗(yàn)記錄見表3。
表3 Storm吞吐量實(shí)驗(yàn)記錄
調(diào)整pending的作用是設(shè)置每個(gè) Spout有多少 DPI記錄還沒有處理完的時(shí)候停止接收新的記錄,該參數(shù)可以調(diào)整整個(gè)系統(tǒng)中能同時(shí)被處理的記錄的總數(shù)。在本實(shí)驗(yàn)中,當(dāng)Spout、Bolt數(shù)目不變,隨著pending的值增大,處理速率、處理延遲也會(huì)隨之增大。當(dāng)pending的值增大到一定程度后,處理速率會(huì)趨于平緩,處理延遲繼續(xù)增大。此時(shí)的集群的占用率已經(jīng)達(dá)到極限值,即使通過增大pending值增大輸入,處理速率也不會(huì)增長,而隊(duì)列中等待處理DPI記錄數(shù)目增多,等待的總時(shí)間增大,處理延遲也會(huì)增大。等待處理的DPI記錄過多,會(huì)引發(fā)各種問題,如GC時(shí)間增長,處理速率下降,worker內(nèi)存爆滿重啟等。因此,選取合適的pending值對(duì)分類系統(tǒng)的穩(wěn)定高效運(yùn)行至關(guān)重要。
針對(duì)如何更好地挖掘分類數(shù)據(jù)規(guī)模越來越大的DPI數(shù)據(jù)這一問題,提出了一種基于混合n-gram特征的URL分類方法和基于Doc2Vec模型的文本分類方法相結(jié)合的DPI數(shù)據(jù)分類實(shí)時(shí)分布式方案并在Storm上進(jìn)行了實(shí)現(xiàn)。實(shí)驗(yàn)證明,本文提出的DPI數(shù)據(jù)分類方法,在分類速度與準(zhǔn)確率方面達(dá)到了較好的均衡。這為電信運(yùn)營商進(jìn)行實(shí)時(shí)精準(zhǔn)性營銷提供了一個(gè)很好的參考。
參考文獻(xiàn):
[1]羅憶祖.DPI技術(shù)助力運(yùn)營商精細(xì)化運(yùn)營 [J].電信網(wǎng)技術(shù), 2009(3):22-24. LUO Y Z.DPIhelpsoperators refinementoperation[J]. Telecommunication Network Technology,2009(3):22-24.
[2]ABRAMSON M,AHAD W.What'sinaURL?Genre classification from URLs[J].Workshops at the Twenty,2012.
[3]邊凌燕,賀仁龍,姚曉輝.基于 DPI數(shù)據(jù)挖掘?qū)崿F(xiàn) URL分類掛載的相關(guān)技術(shù)研究[J].電信科學(xué),2013,29(11):6-11. BIAN L Y,HE R L,YAO X H.Research on URL classification with DPI data mining and related technology [J]. Telecommunications Science,2013,29(11):6-11.
[4]朱麗娜.中文網(wǎng)頁分類特征提取方法研究 [D].北京:中國石油大學(xué),2009. ZHU L N.Research of feature selection for Chinese Web page categorization[D].Beijing:China University of Petroleum,2009. [5]KAN M Y,THI H O N.Fast webpage classification using URL features[C]//14th ACM international conference on Information and knowledge management,October 31-November 5,2005,New York,USA.New York:ACM Press,2005:325-326.
[6]汪光慶.基于 SVM的網(wǎng)頁分類技術(shù)研究[D].北京:中國石油大學(xué),2011. WANG G Q.The research of Web pages classification based on SVM technique[D].Beijing:China University of Petroleum, 2011.
[7]陳燃燃.基于 SVM算法的 Web分類研究與實(shí)現(xiàn) [D].北京:北京郵電大學(xué),2009. CHEN R R.Research and implementation of Web classification based on SVM algorithm[D].Beijing:University of Posts and Telecommunications,2009.
[8]蘇金樹,張博鋒,徐昕.基于機(jī)器學(xué)習(xí)的文本分類技術(shù)研究進(jìn)展[J].軟件學(xué)報(bào),2006,17(9):1848-1859. SU J S,ZHANG B F,XU X.Advances in machine learning based text categorization[J].Journal of Software,2006,17(9): 1848-1859.
[9]BERNERS-LEE T,MASINTER L,MCCAHILL M.RFC 1738: uniform resource locator[J].Internet Engineering Task Force,1994.
[10]余小軍,劉峰,張春.基于n-gram文本特征提取的改進(jìn)算法[J].現(xiàn)代計(jì)算機(jī),2012(23):3-7. YU X J,LIU F,ZHANG C.Improved text feature extraction algorithm based on n-gram[J].Modem Computer,2012(23): 3-7.
[11]鄭霖,徐德華.基于改進(jìn) TFIDF算法的文本分類研究 [J].計(jì)算機(jī)與現(xiàn)代化,2014(9):6-9. ZHENG L,XU D H.Research on text categorization based on improved TFIDF algorithm [J].Computer and Modernization, 2014(9):6-9.
[12]LE Q V,MIKOLOV T.Distributed representations of sentences and documents[J].Computer Science,2014(14):1188-1196.
[13]龐觀松,蔣勝益.文本自動(dòng)分類技術(shù)研究綜述.情報(bào)理論與實(shí)踐[J].信息學(xué):理論與應(yīng)用,2012,35(2):123-128. PAND G S,JIANG S y.A survey of automatic text classification techniques[J].Information Studies:Theory&Application,2012, 35(2):123-128.
陳康(1972-),男,中國電信股份有限公司廣州研究院大數(shù)據(jù)應(yīng)用研發(fā)中心副總經(jīng)理、高級(jí)工程師,主要研究方向?yàn)榉植际接?jì)算、數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)。
付華崢(1989-),女,現(xiàn)就職于中國電信股份有限公司廣州研究院,主要從事數(shù)據(jù)分析、數(shù)據(jù)挖掘以及大數(shù)據(jù)相關(guān)技術(shù)等方面的研究工作。
陳翀(1979-),女,中國電信股份有限公司廣州研究院工程師,主要研究方向?yàn)殡娦臝T系統(tǒng)研發(fā)以及數(shù)據(jù)應(yīng)用等,目前專注于大數(shù)據(jù)相關(guān)技術(shù)的研究與應(yīng)用。
張宇藝(1991-),男,廣東工業(yè)大學(xué)計(jì)算機(jī)學(xué)院碩士生,主要研究方向?yàn)閿?shù)據(jù)挖掘、智能計(jì)算、大數(shù)據(jù)應(yīng)用。
韋譽(yù)(1991-),男,廣州優(yōu)億信息科技有限公司大數(shù)據(jù)工程師,主要研究方向?yàn)閿?shù)據(jù)挖掘、大數(shù)據(jù)應(yīng)用。
A real time approach to user interest classification using DPI
CHEN Kang1,FU Huazheng1,CHEN Chong1,ZHANG Yuyi2,WEI Yu3
1.Guangzhou Research Institute of China Telecom Co.,Ltd.,Guangzhou 510630,China 2.School of Computer Science and Technology,Guangdong University of Technology,Guangzhou 510006,China 3.Guangzhou Useease Information Technology Co.,Ltd.,Guangzhou 510630,China
In recent years,with the rapid development of internet,telecom operators can gather more and more DPI data.How to mine and classify huge amounts of DPI data in real time is the key point.A DPI data classification method was presented,which combined the URL classification model based on mixed n-gram features and the Doc2Vec based text classification algorithm.The DPI data classification speed and classification accuracy were greatly improved,and good support for precise marketing was provided.
DPI,URL classification,text classification,n-gram,Doc2Vec
TP311
A
10.11959/j.issn.1000-0801.2016304
2016-09-07;
2016-12-07