王文霞,王春紅
(運(yùn)城學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)系,山西 運(yùn)城 044000)
短信文本分類技術(shù)的研究
王文霞,王春紅
(運(yùn)城學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)系,山西 運(yùn)城 044000)
短信作為一種重要的交流手段,發(fā)揮著越來(lái)越重要的作用。但伴隨著短信的廣泛使用,垃圾短信則嚴(yán)重影響著人們的生活,因此文中基于短信文本特征詞對(duì)短信進(jìn)行分類研究。其中,TF-IDF特征詞權(quán)重計(jì)算方法是對(duì)文本詞匯權(quán)重計(jì)算的一種經(jīng)典算法,得到了廣泛應(yīng)用。但此方法為了簡(jiǎn)化計(jì)算,忽略了詞語(yǔ)之間的相互關(guān)系。針對(duì)此問(wèn)題,依據(jù)同一短信文本中的詞匯之間存在的相互關(guān)系,文中對(duì)權(quán)重計(jì)算法進(jìn)行了調(diào)整,提出了基于模糊K均值的短信文本分類算法。即先將短信文本集用TF-IDF算法處理,得到詞匯-文本集,再用模糊K均值算法對(duì)得到的詞匯-文本集進(jìn)行處理。最后通過(guò)實(shí)驗(yàn),驗(yàn)證了基于模糊K均值的短信文本分類算法,其分類結(jié)果的查全率和查準(zhǔn)率都較高,有效辨別了垃圾短信。
短信文本分類;向量空間模型;模糊聚類;模糊K均值
短信業(yè)務(wù)作為目前的一種重要通信手段,具有短小、迅速、簡(jiǎn)便、便宜等諸多優(yōu)點(diǎn)。據(jù)中國(guó)新聞網(wǎng)統(tǒng)計(jì),到2010年,中國(guó)的手機(jī)用戶數(shù)量達(dá)到近7.4億,2009年短信發(fā)送量日均達(dá)到了21億條,全年各類短信發(fā)送量達(dá)到7 840.4億條[1]。根據(jù)中國(guó)互聯(lián)網(wǎng)協(xié)會(huì)2008年年初發(fā)布的一項(xiàng)調(diào)查,中國(guó)手機(jī)用戶平均每周收到的垃圾短信竟然多達(dá)8.29條,每周收到40條以上的居然達(dá)到了6.25%。在飛速的發(fā)展過(guò)程中,短信業(yè)務(wù)在給廣大使用者帶來(lái)方便的同時(shí),也出現(xiàn)了很多問(wèn)題,比如泛濫的垃圾短信、詐騙短信、謠言短信等等。這些垃圾短信給手機(jī)用戶帶來(lái)了很大的危害,因此需對(duì)垃圾短信進(jìn)行過(guò)濾。
文中將自然語(yǔ)言文本處理運(yùn)用到手機(jī)短信的分類研究[2-5]中。通過(guò)對(duì)短信文本特點(diǎn)的分析,實(shí)現(xiàn)對(duì)短信文本的分類。利用文本分類算法對(duì)短信信息進(jìn)行分類,常用的分類算法有:決策樹(shù)、支持向量機(jī)[6-9]、粗糙集和貝葉斯算法[10]。由于短信內(nèi)容較少,依據(jù)同一短信文本中的詞匯之間存在的相互關(guān)系,文中通過(guò)對(duì)經(jīng)典的TF-IDF權(quán)重計(jì)算法的調(diào)整,并采用了模糊聚類算法,實(shí)現(xiàn)對(duì)短信文本的分類,達(dá)到了提高短信文本分析準(zhǔn)確性的效果。
1.1 垃圾短信的概念、特點(diǎn)、分類
沒(méi)有經(jīng)過(guò)接收者允許而收到的,內(nèi)容具有違法性、欺騙性或廣告性,并且侵犯了人們的合法權(quán)益,這樣的短信被稱之為垃圾短信。垃圾短信具有以下特點(diǎn):騷擾性,未經(jīng)接收者同意發(fā)布且具有廣告性質(zhì),具有違法犯罪的內(nèi)容等等。垃圾短信一般分為商業(yè)廣告信息、非法制作各種票或證的信息、詐騙信息、賭博信息等。詐騙短信已成為危害社會(huì)治安秩序的一大公害。
目前,我國(guó)出現(xiàn)的詐騙短信共有三類:
1)手機(jī)費(fèi)詐騙。
(1)通過(guò)贈(zèng)送話費(fèi)來(lái)騙取手機(jī)費(fèi):利用人們貪圖小便宜的心理,使用戶上當(dāng);
(2)通過(guò)朋友點(diǎn)歌或接收彩信來(lái)騙取手機(jī)費(fèi):人們往往以為是自己的朋友為自己點(diǎn)歌,所以就會(huì)毫無(wú)防備地回消息,造成手機(jī)費(fèi)被騙;
(3)以冒充老朋友的身份騙取電話費(fèi):這種短信的迷惑性相當(dāng)大,人們很容易上當(dāng)受騙;
(4)以聽(tīng)取心里話的方式詐騙手機(jī)費(fèi):主要利用用戶的好奇心理,誘使用戶受騙。
2)銀行卡詐騙。
一般是團(tuán)伙作案,犯罪分子先利用短信群發(fā)器發(fā)送消息,對(duì)于上當(dāng)?shù)娜耍麄兗侔玢y行工作人員、警察、銀行管理中心人員等,讓上當(dāng)者成功地將錢存入其他賬戶;這種短信主要是利用用戶對(duì)自身財(cái)產(chǎn)安全關(guān)心的心理。
3)現(xiàn)金詐騙。
(1)以謊稱辦假證、走私軍火、售槍支彈藥、招嫖或者提供其他違法服務(wù)或物品的方式詐騙現(xiàn)金:主要利用用戶想走捷徑的心理,將錢騙走;
(2)以謊稱中獎(jiǎng)騙取現(xiàn)金:這種短信利用用戶貪小便宜心理,當(dāng)用戶聯(lián)系時(shí)他們會(huì)要求先交一部分個(gè)人所得稅等一系列費(fèi)用,然后卷著錢財(cái)逃之夭夭[11]。
1.2 垃圾短信的危害
伴隨著智能移動(dòng)設(shè)備的普及,短信業(yè)務(wù)迅猛發(fā)展,垃圾短信也日益猖獗,已嚴(yán)重?cái)_亂了人們正常的工作和生活,非常不利于社會(huì)穩(wěn)定與和諧,主要表現(xiàn)如下:
(1)影響人們的正常工作和生活。無(wú)論接收者是否愿意,垃圾短信都會(huì)不分時(shí)段地發(fā)到接收者的手機(jī)。接到一條短信后,用戶最少要花10 s來(lái)判斷是不是垃圾短信,一天收到十幾條,就需要花幾分鐘來(lái)查看,嚴(yán)重浪費(fèi)了用戶的時(shí)間。不管你看不看短信,都會(huì)收到短信鈴聲的騷擾,讓用戶苦不堪言,嚴(yán)重影響用戶的工作和生活。
(2)擾亂社會(huì)秩序。垃圾短信為辦假學(xué)歷、假證件、出售黑車等非法行為提供了一種安全、廉價(jià)的業(yè)務(wù)促進(jìn)方式,使社會(huì)秩序被嚴(yán)重?cái)_亂。甚至有些垃圾短信包含著低級(jí)下流、污染社會(huì)風(fēng)氣的內(nèi)容,直接影響青少年的身心健康[12]。
(3)垃圾短信已成為犯罪分子實(shí)施詐騙的載體。一些不法分子利用手機(jī)散布謠言,散布邪教和封建迷信的思想,煽動(dòng)民眾,造成民族關(guān)系緊張,影響社會(huì)穩(wěn)定。不法分子通過(guò)抓住人們的心理,群發(fā)一些迷惑性短信,騙取信任,獲得資金。
(4)影響正常通信。垃圾短信一般都是群發(fā),數(shù)量極大,傳輸時(shí)會(huì)占用大量的通訊資源,嚴(yán)重的甚至?xí)?dǎo)致堵塞,使通信中斷。
1.3 垃圾短信的處理
垃圾短信采用文本形式表示信息,首先需要把它轉(zhuǎn)變成計(jì)算機(jī)可識(shí)別的形式。文中采用的是空間向量模型即VSM。下面介紹一些關(guān)于VSM的基本概念:
(1)特征項(xiàng):指文本中能夠代表該文本特點(diǎn)的基本語(yǔ)言單位。
(2)特征項(xiàng)權(quán)值:指特征項(xiàng)代表文本的能力的大小。特征項(xiàng)權(quán)值計(jì)算方法有很多,例如:布爾權(quán)重計(jì)算、平方根權(quán)重計(jì)算、TF-IDF權(quán)重計(jì)算等,其中TD-IDF權(quán)重計(jì)算最為常用。文中對(duì)于文本集的加權(quán)計(jì)算采用這種方法。
(3)文本向量:設(shè)文本集合中共有m個(gè)不同的特征項(xiàng),分別計(jì)算出文本特征項(xiàng)的權(quán)值,由這些特征項(xiàng)權(quán)值所構(gòu)成的向量稱為文本向量[13]。
接下來(lái)詳細(xì)介紹一下TF-IDF權(quán)重計(jì)算:
TF-IDF是一種基于統(tǒng)計(jì)分析的方法,用以獲取字詞在一個(gè)文件集或一個(gè)語(yǔ)料庫(kù)中某文本的重要程度。TF-IDF權(quán)重計(jì)算的出發(fā)點(diǎn)是字詞的重要性會(huì)隨著它在文本中出現(xiàn)的次數(shù)增加,但同時(shí)會(huì)隨著它在語(yǔ)料庫(kù)中出現(xiàn)的頻率下降[14]。其主要思想是:如果某個(gè)詞或短語(yǔ)在某個(gè)文本中出現(xiàn)的頻率高,而在其他文本中又很少出現(xiàn),則認(rèn)為此詞或者短語(yǔ)具有很好的類別區(qū)分能力,適合用來(lái)分類。
TF-IDF計(jì)算方法中有兩個(gè)重要參數(shù):
(1)TF詞頻。
它是指特征項(xiàng)在文本中出現(xiàn)的頻率,計(jì)算公式為:
tfik=特征項(xiàng)tk在文檔di中出現(xiàn)的頻率
(1)
(2)IDF反文本頻率。
它是對(duì)特征詞在文本集中分布情況的量化,用于衡量該特征詞區(qū)分不同文本的能力,常用計(jì)算公式為:
idfk=log(N/nk+0.01)
(2)
其中:N代表文本集所有文本的個(gè)數(shù);nk代表文本集中出現(xiàn)特征詞的文本數(shù)。
TF-IDF權(quán)重計(jì)算方法,是Salton和McGill基于香農(nóng)信息理論提出的一種方法。該方法已成為目前文本聚類和分類中最常用的方法。它是將詞頻和反文檔頻率兩方面因素相結(jié)合來(lái)得到特征詞的權(quán)重值,計(jì)算公式為:
wik=tfik×idfk=tfik×log(N/nk+0.01)
(3)
Bezdeck等提出了模糊K均值算法。模糊K均值算法將模糊原理與經(jīng)典K均值算法相結(jié)合,是一種非監(jiān)督聚類算法。其基本思想是按照一定的模糊隸屬度將每個(gè)數(shù)據(jù)對(duì)象分配到某個(gè)聚類中,使得不同類中的數(shù)據(jù)對(duì)象具有較低的相似性,同一個(gè)類中的數(shù)據(jù)對(duì)象具有較高的相似性。該算法將分好的簇看做是模糊集合,一個(gè)簇對(duì)應(yīng)一個(gè)模糊集合,用隸屬度函數(shù)度量每個(gè)數(shù)據(jù)屬于某個(gè)簇的可能性,然后依據(jù)最大隸屬度原則將數(shù)據(jù)分配到隸屬度最大的簇中。
2.1 算法基本思想
模糊K均值算法是基于最小化以下目標(biāo)函數(shù)[15]:
(4)
2.2 算法描述
總而言之,舞臺(tái)表演是聲樂(lè)演唱不可分割的一部分。演唱者在平時(shí)的練習(xí)中,學(xué)習(xí)好基礎(chǔ)知識(shí),然后在表演實(shí)踐中提升自己的舞臺(tái)表演能力,在演唱中逐漸變得成熟,很好地向觀眾傳達(dá)作品的思想情感,有助于觀眾更好地了解作品。演員也要在面部表情、手勢(shì)動(dòng)作、上下場(chǎng)的處理等方面多下功夫,使得“演”與“唱”協(xié)調(diào)統(tǒng)一,使歌唱達(dá)到聲情并茂的藝術(shù)境界,從而提升音樂(lè)的魅力,向觀眾展現(xiàn)出更多更加感人、更加優(yōu)美的作品,也讓越來(lái)越多的觀眾因?yàn)檠輪T真摯的表演而愛(ài)上音樂(lè)。
模糊K均值算法描述如下:
(2)初始化聚類中心vi,i=1,2,…,K,一般從N個(gè)數(shù)據(jù)點(diǎn)中任意選擇K個(gè)數(shù)據(jù)點(diǎn)作初始聚類中心。
(3)根據(jù)式(5)計(jì)算所有聚類數(shù)據(jù)點(diǎn)對(duì)于每一個(gè)聚類中心的隸屬度。
(5)
(6)
利用模糊K均值實(shí)現(xiàn)短信文本分類算法描述如下:
(1)輸入文本集合中的特征項(xiàng),建立特征項(xiàng)庫(kù)。
(2)將文本內(nèi)容輸入數(shù)據(jù)庫(kù),建立文本信息庫(kù)以及文本段信息庫(kù)。
(3)對(duì)每個(gè)文本段信息利用TF-IDF權(quán)重計(jì)算公式算出每一個(gè)特征項(xiàng)的權(quán)值,構(gòu)造文本向量信息庫(kù)。
(4)用模糊K均值算法對(duì)文本向量進(jìn)行處理。需要明確要處理的樣本數(shù)、每一行的特征項(xiàng)個(gè)數(shù)、要分的類別數(shù)、迭代的次數(shù)、聚類的精度等等。
(5)輸出一個(gè)隸屬度矩陣,獲得文本分類結(jié)果。
基于模糊K均值的短信文本分類算法的基本思想是首先收集待處理的短信文本集,接著要對(duì)短信文本進(jìn)行分詞;然后建立特征項(xiàng)集,利用TF-IDF對(duì)每個(gè)特征項(xiàng)進(jìn)行加權(quán)計(jì)算,得到文本向量,構(gòu)建“詞匯-文本”矩陣;最后用模糊K均值算法對(duì)“詞匯-文本”矩陣進(jìn)行處理,輸出一個(gè)隸屬度矩陣。具體的算法設(shè)計(jì)如圖1所示。
圖1 算法流程圖
根據(jù)文本檢索的度量標(biāo)準(zhǔn),文中定義了兩個(gè)評(píng)估指標(biāo),即查準(zhǔn)率(Precision)和查全率(Recall),對(duì)基于模糊K均值的短信文本分類算法進(jìn)行了有效性驗(yàn)證。
其中:查準(zhǔn)率p是指實(shí)際相符的文本占屬于類別Ci的所有文本的比例;查全率r是指正確歸類的文本占專家判定的應(yīng)屬于類別Ci的所有文本的比例。兩項(xiàng)指標(biāo)分別定義如下:
(7)
(8)
基于從互聯(lián)網(wǎng)上收集的商業(yè)廣告型短信、詐騙短信、非法制作各種票或證的短信、賭博類短信四方面的大量文本,分別從中各隨機(jī)選取10個(gè)文本,共40個(gè)。這40個(gè)文本分別按商業(yè)廣告型短信、詐騙短信、非法制作各種票或證的短信、賭博類短信的次序排列,并對(duì)其進(jìn)行預(yù)處理,進(jìn)而基于模糊K均值聚類算法實(shí)現(xiàn)了文本分類。實(shí)驗(yàn)結(jié)果如表1所示,列出了10個(gè)文本的隸屬度矩陣,商業(yè)廣告型短信和詐騙短信各2個(gè),非法制作各種票或證的短信和賭博類短信各3個(gè);表2給出了每個(gè)文本所屬的類。
表1 輸出的隸屬度矩陣
表2 40個(gè)樣本的分類結(jié)果
為了驗(yàn)證該算法的有效性,將該算法聚類分析結(jié)果與人工分類的結(jié)果進(jìn)行了對(duì)比,如表3所示;并采用了聚類分析的兩個(gè)評(píng)價(jià)標(biāo)準(zhǔn)—查準(zhǔn)率和查全率對(duì)聚類結(jié)果進(jìn)行量化分析,其結(jié)果如表4所示。從這兩個(gè)表可以看出,基于模糊K均值對(duì)文本分類,其查準(zhǔn)率和查全率都較高。
表3 模糊K均值聚類分析最終結(jié)果
文中提出的基于模糊K均值的短信文本分類算法,很好地克服了經(jīng)典TF-IDF權(quán)重計(jì)算中忽略了詞
表4 查準(zhǔn)率和查全率
語(yǔ)之間的相互關(guān)系的弊端。實(shí)驗(yàn)結(jié)果表明,該聚類算法大大地改善了短信文本聚類的效果,查全率和查準(zhǔn)率都較高。
[1] 劉國(guó)香,張鈞鋒.垃圾短信分類方式的探討[J].滄州師范??茖W(xué)校學(xué)報(bào),2011,27(4):122-124.
[2]PatelD,BhatnagarM.MobileSMSclassification:anapplicationoftextclassification[J].InternationalJournalofSoftComputingandEngineering,2011,1(2):47-49.
[3]LiuWuying,WangTing.Index-basedonlinetextclassificationforSMSspamfiltering[J].JournalofComputers,2010,5(6):844-851.
[4]LiFeng,LiJigang.StudyingofclassificationChineseSMSmessagebasedonBayesianclassification[J].JournalofTheoreticalandAppliedInformationTechnology,2012,44(1):141-146.
[5] 楊 柳,殷 釗,滕建斌,等.改進(jìn)貝葉斯分類的智能短信分類方法[J].計(jì)算機(jī)科學(xué),2014,41(10):31-35.
[6] 李 慧,葉 鴻,潘雪瑞,等.基于SVM的垃圾短信過(guò)濾系統(tǒng)[J].計(jì)算機(jī)安全,2012(6):34-38.
[7] 馮歐鵬.垃圾短信過(guò)濾中字特征與詞特征對(duì)過(guò)濾效果的比較研究[D].北京:北京郵電大學(xué),2011.
[8] 徐 易.基于短文本的分類算法研究[D].上海:上海交通大學(xué),2010.
[9]LanMan,TanCL,SuJian,etal.Supervisedandtraditionaltermweightingmethodsforautomatictextcategorization[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,2009,31(4):721-735.
[10] 張 兢,候旭東,呂和勝.基于樸素貝葉斯和支持向量機(jī)的短信智能分析系統(tǒng)設(shè)計(jì)[J].重慶理工大學(xué)學(xué)報(bào):自然科學(xué),2010,24(1):77-81.
[11] 趙曉芳.短信詐騙的類型、法律定性及應(yīng)對(duì)策略[J].消費(fèi)導(dǎo)刊,2008(2):125-125.
[12] 董月琴.基于Android的垃圾短信處理系統(tǒng)的研究與設(shè)計(jì)[D].淮南:安徽理工大學(xué),2011.
[13] 付克志,林鴻飛.基于N-LevelVSM在Web信息檢索中的研究[J].計(jì)算機(jī)工程與應(yīng)用,2006,42(19):158-160.
[14] 包金龍.基于向量空間模型的信息檢索系統(tǒng)的設(shè)計(jì)[J].情報(bào)雜志,2005,24(7):44-45.
[15] 葉吉祥,譚冠政,路秋靜.基于核的非凸數(shù)據(jù)模糊K-均值聚類研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2005,26(7):1784-1785.
Research on Text Classification Technology for Message
WANG Wen-xia,WANG Chun-hong
(Department of Computer Science and Technology,Yuncheng University,Yuncheng 044000,China)
As an important means of communication,SMS plays an increasingly important role.But along with the extensive use of SMS,SMS spam seriously influences people’s lives.Therefore,the classification of SMS is researched based on the keywords in this paper.TF-IDF weight calculation method is a classical algorithm to calculate the text word weight,which is widely used.But in order to calculate simply,this method ignores the mutual relations between words.Aiming at this problem,based on the same relationship between words in the text messages,in this paper,the weighting method is used for adjusting,it puts forward the text classification based on fuzzyK-meansalgorithm.ThetextsetisprocessedbyTF-IDFalgorithm,gettingavocabulary-textset.ThenfuzzyK-meansalgorithmisusedtogetavocabulary-textset.Finally,throughtheexperimenttoverifythetextclassificationbasedonfuzzyK-meansalgorithm,theclassificationresultsofrecallandprecisionishigh.
text categorization;vector space model;fuzzy clustering;fuzzyK-means
2015-07-22
2015-11-05
時(shí)間:2016-03-22
國(guó)家自然科學(xué)基金資助項(xiàng)目(11241005);山西省高等學(xué)校教學(xué)改革研究項(xiàng)目(J2012098);運(yùn)城學(xué)院教學(xué)改革研究項(xiàng)目(JG201418)
王文霞(1979-),女,講師,碩士,研究方向?yàn)閿?shù)據(jù)挖掘及算法分析;王春紅,教授,研究方向?yàn)樾畔z索及算法分析。
http://www.cnki.net/kcms/detail/61.1450.TP.20160322.1522.092.html
TP
A
1673-629X(2016)05-0145-04
10.3969/j.issn.1673-629X.2016.05.031