周園林,邵國林
(四川大學(xué)計(jì)算機(jī)學(xué)院,成都610065)
隨著網(wǎng)絡(luò)服務(wù)場景的不斷豐富,網(wǎng)絡(luò)終端的性能提升和普及,移動(dòng)數(shù)據(jù)量持續(xù)擴(kuò)大,海量移動(dòng)即時(shí)通訊工具所產(chǎn)生的數(shù)據(jù)在互聯(lián)網(wǎng)移動(dòng)數(shù)據(jù)中占比最大[1],信息和通信技術(shù)(Information and Communication Technologies,ICT)正快速的改變著人們的生活。人們頻繁地利用社交軟件與朋友、親人、商家、同事甚至是陌生人進(jìn)行著聊天交友、活動(dòng)組織、獲取資訊、完成交易等活動(dòng),大大降低人們的時(shí)間成本,方便了人們的日常生活。但這些社交軟件也方便了違法犯罪人員組織和資訊違法犯罪方法、完成犯罪交易等非法活動(dòng),降低了違法犯罪人員的犯罪成本。所以,甄別和判斷即時(shí)通訊數(shù)據(jù)中蘊(yùn)含的豐富信息,對(duì)于協(xié)助公安偵查違法犯罪行為,找出違法犯罪團(tuán)伙,獲取違法犯罪證據(jù),抓捕違法犯罪人員,搗毀違法犯罪社交組織,有著至關(guān)重要的作用。
目前,公安對(duì)于即時(shí)通訊類數(shù)據(jù)進(jìn)行收集和分析的主要手段依然是利用大量人力進(jìn)行自主甄別,從中找出有利于警方破案和偵察的消息。這無異于大海撈針。而利用人工智能領(lǐng)域的方法,可以有效地提取社交軟件的大量信息,進(jìn)行學(xué)習(xí)和甄別,幫助警方自動(dòng)的找到有關(guān)違法犯罪的有用信息,幫助警方提高辦案效率。同時(shí),群聊文本具有的非正規(guī)性、不完整性、稀疏性等特點(diǎn),相比單一的短文本和長文本信息,群聊文本更難分析和處理。所以對(duì)聊天文本進(jìn)行有效分類,在數(shù)據(jù)處理和分析上面臨著巨大挑戰(zhàn)。
針對(duì)這些問題,本文提出了面向群聊的分類模型,一是利用群聊之間的相關(guān)性將其整合為長文本后,通過分詞和去停用詞等操作對(duì)整合出來的聊天長文本進(jìn)行預(yù)處理;二是通過TF-IDF計(jì)算所有文本的詞匯,并將所有詞匯的TF-IDF值作為該詞在詞向量處的權(quán)重值;三是利用梯度降維的方法對(duì)詞向量的維度進(jìn)行降維處理;最后利用傳統(tǒng)的機(jī)器學(xué)習(xí)方法對(duì)詞向量進(jìn)行分類訓(xùn)練得到用于群聊分類的分類模型。
對(duì)涉槍、涉毒、涉黃和正常群體的分類實(shí)驗(yàn)結(jié)果表明,本文提出的分類模型能很好的分類出涉嫌犯罪的群體。本文的創(chuàng)新點(diǎn)為提出了一種基于群聊文本分類的方法,該方法利用詞向量賦權(quán)排序,通過梯度降維的方式減少詞向量的權(quán)重?;诹奶煳谋镜奶攸c(diǎn),詞向量賦權(quán)排序可以將聊天文本的特點(diǎn)篩選出來,并且將權(quán)重大的特征放在最前面,而將權(quán)重低的特征放在后邊,通過梯度降維的方式將權(quán)重低的詞排除,不僅增加了模型訓(xùn)練的準(zhǔn)確性,提高了模型的泛化能力。同時(shí)降低了模型訓(xùn)練需要的詞向量維度,加快了模型的訓(xùn)練和預(yù)測,提高了模型的效率。
群聊文本分類可以普適性的歸納到文本分類中,群聊天文本的分類方法和一般文本的分類方法大致可以歸為以下幾類:
(1)基于統(tǒng)計(jì)的文本分類方法
基于統(tǒng)計(jì)的文本處理方法是自然語言處理中最常用的分析方法之一,也稱經(jīng)驗(yàn)主義方法[2],該方法一般通過收集一些文本作為統(tǒng)計(jì)模型建立的基礎(chǔ),然后計(jì)算統(tǒng)計(jì)得出的先驗(yàn)概率去計(jì)算詞匯之間的后驗(yàn)概率。常用的分類算法包括:貝葉斯分類法(Naive Bayesian classifier)及其變種,例如Shuo xu[3]提出的具有高斯事件模型的貝葉斯文本分類器在分類效果上優(yōu)于經(jīng)典的樸素貝葉斯文本分類器;基于支持向量機(jī)(Support Vector Machines,SVM)的文本分類器及其變種,例如Goudjil[4]等人提出一組SVM分類器提供的后驗(yàn)概率標(biāo)記文本信息,提高了文本分類的準(zhǔn)確率。此外,還包括k-最近鄰(k-Neareast Neighbor,kNN)文本分類器、神經(jīng)網(wǎng)絡(luò)(Neural Network,NNet)文本分類器、決策樹(Decision Tree)、模糊分類法(Fuzzy Classifier)、Rocchio分類方法和Boosting算法等優(yōu)秀的文本分類方法。文本分類器算法的性能取決于數(shù)據(jù)集的特征[5]。
(2)基于人工知識(shí)庫和詞典輔助的文本分類方法
許多顯性文本分類模型主要利用詞匯上下文之間的依賴關(guān)系,來將文本內(nèi)容概念化,通過建立不同類別的人工知識(shí)庫或關(guān)鍵詞詞典進(jìn)行類別分類,例如Song Y[6]等人通過使用概率只是庫來改進(jìn)文本理解,然后通過貝葉斯方法來概念化單詞和文本,獲取文本中每個(gè)詞語概念間的條件概率 p(concept|word)和 p(word|concept),最終推出每個(gè)文本的概念分布?;蛘呃矛F(xiàn)有的知識(shí)來提供作為文本分類的先驗(yàn)知識(shí)。例如Hua Wen等人[7]通過提供眾所周知的語義網(wǎng)絡(luò)提供的詞匯語義知識(shí)來進(jìn)行文本分類。他們提出的LexSA(Lexical Semantic Analysis)模型將文本理解系統(tǒng)化為分詞、詞性標(biāo)注和概念識(shí)別三個(gè)步驟,并在每個(gè)步驟使用新的模型消除歧義。
(3)基于結(jié)合統(tǒng)計(jì)和人工知識(shí)庫的文本分類方法
因?yàn)槿毫奈谋颈旧硗ǔ0煌暾湍:男畔ⅲ@使得在用統(tǒng)計(jì)的方法之外還需要添加額外的知識(shí)來理解它。J Bian等人[8]認(rèn)為文本本身已經(jīng)包好明確的形態(tài)和句法知識(shí),同時(shí)加入Web上的大量文本可以提取大量的語義知識(shí),通過定義新的詞表示來輔助神經(jīng)網(wǎng)絡(luò)語言模型(Neural Language Model,NLM)的訓(xùn)練。Bing Li[9]等人,提出了利用Wikipedia和查詢分段特征方式形成文本特征向量空間,再利用傳統(tǒng)的統(tǒng)計(jì)方法進(jìn)行機(jī)器學(xué)習(xí),獲得了更好的F1值。Qiuxing等人[10]提出的基于LDA主題模型和kNN算法的文本分類方法,生成的概率主題有助于使文本以語義為中心,同時(shí)減少了稀疏性。
綜上所述,目前國內(nèi)外在文本分類等方面已經(jīng)取得了很大的研究進(jìn)展。然而,在交互性社交群體的應(yīng)用場景下,交互性的聊天文本有其獨(dú)有的特點(diǎn),例如聊天文本多人交互帶來的復(fù)雜度更高,子話題內(nèi)容更加多樣、樣本噪聲難以清洗等,給聊天文本的分類帶來了巨大的挑戰(zhàn)。同時(shí)由于聊天文本數(shù)據(jù)難以獲取、特征提取工作難度較大、樣本規(guī)模難以支撐模型的有效訓(xùn)練等,所以面向群聊文本的研究關(guān)注也還比較少。
群聊是在網(wǎng)絡(luò)社交軟件上與多個(gè)參與者通過文本通信同步交談的聊天形式[11-12],它是由短文本消息組成(例如一條評(píng)論、一條即時(shí)通訊等),這和郵件、新聞等長文本信息有著非常大的區(qū)別。它突破了傳統(tǒng)的面對(duì)面聊天所具有的時(shí)間和空間的限制,允許多個(gè)用戶能夠隨時(shí)隨地的通過終端進(jìn)行即時(shí)聊天[13]。用戶之間通過消息進(jìn)行交互,這些交互信息一般由三部分組成:用來識(shí)別用戶身份的昵稱,交互信息的時(shí)間戳,和交互信息的內(nèi)容。
群聊文本(Interactive Text)是即時(shí)消息中主要以短文本為主的由多個(gè)移動(dòng)終端參與的眾多消息構(gòu)成,一般指如群聊天,討論組等形式的交互信息。群聊文本既不同于長文本,如博文、日志靜態(tài)網(wǎng)頁、文檔等,又區(qū)別于傳統(tǒng)的短文本,如國內(nèi)的微博、短信、網(wǎng)絡(luò)評(píng)論以及國外的Facebook、Twitter等,其具備短文本的非正規(guī)性、不完整性及稀疏性三個(gè)特點(diǎn)[14]。
(1)非正規(guī)性。短消息通常在表達(dá)方式上與人們的口語接近,同時(shí)包含了非常多的網(wǎng)絡(luò)詞匯和表情符號(hào)。
(2)不完整性。短消息一般句子表達(dá)不完整(通常會(huì)破壞主謂賓的句法結(jié)構(gòu)),指代不明,或者出現(xiàn)拼寫錯(cuò)誤,或詞語簡寫。一般不會(huì)影響閱讀者的理解,但會(huì)增加語義分析的難度。
(3)稀疏性。短消息是以短文本的形式,僅包含幾個(gè)到十幾個(gè)字詞,在整個(gè)時(shí)間和空間中,僅占有語料庫中非常小的一部分字詞。
因?yàn)槿毫奶斓姆钦?guī)、不完整和稀疏性這類特點(diǎn)給研究帶來了困難,因此本文通過組合長文本,并用TF-IDF進(jìn)行詞向量權(quán)重賦值排序,并用梯度降維的方式去解決群聊天文本特點(diǎn)所帶來的挑戰(zhàn)。
本文綜合考慮了群聊文本非正規(guī)性、不完整性、稀疏性的特點(diǎn)。而長文本相對(duì)群聊文本而言,更加方便語義分析,分詞操作。在二分類或多類問題中,我們對(duì)群聊文本進(jìn)行有監(jiān)督學(xué)習(xí),把群聊文本組合成長文本進(jìn)行統(tǒng)一分析學(xué)習(xí)。我們提出了群聊文本轉(zhuǎn)長文本分類模型,整個(gè)算法模型如圖2所示,該模型將一組群聊文本融合成一篇長文本,對(duì)多組群聊文本分類轉(zhuǎn)化為對(duì)多篇長文本進(jìn)行分類的算法模型,并引入TF-IDF統(tǒng)計(jì)方法,增加群聊文本主題詞的權(quán)重,減少噪音詞匯的影響,并用傳統(tǒng)機(jī)器學(xué)習(xí)算法對(duì)處理好的詞向量進(jìn)行學(xué)習(xí)和分類驗(yàn)證。
圖1 算法流程圖
表1給出了文中使用的符號(hào)和定義。
表1 符號(hào)定義
因?yàn)槿毫奈谋臼怯啥鄺l消息組成,在一篇群聊文本中消息之間具有相關(guān)性,因此將一篇群聊文本看成一篇長文本,并不影響消息之間的相關(guān)性。以下給出證明。首先,一條消息在整個(gè)群聊文本的語料庫中計(jì)算給定詞項(xiàng)條件下詞項(xiàng)出現(xiàn)的概率值。
其中 Pm(ωiωj)表示詞項(xiàng) ωiωj在整個(gè)短文本語料庫中出現(xiàn)的概率:
d(ωi)為詞ωi在該文檔中出現(xiàn)的頻率,由公式(2)、(3)可知,一篇群聊文本,將其中消息融合,將群聊文本當(dāng)成一篇長文本處理,其詞項(xiàng)的概率保持不變。于是,在群聊分類問題中,我們可以直接用長文本的方式對(duì)群聊文本做分詞、去噪、轉(zhuǎn)詞向量處理。
圖2 預(yù)處理過程圖
預(yù)處理流程如圖2所示,主要包括短消息整合為長文本、數(shù)據(jù)清洗、分詞處理以及去除停用詞,具體描述如下:
(1)將群聊文本直接通過append的方式,將群聊文本消息組合成一篇長文本(如一個(gè)群的聊天記錄,便是一個(gè)長文本)。
(2)對(duì)長文本進(jìn)行數(shù)據(jù)清洗,去除長文本中不需要的圖片、鏈接、標(biāo)點(diǎn)和表情符號(hào)。
(3)對(duì)長文本進(jìn)行中文分詞。本文采用的是開源的結(jié)巴分詞工具進(jìn)行中文分詞。
(4)去除停用詞。將在文本中不具備實(shí)際意義的詞語去除,減少詞空間。
因?yàn)槿毫奈谋局幸话阍掝}性比較明確,不同類別的群聊文本之間的話題區(qū)別性比較明顯。如一個(gè)涉毒的討論組會(huì)討論涉毒的話題,一個(gè)涉槍的討論組會(huì)討論涉槍的話題,一個(gè)日常交流組會(huì)討論生活日?;虬素孕侣劦龋煌悇e的群聊文本的話題比較容易區(qū)分。為了提高與群聊文本分類相關(guān)的詞匯權(quán)重,我們采用 TF-IDF(Term Frequency-Inverse Document Frequency,詞頻-逆文件頻率)統(tǒng)計(jì)方法對(duì)不同群聊文本進(jìn)行詞頻和逆文件頻率計(jì)算。
詞頻(Term Frequency,TF)指的是某一個(gè)給定的詞語在該文件中出現(xiàn)的次數(shù)。這里用頻率做歸一化處理,同(1)式:
逆向文件頻率(Inverse Document Frequency,IDF)的主要思想是:如果包含詞條t的文檔越少,IDF越大,則說明詞條具有很好的類別區(qū)分能力。
pd(ωk)指包含詞條ωk的文檔數(shù),M指文檔的總數(shù),分母加1是為了避免分母為0。某一特定文檔內(nèi)的高頻率詞語,以及該詞語在整個(gè)文檔集合中的低頻率詞語,可以產(chǎn)生出高權(quán)重的TF-IDF。因此,TF-IDF傾向于過濾掉常見的詞語,保留特定文檔中重要的詞語。
本文將群聊文本中的每個(gè)詞的Ptf-idf值作為在詞向量上該詞位置的值。
不同的社交群體的詞向量通過TF-IDF賦值權(quán)重后,由于群聊天的稀疏性的特點(diǎn),詞向量后的頻次呈現(xiàn)出趨于平穩(wěn)的狀態(tài)。如圖3所示,為某涉槍群體各個(gè)詞權(quán)重與維度關(guān)系,隨著維度(橫軸)不斷變大,詞的權(quán)重變化逐漸收斂。
圖3 某涉槍群體詞權(quán)重曲線圖
在最前端其各個(gè)詞向量間的差異變化比較明顯,后面的詞向量之間的差異越來越小,并逐漸趨于平穩(wěn),差異越小的詞向量對(duì)模型的影響作用就越小,差異越大的詞向量對(duì)模型的影響作用就越大,所以我們可以利用梯度的方式截?cái)嗪竺嬗绊懽饔眯〉脑~向量,達(dá)到降維的目的。給定梯度閾值σ,如果梯度?〈σ,則詞向量將以此為界分開。
因?yàn)樘荻冉稻S的方法要計(jì)算詞向量兩兩直接的差異,其效率并不高效,經(jīng)過大量的數(shù)據(jù)觀察和對(duì)比,我們發(fā)現(xiàn)詞向量之間的差異和詞向量的權(quán)重值程正相關(guān)關(guān)系,所以我們可以直接依據(jù)詞向量的權(quán)重進(jìn)行截?cái)?,保留高?quán)重的詞向量,去除低權(quán)重的詞向量,以達(dá)到降維的目的。本文一般通過統(tǒng)計(jì)多個(gè)群聊詞項(xiàng)權(quán)重后,選取最長的一個(gè)群聊向量作為統(tǒng)一標(biāo)準(zhǔn)。
群聊文本分類模型主要過程就是利用長文本與短文本中消息間的相關(guān)性保持一致的性質(zhì),利用TF-IDF統(tǒng)計(jì)方法,給定關(guān)鍵詞更高的權(quán)重生成群聊文本的詞向量。模型利用機(jī)器學(xué)習(xí)算法來訓(xùn)練學(xué)習(xí)處理好的詞向量。算法過程描述如下:
算法模型訓(xùn)練過程
輸入:帶有分類標(biāo)簽的群聊文本
輸出:針對(duì)不同群聊類別的分類器
步驟1對(duì)輸入的群聊文本D進(jìn)行消息整合為偽長文本;
步驟2對(duì)偽長文本進(jìn)行數(shù)據(jù)清洗、分詞等預(yù)處理,得到 D′;
步驟 3利用公式(4)(5)(6)對(duì) D′詞項(xiàng)進(jìn)行加權(quán),得到D′的詞向量;
步驟4利用機(jī)器學(xué)習(xí)算法對(duì)標(biāo)簽和詞向量進(jìn)行學(xué)習(xí),構(gòu)造分類器
算法模型預(yù)測過程
輸入:待分類的交互式短文本
輸出:短文本分類類別
步驟1對(duì)輸入的交互式短文本D進(jìn)行消息整合為偽長文本;
步驟2對(duì)偽長文本進(jìn)行數(shù)據(jù)清洗、分詞等預(yù)處理,得到 D′;
步驟 3利用公式(4)(5)(6)對(duì) D,D′詞項(xiàng)進(jìn)行加權(quán),得到D,D′的詞向量;
步驟4利用已學(xué)習(xí)好的分類器進(jìn)行預(yù)測
①該模型分為訓(xùn)練過程和分析預(yù)測過程兩塊。每一塊均需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理和加權(quán)生成詞向量的操作。
②詞向量的維度對(duì)模型的效率有著至關(guān)重要的作用,本文的詞向量保持在1000維度空間中。(單條消息的詞向量是稀疏的,但轉(zhuǎn)換為偽長文本后,經(jīng)過詞向量賦權(quán)排序降維后,避免了稀疏性)。
本文將采用四個(gè)指標(biāo)來評(píng)價(jià)分類的性能:查準(zhǔn)率P、查全率R、F值,以針對(duì)涉槍和涉毒與正常群進(jìn)行二分類后的AUC值。查準(zhǔn)率表示正確分類的文檔數(shù)占總文檔比例,對(duì)于類別Ci,,其中|C|代
i表類別Ci的總數(shù),max|Ci|代表Ci中正確分類的文檔數(shù),對(duì)于總體:
查全率,即召回率,表示所有相似文本中,正確分類的比例,對(duì)于類別Ci,,其中|RC|代
i表類別Ci所有正確分類的大小,max|Ci|代表Ci中正確分類的文檔數(shù),對(duì)于總體:
F值是綜合準(zhǔn)確率和召回率的一個(gè)綜合評(píng)價(jià)指標(biāo),定義如下:
以上三個(gè)分類指標(biāo)的取值都規(guī)范化在[0,1],其值越高代表著分類效果越好。對(duì)于二分類分類器來說,輸出結(jié)果標(biāo)簽(0還是1)往往取決于輸出的概率以及預(yù)定的概率閾值,例如常見的閾值就是0.5,大于0.5的認(rèn)為是正樣本,小于0.5的認(rèn)為是負(fù)樣本。ROC曲線就是反映分類器分類能力。其橫軸代表著假陽率(FPR)、縱軸代表真陽率(TPR)。
●假陽率,簡單通俗來理解就是預(yù)測為正樣本但是預(yù)測錯(cuò)了的可能性,顯然,我們不希望該指標(biāo)太高。
●真陽率,則是代表預(yù)測為正樣本但是預(yù)測對(duì)了的可能性,當(dāng)然,我們希望真陽率越高越好。
AUC實(shí)際上就是ROC曲線下的面積。AUC直觀地反映了ROC曲線表達(dá)的分類能力。
在社交網(wǎng)絡(luò)中存在大量的群聊文本信息。為了幫助公安更好地對(duì)群聊的類別進(jìn)行分類,對(duì)涉槍、涉毒等違法犯罪群體進(jìn)行篩選甄別,基于這類群聊文本信息,我們提出了一種基于群聊的分類模型。為了評(píng)估我們的模型,我們從一些社交平臺(tái)收集到了總共1057份群聊文本數(shù)據(jù),其中包括涉槍有48份,涉毒有51份,正常群聊有958份,每個(gè)社交群里至少有200條消息。本文實(shí)驗(yàn)主要以中文的群聊為實(shí)驗(yàn)樣本數(shù)據(jù)。
本文通過KNN、SVM、樸素貝葉斯、AdaBoost、決策樹和隨機(jī)森林等多個(gè)學(xué)習(xí)算法進(jìn)行了對(duì)比實(shí)驗(yàn),對(duì)每一類算法均迭代1000次,并記錄準(zhǔn)確率、召回率和F1-Measure值的平均值。其中SVM的核函數(shù)為線性核,決策樹的特征選擇標(biāo)準(zhǔn)為信息熵,最大深度為10。隨機(jī)森林有10棵,特征選擇標(biāo)準(zhǔn)為基尼不純度。Ada-Boost的迭代次數(shù)為1000次,其弱學(xué)習(xí)器為決策樹。
實(shí)驗(yàn)中,分別對(duì)涉毒、涉槍和正常群體進(jìn)行了多分類驗(yàn)證,因?yàn)樯娑竞蜕鏄尩臉颖緮?shù)據(jù)與正常群體的樣本數(shù)量差異很大,我們在訓(xùn)練和驗(yàn)證的過程中,對(duì)涉毒和涉槍的樣本數(shù)據(jù)進(jìn)行了過采樣處理。如圖4所示,其訓(xùn)練集有1136個(gè),詞向量為300維,測試集有762個(gè),詞向量為300維。詞向量的平均稀疏度保持在37.76%。其中,隨機(jī)森林的表現(xiàn)最為突出,得益于隨機(jī)森林在處理高維數(shù)據(jù)的優(yōu)勢,能夠有效的檢測到特征之間的影響,并且有很強(qiáng)的抗干擾和過擬合的能力。圖5所示,在訓(xùn)練和驗(yàn)證過程中,各學(xué)習(xí)算法迭代1000次所消耗的時(shí)間度量。綜合圖4和圖5呈現(xiàn)的結(jié)果,可以得出群聊分類模型中用隨機(jī)森林作為文本分類器,是比較合理的選擇。
圖4 群聊分類模型不同算法性能度量
圖5 群聊分類模型不同算法1000次迭代時(shí)間度量
在群聊分類模型中,基于面向社交群體的分類,我們更加關(guān)注社交群體分類的正確性(因?yàn)樯缃蝗后w的特征過于廣泛,僅有的樣本數(shù)據(jù)不能一一對(duì)應(yīng)真實(shí)情況,所以召回率高反而會(huì)忽略其他特征下的相同類別的社交群體,例如涉毒群體中有販毒、帶毒、制毒,有吸冰毒、吸大麻、吸海洛因的不同人群,同時(shí)隨著時(shí)間的推移,不同群體的特征會(huì)不斷變化,因此我們更加關(guān)注準(zhǔn)確率,輕微忽視召回率)。通過ROC曲線,我們計(jì)算AUC,其中隨機(jī)森林,SVM均有較好的結(jié)果。
與傳統(tǒng)的文本分類相比,本文在針對(duì)群聊天文本的不完整性、非正規(guī)性和稀疏性的特點(diǎn)采用了TF-IDF權(quán)重賦值和排序,并通過梯度降維的方式減小了詞向量的維度。本文通過傳統(tǒng)的文本分類模型和基于群聊天的文本分類模型在不同算法進(jìn)行了對(duì)比實(shí)驗(yàn)。如圖7所示,基于群聊文本的分類模型在不同算法之間的準(zhǔn)確率均是大于傳統(tǒng)的文本分類,可以得出TF-IDF權(quán)重賦權(quán)和梯度降維能夠有效提高群聊文本分類的準(zhǔn)確率。
圖6 群聊分類模型不同算法ROC曲線
圖7 傳統(tǒng)文本分類算法和基于群聊天分類模型準(zhǔn)確率對(duì)比
針對(duì)群聊文本非正規(guī)性、不完整性、稀疏性等特點(diǎn),本文提出了一種基于群聊文本分類模型。利用TF-IDF統(tǒng)計(jì)方法和梯度降維,去掉了大量重復(fù)、不重要的噪音詞匯,利用現(xiàn)有的機(jī)器學(xué)習(xí)算法,有效地構(gòu)建出交互式短文本分類器。實(shí)驗(yàn)部分驗(yàn)證了本文提出的分析模型,得出了較好的分類效果;同時(shí),我們希望更進(jìn)一步會(huì)深入到群聊語義分析中,希望能夠通過語義層面的分析,來提高分類的效果。