• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于群聊文本的分類研究

    2019-04-22 12:03:04周園林邵國林
    現(xiàn)代計(jì)算機(jī) 2019年8期
    關(guān)鍵詞:分類文本模型

    周園林,邵國林

    (四川大學(xué)計(jì)算機(jī)學(xué)院,成都610065)

    0 引言

    隨著網(wǎng)絡(luò)服務(wù)場景的不斷豐富,網(wǎng)絡(luò)終端的性能提升和普及,移動(dòng)數(shù)據(jù)量持續(xù)擴(kuò)大,海量移動(dòng)即時(shí)通訊工具所產(chǎn)生的數(shù)據(jù)在互聯(lián)網(wǎng)移動(dòng)數(shù)據(jù)中占比最大[1],信息和通信技術(shù)(Information and Communication Technologies,ICT)正快速的改變著人們的生活。人們頻繁地利用社交軟件與朋友、親人、商家、同事甚至是陌生人進(jìn)行著聊天交友、活動(dòng)組織、獲取資訊、完成交易等活動(dòng),大大降低人們的時(shí)間成本,方便了人們的日常生活。但這些社交軟件也方便了違法犯罪人員組織和資訊違法犯罪方法、完成犯罪交易等非法活動(dòng),降低了違法犯罪人員的犯罪成本。所以,甄別和判斷即時(shí)通訊數(shù)據(jù)中蘊(yùn)含的豐富信息,對(duì)于協(xié)助公安偵查違法犯罪行為,找出違法犯罪團(tuán)伙,獲取違法犯罪證據(jù),抓捕違法犯罪人員,搗毀違法犯罪社交組織,有著至關(guān)重要的作用。

    目前,公安對(duì)于即時(shí)通訊類數(shù)據(jù)進(jìn)行收集和分析的主要手段依然是利用大量人力進(jìn)行自主甄別,從中找出有利于警方破案和偵察的消息。這無異于大海撈針。而利用人工智能領(lǐng)域的方法,可以有效地提取社交軟件的大量信息,進(jìn)行學(xué)習(xí)和甄別,幫助警方自動(dòng)的找到有關(guān)違法犯罪的有用信息,幫助警方提高辦案效率。同時(shí),群聊文本具有的非正規(guī)性、不完整性、稀疏性等特點(diǎn),相比單一的短文本和長文本信息,群聊文本更難分析和處理。所以對(duì)聊天文本進(jìn)行有效分類,在數(shù)據(jù)處理和分析上面臨著巨大挑戰(zhàn)。

    針對(duì)這些問題,本文提出了面向群聊的分類模型,一是利用群聊之間的相關(guān)性將其整合為長文本后,通過分詞和去停用詞等操作對(duì)整合出來的聊天長文本進(jìn)行預(yù)處理;二是通過TF-IDF計(jì)算所有文本的詞匯,并將所有詞匯的TF-IDF值作為該詞在詞向量處的權(quán)重值;三是利用梯度降維的方法對(duì)詞向量的維度進(jìn)行降維處理;最后利用傳統(tǒng)的機(jī)器學(xué)習(xí)方法對(duì)詞向量進(jìn)行分類訓(xùn)練得到用于群聊分類的分類模型。

    對(duì)涉槍、涉毒、涉黃和正常群體的分類實(shí)驗(yàn)結(jié)果表明,本文提出的分類模型能很好的分類出涉嫌犯罪的群體。本文的創(chuàng)新點(diǎn)為提出了一種基于群聊文本分類的方法,該方法利用詞向量賦權(quán)排序,通過梯度降維的方式減少詞向量的權(quán)重?;诹奶煳谋镜奶攸c(diǎn),詞向量賦權(quán)排序可以將聊天文本的特點(diǎn)篩選出來,并且將權(quán)重大的特征放在最前面,而將權(quán)重低的特征放在后邊,通過梯度降維的方式將權(quán)重低的詞排除,不僅增加了模型訓(xùn)練的準(zhǔn)確性,提高了模型的泛化能力。同時(shí)降低了模型訓(xùn)練需要的詞向量維度,加快了模型的訓(xùn)練和預(yù)測,提高了模型的效率。

    1 相關(guān)工作

    群聊文本分類可以普適性的歸納到文本分類中,群聊天文本的分類方法和一般文本的分類方法大致可以歸為以下幾類:

    (1)基于統(tǒng)計(jì)的文本分類方法

    基于統(tǒng)計(jì)的文本處理方法是自然語言處理中最常用的分析方法之一,也稱經(jīng)驗(yàn)主義方法[2],該方法一般通過收集一些文本作為統(tǒng)計(jì)模型建立的基礎(chǔ),然后計(jì)算統(tǒng)計(jì)得出的先驗(yàn)概率去計(jì)算詞匯之間的后驗(yàn)概率。常用的分類算法包括:貝葉斯分類法(Naive Bayesian classifier)及其變種,例如Shuo xu[3]提出的具有高斯事件模型的貝葉斯文本分類器在分類效果上優(yōu)于經(jīng)典的樸素貝葉斯文本分類器;基于支持向量機(jī)(Support Vector Machines,SVM)的文本分類器及其變種,例如Goudjil[4]等人提出一組SVM分類器提供的后驗(yàn)概率標(biāo)記文本信息,提高了文本分類的準(zhǔn)確率。此外,還包括k-最近鄰(k-Neareast Neighbor,kNN)文本分類器、神經(jīng)網(wǎng)絡(luò)(Neural Network,NNet)文本分類器、決策樹(Decision Tree)、模糊分類法(Fuzzy Classifier)、Rocchio分類方法和Boosting算法等優(yōu)秀的文本分類方法。文本分類器算法的性能取決于數(shù)據(jù)集的特征[5]。

    (2)基于人工知識(shí)庫和詞典輔助的文本分類方法

    許多顯性文本分類模型主要利用詞匯上下文之間的依賴關(guān)系,來將文本內(nèi)容概念化,通過建立不同類別的人工知識(shí)庫或關(guān)鍵詞詞典進(jìn)行類別分類,例如Song Y[6]等人通過使用概率只是庫來改進(jìn)文本理解,然后通過貝葉斯方法來概念化單詞和文本,獲取文本中每個(gè)詞語概念間的條件概率 p(concept|word)和 p(word|concept),最終推出每個(gè)文本的概念分布?;蛘呃矛F(xiàn)有的知識(shí)來提供作為文本分類的先驗(yàn)知識(shí)。例如Hua Wen等人[7]通過提供眾所周知的語義網(wǎng)絡(luò)提供的詞匯語義知識(shí)來進(jìn)行文本分類。他們提出的LexSA(Lexical Semantic Analysis)模型將文本理解系統(tǒng)化為分詞、詞性標(biāo)注和概念識(shí)別三個(gè)步驟,并在每個(gè)步驟使用新的模型消除歧義。

    (3)基于結(jié)合統(tǒng)計(jì)和人工知識(shí)庫的文本分類方法

    因?yàn)槿毫奈谋颈旧硗ǔ0煌暾湍:男畔ⅲ@使得在用統(tǒng)計(jì)的方法之外還需要添加額外的知識(shí)來理解它。J Bian等人[8]認(rèn)為文本本身已經(jīng)包好明確的形態(tài)和句法知識(shí),同時(shí)加入Web上的大量文本可以提取大量的語義知識(shí),通過定義新的詞表示來輔助神經(jīng)網(wǎng)絡(luò)語言模型(Neural Language Model,NLM)的訓(xùn)練。Bing Li[9]等人,提出了利用Wikipedia和查詢分段特征方式形成文本特征向量空間,再利用傳統(tǒng)的統(tǒng)計(jì)方法進(jìn)行機(jī)器學(xué)習(xí),獲得了更好的F1值。Qiuxing等人[10]提出的基于LDA主題模型和kNN算法的文本分類方法,生成的概率主題有助于使文本以語義為中心,同時(shí)減少了稀疏性。

    綜上所述,目前國內(nèi)外在文本分類等方面已經(jīng)取得了很大的研究進(jìn)展。然而,在交互性社交群體的應(yīng)用場景下,交互性的聊天文本有其獨(dú)有的特點(diǎn),例如聊天文本多人交互帶來的復(fù)雜度更高,子話題內(nèi)容更加多樣、樣本噪聲難以清洗等,給聊天文本的分類帶來了巨大的挑戰(zhàn)。同時(shí)由于聊天文本數(shù)據(jù)難以獲取、特征提取工作難度較大、樣本規(guī)模難以支撐模型的有效訓(xùn)練等,所以面向群聊文本的研究關(guān)注也還比較少。

    2 群聊文本及特點(diǎn)分析

    群聊是在網(wǎng)絡(luò)社交軟件上與多個(gè)參與者通過文本通信同步交談的聊天形式[11-12],它是由短文本消息組成(例如一條評(píng)論、一條即時(shí)通訊等),這和郵件、新聞等長文本信息有著非常大的區(qū)別。它突破了傳統(tǒng)的面對(duì)面聊天所具有的時(shí)間和空間的限制,允許多個(gè)用戶能夠隨時(shí)隨地的通過終端進(jìn)行即時(shí)聊天[13]。用戶之間通過消息進(jìn)行交互,這些交互信息一般由三部分組成:用來識(shí)別用戶身份的昵稱,交互信息的時(shí)間戳,和交互信息的內(nèi)容。

    群聊文本(Interactive Text)是即時(shí)消息中主要以短文本為主的由多個(gè)移動(dòng)終端參與的眾多消息構(gòu)成,一般指如群聊天,討論組等形式的交互信息。群聊文本既不同于長文本,如博文、日志靜態(tài)網(wǎng)頁、文檔等,又區(qū)別于傳統(tǒng)的短文本,如國內(nèi)的微博、短信、網(wǎng)絡(luò)評(píng)論以及國外的Facebook、Twitter等,其具備短文本的非正規(guī)性、不完整性及稀疏性三個(gè)特點(diǎn)[14]。

    (1)非正規(guī)性。短消息通常在表達(dá)方式上與人們的口語接近,同時(shí)包含了非常多的網(wǎng)絡(luò)詞匯和表情符號(hào)。

    (2)不完整性。短消息一般句子表達(dá)不完整(通常會(huì)破壞主謂賓的句法結(jié)構(gòu)),指代不明,或者出現(xiàn)拼寫錯(cuò)誤,或詞語簡寫。一般不會(huì)影響閱讀者的理解,但會(huì)增加語義分析的難度。

    (3)稀疏性。短消息是以短文本的形式,僅包含幾個(gè)到十幾個(gè)字詞,在整個(gè)時(shí)間和空間中,僅占有語料庫中非常小的一部分字詞。

    因?yàn)槿毫奶斓姆钦?guī)、不完整和稀疏性這類特點(diǎn)給研究帶來了困難,因此本文通過組合長文本,并用TF-IDF進(jìn)行詞向量權(quán)重賦值排序,并用梯度降維的方式去解決群聊天文本特點(diǎn)所帶來的挑戰(zhàn)。

    3 模型設(shè)計(jì)

    本文綜合考慮了群聊文本非正規(guī)性、不完整性、稀疏性的特點(diǎn)。而長文本相對(duì)群聊文本而言,更加方便語義分析,分詞操作。在二分類或多類問題中,我們對(duì)群聊文本進(jìn)行有監(jiān)督學(xué)習(xí),把群聊文本組合成長文本進(jìn)行統(tǒng)一分析學(xué)習(xí)。我們提出了群聊文本轉(zhuǎn)長文本分類模型,整個(gè)算法模型如圖2所示,該模型將一組群聊文本融合成一篇長文本,對(duì)多組群聊文本分類轉(zhuǎn)化為對(duì)多篇長文本進(jìn)行分類的算法模型,并引入TF-IDF統(tǒng)計(jì)方法,增加群聊文本主題詞的權(quán)重,減少噪音詞匯的影響,并用傳統(tǒng)機(jī)器學(xué)習(xí)算法對(duì)處理好的詞向量進(jìn)行學(xué)習(xí)和分類驗(yàn)證。

    圖1 算法流程圖

    表1給出了文中使用的符號(hào)和定義。

    表1 符號(hào)定義

    3.1 預(yù)處理

    因?yàn)槿毫奈谋臼怯啥鄺l消息組成,在一篇群聊文本中消息之間具有相關(guān)性,因此將一篇群聊文本看成一篇長文本,并不影響消息之間的相關(guān)性。以下給出證明。首先,一條消息在整個(gè)群聊文本的語料庫中計(jì)算給定詞項(xiàng)條件下詞項(xiàng)出現(xiàn)的概率值。

    其中 Pm(ωiωj)表示詞項(xiàng) ωiωj在整個(gè)短文本語料庫中出現(xiàn)的概率:

    d(ωi)為詞ωi在該文檔中出現(xiàn)的頻率,由公式(2)、(3)可知,一篇群聊文本,將其中消息融合,將群聊文本當(dāng)成一篇長文本處理,其詞項(xiàng)的概率保持不變。于是,在群聊分類問題中,我們可以直接用長文本的方式對(duì)群聊文本做分詞、去噪、轉(zhuǎn)詞向量處理。

    圖2 預(yù)處理過程圖

    預(yù)處理流程如圖2所示,主要包括短消息整合為長文本、數(shù)據(jù)清洗、分詞處理以及去除停用詞,具體描述如下:

    (1)將群聊文本直接通過append的方式,將群聊文本消息組合成一篇長文本(如一個(gè)群的聊天記錄,便是一個(gè)長文本)。

    (2)對(duì)長文本進(jìn)行數(shù)據(jù)清洗,去除長文本中不需要的圖片、鏈接、標(biāo)點(diǎn)和表情符號(hào)。

    (3)對(duì)長文本進(jìn)行中文分詞。本文采用的是開源的結(jié)巴分詞工具進(jìn)行中文分詞。

    (4)去除停用詞。將在文本中不具備實(shí)際意義的詞語去除,減少詞空間。

    3.2 詞向加權(quán)策略

    因?yàn)槿毫奈谋局幸话阍掝}性比較明確,不同類別的群聊文本之間的話題區(qū)別性比較明顯。如一個(gè)涉毒的討論組會(huì)討論涉毒的話題,一個(gè)涉槍的討論組會(huì)討論涉槍的話題,一個(gè)日常交流組會(huì)討論生活日?;虬素孕侣劦龋煌悇e的群聊文本的話題比較容易區(qū)分。為了提高與群聊文本分類相關(guān)的詞匯權(quán)重,我們采用 TF-IDF(Term Frequency-Inverse Document Frequency,詞頻-逆文件頻率)統(tǒng)計(jì)方法對(duì)不同群聊文本進(jìn)行詞頻和逆文件頻率計(jì)算。

    詞頻(Term Frequency,TF)指的是某一個(gè)給定的詞語在該文件中出現(xiàn)的次數(shù)。這里用頻率做歸一化處理,同(1)式:

    逆向文件頻率(Inverse Document Frequency,IDF)的主要思想是:如果包含詞條t的文檔越少,IDF越大,則說明詞條具有很好的類別區(qū)分能力。

    pd(ωk)指包含詞條ωk的文檔數(shù),M指文檔的總數(shù),分母加1是為了避免分母為0。某一特定文檔內(nèi)的高頻率詞語,以及該詞語在整個(gè)文檔集合中的低頻率詞語,可以產(chǎn)生出高權(quán)重的TF-IDF。因此,TF-IDF傾向于過濾掉常見的詞語,保留特定文檔中重要的詞語。

    本文將群聊文本中的每個(gè)詞的Ptf-idf值作為在詞向量上該詞位置的值。

    3.3 梯度降維策略

    不同的社交群體的詞向量通過TF-IDF賦值權(quán)重后,由于群聊天的稀疏性的特點(diǎn),詞向量后的頻次呈現(xiàn)出趨于平穩(wěn)的狀態(tài)。如圖3所示,為某涉槍群體各個(gè)詞權(quán)重與維度關(guān)系,隨著維度(橫軸)不斷變大,詞的權(quán)重變化逐漸收斂。

    圖3 某涉槍群體詞權(quán)重曲線圖

    在最前端其各個(gè)詞向量間的差異變化比較明顯,后面的詞向量之間的差異越來越小,并逐漸趨于平穩(wěn),差異越小的詞向量對(duì)模型的影響作用就越小,差異越大的詞向量對(duì)模型的影響作用就越大,所以我們可以利用梯度的方式截?cái)嗪竺嬗绊懽饔眯〉脑~向量,達(dá)到降維的目的。給定梯度閾值σ,如果梯度?〈σ,則詞向量將以此為界分開。

    因?yàn)樘荻冉稻S的方法要計(jì)算詞向量兩兩直接的差異,其效率并不高效,經(jīng)過大量的數(shù)據(jù)觀察和對(duì)比,我們發(fā)現(xiàn)詞向量之間的差異和詞向量的權(quán)重值程正相關(guān)關(guān)系,所以我們可以直接依據(jù)詞向量的權(quán)重進(jìn)行截?cái)?,保留高?quán)重的詞向量,去除低權(quán)重的詞向量,以達(dá)到降維的目的。本文一般通過統(tǒng)計(jì)多個(gè)群聊詞項(xiàng)權(quán)重后,選取最長的一個(gè)群聊向量作為統(tǒng)一標(biāo)準(zhǔn)。

    3.4 模型訓(xùn)練

    群聊文本分類模型主要過程就是利用長文本與短文本中消息間的相關(guān)性保持一致的性質(zhì),利用TF-IDF統(tǒng)計(jì)方法,給定關(guān)鍵詞更高的權(quán)重生成群聊文本的詞向量。模型利用機(jī)器學(xué)習(xí)算法來訓(xùn)練學(xué)習(xí)處理好的詞向量。算法過程描述如下:

    算法模型訓(xùn)練過程

    輸入:帶有分類標(biāo)簽的群聊文本

    輸出:針對(duì)不同群聊類別的分類器

    步驟1對(duì)輸入的群聊文本D進(jìn)行消息整合為偽長文本;

    步驟2對(duì)偽長文本進(jìn)行數(shù)據(jù)清洗、分詞等預(yù)處理,得到 D′;

    步驟 3利用公式(4)(5)(6)對(duì) D′詞項(xiàng)進(jìn)行加權(quán),得到D′的詞向量;

    步驟4利用機(jī)器學(xué)習(xí)算法對(duì)標(biāo)簽和詞向量進(jìn)行學(xué)習(xí),構(gòu)造分類器

    算法模型預(yù)測過程

    輸入:待分類的交互式短文本

    輸出:短文本分類類別

    步驟1對(duì)輸入的交互式短文本D進(jìn)行消息整合為偽長文本;

    步驟2對(duì)偽長文本進(jìn)行數(shù)據(jù)清洗、分詞等預(yù)處理,得到 D′;

    步驟 3利用公式(4)(5)(6)對(duì) D,D′詞項(xiàng)進(jìn)行加權(quán),得到D,D′的詞向量;

    步驟4利用已學(xué)習(xí)好的分類器進(jìn)行預(yù)測

    ①該模型分為訓(xùn)練過程和分析預(yù)測過程兩塊。每一塊均需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理和加權(quán)生成詞向量的操作。

    ②詞向量的維度對(duì)模型的效率有著至關(guān)重要的作用,本文的詞向量保持在1000維度空間中。(單條消息的詞向量是稀疏的,但轉(zhuǎn)換為偽長文本后,經(jīng)過詞向量賦權(quán)排序降維后,避免了稀疏性)。

    4 實(shí)驗(yàn)與結(jié)果分析

    4.1 評(píng)價(jià)指標(biāo)

    本文將采用四個(gè)指標(biāo)來評(píng)價(jià)分類的性能:查準(zhǔn)率P、查全率R、F值,以針對(duì)涉槍和涉毒與正常群進(jìn)行二分類后的AUC值。查準(zhǔn)率表示正確分類的文檔數(shù)占總文檔比例,對(duì)于類別Ci,,其中|C|代

    i表類別Ci的總數(shù),max|Ci|代表Ci中正確分類的文檔數(shù),對(duì)于總體:

    查全率,即召回率,表示所有相似文本中,正確分類的比例,對(duì)于類別Ci,,其中|RC|代

    i表類別Ci所有正確分類的大小,max|Ci|代表Ci中正確分類的文檔數(shù),對(duì)于總體:

    F值是綜合準(zhǔn)確率和召回率的一個(gè)綜合評(píng)價(jià)指標(biāo),定義如下:

    以上三個(gè)分類指標(biāo)的取值都規(guī)范化在[0,1],其值越高代表著分類效果越好。對(duì)于二分類分類器來說,輸出結(jié)果標(biāo)簽(0還是1)往往取決于輸出的概率以及預(yù)定的概率閾值,例如常見的閾值就是0.5,大于0.5的認(rèn)為是正樣本,小于0.5的認(rèn)為是負(fù)樣本。ROC曲線就是反映分類器分類能力。其橫軸代表著假陽率(FPR)、縱軸代表真陽率(TPR)。

    ●假陽率,簡單通俗來理解就是預(yù)測為正樣本但是預(yù)測錯(cuò)了的可能性,顯然,我們不希望該指標(biāo)太高。

    ●真陽率,則是代表預(yù)測為正樣本但是預(yù)測對(duì)了的可能性,當(dāng)然,我們希望真陽率越高越好。

    AUC實(shí)際上就是ROC曲線下的面積。AUC直觀地反映了ROC曲線表達(dá)的分類能力。

    4.2 模型有效性分析

    在社交網(wǎng)絡(luò)中存在大量的群聊文本信息。為了幫助公安更好地對(duì)群聊的類別進(jìn)行分類,對(duì)涉槍、涉毒等違法犯罪群體進(jìn)行篩選甄別,基于這類群聊文本信息,我們提出了一種基于群聊的分類模型。為了評(píng)估我們的模型,我們從一些社交平臺(tái)收集到了總共1057份群聊文本數(shù)據(jù),其中包括涉槍有48份,涉毒有51份,正常群聊有958份,每個(gè)社交群里至少有200條消息。本文實(shí)驗(yàn)主要以中文的群聊為實(shí)驗(yàn)樣本數(shù)據(jù)。

    本文通過KNN、SVM、樸素貝葉斯、AdaBoost、決策樹和隨機(jī)森林等多個(gè)學(xué)習(xí)算法進(jìn)行了對(duì)比實(shí)驗(yàn),對(duì)每一類算法均迭代1000次,并記錄準(zhǔn)確率、召回率和F1-Measure值的平均值。其中SVM的核函數(shù)為線性核,決策樹的特征選擇標(biāo)準(zhǔn)為信息熵,最大深度為10。隨機(jī)森林有10棵,特征選擇標(biāo)準(zhǔn)為基尼不純度。Ada-Boost的迭代次數(shù)為1000次,其弱學(xué)習(xí)器為決策樹。

    實(shí)驗(yàn)中,分別對(duì)涉毒、涉槍和正常群體進(jìn)行了多分類驗(yàn)證,因?yàn)樯娑竞蜕鏄尩臉颖緮?shù)據(jù)與正常群體的樣本數(shù)量差異很大,我們在訓(xùn)練和驗(yàn)證的過程中,對(duì)涉毒和涉槍的樣本數(shù)據(jù)進(jìn)行了過采樣處理。如圖4所示,其訓(xùn)練集有1136個(gè),詞向量為300維,測試集有762個(gè),詞向量為300維。詞向量的平均稀疏度保持在37.76%。其中,隨機(jī)森林的表現(xiàn)最為突出,得益于隨機(jī)森林在處理高維數(shù)據(jù)的優(yōu)勢,能夠有效的檢測到特征之間的影響,并且有很強(qiáng)的抗干擾和過擬合的能力。圖5所示,在訓(xùn)練和驗(yàn)證過程中,各學(xué)習(xí)算法迭代1000次所消耗的時(shí)間度量。綜合圖4和圖5呈現(xiàn)的結(jié)果,可以得出群聊分類模型中用隨機(jī)森林作為文本分類器,是比較合理的選擇。

    圖4 群聊分類模型不同算法性能度量

    圖5 群聊分類模型不同算法1000次迭代時(shí)間度量

    在群聊分類模型中,基于面向社交群體的分類,我們更加關(guān)注社交群體分類的正確性(因?yàn)樯缃蝗后w的特征過于廣泛,僅有的樣本數(shù)據(jù)不能一一對(duì)應(yīng)真實(shí)情況,所以召回率高反而會(huì)忽略其他特征下的相同類別的社交群體,例如涉毒群體中有販毒、帶毒、制毒,有吸冰毒、吸大麻、吸海洛因的不同人群,同時(shí)隨著時(shí)間的推移,不同群體的特征會(huì)不斷變化,因此我們更加關(guān)注準(zhǔn)確率,輕微忽視召回率)。通過ROC曲線,我們計(jì)算AUC,其中隨機(jī)森林,SVM均有較好的結(jié)果。

    4.3 與傳統(tǒng)文本分類方法對(duì)比

    與傳統(tǒng)的文本分類相比,本文在針對(duì)群聊天文本的不完整性、非正規(guī)性和稀疏性的特點(diǎn)采用了TF-IDF權(quán)重賦值和排序,并通過梯度降維的方式減小了詞向量的維度。本文通過傳統(tǒng)的文本分類模型和基于群聊天的文本分類模型在不同算法進(jìn)行了對(duì)比實(shí)驗(yàn)。如圖7所示,基于群聊文本的分類模型在不同算法之間的準(zhǔn)確率均是大于傳統(tǒng)的文本分類,可以得出TF-IDF權(quán)重賦權(quán)和梯度降維能夠有效提高群聊文本分類的準(zhǔn)確率。

    圖6 群聊分類模型不同算法ROC曲線

    圖7 傳統(tǒng)文本分類算法和基于群聊天分類模型準(zhǔn)確率對(duì)比

    5 結(jié)語

    針對(duì)群聊文本非正規(guī)性、不完整性、稀疏性等特點(diǎn),本文提出了一種基于群聊文本分類模型。利用TF-IDF統(tǒng)計(jì)方法和梯度降維,去掉了大量重復(fù)、不重要的噪音詞匯,利用現(xiàn)有的機(jī)器學(xué)習(xí)算法,有效地構(gòu)建出交互式短文本分類器。實(shí)驗(yàn)部分驗(yàn)證了本文提出的分析模型,得出了較好的分類效果;同時(shí),我們希望更進(jìn)一步會(huì)深入到群聊語義分析中,希望能夠通過語義層面的分析,來提高分類的效果。

    猜你喜歡
    分類文本模型
    一半模型
    分類算一算
    重要模型『一線三等角』
    重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
    在808DA上文本顯示的改善
    分類討論求坐標(biāo)
    基于doc2vec和TF-IDF的相似文本識(shí)別
    電子制作(2018年18期)2018-11-14 01:48:06
    數(shù)據(jù)分析中的分類討論
    教你一招:數(shù)的分類
    3D打印中的模型分割與打包
    少妇高潮的动态图| 国产麻豆成人av免费视频| 啦啦啦中文免费视频观看日本| 黑人高潮一二区| 久久久久久久久大av| 亚洲欧美精品专区久久| 2022亚洲国产成人精品| 久久久久久九九精品二区国产| 成人毛片a级毛片在线播放| 夜夜看夜夜爽夜夜摸| 欧美日韩综合久久久久久| 亚洲婷婷狠狠爱综合网| 亚洲av成人av| 久久精品综合一区二区三区| 免费不卡的大黄色大毛片视频在线观看 | 欧美激情久久久久久爽电影| 99re6热这里在线精品视频| 麻豆成人av视频| 国产一区二区在线观看日韩| 又大又黄又爽视频免费| 我的女老师完整版在线观看| 99久久中文字幕三级久久日本| 最近最新中文字幕免费大全7| 久久久久久久久久黄片| 亚洲av男天堂| 天堂√8在线中文| 2018国产大陆天天弄谢| 777米奇影视久久| 亚洲欧洲日产国产| 乱人视频在线观看| 超碰av人人做人人爽久久| 搡老妇女老女人老熟妇| 91久久精品国产一区二区成人| 好男人视频免费观看在线| 大香蕉97超碰在线| 成人性生交大片免费视频hd| 熟女人妻精品中文字幕| 搞女人的毛片| 高清视频免费观看一区二区 | 日韩av免费高清视频| 丰满乱子伦码专区| 听说在线观看完整版免费高清| 免费大片18禁| 91在线精品国自产拍蜜月| 精品久久久精品久久久| 男人和女人高潮做爰伦理| 乱系列少妇在线播放| 建设人人有责人人尽责人人享有的 | 色视频www国产| 国产精品蜜桃在线观看| 亚洲精品国产av蜜桃| 九九爱精品视频在线观看| 又爽又黄a免费视频| 亚洲av成人精品一区久久| 成年女人在线观看亚洲视频 | 精品久久久噜噜| 亚洲人成网站高清观看| 国产欧美日韩精品一区二区| 赤兔流量卡办理| 少妇熟女aⅴ在线视频| 精品不卡国产一区二区三区| 两个人的视频大全免费| 在线观看av片永久免费下载| 2021天堂中文幕一二区在线观| 久久99精品国语久久久| 免费高清在线观看视频在线观看| 亚洲欧美精品专区久久| 婷婷六月久久综合丁香| 日韩制服骚丝袜av| 国产男人的电影天堂91| 欧美另类一区| or卡值多少钱| 久久综合国产亚洲精品| 69人妻影院| 国产精品久久视频播放| 午夜福利视频1000在线观看| 亚洲四区av| 国产麻豆成人av免费视频| 国产精品一二三区在线看| 国产亚洲一区二区精品| 亚洲av不卡在线观看| 国产综合懂色| 尾随美女入室| 一个人看视频在线观看www免费| 不卡视频在线观看欧美| 亚洲成色77777| 纵有疾风起免费观看全集完整版 | 久久精品夜夜夜夜夜久久蜜豆| 男人舔女人下体高潮全视频| 又大又黄又爽视频免费| 亚洲自偷自拍三级| 麻豆国产97在线/欧美| 一级二级三级毛片免费看| 床上黄色一级片| 国产亚洲91精品色在线| 久久久精品94久久精品| 国产综合精华液| 97在线视频观看| 一级毛片电影观看| 超碰av人人做人人爽久久| 亚洲欧美日韩卡通动漫| 日日摸夜夜添夜夜爱| 欧美成人a在线观看| 一区二区三区乱码不卡18| 亚洲精品国产av成人精品| 国产精品久久视频播放| 国产亚洲精品久久久com| 最近2019中文字幕mv第一页| 秋霞在线观看毛片| 国产精品一区www在线观看| 久久人人爽人人片av| 91精品国产九色| 内地一区二区视频在线| 欧美一级a爱片免费观看看| 成人午夜精彩视频在线观看| 免费大片黄手机在线观看| h日本视频在线播放| 免费观看在线日韩| 天堂中文最新版在线下载 | 天堂影院成人在线观看| 免费黄频网站在线观看国产| 又黄又爽又刺激的免费视频.| 亚洲天堂国产精品一区在线| 国产色婷婷99| 少妇的逼水好多| 亚洲精华国产精华液的使用体验| kizo精华| 免费无遮挡裸体视频| 日本免费在线观看一区| 天天躁夜夜躁狠狠久久av| 汤姆久久久久久久影院中文字幕 | 在线观看美女被高潮喷水网站| 91久久精品国产一区二区成人| 国产亚洲av嫩草精品影院| 亚洲一区高清亚洲精品| 如何舔出高潮| 国产精品一区www在线观看| 久久99热6这里只有精品| 亚洲久久久久久中文字幕| 久热久热在线精品观看| 久久精品国产鲁丝片午夜精品| 成人一区二区视频在线观看| 在线播放无遮挡| 日本熟妇午夜| 精品一区二区三区人妻视频| 国产乱人视频| 日韩不卡一区二区三区视频在线| 国产 亚洲一区二区三区 | 美女黄网站色视频| 国产精品爽爽va在线观看网站| 卡戴珊不雅视频在线播放| 麻豆成人午夜福利视频| 婷婷色av中文字幕| 国产淫语在线视频| www.av在线官网国产| 免费观看在线日韩| 国产午夜精品久久久久久一区二区三区| 亚洲精品乱久久久久久| 青青草视频在线视频观看| 最后的刺客免费高清国语| 国产69精品久久久久777片| 中文字幕人妻熟人妻熟丝袜美| 精品久久久久久久人妻蜜臀av| 亚洲经典国产精华液单| 久久久午夜欧美精品| 久久99热这里只有精品18| 最近视频中文字幕2019在线8| 中国国产av一级| 亚洲国产最新在线播放| 非洲黑人性xxxx精品又粗又长| 蜜桃亚洲精品一区二区三区| 久久久a久久爽久久v久久| 国产在线男女| 色网站视频免费| 亚洲欧美一区二区三区黑人 | 成人美女网站在线观看视频| 色5月婷婷丁香| 亚洲精品aⅴ在线观看| 精品久久久久久久久亚洲| 日韩三级伦理在线观看| 国产黄片视频在线免费观看| 午夜激情欧美在线| 国产一区有黄有色的免费视频 | 久久久久久九九精品二区国产| 国产亚洲5aaaaa淫片| 久久久久精品久久久久真实原创| 精品一区在线观看国产| 国模一区二区三区四区视频| 成人鲁丝片一二三区免费| 亚洲丝袜综合中文字幕| 人体艺术视频欧美日本| 美女大奶头视频| 久久久国产一区二区| 嫩草影院入口| 99久国产av精品| 久久亚洲国产成人精品v| 亚洲精品aⅴ在线观看| 亚洲伊人久久精品综合| 两个人视频免费观看高清| 99热这里只有是精品在线观看| 成年女人在线观看亚洲视频 | 久久久久久久久久人人人人人人| 97人妻精品一区二区三区麻豆| 五月玫瑰六月丁香| 91精品伊人久久大香线蕉| 亚洲成人一二三区av| 精品久久久久久久人妻蜜臀av| 插逼视频在线观看| 日韩精品有码人妻一区| 久久久久久久午夜电影| 国产精品久久视频播放| 日本黄色片子视频| 久久精品熟女亚洲av麻豆精品 | 久久这里只有精品中国| 听说在线观看完整版免费高清| 国产精品熟女久久久久浪| 亚洲图色成人| 日本熟妇午夜| 国产精品无大码| 色综合站精品国产| 春色校园在线视频观看| 精品99又大又爽又粗少妇毛片| av在线亚洲专区| 国产乱人视频| 中文精品一卡2卡3卡4更新| 卡戴珊不雅视频在线播放| 亚洲精品456在线播放app| 中文字幕av在线有码专区| 亚洲av日韩在线播放| 菩萨蛮人人尽说江南好唐韦庄| 免费看美女性在线毛片视频| 国产黄色视频一区二区在线观看| 国产综合懂色| 亚洲av二区三区四区| 日韩伦理黄色片| 免费大片18禁| 在线免费观看不下载黄p国产| 丝袜喷水一区| 国产黄片美女视频| 美女大奶头视频| 欧美日韩视频高清一区二区三区二| 久久精品国产亚洲网站| 91精品一卡2卡3卡4卡| 国产永久视频网站| 色综合站精品国产| 亚洲国产色片| 精品国产三级普通话版| 亚州av有码| 亚洲va在线va天堂va国产| 亚洲av电影不卡..在线观看| 伦精品一区二区三区| 自拍偷自拍亚洲精品老妇| 免费大片18禁| 最近的中文字幕免费完整| 国产午夜精品论理片| 日产精品乱码卡一卡2卡三| 激情 狠狠 欧美| 水蜜桃什么品种好| 久久这里有精品视频免费| 大话2 男鬼变身卡| 国产精品人妻久久久影院| 国产亚洲精品久久久com| 99热这里只有是精品50| 亚洲成色77777| 美女国产视频在线观看| 少妇猛男粗大的猛烈进出视频 | 嘟嘟电影网在线观看| 国产午夜精品一二区理论片| 精品人妻偷拍中文字幕| 久久久国产一区二区| 亚洲欧美中文字幕日韩二区| 国产淫语在线视频| 中文字幕av成人在线电影| 搡老乐熟女国产| 韩国高清视频一区二区三区| 91精品一卡2卡3卡4卡| 亚洲精品日韩在线中文字幕| a级毛片免费高清观看在线播放| 日韩亚洲欧美综合| 国产免费又黄又爽又色| 永久免费av网站大全| 男女边吃奶边做爰视频| 午夜爱爱视频在线播放| 日韩一区二区视频免费看| 两个人的视频大全免费| 午夜激情久久久久久久| 免费观看的影片在线观看| 中文在线观看免费www的网站| 欧美日韩综合久久久久久| 99热网站在线观看| 午夜免费激情av| 国产一区有黄有色的免费视频 | 九九久久精品国产亚洲av麻豆| 少妇的逼好多水| 一本—道久久a久久精品蜜桃钙片 精品乱码久久久久久99久播 | 精品人妻视频免费看| 美女高潮的动态| 午夜福利视频1000在线观看| 免费看av在线观看网站| 99久久精品一区二区三区| 汤姆久久久久久久影院中文字幕 | 中文乱码字字幕精品一区二区三区 | 亚洲最大成人中文| 婷婷六月久久综合丁香| 97热精品久久久久久| 精品久久久噜噜| 人人妻人人澡欧美一区二区| 欧美激情在线99| 国产91av在线免费观看| 波野结衣二区三区在线| 日韩欧美三级三区| 久久国内精品自在自线图片| 国产高清三级在线| 免费观看在线日韩| 久久久国产一区二区| 国产精品久久久久久精品电影小说 | 日产精品乱码卡一卡2卡三| 一级二级三级毛片免费看| 欧美3d第一页| 国产精品.久久久| 欧美精品国产亚洲| 国产人妻一区二区三区在| 免费av观看视频| 美女主播在线视频| 久久99热这里只频精品6学生| 中文字幕免费在线视频6| 欧美区成人在线视频| xxx大片免费视频| 最近的中文字幕免费完整| 高清视频免费观看一区二区 | 青春草国产在线视频| 黄色配什么色好看| 成人国产麻豆网| 亚洲综合精品二区| 成人欧美大片| 日韩欧美精品v在线| 欧美成人a在线观看| 国产一区有黄有色的免费视频 | 国产精品人妻久久久影院| 午夜爱爱视频在线播放| av在线亚洲专区| 亚洲综合色惰| 在线 av 中文字幕| 久久久久久久久久成人| 婷婷六月久久综合丁香| 在线免费十八禁| 国产欧美日韩精品一区二区| 少妇人妻一区二区三区视频| 18禁在线无遮挡免费观看视频| 丝袜喷水一区| 婷婷色麻豆天堂久久| 国产高清有码在线观看视频| 久久精品国产鲁丝片午夜精品| 久久久久久九九精品二区国产| 午夜亚洲福利在线播放| 久久久久久久久久久丰满| 麻豆久久精品国产亚洲av| 国产亚洲最大av| 丝瓜视频免费看黄片| 国产精品久久久久久久电影| 亚洲精品国产成人久久av| 亚洲av电影不卡..在线观看| 成人亚洲欧美一区二区av| 97在线视频观看| 熟妇人妻不卡中文字幕| 国产精品一区二区性色av| 在线观看美女被高潮喷水网站| 亚洲不卡免费看| 人妻夜夜爽99麻豆av| 亚洲av一区综合| 日本三级黄在线观看| 久久久久久九九精品二区国产| 欧美zozozo另类| 搡女人真爽免费视频火全软件| 国产亚洲精品久久久com| 色5月婷婷丁香| 99久久中文字幕三级久久日本| 久久久久性生活片| 国产男女超爽视频在线观看| 国产成人精品婷婷| 亚洲精品456在线播放app| 色网站视频免费| 国产视频首页在线观看| 中文字幕人妻熟人妻熟丝袜美| 亚洲精品乱码久久久久久按摩| 亚洲欧美日韩卡通动漫| 日韩电影二区| 最新中文字幕久久久久| 国产精品一区www在线观看| 大香蕉久久网| 久久久国产一区二区| 亚洲精品456在线播放app| 精品熟女少妇av免费看| 日本av手机在线免费观看| 黄色欧美视频在线观看| 日本午夜av视频| 国产老妇伦熟女老妇高清| 不卡视频在线观看欧美| 亚洲18禁久久av| 亚洲精品456在线播放app| 日本黄大片高清| 69人妻影院| 欧美一级a爱片免费观看看| 美女主播在线视频| 简卡轻食公司| 免费av不卡在线播放| 国产视频首页在线观看| 国产乱人偷精品视频| 国产精品福利在线免费观看| 亚洲四区av| 大香蕉久久网| 久久精品综合一区二区三区| 亚洲av在线观看美女高潮| 国产精品国产三级专区第一集| 毛片一级片免费看久久久久| 18+在线观看网站| 最近最新中文字幕免费大全7| 干丝袜人妻中文字幕| 国产成人精品久久久久久| 91在线精品国自产拍蜜月| 日韩一区二区视频免费看| 亚洲欧美成人综合另类久久久| 麻豆乱淫一区二区| 一级毛片黄色毛片免费观看视频| 嫩草影院新地址| 国产在线男女| 国产精品久久久久久精品电影| 成人鲁丝片一二三区免费| 麻豆久久精品国产亚洲av| 一二三四中文在线观看免费高清| 中文字幕av在线有码专区| 精品一区二区免费观看| 亚洲精品中文字幕在线视频 | av天堂中文字幕网| 日本av手机在线免费观看| 免费少妇av软件| 草草在线视频免费看| 久久99热6这里只有精品| 1000部很黄的大片| 91精品伊人久久大香线蕉| 麻豆国产97在线/欧美| 在线免费观看的www视频| 97精品久久久久久久久久精品| 国产精品一区二区在线观看99 | 少妇人妻精品综合一区二区| 在线a可以看的网站| 91久久精品国产一区二区三区| 丝袜喷水一区| 黄片wwwwww| 国产美女午夜福利| 99视频精品全部免费 在线| 一级毛片久久久久久久久女| 免费人成在线观看视频色| 亚洲欧洲国产日韩| 97精品久久久久久久久久精品| 日本免费在线观看一区| 亚洲精品久久午夜乱码| 日韩欧美一区视频在线观看 | 免费看美女性在线毛片视频| 国产淫语在线视频| 丰满人妻一区二区三区视频av| 91精品国产九色| 亚洲精品亚洲一区二区| 国产亚洲av嫩草精品影院| 国产精品一区二区三区四区免费观看| 亚洲国产欧美人成| 乱码一卡2卡4卡精品| 26uuu在线亚洲综合色| 久久99热6这里只有精品| 91久久精品电影网| 久久久久九九精品影院| 欧美激情久久久久久爽电影| 97在线视频观看| 成人综合一区亚洲| www.色视频.com| 久久草成人影院| ponron亚洲| 亚洲av免费高清在线观看| 国产毛片a区久久久久| 在线观看美女被高潮喷水网站| 欧美变态另类bdsm刘玥| 国产男人的电影天堂91| 国产在线一区二区三区精| 欧美日韩在线观看h| 韩国av在线不卡| 国产免费一级a男人的天堂| 丰满少妇做爰视频| 日本熟妇午夜| 久久久久久久午夜电影| 亚洲人成网站高清观看| 免费av毛片视频| 欧美成人精品欧美一级黄| 国产精品国产三级专区第一集| av女优亚洲男人天堂| 插逼视频在线观看| 性插视频无遮挡在线免费观看| 看免费成人av毛片| 嫩草影院精品99| 人人妻人人看人人澡| 亚洲自偷自拍三级| 久久精品国产亚洲av天美| eeuss影院久久| 韩国av在线不卡| 午夜福利高清视频| 亚洲精品影视一区二区三区av| 一个人看视频在线观看www免费| 激情 狠狠 欧美| 80岁老熟妇乱子伦牲交| 亚洲熟妇中文字幕五十中出| 乱码一卡2卡4卡精品| 成人亚洲精品一区在线观看 | 又黄又爽又刺激的免费视频.| 亚洲国产精品专区欧美| 高清毛片免费看| 看非洲黑人一级黄片| 久久草成人影院| 精华霜和精华液先用哪个| 一级av片app| eeuss影院久久| 特大巨黑吊av在线直播| 2022亚洲国产成人精品| 51国产日韩欧美| 国产乱人视频| 亚洲欧美一区二区三区国产| 亚洲欧美精品自产自拍| 国内精品宾馆在线| 免费观看在线日韩| 春色校园在线视频观看| 国产高清不卡午夜福利| 91精品伊人久久大香线蕉| 免费大片黄手机在线观看| 69人妻影院| 十八禁网站网址无遮挡 | 插阴视频在线观看视频| 国产男女超爽视频在线观看| 亚洲婷婷狠狠爱综合网| .国产精品久久| 丰满少妇做爰视频| 国产老妇女一区| 国语对白做爰xxxⅹ性视频网站| 黄色日韩在线| 毛片一级片免费看久久久久| 免费av不卡在线播放| 性插视频无遮挡在线免费观看| 亚洲色图av天堂| 国产精品久久视频播放| 亚洲av二区三区四区| 好男人视频免费观看在线| 欧美最新免费一区二区三区| 丰满少妇做爰视频| 插逼视频在线观看| 一本久久精品| 日本-黄色视频高清免费观看| videossex国产| 人体艺术视频欧美日本| 禁无遮挡网站| 日本免费在线观看一区| 国内精品宾馆在线| 亚洲精品aⅴ在线观看| 精品人妻熟女av久视频| 日韩精品青青久久久久久| 久久人人爽人人片av| 日本与韩国留学比较| 亚洲精品456在线播放app| 看非洲黑人一级黄片| 99热这里只有精品一区| 亚洲美女视频黄频| 国产久久久一区二区三区| 久久久久久伊人网av| 午夜精品一区二区三区免费看| 中文精品一卡2卡3卡4更新| 精品国内亚洲2022精品成人| 久久久精品94久久精品| 在线播放无遮挡| 嫩草影院新地址| 国产黄片美女视频| 18禁裸乳无遮挡免费网站照片| 免费观看av网站的网址| 一本一本综合久久| 国产女主播在线喷水免费视频网站 | 亚洲不卡免费看| 菩萨蛮人人尽说江南好唐韦庄| 国产 一区 欧美 日韩| 国产亚洲91精品色在线| 日韩欧美一区视频在线观看 | 日本一二三区视频观看| 国产精品一区二区性色av| 免费黄色在线免费观看| 亚洲成人精品中文字幕电影| 亚洲国产成人一精品久久久| 男女下面进入的视频免费午夜| 内地一区二区视频在线| av免费在线看不卡| 欧美 日韩 精品 国产| 少妇丰满av| 天堂影院成人在线观看| 日韩三级伦理在线观看| 波多野结衣巨乳人妻| 欧美一区二区亚洲| 成人高潮视频无遮挡免费网站| 一个人观看的视频www高清免费观看| 国产高清不卡午夜福利| 午夜精品在线福利| 日韩精品青青久久久久久| 99热这里只有是精品在线观看| 婷婷色综合大香蕉| 高清在线视频一区二区三区| 亚洲av福利一区| 91精品一卡2卡3卡4卡| 丝袜美腿在线中文| 国产精品久久久久久久电影| 亚洲国产色片| 自拍偷自拍亚洲精品老妇| 国产91av在线免费观看| 国产精品国产三级国产av玫瑰|