• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    改進(jìn)的TF-IDF算法在作品抄襲判定中的應(yīng)用
    ——以《夢里花落知多少》和《圈里圈外》為例

    2014-03-21 10:59:25吉志薇
    文教資料 2014年31期
    關(guān)鍵詞:特征文本方法

    吉志薇

    (南京師范大學(xué) 文學(xué)院,江蘇 南京 210097)

    改進(jìn)的TF-IDF算法在作品抄襲判定中的應(yīng)用
    ——以《夢里花落知多少》和《圈里圈外》為例

    吉志薇

    (南京師范大學(xué) 文學(xué)院,江蘇 南京 210097)

    TF-IDF算法在文本相似性的度量中有著廣泛地應(yīng)用,但也存在著明顯的缺陷。本文運用一種綜合考慮詞頻、逆向文本頻率、類間信息熵和類內(nèi)信息熵四個方面的改進(jìn)的TF-IDF算法計算了郭敬明的《夢里花落知多少》和莊羽的《圈里圈外》的相似性,從定量的角度判定了前者的確抄襲了后者。

    TF-IDF算法 文本相似度 夢里花落知多少 圈里圈外

    0.引言

    目前在國內(nèi)外,文學(xué)作品、學(xué)術(shù)著作的抄襲行為廣泛存在,這種現(xiàn)象不僅侵犯了原作者的著作權(quán),也助長了不良的學(xué)術(shù)風(fēng)氣。因此,加強對作品抄襲的判定研究有著巨大的價值。作品抄襲的判定研究是建立在對數(shù)字文本的分析處理基礎(chǔ)上的。數(shù)字文本可分為自然語言文本(比如小說、論文等)和形式語言文本(例如數(shù)據(jù)文件、計算機程序代碼等)。形式語言文本具有嚴(yán)格的形式化語法、清晰的語義表達(dá)、容易分析處理,所以形式化的語言文本的抄襲判定研究已經(jīng)取得了豐碩的成果。而自然語言文本,由于沒有形式化語法約束、語義具有歧義性的缺陷,較難進(jìn)行抄襲判定。直到1991年用于查詢重復(fù)基金申請書的軟件Word Check出現(xiàn)及應(yīng)用,自然語言文本的抄襲判定研究才有了較大的進(jìn)展。①

    判定作品抄襲的研究思路是:將作品看作一系列標(biāo)記(token)的集合,這些標(biāo)記可以是字符、詞、句、段落和章節(jié)等。運用某種算法從作品A和B中得到各自的標(biāo)記集合a和b,通過比較a和b的關(guān)系來確定作品A和B的相似度。目前常用的判定作品抄襲的技術(shù)有數(shù)字指紋、詞頻統(tǒng)計、圖像匹配以及諸如MDR②、RKR-GST(Running-Karp-Rabin-Greedy-String-Tiling)③的字符串匹配等方法。綜合考慮精度和速度等因素,效果較好的是數(shù)字指紋和詞頻統(tǒng)計。

    在詞頻統(tǒng)計技術(shù)中,一般采用向量空間模型(VSM)來表示,該模型廣泛應(yīng)用于信息檢索等領(lǐng)域。用向量空間模型表示文本,首先要對文本進(jìn)行預(yù)處理(主要包括中文分詞和去停用詞),然后進(jìn)行特征項選擇和權(quán)重計算。它的基本思想是將每個文本(Document)看作由一組相互獨立的特征項Ti(T1,T2,…,Tn)構(gòu)成的集合,表示為Document=D(T1,T2,…,Tn),然后根據(jù)每個特征項在文本中的重要性,分別賦予他們一定的權(quán)重Wi(W1,W2,W3…Wn),這樣就構(gòu)成了一個以特征項Ti為橫坐標(biāo),權(quán)重Wi為其對應(yīng)坐標(biāo)的N維向量空間模型。

    對權(quán)重的計算有多種不同的方法,主要有布爾函數(shù)、頻度函數(shù)、開根號函數(shù)、對數(shù)函數(shù)、熵函數(shù)及TF-IDF函數(shù)等。特征項的權(quán)重取值,在很大程度上會影響文本分類算法的整體性能。其中,TF-IDF因其算法相對簡單,并有較高的準(zhǔn)確率和召回率,一直受到相關(guān)研究人員和眾多領(lǐng)域的青睞。④

    1.TF-IDF及其改進(jìn)算法

    1.1 TF-IDF算法

    TF-IDF最早由G.salton在1973年提出⑤。TF(termfrequency)是指關(guān)鍵詞詞頻,即一篇文章中關(guān)鍵詞出現(xiàn)的頻率;IDF(inversedocumentfrequency)是指逆向文本頻率,即關(guān)鍵詞在不同文檔中的分布情況。它的基本思路是:一個詞在一個文本中出現(xiàn)的頻率越高,說明它區(qū)分該文本的能力越強(TF);一個詞在不同文本中出現(xiàn)的范圍越廣,說明它區(qū)分文本的能力越低(IDF)。經(jīng)過salton的多次論證,信息檢索領(lǐng)域廣泛地使用TF-IDF算法計算權(quán)重,其經(jīng)典計算公式為:

    wij表示特征項ti在文本Dj中的權(quán)重,tfij表示特征項ti在文本Dj中出現(xiàn)的頻度,ni表示訓(xùn)練集中出現(xiàn)特征項ti的文檔數(shù),N表示訓(xùn)練集中總的文檔數(shù)。

    1.2 TF-IDF改進(jìn)算法

    TF-IDF算法考慮了特征項在總的文本集中的分布,卻沒有考慮它在類內(nèi)和類間的分布情況。IDF的主要思想是:如果包含特征項t的文本數(shù)越少,也就是n越小,IDF越大,則說明特征項t的文本分類能力越強。如果某一類Ci中包含m個t,而其他類包含k個t,則所有包含t的文本數(shù)為n=m+k。假定k的值固定且較小,根據(jù)定義,當(dāng)m的值比較大的時候,n也比較大,則IDF就比較小,但是這并不能說明特征項t的文本分類能力就一定不強。因為如果類別Ci中頻繁出現(xiàn)t而其他類中很少出現(xiàn)t,那么t就應(yīng)該能夠很好地代表這個類Ci的特征,我們應(yīng)該賦予這樣的特征項較高的權(quán)重。正是由于IDF函數(shù)存在這樣的不足,張玉芳等⑥提出了相應(yīng)的改進(jìn)意見。設(shè)總的文本數(shù)為N,包含特征項t的文本數(shù)為n,其中Ci類文本中包含t的文本數(shù)為m,其他類文本中包含t的文本數(shù)為k,則t在Ci類中的IDF值為:

    張玉芳等主要考慮了特征項的類間分布而沒有涉及類內(nèi)分布的情況。對此,張保富等⑦提出“同樣是集中分布于某一類別的不同特征項,類內(nèi)分布相對均勻的特征項的權(quán)重應(yīng)該比分布不均勻的要高。因為如果一個特征項只在某個類別的一兩篇文本中大量出現(xiàn),而在類的其他文本中出現(xiàn)得很少,那么不排除這一兩篇文本是該類中特例的情況,因此這樣的特征項不具備代表性,其權(quán)重應(yīng)該相對較低?!本C合類間類內(nèi)分布,張保富等提出的權(quán)重計算公式為:

    化計算;a(Hac)表示的是經(jīng)過一定修改的類間信息熵因子,aHac為特征項的類間信息熵,max(Hac)為特征項類間信息熵的最大值,根據(jù)熵最大原理可得max(Hac)=logk(k表示類別數(shù)),即包含特征項t的所有文本均勻地分布在每一個類別中,概率分布Pi=1/k時,類間信息分布熵取最大值。系數(shù)l(l>0)為了避免max(Hac)=0(k=1)和a(Hac)=0(Hac=max(Hac))兩種情況的出現(xiàn)。觀察公式可得,a(Hac)越小,則Hac越大,符合包含某一特征項的文本在各類分布越均勻,其類間分布熵越大,則此特征項對文本分類的貢獻(xiàn)越小的理論。Hic表示的是特征項的類內(nèi)信息熵,也符合特征項在文本的某一個類中的各個文本分布越均勻,其類內(nèi)的分布熵就越大,則對該類的分類貢獻(xiàn)就越大的理論。這種方法避免了那些對文本分類沒有貢獻(xiàn)的特征項被賦予較大權(quán)值的缺陷,能更有效地計算文本特征項的權(quán)重。實驗結(jié)果證明該方法提高了文本分類的精確度和召回率,是一種比較有效的文本特征項加權(quán)方法。

    2.背景介紹

    郭敬明(http://baike.baidu.com/view/4386.htm)出生于1983年。莊羽(http://baike.baidu.com/view/769116.htm)出生于1979年。2002年8月14日,莊羽以“許愿的豬”為筆名將小說《圈里圈外》發(fā)表在天涯社區(qū)舞文弄墨版。2003年2月,《圈里圈外》由中國文聯(lián)出版社出版,作品署名“莊羽”?!度锶ν狻芬灾魅斯鯐耘c現(xiàn)任男友高源及前任男友張小北的感情經(jīng)歷為主線,在描寫初曉與高源之間的愛情生活及矛盾沖突的同時,描寫了初曉與張小北之間的感情糾葛,同時還描寫了初曉的朋友李穹與張小北的婚姻生活以及張小北與情人張萌萌的婚外情,高源與張萌萌的兩性關(guān)系及合作拍戲等。2003年11月,春風(fēng)文藝出版社出版了郭敬明的《夢里花落知多少》。該書版權(quán)頁有“郭敬明著、春風(fēng)文藝出版社出版、2003年11月第1版、2003年11月第1次印刷”等字樣?!秹衾锘渲嗌佟分魅斯謲古c現(xiàn)任男友陸敘及前任男友顧小北的感情經(jīng)歷為主線,在描寫林嵐與陸敘的愛情生活及矛盾沖突的同時,交替描寫了林嵐與顧小北的感情糾葛,顧小北與現(xiàn)任女友姚姍姍的感情經(jīng)歷,林嵐、聞婧、微微及火柴之間的友情以及她們和李茉莉的沖突等。⑧

    2003年12月,莊羽向北京市一中院起訴,稱郭敬明所著《夢里花落知多少》一書剽竊了其《圈里圈外》。隨后,北京市一中院作出一審判決,認(rèn)定《夢里花落知多少》中剽竊了《圈里圈外》中具有獨創(chuàng)性的人物關(guān)系的內(nèi)容,造成《夢里花落知多少》和《圈里圈外》整體上構(gòu)成實質(zhì)性相似。郭敬明不滿上訴。2006年5月22日,北京市高級人民法院作出終審判決,駁回了郭敬明的上訴要求,判決郭敬明與出版方賠償莊羽經(jīng)濟(jì)損失、精神撫慰金、停止出版和銷售《夢里花落知多少》以及公開道歉。 (參考http://baike.baidu.com/view/46062. htm#sub6294546)

    考慮到《夢里花落知多少》和《圈里圈外》兩部作品的題材和內(nèi)容,本文共選擇了兩人比較有代表性的八部作品:郭敬明的《夢里花落知多少》、《夏至未至1995-2005》、《悲傷逆流成河》、《小時代1》分別發(fā)表于2003年、2005年、2007年和2008年;莊羽的《圈里圈外》、《遍地姻緣》、《此去經(jīng)年》、《半張臉》分別發(fā)表于2003年、2005年、2008年和2009年。

    3.相關(guān)實驗

    3.1 文本預(yù)處理

    (1)中文分詞

    分詞技術(shù)是文本分類的基礎(chǔ)。簡單地說,就是用分詞算法把文本切分成字、詞和短語。目前常用的分詞方法⑨⑩有:

    A.基于詞表的分詞方法

    又稱為基于字符串匹配的分詞方法。這是一種機械分詞方法,它依據(jù)一個分詞詞表及長詞優(yōu)先(即盡可能地用最長的詞來匹配句中的漢字串,從而使得切出來的詞盡可能長,詞的數(shù)量盡可能少)的原則來進(jìn)行分詞。具體步驟是計算機按照一定的策略將待分析的漢字串與一個“充分大的”機器詞典中的詞條進(jìn)行匹配,若在詞典中找到某個字符串,則匹配成功(識別出一個詞)。

    B.基于統(tǒng)計的分詞方法

    又稱為最大概率法。從形式上看,詞是穩(wěn)定的字的組合。相鄰的字同現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個詞,因此字與字相鄰共現(xiàn)的概率能夠較好地反映成詞的可信度。這種分詞方法的具體步驟是首先切分出與詞表匹配的所有可能的詞,然后運用統(tǒng)計語言模型和決策算法決定最優(yōu)切分結(jié)果。主要的語言統(tǒng)計模型和決策算法有:互信息、N元文法模型、最大熵模型等。

    C.基于理解的分詞方法

    又稱為人工智能法。這種分詞方法是通過讓計算機模擬人對句子的理解,達(dá)到識別詞的效果。人工智能是對信息進(jìn)行智能化處理的一種模式,主要有兩種處理方式:(1)基于心理學(xué)的符號處理方法。即希望模擬人腦的功能,構(gòu)造推理網(wǎng)絡(luò),經(jīng)過符號轉(zhuǎn)換,從而可以進(jìn)行解釋性處理,像專家系統(tǒng)。(2)基于生理學(xué)的模擬方法。即模擬人腦的神經(jīng)系統(tǒng)機構(gòu)的運作機制來實現(xiàn)一定的功能,像神經(jīng)網(wǎng)絡(luò)系統(tǒng)。以上兩種思路也是近年來人工智能領(lǐng)域研究的熱點問題,應(yīng)用到分詞方法上,產(chǎn)生了專家系統(tǒng)分詞法和神經(jīng)網(wǎng)絡(luò)分詞法。?

    (2)去停用詞

    去停用詞就是按照停用詞表中的詞語將語料中對文本內(nèi)容識別意義不大但出現(xiàn)頻率很高的詞、符號、標(biāo)點及亂碼等去掉。在對文本分詞后,還要對其進(jìn)行詞性標(biāo)記。?通常一個句子可以由名詞、動詞、形容詞、代詞、副詞、介詞、冠詞、連詞等組成,其中最能表達(dá)文本意義的是名詞和動詞,但是其他詞性像副詞、連詞等的出現(xiàn)頻率也很高,如“很、的、而且”等詞幾乎出現(xiàn)在任何一篇中文文本中,但是他們對這個文本所表達(dá)的意思幾乎沒有任何貢獻(xiàn),這類停用詞就需要被過濾掉。

    3.2 特征項選擇與權(quán)值計算

    對整個文本集中的每一篇文本的詞項進(jìn)行TF-IDF值計算,并將文本中各個詞項的TF-IDF值表示為一個向量,以此進(jìn)行文本的相似度計算。這個文本向量是高維而且極度稀疏的,這一方面會導(dǎo)致分類算法的代價過高,另一方面也會影響文本類別信息的提取。根據(jù)信息論,IDF的值實際上是一個特定條件下詞項概率分布的交叉熵,而TF則是用來增加詞項的權(quán)重,以便更好地描述文本中詞項的信息特征。?因此,我們可以從每一篇文本中挑選若干重要詞項來表示文本。這樣就可以既保證文本特征的提取,又最大可能地減少文本特征向量表示的維度。比較常用的降維方法有文檔頻率、互信息、信息增益、期望交叉熵、卡方統(tǒng)計等??本文將張保富等提出的改進(jìn)的TF-IDF權(quán)重計算方法應(yīng)用于特征項選擇中。具體做法是:利用公式1計算每一篇文本中的權(quán)值,然后對其進(jìn)行降序排序,從高到低選擇權(quán)值比較大的2561個詞語作為特征項。

    3.3 文本相似度計算

    由于特征項代表了一部作品中最重要的信息,因此文本的相似度就可以由特征項向量間的相似度來描述。

    用VSM表示D1和D2兩個文本向量:

    如果使用N維空間中兩個向量直接的距離來表示文本間的相似程度,設(shè)Sim(D1,D2)表示這種相似程度。一般使用向量間的內(nèi)積,或兩向量夾角的余弦值來表示相似系數(shù)Sim(D1,D2)。

    (1)向量間的內(nèi)積公式:

    (2)向量夾角的余弦公式:

    本次實驗采用了向量夾角的余弦公式來計算文本相似度。

    4.結(jié)果與分析

    (1)通過計算得到郭敬明作品之間的相似度如表1:

    表1:郭敬明作品間的相似度

    觀察表1,我們可以發(fā)現(xiàn)郭敬明四部作品彼此之間的相似度差異比較大,只有《夏至未至1995-2005》與《小時代1》的寫作風(fēng)格比較接近,相似度高達(dá)0.95,這說明其寫作風(fēng)格變化比較大。深陷抄襲風(fēng)波的《夢里花落知多少》與其他三部的相似度處于中間狀態(tài)。雖然它與《悲傷逆流成河》的相似度只有0.54,但并不能說明《夢里花落知多少》一書的寫作風(fēng)格偏離郭敬明的創(chuàng)作風(fēng)格。因為從表中可以看到《悲傷逆流成河》與其他作品的相似度也偏低,說明《悲傷逆流成河》一書的言語風(fēng)格在郭敬明的作品中是比較獨特和另類的。正如部分讀者說的:“《悲傷逆流成河》不同于郭敬明其他作品,幽默和悲傷摻雜,其整體基調(diào)都是悲傷的。”文學(xué)作品中,作者一般用形容詞來表示人物的情感,可見這部作品和其他三部作品在形容詞的使用上差異較大。而在用計量方法研究郭敬明和莊羽的言語風(fēng)格差異時,我分別統(tǒng)計了郭敬明和莊羽的代表作《夏至未至1995-2005》和《圈里圈外》的詞頻,發(fā)現(xiàn)形容詞在他們作品中的分布差異是比較明顯的。因此,與郭敬明其他作品相比,《悲傷逆流成河》一書并不具有代表性。

    (2)通過計算得到莊羽作品之間的相似度如表2:

    表2:莊羽作品間的相似度

    觀察表2可知,莊羽四部作品之間的相似性非常高,說明其寫作風(fēng)格比較穩(wěn)定。這或許與她一直以北京為背景,以描述男女殘酷愛情為主要內(nèi)容有關(guān)。其中《半張臉》與其他三部作品的相似度偏低,說明《半張臉》的寫作風(fēng)格比較獨特和另類。對此,曾有讀者在豆瓣上評論“在莊羽的《半張臉》中,熟悉的京味臺詞不見了?!币虼耍c莊羽其他作品相比,《半張臉》不具有典型性。

    (3)通過計算得到郭敬明和莊羽作品(去掉不具代表性的《悲傷逆流成河》和不具典型性的《半張臉》)之間的相似度如表3:

    表3:郭敬明作品與莊羽作品之間的相似度

    觀察表3,我們看到郭敬明的《夢里花落知多少》和莊羽的《圈里圈外》、《遍地姻緣》、《此去經(jīng)年》有著非常高的相似度。對比之下,《小時代1》和《夏至未至1995-2005》與莊羽作品的相似度就比較低。

    綜合比較表1、表2和表3,可以發(fā)現(xiàn),《夢里花落知多少》與莊羽的寫作風(fēng)格非常接近,確實存在著抄襲的現(xiàn)象。

    5.結(jié)語

    TF-IDF作為一種簡單、直觀、處理速度快的文本特征選擇和加權(quán)方法,在文本相似度的計算中有著廣泛應(yīng)用。本文利用結(jié)合信息熵的改進(jìn)TF-IDF算法計算了 《夢里花落知多少》和《圈里圈外》的相似度,發(fā)現(xiàn)二者的相似性非常高,確實存在抄襲現(xiàn)象。可見,此算法在判定作品抄襲中是可行的,同時我們也發(fā)現(xiàn)了不少問題,在今后的研究中,我們還需在以下幾個方面繼續(xù)改進(jìn)和努力:

    (1)標(biāo)注體系和工具對于統(tǒng)計結(jié)果的影響,語言風(fēng)格在字、詞、句等語言結(jié)構(gòu)和語法、語義、語用層面的全面描寫和計算是今后應(yīng)該深入研究的課題。

    (2)TF-IDF及其改進(jìn)算法在識別同一作者的不同寫作風(fēng)格、判斷某一作者作品的先后順序、推測文本的來源、判定文本年代、辨別文本真?zhèn)蔚阮I(lǐng)域的應(yīng)用也值得我們進(jìn)行更廣泛、更深入地研究。

    (3)正如曾毅平等評價計量方法在漢語風(fēng)格學(xué)中的應(yīng)用“定性的方法適合于對作品氣氛格調(diào)的整體把握,對言語特征的統(tǒng)計則適合于對風(fēng)格的美質(zhì)說明?!?一樣,TF-IDF及其改進(jìn)算法也有一定的局限性,在具體應(yīng)用時,我們要將內(nèi)省體驗式的無形分析與有標(biāo)記的數(shù)量分析相結(jié)合,建立一個科學(xué)的語言風(fēng)格學(xué)體系。?

    注釋:

    ①史彥軍,滕弘飛,金博.抄襲論文識別研究及進(jìn)展[J].大連理工大學(xué)學(xué)報.2005,45(1):50-57.

    ②MONOSTORI K,ZASLAVSKY A,SCHMIDT H.Document overlap detection system for distributed digital libraries[A].Proceedings of the ACM Digital Libraries 2000[C].San Antonio,ACM Press,2000.226-227.

    ③WISE MJ.YAP3,Improved detection of similarities in computer programs and other texts [A].Proceedings of the SIGCSE’96[C].Philadelphia,ACM Press,1996.130-134.

    ④施聰鶯,徐朝軍,楊曉江,TFIDF算法研究綜述[J].計算機應(yīng)用.2009,29:167-170.

    ⑤Salton G,Clement T Y.On the Construction of Effective Vocabularies for Information Retrieval[C]//Proc.of 1973 Meeting on Programming Languages and Information Retrieval.New York,USA:ACM Press,1973.

    ⑥張玉芳,彭時名,呂佳.基于文本分類TFIDF方法的改進(jìn)與應(yīng)用[J].計算機工程,2006,32(19):76-78.

    ⑦張保富,施化吉,馬素琴.基于TFIDF文本特征加權(quán)方法的改進(jìn)研究[J].計算機應(yīng)用與軟件,2011,28(2):17-20.

    ⑧莊羽訴郭敬明侵犯著作權(quán)案北京市高級人民法院民事判決書(節(jié)選)

    ⑨何國斌,趙晶璐.漢語文本自動分詞算法的研究[J].計算機工程與應(yīng)用,2010,46(3):125-130.

    ⑩奉國和,鄭偉.國內(nèi)中文自動分詞技術(shù)研究綜述[J].圖書情報工作,2011,55(2):41-45.

    ?尹峰,林亞平.神徑網(wǎng)絡(luò)專家系統(tǒng)集成式漢語自動分詞技術(shù)[J].軟件世界,1996,(12):89-93.

    ?本文應(yīng)用了中科院計算所漢語詞法分析系統(tǒng)ICTCLAS進(jìn)行中文分詞和詞性標(biāo)注,同時運用了南京師范大學(xué)李斌的超大字符集詞頻統(tǒng)計軟件進(jìn)行詞頻統(tǒng)計。

    ?黃承慧,印鑒,侯昉.一種結(jié)合詞項語義信息和TFIDF方法的文本相似度量方法[J].計算機學(xué)報.2011,34(5): 856-864.

    ?王珍,維尼拉·木沙江.基于改進(jìn)TF-IDF的文本特征選擇方法[J].現(xiàn)代計算機.2009,7:34-36.

    ?羅欣,夏德麟,晏蒲柳.基于詞頻差異的特征選取及改進(jìn)的TF-IDF公式[J].計算機應(yīng)用,2005,25(9):2031-2033.

    ?曾毅平,朱曉文.計算方法在漢語風(fēng)格學(xué)研究中的應(yīng)用[J].福建師范大學(xué)學(xué)報:哲學(xué)社會科學(xué)版,2006(1):14-17.

    ?丁金國.語言風(fēng)格分析中的定性與定量[A].修辭學(xué)論文集(第四集)[C].福州:福建人民出版社,1987.

    [1]史彥軍,滕弘飛,金博.抄襲論文識別研究及進(jìn)展[J].大連理工大學(xué)學(xué)報.2005,45(1):50-57.

    [2]MONOSTORI K,ZASLAVSKY A,SCHMIDT H.Document overlap detection system for distributed digital libraries[A].Proceedings of the ACM Digital Libraries 2000[C].San Antonio,ACM Press,2000.226-227.

    [3]WISE MJ.YAP3,Improved detection of similaritiesin computer programs and other texts[A].Proceedings of the SIGCSE’96[C].Philadelphia,ACM Press,1996.130-134.

    [4]施聰鶯,徐朝軍,楊曉江,TFIDF算法研究綜述[J].計算機應(yīng)用.2009,29:167-170.

    [5]Salton G,Clement T Y.On the Construction of Effective Vocabularies for Information Retrieval[C]//Proc.of 1973 Meeting on Programming Languages and Information Retrieval. New York,USA:ACM Press,1973.

    [6]張玉芳,彭時名,呂佳.基于文本分類TFIDF方法的改進(jìn)與應(yīng)用[J].計算機工程,2006,32(19):76-78.

    [7]張保富,施化吉,馬素琴.基于TFIDF文本特征加權(quán)方法的改進(jìn)研究[J].計算機應(yīng)用與軟件,2011,28(2):17-20.

    [8]何國斌,趙晶璐.漢語文本自動分詞算法的研究[J].計算機工程與應(yīng)用,2010,46(3):125-130.

    [9]奉國和,鄭偉.國內(nèi)中文自動分詞技術(shù)研究綜述[J].圖書情報工作,2011,55(2):41-45.

    [10]尹峰,林亞平.神徑網(wǎng)絡(luò)專家系統(tǒng)集成式漢語自動分詞技術(shù)[J].軟件世界,1996,(12):89-93.

    [11]黃承慧,印鑒,侯昉.一種結(jié)合詞項語義信息和TFIDF方法的文本相似度量方法[J].計算機學(xué)報.2011,34(5): 856-864.

    [12]王珍,維尼拉·木沙江.基于改進(jìn)TF-IDF的文本特征選擇方法[J].現(xiàn)代計算機.2009,7:34-36.

    [13]羅欣,夏德麟,晏蒲柳.基于詞頻差異的特征選取及改進(jìn)的TF-IDF公式[J].計算機應(yīng)用,2005,25(9):2031-2033.

    [14]曾毅平,朱曉文.計算方法在漢語風(fēng)格學(xué)研究中的應(yīng)用[J].福建師范大學(xué)學(xué)報:哲學(xué)社會科學(xué)版,2006(1):14-17.

    [15]丁金國.語言風(fēng)格分析中的定性與定量[A].修辭學(xué)論文集(第四集)[C].福州:福建人民出版社,1987.

    猜你喜歡
    特征文本方法
    如何表達(dá)“特征”
    在808DA上文本顯示的改善
    不忠誠的四個特征
    基于doc2vec和TF-IDF的相似文本識別
    電子制作(2018年18期)2018-11-14 01:48:06
    抓住特征巧觀察
    可能是方法不對
    用對方法才能瘦
    Coco薇(2016年2期)2016-03-22 02:42:52
    文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
    四大方法 教你不再“坐以待病”!
    Coco薇(2015年1期)2015-08-13 02:47:34
    捕魚
    考比视频在线观看| 啦啦啦在线观看免费高清www| 亚洲经典国产精华液单| 国产在线免费精品| 亚洲人成77777在线视频| 色网站视频免费| 丝袜人妻中文字幕| videosex国产| 蜜桃在线观看..| 伦精品一区二区三区| 午夜免费观看性视频| 另类亚洲欧美激情| 国产av一区二区精品久久| 亚洲第一青青草原| 午夜福利乱码中文字幕| 亚洲视频免费观看视频| 宅男免费午夜| 日韩在线高清观看一区二区三区| 国产伦理片在线播放av一区| 亚洲国产精品999| 久久鲁丝午夜福利片| 久久女婷五月综合色啪小说| 成人免费观看视频高清| 国产av精品麻豆| 久久精品国产亚洲av高清一级| 免费观看在线日韩| 一级毛片黄色毛片免费观看视频| 成人亚洲精品一区在线观看| 国产av精品麻豆| 国产成人精品久久二区二区91 | av线在线观看网站| 精品人妻一区二区三区麻豆| 国产免费又黄又爽又色| 午夜福利乱码中文字幕| 91精品三级在线观看| 日韩,欧美,国产一区二区三区| 黄色配什么色好看| 精品国产露脸久久av麻豆| 亚洲国产精品一区二区三区在线| 天天躁夜夜躁狠狠久久av| 婷婷色麻豆天堂久久| 26uuu在线亚洲综合色| 日本vs欧美在线观看视频| 各种免费的搞黄视频| 国产男女内射视频| 一边亲一边摸免费视频| 青青草视频在线视频观看| 一级毛片我不卡| 一级黄片播放器| 国产欧美日韩一区二区三区在线| 18禁观看日本| 亚洲一区中文字幕在线| 成年人午夜在线观看视频| 一边摸一边做爽爽视频免费| 蜜桃国产av成人99| 精品亚洲乱码少妇综合久久| 日本欧美视频一区| 在线观看免费视频网站a站| 另类亚洲欧美激情| 精品少妇黑人巨大在线播放| 在线天堂中文资源库| 日本免费在线观看一区| 一级,二级,三级黄色视频| 欧美日韩精品成人综合77777| 最新中文字幕久久久久| 成人国语在线视频| 黄片播放在线免费| 一级毛片我不卡| 国产精品免费视频内射| 国产亚洲一区二区精品| 亚洲图色成人| 成年动漫av网址| 在线精品无人区一区二区三| 最近中文字幕2019免费版| 亚洲av中文av极速乱| 成人国产麻豆网| 青春草亚洲视频在线观看| 久久 成人 亚洲| 日韩一区二区三区影片| 亚洲第一av免费看| 一本一本久久a久久精品综合妖精 国产伦在线观看视频一区 | 交换朋友夫妻互换小说| 久久精品亚洲av国产电影网| 国产成人免费观看mmmm| 亚洲av电影在线观看一区二区三区| 99久久综合免费| 人妻少妇偷人精品九色| 老汉色∧v一级毛片| 丝袜喷水一区| 久久久欧美国产精品| 性高湖久久久久久久久免费观看| 国产福利在线免费观看视频| 看非洲黑人一级黄片| av又黄又爽大尺度在线免费看| 9色porny在线观看| 一区二区三区乱码不卡18| 日韩 亚洲 欧美在线| 久久久久久久大尺度免费视频| 女人高潮潮喷娇喘18禁视频| 久热这里只有精品99| 国产精品.久久久| 天天躁夜夜躁狠狠久久av| 免费在线观看黄色视频的| 日日撸夜夜添| 男女边吃奶边做爰视频| av国产精品久久久久影院| 99久久精品国产国产毛片| 热re99久久精品国产66热6| 亚洲伊人色综图| av电影中文网址| 狂野欧美激情性bbbbbb| 日韩欧美精品免费久久| 最近的中文字幕免费完整| 国产在线一区二区三区精| 亚洲视频免费观看视频| 亚洲成色77777| 男的添女的下面高潮视频| 五月伊人婷婷丁香| 各种免费的搞黄视频| 9色porny在线观看| 亚洲四区av| 国产乱来视频区| 九九爱精品视频在线观看| 美女午夜性视频免费| 亚洲精品美女久久av网站| 免费观看av网站的网址| 免费人妻精品一区二区三区视频| 亚洲国产av影院在线观看| 大片电影免费在线观看免费| 丰满迷人的少妇在线观看| 又黄又粗又硬又大视频| 成人二区视频| 欧美97在线视频| 国产成人一区二区在线| 90打野战视频偷拍视频| 视频在线观看一区二区三区| 26uuu在线亚洲综合色| 啦啦啦在线观看免费高清www| 欧美日韩视频高清一区二区三区二| 丝袜美足系列| av不卡在线播放| 久久久久久免费高清国产稀缺| 国产深夜福利视频在线观看| 国产xxxxx性猛交| 亚洲,欧美,日韩| 最近最新中文字幕大全免费视频 | 亚洲伊人色综图| 天天躁狠狠躁夜夜躁狠狠躁| 亚洲欧美成人精品一区二区| 两个人免费观看高清视频| 狠狠婷婷综合久久久久久88av| 一区二区av电影网| 欧美少妇被猛烈插入视频| 99久久综合免费| 国产无遮挡羞羞视频在线观看| 欧美97在线视频| 看免费成人av毛片| 这个男人来自地球电影免费观看 | 免费观看a级毛片全部| 国产极品粉嫩免费观看在线| 激情五月婷婷亚洲| 色播在线永久视频| 麻豆乱淫一区二区| av在线app专区| 人人妻人人爽人人添夜夜欢视频| 中文字幕人妻丝袜制服| 香蕉国产在线看| www.精华液| 免费在线观看视频国产中文字幕亚洲 | 亚洲av国产av综合av卡| 精品一区二区三区四区五区乱码 | 国产乱人偷精品视频| 久久久精品免费免费高清| 叶爱在线成人免费视频播放| 18在线观看网站| 国产亚洲欧美精品永久| 精品卡一卡二卡四卡免费| 日韩中文字幕欧美一区二区 | 搡女人真爽免费视频火全软件| 精品第一国产精品| 热99国产精品久久久久久7| 亚洲精品中文字幕在线视频| 成人午夜精彩视频在线观看| 伦精品一区二区三区| 国产免费福利视频在线观看| 精品国产乱码久久久久久小说| 亚洲欧洲精品一区二区精品久久久 | 成人毛片a级毛片在线播放| 日日撸夜夜添| 国产成人免费无遮挡视频| 麻豆精品久久久久久蜜桃| 青春草视频在线免费观看| 99国产综合亚洲精品| 免费播放大片免费观看视频在线观看| 黑人猛操日本美女一级片| 在现免费观看毛片| 97在线人人人人妻| 极品人妻少妇av视频| 国产亚洲最大av| 国产精品熟女久久久久浪| 老熟女久久久| 日本黄色日本黄色录像| 成人手机av| 精品第一国产精品| 97人妻天天添夜夜摸| 欧美97在线视频| 精品国产乱码久久久久久男人| 国产国语露脸激情在线看| 中文字幕av电影在线播放| 欧美亚洲日本最大视频资源| 国产伦理片在线播放av一区| 亚洲av中文av极速乱| 精品人妻一区二区三区麻豆| 欧美精品高潮呻吟av久久| 国产白丝娇喘喷水9色精品| 永久网站在线| 欧美精品人与动牲交sv欧美| 香蕉国产在线看| 亚洲国产av新网站| 日韩成人av中文字幕在线观看| 秋霞在线观看毛片| 精品人妻在线不人妻| 边亲边吃奶的免费视频| 日韩一卡2卡3卡4卡2021年| 日本av手机在线免费观看| 香蕉精品网在线| 欧美人与善性xxx| 18在线观看网站| 精品一区在线观看国产| 国产老妇伦熟女老妇高清| 久久久久久久亚洲中文字幕| 成年人免费黄色播放视频| 这个男人来自地球电影免费观看 | 午夜激情久久久久久久| 亚洲四区av| 国产亚洲av片在线观看秒播厂| 国产男女超爽视频在线观看| 精品国产乱码久久久久久小说| 亚洲 欧美一区二区三区| 亚洲精品第二区| 亚洲视频免费观看视频| 伊人亚洲综合成人网| 免费久久久久久久精品成人欧美视频| 久久韩国三级中文字幕| 国产精品蜜桃在线观看| 国产精品国产av在线观看| 高清黄色对白视频在线免费看| 一区二区av电影网| 人人澡人人妻人| 最近的中文字幕免费完整| 国产av一区二区精品久久| 最近最新中文字幕大全免费视频 | 1024香蕉在线观看| 青草久久国产| 一级毛片电影观看| 人妻人人澡人人爽人人| 国产一区有黄有色的免费视频| 狠狠婷婷综合久久久久久88av| 精品一区二区三区四区五区乱码 | 男女无遮挡免费网站观看| 交换朋友夫妻互换小说| 午夜久久久在线观看| 亚洲三区欧美一区| 亚洲成av片中文字幕在线观看 | 亚洲国产精品一区三区| 韩国高清视频一区二区三区| 一区福利在线观看| 人体艺术视频欧美日本| 最新中文字幕久久久久| 91精品国产国语对白视频| 女的被弄到高潮叫床怎么办| 亚洲在久久综合| 免费人妻精品一区二区三区视频| 搡老乐熟女国产| 在线观看www视频免费| 国产成人午夜福利电影在线观看| 91午夜精品亚洲一区二区三区| 国产高清国产精品国产三级| 亚洲精品在线美女| 欧美+日韩+精品| 免费播放大片免费观看视频在线观看| 国产精品久久久久久av不卡| 乱人伦中国视频| 精品国产乱码久久久久久男人| 免费不卡的大黄色大毛片视频在线观看| 一本大道久久a久久精品| 精品人妻一区二区三区麻豆| 国产成人精品在线电影| 久久久久久伊人网av| 精品久久久精品久久久| 精品亚洲成国产av| 亚洲成人av在线免费| 国产成人91sexporn| 好男人视频免费观看在线| 波多野结衣av一区二区av| 久久99一区二区三区| 日韩中文字幕视频在线看片| 欧美 亚洲 国产 日韩一| 秋霞伦理黄片| 视频在线观看一区二区三区| 国产人伦9x9x在线观看 | 免费女性裸体啪啪无遮挡网站| 中国三级夫妇交换| 亚洲国产精品成人久久小说| 国产精品久久久av美女十八| 欧美xxⅹ黑人| 国产高清国产精品国产三级| 欧美亚洲日本最大视频资源| 老司机影院毛片| 日韩中文字幕视频在线看片| 激情视频va一区二区三区| 看免费成人av毛片| 国产精品亚洲av一区麻豆 | 秋霞在线观看毛片| videosex国产| 日本vs欧美在线观看视频| 久久久久网色| 亚洲第一青青草原| 免费在线观看黄色视频的| 99九九在线精品视频| 久久毛片免费看一区二区三区| 日本午夜av视频| 一区二区三区乱码不卡18| 午夜福利乱码中文字幕| 久久精品亚洲av国产电影网| av在线播放精品| 国产亚洲av片在线观看秒播厂| 亚洲av欧美aⅴ国产| 青青草视频在线视频观看| 伊人久久大香线蕉亚洲五| 国产熟女欧美一区二区| 亚洲内射少妇av| 亚洲国产成人一精品久久久| 亚洲第一区二区三区不卡| 久久ye,这里只有精品| 熟妇人妻不卡中文字幕| 亚洲一码二码三码区别大吗| 中国国产av一级| 伊人久久国产一区二区| 国产亚洲最大av| 我要看黄色一级片免费的| 18禁动态无遮挡网站| 久久久久国产网址| 亚洲av男天堂| 最近2019中文字幕mv第一页| 欧美激情 高清一区二区三区| 少妇被粗大猛烈的视频| 美国免费a级毛片| 国产午夜精品一二区理论片| 两性夫妻黄色片| 久久韩国三级中文字幕| 亚洲欧美色中文字幕在线| 2022亚洲国产成人精品| 高清不卡的av网站| 少妇精品久久久久久久| 伊人亚洲综合成人网| 国产av国产精品国产| 亚洲欧美色中文字幕在线| 大香蕉久久成人网| 久久国产亚洲av麻豆专区| 日日啪夜夜爽| 一级,二级,三级黄色视频| 黄片播放在线免费| 一个人免费看片子| 街头女战士在线观看网站| 王馨瑶露胸无遮挡在线观看| 精品国产一区二区三区四区第35| 中文欧美无线码| 咕卡用的链子| kizo精华| 国产精品秋霞免费鲁丝片| 人妻少妇偷人精品九色| 不卡视频在线观看欧美| 成人国语在线视频| 韩国av在线不卡| 一级毛片黄色毛片免费观看视频| 亚洲国产精品一区三区| 国产亚洲av片在线观看秒播厂| 日产精品乱码卡一卡2卡三| 精品少妇内射三级| 日韩一区二区视频免费看| 久久久久精品久久久久真实原创| a 毛片基地| 成人亚洲精品一区在线观看| 男女边吃奶边做爰视频| av线在线观看网站| 亚洲熟女精品中文字幕| 热99国产精品久久久久久7| 亚洲久久久国产精品| 亚洲av福利一区| 久久久久久久国产电影| 亚洲av日韩在线播放| 啦啦啦视频在线资源免费观看| 午夜福利乱码中文字幕| 国产一区二区在线观看av| 麻豆精品久久久久久蜜桃| 叶爱在线成人免费视频播放| 亚洲欧洲精品一区二区精品久久久 | 亚洲精品,欧美精品| 人妻人人澡人人爽人人| 欧美黄色片欧美黄色片| 午夜激情久久久久久久| 九九爱精品视频在线观看| 国产精品一国产av| 下体分泌物呈黄色| 精品国产一区二区三区久久久樱花| 青青草视频在线视频观看| 国产精品久久久av美女十八| 免费观看a级毛片全部| 久久久久精品性色| 欧美黄色片欧美黄色片| 国产精品秋霞免费鲁丝片| 久久精品夜色国产| 精品国产乱码久久久久久男人| 国产视频首页在线观看| 涩涩av久久男人的天堂| freevideosex欧美| 少妇猛男粗大的猛烈进出视频| 另类亚洲欧美激情| av片东京热男人的天堂| 蜜桃国产av成人99| 国产成人精品无人区| 国产av国产精品国产| 日韩一区二区视频免费看| 日韩不卡一区二区三区视频在线| 水蜜桃什么品种好| 精品国产露脸久久av麻豆| 综合色丁香网| 精品视频人人做人人爽| 少妇人妻 视频| 亚洲精品在线美女| 久久精品国产亚洲av高清一级| 亚洲精品av麻豆狂野| 少妇的逼水好多| av免费在线看不卡| 999精品在线视频| 永久免费av网站大全| 国产成人a∨麻豆精品| 宅男免费午夜| av网站在线播放免费| 精品亚洲乱码少妇综合久久| av免费观看日本| 亚洲精品第二区| 亚洲第一区二区三区不卡| 中文字幕av电影在线播放| 日韩一区二区视频免费看| 色吧在线观看| 建设人人有责人人尽责人人享有的| 天天操日日干夜夜撸| 国产成人精品婷婷| 亚洲国产精品国产精品| 男女啪啪激烈高潮av片| av电影中文网址| 国产在线免费精品| www.熟女人妻精品国产| av在线app专区| 成人黄色视频免费在线看| 欧美日韩av久久| 成人亚洲欧美一区二区av| 精品少妇久久久久久888优播| 久久这里有精品视频免费| 一本—道久久a久久精品蜜桃钙片| 蜜桃国产av成人99| 日韩av在线免费看完整版不卡| 午夜老司机福利剧场| 久久久久国产网址| 亚洲国产精品一区三区| 欧美av亚洲av综合av国产av | 成人黄色视频免费在线看| 日韩 亚洲 欧美在线| 亚洲第一区二区三区不卡| 色播在线永久视频| 国产一区二区三区综合在线观看| 97在线视频观看| 国产又爽黄色视频| 亚洲综合色惰| 纯流量卡能插随身wifi吗| 国产精品一国产av| 日韩中文字幕欧美一区二区 | 一区二区三区激情视频| 一级片免费观看大全| 精品少妇一区二区三区视频日本电影 | 大片免费播放器 马上看| 亚洲久久久国产精品| 多毛熟女@视频| 亚洲三级黄色毛片| 亚洲国产欧美在线一区| 极品少妇高潮喷水抽搐| 亚洲一区二区三区欧美精品| 国产综合精华液| 亚洲图色成人| 肉色欧美久久久久久久蜜桃| 国产成人精品婷婷| 午夜福利影视在线免费观看| 丝袜在线中文字幕| 亚洲男人天堂网一区| 亚洲国产精品一区二区三区在线| 成人黄色视频免费在线看| 久久青草综合色| 午夜影院在线不卡| 精品一区二区免费观看| 纯流量卡能插随身wifi吗| 一区二区三区精品91| 在线免费观看不下载黄p国产| 久久久久久久久久久久大奶| 9热在线视频观看99| 亚洲一码二码三码区别大吗| 天天躁日日躁夜夜躁夜夜| 日韩熟女老妇一区二区性免费视频| 亚洲 欧美一区二区三区| 亚洲精品美女久久av网站| 天美传媒精品一区二区| 黄片小视频在线播放| 久久久久精品人妻al黑| 国产高清国产精品国产三级| 久久毛片免费看一区二区三区| 免费久久久久久久精品成人欧美视频| 国产免费又黄又爽又色| 久久久久国产一级毛片高清牌| 免费黄频网站在线观看国产| av免费在线看不卡| 在线观看人妻少妇| 国产精品亚洲av一区麻豆 | 一级爰片在线观看| 久久久久国产一级毛片高清牌| 国产精品麻豆人妻色哟哟久久| 日韩三级伦理在线观看| 少妇精品久久久久久久| 国产一区亚洲一区在线观看| 天天躁狠狠躁夜夜躁狠狠躁| 亚洲精品乱久久久久久| 91成人精品电影| 一本色道久久久久久精品综合| 久久久a久久爽久久v久久| 日韩三级伦理在线观看| 午夜影院在线不卡| 免费不卡的大黄色大毛片视频在线观看| 新久久久久国产一级毛片| 国产成人91sexporn| av在线app专区| 18禁裸乳无遮挡动漫免费视频| 亚洲欧美色中文字幕在线| 午夜激情久久久久久久| 久久精品熟女亚洲av麻豆精品| 亚洲内射少妇av| 精品视频人人做人人爽| 97在线视频观看| 热99久久久久精品小说推荐| 91久久精品国产一区二区三区| 日韩在线高清观看一区二区三区| 中文字幕最新亚洲高清| a级片在线免费高清观看视频| 伦理电影免费视频| 久久av网站| 亚洲 欧美一区二区三区| 国产在线免费精品| 精品国产国语对白av| 狠狠婷婷综合久久久久久88av| 99久久综合免费| 黑丝袜美女国产一区| 婷婷色综合www| 国产免费福利视频在线观看| 男人爽女人下面视频在线观看| 满18在线观看网站| 欧美日韩av久久| 麻豆av在线久日| 在线观看www视频免费| 最黄视频免费看| 99久久人妻综合| 一本色道久久久久久精品综合| 久久狼人影院| 久久久精品94久久精品| 国产伦理片在线播放av一区| 最近中文字幕高清免费大全6| 女性生殖器流出的白浆| 亚洲国产最新在线播放| 天堂中文最新版在线下载| a级毛片黄视频| 18在线观看网站| 久久久久久人人人人人| 亚洲伊人久久精品综合| tube8黄色片| 在线观看三级黄色| 精品人妻在线不人妻| 亚洲情色 制服丝袜| 日韩,欧美,国产一区二区三区| 国产免费视频播放在线视频| 叶爱在线成人免费视频播放| 热99国产精品久久久久久7| 日韩一本色道免费dvd| 另类精品久久| 又大又黄又爽视频免费| av在线老鸭窝| √禁漫天堂资源中文www| 亚洲,欧美精品.| 大片免费播放器 马上看| 成年美女黄网站色视频大全免费| 9热在线视频观看99| 国产黄频视频在线观看| 自线自在国产av| 亚洲成国产人片在线观看| 在线观看免费视频网站a站| 国产精品女同一区二区软件| 国产在线免费精品| 最近手机中文字幕大全| 1024视频免费在线观看| 如何舔出高潮| av免费在线看不卡| 热99久久久久精品小说推荐| 精品少妇久久久久久888优播| 夫妻性生交免费视频一级片| 曰老女人黄片| 观看av在线不卡| 老女人水多毛片| 国产亚洲最大av|