• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    利用詞的分布式表示改進(jìn)作文跑題檢測

    2015-04-21 10:52:02陳志鵬陳文亮朱慕華
    中文信息學(xué)報 2015年5期
    關(guān)鍵詞:詞項跑題范文

    陳志鵬,陳文亮,朱慕華

    (1. 蘇州大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006;2. 軟件新技術(shù)與產(chǎn)業(yè)化協(xié)同創(chuàng)新中心,江蘇 蘇州 215006;3. 淘寶(中國)軟件有限公司,浙江 杭州 311100)

    ?

    利用詞的分布式表示改進(jìn)作文跑題檢測

    陳志鵬1,2,陳文亮1,2,朱慕華3

    (1. 蘇州大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006;2. 軟件新技術(shù)與產(chǎn)業(yè)化協(xié)同創(chuàng)新中心,江蘇 蘇州 215006;3. 淘寶(中國)軟件有限公司,浙江 杭州 311100)

    作文跑題檢測任務(wù)的核心問題是文本相似度計算。傳統(tǒng)的文本相似度計算方法一般基于向量空間模型,即把文本表示成高維向量,再計算文本之間的相似度。這種方法只考慮文本中出現(xiàn)的詞項(詞袋模型),而沒有利用詞項的語義信息。該文提出一種新的文本相似度計算方法:基于詞擴(kuò)展的文本相似度計算方法,將詞袋模型(Bag-of-Words)方法與詞的分布式表示相結(jié)合,在詞的分布式表示向量空間中尋找與文本出現(xiàn)的詞項語義上相似的詞加入到文本表示中,實現(xiàn)文本中單詞的擴(kuò)展。然后對擴(kuò)展后的文本計算相似度。該文將這種方法運用到英文作文的跑題檢測中,構(gòu)建一套跑題檢測系統(tǒng),并在一個真實數(shù)據(jù)中進(jìn)行測試。實驗結(jié)果表明該文的跑題檢測系統(tǒng)能有效識別跑題作文,性能明顯高于基準(zhǔn)系統(tǒng)。

    文本相似度;詞分布式表示;跑題檢測;文本表示

    1 引言

    作文跑題指文章偏離了預(yù)設(shè)的主題。舉個例子,例如,現(xiàn)在有一個題目“online shopping”,很明顯是要求寫關(guān)于網(wǎng)上購物的文章。如果學(xué)生寫的文章與此無關(guān),而是寫的其他主題的文章,比如寫的是關(guān)于讀書的文章或者是關(guān)于大學(xué)生活的文章,我們就認(rèn)為該作文跑題。作文的質(zhì)量和是否跑題沒有必然聯(lián)系,有的文章雖然寫的很短很差,但是并沒有跑題。作文跑題的原因很多,可能是作者有意為之,也可能是無意間的提交錯誤。

    作文跑題檢測用于判斷一篇作文是否跑題,其核心是計算文本之間的相似度,根據(jù)相似度和跑題標(biāo)準(zhǔn)來判斷文章是否跑題[1]。文本相似度是表示兩個文本之間相似程度的一個度量參數(shù)。除了用于文章跑題檢測,在文本聚類[2]、信息檢索[3]、圖像檢索[4]、文本摘要自動生成[5]、文本復(fù)制檢測[6]等諸多領(lǐng)域,文本相似度的有效計算都是解決問題的關(guān)鍵所在。

    目前最常用的文本表示模型是向量空間模型VSM (Vector Space Model)。向量空間模型的基本思想是用向量形式來表示文本:vd=[w1,w2,w3,……,wn],其中wi是第i個特征項的權(quán)重。最典型的向量空間模型是詞袋模型(Bag-of-Words)。該方法以文本中的詞作為特征項形成向量表示,并且采用詞的TF-IDF值作為特征權(quán)重*TF-IDF是常用的特征權(quán)重計算方法。除此之外,亦可采用二元特征或者以詞頻作為權(quán)重。。詞袋模型方法簡單而且有一定效果,但是這種方法忽略了文本中詞項的語義信息,沒有考慮到詞與詞之間的語義相似度。例如,“筆記本”和“手提電腦”這兩個詞在詞袋模型中被認(rèn)為兩個獨立的特征而沒有考慮這兩個詞在語義上的相近性。

    針對傳統(tǒng)向量空間模型在文本相似度計算中存在的問題,很多研究人員進(jìn)行了研究,其中詞擴(kuò)展是最常見的一種策略?,F(xiàn)有詞擴(kuò)展方法主要采用基于詞典的方法,比如使用WordNet[7]、HowNet等詞典。文獻(xiàn)[8]提出了基于WordNet詞擴(kuò)展計算英語詞匯相似度的方法。文獻(xiàn)[9]提出了基于HowNet計算詞匯語義相似度的方法,并將其用于文本分類。這些方法嚴(yán)重依賴于人工構(gòu)造的詞典資源,在新語言和新領(lǐng)域應(yīng)用中會遇到很多問題。

    針對上述現(xiàn)有方法的不足,本文將詞袋模型與詞語的語義信息結(jié)合起來,提出一種基于詞分布式表示[10]的文本相似度計算方法。我們首先對文本中單詞進(jìn)行分布式表示,即將它們映射為向量形式,然后在分布式的詞向量空間中找出與其語義上相近的詞,并將它們加入到文本表示中,最后再計算擴(kuò)展后的文本相似度。本文將這種方法運用到英文作文的跑題檢測中,構(gòu)建了一套跑題檢測系統(tǒng),并在一個真實數(shù)據(jù)集上進(jìn)行了測試。實驗結(jié)果表明本文的跑題檢測系統(tǒng)能有效識別跑題作文,性能明顯高于基準(zhǔn)系統(tǒng)。

    本文的其余部分做如下安排:第2節(jié)對相關(guān)工作進(jìn)行介紹;第3節(jié)詳細(xì)介紹我們提出的計算文本相似度的方法。第4節(jié)介紹實驗和結(jié)果分析,第5節(jié)是結(jié)論和下一步工作介紹。

    2 相關(guān)工作

    TF-IDF方法是一種經(jīng)典的基于向量空間模型的文本相似度計算方法。它用詞的TF-IDF值來衡量其對于文本的重要程度,一個詞的重要程度與它在文章中出現(xiàn)的次數(shù)成正比,但同時也會與它在語料庫中出現(xiàn)的頻率成反比。這里包含了兩個重要的概念。

    詞頻(TermFrequency),即一個詞在文檔中出現(xiàn)的次數(shù)。一個詞在文章中出現(xiàn)的次數(shù)越多,它對這篇文章就越重要,它與文章的主題相關(guān)性也就越高。要注意的是停用詞(stopwords),像中文的“的”、“了”,英文的“a”、“the”,這些詞并不具備這種性質(zhì),它們雖然出現(xiàn)的次數(shù)比較多,但是它們不能反映文章的主題,應(yīng)該將它們過濾掉。

    逆文檔頻率(InverseDocumentFrequency),如果一個詞在文檔集合中出現(xiàn)的次數(shù)越多,說明這個詞的區(qū)分能力越低,越不能反映文章的特性;反之,如果一個詞在文檔集合中出現(xiàn)的次數(shù)越少,那么它越能夠反映文章的特性。例如,有100篇文檔,如果一個詞A只在一篇文檔中出現(xiàn),而詞B在100篇文檔中都出現(xiàn),那么,很顯然,詞A比詞B更能反映文章的特性。

    將上面兩個概念結(jié)合起來,我們可以計算一個詞項的TF-IDF值,對于一個詞項(wi):

    (1)

    其中TFIDF(wi)表示當(dāng)前詞項wi的TF-IDF值,tf(wi)表示詞項wi的詞頻,idf(wi)表示詞項wi的逆文檔頻率,詞項wi的TFIDF(wi)等于tf(wi)乘以idf(wi)。很顯然,詞頻就等于一篇文檔中該詞項出現(xiàn)的次數(shù)除以文章的總詞數(shù),而逆文檔頻率的計算公式如式(2)所示。

    (2)

    N表示的是文檔集合中文檔的總數(shù),df(wi)是包含詞項wi的文檔的總數(shù),加1是為了防止分母為0。將式(2)帶入到式(1)中,詞項TF-IDF值的計算公式為

    (3)

    根據(jù)上述公式計算出文本中每個詞項wi的TD-IDF值,然后利用這些TF-IDF值,將文檔轉(zhuǎn)化成一個向量空間模型,再利用余弦公式來計算相似度。余弦公式[11]如下:

    (4)

    其中,D1,D2表示兩個文本向量,a1k表示第一篇文章D1中單詞的TF-IDF值,a2k表示第二篇文章D2中單詞的TF-IDF值。

    TF-IDF方法是一種簡單有效的計算文本相似度的方法,但是這種方法并沒有考慮詞語背后的語義信息,忽視了詞與詞之間的相似度。人們?yōu)榱烁鼫?zhǔn)確的計算文本相似度,提出了一些基于語義的相似度計算法:文獻(xiàn)[12]和文獻(xiàn)[13]提出了基于本體的文本特征抽取和相似度計算方法。文獻(xiàn)[14]提出了基于HowNet語義詞典的文本相似度計算方法。文獻(xiàn)[15]利用WordNet語義詞典研究局部相關(guān)性信息以此來確定文本之間的相似性。這些方法利用了特定領(lǐng)域的知識庫來構(gòu)建詞語之間的語義關(guān)系,與基于統(tǒng)計學(xué)的方法相比準(zhǔn)確率有提高,但是知識庫的建立是一項復(fù)雜而繁瑣的工程,需要耗費大量人力。與上述方法不同的是,本文將詞進(jìn)行分布式向量表示,在新的分布式表示空間,自動地找出與某個詞項語義上相似的單詞,將這些詞加入到文本的表示中,然后再用傳統(tǒng)的方法對文本進(jìn)行相似度計算。

    作文跑題檢測的研究起于國外,目的是為了提高作文自動評分系統(tǒng)的性能。隨著研究的深入,許多研究者提出了檢測作文跑題的方法。文獻(xiàn)[1]提出了一種不需要特定主題訓(xùn)練數(shù)據(jù)的跑題檢測方法。文獻(xiàn)[16]利用主題描述來檢測作文跑題的方法,通過計算文章與主題描述的相似性來判斷文章是否跑題。和這些方法相比,本文的不同之處在于計算文章與范文的相似度來判斷是否跑題,計算時采用了基于詞分布式表示的詞擴(kuò)展方法,提高了檢測系統(tǒng)的性能。

    3 作文跑題檢測

    本文將詞的分布式表示和向量空間模型結(jié)合,提出一種新的作文跑題檢測方法。

    3.1 詞的分布式表示(WordDistributedRepresentation)

    自然語言處理中,將一個詞表示為向量的最簡單、最常用方式是One-hotRepresentation。這種方法把詞表中的每個詞表示為一個很長的向量,向量的維度是詞表大小,其中絕大多數(shù)元素為 0,只有一個維度的值為 1,這個維度就代表了當(dāng)前的詞。比如:“筆記本”和“手提電腦”,“筆記本”的表示為[0,0,0,1,0…0…],“手提電腦”的表示為[0,0,0,0,0,0,1,0,0…0…]。這種表示方法簡單有效,不過忽視了詞的語義信息,“筆記本”和“手提電腦”是語義上近似的詞,但這種方法表示出的向量卻無法反映這點。

    詞的分布式表示(WordDistributedRepresentation)是指將詞表中的詞映射為一個稠密的、低維的實值向量,每一維表示詞的一個潛在特征。這種方法基于深度學(xué)習(xí),可以表示出詞與詞之間的聯(lián)系。例如,“筆記本”表示成[0.231,0.678,-0.535,0.178…],“手提電腦”表示成[0.032,0.561,0.233,0.411…],向量的維數(shù)可以在訓(xùn)練前通過手工設(shè)定,是一個固定的值。雖然我們無法確切解釋每一個維度具體表示什么,但是我們可以根據(jù)單詞的向量形式找出與其語義上相近的詞。

    3.2 基于詞分布式表示的詞擴(kuò)展

    基于詞的分布式表示,本節(jié)先進(jìn)行詞擴(kuò)展,然后基于詞擴(kuò)展結(jié)果計算文檔間相似度?;谠~擴(kuò)展的文檔相似度計算具體描述如下所示。

    3.3 跑題檢測

    在本文跑題檢測任務(wù)中,對每個作文題目給定K篇文章作為范文。利用上節(jié)描述的詞擴(kuò)展得到的文本表示,計算學(xué)生作文和范文之間的相似度。本文使用余弦相似度(Cosine)來計算相似度。假設(shè)給定的K篇范文集合記為D,其中第m篇范文記為dm(1≤m≤K),學(xué)生作文dx,則相似度計算過程如下。

    首先,使用之前所述的方法計算范文與學(xué)生作文的相似度Sim(dm,dx),然后系統(tǒng)取均值作為最終相似度Sim(dx),如式(5)所示。

    (5)

    我們用最終相似度作為系統(tǒng)對文章的評分,將其與系統(tǒng)的閾值進(jìn)行對比,以此來判斷作文有沒有跑題。

    4 實驗

    本節(jié)先介紹實驗數(shù)據(jù),再介紹如何構(gòu)造標(biāo)準(zhǔn)集,以及實驗的評價方法,最后一部分是實驗的結(jié)果和分析。

    4.1 實驗數(shù)據(jù)

    本次實驗中,我們收集了10 709篇英文作文,共包括20個不同的題目,每個題目下有500篇左右的文章。這些文章都有教師對文章的總體評分,評分越高的文章寫得越好,為了便于比較,在實驗前,我們先對每個題目下的文章評分進(jìn)行歸一化處理,將文章的人工評分映射到0到1的范圍。對于每個作文題目,選擇人工評分靠前的K篇文章作為我們的范文。

    為了學(xué)習(xí)詞語的idf值和訓(xùn)練詞向量,我們另外收集了41 225篇不帶評分的英文作文。

    詞向量的訓(xùn)練方法有很多,Bengio等人提出FFNNLM模型[17](Feed-forwardNeuralNetLanguageModel)可以訓(xùn)練出詞的向量表示形式,不過FFNNLM并非是專門用來訓(xùn)練詞向量,詞向量只是訓(xùn)練模型過程中產(chǎn)生的副產(chǎn)品。Google開源了一款專門用來訓(xùn)練詞向量的工具Word2Vec[18-20],它可以根據(jù)給定的語料庫,通過訓(xùn)練后的模型將詞表示成向量形式,并能找出與某個詞語義上相近的詞。相比較FFNNLM模型,Word2Vec對訓(xùn)練模型做出了優(yōu)化,運行速度更快。我們的實驗使用Word2Vec工具*https://github.com/NLPchina/Word2VEC_java來訓(xùn)練詞向量。

    4.2 構(gòu)造標(biāo)準(zhǔn)集

    標(biāo)準(zhǔn)集里面包含的是人工判斷為跑題的文章的集合。由于文章數(shù)目較多,不可能人工檢查所有文章,因此我們借助教師評分自動構(gòu)造標(biāo)準(zhǔn)集。構(gòu)造標(biāo)準(zhǔn)集的步驟如下。

    (1) 將各個題目下的文章按照人工評分從高到低排序。評分越高說明文章寫得越好,這部分文章幾乎不會跑題;而分?jǐn)?shù)越低說明文章寫得越不好,這里面可能就有跑題的文章出現(xiàn)。

    (2) 對于每個作文題目的文章,取得分最低的十篇文章,人工閱讀每一篇文章,判斷它有沒有跑題,如果跑題則將它加入到標(biāo)準(zhǔn)集中。對于這十篇文章,如果它們?nèi)桥茴}的文章,或者絕大多數(shù)是跑題的文章,就接著往上檢查十篇文章,循環(huán)操作直到出現(xiàn)大部分的不跑題文章為止。如果這十篇文章只有少部分跑題,或者完全沒有跑題的文章,就完成該作文題目的跑題作文人工檢查工作。

    最后得到的標(biāo)準(zhǔn)集共有54篇文章。每個題目下的跑題文章數(shù)是不一樣的,有的題目比較好寫,沒有文章跑題;而有的題目比較難寫,相對而言,跑題文章較多。表1給出了不同題目下跑題文章的分布。

    從表1中我們可以看出,有13個題目下沒有跑題文章,占65%,很大的比例;另外,有三個題目下跑題文章數(shù)在1到5篇之間;跑題文章數(shù)為在6—10篇之間和11篇以上的題目數(shù)都是兩個。

    表1 跑題文章的分布

    4.3 實驗評價方法

    我們利用準(zhǔn)確率(Precision)、召回率(Recall)和F1值來評價系統(tǒng)。首先要構(gòu)造標(biāo)準(zhǔn)集和預(yù)測集兩個集合,標(biāo)準(zhǔn)集是正確答案的集合,按上述方法構(gòu)造。預(yù)測集是系統(tǒng)預(yù)測答案的集合。我們用M來表示標(biāo)準(zhǔn)集合中元素的數(shù)目,N表示預(yù)測集中元素的數(shù)目,假設(shè)預(yù)測集中有K個元素是標(biāo)準(zhǔn)集中的元素。用P來表示準(zhǔn)確率,R表示召回率,F(xiàn)表示F1值,則計算方法如下:

    (6)

    (7)

    (8)

    為了更好地分析系統(tǒng),我們計算召回率取不同

    值的時候的準(zhǔn)確率和F1值,具體就是計算出當(dāng)召回率為0.1、0.2、0.3.....1.0的時候的系統(tǒng)的準(zhǔn)確率和F1值,以此作為我們評價系統(tǒng)的依據(jù)。

    4.4 實驗結(jié)果

    本次實驗,我們共構(gòu)建了四套不同的跑題檢測系統(tǒng)。除了上述的TF-IDF方法和基于詞分布式表示的詞擴(kuò)展方法,還有另外兩種方法作為比較:Word2Vec方法和Sent2Vec方法。Word2Vec方法是進(jìn)行簡單地替代和拼接。用單詞訓(xùn)練出的詞向量來代替TF-IDF方法中的TF-IDF值,然后再將所有單詞的詞向量首尾相連,拼接成一個長的向量,最后使用余項公式來計算相似度。假設(shè)之前TF-IDF方法中的文章表示為一個1×M的向量,每一維表示一個詞的TF-IDF值,使用Word2Vec訓(xùn)練出的詞向量是N維,用詞向量代替TF-IDF值后,文章就表示為一個1×MN的向量。Sent2Vec方法是使用Sent2Vec工具*http://research.microsoft.com/en-us/downloads/731572aa-98e4-4c50-b99d-ae3f0c9562b9/,與Word2Vec不同的是它可以對句子進(jìn)行分布式向量表示,我們將一篇英文文章看作一句話,然后訓(xùn)練出一篇文章的向量表示,直接用余弦公式計算文章之間的相似度。

    圖1和圖2是選取一篇文章作為范文的實驗結(jié)果,對于詞擴(kuò)展(WordExtend)方法,每個單詞擴(kuò)展了50個詞。

    圖1 一篇范文時準(zhǔn)確率隨召回率變化的曲線

    圖2 一篇范文時F1值隨召回率變化的曲線

    圖3和圖4是選取五篇文章作為范文的實驗結(jié)果。

    圖3 五篇范文時準(zhǔn)確率隨召回率變化的曲線

    圖4 五篇范文時F1值隨召回率變化的曲線

    從實驗結(jié)果,我們可以看出:

    (1)Word2Vec方法性能略低于傳統(tǒng)的TF-IDF方法,Sent2Vec方法的性能最差,而詞擴(kuò)展方法的性能要明顯優(yōu)于其他三種方法。

    (2) 當(dāng)范文數(shù)為一的時候,我們可以看到:R=0.6的時候,TF-IDF方法的F1達(dá)到峰值,為0.455, 而詞擴(kuò)展方法的F1值為0.611;TF-IDF方法的準(zhǔn)確率只有0.363;而詞擴(kuò)展方法的準(zhǔn)確率為0.611,相比較之下,使用詞擴(kuò)展方法的系統(tǒng)的整體

    性能有明顯的提升。

    (3) 當(dāng)范文數(shù)為5的時候,TF-IDF方法的F1值最高為0.635,而詞擴(kuò)展方法的F1值的峰值為0.66,略高于TF-IDF方法。

    (4) 另外,對比范文數(shù)為1的和范文數(shù)為5的結(jié)果。我們可以發(fā)現(xiàn),范文數(shù)少的情況下,詞擴(kuò)展方法的效果比傳統(tǒng)的TF-IDF方法明顯要好很多。這是因為通過詞擴(kuò)展的方式,一篇范文所包含的語義信息更加豐富,所以系統(tǒng)的判斷也會更加準(zhǔn)確。在實際使用中這點很有用,因為實際情況下一般不會提供太多范文。

    5 結(jié)論和下一步工作介紹

    本文提出了一種基于詞分布式表示的作文跑題檢測方法。這種方法將傳統(tǒng)的TF-IDF方法和單詞語義信息相結(jié)合,尋找與文本中單詞語義上相近的詞,并將其加入到文本的表示中,實現(xiàn)了對文本的詞擴(kuò)展。在此基礎(chǔ)上,對擴(kuò)展后的文本用TF-IDF方法計算相似度。實驗結(jié)果表明這種方法要明顯優(yōu)于傳統(tǒng)的TF-IDF方法。

    在接下來的工作中,我們還會進(jìn)行更深入的研究。例如,文中的詞擴(kuò)展數(shù)目是人工選取的50個單詞,雖然效果提升明顯,但還不是最優(yōu)解,還有待于通過開發(fā)集來選取最優(yōu)值。另外,還可以改進(jìn)我們詞擴(kuò)展的方式,尋找一種更好的方式來將單詞的語義信息融入到文本相似度的計算中。

    [1]DHiggins,JBursteinAttali.Identifyingoff-topicstudentessayswithouttopic-specifictrainingdata[J],NaturalLanguageEngineering, 2006, 12(2): 145-159.

    [2]AHuang.Similaritymeasuresfortextdocumentclustering[C]//ProceedingsoftheNewZealandComputerScienceResearchStudentConference, 2008: 44-56.

    [3]KUMARN.Approximatestringmatchingalgorithm[J].InternationalJournalonComputerScienceandEngineering, 2010, 2(3): 641-644.

    [4]COELHOTAS,CALADOPP,SOUZALV, 等.Imageretrievalusingmultipleevidenceranking[J].IEEETransonKnowledgeandDataEngineering, 2004, 16(4): 408-417.

    [5]KOY,PARKJ,SEOJ.Improvingtextcategorizationusingtheimportanceofsentences[J].InformationProcessingandManagement,2004, 40(1): 65-79.

    [6]THEOBALDM,SIDDHARTHJ,SpotSigs:robustandefficientnearduplicatedetectioninlargewebcollection[C]//Proceedingsofthe31stAnnualInternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval.NewYork:ACMPress, 2008: 563-570.

    [7]MillerG.Wordnet:AnOn-lineLexicalDatabase[J].InternationalJournalofLexicography, 1990, 3(4): 235-244.

    [8] 顏 偉, 荀恩東. 基于WordNet的英語詞語相似度計算[C]//計算機(jī)語言學(xué)研討會論文集. 2004.

    [9] 朱嫣嵐, 閔錦, 周雅倩, 等. 基于HowNet的詞匯語義傾向計算[J]. 中文信息學(xué)報, 2006, 20(1):14-20.

    [10]Lee,DanielD,H.SebastianSeung.Algorithmsfornon-negativematrixfactorization[C]//ProceedingsoftheAdvanceinNeuralInformationProcessingSystem.MITPress,2001:556-562.

    [11] 張霞, 王建東, 顧?;? 一種改進(jìn)的頁面相似性度量方法[J]. 計算機(jī)工程與應(yīng)用, 2010, 46(19): 141-144.

    [12]SánchezJA,MedinaMA,StarostenkoO, 等.OrganizingOpenArchivesviaLightweightOntologtoFacilitatetheUseofHeterogeneousCollection[J].AslibProceedings, 2012, 64(1): 46-66.

    [13]VicientC,SánchezD,MorenoA.AnAutomaticApproachforOntology-BasedFeatureExtractionfromHeterogeneousDocumentalResource[J].EngineeringApplicationofArtificialIntelligence, 2013, 26: 1092-1106.

    [14]LiuQ,LiSJ.SemanticSimilarityCalculationBasedonHowNet[C]//Proceedingsofthe3rdChineseLexicalSemanticsWorkshop.Taipei,China, 2002: 59-76.

    [15]RamageD,RaffertyAN,ManningCD.Randomwalksfortextsemanticsimilarity[C]//Proceedingsofthe2009WorkshoponGraph-basedMethodsforNaturalLanguageProcessing.Suntec,Singapore, 2009: 23-31.

    [16]ALouis,DHiggins.Off-topicessaydetectionusingshortprompttexts[C]//ProceedingsoftheNAACLHLT2010FifthWorkshoponInnovativeUseofNLPforBuildingEducationalApplications,LosAngeles,California, 2010:92-95.

    [17]YBengio,RDucharme,PVincent,etal.Aneuralprobabilisticlanguagemodel[J].JournalofMachineLearningResearch, 3:1137-1155.

    [18]TomasMikolov,KaiChen,GregCorrado,etal.EfficientEstimationofWordRepresentationsinVectorSpace[C]//ProceedingsofWorkshopatICLR, 2013.

    [19]TomasMikolov,IlyaSutskever,KaiChen,etal.DistributedRepresentationsofWordsandPhrasesandtheirCompositionality[C]//ProceedingsofNIPS, 2013.

    [20] Tomas Mikolov, Wen-tau Yih, Geoffrey Zweig. Linguistic Regularities in Continuous Space Word Representations[C]//Proceedings of NAACL HLT, 2013:746-751.

    Exploiting Distributed Representation of Words for Better Off-Topic Essay Detection

    CHEN Zhipeng1,2, CHEN Wenliang1,2,ZHU Muhua3

    (1. School of Computer Science and Technology, Soochow University, Suzhou, Jiangsu 215006, China;2. Collaborative Innovation Center of Novel Software Technology and Industrialization, Suzhou, Jiangsu 215006, China;3.Taobao (China) Software Co., Ltd,Hangzhou,Zhejiang 311100, China)

    Similarity measure is the core component of off-topic essays detection. To compute the text similarity, the bag-of-words model is widely used, which represents a text as a vector with each dimension corresponds to a word. To further capture the word semantic information, this paper proposes a new method to compute text similarity: a method exploits word distributed representation. The proposed method combines the traditional bag-of-words model with the word semantic information. For each word in a text, we search for a set of similar words in a text collection, and then extend the text vector with these words. Finally we compute text similarity with the updated text. Experimental results show that our method is more effective than baseline systems.

    text similarity; word distributed representation; digress test; text representation

    陳志鵬(1991—),碩士研究生,主要研究領(lǐng)域為自然語言處理。E-mail:chenzhipeng341@163.com陳文亮(1977—),通信作者,博士,主要研究領(lǐng)域為自然語言處理。E-mail:wlchen@suda.edu.cn朱慕華(1981—),博士,主要研究領(lǐng)域為自然語言處理。E-mail:zhumuhua@gmail.com

    1003-0077(2015)05-0178-07

    2015-06-29 定稿日期: 2015-09-18

    國家自然科學(xué)基金(61203314, 61333018)

    TP391

    A

    猜你喜歡
    詞項跑題范文
    作文跑題不可怕
    范文引路 習(xí)得方法
    自然種類詞項二難、卡茨解決與二維框架
    李強(qiáng)平面設(shè)計作品
    春色幾許(簡譜)
    東方教育(2017年2期)2017-04-21 10:36:09
    高考模擬題精選之書面表達(dá)題參考范文
    我不會寫作文
    老爸說話愛“跑題”
    英語詞項搭配范圍及可預(yù)見度
    依據(jù)語篇中多層次信息的句法分析方法
    大家(2011年9期)2011-08-15 00:45:37
    亚洲一区二区三区欧美精品| 午夜激情久久久久久久| 久久青草综合色| 黄色视频在线播放观看不卡| 考比视频在线观看| 天天操日日干夜夜撸| 国产极品粉嫩免费观看在线| 色视频在线一区二区三区| 亚洲五月色婷婷综合| 日本欧美视频一区| 亚洲av第一区精品v没综合| 菩萨蛮人人尽说江南好唐韦庄| 国产精品电影一区二区三区 | 成年动漫av网址| 久久人妻福利社区极品人妻图片| 免费不卡黄色视频| 中文字幕精品免费在线观看视频| 亚洲欧美色中文字幕在线| 久久国产精品大桥未久av| 在线观看免费午夜福利视频| 国产成人精品久久二区二区免费| 涩涩av久久男人的天堂| 国产av精品麻豆| 99久久国产精品久久久| 啦啦啦中文免费视频观看日本| 日韩一区二区三区影片| 国产欧美日韩一区二区三| 欧美精品一区二区大全| av一本久久久久| 老熟妇乱子伦视频在线观看| 色在线成人网| 欧美日韩亚洲综合一区二区三区_| 亚洲av欧美aⅴ国产| 国产日韩欧美亚洲二区| av线在线观看网站| 国产亚洲精品第一综合不卡| 国产淫语在线视频| 一级,二级,三级黄色视频| 高清av免费在线| 热99国产精品久久久久久7| 亚洲美女黄片视频| 狠狠婷婷综合久久久久久88av| 99久久精品国产亚洲精品| 中文字幕高清在线视频| videos熟女内射| 黄色视频,在线免费观看| 无人区码免费观看不卡 | 99国产精品免费福利视频| 超色免费av| 国产人伦9x9x在线观看| 美女视频免费永久观看网站| 啦啦啦 在线观看视频| 亚洲熟女精品中文字幕| 丁香六月欧美| 少妇精品久久久久久久| 啪啪无遮挡十八禁网站| 国产在线精品亚洲第一网站| 动漫黄色视频在线观看| 2018国产大陆天天弄谢| 黑人巨大精品欧美一区二区mp4| 日韩欧美一区二区三区在线观看 | 满18在线观看网站| 国产精品久久电影中文字幕 | 精品国产亚洲在线| 一二三四社区在线视频社区8| 国产精品成人在线| 看免费av毛片| 丝袜在线中文字幕| 黑丝袜美女国产一区| 日本撒尿小便嘘嘘汇集6| 久久精品国产综合久久久| av天堂在线播放| 日韩视频一区二区在线观看| 久久久国产一区二区| 曰老女人黄片| 18禁国产床啪视频网站| 如日韩欧美国产精品一区二区三区| 欧美久久黑人一区二区| 麻豆乱淫一区二区| 捣出白浆h1v1| 亚洲国产av影院在线观看| 亚洲欧美一区二区三区久久| 天天影视国产精品| 超色免费av| 黄色怎么调成土黄色| 国产精品久久久久久精品古装| 国产精品二区激情视频| 一区二区av电影网| 欧美性长视频在线观看| 欧美老熟妇乱子伦牲交| 国产成人av教育| netflix在线观看网站| videos熟女内射| 日本a在线网址| www.精华液| 麻豆成人av在线观看| 国产一卡二卡三卡精品| 国产精品秋霞免费鲁丝片| 国产在视频线精品| 美女午夜性视频免费| 精品福利永久在线观看| 最近最新中文字幕大全电影3 | 亚洲国产毛片av蜜桃av| 免费高清在线观看日韩| 法律面前人人平等表现在哪些方面| 亚洲专区国产一区二区| 五月开心婷婷网| 操美女的视频在线观看| 水蜜桃什么品种好| 日本黄色日本黄色录像| 大码成人一级视频| 侵犯人妻中文字幕一二三四区| 1024香蕉在线观看| 日本wwww免费看| 美国免费a级毛片| 啦啦啦免费观看视频1| 电影成人av| 成人18禁高潮啪啪吃奶动态图| 激情视频va一区二区三区| 在线永久观看黄色视频| 国产精品av久久久久免费| 日本av免费视频播放| 99热网站在线观看| 中文亚洲av片在线观看爽 | 青草久久国产| 午夜91福利影院| 国产xxxxx性猛交| 丝袜人妻中文字幕| 精品卡一卡二卡四卡免费| 日本欧美视频一区| 免费观看a级毛片全部| 亚洲成人手机| 亚洲精品久久成人aⅴ小说| 嫁个100分男人电影在线观看| 一级毛片女人18水好多| 色在线成人网| 日本av免费视频播放| 午夜日韩欧美国产| 亚洲视频免费观看视频| 亚洲伊人久久精品综合| 麻豆成人av在线观看| 捣出白浆h1v1| 欧美日韩亚洲国产一区二区在线观看 | 亚洲精品国产色婷婷电影| 丝袜在线中文字幕| 欧美日韩亚洲综合一区二区三区_| 美女扒开内裤让男人捅视频| 日韩中文字幕欧美一区二区| 黑丝袜美女国产一区| 国产男女内射视频| 999精品在线视频| 人人妻人人澡人人爽人人夜夜| 狂野欧美激情性xxxx| 国产精品98久久久久久宅男小说| 国产成人精品在线电影| 丰满人妻熟妇乱又伦精品不卡| 亚洲精品国产区一区二| 18禁美女被吸乳视频| 成人18禁在线播放| 老熟女久久久| 欧美亚洲 丝袜 人妻 在线| 亚洲精品av麻豆狂野| 久久久国产欧美日韩av| 两性夫妻黄色片| 最近最新中文字幕大全电影3 | 一个人免费在线观看的高清视频| 亚洲精品自拍成人| 欧美黄色淫秽网站| 99精品在免费线老司机午夜| av免费在线观看网站| 欧美精品高潮呻吟av久久| 大香蕉久久网| 中文欧美无线码| av一本久久久久| 成人永久免费在线观看视频 | 亚洲精品中文字幕一二三四区 | av不卡在线播放| 精品亚洲乱码少妇综合久久| 国产精品自产拍在线观看55亚洲 | 亚洲欧美精品综合一区二区三区| 久久精品人人爽人人爽视色| 国产精品一区二区在线不卡| 免费少妇av软件| 大香蕉久久成人网| 热99国产精品久久久久久7| 国产伦理片在线播放av一区| 91麻豆av在线| 欧美亚洲 丝袜 人妻 在线| 成人精品一区二区免费| 亚洲成人国产一区在线观看| 一本—道久久a久久精品蜜桃钙片| 女同久久另类99精品国产91| 亚洲av电影在线进入| 多毛熟女@视频| 日韩一区二区三区影片| 国产免费福利视频在线观看| 美女福利国产在线| 一区福利在线观看| 亚洲伊人久久精品综合| 丝袜在线中文字幕| 国产黄色免费在线视频| 国产精品久久久久成人av| 久久中文看片网| 久久久精品国产亚洲av高清涩受| 黄网站色视频无遮挡免费观看| 国产av精品麻豆| 国产aⅴ精品一区二区三区波| 十八禁高潮呻吟视频| 亚洲精华国产精华精| 一区二区三区国产精品乱码| 欧美黑人欧美精品刺激| 午夜久久久在线观看| 纯流量卡能插随身wifi吗| 亚洲一码二码三码区别大吗| 少妇猛男粗大的猛烈进出视频| 精品国产一区二区三区四区第35| 99精品久久久久人妻精品| 美女国产高潮福利片在线看| 国产三级黄色录像| 人人澡人人妻人| 亚洲国产毛片av蜜桃av| 一区二区av电影网| 老司机靠b影院| 久久久久久久精品吃奶| 99久久99久久久精品蜜桃| 日韩欧美一区二区三区在线观看 | 黑人猛操日本美女一级片| 18禁观看日本| 免费看十八禁软件| 一区二区三区乱码不卡18| 亚洲第一青青草原| 精品欧美一区二区三区在线| 国产在线一区二区三区精| 中国美女看黄片| 久久精品国产综合久久久| 亚洲,欧美精品.| 久久久久久亚洲精品国产蜜桃av| 狠狠精品人妻久久久久久综合| 夜夜爽天天搞| 在线十欧美十亚洲十日本专区| 十八禁网站免费在线| 精品久久蜜臀av无| 国产男靠女视频免费网站| 一区二区三区精品91| 热99国产精品久久久久久7| 在线天堂中文资源库| 欧美中文综合在线视频| 十八禁高潮呻吟视频| 欧美精品一区二区免费开放| 一级黄色大片毛片| 免费女性裸体啪啪无遮挡网站| 日本av手机在线免费观看| 久久狼人影院| 18禁裸乳无遮挡动漫免费视频| 国产成人欧美| 桃红色精品国产亚洲av| av免费在线观看网站| 久久中文字幕一级| 王馨瑶露胸无遮挡在线观看| 欧美激情极品国产一区二区三区| 久久久精品94久久精品| 男女无遮挡免费网站观看| 日本wwww免费看| 国产亚洲一区二区精品| 18在线观看网站| 欧美精品啪啪一区二区三区| 极品教师在线免费播放| 色播在线永久视频| 亚洲精品国产精品久久久不卡| 国产高清videossex| 一个人免费看片子| 在线观看免费午夜福利视频| 精品国产超薄肉色丝袜足j| 亚洲国产精品一区二区三区在线| 女人爽到高潮嗷嗷叫在线视频| 亚洲精品美女久久av网站| 黄色丝袜av网址大全| 久久久国产欧美日韩av| 操美女的视频在线观看| 亚洲伊人色综图| 国产av又大| 777久久人妻少妇嫩草av网站| 国产av精品麻豆| 啦啦啦在线免费观看视频4| 久久毛片免费看一区二区三区| 成年女人毛片免费观看观看9 | h视频一区二区三区| 日本撒尿小便嘘嘘汇集6| 免费在线观看影片大全网站| 国产色视频综合| 国产精品久久久久成人av| 午夜福利免费观看在线| 一级毛片精品| 捣出白浆h1v1| 免费在线观看日本一区| 国产欧美日韩一区二区三| 自拍欧美九色日韩亚洲蝌蚪91| 丝瓜视频免费看黄片| 麻豆国产av国片精品| 侵犯人妻中文字幕一二三四区| 高清黄色对白视频在线免费看| 欧美乱码精品一区二区三区| 日韩视频一区二区在线观看| 亚洲午夜理论影院| 人人妻人人澡人人爽人人夜夜| 国产精品一区二区免费欧美| 人妻一区二区av| 国产亚洲午夜精品一区二区久久| avwww免费| 成年女人毛片免费观看观看9 | 久久亚洲精品不卡| 亚洲国产欧美在线一区| 巨乳人妻的诱惑在线观看| 免费不卡黄色视频| 新久久久久国产一级毛片| 免费在线观看黄色视频的| 亚洲精品国产区一区二| 一区在线观看完整版| 日韩一区二区三区影片| 亚洲五月婷婷丁香| 美女国产高潮福利片在线看| 欧美黄色片欧美黄色片| 99久久精品国产亚洲精品| 中文字幕高清在线视频| 免费看a级黄色片| 一本一本久久a久久精品综合妖精| 人人妻人人澡人人看| 老司机深夜福利视频在线观看| 国产午夜精品久久久久久| 亚洲情色 制服丝袜| 欧美午夜高清在线| 高清在线国产一区| 91麻豆精品激情在线观看国产 | 国产欧美日韩综合在线一区二区| 成人av一区二区三区在线看| 99精品久久久久人妻精品| 国产一区二区三区视频了| 嫁个100分男人电影在线观看| 一级a爱视频在线免费观看| 高清黄色对白视频在线免费看| 欧美人与性动交α欧美软件| 黄频高清免费视频| 岛国在线观看网站| 亚洲国产精品一区二区三区在线| 中文字幕精品免费在线观看视频| 狠狠婷婷综合久久久久久88av| 亚洲av片天天在线观看| 99精国产麻豆久久婷婷| 日韩免费高清中文字幕av| 久久国产精品大桥未久av| 国产av国产精品国产| 欧美黄色片欧美黄色片| 我的亚洲天堂| 啦啦啦 在线观看视频| xxxhd国产人妻xxx| 亚洲中文av在线| 精品少妇久久久久久888优播| 久久国产精品影院| av超薄肉色丝袜交足视频| 下体分泌物呈黄色| 电影成人av| 曰老女人黄片| 一边摸一边抽搐一进一小说 | 考比视频在线观看| 最近最新中文字幕大全电影3 | 精品人妻在线不人妻| 午夜激情久久久久久久| 精品视频人人做人人爽| 一级片'在线观看视频| 欧美av亚洲av综合av国产av| 老司机福利观看| 免费黄频网站在线观看国产| 成年女人毛片免费观看观看9 | 久久亚洲精品不卡| 亚洲欧洲精品一区二区精品久久久| 精品一区二区三卡| 欧美成人免费av一区二区三区 | 久久亚洲精品不卡| 国产精品久久电影中文字幕 | 精品人妻在线不人妻| svipshipincom国产片| 久久国产精品男人的天堂亚洲| 18禁裸乳无遮挡动漫免费视频| 少妇精品久久久久久久| 国产成人啪精品午夜网站| h视频一区二区三区| 黑人猛操日本美女一级片| 久久毛片免费看一区二区三区| 国产高清国产精品国产三级| 国产精品二区激情视频| 91精品国产国语对白视频| 亚洲精品粉嫩美女一区| 欧美日韩国产mv在线观看视频| 大陆偷拍与自拍| 香蕉久久夜色| 男女下面插进去视频免费观看| 亚洲午夜精品一区,二区,三区| 国产精品久久久久久人妻精品电影 | 一本一本久久a久久精品综合妖精| 青青草视频在线视频观看| 亚洲精品美女久久久久99蜜臀| 午夜免费鲁丝| 国产精品一区二区在线观看99| 欧美日韩国产mv在线观看视频| 香蕉丝袜av| 免费日韩欧美在线观看| 老鸭窝网址在线观看| 又紧又爽又黄一区二区| 一区在线观看完整版| 天天躁夜夜躁狠狠躁躁| 欧美黄色淫秽网站| 久久精品aⅴ一区二区三区四区| 一级毛片电影观看| 欧美黑人欧美精品刺激| 中文字幕高清在线视频| 18禁美女被吸乳视频| 成年版毛片免费区| 丝袜人妻中文字幕| 亚洲国产成人一精品久久久| 亚洲免费av在线视频| 亚洲美女黄片视频| 午夜成年电影在线免费观看| 男女床上黄色一级片免费看| 一区二区三区国产精品乱码| 久久人妻熟女aⅴ| 亚洲专区字幕在线| 中亚洲国语对白在线视频| 午夜两性在线视频| 美女主播在线视频| videos熟女内射| av网站在线播放免费| 国产av一区二区精品久久| 国产一区二区 视频在线| 精品少妇黑人巨大在线播放| 99九九在线精品视频| 男女之事视频高清在线观看| 麻豆成人av在线观看| 制服诱惑二区| 999久久久国产精品视频| 一区在线观看完整版| 一边摸一边做爽爽视频免费| 中文字幕色久视频| 大片免费播放器 马上看| 男女床上黄色一级片免费看| 男女高潮啪啪啪动态图| 免费少妇av软件| 十分钟在线观看高清视频www| 亚洲全国av大片| 日本av免费视频播放| 日韩中文字幕欧美一区二区| 丝袜人妻中文字幕| 黄色视频在线播放观看不卡| 国产av精品麻豆| 色播在线永久视频| 91成年电影在线观看| 看免费av毛片| 亚洲成av片中文字幕在线观看| 欧美精品av麻豆av| 一区二区日韩欧美中文字幕| 婷婷丁香在线五月| 十八禁高潮呻吟视频| 无人区码免费观看不卡 | 亚洲色图 男人天堂 中文字幕| 黄色视频在线播放观看不卡| 男女之事视频高清在线观看| 精品国产国语对白av| 啦啦啦 在线观看视频| 久久人人爽av亚洲精品天堂| 另类亚洲欧美激情| 大片电影免费在线观看免费| 搡老岳熟女国产| 国产97色在线日韩免费| 男女午夜视频在线观看| 人人妻人人澡人人看| 成人国产一区最新在线观看| 免费在线观看黄色视频的| 老汉色∧v一级毛片| a在线观看视频网站| 在线观看66精品国产| a级毛片在线看网站| 手机成人av网站| 亚洲七黄色美女视频| 国产精品久久久久成人av| 中文字幕另类日韩欧美亚洲嫩草| 黑人操中国人逼视频| 露出奶头的视频| 丝袜美足系列| 欧美日韩中文字幕国产精品一区二区三区 | 国产黄频视频在线观看| 在线观看66精品国产| 最近最新免费中文字幕在线| 国产精品98久久久久久宅男小说| 性色av乱码一区二区三区2| 搡老熟女国产l中国老女人| 国产在线视频一区二区| 99久久精品国产亚洲精品| 自拍欧美九色日韩亚洲蝌蚪91| 三上悠亚av全集在线观看| 欧美亚洲 丝袜 人妻 在线| 九色亚洲精品在线播放| 母亲3免费完整高清在线观看| av不卡在线播放| 中文字幕人妻丝袜制服| 亚洲专区字幕在线| 国内毛片毛片毛片毛片毛片| 久久精品国产综合久久久| 视频区欧美日本亚洲| 久久国产亚洲av麻豆专区| 久热这里只有精品99| 大码成人一级视频| 波多野结衣av一区二区av| 自拍欧美九色日韩亚洲蝌蚪91| 美女高潮喷水抽搐中文字幕| 夜夜骑夜夜射夜夜干| 在线观看免费日韩欧美大片| 在线观看人妻少妇| 黄片播放在线免费| 黄频高清免费视频| 国产一区二区三区视频了| 18禁裸乳无遮挡动漫免费视频| 精品乱码久久久久久99久播| 亚洲专区字幕在线| 中文欧美无线码| 波多野结衣av一区二区av| avwww免费| 丁香六月欧美| 一级片免费观看大全| 天天躁夜夜躁狠狠躁躁| svipshipincom国产片| 19禁男女啪啪无遮挡网站| 欧美激情久久久久久爽电影 | 手机成人av网站| 欧美日韩一级在线毛片| 日韩 欧美 亚洲 中文字幕| 脱女人内裤的视频| cao死你这个sao货| 日韩免费av在线播放| 欧美中文综合在线视频| 久久精品人人爽人人爽视色| 亚洲欧美日韩另类电影网站| 亚洲人成伊人成综合网2020| 欧美午夜高清在线| av电影中文网址| 国产色视频综合| 在线观看一区二区三区激情| av国产精品久久久久影院| 亚洲欧美一区二区三区黑人| 女人被躁到高潮嗷嗷叫费观| 午夜久久久在线观看| 十八禁网站免费在线| 女性被躁到高潮视频| 亚洲一卡2卡3卡4卡5卡精品中文| av在线播放免费不卡| 免费一级毛片在线播放高清视频 | 老熟妇仑乱视频hdxx| 国产精品久久电影中文字幕 | 久久免费观看电影| 日韩欧美国产一区二区入口| 免费av中文字幕在线| 成人亚洲精品一区在线观看| 中文亚洲av片在线观看爽 | 在线 av 中文字幕| 69精品国产乱码久久久| 日韩欧美一区视频在线观看| 黑人操中国人逼视频| 久久性视频一级片| 日韩视频在线欧美| 午夜福利视频精品| 99riav亚洲国产免费| tube8黄色片| 午夜免费鲁丝| 啪啪无遮挡十八禁网站| 午夜免费成人在线视频| 精品一区二区三区av网在线观看 | 精品久久久精品久久久| 国产av又大| 久久亚洲精品不卡| 久久精品国产综合久久久| 久久性视频一级片| 亚洲国产看品久久| 亚洲国产欧美网| 久久精品亚洲av国产电影网| 国产xxxxx性猛交| 亚洲 欧美一区二区三区| 精品福利永久在线观看| 99国产极品粉嫩在线观看| 亚洲欧洲精品一区二区精品久久久| 捣出白浆h1v1| 亚洲专区字幕在线| 大香蕉久久成人网| 亚洲国产看品久久| 少妇猛男粗大的猛烈进出视频| 51午夜福利影视在线观看| 一二三四在线观看免费中文在| 操出白浆在线播放| 亚洲成人国产一区在线观看| 老司机亚洲免费影院| 三级毛片av免费| 亚洲成人国产一区在线观看| 色婷婷久久久亚洲欧美| 一进一出抽搐动态| 久久av网站| 国产精品国产高清国产av | 又黄又粗又硬又大视频| 美女主播在线视频| 蜜桃在线观看..| 热99国产精品久久久久久7| 国产成人av教育| 日韩欧美三级三区| 下体分泌物呈黄色| 国产区一区二久久| 久久久水蜜桃国产精品网| 黑人巨大精品欧美一区二区mp4| 老司机午夜福利在线观看视频 | 高潮久久久久久久久久久不卡|