• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于種子詞匯的話題標(biāo)簽抽取研究

    2013-10-15 01:37:48寇宛秋
    中文信息學(xué)報(bào) 2013年5期
    關(guān)鍵詞:語料文檔短語

    寇宛秋,李 芳

    (上海交通大學(xué) 計(jì)算機(jī)科學(xué)與工程系,上海200240)

    1 引言

    當(dāng)今社會(huì)已經(jīng)進(jìn)入信息大爆炸的時(shí)代,信息量以幾何級(jí)別速度不斷增加。據(jù)調(diào)查顯示,《紐約時(shí)報(bào)》一周的信息量相當(dāng)于17世紀(jì)學(xué)者畢生所能接觸到的信息量的總和。伴隨著信息爆炸的是信息匱乏,海量的信息魚龍混雜,收集信息所花費(fèi)的成本已經(jīng)超過了信息本身的價(jià)值。如何獲取有價(jià)值的信息,已經(jīng)成為信息爆炸時(shí)代極為重要的議題。

    話題模型被普遍用來解決這個(gè)問題。話題通常被表示成詞項(xiàng)的概率分布,話題模型通過對(duì)文檔集進(jìn)行降維,將詞項(xiàng)空間中的文檔變換到話題空間,模擬文檔的生成過程。在話題模型中,一個(gè)話題用一組關(guān)鍵詞來表示,有些話題有一個(gè)明確的語義信息,例如,“房價(jià)”、“住房”、“土地”、“市場、“上漲”,有些話題沒有,例如,“網(wǎng)友”、“創(chuàng)意”、“得意”、“廣電總局”、“影像”。因此,在實(shí)際應(yīng)用中,需要一個(gè)標(biāo)簽來表示話題的語義信息。相對(duì)于單個(gè)詞項(xiàng),短語能夠表示較完整的語義信息,如何從話題模型中得到更具解釋性的短語描述,作為話題的標(biāo)簽是本文研究的目的。

    本文的組織結(jié)構(gòu)如下:第2節(jié)主要介紹相關(guān)工作,第3節(jié)是話題標(biāo)簽抽取方法的描述,第4節(jié)是實(shí)驗(yàn)結(jié)果和分析,第5節(jié)是結(jié)論和展望。

    2 相關(guān)工作

    話題模型應(yīng)用最廣的是LDA模型,是DAVID BLEI在2003年提出的[1]。之后很多研究者基于文檔特點(diǎn)對(duì)LDA做了很多拓展,例如,Blei在2004年提出的Hierarchical LDA[2],將話題間的結(jié)構(gòu)描述為樹;Hidden Topic Markov Model(HTMM)[2]用句子的分布來表示話題;Author Topic Model(ATM)[3]在話題模型中引入作者信息,用以處理科技文獻(xiàn)。

    話題標(biāo)簽抽取研究可以分為四種方法,第一種是調(diào)整話題模型結(jié)果的權(quán)重,例如,Weighted Latent Dirichlet Allocation(WLDA)模型[4],在 LDA模型中,每個(gè)單詞都被等同看待,而WLDA為每個(gè)單詞賦予一個(gè)不同的權(quán)重。很多特征權(quán)重被用在該模 型 中,例 如,Pointwise Mutual Information(PMI),CHI測(cè)試,信息增益等。本文方法采用了WLDA的思路,利用權(quán)重公式對(duì)LDA建模結(jié)果進(jìn)行權(quán)重調(diào)整處理。

    第二種方法是采用短語為單元描述話題,傳統(tǒng)話題模型采用單個(gè)詞語作為話題關(guān)鍵詞,而一些研究者用短語取代單個(gè)詞語。例如,Multiword-Enhanced Author Topic Model[5],該模型根據(jù)詞性標(biāo)注信息抽取符合特定短語模式的短語,然后基于這些短語和單詞構(gòu)建話題模型。本文方法采用這一思想,用短語取代單詞表示話題。

    第三種方法是在話題結(jié)果中引入語義信息,例如,POSLDA 模 型[6],該 模 型 是 LDA 模 型 和HMMLDA模型[7]的擴(kuò)展,該模型將文檔中的詞項(xiàng)分為三個(gè)類別,形容詞、動(dòng)詞和名詞,可以表示話題涉及的事物、動(dòng)作和描述信息。

    第四種方法是對(duì)LDA生成的話題結(jié)果進(jìn)行組合處理,例如,Turbo Topic[8],該方法基于 LDA 的結(jié)果抽取可能的短語。算法步驟如下:

    (1)對(duì)文檔進(jìn)行LDA建模,得到文檔-話題分布,詞項(xiàng)-話題分布和每個(gè)單詞所屬話題的詞對(duì):

    (2)對(duì)每一個(gè)單詞,判斷該單詞周圍的單詞是否和該單詞屬于同樣的話題,如果屬于,則這兩個(gè)單詞可能組成一個(gè)短語,再根據(jù)似然估計(jì),判斷它們是否可以組成短語,如果可以,則加入到短語集合中;

    (3)重復(fù)步驟(2),直到找不出新的短語。

    本文綜合了以上幾種方法,引入了特征權(quán)重、詞性分析、短語表示等因素,產(chǎn)生話題的標(biāo)簽,有效提高了話題模型結(jié)果的可解釋性。

    3 方法介紹

    話題標(biāo)簽信息是話題內(nèi)容的概括與總結(jié),能夠綜合地反映話題內(nèi)容,增強(qiáng)話題的可解釋性。表1展示了LDA建模生成的話題信息和采用本文方法抽取的話題標(biāo)簽信息。

    表1 話題信息與對(duì)應(yīng)的話題標(biāo)簽

    表2為本文使用到的主要符號(hào)和定義。

    表2 話題標(biāo)簽抽取研究涉及的符號(hào)

    話題標(biāo)簽抽取方法主要包括四個(gè)步驟:話題建模,種子詞抽取,關(guān)鍵短語抽取和話題標(biāo)簽選擇。話題建模是利用LDA模型對(duì)輸入的文本集合進(jìn)行建模,種子詞抽取是對(duì)LDA話題結(jié)果進(jìn)行重排序,選擇權(quán)重最大的前三個(gè)詞作為種子詞,關(guān)鍵短語生成是根據(jù)種子詞和其他詞匯出現(xiàn)次數(shù)等信息生成短語,話題標(biāo)簽選擇是從這些短語中選擇最終話題標(biāo)簽。

    3.1 種子詞抽取

    根據(jù)文獻(xiàn)[9]提出的LDA結(jié)果重排序方法,根據(jù)下面公式對(duì)LDA結(jié)果,調(diào)整話題詞項(xiàng)的權(quán)重,進(jìn)行重排序。

    TF-IDF被廣泛用于評(píng)估詞項(xiàng)在文檔中的重要性。詞項(xiàng)在文檔中出現(xiàn)的次數(shù)越多,包含該詞項(xiàng)的文檔數(shù)目越少,就越重要。wi在話題zj中的重要性權(quán)重計(jì)算如式(1)所示。

    (b)話題覆蓋度

    用于計(jì)算一個(gè)話題在文檔集合上的覆蓋程度,覆蓋度高的話題中詞項(xiàng)的權(quán)重更大。話題覆蓋度用一個(gè)話題在所有文檔中的概率之和除以總文檔數(shù)來表示(如式(2)所示)。

    (c)PMI

    PMI統(tǒng)計(jì)概率分布中兩個(gè)變量的相關(guān)性,公式如式(3)所示。

    詞匯wi與同一話題(top-10)中其他9個(gè)詞匯越相關(guān),則該詞匯的權(quán)重越高,某一詞匯的關(guān)聯(lián)度計(jì)算用PMI的平均值。

    因此,結(jié)合 TF-IDF,覆蓋度以及和PMI,權(quán)重計(jì)算公式如式(4)所示。

    根據(jù)式(4),對(duì)每個(gè)話題前十個(gè)單詞進(jìn)行權(quán)重重排序,選出前三個(gè)單詞作為關(guān)鍵短語抽取的種子詞。

    3.2 關(guān)鍵短語集合生成

    初始關(guān)鍵短語集合等于種子詞集合,運(yùn)用bootstrapping算法迭代生成短語,當(dāng)短語的權(quán)重大于閾值,則加入到關(guān)鍵短語集合中。用Wseed表示種子詞集合,用P表示關(guān)鍵短語集合(初始階段等于Wseed),用 WLDA表示LDA話題前十個(gè)詞。短語(p1,p2)同時(shí)滿足下述條件,則為關(guān)鍵短語:

    (1)p1,p2是屬于P∪WLDA中的任意短語或單詞

    (2)p1,p2中至少有一個(gè)屬于P

    (3)(p1,p2)的權(quán)重大于閾值

    算法1描述了關(guān)鍵短語生成的過程。

    算法1 話題關(guān)鍵短語生成算法

    3.3 話題標(biāo)簽選擇

    在抽取出關(guān)鍵短語后,需要從關(guān)鍵短語集合中最終選出解釋性強(qiáng)的短語作為話題標(biāo)簽。本文提出兩種標(biāo)準(zhǔn)選擇話題標(biāo)簽:短語的完整性和泛化度。

    3.3.1 短語完整性標(biāo)準(zhǔn)

    湖州市推動(dòng)綠色礦業(yè)發(fā)展的實(shí)踐與展望(龔西征) ........................................................................................9-13

    根據(jù)實(shí)驗(yàn)結(jié)果,有些權(quán)重最高的關(guān)鍵短語缺乏關(guān)鍵信息,例如,關(guān)鍵短語“卡恩涉嫌”、“同比增長”、“中方支持”。這些短語在語義上并不完整,“卡恩涉嫌”缺少賓語,“同比增長”缺少主語,“中方支持”缺少賓語。大部分不完整的短語均是動(dòng)詞性短語。因此,短語完整性規(guī)則如下:如果關(guān)鍵短語集合中權(quán)重最高的短語是動(dòng)詞詞組,而且缺少主語或賓語,則按照完整性規(guī)則,在關(guān)鍵短語集合中重新選擇。

    判斷以及選擇方法如下:

    假設(shè)關(guān)鍵短語集合P中權(quán)重最高的短語為pmax,那么有以下兩種情況。

    (1)如果該短語第一個(gè)詞為動(dòng)詞,或者第一個(gè)動(dòng)詞前沒有名詞,則判定短語pmax缺乏主語;

    (2)如果該短語最后一個(gè)詞為動(dòng)詞或者最后一個(gè)動(dòng)詞后面沒有名詞,則判定pmax缺乏賓語。

    對(duì)于判定缺乏主語或賓語的短語pmax,在關(guān)鍵短語集合P中,按權(quán)重從高到低的順序搜索滿足如下條件的短語p,作為最后的標(biāo)簽:

    (1)p包含短語pmax;

    (2)p中含有主語(動(dòng)詞前的名詞)或賓語(動(dòng)詞后的名詞)。

    實(shí)驗(yàn)發(fā)現(xiàn)了另一種現(xiàn)象,即權(quán)重最高的關(guān)鍵短語只是描述話題特定的方面,例如,“治理北京大氣污染”,而其他的關(guān)鍵短語為“大氣污染”“大氣污染防治”,更好的描述短語是“大氣污染”。這類短語一般是名詞性短語,為了解決這種問題,本文引入概念泛化規(guī)則:關(guān)鍵短語集合中權(quán)重最高的短語,如果是名詞短語,則根據(jù)該集合中其他詞匯進(jìn)行泛化,選擇關(guān)鍵短語最大的公共子串作為該話題的標(biāo)簽。

    具體步驟如下:

    計(jì)算關(guān)鍵短語集合P中短語p的泛化度。

    (a)對(duì)于同時(shí)滿足條件i和條件ii的短語p,按照式(5)計(jì)算泛化度

    i.短語p屬于P中權(quán)重最高的三個(gè)短語或者權(quán)重前三的短語包含p;

    ii.P中至少存在兩個(gè)包含p的短語

    (b)對(duì)于不滿足(a)中條件的短語p,按照式(6)計(jì)算泛化度。話題標(biāo)簽根據(jù)如下規(guī)則得出:

    4 實(shí)驗(yàn)結(jié)果分析

    4.1 實(shí)驗(yàn)語料

    實(shí)驗(yàn)共選取了兩個(gè)語料集進(jìn)行測(cè)試:2013年兩會(huì)新聞數(shù)據(jù)集和在2009至2013年發(fā)生的新聞事件集合。先預(yù)處理,分詞并抽取名詞動(dòng)詞形容詞,去掉單個(gè)字以及高頻低頻詞,然后用LDA對(duì)其進(jìn)行建模。實(shí)驗(yàn)設(shè)置參數(shù)α==0.01,其中K為話題數(shù)目。我們采取了一套自適應(yīng)的話題數(shù)目計(jì)算方法,根據(jù)新聞文本數(shù)目以及信息量隨時(shí)間的變化趨勢(shì)確定話題數(shù)目[9]。表3是不同事件對(duì)應(yīng)的新聞數(shù)目、詞匯數(shù)目、話題數(shù)目等信息,按照話題數(shù)目從小到大的順序展示。

    4.2 實(shí)驗(yàn)結(jié)果展示

    話題標(biāo)簽抽取方法對(duì)新聞?wù)Z料進(jìn)行處理,主要包括三個(gè)步驟:種子詞抽??;關(guān)鍵短語集合生成;話題標(biāo)簽選擇。表4和表5分別展示了事件語料話題標(biāo)簽抽取實(shí)驗(yàn)和兩會(huì)語料話題標(biāo)簽抽取實(shí)驗(yàn)各步驟的結(jié)果。

    實(shí)驗(yàn)結(jié)果顯示,種子詞抽取方法能夠有效去除話題背景詞,抽取相關(guān)的重要詞匯。例如,臺(tái)灣領(lǐng)導(dǎo)人選舉話題2,話題關(guān)鍵詞中有很多背景詞,例如,“臺(tái)灣”“馬英九”等,根據(jù)3.1節(jié)提出的權(quán)重公式計(jì)算后,降低了背景詞的權(quán)重,提高了“兩岸關(guān)系”等詞匯的權(quán)重,更能反映話題的語義信息。

    表3 實(shí)驗(yàn)語料說明

    表4 事件語料話題標(biāo)簽抽取結(jié)果

    表5 兩會(huì)語料話題標(biāo)簽抽取結(jié)果

    關(guān)鍵短語生成步驟可以產(chǎn)生有效的話題關(guān)鍵短語,例如臺(tái)灣領(lǐng)導(dǎo)人選舉事件中能夠生成和事件有關(guān)的“臺(tái)灣領(lǐng)導(dǎo)人選舉”、“臺(tái)灣領(lǐng)導(dǎo)人”等短語;2011年春節(jié)事件中能夠生成“回家過年”、“燃放煙花”等短語;兩會(huì)事件話題58中能夠生成和文化領(lǐng)域相關(guān)的“傳統(tǒng)文化”、“文化遺產(chǎn)”等。

    根據(jù)完整性和泛化規(guī)則選擇的標(biāo)簽可以給出話題特定的語言信息,例如,2011春節(jié)話題4,“接待游客同比增長”而不是缺乏主語的“同比增長”。另一方面,臺(tái)灣領(lǐng)導(dǎo)人話題2“兩岸關(guān)系”作為標(biāo)簽,“兩岸關(guān)系”的泛化程度比“兩岸和平”高;例如,兩會(huì)話題30,話題標(biāo)簽“經(jīng)濟(jì)轉(zhuǎn)型”更能概括話題關(guān)鍵短語的信息。

    4.3 話題標(biāo)簽實(shí)驗(yàn)評(píng)測(cè)

    4.3.1 精度評(píng)測(cè)

    人工評(píng)測(cè)話題的標(biāo)簽是否符合話題的語義。評(píng)測(cè)需要的數(shù)據(jù)是話題標(biāo)簽以及該話題所占權(quán)重最大的文檔標(biāo)題。評(píng)測(cè)者根據(jù)新聞?lì)}目人工總結(jié)出關(guān)鍵短語,并和自動(dòng)抽取的話題標(biāo)簽進(jìn)行比較,語義相關(guān)的判定話題標(biāo)簽正確,評(píng)分為1,部分相關(guān)的評(píng)分0.5,不相關(guān)的為0。例如,人工總結(jié)的短語是“兩岸和平”,計(jì)算機(jī)抽取的是“兩岸關(guān)系”,則該標(biāo)簽的精度為0.5;例如,人工總結(jié)的短語是“救援情況”,計(jì)算機(jī)抽取的標(biāo)簽是“登陸美國”,則該標(biāo)簽的精度是0。

    本文實(shí)驗(yàn)中有兩位評(píng)測(cè)者對(duì)全部語料進(jìn)行評(píng)測(cè)。計(jì)算出的精度如表6所示。結(jié)果顯示,話題標(biāo)簽抽取方法在兩會(huì)語料的精度可以達(dá)到39.5%,在事件語料上的精度可以達(dá)到27.9%。

    表6 實(shí)驗(yàn)評(píng)測(cè)結(jié)果

    根據(jù)實(shí)驗(yàn)評(píng)測(cè)結(jié)果,可以得到如下結(jié)論。

    (a)話題標(biāo)簽抽取方法能較好的總結(jié)話題內(nèi)容,所抽取的標(biāo)簽短語由話題關(guān)鍵詞組成,能夠表示特定的語義信息。

    (b)兩會(huì)語料的精度要高于事件語料,主要因?yàn)閮蓵?huì)語料討論的是話題,有一些固定的主題,例如,“國防軍事”“教育”“住房問題”等,兩會(huì)語料中抽取的話題標(biāo)簽往往由名詞性短語組成。而事件的話題信息比較特定,包括與事件有關(guān)的信息,事件語料中抽取的話題標(biāo)簽有很多包含動(dòng)詞短語,反映事件特定的信息。

    線索標(biāo)簽抽取方法存在不足,最主要是精度較低,這是因?yàn)楸疚奶岢龅年P(guān)鍵短語作為話題標(biāo)簽,短語更能反映話題的語義信息,但人工評(píng)測(cè)時(shí),短語比詞匯更容易錯(cuò)誤。另一方面,不同人對(duì)同一類文檔總結(jié)的標(biāo)簽也不相同,很難得出一個(gè)正確的答案。表7展示了部分錯(cuò)誤的話題標(biāo)簽。

    表7 錯(cuò)誤結(jié)果分析

    從錯(cuò)誤結(jié)果可以看出(表7),錯(cuò)誤原因包括以下幾個(gè)方面。

    (1)部分LDA話題結(jié)果語義不明確,例如,兩會(huì)話題20,話題關(guān)鍵詞為“旅游”、“新華網(wǎng)”、“全國”、“江蘇”、“建設(shè)”、“市長”、“人大代表”、“老百姓”、“記者”、“游客”,并不具有明顯的語義信息。生成的關(guān)鍵短語只有“新華網(wǎng)記者”。

    (2)對(duì)動(dòng)詞詞組的處理不完善,例如,事件“2011年春節(jié)”話題3,關(guān)鍵短語為“回家過年”、“拜年方式”、“過年回家”,方法判定“回家過年”缺乏賓語,判定錯(cuò)誤。方法在判斷包含動(dòng)詞的短語和動(dòng)詞性短語的關(guān)系上有所欠缺。

    (3)部分短語泛化性偏高或偏低。例如,事件“馬云卸任CEO”,抽取的標(biāo)簽為“阿里巴巴集團(tuán)”,過于概括,不能表示具體的話題信息。例如兩會(huì)事件話題29抽取的標(biāo)簽為“山西生產(chǎn)”,過于具體。方法在選擇適中的泛化度上有待提升。

    4.3.2 對(duì)比實(shí)驗(yàn)

    本文方法同文獻(xiàn)[9]中提出的方法進(jìn)行了比較,均根據(jù)LDA話題結(jié)果生成話題標(biāo)簽短語,如表8所示。

    實(shí)驗(yàn)結(jié)果可以看出,本文的方法得到的短語能夠表示特定的語義信息,例如兩會(huì)話題33,文獻(xiàn)[9]標(biāo)簽為“收入”,而本文選擇了“社區(qū)養(yǎng)老服務(wù)”,語義上更為完整;例如,臺(tái)灣領(lǐng)導(dǎo)人選舉話題2,本文標(biāo)簽為“兩岸關(guān)系”比文獻(xiàn)[9]“兩岸和平”更泛化和確切。本文方法部分實(shí)驗(yàn)結(jié)果不如文獻(xiàn)[9]中方法,例如,臺(tái)灣領(lǐng)導(dǎo)人選舉話題0,本文標(biāo)簽“臺(tái)灣地區(qū)”泛化度偏高,不如文獻(xiàn)[9]“臺(tái)灣地區(qū)領(lǐng)導(dǎo)人選舉”。

    表8 對(duì)比實(shí)驗(yàn)結(jié)果

    根據(jù)同樣的標(biāo)準(zhǔn)答案,表9是兩種方法精度的對(duì)比結(jié)果。可以看出本文方法的精度要高于文獻(xiàn)[9],在兩會(huì)語料中提高精度12%,在事件語料上提高精度4%。說明短語的完整性以及泛化度考慮方法的合理性。

    表9 對(duì)比評(píng)測(cè)結(jié)果

    5 結(jié)論和展望

    本文提出了一種基于種子詞的話題標(biāo)簽抽取方法。方法首先根據(jù)提出的權(quán)重計(jì)算公式抽取每個(gè)話題的種子詞,然后,采用bootstrapping思想,迭代產(chǎn)生包含種子詞匯的關(guān)鍵短語集合,最后根據(jù)短語的完整性和泛化度選擇話題標(biāo)簽。

    本文對(duì)新聞事件語料和兩會(huì)報(bào)告語料進(jìn)行了實(shí)驗(yàn),結(jié)果表明本文方法能夠有效地抽取出話題標(biāo)簽,相對(duì)于文獻(xiàn)[9]中的方法,本文抽取的短語完整性和概括性更高。本文主要的貢獻(xiàn)是:將種子詞抽取與bootstrapping方法引入到話題標(biāo)簽抽取的研究中;利用詞性標(biāo)注與短語結(jié)構(gòu)信息抽取話題標(biāo)簽;根據(jù)短語的完整性和泛化原則,抽取表達(dá)力更強(qiáng)的標(biāo)簽短語。

    本文的方法還存在很多不足之處,后續(xù)工作包括以下三個(gè)方面:研究題目信息與話題之間的關(guān)系;使用更有效的LDA結(jié)果重排序公式;將話題標(biāo)簽抽取工作融合進(jìn)話題模型中,以短語為基本詞匯單元,同時(shí)引入詞性標(biāo)注信息等信息。

    [1]Blei David,Ng Andrew,Jordan Michael.Latent Dirichlet Allocation[J].The Journal of Machine Learning Research,2003,3:993-1022.

    [2]徐戈,王厚峰.自然語言處理中主題模型的發(fā)展,計(jì)算機(jī)學(xué)報(bào)[J],2011,34(8):1423-1436.

    [3]Rosen-Zvi M,Griffiths T,Steyvers M,et al.The author-topic model for authors and documents[C]//Proceedings of the 20th conference on uncertainty in artificial intelligence.AUAI Press,2004:487-494.

    [4]Ruifeng XU,Lu YE.Reader's Emotion Prediction Based on Weighted Latent Dirichlet Allocation and Multi-label k-nearest Neighbor Model[J].Journal of Computational Information System,2013,9:6.

    [5]Johri N,Roth D,Tu Y.Experts'retrieval with multiword-enhanced author topic model.Proceedings of the NAACL HLT 2010workshop on semantic search[C]//Proceedings of Association for Computational Linguistics,2010:10-18.

    [6]William Darling,F(xiàn)ei Song.Probabilistic Topic and Syntax Modeling with Part-of-Speech LDA[C]//Proceedings of Association for Computational Linguistics.2005.

    [7]Griffiths T L,Steyvers M,Blei D M,et al.Integrating topics and syntax[J].Advances in neural information processing systems,2005,17:537-544.

    [8]Allison J.B.Chaney,David M.Blei.Visualizing Topic Models[C]//Proceedings of Association for the Advancement of Artificial Intelligence.2012.

    [9]閆澤華.基于LDA的新聞線索抽取研究[D].上海交通大學(xué)碩士論文,2012.

    [10]Teh Y W,Jordan M I,Beal M J,et al.Hierarchical dirichlet processes[J].Journal of the American Statistical Association,2006,101(476).

    [11]Blei D M,Lafferty J D.Visualizing topics with multiword expressions[J].arXiv preprint arXiv:0907.1013,2009.

    [12]Wallach H M.Topic modeling:beyond bag-of-words[C]//Proceedings of the 23rd international conference on Machine learning.ACM,2006:977-984.

    [13]Wang X,McCallum A,Wei X.Topical n-grams:Phrase and topic discovery,with an application to information retrieval[C]//Proceedings of Data Mining.ICDM 2007.Seventh IEEE International Conference on.IEEE,2007:697-702.

    [14]Nallapati R,F(xiàn)eng A,Peng F,et al.Event threading within news topics[C]//Proceedings of the thirteenth ACM international conference on Information and knowledge management.ACM,2004:446-453.

    [15]Lau J H,Newman D,Karimi S,et al.Best topic word selection for topic labelling[C]//Proceedings of the 23rd International Conference on Computational Linguistics:Posters.Association for Computational Linguistics,2010:605-613.

    [16]Carmel D,Roitman H,Zwerdling N.Enhancing cluster labeling using wikipedia[C]//Proceedings of the 32nd international ACM SIGIR conference on Research and development in information retrieval.ACM,2009:139-146.

    [17]Song Y,Pan S,Liu S,et al.Topic and keyword reranking for LDA-based topic modeling[C]//Proceedings of the 18th ACM conference on Information and knowledge management.ACM,2009:1757-1760.

    猜你喜歡
    語料文檔短語
    有人一聲不吭向你扔了個(gè)文檔
    基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
    基于RI碼計(jì)算的Word復(fù)制文檔鑒別
    Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
    華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
    《苗防備覽》中的湘西語料
    國內(nèi)外語用學(xué)實(shí)證研究比較:語料類型與收集方法
    不讓他人隨意下載Google文檔
    電腦迷(2012年4期)2012-04-29 06:12:13
    成人特级黄色片久久久久久久| 毛片女人毛片| 狂野欧美白嫩少妇大欣赏| 国产精品久久电影中文字幕| 一本精品99久久精品77| 色综合色国产| av国产免费在线观看| 综合色av麻豆| 亚洲欧美清纯卡通| 又爽又黄a免费视频| 欧美变态另类bdsm刘玥| 高清在线视频一区二区三区 | 日本爱情动作片www.在线观看| 给我免费播放毛片高清在线观看| 99久久人妻综合| 熟妇人妻久久中文字幕3abv| 日本与韩国留学比较| 亚洲国产欧美人成| 欧美xxxx性猛交bbbb| 久久久精品大字幕| 成人毛片60女人毛片免费| 菩萨蛮人人尽说江南好唐韦庄 | 男女视频在线观看网站免费| 91精品国产九色| 国产精品不卡视频一区二区| 99久久久亚洲精品蜜臀av| 亚洲av男天堂| 亚洲最大成人手机在线| 国产大屁股一区二区在线视频| 国产精品国产高清国产av| 免费看a级黄色片| 国产一区二区亚洲精品在线观看| 51国产日韩欧美| 啦啦啦观看免费观看视频高清| 国产亚洲精品久久久久久毛片| 少妇丰满av| 国产精品女同一区二区软件| 少妇熟女欧美另类| 国产伦在线观看视频一区| 成人毛片a级毛片在线播放| 国产精品国产三级国产av玫瑰| 毛片一级片免费看久久久久| 九九爱精品视频在线观看| 不卡视频在线观看欧美| 欧美日韩在线观看h| 亚洲最大成人av| 国产精品美女特级片免费视频播放器| 亚洲人成网站在线观看播放| 全区人妻精品视频| 天堂√8在线中文| 久久久久网色| 赤兔流量卡办理| 亚洲精品亚洲一区二区| 成人漫画全彩无遮挡| 少妇熟女欧美另类| 黄色配什么色好看| www.色视频.com| 精品久久久久久久末码| 日本一本二区三区精品| 你懂的网址亚洲精品在线观看 | 亚洲精品久久国产高清桃花| 一卡2卡三卡四卡精品乱码亚洲| 亚洲性久久影院| 国产av在哪里看| 99九九线精品视频在线观看视频| a级毛色黄片| 色5月婷婷丁香| 日本五十路高清| 亚洲精品国产成人久久av| 少妇人妻精品综合一区二区 | 在线免费观看的www视频| 中国美女看黄片| 国内久久婷婷六月综合欲色啪| 看十八女毛片水多多多| 免费不卡的大黄色大毛片视频在线观看 | 日韩在线高清观看一区二区三区| 午夜免费男女啪啪视频观看| 中文字幕久久专区| 一本精品99久久精品77| 中文字幕av在线有码专区| 免费无遮挡裸体视频| 男女啪啪激烈高潮av片| 天堂√8在线中文| 在线免费十八禁| 欧美xxxx黑人xx丫x性爽| 国产单亲对白刺激| 成人美女网站在线观看视频| 三级毛片av免费| 亚洲欧美成人精品一区二区| 日韩一区二区视频免费看| 精品国内亚洲2022精品成人| 欧美不卡视频在线免费观看| 国产乱人视频| av免费在线看不卡| 嫩草影院精品99| 美女cb高潮喷水在线观看| 免费看日本二区| 久久这里有精品视频免费| 欧美最新免费一区二区三区| 日韩精品有码人妻一区| 校园人妻丝袜中文字幕| 99久国产av精品国产电影| 成人二区视频| 欧洲精品卡2卡3卡4卡5卡区| kizo精华| 日本黄大片高清| www.色视频.com| 18禁在线无遮挡免费观看视频| 日本五十路高清| 中文字幕av在线有码专区| 你懂的网址亚洲精品在线观看 | 成人欧美大片| 人人妻人人澡人人爽人人夜夜 | 18禁在线播放成人免费| 禁无遮挡网站| 国产精品伦人一区二区| 99热精品在线国产| 国产午夜精品论理片| 国产av在哪里看| 日本爱情动作片www.在线观看| 欧美极品一区二区三区四区| 国产精品.久久久| 国产伦精品一区二区三区视频9| 卡戴珊不雅视频在线播放| 国产久久久一区二区三区| 国产精品一区二区在线观看99 | 国产熟女欧美一区二区| 国产成人福利小说| 晚上一个人看的免费电影| 大香蕉久久网| 久久久久久久久大av| 国产片特级美女逼逼视频| 麻豆一二三区av精品| av天堂在线播放| 国产黄色小视频在线观看| 午夜福利成人在线免费观看| 欧美区成人在线视频| 国产成人福利小说| 国产69精品久久久久777片| 老熟妇乱子伦视频在线观看| av免费在线看不卡| 欧美xxxx性猛交bbbb| 熟妇人妻久久中文字幕3abv| 国产蜜桃级精品一区二区三区| 日韩亚洲欧美综合| 欧美激情国产日韩精品一区| 热99在线观看视频| 精品欧美国产一区二区三| 少妇熟女aⅴ在线视频| 日日啪夜夜撸| 日韩av在线大香蕉| 又黄又爽又刺激的免费视频.| 欧美精品一区二区大全| 狠狠狠狠99中文字幕| 亚洲第一电影网av| 亚洲激情五月婷婷啪啪| 日韩av在线大香蕉| 看黄色毛片网站| 美女大奶头视频| 六月丁香七月| 久久久久久久久中文| www日本黄色视频网| 成人无遮挡网站| 免费观看精品视频网站| 久久国产乱子免费精品| 国产精品嫩草影院av在线观看| 小蜜桃在线观看免费完整版高清| 国产一区二区在线观看日韩| 亚洲av免费高清在线观看| 亚洲国产日韩欧美精品在线观看| 国产午夜精品久久久久久一区二区三区| 99国产精品一区二区蜜桃av| 老女人水多毛片| 91久久精品电影网| 国产黄色小视频在线观看| 中文在线观看免费www的网站| 大型黄色视频在线免费观看| 欧美日韩乱码在线| 国产色爽女视频免费观看| 男女啪啪激烈高潮av片| 性色avwww在线观看| 久久这里有精品视频免费| 18禁黄网站禁片免费观看直播| 成人无遮挡网站| 看黄色毛片网站| 精品国产三级普通话版| 国产精品美女特级片免费视频播放器| 婷婷精品国产亚洲av| 精品久久久久久久久av| 亚洲精品乱码久久久v下载方式| 日韩欧美 国产精品| 91久久精品国产一区二区三区| 亚洲精品456在线播放app| 人体艺术视频欧美日本| 超碰av人人做人人爽久久| 国产精品永久免费网站| 日产精品乱码卡一卡2卡三| 卡戴珊不雅视频在线播放| 欧美最黄视频在线播放免费| 日韩欧美精品v在线| videossex国产| 亚洲人成网站在线观看播放| 热99在线观看视频| 女人被狂操c到高潮| 美女脱内裤让男人舔精品视频 | 亚洲人成网站高清观看| 婷婷色综合大香蕉| 51国产日韩欧美| 亚洲经典国产精华液单| 免费观看人在逋| 十八禁国产超污无遮挡网站| 99国产极品粉嫩在线观看| 亚洲五月天丁香| 精品国内亚洲2022精品成人| 中文字幕精品亚洲无线码一区| www.av在线官网国产| 精品久久国产蜜桃| 亚洲精品乱码久久久v下载方式| 国产乱人视频| 午夜福利在线观看吧| 国产av麻豆久久久久久久| eeuss影院久久| 国产片特级美女逼逼视频| 黄色配什么色好看| 亚洲精品粉嫩美女一区| 日韩欧美国产在线观看| 少妇丰满av| 久久精品夜色国产| 免费观看在线日韩| 99国产精品一区二区蜜桃av| 亚洲av中文字字幕乱码综合| 精品一区二区免费观看| 99久国产av精品| ponron亚洲| videossex国产| 欧美日韩国产亚洲二区| 又粗又爽又猛毛片免费看| 91av网一区二区| 免费在线观看成人毛片| 国产精华一区二区三区| 免费在线观看成人毛片| 91精品一卡2卡3卡4卡| 黄色一级大片看看| 天堂影院成人在线观看| 成人高潮视频无遮挡免费网站| 国产三级中文精品| 中国国产av一级| a级毛色黄片| 成人一区二区视频在线观看| 久久6这里有精品| 亚洲精品国产av成人精品| 国产单亲对白刺激| 欧美一级a爱片免费观看看| 久久精品国产自在天天线| 亚洲人成网站在线观看播放| 寂寞人妻少妇视频99o| 少妇的逼好多水| 简卡轻食公司| 欧美激情久久久久久爽电影| 爱豆传媒免费全集在线观看| 日本撒尿小便嘘嘘汇集6| 欧美最新免费一区二区三区| 欧美性猛交黑人性爽| 午夜精品国产一区二区电影 | 亚洲电影在线观看av| or卡值多少钱| 一本精品99久久精品77| 最好的美女福利视频网| 午夜免费激情av| 中文资源天堂在线| 高清日韩中文字幕在线| 一级黄片播放器| .国产精品久久| 亚洲精品粉嫩美女一区| 只有这里有精品99| 欧美激情久久久久久爽电影| 99国产极品粉嫩在线观看| 亚洲av第一区精品v没综合| 嘟嘟电影网在线观看| 黄色配什么色好看| 亚洲欧美成人综合另类久久久 | 欧美日韩乱码在线| 成年av动漫网址| 久久精品91蜜桃| 国产一区二区激情短视频| 99热6这里只有精品| 欧美日韩国产亚洲二区| 男女下面进入的视频免费午夜| 亚洲高清免费不卡视频| 日韩一区二区视频免费看| 深夜a级毛片| 日本免费a在线| 久久人人爽人人片av| 乱码一卡2卡4卡精品| 国产白丝娇喘喷水9色精品| 国产精品久久久久久亚洲av鲁大| 久久人人爽人人爽人人片va| 熟女人妻精品中文字幕| 久久草成人影院| 真实男女啪啪啪动态图| 亚洲精华国产精华液的使用体验 | 日韩精品有码人妻一区| 91aial.com中文字幕在线观看| 校园人妻丝袜中文字幕| 美女 人体艺术 gogo| 91精品一卡2卡3卡4卡| 久久国产乱子免费精品| 性色avwww在线观看| 国产精品野战在线观看| 日本与韩国留学比较| 日韩高清综合在线| 免费一级毛片在线播放高清视频| 久久久久久久久大av| 中文字幕制服av| 日本五十路高清| 国产成人aa在线观看| 小说图片视频综合网站| av卡一久久| 一个人看视频在线观看www免费| 亚洲欧洲日产国产| 麻豆一二三区av精品| 久久精品影院6| 麻豆av噜噜一区二区三区| 国产毛片a区久久久久| 在线观看美女被高潮喷水网站| 亚洲国产精品国产精品| 日本五十路高清| 最近2019中文字幕mv第一页| 1000部很黄的大片| 精品欧美国产一区二区三| 高清午夜精品一区二区三区 | 美女脱内裤让男人舔精品视频 | 一个人看视频在线观看www免费| 中文字幕熟女人妻在线| 在线国产一区二区在线| 激情 狠狠 欧美| 国产在线男女| 丰满乱子伦码专区| 波多野结衣巨乳人妻| 床上黄色一级片| 十八禁国产超污无遮挡网站| 高清日韩中文字幕在线| 国产在线精品亚洲第一网站| av免费在线看不卡| 又黄又爽又刺激的免费视频.| 久久精品国产清高在天天线| 国产精品久久电影中文字幕| 看非洲黑人一级黄片| 性欧美人与动物交配| 亚洲中文字幕日韩| 国产亚洲精品久久久com| 夫妻性生交免费视频一级片| 丝袜美腿在线中文| 成年版毛片免费区| 天天躁日日操中文字幕| 国产精品一区二区在线观看99 | 搡女人真爽免费视频火全软件| 麻豆精品久久久久久蜜桃| 国产乱人视频| 麻豆精品久久久久久蜜桃| 亚洲精品久久久久久婷婷小说 | 老司机福利观看| 日韩欧美精品v在线| 麻豆av噜噜一区二区三区| 2021天堂中文幕一二区在线观| 欧美色欧美亚洲另类二区| 91午夜精品亚洲一区二区三区| а√天堂www在线а√下载| 极品教师在线视频| 小说图片视频综合网站| 中国国产av一级| 精品久久久久久久久久免费视频| av天堂中文字幕网| 中文字幕免费在线视频6| 亚洲成av人片在线播放无| 久久亚洲精品不卡| 久久草成人影院| 久久精品人妻少妇| a级毛片免费高清观看在线播放| 国产日本99.免费观看| 不卡视频在线观看欧美| 99国产极品粉嫩在线观看| 少妇裸体淫交视频免费看高清| 99久久成人亚洲精品观看| 国产精品一区二区三区四区免费观看| 一边亲一边摸免费视频| 91精品国产九色| 精华霜和精华液先用哪个| 性欧美人与动物交配| 亚洲精品日韩av片在线观看| 婷婷色av中文字幕| 久久国产乱子免费精品| 亚洲久久久久久中文字幕| 国内揄拍国产精品人妻在线| 久久草成人影院| www日本黄色视频网| 人妻久久中文字幕网| 亚洲成人中文字幕在线播放| 精品久久久久久成人av| 美女黄网站色视频| 中文字幕久久专区| 噜噜噜噜噜久久久久久91| 免费av观看视频| 亚洲最大成人av| 国产成人一区二区在线| 日日干狠狠操夜夜爽| 国产白丝娇喘喷水9色精品| 国产精品久久视频播放| 日本黄大片高清| 精品人妻熟女av久视频| 亚洲精品久久久久久婷婷小说 | 麻豆成人午夜福利视频| 99国产极品粉嫩在线观看| 欧美丝袜亚洲另类| 自拍偷自拍亚洲精品老妇| 桃色一区二区三区在线观看| 亚洲精品成人久久久久久| 午夜精品国产一区二区电影 | 蜜桃亚洲精品一区二区三区| 亚洲精品成人久久久久久| 亚洲国产精品久久男人天堂| 在线免费观看的www视频| 99热精品在线国产| 欧美性感艳星| 九草在线视频观看| 亚洲欧美清纯卡通| 欧美精品一区二区大全| 麻豆av噜噜一区二区三区| 3wmmmm亚洲av在线观看| 高清在线视频一区二区三区 | 偷拍熟女少妇极品色| 看免费成人av毛片| videossex国产| 亚洲中文字幕一区二区三区有码在线看| 亚洲欧美日韩高清专用| 只有这里有精品99| 特大巨黑吊av在线直播| 色综合亚洲欧美另类图片| 久久久精品大字幕| 黄色视频,在线免费观看| 亚洲,欧美,日韩| 一个人观看的视频www高清免费观看| 欧美区成人在线视频| 国产淫片久久久久久久久| 久久久午夜欧美精品| 久久精品久久久久久久性| av国产免费在线观看| 国产av一区在线观看免费| 亚洲熟妇中文字幕五十中出| 欧美高清成人免费视频www| 亚洲av一区综合| www.av在线官网国产| 性色avwww在线观看| 一区二区三区高清视频在线| 99热6这里只有精品| www日本黄色视频网| 亚洲天堂国产精品一区在线| 精品久久国产蜜桃| 免费看光身美女| 97热精品久久久久久| 草草在线视频免费看| 成年av动漫网址| 亚洲一级一片aⅴ在线观看| 中文字幕久久专区| 一级毛片久久久久久久久女| 一级黄色大片毛片| 可以在线观看的亚洲视频| 人人妻人人澡欧美一区二区| 欧美另类亚洲清纯唯美| 欧美精品国产亚洲| 国产精品不卡视频一区二区| 性插视频无遮挡在线免费观看| 亚洲中文字幕一区二区三区有码在线看| 久久精品夜色国产| 久久精品久久久久久噜噜老黄 | 精品熟女少妇av免费看| 欧美xxxx性猛交bbbb| av国产免费在线观看| 国产又黄又爽又无遮挡在线| 哪里可以看免费的av片| 伊人久久精品亚洲午夜| 99riav亚洲国产免费| 一区二区三区高清视频在线| 极品教师在线视频| 国产成年人精品一区二区| 免费av观看视频| 免费人成视频x8x8入口观看| 国产女主播在线喷水免费视频网站 | www日本黄色视频网| 久久久a久久爽久久v久久| a级毛片a级免费在线| 亚洲欧美成人精品一区二区| 欧美性感艳星| 国产免费男女视频| 国产乱人视频| av免费观看日本| 狂野欧美白嫩少妇大欣赏| 免费观看在线日韩| 高清毛片免费观看视频网站| 久久精品91蜜桃| 在现免费观看毛片| 日本-黄色视频高清免费观看| 亚洲欧美清纯卡通| 亚洲电影在线观看av| 国产精品久久久久久av不卡| 九草在线视频观看| 欧美成人a在线观看| www.av在线官网国产| 中国国产av一级| 亚洲国产日韩欧美精品在线观看| 国产一区二区三区在线臀色熟女| 亚洲精华国产精华液的使用体验 | 麻豆精品久久久久久蜜桃| 亚洲欧美精品专区久久| 午夜久久久久精精品| 淫秽高清视频在线观看| 欧美最新免费一区二区三区| 美女 人体艺术 gogo| 热99在线观看视频| 亚洲av中文字字幕乱码综合| 国产成人a∨麻豆精品| 国产精品综合久久久久久久免费| 亚洲一区高清亚洲精品| 高清日韩中文字幕在线| 91狼人影院| 亚洲高清免费不卡视频| 亚洲av中文av极速乱| 国内久久婷婷六月综合欲色啪| 久久精品综合一区二区三区| 不卡视频在线观看欧美| 亚洲欧美日韩高清专用| 亚洲乱码一区二区免费版| 久久精品国产鲁丝片午夜精品| 一级毛片电影观看 | 国产午夜福利久久久久久| a级毛色黄片| 久久精品国产清高在天天线| 久久久久免费精品人妻一区二区| 97热精品久久久久久| 日产精品乱码卡一卡2卡三| av黄色大香蕉| 久久综合国产亚洲精品| 永久网站在线| 成人二区视频| 国产av不卡久久| 国产成人freesex在线| 老司机影院成人| 国产 一区精品| 成人综合一区亚洲| av在线播放精品| 欧美精品一区二区大全| 高清毛片免费看| 国产视频首页在线观看| 熟女电影av网| 久久精品国产99精品国产亚洲性色| 国产精品免费一区二区三区在线| 在线国产一区二区在线| 一本久久中文字幕| 日本与韩国留学比较| 精品久久久久久久久久免费视频| 狠狠狠狠99中文字幕| 国产精品综合久久久久久久免费| 亚洲国产精品久久男人天堂| 中文字幕熟女人妻在线| av.在线天堂| 成人鲁丝片一二三区免费| 免费不卡的大黄色大毛片视频在线观看 | 午夜激情福利司机影院| 男女做爰动态图高潮gif福利片| 看片在线看免费视频| 国模一区二区三区四区视频| 亚洲欧美精品专区久久| 亚洲三级黄色毛片| 亚洲欧美日韩卡通动漫| 亚洲精品自拍成人| 99久久成人亚洲精品观看| 舔av片在线| 在线天堂最新版资源| 免费看日本二区| 久久久久久伊人网av| 国内精品久久久久精免费| 精品一区二区免费观看| 国产黄a三级三级三级人| 国产日韩欧美在线精品| 又粗又硬又长又爽又黄的视频 | 大香蕉久久网| 一边亲一边摸免费视频| av专区在线播放| 亚洲av成人av| 啦啦啦观看免费观看视频高清| 淫秽高清视频在线观看| 成人永久免费在线观看视频| 91久久精品国产一区二区成人| 人体艺术视频欧美日本| 国产精品嫩草影院av在线观看| 波多野结衣高清无吗| 免费看日本二区| 九九久久精品国产亚洲av麻豆| 十八禁国产超污无遮挡网站| 色综合站精品国产| 亚洲国产日韩欧美精品在线观看| av视频在线观看入口| 变态另类成人亚洲欧美熟女| av女优亚洲男人天堂| 黄片无遮挡物在线观看| 在线播放国产精品三级| 亚洲国产欧美在线一区| 日韩成人伦理影院| 女人十人毛片免费观看3o分钟| 精品不卡国产一区二区三区| 能在线免费观看的黄片| av免费观看日本| 丝袜喷水一区| 日韩强制内射视频| www.av在线官网国产|