• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    大規(guī)模主題詞自動(dòng)標(biāo)引方法

    2022-06-07 10:37:02韓紅旗張運(yùn)良翁夢(mèng)娟悅林東
    情報(bào)學(xué)報(bào) 2022年5期

    韓紅旗,桂 婕,張運(yùn)良,翁夢(mèng)娟,薛 陜,悅林東

    (1.中國(guó)科學(xué)技術(shù)信息研究所,北京 100038;2.富媒體數(shù)字出版內(nèi)容組織與知識(shí)服務(wù)重點(diǎn)實(shí)驗(yàn)室(國(guó)家新聞出版署),北京 100038)

    1 引 言

    主題標(biāo)引(subject indexing)是對(duì)文獻(xiàn)主題及其他有檢索意義的特征進(jìn)行分析、表示、提煉和歸納,然后用某種檢索語(yǔ)言(自然語(yǔ)言、受控語(yǔ)言)標(biāo)注出來(lái),作為信息存儲(chǔ)與檢索依據(jù)的信息處理過(guò)程[1]。簡(jiǎn)而言之,主題標(biāo)引是對(duì)文獻(xiàn)內(nèi)容進(jìn)行主題分析、賦予主題詞標(biāo)識(shí)的過(guò)程。按照使用主題標(biāo)引語(yǔ)言的不同,主題標(biāo)引可以分為受控標(biāo)引和自然語(yǔ)言標(biāo)引(或自由標(biāo)引)。其中,受控標(biāo)引是采用敘詞表(或主題詞表)中選用的規(guī)范詞對(duì)文獻(xiàn)進(jìn)行標(biāo)注,自然語(yǔ)言標(biāo)引是直接選擇自然語(yǔ)言詞匯對(duì)文獻(xiàn)進(jìn)行標(biāo)引。主題標(biāo)引是數(shù)據(jù)資源加工和分析的基礎(chǔ)工作,我國(guó)國(guó)家標(biāo)準(zhǔn)《科學(xué)技術(shù)報(bào)告、學(xué)位論文和學(xué)術(shù)論文的編寫(xiě)格式》(GB 7713-87)明確規(guī)定論文關(guān)鍵詞應(yīng)盡可能采用《漢語(yǔ)主題詞表》等詞表提供的規(guī)范詞。

    主題標(biāo)引是數(shù)字資源組織的有效手段,它的準(zhǔn)確性是保證數(shù)字資源檢索和利用的關(guān)鍵因素。在大數(shù)據(jù)時(shí)代,文本信息的規(guī)模和增速非常大,靠人工標(biāo)引不僅不可行,而且不可能,自動(dòng)標(biāo)引的價(jià)值凸顯。當(dāng)前,雖然全文檢索技術(shù)已經(jīng)非常成熟,但自動(dòng)標(biāo)引能實(shí)現(xiàn)信息精煉、提升、過(guò)濾,使檢索更有效率、檢索結(jié)果更準(zhǔn)確,因此其重要性愈發(fā)凸顯[2]。自動(dòng)標(biāo)引是指利用自動(dòng)化技術(shù)從文獻(xiàn)中抽取檢索標(biāo)志的過(guò)程。相比于人工標(biāo)引,自動(dòng)標(biāo)引具有速度快、成本低以及穩(wěn)定性和一致性高的優(yōu)點(diǎn),更適合大數(shù)據(jù)時(shí)代的數(shù)字信息資源標(biāo)注[1]。按照標(biāo)引詞的來(lái)源不同,自動(dòng)標(biāo)引可以分為抽詞標(biāo)引和賦詞標(biāo)引[2-3]。其中,抽詞標(biāo)引是從文獻(xiàn)(題名、摘要、關(guān)鍵詞或全文)中抽取關(guān)鍵詞來(lái)作為檢索標(biāo)識(shí);賦詞標(biāo)引則是根據(jù)文獻(xiàn)的內(nèi)容特征,從受控詞表中選擇敘詞或主題詞來(lái)作為檢索標(biāo)識(shí)。抽詞標(biāo)引法由于獲得的標(biāo)引詞可能不是受控詞表中的主題詞,不利于根據(jù)主題進(jìn)行文獻(xiàn)檢索或主題關(guān)聯(lián),給標(biāo)引結(jié)果的使用帶來(lái)不便,所以,在商業(yè)類型的文獻(xiàn)數(shù)據(jù)庫(kù)中,多采用賦詞標(biāo)引而不采用抽詞標(biāo)引。

    然而在大數(shù)據(jù)時(shí)代,自動(dòng)標(biāo)引面臨著非常大的挑戰(zhàn)。挑戰(zhàn)主要來(lái)自三個(gè)方面:一是如何判斷一個(gè)文本與一個(gè)主題詞的語(yǔ)義相關(guān)性,尤其是在文本中沒(méi)有出現(xiàn)的主題詞;二是因?yàn)橹黝}詞表中的主題詞數(shù)量往往非常大,一般領(lǐng)域的主題詞有成千上萬(wàn),綜合性的主題詞表則可達(dá)10萬(wàn)以上,例如,《漢語(yǔ)主題詞表》共收錄19.6萬(wàn)個(gè)優(yōu)選詞、16.4萬(wàn)條非優(yōu)選詞[4],《中國(guó)分類主題詞表(2版)》正式主題詞有110837個(gè)[5],面對(duì)如此大規(guī)模的類目標(biāo)簽,常規(guī)的機(jī)器學(xué)習(xí)分類算法難以發(fā)揮作用;三是如何將層出不窮的新詞快速地納入自動(dòng)標(biāo)引算法是一個(gè)問(wèn)題,現(xiàn)有的算法常常不得不花費(fèi)大量時(shí)間再次訓(xùn)練復(fù)雜的模型。

    現(xiàn)有的自動(dòng)標(biāo)引技術(shù)多是利用一些統(tǒng)計(jì)指標(biāo)或語(yǔ)言學(xué)方法從文本中抽取關(guān)鍵詞,再映射到主題詞實(shí)現(xiàn)賦詞標(biāo)引[6]。然而,這種方法一般無(wú)法抽取文本中沒(méi)有的主題詞?;跈C(jī)器學(xué)習(xí)的主題標(biāo)引方法稱為多標(biāo)簽分類學(xué)習(xí)。該類學(xué)習(xí)算法可以分為兩類[7]:一類是傳統(tǒng)的多標(biāo)簽分類,標(biāo)簽數(shù)量一般較少,往往幾個(gè)或數(shù)十個(gè),無(wú)法適應(yīng)標(biāo)簽規(guī)模成千上萬(wàn)的情況,更不用說(shuō)10萬(wàn)以上了;另一類稱為極端多標(biāo)簽文本分類(extreme multi-label text classifi‐cation,XMTC),可以處理規(guī)模龐大的多標(biāo)簽分類,然而這個(gè)方法要求每一個(gè)標(biāo)簽都有訓(xùn)練樣本數(shù)據(jù),可現(xiàn)實(shí)中有些類很難找到訓(xùn)練數(shù)據(jù)或訓(xùn)練數(shù)據(jù)偏少,限制了該類算法的應(yīng)用。除此之外,標(biāo)簽分類常常面臨著類目數(shù)據(jù)不均衡問(wèn)題所帶來(lái)的分類精度低,以及難以快速響應(yīng)新增標(biāo)簽分類的困境。

    本研究面臨的是采用數(shù)萬(wàn)或10萬(wàn)以上主題詞對(duì)大規(guī)模文本進(jìn)行標(biāo)引的情況,而且沒(méi)有帶標(biāo)簽的訓(xùn)練數(shù)據(jù),無(wú)法使用XMTC方法,顯然傳統(tǒng)機(jī)器學(xué)習(xí)方法也無(wú)能為力。在從大規(guī)模主題詞表中選擇若干語(yǔ)義相關(guān)的主題詞賦予一個(gè)文本時(shí),既要解決主題詞與文本語(yǔ)義上的匹配,又要適應(yīng)海量數(shù)據(jù)的快速標(biāo)引以及新詞的標(biāo)引。采用的主題詞表由中國(guó)工程科技知識(shí)中心(下文稱“知識(shí)中心”)委托中國(guó)科學(xué)技術(shù)信息研究所建設(shè)。知識(shí)中心詞表在20余家分中心領(lǐng)域詞表的基礎(chǔ)上形成了“核心集+擴(kuò)展集”的架構(gòu),其中核心集為主題詞表,共包含18.39萬(wàn)條主題詞,未來(lái)將不斷補(bǔ)充新的主題詞。知識(shí)中心建設(shè)中需要對(duì)大量未標(biāo)注關(guān)鍵詞的文獻(xiàn)、報(bào)告、新聞等數(shù)據(jù)標(biāo)注主題詞,用于后續(xù)的檢索、主題分析等工作。

    2 相關(guān)研究

    2.1 自動(dòng)標(biāo)引技術(shù)

    美國(guó)學(xué)者盧恩(H.P.Luhn)在1957年首次開(kāi)展了主題標(biāo)引實(shí)驗(yàn)[2-3],并在IBM公司的研究刊物上發(fā)表了第一篇有關(guān)自動(dòng)主題標(biāo)引的論文,題名為“文獻(xiàn)處理機(jī)械化編碼和檢索用的統(tǒng)計(jì)學(xué)方法”。盧恩在該文中提出了詞頻統(tǒng)計(jì)加權(quán)方法和“自動(dòng)抽詞標(biāo)引”的基本思想,奠定了自動(dòng)主題標(biāo)引的基礎(chǔ)。

    自動(dòng)主題標(biāo)引方法按技術(shù)可以分為四類:統(tǒng)計(jì)標(biāo)引法、語(yǔ)言分析標(biāo)引法、機(jī)器學(xué)習(xí)標(biāo)引法和混合方法[2-3]。

    統(tǒng)計(jì)標(biāo)引法的主要思想是:詞在文檔中出現(xiàn)的頻率是該詞對(duì)文檔重要性的有效測(cè)量指標(biāo)。通常認(rèn)為,處于高頻和低頻之間的那部分詞匯才最適宜做標(biāo)引詞。也有學(xué)者使用詞頻之外的其他一些顯著統(tǒng)計(jì)特征,如共現(xiàn)、逆文檔詞頻、熵、互信息等。統(tǒng)計(jì)標(biāo)引法可細(xì)分為詞頻統(tǒng)計(jì)、加權(quán)統(tǒng)計(jì)、概率統(tǒng)計(jì)、分類判別統(tǒng)計(jì)等。例如,李素建等[8]通過(guò)建立最大熵模型的特征集合實(shí)現(xiàn)關(guān)鍵詞自動(dòng)標(biāo)引;柯平等[9]基于詞頻統(tǒng)計(jì)從文本中抽取高頻詞實(shí)現(xiàn)標(biāo)引,并與關(guān)鍵詞進(jìn)行匹配對(duì)比,說(shuō)明統(tǒng)計(jì)方法的可行性。

    語(yǔ)言分析標(biāo)引法是指對(duì)被標(biāo)引對(duì)象進(jìn)行詞法分析(lexical analysis)、句法分析(syntactical analy‐sis)、語(yǔ)義分析(semantic analysis)和篇章分析(text analysis)等,從而達(dá)到自動(dòng)標(biāo)引的目的。詞法分析主要是分詞、詞性標(biāo)注和獲得詞匯的詳細(xì)特征。句法分析標(biāo)引法是通過(guò)從語(yǔ)法角度來(lái)確定句子中每個(gè)詞的作用(比如,是主語(yǔ)還是謂語(yǔ)),以及詞與詞之間的相互關(guān)系(比如,是修飾關(guān)系還是被修飾關(guān)系)來(lái)實(shí)現(xiàn)的。語(yǔ)義分析標(biāo)引法是在分析詞和短語(yǔ)在特定上下文環(huán)境中的確切含義的基礎(chǔ)上,選擇與主題含義相同的標(biāo)引詞來(lái)描述文獻(xiàn)的。篇章分析主要是通過(guò)找出篇章中內(nèi)容相關(guān)的片段,從篇章角度提取能反映文本主題的詞語(yǔ)。例如,丁芹[10]提出一種利用語(yǔ)義格進(jìn)行文獻(xiàn)語(yǔ)義表述的方法,對(duì)標(biāo)引詞的語(yǔ)義格加權(quán)算法做了較合理的解釋和推導(dǎo),并引入一種計(jì)算詞語(yǔ)之間相似度的方法實(shí)現(xiàn)自動(dòng)標(biāo)引;趙丹[11]利用句法分析器對(duì)文獻(xiàn)提取出來(lái)的主題句進(jìn)行成分標(biāo)注、短語(yǔ)結(jié)構(gòu)標(biāo)注、詞性標(biāo)注,進(jìn)一步利用統(tǒng)計(jì)信息、詞或短語(yǔ)結(jié)構(gòu)的詞間的聯(lián)系實(shí)現(xiàn)主題標(biāo)注。

    基于機(jī)器學(xué)習(xí)的自動(dòng)標(biāo)引方法是利用計(jì)算機(jī)來(lái)理解和模擬人類特有的智能系統(tǒng)活動(dòng),學(xué)習(xí)人們?nèi)绾芜\(yùn)用自己所掌握的知識(shí),去解決現(xiàn)實(shí)中的問(wèn)題。目前基于機(jī)器學(xué)習(xí)的自動(dòng)標(biāo)引方法一般通過(guò)訓(xùn)練集來(lái)獲得相關(guān)統(tǒng)計(jì)參數(shù),通過(guò)有監(jiān)督或無(wú)監(jiān)督的過(guò)程進(jìn)行自動(dòng)標(biāo)引。機(jī)器學(xué)習(xí)法可以分為分類、聚類、集成學(xué)習(xí)、深度學(xué)習(xí)等。例如,章成志[12]整合統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型與集成學(xué)習(xí)方法的優(yōu)勢(shì),對(duì)文檔進(jìn)行基于多分類模型綜合投票實(shí)現(xiàn)自動(dòng)標(biāo)引;王新[13]利用詞嵌入將文獻(xiàn)向量轉(zhuǎn)換為富含詞匯間語(yǔ)義關(guān)系的張量,再利用深層卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)文獻(xiàn)主題國(guó)別的自動(dòng)標(biāo)引;陳博等[14]基于文本挖掘技術(shù)和可視化工具實(shí)現(xiàn)可視化主題自動(dòng)標(biāo)引。國(guó)外文獻(xiàn)近些年的此類研究集中在對(duì)MeSH(medical subject headings)主題詞標(biāo)引的挑戰(zhàn)賽BioASQ上。其中,Mork等[15]提出MTI(medical text indexer),通過(guò)將MetaMap、PubMed相關(guān)引文與聚類排序方法結(jié)合實(shí)現(xiàn)近3萬(wàn)條MeSH主題詞的標(biāo)引,因?yàn)樵摲椒ㄐ阅茌^優(yōu)而被作為BioASQ挑戰(zhàn)賽的基準(zhǔn)[16];其他MeSH主題詞的標(biāo)引 方 法 有MeSHLabeler[17]、DeepMeSH[18]、FullM‐eSH[19]、MeSHProbeNet[20]、卷 積 神 經(jīng) 網(wǎng) 絡(luò)[21]、BERTMeSH[22]、MeSHProbeNet-P[23]等。這些機(jī)器學(xué)習(xí)方法的突出特點(diǎn)是將深度學(xué)習(xí)技術(shù)應(yīng)用于主題詞標(biāo)引,依賴于大量的人工標(biāo)引數(shù)據(jù)進(jìn)行模型訓(xùn)練。

    以上三類方法各有優(yōu)缺點(diǎn)。統(tǒng)計(jì)標(biāo)引法簡(jiǎn)單,實(shí)現(xiàn)容易,但準(zhǔn)確率相對(duì)較低,一般用于抽詞標(biāo)引,不適合于賦詞標(biāo)引。語(yǔ)言分析標(biāo)引法相對(duì)準(zhǔn)確率高,但容易受到語(yǔ)言“規(guī)則庫(kù)”的影響,通用性差;它既可用于抽詞標(biāo)引,也可用于賦詞標(biāo)引,但用于賦詞標(biāo)引時(shí),一般無(wú)法將受控詞中的詞與待標(biāo)文檔的整體語(yǔ)義進(jìn)行比較,獲得的標(biāo)引詞可能存在與待標(biāo)文檔語(yǔ)義關(guān)聯(lián)性不高的問(wèn)題。機(jī)器學(xué)習(xí)標(biāo)引法具有較好的移植性,即同一方法可以很方便地應(yīng)用到不同的領(lǐng)域,但是該方法對(duì)于不同類型數(shù)據(jù)需要訓(xùn)練多個(gè)分類器,訓(xùn)練時(shí)間較長(zhǎng),可能存在數(shù)據(jù)稀疏問(wèn)題及過(guò)擬合學(xué)習(xí)問(wèn)題;該方法一般用于賦詞標(biāo)引,但往往受制于算法的復(fù)雜性和受控詞類別的數(shù)量,一般不適合于大規(guī)模受控詞表的標(biāo)注。

    混合方法則是上述方法的綜合運(yùn)用,例如,先利用統(tǒng)計(jì)標(biāo)引法獲取初步標(biāo)引結(jié)果,再利用語(yǔ)言分析法過(guò)濾統(tǒng)計(jì)分析結(jié)果以獲得更好的標(biāo)引詞,或加入啟發(fā)式知識(shí),如詞的位置、詞長(zhǎng)、詞的排版規(guī)則、HTML標(biāo)記等。例如,李綱等[24]利用詞語(yǔ)語(yǔ)義相關(guān)度算法對(duì)詞匯鏈的構(gòu)建算法進(jìn)行了改進(jìn),并結(jié)合詞頻和詞的位置等統(tǒng)計(jì)信息,實(shí)現(xiàn)關(guān)鍵詞的自動(dòng)標(biāo)引;Gil-Leiva[25]結(jié)合參考文獻(xiàn)、標(biāo)題、摘要等的位置啟發(fā)式規(guī)則和TF-IDF實(shí)現(xiàn)對(duì)科學(xué)文章的自動(dòng)標(biāo)引。

    機(jī)器學(xué)習(xí)標(biāo)引法和混合方法是近年來(lái)得到廣泛采用的方法,但這些方法均未開(kāi)展大規(guī)模主題詞標(biāo)注的研究,或者解決的只是抽詞標(biāo)引問(wèn)題。例如,陳白雪等[26]以中文核心期刊論文中作者標(biāo)注的關(guān)鍵詞和分類號(hào)為源數(shù)據(jù),形成9萬(wàn)多的關(guān)鍵詞詞表,然后使用TF-IDF算法和位置加權(quán)算法實(shí)現(xiàn)科技項(xiàng)目數(shù)據(jù)的標(biāo)引,該研究雖然涉及較大規(guī)模的關(guān)鍵詞,但只是一種抽詞標(biāo)引方法;唐曉波等[27]針對(duì)目前的標(biāo)引系統(tǒng)僅以文檔為標(biāo)引單位、無(wú)法深入到文本內(nèi)容的問(wèn)題,引入本體語(yǔ)義擴(kuò)展和神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練等技術(shù),提出了基于文本知識(shí)片段標(biāo)引的方法,獲得比傳統(tǒng)方式精度更高的結(jié)果,但實(shí)證僅對(duì)構(gòu)建的一個(gè)小型糖尿病本體開(kāi)展;FullMeSH[19]和BERTMeSH[22]利用全文本代替標(biāo)題和摘要的MeSH詞表標(biāo)注方法,實(shí)現(xiàn)大規(guī)模PubMed論文的標(biāo)注,但這個(gè)大規(guī)模主要體現(xiàn)在論文的規(guī)模上,而不是詞表的規(guī)模上。

    2.2 分布式詞向量

    分布式詞向量是自然語(yǔ)言處理領(lǐng)域中的一類重要技術(shù),其核心是對(duì)文本中的單詞建模,用一個(gè)較低維的向量來(lái)表征每個(gè)單詞[28-30]。詞向量的生成方法很多,目前性能最佳的是基于深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型生成的分布式詞向量,它通過(guò)無(wú)監(jiān)督的機(jī)器學(xué)習(xí)方法從海量數(shù)據(jù)中自動(dòng)學(xué)習(xí)詞匯的語(yǔ)義特征,不需要人工標(biāo)注和復(fù)雜煩瑣的特征工程。分布式詞向量不像傳統(tǒng)的詞向量那樣維度高且稀疏,而是一種嵌入式向量,將單詞表示為一個(gè)連續(xù)的、低維的、實(shí)值向量(通常為100~300維),每一維度代表了一定的語(yǔ)義。

    word2vec詞向量是2013年由Mikolov等[31]從海量的Google新聞?wù)Z料中訓(xùn)練得到的,是目前使用最廣泛的神經(jīng)網(wǎng)絡(luò)詞向量。word2vec利用深度學(xué)習(xí)的思想,通過(guò)訓(xùn)練,將每個(gè)詞映射成維實(shí)數(shù)向量(一般為模型中的超參數(shù)),通過(guò)詞之間的距離(如co‐sine相似度、歐幾里得距離等)來(lái)判斷它們之間的語(yǔ)義相似度。詞向量距離越近,詞匯表示的語(yǔ)義就越相似。后來(lái)的研究者借鑒詞嵌入向量的思路,提出了一些新的詞向量模型,如GloVe(global vec‐tors)[32]、ELMo(embeddings from language mod‐els)[33]、BERT(bidirectional encoder representations from transformers)[34]等。分布式詞向量現(xiàn)在已被廣泛應(yīng)用于分類、聚類、命名實(shí)體識(shí)別、詞性分析等自然語(yǔ)言處理任務(wù)中。

    3 方法

    3.1 自動(dòng)標(biāo)引實(shí)現(xiàn)的基本思路

    為了實(shí)現(xiàn)將一個(gè)主題詞賦予一篇待標(biāo)引文本,需要確定它們之間的語(yǔ)義相關(guān)性。從大規(guī)模語(yǔ)料中訓(xùn)練的分布式詞向量較好地保留了詞匯的語(yǔ)義信息,如果能利用分布式詞向量將主題詞和待標(biāo)引文本表示為同樣維度、可語(yǔ)義計(jì)算的向量,那么就可以使用歐幾里得距離或cosine相似度等指標(biāo)計(jì)算一個(gè)主題詞和待標(biāo)引文本之間的相似度,如圖1所示。在計(jì)算了所有主題詞與待標(biāo)引文本的相似度指標(biāo)后,就可以對(duì)所有相似性指標(biāo)值進(jìn)行排序,然后選擇排名靠前的主題詞輸出,作為文本主題標(biāo)引的結(jié)果。

    圖1 主題詞與文本之間相似性計(jì)算的基本思路

    這需要解決兩個(gè)關(guān)鍵問(wèn)題,一個(gè)問(wèn)題是如何利用預(yù)訓(xùn)練的分布式詞向量生成主題詞和待標(biāo)引文本的表示向量,另一個(gè)問(wèn)題是如何解決主題詞和文本向量之間的巨量計(jì)算。主題詞數(shù)量龐大,如果將其全部和待標(biāo)引文本計(jì)算相似度將耗費(fèi)大量的計(jì)算時(shí)間,使得標(biāo)引方法實(shí)際上不可用,顯然也沒(méi)有必要這樣做,因?yàn)榕c文本緊密相關(guān)的主題詞數(shù)量一般不會(huì)特別多。對(duì)于第一個(gè)問(wèn)題,我們借鑒doc2vec[35-36]的基本思想來(lái)解決。對(duì)于第二個(gè)問(wèn)題,我們使用了一種被稱為sampling block的技術(shù)生成文本的候選主題詞[37],只需將待標(biāo)引文本與數(shù)量較少的主題詞進(jìn)行向量相似度計(jì)算。

    3.2 自動(dòng)標(biāo)引實(shí)現(xiàn)的基本過(guò)程

    本研究提出的自動(dòng)化標(biāo)引方法的流程如圖2所示,可以分為6個(gè)步驟:①主題詞表示向量生成;②普通詞與主題詞的映射關(guān)系表生成;③待標(biāo)引文本的預(yù)處理;④待標(biāo)引文本的表示向量生成;⑤待標(biāo)引文本向量候選主題詞生成;⑥文本的主題標(biāo)引。分別對(duì)應(yīng)圖2中標(biāo)注了數(shù)字1~6的虛線矩形方框。

    圖2 主題標(biāo)引實(shí)現(xiàn)流程

    1)主題詞表示向量生成

    獲取大規(guī)模的文本語(yǔ)料數(shù)據(jù),對(duì)語(yǔ)料數(shù)據(jù)進(jìn)行無(wú)用標(biāo)簽刪除、分詞、數(shù)字文本過(guò)濾、格式轉(zhuǎn)換等處理,形成可機(jī)器批量處理的規(guī)范格式數(shù)據(jù),基于詞向量技術(shù)(本研究使用word2vec,也可以采用其他詞向量技術(shù)),將詞表示為具有特定維數(shù)的稠密的嵌入式向量,形成詞向量庫(kù)W。經(jīng)過(guò)詞向量技術(shù)處理后,可以獲得語(yǔ)料庫(kù)中每一個(gè)詞的向量表示,設(shè)向量的維數(shù)為k,則對(duì)于一個(gè)詞w i,其向量可以表示為[w i1,w i2,…,w ik]。

    利用訓(xùn)練好的詞向量庫(kù)生成主題詞的表示向量。首先獲取受控詞表中的主題詞列表,然后逐詞循環(huán)采用如下方法獲得每一個(gè)主題詞的向量表示。對(duì)一個(gè)主題詞,假設(shè)為T i,去詞向量庫(kù)W中檢索,若存在,則用詞向量庫(kù)中的向量表示[wi1,w i2,…,w ik]作為該主題詞的向量表示;若不存在,則將該主題詞切分為p個(gè)短詞,將其中無(wú)意義的連接詞去掉,假設(shè)一個(gè)主題詞T i切分后為將每一個(gè)短詞去詞向量庫(kù)W中檢索,獲得每一個(gè)短詞的向量表示,則采用這些短詞向量的平均值作為該主題詞的向量表示,計(jì)算方法為

    2)普通詞與主題詞的映射關(guān)系表生成

    如上文所述,一般受控詞表規(guī)模會(huì)很大,將文本與整個(gè)受控詞表的主題詞進(jìn)行相似度計(jì)算將帶來(lái)很大的運(yùn)算量。為了避免將待標(biāo)引文本與受控詞表中的每一個(gè)主題詞進(jìn)行對(duì)比,通過(guò)大規(guī)模文本語(yǔ)料庫(kù)建立一個(gè)主題詞與若干個(gè)普通詞的映射關(guān)系,實(shí)現(xiàn)文本向量與主題詞向量比對(duì)過(guò)程中的運(yùn)算約減處理。建立的主題詞與普通詞的映射關(guān)系如表1所示。

    建立映射關(guān)系表(表1)的具體方法為:從受控詞表中獲取主題詞的列表,對(duì)每一個(gè)主題詞The‐saurusi,在大規(guī)模文本語(yǔ)料中進(jìn)行檢索,獲取包含該主題詞的全部文本集合,然后對(duì)文本集合中的全部文本進(jìn)行分詞和停用詞處理,計(jì)算文本中全部詞的TF-IDF值,按照從大到小排序后取前n個(gè)普通詞(Wordi1,Wordi2,…,Wordin)作為該主題詞關(guān)聯(lián)度強(qiáng)的詞匯列表。該工作也是主題標(biāo)引的準(zhǔn)備階段,目的是生成與每一個(gè)標(biāo)引的主題詞語(yǔ)義關(guān)聯(lián)度特別強(qiáng)的詞匯集合。利用主題詞與普通詞的映射關(guān)系表,對(duì)于一個(gè)普通詞來(lái)說(shuō),可以通過(guò)查表獲得與其關(guān)聯(lián)性高的主題詞列表。

    表1 主題詞與普通詞的映射關(guān)系

    3)待標(biāo)引文本的預(yù)處理

    在前兩個(gè)準(zhǔn)備階段工作完成后,就可以正式開(kāi)始文本的自動(dòng)標(biāo)引工作。對(duì)一個(gè)待標(biāo)引的文本首先進(jìn)行分詞、停用詞處理等預(yù)處理工作,獲得文本中包含的詞列表,統(tǒng)計(jì)每個(gè)詞出現(xiàn)的數(shù)量(詞頻)。該工作主要是為下一步生成待標(biāo)引文本的表示向量和其可能主題詞集合做準(zhǔn)備。

    4)待標(biāo)引文本的表示向量生成

    對(duì)一個(gè)待標(biāo)引文本做預(yù)處理后,可以獲取其包含的詞列表以及各詞在文本中出現(xiàn)的次數(shù),記為[(w1,f1),(w2,f2),…,(w q,f q)],其 中,w1,w2,…,w q為 文本中包含的詞列表,f1,f2,…,f q是它們?cè)谖谋局谐霈F(xiàn)的次數(shù)。利用詞列表及其頻次,基于平均詞向量法(avg-w2v)獲得該待標(biāo)引文本的k維向量表示,即以文本中各詞向量的加權(quán)平均值作為文本的表示,其中權(quán)重為文本中各詞的詞頻,計(jì)算方法為

    其中,w j1,w j2,…,w jk是w j在詞向量庫(kù)W中的向量各分量值。獲得的待標(biāo)引文本的表示向量與主題詞的表示向量的維數(shù)一致,均為k維,而且它們都是基于同一詞向量庫(kù)W生成的,為計(jì)算待標(biāo)引文本與主題詞的語(yǔ)義相關(guān)度提供了保障。

    5)待標(biāo)引文本向量候選主題詞生成

    待標(biāo)引文本預(yù)處理后形成了詞列表,基于構(gòu)建的主題詞與普通詞的映射關(guān)系表,可以獲得與待標(biāo)引文本關(guān)聯(lián)強(qiáng)的候選主題詞列表,我們稱這項(xiàng)技術(shù)為sampling block,它使對(duì)文本主題標(biāo)引時(shí)不需要進(jìn)行大量的向量相似度計(jì)算,只需要將文本向量與數(shù)量不大的主題詞表示向量進(jìn)行比對(duì),可以有效減少比對(duì)的次數(shù),大幅減少運(yùn)算量,從而大大提高標(biāo)引效率。

    圖3說(shuō)明了候選主題詞產(chǎn)生的方法。對(duì)于文本分詞預(yù)處理后形成的每一個(gè)普通詞w1,w2,…,w q,到主題詞與普通詞的映射關(guān)系表中查找,得到一個(gè)可能的候選主題詞集合,這個(gè)集合一般來(lái)說(shuō)只有幾十個(gè)或數(shù)百個(gè),具體跟文檔長(zhǎng)度及包含的詞數(shù)量有關(guān)。

    圖3 候選主題詞生成的方法示意圖

    6)文本的主題標(biāo)引

    有了候選主題詞列表后,就可以將待標(biāo)引文本的表示向量和篩選出來(lái)的受控詞表中候選主題詞的向量進(jìn)行語(yǔ)義相似性比較。語(yǔ)義相似性計(jì)算采用余弦方法,對(duì)于一個(gè)文檔表示向量d→=[d1,d2,…,d k]和一個(gè)主題詞表示向量=[T1,T2,…,T k],計(jì)算公式為

    也可以采用其他方法。

    對(duì)待標(biāo)引文本表示向量和全部候選主題詞表示向量的相似度結(jié)果進(jìn)行排序,選擇排名靠前的m個(gè)主題詞對(duì)文本進(jìn)行標(biāo)注。m可以根據(jù)需要設(shè)定,也可以輸出全部的主題詞。

    4 實(shí) 驗(yàn)

    4.1 數(shù)據(jù)

    根據(jù)本研究提出的方法開(kāi)發(fā)了自動(dòng)化的主題標(biāo)引工具,利用該標(biāo)引工具對(duì)近億條記錄進(jìn)行了標(biāo)注,標(biāo)注速度達(dá)到每秒60余條記錄。后期對(duì)標(biāo)引工具進(jìn)行了優(yōu)化,標(biāo)引速度達(dá)到每秒160余條記錄,能較好地滿足中國(guó)工程科技知識(shí)中心數(shù)據(jù)資源標(biāo)引的需求。在信息檢索中,關(guān)鍵詞作為一個(gè)揭示文本主題的單位,標(biāo)引關(guān)鍵詞的數(shù)量適合定在9個(gè)詞以內(nèi)[3]。基于該認(rèn)識(shí),以及對(duì)部分樣本的人工分析結(jié)果,一篇文本的機(jī)標(biāo)主題詞最多保留8個(gè)(下文稱“標(biāo)引主題詞”)。我們從標(biāo)注好的文獻(xiàn)中抽取了100萬(wàn)條數(shù)據(jù),字段包括標(biāo)題、摘要、作者關(guān)鍵詞和標(biāo)引主題詞。對(duì)該數(shù)據(jù)集中作者關(guān)鍵詞字段中不包含主題詞的記錄進(jìn)行刪除,剩余671607條數(shù)據(jù),下文將這個(gè)數(shù)據(jù)集稱為index-dataset,統(tǒng)計(jì)后發(fā)現(xiàn)其包含的主題詞有63053個(gè)。

    為了評(píng)估提出的自動(dòng)化標(biāo)引方法的效果,基于抽取的100萬(wàn)條數(shù)據(jù),使用結(jié)巴關(guān)鍵詞工具生成了對(duì)比數(shù)據(jù)集jieba-dataset。首先采用結(jié)巴關(guān)鍵詞工具從100萬(wàn)篇文獻(xiàn)的標(biāo)題和摘要中抽取關(guān)鍵詞(下文稱“結(jié)巴關(guān)鍵詞”),同樣結(jié)巴關(guān)鍵詞最多保留8個(gè),形成字段包含標(biāo)題、摘要、作者關(guān)鍵詞和結(jié)巴關(guān)鍵詞的數(shù)據(jù)集合,并刪除作者關(guān)鍵詞中沒(méi)有出現(xiàn)在結(jié)巴關(guān)鍵詞的詞匯形成jieba-dataset。

    4.2 評(píng)價(jià)指標(biāo)

    評(píng)價(jià)指標(biāo)采用多標(biāo)簽分類評(píng)估指標(biāo)flat mea‐sure[18]。該評(píng)價(jià)指標(biāo)包括基于實(shí)例的方法(examplebased method)和基于標(biāo)簽的方法(label-based method)兩類?;趯?shí)例的方法把評(píng)價(jià)過(guò)程分解為單個(gè)實(shí)例的評(píng)價(jià),然后求所有實(shí)例的均值。基于標(biāo)簽的方法把評(píng)價(jià)過(guò)程分解為基于單個(gè)標(biāo)簽的評(píng)價(jià),然后求所有標(biāo)簽的均值;其又可以進(jìn)一步分為宏平均(macro average)和微平均(micro average),其中宏平均對(duì)每個(gè)類別賦予相同的權(quán)重,而微平均對(duì)每個(gè)文檔的分類結(jié)果賦予相同的權(quán)重。因?yàn)橹黝}標(biāo)引更強(qiáng)調(diào)對(duì)一篇篇文檔標(biāo)引的效果,采用基于實(shí)例的方法或微平均相對(duì)而言更適合。這里采用基于實(shí)例的評(píng)價(jià)方法,其計(jì)算方法為:設(shè)文檔總數(shù)量為M,標(biāo)簽總數(shù)量為K。對(duì)于M個(gè)文檔中的任意一實(shí)例文檔i,其真實(shí)標(biāo)簽列表記為y i,預(yù)測(cè)標(biāo)簽列表記為?,它們均有K個(gè)標(biāo)簽元素,每個(gè)元素的取值為{0,1},即某個(gè)標(biāo)簽出現(xiàn)時(shí)取值為1,不出現(xiàn)時(shí)取值為0。則對(duì)一個(gè)實(shí)例文檔i,有

    其中,EBPi是該實(shí)例文檔標(biāo)簽預(yù)測(cè)的準(zhǔn)確率;EBRi是標(biāo)簽預(yù)測(cè)的召回率;EBFi是標(biāo)簽預(yù)測(cè)的F1-mea‐sure值。進(jìn)而得出整體上的評(píng)價(jià)指標(biāo):

    4.3 實(shí)驗(yàn)結(jié)果及討論

    為了評(píng)估本研究提出方法的效果,首先統(tǒng)計(jì)了index-dataset和jieba-dataset兩個(gè)數(shù)據(jù)集中不同作者關(guān)鍵詞數(shù)量下的文檔數(shù)量分布。這里的作者關(guān)鍵詞數(shù)量指一篇論文包含的作者關(guān)鍵詞數(shù)量。其中,in‐dex-dataset數(shù)據(jù)集中,作者關(guān)鍵詞中已經(jīng)去除了不在主題詞表中的詞匯;jieba-dataset數(shù)據(jù)集中,作者關(guān)鍵詞中則去除了沒(méi)有出現(xiàn)在結(jié)巴關(guān)鍵詞中的詞匯。不同作者關(guān)鍵詞數(shù)量下的文檔數(shù)量分布如表2所示,其中文檔數(shù)量(標(biāo)引)表示的是index-datas‐et數(shù)據(jù)集中不同關(guān)鍵詞數(shù)量下的文檔數(shù)量分布,文檔數(shù)量(結(jié)巴)表示的是jieba-dataset數(shù)據(jù)集中不同關(guān)鍵詞數(shù)量下的文檔數(shù)量分布。

    從表2可以看出,在1個(gè)作者關(guān)鍵詞數(shù)量的情況下,結(jié)巴關(guān)鍵詞的文檔數(shù)量超過(guò)了本文自動(dòng)化標(biāo)引算法的文檔數(shù)量;而在其他作者關(guān)鍵詞數(shù)量下,本文自動(dòng)化標(biāo)引算法標(biāo)引的主題詞數(shù)量均大于結(jié)巴關(guān)鍵詞的文檔數(shù)量,而且數(shù)量?jī)?yōu)勢(shì)明顯??紤]到在形成index-dataset和jieba-dataset數(shù)據(jù)集時(shí),分別去掉了作者關(guān)鍵詞中沒(méi)有出現(xiàn)在標(biāo)引主題詞和結(jié)巴關(guān)鍵詞的詞匯,說(shuō)明作者關(guān)鍵詞數(shù)量為1的情況下結(jié)巴關(guān)鍵詞與作者關(guān)鍵詞有較高的重合數(shù),而在多作者關(guān)鍵詞數(shù)量下,本文自動(dòng)化標(biāo)引算法標(biāo)引的主題詞與作者關(guān)鍵詞有較高的重合數(shù),標(biāo)引算法總體上比結(jié)巴關(guān)鍵詞算法有優(yōu)勢(shì)。

    表2 不同作者關(guān)鍵詞數(shù)量下的文檔數(shù)量分布

    分別計(jì)算了兩個(gè)數(shù)據(jù)集在不同作者關(guān)鍵詞數(shù)量下的EBP、EBR和EBF指標(biāo),如圖4所示。其中,數(shù)據(jù)點(diǎn)標(biāo)記為正方形的線條表示index-dataset上的結(jié)果,數(shù)據(jù)點(diǎn)標(biāo)記為圓形的線條表示jieba-dataset上的結(jié)果;EBP指標(biāo)用實(shí)線(solid line)表示,EBR指標(biāo)用短劃線(dashed line)表示,EBF指標(biāo)用點(diǎn)線(dotted line)表示。相對(duì)而言,兩個(gè)數(shù)據(jù)集上的EBR指標(biāo)值較EBP大,這主要是因?yàn)轭A(yù)測(cè)的標(biāo)簽數(shù)量平均較大(最多保留了8個(gè)主題詞或結(jié)巴關(guān)鍵詞),而大多數(shù)論文中關(guān)鍵詞數(shù)量在3~5個(gè),且去除了未出現(xiàn)在機(jī)器標(biāo)引詞中的關(guān)鍵詞。

    從圖4可以看出,不管是標(biāo)引主題詞還是結(jié)巴關(guān)鍵詞方法,隨著作者關(guān)鍵詞數(shù)量的增加,準(zhǔn)確性在提高而召回率在下降,且本文標(biāo)引方法召回率下降速度更快。結(jié)巴關(guān)鍵詞在3項(xiàng)指標(biāo)上均有優(yōu)勢(shì),尤其是EBR指標(biāo),具有明顯的優(yōu)勢(shì)。這主要是因?yàn)樽髡哧P(guān)鍵詞一般按順序從標(biāo)題、摘要和正文中抽取,而結(jié)巴關(guān)鍵詞是從標(biāo)題和摘要文本中抽取的,自動(dòng)化標(biāo)引算法標(biāo)注的主題詞不一定在論文中出現(xiàn)。因此,相對(duì)而言,結(jié)巴關(guān)鍵詞具有較好的準(zhǔn)確率和召回率,而且召回率下降較慢。從圖3上還可以看到,在關(guān)鍵詞數(shù)量為1時(shí),標(biāo)引主題詞與結(jié)巴關(guān)鍵詞的準(zhǔn)確率EBP基本相同,隨著作者關(guān)鍵詞數(shù)量的增多,兩者的準(zhǔn)確率都在增加,但結(jié)巴關(guān)鍵詞的準(zhǔn)確率稍高一點(diǎn),說(shuō)明結(jié)巴關(guān)鍵詞與作者關(guān)鍵詞有較高的重合率,標(biāo)引主題詞與作者關(guān)鍵詞的重合率則較低,標(biāo)引算法賦予待標(biāo)引文本更多的非作者關(guān)鍵詞詞匯。

    圖4 主題標(biāo)引與結(jié)巴關(guān)鍵詞標(biāo)引結(jié)果對(duì)比

    為了進(jìn)一步說(shuō)明這個(gè)問(wèn)題,統(tǒng)計(jì)了作者關(guān)鍵詞數(shù)量、結(jié)巴關(guān)鍵詞數(shù)量、標(biāo)引主題詞數(shù)量,以及未出現(xiàn)在論文文本中的作者關(guān)鍵詞數(shù)量、結(jié)巴關(guān)鍵詞數(shù)量和標(biāo)引主題詞數(shù)量。作者關(guān)鍵詞的數(shù)量為4576513個(gè),其中747981個(gè)未出現(xiàn)在標(biāo)題和摘要中,占比為16.34%,即大多數(shù)作者關(guān)鍵詞都出現(xiàn)在論文文本中。結(jié)巴關(guān)鍵詞數(shù)量為7925997個(gè),全部出現(xiàn)在標(biāo)題和摘要中。相比而言,標(biāo)引主題詞總數(shù)量為6988176個(gè),其中有3842968個(gè)未出現(xiàn)在標(biāo)題和摘要中,占比達(dá)54.99%,主題詞未出現(xiàn)在標(biāo)題和摘要中的文獻(xiàn)比例高達(dá)86.14%,即絕大多數(shù)文獻(xiàn)都被賦予了未在文獻(xiàn)文本中出現(xiàn)的詞匯。這也解釋了結(jié)巴關(guān)鍵詞指標(biāo)更好的原因。

    為了較公平地比較兩個(gè)方法,進(jìn)一步去掉了標(biāo)引主題詞中未出現(xiàn)在論文文本中的詞匯,同時(shí)去掉結(jié)巴關(guān)鍵詞中不是主題詞的詞匯,這樣結(jié)巴關(guān)鍵詞和標(biāo)引主題詞均是文本中出現(xiàn)的主題詞。再次計(jì)算兩個(gè)方法的3項(xiàng)指標(biāo)(圖5),其中數(shù)據(jù)點(diǎn)標(biāo)記為正方形的線條是主題標(biāo)引數(shù)據(jù)集index-dataset上的結(jié)果,數(shù)據(jù)點(diǎn)標(biāo)記為圓形的線條是結(jié)巴關(guān)鍵詞數(shù)據(jù)集jieba-dataset上的結(jié)果。同樣,實(shí)線表示EBP指標(biāo),短劃線表示EBR指標(biāo),點(diǎn)線表示EBF指標(biāo)。

    在圖5中,本文提出的自動(dòng)標(biāo)引方法在每一個(gè)關(guān)鍵詞數(shù)量下的EBP指標(biāo)值均超過(guò)了結(jié)巴關(guān)鍵詞方法,EBR除了在關(guān)鍵詞數(shù)量為1時(shí)超過(guò)了結(jié)巴關(guān)鍵詞方法,其他情況下均低于結(jié)巴關(guān)鍵詞方法;而且能夠明顯看到,標(biāo)引主題詞方法的召回率下降速度很快,而結(jié)巴關(guān)鍵詞方法下降比較慢,只有在關(guān)鍵詞數(shù)量超過(guò)5個(gè)后才出現(xiàn)快速下降。這也進(jìn)一步說(shuō)明,從論文文本抽取的結(jié)巴關(guān)鍵詞與作者關(guān)鍵詞有較多的重合,而標(biāo)引主題詞生成了更多非作者關(guān)鍵詞的詞匯,所以標(biāo)引方法的召回率下降更快,但同時(shí)自動(dòng)標(biāo)引方法提供了更多的、可靠的語(yǔ)義標(biāo)簽。

    圖5 主題標(biāo)引與結(jié)巴關(guān)鍵詞標(biāo)引結(jié)果對(duì)比(去除非文本詞和非主題詞)

    為了更進(jìn)一步說(shuō)明本文方法的效果,將本文方法和人工標(biāo)引進(jìn)行對(duì)比。實(shí)驗(yàn)數(shù)據(jù)集由中國(guó)工程科技知識(shí)中心林業(yè)分中心提供。該數(shù)據(jù)集共包含3411條文獻(xiàn)及人工標(biāo)注的主題詞。每一篇文獻(xiàn)一般有3~8個(gè)主題詞。同樣,在實(shí)驗(yàn)中,我們?nèi)サ袅酥R(shí)中心主題詞表中不存在的人工標(biāo)引詞。實(shí)驗(yàn)結(jié)果如圖6所示。

    圖6 主題標(biāo)引與人工標(biāo)引結(jié)果對(duì)比

    從圖6可以看出,隨著人工標(biāo)引主題詞數(shù)量的增加,本文提出的自動(dòng)標(biāo)引方法的EBP指標(biāo)值不斷增加(圖中的實(shí)線),而EBR指標(biāo)值不斷下降(圖中的短劃線),但EBF指標(biāo)值基本是不斷增加的(圖中的點(diǎn)線),說(shuō)明隨著人工標(biāo)引詞數(shù)量的增加,機(jī)器標(biāo)引的整體效果在不斷提升。當(dāng)人工標(biāo)引主題詞數(shù)量小于等于2個(gè)時(shí),EBR指標(biāo)值下降較快;而當(dāng)人工標(biāo)引主題詞數(shù)量多于3個(gè)時(shí),EBR指標(biāo)值下降的速度明顯變慢,這說(shuō)明在人工選擇較多的主題詞時(shí),機(jī)器標(biāo)引結(jié)果與人工標(biāo)引結(jié)果的一致性在增加。

    5 結(jié)語(yǔ)

    本研究提出了一種對(duì)文本進(jìn)行大規(guī)模主題詞標(biāo)注的混合型標(biāo)引方法,它綜合了統(tǒng)計(jì)分析和語(yǔ)義分析技術(shù)實(shí)現(xiàn)數(shù)量達(dá)數(shù)十萬(wàn)規(guī)模的主題詞在海量數(shù)據(jù)上的標(biāo)注,可以應(yīng)用于搜索引擎、新聞服務(wù)、電子圖書(shū)館等領(lǐng)域,也可在全文檢索、文本分類、信息過(guò)濾和文檔摘要等任務(wù)中發(fā)揮作用,能夠更好地應(yīng)對(duì)信息資源的快速增長(zhǎng)造成信息相對(duì)過(guò)剩的問(wèn)題,提高信息組織的效率,方便人們高效地管理和檢索文檔。本研究基于大規(guī)模文本語(yǔ)料上訓(xùn)練的分布式詞向量,生成相同維度的主題詞表示向量、待標(biāo)引文本表示向量,通過(guò)兩者向量相似度計(jì)算和排序?yàn)槲谋举x予語(yǔ)義關(guān)聯(lián)強(qiáng)的主題詞,實(shí)現(xiàn)了自動(dòng)的主題標(biāo)引。為了減少計(jì)算量,建立主題詞和普通詞映射關(guān)系表,在標(biāo)引時(shí)通過(guò)該表為文本生成語(yǔ)義關(guān)鍵性強(qiáng)的候選主題詞列表,從而實(shí)現(xiàn)文本向量與較少數(shù)量主題詞的相似度計(jì)算。與現(xiàn)有的自動(dòng)標(biāo)引方法相比,該方法不需要機(jī)器學(xué)習(xí)算法所需的大量帶標(biāo)簽的訓(xùn)練數(shù)據(jù),不僅能實(shí)現(xiàn)賦詞標(biāo)引,還能對(duì)數(shù)量規(guī)模超過(guò)10萬(wàn)的綜合型主題詞表進(jìn)行標(biāo)注,而且對(duì)大規(guī)模文本的主題標(biāo)注效率較高。

    利用本研究提出的方法開(kāi)發(fā)了自動(dòng)標(biāo)引工具,實(shí)現(xiàn)了對(duì)近億篇文獻(xiàn)的快速標(biāo)注。為了驗(yàn)證該方法的效果,提取100萬(wàn)篇標(biāo)注數(shù)據(jù)生成實(shí)驗(yàn)數(shù)據(jù)集,以作者關(guān)鍵詞為基準(zhǔn),采用flat measure多標(biāo)簽分類算法評(píng)價(jià)指標(biāo),與結(jié)巴關(guān)鍵詞工具抽取的關(guān)鍵詞結(jié)果進(jìn)行對(duì)比,發(fā)現(xiàn)該方法能抽取更多的文本及作者關(guān)鍵詞中未出現(xiàn)的主題詞,為揭示文本信息提供了更多的語(yǔ)義標(biāo)簽。雖然總體上結(jié)巴關(guān)鍵詞在指標(biāo)上取得了較好的數(shù)值,但其抽取的關(guān)鍵詞與作者關(guān)鍵詞重合較多,且均出現(xiàn)在文本中。如果標(biāo)引主題詞只保留出現(xiàn)在文本中的詞匯,而結(jié)巴關(guān)鍵詞只保留主題詞,則本研究提出的方法在準(zhǔn)確率上更好,但召回率較低,主要原因是結(jié)巴關(guān)鍵詞大多出現(xiàn)在作者關(guān)鍵詞中,而標(biāo)引主題詞大多不在作者關(guān)鍵詞中。將本研究提出的方法與人工標(biāo)引對(duì)比時(shí)發(fā)現(xiàn),在人工選擇較多的主題詞時(shí),機(jī)器標(biāo)引的結(jié)果與人工標(biāo)引結(jié)果的一致性在不斷增加。

    本研究雖然實(shí)現(xiàn)了大規(guī)模主題詞在海量文獻(xiàn)上的自動(dòng)標(biāo)注,但還存在一些需要提高或完善的地方。一方面是本研究使用word2vec技術(shù)實(shí)現(xiàn)分布式詞向量,該技術(shù)出現(xiàn)后有了一些新的詞向量技術(shù),如BERT[34]、XLNet[38]等,它們可能會(huì)帶來(lái)更好的效果,未來(lái)將嘗試這些詞向量技術(shù),了解并對(duì)比它們?cè)谧詣?dòng)標(biāo)引上的效果。另一方面是本研究采用了多標(biāo)簽分類算法評(píng)價(jià)指標(biāo),沒(méi)有采用人工方法來(lái)評(píng)判,無(wú)法判斷那些未在文本中出現(xiàn)的標(biāo)引主題詞是否是合適的,主要是因?yàn)槿斯づ袆e會(huì)存在主觀性大、一致性差、成本高等問(wèn)題,少量的抽樣不一定能說(shuō)明問(wèn)題。實(shí)際上,我們抽取了少量的標(biāo)注結(jié)果給領(lǐng)域?qū)<遥麄儗?duì)該方法的結(jié)果表示了不同程度的滿意度。未來(lái)將考慮抽取多個(gè)領(lǐng)域的標(biāo)注結(jié)果,交給多個(gè)領(lǐng)域?qū)<以u(píng)判該方法的效果。

    国产一区二区三区av在线| 最近中文字幕高清免费大全6| 成人国产麻豆网| 亚洲欧美成人综合另类久久久| 五月伊人婷婷丁香| 国产精品人妻久久久影院| 9色porny在线观看| 下体分泌物呈黄色| 天天影视国产精品| 国产男女超爽视频在线观看| 精品一区二区免费观看| 欧美另类一区| 亚洲综合色惰| 成人毛片a级毛片在线播放| 91精品三级在线观看| 精品人妻熟女毛片av久久网站| 曰老女人黄片| 午夜福利影视在线免费观看| 男女国产视频网站| 亚洲情色 制服丝袜| 91精品伊人久久大香线蕉| 人妻人人澡人人爽人人| 成年人午夜在线观看视频| 久久精品国产鲁丝片午夜精品| 精品人妻熟女毛片av久久网站| 街头女战士在线观看网站| a级毛片免费高清观看在线播放| 免费日韩欧美在线观看| 欧美精品高潮呻吟av久久| 波野结衣二区三区在线| 国产国语露脸激情在线看| 日本爱情动作片www.在线观看| 亚洲人与动物交配视频| 在线精品无人区一区二区三| 最黄视频免费看| 视频中文字幕在线观看| 最后的刺客免费高清国语| 久久久国产一区二区| 特大巨黑吊av在线直播| 女性被躁到高潮视频| 午夜激情福利司机影院| 在线 av 中文字幕| 嘟嘟电影网在线观看| 国产色婷婷99| a级片在线免费高清观看视频| 国产成人freesex在线| 亚洲,欧美,日韩| 成人毛片a级毛片在线播放| 边亲边吃奶的免费视频| 日韩一区二区视频免费看| 国产毛片在线视频| 丝袜脚勾引网站| 色视频在线一区二区三区| 精品国产国语对白av| 在线亚洲精品国产二区图片欧美 | 一区二区av电影网| 婷婷色综合www| 久久久国产欧美日韩av| 天天操日日干夜夜撸| 777米奇影视久久| 2021少妇久久久久久久久久久| av黄色大香蕉| 亚洲av日韩在线播放| 精品久久蜜臀av无| 日韩一区二区三区影片| 国产成人一区二区在线| 国产 一区精品| 亚洲av电影在线观看一区二区三区| 青春草国产在线视频| 国产成人午夜福利电影在线观看| 男人操女人黄网站| 亚洲成人手机| 久久国产精品男人的天堂亚洲 | 成人国语在线视频| 国产精品嫩草影院av在线观看| 在线观看一区二区三区激情| 免费av不卡在线播放| 午夜福利在线观看免费完整高清在| 国产精品一区二区三区四区免费观看| 日韩欧美一区视频在线观看| 久久久久久久久久久免费av| 母亲3免费完整高清在线观看 | 午夜影院在线不卡| 日韩人妻高清精品专区| 制服人妻中文乱码| 香蕉精品网在线| 欧美激情极品国产一区二区三区 | 大片免费播放器 马上看| 内地一区二区视频在线| 日本免费在线观看一区| 欧美少妇被猛烈插入视频| 狂野欧美激情性bbbbbb| 十八禁网站网址无遮挡| 七月丁香在线播放| 欧美精品亚洲一区二区| 高清视频免费观看一区二区| 最新中文字幕久久久久| 一本久久精品| 免费少妇av软件| 久久久久久久久久久久大奶| 男女国产视频网站| 中文字幕免费在线视频6| 成人免费观看视频高清| xxx大片免费视频| a级毛片黄视频| 午夜视频国产福利| 观看av在线不卡| 久久国产亚洲av麻豆专区| 黑人巨大精品欧美一区二区蜜桃 | 国产伦精品一区二区三区视频9| 久久午夜福利片| 91成人精品电影| 午夜福利网站1000一区二区三区| 国产国拍精品亚洲av在线观看| 一区二区三区四区激情视频| 久久久久久久精品精品| 观看美女的网站| 久久久久久久精品精品| 欧美日韩av久久| 国产亚洲精品第一综合不卡 | 久久女婷五月综合色啪小说| 久久久久久伊人网av| 丰满少妇做爰视频| 日韩精品免费视频一区二区三区 | 日本wwww免费看| 亚洲色图综合在线观看| 国产亚洲精品第一综合不卡 | 一边亲一边摸免费视频| 美女cb高潮喷水在线观看| 日韩视频在线欧美| 国产女主播在线喷水免费视频网站| 亚洲第一区二区三区不卡| 满18在线观看网站| 日韩中字成人| 激情五月婷婷亚洲| 九色亚洲精品在线播放| 亚洲久久久国产精品| 久久久久精品久久久久真实原创| 免费日韩欧美在线观看| 国产毛片在线视频| 最近最新中文字幕免费大全7| 简卡轻食公司| 国产欧美亚洲国产| 日韩av免费高清视频| 韩国高清视频一区二区三区| 夜夜看夜夜爽夜夜摸| 一级片'在线观看视频| 国产视频内射| 九九在线视频观看精品| 国产日韩一区二区三区精品不卡 | 视频在线观看一区二区三区| 黄片播放在线免费| 一个人免费看片子| av在线观看视频网站免费| 久久精品久久精品一区二区三区| 美女中出高潮动态图| 亚洲精品久久久久久婷婷小说| 免费观看无遮挡的男女| 日韩一区二区视频免费看| 亚洲色图 男人天堂 中文字幕 | 在线免费观看不下载黄p国产| 欧美人与善性xxx| 搡女人真爽免费视频火全软件| 国产亚洲精品久久久com| 国产又色又爽无遮挡免| 少妇丰满av| 亚洲欧美清纯卡通| 蜜桃在线观看..| 看非洲黑人一级黄片| 婷婷色综合www| 国产精品人妻久久久久久| 亚洲天堂av无毛| 99久久综合免费| 黄色欧美视频在线观看| 人妻制服诱惑在线中文字幕| 日韩大片免费观看网站| 成人二区视频| 亚洲av日韩在线播放| 美女xxoo啪啪120秒动态图| 久久精品国产亚洲av天美| 国产女主播在线喷水免费视频网站| 国产综合精华液| 久久精品国产鲁丝片午夜精品| 久久热精品热| 18禁在线无遮挡免费观看视频| 亚洲三级黄色毛片| 精品久久久久久久久亚洲| 婷婷色综合www| 日日摸夜夜添夜夜添av毛片| 国产精品国产三级国产av玫瑰| 久久久久国产精品人妻一区二区| 国产av精品麻豆| 国产精品欧美亚洲77777| 欧美亚洲日本最大视频资源| 边亲边吃奶的免费视频| 午夜91福利影院| 80岁老熟妇乱子伦牲交| 久久久久久久久大av| 一边摸一边做爽爽视频免费| 国产高清不卡午夜福利| 一级毛片 在线播放| 免费黄色在线免费观看| 国产精品一区二区在线观看99| 日韩av免费高清视频| 欧美成人精品欧美一级黄| 你懂的网址亚洲精品在线观看| 99九九线精品视频在线观看视频| 久久精品熟女亚洲av麻豆精品| 国产午夜精品久久久久久一区二区三区| av电影中文网址| 亚洲人成网站在线观看播放| 精品久久久久久电影网| 99热6这里只有精品| 黑丝袜美女国产一区| 制服人妻中文乱码| 久久婷婷青草| av福利片在线| 韩国av在线不卡| 久久女婷五月综合色啪小说| 日韩强制内射视频| 在线观看一区二区三区激情| 九九久久精品国产亚洲av麻豆| 欧美精品亚洲一区二区| 免费观看av网站的网址| 日日摸夜夜添夜夜爱| 日韩视频在线欧美| 亚洲av男天堂| 特大巨黑吊av在线直播| 久久99精品国语久久久| 婷婷色综合www| 一个人看视频在线观看www免费| 爱豆传媒免费全集在线观看| 久久精品国产亚洲av天美| 久久久午夜欧美精品| 能在线免费看毛片的网站| 日韩在线高清观看一区二区三区| 亚洲av福利一区| 亚洲精品国产av蜜桃| 欧美精品人与动牲交sv欧美| 男男h啪啪无遮挡| 国产av一区二区精品久久| 精品久久久久久电影网| 午夜精品国产一区二区电影| 日本av免费视频播放| 2021少妇久久久久久久久久久| 国产一区二区三区综合在线观看 | 曰老女人黄片| av.在线天堂| 国产av国产精品国产| 亚洲人成网站在线观看播放| 一边亲一边摸免费视频| 欧美精品高潮呻吟av久久| 69精品国产乱码久久久| 国产日韩欧美视频二区| 亚洲欧美一区二区三区黑人 | 中国国产av一级| 日本91视频免费播放| 亚洲美女黄色视频免费看| av不卡在线播放| 女人久久www免费人成看片| 啦啦啦在线观看免费高清www| 久久久久久久大尺度免费视频| 欧美精品一区二区大全| 午夜福利影视在线免费观看| .国产精品久久| av天堂久久9| 精品亚洲成国产av| 人人妻人人澡人人看| 久久久久国产精品人妻一区二区| 天天操日日干夜夜撸| av国产久精品久网站免费入址| 蜜桃在线观看..| xxx大片免费视频| 高清毛片免费看| 蜜臀久久99精品久久宅男| 春色校园在线视频观看| 人人妻人人澡人人爽人人夜夜| 久久午夜综合久久蜜桃| 国产午夜精品一二区理论片| 中国三级夫妇交换| 老熟女久久久| 欧美精品一区二区免费开放| 97精品久久久久久久久久精品| 人体艺术视频欧美日本| 国产成人a∨麻豆精品| 国产精品人妻久久久久久| 亚洲国产欧美在线一区| 91成人精品电影| 国产欧美日韩综合在线一区二区| 国产老妇伦熟女老妇高清| 国产免费现黄频在线看| av在线播放精品| 中国美白少妇内射xxxbb| 大码成人一级视频| 日本91视频免费播放| 日韩精品有码人妻一区| 国产精品蜜桃在线观看| 免费观看a级毛片全部| 99热全是精品| 亚洲精品久久久久久婷婷小说| 成年人午夜在线观看视频| 国产av码专区亚洲av| 卡戴珊不雅视频在线播放| 丁香六月天网| 中国三级夫妇交换| 国产亚洲av片在线观看秒播厂| 免费观看a级毛片全部| 少妇熟女欧美另类| 制服丝袜香蕉在线| 一本大道久久a久久精品| 岛国毛片在线播放| 黄色毛片三级朝国网站| 日本黄色日本黄色录像| av在线播放精品| 亚洲性久久影院| 亚洲精品国产色婷婷电影| 欧美一级a爱片免费观看看| 久久久久久久久大av| 熟妇人妻不卡中文字幕| 人人妻人人澡人人看| 久热久热在线精品观看| 亚洲精品日韩在线中文字幕| 曰老女人黄片| 久久免费观看电影| 下体分泌物呈黄色| 国产精品 国内视频| 美女cb高潮喷水在线观看| 国产午夜精品一二区理论片| 亚洲欧美成人综合另类久久久| 91久久精品国产一区二区成人| 99热这里只有精品一区| 伦精品一区二区三区| 九九久久精品国产亚洲av麻豆| 秋霞在线观看毛片| 尾随美女入室| 亚洲国产精品专区欧美| 久久精品夜色国产| 免费高清在线观看日韩| 99久久中文字幕三级久久日本| 午夜91福利影院| 久久精品熟女亚洲av麻豆精品| 老司机影院毛片| 国产欧美另类精品又又久久亚洲欧美| 秋霞在线观看毛片| 免费看不卡的av| av播播在线观看一区| 春色校园在线视频观看| 日日摸夜夜添夜夜添av毛片| 七月丁香在线播放| 亚洲精品成人av观看孕妇| 波野结衣二区三区在线| 国产亚洲最大av| 久久精品国产鲁丝片午夜精品| freevideosex欧美| 男男h啪啪无遮挡| 久久婷婷青草| 十分钟在线观看高清视频www| 蜜桃久久精品国产亚洲av| 日韩伦理黄色片| 亚洲精品456在线播放app| 国产一区二区三区av在线| 免费看av在线观看网站| av福利片在线| 亚洲精品一区蜜桃| 日本wwww免费看| 久久精品国产a三级三级三级| 亚洲美女视频黄频| 国产在线一区二区三区精| 日本wwww免费看| 久久精品国产鲁丝片午夜精品| 国产伦精品一区二区三区视频9| 久热久热在线精品观看| 亚洲精品aⅴ在线观看| 黑人欧美特级aaaaaa片| 视频区图区小说| 91精品国产国语对白视频| 欧美丝袜亚洲另类| 国产有黄有色有爽视频| 在线观看三级黄色| 国产精品99久久99久久久不卡 | 人人妻人人爽人人添夜夜欢视频| 九九久久精品国产亚洲av麻豆| 99热全是精品| 亚洲成人av在线免费| 狂野欧美激情性xxxx在线观看| 精品亚洲成国产av| 亚洲色图 男人天堂 中文字幕 | 黄色怎么调成土黄色| 两个人免费观看高清视频| 黑人高潮一二区| 亚洲国产欧美日韩在线播放| 男的添女的下面高潮视频| 午夜老司机福利剧场| videosex国产| 青春草亚洲视频在线观看| 国产一区有黄有色的免费视频| 九九久久精品国产亚洲av麻豆| 欧美3d第一页| 只有这里有精品99| 18禁裸乳无遮挡动漫免费视频| 蜜桃国产av成人99| 国产精品偷伦视频观看了| 中文乱码字字幕精品一区二区三区| 国产男女超爽视频在线观看| 免费观看无遮挡的男女| 色5月婷婷丁香| 国产欧美另类精品又又久久亚洲欧美| 99热这里只有精品一区| 中文欧美无线码| 日韩一区二区三区影片| 日韩一本色道免费dvd| 美女内射精品一级片tv| 久久久久久久久久成人| 激情五月婷婷亚洲| 午夜福利视频在线观看免费| 26uuu在线亚洲综合色| 国产精品国产三级国产专区5o| av.在线天堂| 久久久久久久精品精品| 精品人妻在线不人妻| 日韩大片免费观看网站| 免费黄网站久久成人精品| 成人毛片60女人毛片免费| 最近手机中文字幕大全| 日韩人妻高清精品专区| 欧美亚洲日本最大视频资源| www.色视频.com| 午夜影院在线不卡| 成人影院久久| 国产精品一区二区三区四区免费观看| 婷婷色综合www| 中文天堂在线官网| 国产无遮挡羞羞视频在线观看| 日韩中字成人| tube8黄色片| 午夜久久久在线观看| 熟女av电影| 亚洲欧美日韩卡通动漫| av.在线天堂| 欧美精品亚洲一区二区| 日本色播在线视频| 在线观看人妻少妇| 一级毛片电影观看| 久久久久国产网址| 欧美 亚洲 国产 日韩一| 日韩人妻高清精品专区| 飞空精品影院首页| 免费不卡的大黄色大毛片视频在线观看| 男女无遮挡免费网站观看| 国产高清国产精品国产三级| 免费看光身美女| 热re99久久国产66热| 久久人妻熟女aⅴ| 狂野欧美白嫩少妇大欣赏| 国产一区二区三区av在线| 交换朋友夫妻互换小说| 天堂俺去俺来也www色官网| 免费观看a级毛片全部| 日日啪夜夜爽| 夫妻午夜视频| 精品少妇黑人巨大在线播放| 国产免费一区二区三区四区乱码| 中文天堂在线官网| 亚洲精品456在线播放app| 精品久久久久久电影网| 日韩一区二区视频免费看| 观看美女的网站| 夫妻性生交免费视频一级片| 精品人妻熟女av久视频| 精品久久久久久久久亚洲| 精品亚洲成a人片在线观看| 国产精品三级大全| 看免费成人av毛片| 久久国内精品自在自线图片| 免费高清在线观看视频在线观看| 国产爽快片一区二区三区| 大码成人一级视频| 一本一本久久a久久精品综合妖精 国产伦在线观看视频一区 | 日韩一本色道免费dvd| 蜜桃国产av成人99| 97超视频在线观看视频| 国产精品国产av在线观看| 亚洲精品久久午夜乱码| 免费观看av网站的网址| 国产精品一二三区在线看| 日本wwww免费看| 成年女人在线观看亚洲视频| 国产高清有码在线观看视频| 国产成人精品久久久久久| 少妇 在线观看| av免费观看日本| tube8黄色片| 青春草亚洲视频在线观看| 色94色欧美一区二区| 美女国产高潮福利片在线看| 国产熟女午夜一区二区三区 | 久久影院123| 久久女婷五月综合色啪小说| 日韩 亚洲 欧美在线| 国产一区二区在线观看日韩| 亚洲欧美色中文字幕在线| 18禁在线播放成人免费| 插逼视频在线观看| a级毛色黄片| 搡女人真爽免费视频火全软件| 久久精品熟女亚洲av麻豆精品| 校园人妻丝袜中文字幕| 永久网站在线| 国产亚洲一区二区精品| 成人国产av品久久久| 国产片内射在线| 成人免费观看视频高清| 水蜜桃什么品种好| 亚洲欧洲国产日韩| 人妻 亚洲 视频| 黄色怎么调成土黄色| 欧美三级亚洲精品| 国产视频内射| 色吧在线观看| 亚洲精品一二三| 欧美日韩国产mv在线观看视频| 亚洲精品视频女| 亚洲人成网站在线播| 精品久久久久久久久av| 国产精品.久久久| 老司机影院成人| av免费观看日本| 国产色婷婷99| 日日爽夜夜爽网站| 22中文网久久字幕| 亚洲精品国产av蜜桃| 免费久久久久久久精品成人欧美视频 | 99久久综合免费| 亚洲精品亚洲一区二区| 伊人久久国产一区二区| 在线观看国产h片| 99视频精品全部免费 在线| 人妻系列 视频| 极品人妻少妇av视频| 免费看不卡的av| 能在线免费看毛片的网站| 蜜臀久久99精品久久宅男| av在线app专区| 一级二级三级毛片免费看| 久久国产精品大桥未久av| 一边摸一边做爽爽视频免费| 我的女老师完整版在线观看| 日日摸夜夜添夜夜添av毛片| 免费观看的影片在线观看| 欧美日韩成人在线一区二区| 极品少妇高潮喷水抽搐| 国产精品女同一区二区软件| 全区人妻精品视频| 日本黄色片子视频| 一本色道久久久久久精品综合| 久久久久久久久久成人| 亚洲精品日本国产第一区| 欧美bdsm另类| 一级毛片aaaaaa免费看小| 男男h啪啪无遮挡| 午夜日本视频在线| 在线观看人妻少妇| 日本爱情动作片www.在线观看| 亚洲精品aⅴ在线观看| 蜜桃久久精品国产亚洲av| 亚洲精品国产色婷婷电影| 最近中文字幕2019免费版| 国产乱来视频区| 亚洲av男天堂| 一个人看视频在线观看www免费| 久久久久网色| 欧美亚洲 丝袜 人妻 在线| 中文字幕亚洲精品专区| 十分钟在线观看高清视频www| 久久这里有精品视频免费| 18禁在线播放成人免费| 免费高清在线观看日韩| 狂野欧美激情性bbbbbb| 国产欧美日韩综合在线一区二区| 精品一区二区三卡| 久久综合国产亚洲精品| 免费av不卡在线播放| 亚洲国产色片| 亚洲激情五月婷婷啪啪| 亚洲成人一二三区av| 亚洲国产精品专区欧美| 久热这里只有精品99| 国产精品女同一区二区软件| 久久国产精品大桥未久av| 水蜜桃什么品种好| 成人黄色视频免费在线看| 涩涩av久久男人的天堂| 一级a做视频免费观看| 欧美激情国产日韩精品一区| 国产免费一区二区三区四区乱码| 中文天堂在线官网| 亚洲成人一二三区av| 欧美人与性动交α欧美精品济南到 | a级片在线免费高清观看视频| 日日爽夜夜爽网站| 欧美三级亚洲精品| 韩国av在线不卡| 日本wwww免费看| 日韩精品免费视频一区二区三区 | 亚洲国产欧美在线一区| 欧美老熟妇乱子伦牲交| 一二三四中文在线观看免费高清| 亚洲第一区二区三区不卡| 日韩一区二区三区影片| 亚洲美女视频黄频| 日韩视频在线欧美| 久久综合国产亚洲精品| 国产av精品麻豆| 免费黄色在线免费观看| 久久久久精品久久久久真实原创|