韓紅旗,桂 婕,張運(yùn)良,翁夢(mèng)娟,薛 陜,悅林東
(1.中國(guó)科學(xué)技術(shù)信息研究所,北京 100038;2.富媒體數(shù)字出版內(nèi)容組織與知識(shí)服務(wù)重點(diǎn)實(shí)驗(yàn)室(國(guó)家新聞出版署),北京 100038)
主題標(biāo)引(subject indexing)是對(duì)文獻(xiàn)主題及其他有檢索意義的特征進(jìn)行分析、表示、提煉和歸納,然后用某種檢索語(yǔ)言(自然語(yǔ)言、受控語(yǔ)言)標(biāo)注出來(lái),作為信息存儲(chǔ)與檢索依據(jù)的信息處理過(guò)程[1]。簡(jiǎn)而言之,主題標(biāo)引是對(duì)文獻(xiàn)內(nèi)容進(jìn)行主題分析、賦予主題詞標(biāo)識(shí)的過(guò)程。按照使用主題標(biāo)引語(yǔ)言的不同,主題標(biāo)引可以分為受控標(biāo)引和自然語(yǔ)言標(biāo)引(或自由標(biāo)引)。其中,受控標(biāo)引是采用敘詞表(或主題詞表)中選用的規(guī)范詞對(duì)文獻(xiàn)進(jìn)行標(biāo)注,自然語(yǔ)言標(biāo)引是直接選擇自然語(yǔ)言詞匯對(duì)文獻(xiàn)進(jìn)行標(biāo)引。主題標(biāo)引是數(shù)據(jù)資源加工和分析的基礎(chǔ)工作,我國(guó)國(guó)家標(biāo)準(zhǔn)《科學(xué)技術(shù)報(bào)告、學(xué)位論文和學(xué)術(shù)論文的編寫(xiě)格式》(GB 7713-87)明確規(guī)定論文關(guān)鍵詞應(yīng)盡可能采用《漢語(yǔ)主題詞表》等詞表提供的規(guī)范詞。
主題標(biāo)引是數(shù)字資源組織的有效手段,它的準(zhǔn)確性是保證數(shù)字資源檢索和利用的關(guān)鍵因素。在大數(shù)據(jù)時(shí)代,文本信息的規(guī)模和增速非常大,靠人工標(biāo)引不僅不可行,而且不可能,自動(dòng)標(biāo)引的價(jià)值凸顯。當(dāng)前,雖然全文檢索技術(shù)已經(jīng)非常成熟,但自動(dòng)標(biāo)引能實(shí)現(xiàn)信息精煉、提升、過(guò)濾,使檢索更有效率、檢索結(jié)果更準(zhǔn)確,因此其重要性愈發(fā)凸顯[2]。自動(dòng)標(biāo)引是指利用自動(dòng)化技術(shù)從文獻(xiàn)中抽取檢索標(biāo)志的過(guò)程。相比于人工標(biāo)引,自動(dòng)標(biāo)引具有速度快、成本低以及穩(wěn)定性和一致性高的優(yōu)點(diǎn),更適合大數(shù)據(jù)時(shí)代的數(shù)字信息資源標(biāo)注[1]。按照標(biāo)引詞的來(lái)源不同,自動(dòng)標(biāo)引可以分為抽詞標(biāo)引和賦詞標(biāo)引[2-3]。其中,抽詞標(biāo)引是從文獻(xiàn)(題名、摘要、關(guān)鍵詞或全文)中抽取關(guān)鍵詞來(lái)作為檢索標(biāo)識(shí);賦詞標(biāo)引則是根據(jù)文獻(xiàn)的內(nèi)容特征,從受控詞表中選擇敘詞或主題詞來(lái)作為檢索標(biāo)識(shí)。抽詞標(biāo)引法由于獲得的標(biāo)引詞可能不是受控詞表中的主題詞,不利于根據(jù)主題進(jìn)行文獻(xiàn)檢索或主題關(guān)聯(lián),給標(biāo)引結(jié)果的使用帶來(lái)不便,所以,在商業(yè)類型的文獻(xiàn)數(shù)據(jù)庫(kù)中,多采用賦詞標(biāo)引而不采用抽詞標(biāo)引。
然而在大數(shù)據(jù)時(shí)代,自動(dòng)標(biāo)引面臨著非常大的挑戰(zhàn)。挑戰(zhàn)主要來(lái)自三個(gè)方面:一是如何判斷一個(gè)文本與一個(gè)主題詞的語(yǔ)義相關(guān)性,尤其是在文本中沒(méi)有出現(xiàn)的主題詞;二是因?yàn)橹黝}詞表中的主題詞數(shù)量往往非常大,一般領(lǐng)域的主題詞有成千上萬(wàn),綜合性的主題詞表則可達(dá)10萬(wàn)以上,例如,《漢語(yǔ)主題詞表》共收錄19.6萬(wàn)個(gè)優(yōu)選詞、16.4萬(wàn)條非優(yōu)選詞[4],《中國(guó)分類主題詞表(2版)》正式主題詞有110837個(gè)[5],面對(duì)如此大規(guī)模的類目標(biāo)簽,常規(guī)的機(jī)器學(xué)習(xí)分類算法難以發(fā)揮作用;三是如何將層出不窮的新詞快速地納入自動(dòng)標(biāo)引算法是一個(gè)問(wèn)題,現(xiàn)有的算法常常不得不花費(fèi)大量時(shí)間再次訓(xùn)練復(fù)雜的模型。
現(xiàn)有的自動(dòng)標(biāo)引技術(shù)多是利用一些統(tǒng)計(jì)指標(biāo)或語(yǔ)言學(xué)方法從文本中抽取關(guān)鍵詞,再映射到主題詞實(shí)現(xiàn)賦詞標(biāo)引[6]。然而,這種方法一般無(wú)法抽取文本中沒(méi)有的主題詞?;跈C(jī)器學(xué)習(xí)的主題標(biāo)引方法稱為多標(biāo)簽分類學(xué)習(xí)。該類學(xué)習(xí)算法可以分為兩類[7]:一類是傳統(tǒng)的多標(biāo)簽分類,標(biāo)簽數(shù)量一般較少,往往幾個(gè)或數(shù)十個(gè),無(wú)法適應(yīng)標(biāo)簽規(guī)模成千上萬(wàn)的情況,更不用說(shuō)10萬(wàn)以上了;另一類稱為極端多標(biāo)簽文本分類(extreme multi-label text classifi‐cation,XMTC),可以處理規(guī)模龐大的多標(biāo)簽分類,然而這個(gè)方法要求每一個(gè)標(biāo)簽都有訓(xùn)練樣本數(shù)據(jù),可現(xiàn)實(shí)中有些類很難找到訓(xùn)練數(shù)據(jù)或訓(xùn)練數(shù)據(jù)偏少,限制了該類算法的應(yīng)用。除此之外,標(biāo)簽分類常常面臨著類目數(shù)據(jù)不均衡問(wèn)題所帶來(lái)的分類精度低,以及難以快速響應(yīng)新增標(biāo)簽分類的困境。
本研究面臨的是采用數(shù)萬(wàn)或10萬(wàn)以上主題詞對(duì)大規(guī)模文本進(jìn)行標(biāo)引的情況,而且沒(méi)有帶標(biāo)簽的訓(xùn)練數(shù)據(jù),無(wú)法使用XMTC方法,顯然傳統(tǒng)機(jī)器學(xué)習(xí)方法也無(wú)能為力。在從大規(guī)模主題詞表中選擇若干語(yǔ)義相關(guān)的主題詞賦予一個(gè)文本時(shí),既要解決主題詞與文本語(yǔ)義上的匹配,又要適應(yīng)海量數(shù)據(jù)的快速標(biāo)引以及新詞的標(biāo)引。采用的主題詞表由中國(guó)工程科技知識(shí)中心(下文稱“知識(shí)中心”)委托中國(guó)科學(xué)技術(shù)信息研究所建設(shè)。知識(shí)中心詞表在20余家分中心領(lǐng)域詞表的基礎(chǔ)上形成了“核心集+擴(kuò)展集”的架構(gòu),其中核心集為主題詞表,共包含18.39萬(wàn)條主題詞,未來(lái)將不斷補(bǔ)充新的主題詞。知識(shí)中心建設(shè)中需要對(duì)大量未標(biāo)注關(guān)鍵詞的文獻(xiàn)、報(bào)告、新聞等數(shù)據(jù)標(biāo)注主題詞,用于后續(xù)的檢索、主題分析等工作。
美國(guó)學(xué)者盧恩(H.P.Luhn)在1957年首次開(kāi)展了主題標(biāo)引實(shí)驗(yàn)[2-3],并在IBM公司的研究刊物上發(fā)表了第一篇有關(guān)自動(dòng)主題標(biāo)引的論文,題名為“文獻(xiàn)處理機(jī)械化編碼和檢索用的統(tǒng)計(jì)學(xué)方法”。盧恩在該文中提出了詞頻統(tǒng)計(jì)加權(quán)方法和“自動(dòng)抽詞標(biāo)引”的基本思想,奠定了自動(dòng)主題標(biāo)引的基礎(chǔ)。
自動(dòng)主題標(biāo)引方法按技術(shù)可以分為四類:統(tǒng)計(jì)標(biāo)引法、語(yǔ)言分析標(biāo)引法、機(jī)器學(xué)習(xí)標(biāo)引法和混合方法[2-3]。
統(tǒng)計(jì)標(biāo)引法的主要思想是:詞在文檔中出現(xiàn)的頻率是該詞對(duì)文檔重要性的有效測(cè)量指標(biāo)。通常認(rèn)為,處于高頻和低頻之間的那部分詞匯才最適宜做標(biāo)引詞。也有學(xué)者使用詞頻之外的其他一些顯著統(tǒng)計(jì)特征,如共現(xiàn)、逆文檔詞頻、熵、互信息等。統(tǒng)計(jì)標(biāo)引法可細(xì)分為詞頻統(tǒng)計(jì)、加權(quán)統(tǒng)計(jì)、概率統(tǒng)計(jì)、分類判別統(tǒng)計(jì)等。例如,李素建等[8]通過(guò)建立最大熵模型的特征集合實(shí)現(xiàn)關(guān)鍵詞自動(dòng)標(biāo)引;柯平等[9]基于詞頻統(tǒng)計(jì)從文本中抽取高頻詞實(shí)現(xiàn)標(biāo)引,并與關(guān)鍵詞進(jìn)行匹配對(duì)比,說(shuō)明統(tǒng)計(jì)方法的可行性。
語(yǔ)言分析標(biāo)引法是指對(duì)被標(biāo)引對(duì)象進(jìn)行詞法分析(lexical analysis)、句法分析(syntactical analy‐sis)、語(yǔ)義分析(semantic analysis)和篇章分析(text analysis)等,從而達(dá)到自動(dòng)標(biāo)引的目的。詞法分析主要是分詞、詞性標(biāo)注和獲得詞匯的詳細(xì)特征。句法分析標(biāo)引法是通過(guò)從語(yǔ)法角度來(lái)確定句子中每個(gè)詞的作用(比如,是主語(yǔ)還是謂語(yǔ)),以及詞與詞之間的相互關(guān)系(比如,是修飾關(guān)系還是被修飾關(guān)系)來(lái)實(shí)現(xiàn)的。語(yǔ)義分析標(biāo)引法是在分析詞和短語(yǔ)在特定上下文環(huán)境中的確切含義的基礎(chǔ)上,選擇與主題含義相同的標(biāo)引詞來(lái)描述文獻(xiàn)的。篇章分析主要是通過(guò)找出篇章中內(nèi)容相關(guān)的片段,從篇章角度提取能反映文本主題的詞語(yǔ)。例如,丁芹[10]提出一種利用語(yǔ)義格進(jìn)行文獻(xiàn)語(yǔ)義表述的方法,對(duì)標(biāo)引詞的語(yǔ)義格加權(quán)算法做了較合理的解釋和推導(dǎo),并引入一種計(jì)算詞語(yǔ)之間相似度的方法實(shí)現(xiàn)自動(dòng)標(biāo)引;趙丹[11]利用句法分析器對(duì)文獻(xiàn)提取出來(lái)的主題句進(jìn)行成分標(biāo)注、短語(yǔ)結(jié)構(gòu)標(biāo)注、詞性標(biāo)注,進(jìn)一步利用統(tǒng)計(jì)信息、詞或短語(yǔ)結(jié)構(gòu)的詞間的聯(lián)系實(shí)現(xiàn)主題標(biāo)注。
基于機(jī)器學(xué)習(xí)的自動(dòng)標(biāo)引方法是利用計(jì)算機(jī)來(lái)理解和模擬人類特有的智能系統(tǒng)活動(dòng),學(xué)習(xí)人們?nèi)绾芜\(yùn)用自己所掌握的知識(shí),去解決現(xiàn)實(shí)中的問(wèn)題。目前基于機(jī)器學(xué)習(xí)的自動(dòng)標(biāo)引方法一般通過(guò)訓(xùn)練集來(lái)獲得相關(guān)統(tǒng)計(jì)參數(shù),通過(guò)有監(jiān)督或無(wú)監(jiān)督的過(guò)程進(jìn)行自動(dòng)標(biāo)引。機(jī)器學(xué)習(xí)法可以分為分類、聚類、集成學(xué)習(xí)、深度學(xué)習(xí)等。例如,章成志[12]整合統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型與集成學(xué)習(xí)方法的優(yōu)勢(shì),對(duì)文檔進(jìn)行基于多分類模型綜合投票實(shí)現(xiàn)自動(dòng)標(biāo)引;王新[13]利用詞嵌入將文獻(xiàn)向量轉(zhuǎn)換為富含詞匯間語(yǔ)義關(guān)系的張量,再利用深層卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)文獻(xiàn)主題國(guó)別的自動(dòng)標(biāo)引;陳博等[14]基于文本挖掘技術(shù)和可視化工具實(shí)現(xiàn)可視化主題自動(dòng)標(biāo)引。國(guó)外文獻(xiàn)近些年的此類研究集中在對(duì)MeSH(medical subject headings)主題詞標(biāo)引的挑戰(zhàn)賽BioASQ上。其中,Mork等[15]提出MTI(medical text indexer),通過(guò)將MetaMap、PubMed相關(guān)引文與聚類排序方法結(jié)合實(shí)現(xiàn)近3萬(wàn)條MeSH主題詞的標(biāo)引,因?yàn)樵摲椒ㄐ阅茌^優(yōu)而被作為BioASQ挑戰(zhàn)賽的基準(zhǔn)[16];其他MeSH主題詞的標(biāo)引 方 法 有MeSHLabeler[17]、DeepMeSH[18]、FullM‐eSH[19]、MeSHProbeNet[20]、卷 積 神 經(jīng) 網(wǎng) 絡(luò)[21]、BERTMeSH[22]、MeSHProbeNet-P[23]等。這些機(jī)器學(xué)習(xí)方法的突出特點(diǎn)是將深度學(xué)習(xí)技術(shù)應(yīng)用于主題詞標(biāo)引,依賴于大量的人工標(biāo)引數(shù)據(jù)進(jìn)行模型訓(xùn)練。
以上三類方法各有優(yōu)缺點(diǎn)。統(tǒng)計(jì)標(biāo)引法簡(jiǎn)單,實(shí)現(xiàn)容易,但準(zhǔn)確率相對(duì)較低,一般用于抽詞標(biāo)引,不適合于賦詞標(biāo)引。語(yǔ)言分析標(biāo)引法相對(duì)準(zhǔn)確率高,但容易受到語(yǔ)言“規(guī)則庫(kù)”的影響,通用性差;它既可用于抽詞標(biāo)引,也可用于賦詞標(biāo)引,但用于賦詞標(biāo)引時(shí),一般無(wú)法將受控詞中的詞與待標(biāo)文檔的整體語(yǔ)義進(jìn)行比較,獲得的標(biāo)引詞可能存在與待標(biāo)文檔語(yǔ)義關(guān)聯(lián)性不高的問(wèn)題。機(jī)器學(xué)習(xí)標(biāo)引法具有較好的移植性,即同一方法可以很方便地應(yīng)用到不同的領(lǐng)域,但是該方法對(duì)于不同類型數(shù)據(jù)需要訓(xùn)練多個(gè)分類器,訓(xùn)練時(shí)間較長(zhǎng),可能存在數(shù)據(jù)稀疏問(wèn)題及過(guò)擬合學(xué)習(xí)問(wèn)題;該方法一般用于賦詞標(biāo)引,但往往受制于算法的復(fù)雜性和受控詞類別的數(shù)量,一般不適合于大規(guī)模受控詞表的標(biāo)注。
混合方法則是上述方法的綜合運(yùn)用,例如,先利用統(tǒng)計(jì)標(biāo)引法獲取初步標(biāo)引結(jié)果,再利用語(yǔ)言分析法過(guò)濾統(tǒng)計(jì)分析結(jié)果以獲得更好的標(biāo)引詞,或加入啟發(fā)式知識(shí),如詞的位置、詞長(zhǎng)、詞的排版規(guī)則、HTML標(biāo)記等。例如,李綱等[24]利用詞語(yǔ)語(yǔ)義相關(guān)度算法對(duì)詞匯鏈的構(gòu)建算法進(jìn)行了改進(jìn),并結(jié)合詞頻和詞的位置等統(tǒng)計(jì)信息,實(shí)現(xiàn)關(guān)鍵詞的自動(dòng)標(biāo)引;Gil-Leiva[25]結(jié)合參考文獻(xiàn)、標(biāo)題、摘要等的位置啟發(fā)式規(guī)則和TF-IDF實(shí)現(xiàn)對(duì)科學(xué)文章的自動(dòng)標(biāo)引。
機(jī)器學(xué)習(xí)標(biāo)引法和混合方法是近年來(lái)得到廣泛采用的方法,但這些方法均未開(kāi)展大規(guī)模主題詞標(biāo)注的研究,或者解決的只是抽詞標(biāo)引問(wèn)題。例如,陳白雪等[26]以中文核心期刊論文中作者標(biāo)注的關(guān)鍵詞和分類號(hào)為源數(shù)據(jù),形成9萬(wàn)多的關(guān)鍵詞詞表,然后使用TF-IDF算法和位置加權(quán)算法實(shí)現(xiàn)科技項(xiàng)目數(shù)據(jù)的標(biāo)引,該研究雖然涉及較大規(guī)模的關(guān)鍵詞,但只是一種抽詞標(biāo)引方法;唐曉波等[27]針對(duì)目前的標(biāo)引系統(tǒng)僅以文檔為標(biāo)引單位、無(wú)法深入到文本內(nèi)容的問(wèn)題,引入本體語(yǔ)義擴(kuò)展和神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練等技術(shù),提出了基于文本知識(shí)片段標(biāo)引的方法,獲得比傳統(tǒng)方式精度更高的結(jié)果,但實(shí)證僅對(duì)構(gòu)建的一個(gè)小型糖尿病本體開(kāi)展;FullMeSH[19]和BERTMeSH[22]利用全文本代替標(biāo)題和摘要的MeSH詞表標(biāo)注方法,實(shí)現(xiàn)大規(guī)模PubMed論文的標(biāo)注,但這個(gè)大規(guī)模主要體現(xiàn)在論文的規(guī)模上,而不是詞表的規(guī)模上。
分布式詞向量是自然語(yǔ)言處理領(lǐng)域中的一類重要技術(shù),其核心是對(duì)文本中的單詞建模,用一個(gè)較低維的向量來(lái)表征每個(gè)單詞[28-30]。詞向量的生成方法很多,目前性能最佳的是基于深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型生成的分布式詞向量,它通過(guò)無(wú)監(jiān)督的機(jī)器學(xué)習(xí)方法從海量數(shù)據(jù)中自動(dòng)學(xué)習(xí)詞匯的語(yǔ)義特征,不需要人工標(biāo)注和復(fù)雜煩瑣的特征工程。分布式詞向量不像傳統(tǒng)的詞向量那樣維度高且稀疏,而是一種嵌入式向量,將單詞表示為一個(gè)連續(xù)的、低維的、實(shí)值向量(通常為100~300維),每一維度代表了一定的語(yǔ)義。
word2vec詞向量是2013年由Mikolov等[31]從海量的Google新聞?wù)Z料中訓(xùn)練得到的,是目前使用最廣泛的神經(jīng)網(wǎng)絡(luò)詞向量。word2vec利用深度學(xué)習(xí)的思想,通過(guò)訓(xùn)練,將每個(gè)詞映射成維實(shí)數(shù)向量(一般為模型中的超參數(shù)),通過(guò)詞之間的距離(如co‐sine相似度、歐幾里得距離等)來(lái)判斷它們之間的語(yǔ)義相似度。詞向量距離越近,詞匯表示的語(yǔ)義就越相似。后來(lái)的研究者借鑒詞嵌入向量的思路,提出了一些新的詞向量模型,如GloVe(global vec‐tors)[32]、ELMo(embeddings from language mod‐els)[33]、BERT(bidirectional encoder representations from transformers)[34]等。分布式詞向量現(xiàn)在已被廣泛應(yīng)用于分類、聚類、命名實(shí)體識(shí)別、詞性分析等自然語(yǔ)言處理任務(wù)中。
為了實(shí)現(xiàn)將一個(gè)主題詞賦予一篇待標(biāo)引文本,需要確定它們之間的語(yǔ)義相關(guān)性。從大規(guī)模語(yǔ)料中訓(xùn)練的分布式詞向量較好地保留了詞匯的語(yǔ)義信息,如果能利用分布式詞向量將主題詞和待標(biāo)引文本表示為同樣維度、可語(yǔ)義計(jì)算的向量,那么就可以使用歐幾里得距離或cosine相似度等指標(biāo)計(jì)算一個(gè)主題詞和待標(biāo)引文本之間的相似度,如圖1所示。在計(jì)算了所有主題詞與待標(biāo)引文本的相似度指標(biāo)后,就可以對(duì)所有相似性指標(biāo)值進(jìn)行排序,然后選擇排名靠前的主題詞輸出,作為文本主題標(biāo)引的結(jié)果。
圖1 主題詞與文本之間相似性計(jì)算的基本思路
這需要解決兩個(gè)關(guān)鍵問(wèn)題,一個(gè)問(wèn)題是如何利用預(yù)訓(xùn)練的分布式詞向量生成主題詞和待標(biāo)引文本的表示向量,另一個(gè)問(wèn)題是如何解決主題詞和文本向量之間的巨量計(jì)算。主題詞數(shù)量龐大,如果將其全部和待標(biāo)引文本計(jì)算相似度將耗費(fèi)大量的計(jì)算時(shí)間,使得標(biāo)引方法實(shí)際上不可用,顯然也沒(méi)有必要這樣做,因?yàn)榕c文本緊密相關(guān)的主題詞數(shù)量一般不會(huì)特別多。對(duì)于第一個(gè)問(wèn)題,我們借鑒doc2vec[35-36]的基本思想來(lái)解決。對(duì)于第二個(gè)問(wèn)題,我們使用了一種被稱為sampling block的技術(shù)生成文本的候選主題詞[37],只需將待標(biāo)引文本與數(shù)量較少的主題詞進(jìn)行向量相似度計(jì)算。
本研究提出的自動(dòng)化標(biāo)引方法的流程如圖2所示,可以分為6個(gè)步驟:①主題詞表示向量生成;②普通詞與主題詞的映射關(guān)系表生成;③待標(biāo)引文本的預(yù)處理;④待標(biāo)引文本的表示向量生成;⑤待標(biāo)引文本向量候選主題詞生成;⑥文本的主題標(biāo)引。分別對(duì)應(yīng)圖2中標(biāo)注了數(shù)字1~6的虛線矩形方框。
圖2 主題標(biāo)引實(shí)現(xiàn)流程
1)主題詞表示向量生成
獲取大規(guī)模的文本語(yǔ)料數(shù)據(jù),對(duì)語(yǔ)料數(shù)據(jù)進(jìn)行無(wú)用標(biāo)簽刪除、分詞、數(shù)字文本過(guò)濾、格式轉(zhuǎn)換等處理,形成可機(jī)器批量處理的規(guī)范格式數(shù)據(jù),基于詞向量技術(shù)(本研究使用word2vec,也可以采用其他詞向量技術(shù)),將詞表示為具有特定維數(shù)的稠密的嵌入式向量,形成詞向量庫(kù)W。經(jīng)過(guò)詞向量技術(shù)處理后,可以獲得語(yǔ)料庫(kù)中每一個(gè)詞的向量表示,設(shè)向量的維數(shù)為k,則對(duì)于一個(gè)詞w i,其向量可以表示為[w i1,w i2,…,w ik]。
利用訓(xùn)練好的詞向量庫(kù)生成主題詞的表示向量。首先獲取受控詞表中的主題詞列表,然后逐詞循環(huán)采用如下方法獲得每一個(gè)主題詞的向量表示。對(duì)一個(gè)主題詞,假設(shè)為T i,去詞向量庫(kù)W中檢索,若存在,則用詞向量庫(kù)中的向量表示[wi1,w i2,…,w ik]作為該主題詞的向量表示;若不存在,則將該主題詞切分為p個(gè)短詞,將其中無(wú)意義的連接詞去掉,假設(shè)一個(gè)主題詞T i切分后為將每一個(gè)短詞去詞向量庫(kù)W中檢索,獲得每一個(gè)短詞的向量表示,則采用這些短詞向量的平均值作為該主題詞的向量表示,計(jì)算方法為
2)普通詞與主題詞的映射關(guān)系表生成
如上文所述,一般受控詞表規(guī)模會(huì)很大,將文本與整個(gè)受控詞表的主題詞進(jìn)行相似度計(jì)算將帶來(lái)很大的運(yùn)算量。為了避免將待標(biāo)引文本與受控詞表中的每一個(gè)主題詞進(jìn)行對(duì)比,通過(guò)大規(guī)模文本語(yǔ)料庫(kù)建立一個(gè)主題詞與若干個(gè)普通詞的映射關(guān)系,實(shí)現(xiàn)文本向量與主題詞向量比對(duì)過(guò)程中的運(yùn)算約減處理。建立的主題詞與普通詞的映射關(guān)系如表1所示。
建立映射關(guān)系表(表1)的具體方法為:從受控詞表中獲取主題詞的列表,對(duì)每一個(gè)主題詞The‐saurusi,在大規(guī)模文本語(yǔ)料中進(jìn)行檢索,獲取包含該主題詞的全部文本集合,然后對(duì)文本集合中的全部文本進(jìn)行分詞和停用詞處理,計(jì)算文本中全部詞的TF-IDF值,按照從大到小排序后取前n個(gè)普通詞(Wordi1,Wordi2,…,Wordin)作為該主題詞關(guān)聯(lián)度強(qiáng)的詞匯列表。該工作也是主題標(biāo)引的準(zhǔn)備階段,目的是生成與每一個(gè)標(biāo)引的主題詞語(yǔ)義關(guān)聯(lián)度特別強(qiáng)的詞匯集合。利用主題詞與普通詞的映射關(guān)系表,對(duì)于一個(gè)普通詞來(lái)說(shuō),可以通過(guò)查表獲得與其關(guān)聯(lián)性高的主題詞列表。
表1 主題詞與普通詞的映射關(guān)系
3)待標(biāo)引文本的預(yù)處理
在前兩個(gè)準(zhǔn)備階段工作完成后,就可以正式開(kāi)始文本的自動(dòng)標(biāo)引工作。對(duì)一個(gè)待標(biāo)引的文本首先進(jìn)行分詞、停用詞處理等預(yù)處理工作,獲得文本中包含的詞列表,統(tǒng)計(jì)每個(gè)詞出現(xiàn)的數(shù)量(詞頻)。該工作主要是為下一步生成待標(biāo)引文本的表示向量和其可能主題詞集合做準(zhǔn)備。
4)待標(biāo)引文本的表示向量生成
對(duì)一個(gè)待標(biāo)引文本做預(yù)處理后,可以獲取其包含的詞列表以及各詞在文本中出現(xiàn)的次數(shù),記為[(w1,f1),(w2,f2),…,(w q,f q)],其 中,w1,w2,…,w q為 文本中包含的詞列表,f1,f2,…,f q是它們?cè)谖谋局谐霈F(xiàn)的次數(shù)。利用詞列表及其頻次,基于平均詞向量法(avg-w2v)獲得該待標(biāo)引文本的k維向量表示,即以文本中各詞向量的加權(quán)平均值作為文本的表示,其中權(quán)重為文本中各詞的詞頻,計(jì)算方法為
其中,w j1,w j2,…,w jk是w j在詞向量庫(kù)W中的向量各分量值。獲得的待標(biāo)引文本的表示向量與主題詞的表示向量的維數(shù)一致,均為k維,而且它們都是基于同一詞向量庫(kù)W生成的,為計(jì)算待標(biāo)引文本與主題詞的語(yǔ)義相關(guān)度提供了保障。
5)待標(biāo)引文本向量候選主題詞生成
待標(biāo)引文本預(yù)處理后形成了詞列表,基于構(gòu)建的主題詞與普通詞的映射關(guān)系表,可以獲得與待標(biāo)引文本關(guān)聯(lián)強(qiáng)的候選主題詞列表,我們稱這項(xiàng)技術(shù)為sampling block,它使對(duì)文本主題標(biāo)引時(shí)不需要進(jìn)行大量的向量相似度計(jì)算,只需要將文本向量與數(shù)量不大的主題詞表示向量進(jìn)行比對(duì),可以有效減少比對(duì)的次數(shù),大幅減少運(yùn)算量,從而大大提高標(biāo)引效率。
圖3說(shuō)明了候選主題詞產(chǎn)生的方法。對(duì)于文本分詞預(yù)處理后形成的每一個(gè)普通詞w1,w2,…,w q,到主題詞與普通詞的映射關(guān)系表中查找,得到一個(gè)可能的候選主題詞集合,這個(gè)集合一般來(lái)說(shuō)只有幾十個(gè)或數(shù)百個(gè),具體跟文檔長(zhǎng)度及包含的詞數(shù)量有關(guān)。
圖3 候選主題詞生成的方法示意圖
6)文本的主題標(biāo)引
有了候選主題詞列表后,就可以將待標(biāo)引文本的表示向量和篩選出來(lái)的受控詞表中候選主題詞的向量進(jìn)行語(yǔ)義相似性比較。語(yǔ)義相似性計(jì)算采用余弦方法,對(duì)于一個(gè)文檔表示向量d→=[d1,d2,…,d k]和一個(gè)主題詞表示向量=[T1,T2,…,T k],計(jì)算公式為
也可以采用其他方法。
對(duì)待標(biāo)引文本表示向量和全部候選主題詞表示向量的相似度結(jié)果進(jìn)行排序,選擇排名靠前的m個(gè)主題詞對(duì)文本進(jìn)行標(biāo)注。m可以根據(jù)需要設(shè)定,也可以輸出全部的主題詞。
根據(jù)本研究提出的方法開(kāi)發(fā)了自動(dòng)化的主題標(biāo)引工具,利用該標(biāo)引工具對(duì)近億條記錄進(jìn)行了標(biāo)注,標(biāo)注速度達(dá)到每秒60余條記錄。后期對(duì)標(biāo)引工具進(jìn)行了優(yōu)化,標(biāo)引速度達(dá)到每秒160余條記錄,能較好地滿足中國(guó)工程科技知識(shí)中心數(shù)據(jù)資源標(biāo)引的需求。在信息檢索中,關(guān)鍵詞作為一個(gè)揭示文本主題的單位,標(biāo)引關(guān)鍵詞的數(shù)量適合定在9個(gè)詞以內(nèi)[3]。基于該認(rèn)識(shí),以及對(duì)部分樣本的人工分析結(jié)果,一篇文本的機(jī)標(biāo)主題詞最多保留8個(gè)(下文稱“標(biāo)引主題詞”)。我們從標(biāo)注好的文獻(xiàn)中抽取了100萬(wàn)條數(shù)據(jù),字段包括標(biāo)題、摘要、作者關(guān)鍵詞和標(biāo)引主題詞。對(duì)該數(shù)據(jù)集中作者關(guān)鍵詞字段中不包含主題詞的記錄進(jìn)行刪除,剩余671607條數(shù)據(jù),下文將這個(gè)數(shù)據(jù)集稱為index-dataset,統(tǒng)計(jì)后發(fā)現(xiàn)其包含的主題詞有63053個(gè)。
為了評(píng)估提出的自動(dòng)化標(biāo)引方法的效果,基于抽取的100萬(wàn)條數(shù)據(jù),使用結(jié)巴關(guān)鍵詞工具生成了對(duì)比數(shù)據(jù)集jieba-dataset。首先采用結(jié)巴關(guān)鍵詞工具從100萬(wàn)篇文獻(xiàn)的標(biāo)題和摘要中抽取關(guān)鍵詞(下文稱“結(jié)巴關(guān)鍵詞”),同樣結(jié)巴關(guān)鍵詞最多保留8個(gè),形成字段包含標(biāo)題、摘要、作者關(guān)鍵詞和結(jié)巴關(guān)鍵詞的數(shù)據(jù)集合,并刪除作者關(guān)鍵詞中沒(méi)有出現(xiàn)在結(jié)巴關(guān)鍵詞的詞匯形成jieba-dataset。
評(píng)價(jià)指標(biāo)采用多標(biāo)簽分類評(píng)估指標(biāo)flat mea‐sure[18]。該評(píng)價(jià)指標(biāo)包括基于實(shí)例的方法(examplebased method)和基于標(biāo)簽的方法(label-based method)兩類?;趯?shí)例的方法把評(píng)價(jià)過(guò)程分解為單個(gè)實(shí)例的評(píng)價(jià),然后求所有實(shí)例的均值。基于標(biāo)簽的方法把評(píng)價(jià)過(guò)程分解為基于單個(gè)標(biāo)簽的評(píng)價(jià),然后求所有標(biāo)簽的均值;其又可以進(jìn)一步分為宏平均(macro average)和微平均(micro average),其中宏平均對(duì)每個(gè)類別賦予相同的權(quán)重,而微平均對(duì)每個(gè)文檔的分類結(jié)果賦予相同的權(quán)重。因?yàn)橹黝}標(biāo)引更強(qiáng)調(diào)對(duì)一篇篇文檔標(biāo)引的效果,采用基于實(shí)例的方法或微平均相對(duì)而言更適合。這里采用基于實(shí)例的評(píng)價(jià)方法,其計(jì)算方法為:設(shè)文檔總數(shù)量為M,標(biāo)簽總數(shù)量為K。對(duì)于M個(gè)文檔中的任意一實(shí)例文檔i,其真實(shí)標(biāo)簽列表記為y i,預(yù)測(cè)標(biāo)簽列表記為?,它們均有K個(gè)標(biāo)簽元素,每個(gè)元素的取值為{0,1},即某個(gè)標(biāo)簽出現(xiàn)時(shí)取值為1,不出現(xiàn)時(shí)取值為0。則對(duì)一個(gè)實(shí)例文檔i,有
其中,EBPi是該實(shí)例文檔標(biāo)簽預(yù)測(cè)的準(zhǔn)確率;EBRi是標(biāo)簽預(yù)測(cè)的召回率;EBFi是標(biāo)簽預(yù)測(cè)的F1-mea‐sure值。進(jìn)而得出整體上的評(píng)價(jià)指標(biāo):
為了評(píng)估本研究提出方法的效果,首先統(tǒng)計(jì)了index-dataset和jieba-dataset兩個(gè)數(shù)據(jù)集中不同作者關(guān)鍵詞數(shù)量下的文檔數(shù)量分布。這里的作者關(guān)鍵詞數(shù)量指一篇論文包含的作者關(guān)鍵詞數(shù)量。其中,in‐dex-dataset數(shù)據(jù)集中,作者關(guān)鍵詞中已經(jīng)去除了不在主題詞表中的詞匯;jieba-dataset數(shù)據(jù)集中,作者關(guān)鍵詞中則去除了沒(méi)有出現(xiàn)在結(jié)巴關(guān)鍵詞中的詞匯。不同作者關(guān)鍵詞數(shù)量下的文檔數(shù)量分布如表2所示,其中文檔數(shù)量(標(biāo)引)表示的是index-datas‐et數(shù)據(jù)集中不同關(guān)鍵詞數(shù)量下的文檔數(shù)量分布,文檔數(shù)量(結(jié)巴)表示的是jieba-dataset數(shù)據(jù)集中不同關(guān)鍵詞數(shù)量下的文檔數(shù)量分布。
從表2可以看出,在1個(gè)作者關(guān)鍵詞數(shù)量的情況下,結(jié)巴關(guān)鍵詞的文檔數(shù)量超過(guò)了本文自動(dòng)化標(biāo)引算法的文檔數(shù)量;而在其他作者關(guān)鍵詞數(shù)量下,本文自動(dòng)化標(biāo)引算法標(biāo)引的主題詞數(shù)量均大于結(jié)巴關(guān)鍵詞的文檔數(shù)量,而且數(shù)量?jī)?yōu)勢(shì)明顯??紤]到在形成index-dataset和jieba-dataset數(shù)據(jù)集時(shí),分別去掉了作者關(guān)鍵詞中沒(méi)有出現(xiàn)在標(biāo)引主題詞和結(jié)巴關(guān)鍵詞的詞匯,說(shuō)明作者關(guān)鍵詞數(shù)量為1的情況下結(jié)巴關(guān)鍵詞與作者關(guān)鍵詞有較高的重合數(shù),而在多作者關(guān)鍵詞數(shù)量下,本文自動(dòng)化標(biāo)引算法標(biāo)引的主題詞與作者關(guān)鍵詞有較高的重合數(shù),標(biāo)引算法總體上比結(jié)巴關(guān)鍵詞算法有優(yōu)勢(shì)。
表2 不同作者關(guān)鍵詞數(shù)量下的文檔數(shù)量分布
分別計(jì)算了兩個(gè)數(shù)據(jù)集在不同作者關(guān)鍵詞數(shù)量下的EBP、EBR和EBF指標(biāo),如圖4所示。其中,數(shù)據(jù)點(diǎn)標(biāo)記為正方形的線條表示index-dataset上的結(jié)果,數(shù)據(jù)點(diǎn)標(biāo)記為圓形的線條表示jieba-dataset上的結(jié)果;EBP指標(biāo)用實(shí)線(solid line)表示,EBR指標(biāo)用短劃線(dashed line)表示,EBF指標(biāo)用點(diǎn)線(dotted line)表示。相對(duì)而言,兩個(gè)數(shù)據(jù)集上的EBR指標(biāo)值較EBP大,這主要是因?yàn)轭A(yù)測(cè)的標(biāo)簽數(shù)量平均較大(最多保留了8個(gè)主題詞或結(jié)巴關(guān)鍵詞),而大多數(shù)論文中關(guān)鍵詞數(shù)量在3~5個(gè),且去除了未出現(xiàn)在機(jī)器標(biāo)引詞中的關(guān)鍵詞。
從圖4可以看出,不管是標(biāo)引主題詞還是結(jié)巴關(guān)鍵詞方法,隨著作者關(guān)鍵詞數(shù)量的增加,準(zhǔn)確性在提高而召回率在下降,且本文標(biāo)引方法召回率下降速度更快。結(jié)巴關(guān)鍵詞在3項(xiàng)指標(biāo)上均有優(yōu)勢(shì),尤其是EBR指標(biāo),具有明顯的優(yōu)勢(shì)。這主要是因?yàn)樽髡哧P(guān)鍵詞一般按順序從標(biāo)題、摘要和正文中抽取,而結(jié)巴關(guān)鍵詞是從標(biāo)題和摘要文本中抽取的,自動(dòng)化標(biāo)引算法標(biāo)注的主題詞不一定在論文中出現(xiàn)。因此,相對(duì)而言,結(jié)巴關(guān)鍵詞具有較好的準(zhǔn)確率和召回率,而且召回率下降較慢。從圖3上還可以看到,在關(guān)鍵詞數(shù)量為1時(shí),標(biāo)引主題詞與結(jié)巴關(guān)鍵詞的準(zhǔn)確率EBP基本相同,隨著作者關(guān)鍵詞數(shù)量的增多,兩者的準(zhǔn)確率都在增加,但結(jié)巴關(guān)鍵詞的準(zhǔn)確率稍高一點(diǎn),說(shuō)明結(jié)巴關(guān)鍵詞與作者關(guān)鍵詞有較高的重合率,標(biāo)引主題詞與作者關(guān)鍵詞的重合率則較低,標(biāo)引算法賦予待標(biāo)引文本更多的非作者關(guān)鍵詞詞匯。
圖4 主題標(biāo)引與結(jié)巴關(guān)鍵詞標(biāo)引結(jié)果對(duì)比
為了進(jìn)一步說(shuō)明這個(gè)問(wèn)題,統(tǒng)計(jì)了作者關(guān)鍵詞數(shù)量、結(jié)巴關(guān)鍵詞數(shù)量、標(biāo)引主題詞數(shù)量,以及未出現(xiàn)在論文文本中的作者關(guān)鍵詞數(shù)量、結(jié)巴關(guān)鍵詞數(shù)量和標(biāo)引主題詞數(shù)量。作者關(guān)鍵詞的數(shù)量為4576513個(gè),其中747981個(gè)未出現(xiàn)在標(biāo)題和摘要中,占比為16.34%,即大多數(shù)作者關(guān)鍵詞都出現(xiàn)在論文文本中。結(jié)巴關(guān)鍵詞數(shù)量為7925997個(gè),全部出現(xiàn)在標(biāo)題和摘要中。相比而言,標(biāo)引主題詞總數(shù)量為6988176個(gè),其中有3842968個(gè)未出現(xiàn)在標(biāo)題和摘要中,占比達(dá)54.99%,主題詞未出現(xiàn)在標(biāo)題和摘要中的文獻(xiàn)比例高達(dá)86.14%,即絕大多數(shù)文獻(xiàn)都被賦予了未在文獻(xiàn)文本中出現(xiàn)的詞匯。這也解釋了結(jié)巴關(guān)鍵詞指標(biāo)更好的原因。
為了較公平地比較兩個(gè)方法,進(jìn)一步去掉了標(biāo)引主題詞中未出現(xiàn)在論文文本中的詞匯,同時(shí)去掉結(jié)巴關(guān)鍵詞中不是主題詞的詞匯,這樣結(jié)巴關(guān)鍵詞和標(biāo)引主題詞均是文本中出現(xiàn)的主題詞。再次計(jì)算兩個(gè)方法的3項(xiàng)指標(biāo)(圖5),其中數(shù)據(jù)點(diǎn)標(biāo)記為正方形的線條是主題標(biāo)引數(shù)據(jù)集index-dataset上的結(jié)果,數(shù)據(jù)點(diǎn)標(biāo)記為圓形的線條是結(jié)巴關(guān)鍵詞數(shù)據(jù)集jieba-dataset上的結(jié)果。同樣,實(shí)線表示EBP指標(biāo),短劃線表示EBR指標(biāo),點(diǎn)線表示EBF指標(biāo)。
在圖5中,本文提出的自動(dòng)標(biāo)引方法在每一個(gè)關(guān)鍵詞數(shù)量下的EBP指標(biāo)值均超過(guò)了結(jié)巴關(guān)鍵詞方法,EBR除了在關(guān)鍵詞數(shù)量為1時(shí)超過(guò)了結(jié)巴關(guān)鍵詞方法,其他情況下均低于結(jié)巴關(guān)鍵詞方法;而且能夠明顯看到,標(biāo)引主題詞方法的召回率下降速度很快,而結(jié)巴關(guān)鍵詞方法下降比較慢,只有在關(guān)鍵詞數(shù)量超過(guò)5個(gè)后才出現(xiàn)快速下降。這也進(jìn)一步說(shuō)明,從論文文本抽取的結(jié)巴關(guān)鍵詞與作者關(guān)鍵詞有較多的重合,而標(biāo)引主題詞生成了更多非作者關(guān)鍵詞的詞匯,所以標(biāo)引方法的召回率下降更快,但同時(shí)自動(dòng)標(biāo)引方法提供了更多的、可靠的語(yǔ)義標(biāo)簽。
圖5 主題標(biāo)引與結(jié)巴關(guān)鍵詞標(biāo)引結(jié)果對(duì)比(去除非文本詞和非主題詞)
為了更進(jìn)一步說(shuō)明本文方法的效果,將本文方法和人工標(biāo)引進(jìn)行對(duì)比。實(shí)驗(yàn)數(shù)據(jù)集由中國(guó)工程科技知識(shí)中心林業(yè)分中心提供。該數(shù)據(jù)集共包含3411條文獻(xiàn)及人工標(biāo)注的主題詞。每一篇文獻(xiàn)一般有3~8個(gè)主題詞。同樣,在實(shí)驗(yàn)中,我們?nèi)サ袅酥R(shí)中心主題詞表中不存在的人工標(biāo)引詞。實(shí)驗(yàn)結(jié)果如圖6所示。
圖6 主題標(biāo)引與人工標(biāo)引結(jié)果對(duì)比
從圖6可以看出,隨著人工標(biāo)引主題詞數(shù)量的增加,本文提出的自動(dòng)標(biāo)引方法的EBP指標(biāo)值不斷增加(圖中的實(shí)線),而EBR指標(biāo)值不斷下降(圖中的短劃線),但EBF指標(biāo)值基本是不斷增加的(圖中的點(diǎn)線),說(shuō)明隨著人工標(biāo)引詞數(shù)量的增加,機(jī)器標(biāo)引的整體效果在不斷提升。當(dāng)人工標(biāo)引主題詞數(shù)量小于等于2個(gè)時(shí),EBR指標(biāo)值下降較快;而當(dāng)人工標(biāo)引主題詞數(shù)量多于3個(gè)時(shí),EBR指標(biāo)值下降的速度明顯變慢,這說(shuō)明在人工選擇較多的主題詞時(shí),機(jī)器標(biāo)引結(jié)果與人工標(biāo)引結(jié)果的一致性在增加。
本研究提出了一種對(duì)文本進(jìn)行大規(guī)模主題詞標(biāo)注的混合型標(biāo)引方法,它綜合了統(tǒng)計(jì)分析和語(yǔ)義分析技術(shù)實(shí)現(xiàn)數(shù)量達(dá)數(shù)十萬(wàn)規(guī)模的主題詞在海量數(shù)據(jù)上的標(biāo)注,可以應(yīng)用于搜索引擎、新聞服務(wù)、電子圖書(shū)館等領(lǐng)域,也可在全文檢索、文本分類、信息過(guò)濾和文檔摘要等任務(wù)中發(fā)揮作用,能夠更好地應(yīng)對(duì)信息資源的快速增長(zhǎng)造成信息相對(duì)過(guò)剩的問(wèn)題,提高信息組織的效率,方便人們高效地管理和檢索文檔。本研究基于大規(guī)模文本語(yǔ)料上訓(xùn)練的分布式詞向量,生成相同維度的主題詞表示向量、待標(biāo)引文本表示向量,通過(guò)兩者向量相似度計(jì)算和排序?yàn)槲谋举x予語(yǔ)義關(guān)聯(lián)強(qiáng)的主題詞,實(shí)現(xiàn)了自動(dòng)的主題標(biāo)引。為了減少計(jì)算量,建立主題詞和普通詞映射關(guān)系表,在標(biāo)引時(shí)通過(guò)該表為文本生成語(yǔ)義關(guān)鍵性強(qiáng)的候選主題詞列表,從而實(shí)現(xiàn)文本向量與較少數(shù)量主題詞的相似度計(jì)算。與現(xiàn)有的自動(dòng)標(biāo)引方法相比,該方法不需要機(jī)器學(xué)習(xí)算法所需的大量帶標(biāo)簽的訓(xùn)練數(shù)據(jù),不僅能實(shí)現(xiàn)賦詞標(biāo)引,還能對(duì)數(shù)量規(guī)模超過(guò)10萬(wàn)的綜合型主題詞表進(jìn)行標(biāo)注,而且對(duì)大規(guī)模文本的主題標(biāo)注效率較高。
利用本研究提出的方法開(kāi)發(fā)了自動(dòng)標(biāo)引工具,實(shí)現(xiàn)了對(duì)近億篇文獻(xiàn)的快速標(biāo)注。為了驗(yàn)證該方法的效果,提取100萬(wàn)篇標(biāo)注數(shù)據(jù)生成實(shí)驗(yàn)數(shù)據(jù)集,以作者關(guān)鍵詞為基準(zhǔn),采用flat measure多標(biāo)簽分類算法評(píng)價(jià)指標(biāo),與結(jié)巴關(guān)鍵詞工具抽取的關(guān)鍵詞結(jié)果進(jìn)行對(duì)比,發(fā)現(xiàn)該方法能抽取更多的文本及作者關(guān)鍵詞中未出現(xiàn)的主題詞,為揭示文本信息提供了更多的語(yǔ)義標(biāo)簽。雖然總體上結(jié)巴關(guān)鍵詞在指標(biāo)上取得了較好的數(shù)值,但其抽取的關(guān)鍵詞與作者關(guān)鍵詞重合較多,且均出現(xiàn)在文本中。如果標(biāo)引主題詞只保留出現(xiàn)在文本中的詞匯,而結(jié)巴關(guān)鍵詞只保留主題詞,則本研究提出的方法在準(zhǔn)確率上更好,但召回率較低,主要原因是結(jié)巴關(guān)鍵詞大多出現(xiàn)在作者關(guān)鍵詞中,而標(biāo)引主題詞大多不在作者關(guān)鍵詞中。將本研究提出的方法與人工標(biāo)引對(duì)比時(shí)發(fā)現(xiàn),在人工選擇較多的主題詞時(shí),機(jī)器標(biāo)引的結(jié)果與人工標(biāo)引結(jié)果的一致性在不斷增加。
本研究雖然實(shí)現(xiàn)了大規(guī)模主題詞在海量文獻(xiàn)上的自動(dòng)標(biāo)注,但還存在一些需要提高或完善的地方。一方面是本研究使用word2vec技術(shù)實(shí)現(xiàn)分布式詞向量,該技術(shù)出現(xiàn)后有了一些新的詞向量技術(shù),如BERT[34]、XLNet[38]等,它們可能會(huì)帶來(lái)更好的效果,未來(lái)將嘗試這些詞向量技術(shù),了解并對(duì)比它們?cè)谧詣?dòng)標(biāo)引上的效果。另一方面是本研究采用了多標(biāo)簽分類算法評(píng)價(jià)指標(biāo),沒(méi)有采用人工方法來(lái)評(píng)判,無(wú)法判斷那些未在文本中出現(xiàn)的標(biāo)引主題詞是否是合適的,主要是因?yàn)槿斯づ袆e會(huì)存在主觀性大、一致性差、成本高等問(wèn)題,少量的抽樣不一定能說(shuō)明問(wèn)題。實(shí)際上,我們抽取了少量的標(biāo)注結(jié)果給領(lǐng)域?qū)<遥麄儗?duì)該方法的結(jié)果表示了不同程度的滿意度。未來(lái)將考慮抽取多個(gè)領(lǐng)域的標(biāo)注結(jié)果,交給多個(gè)領(lǐng)域?qū)<以u(píng)判該方法的效果。