• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      學術文本中細粒度知識實體的關聯(lián)分析*

      2021-03-19 10:59:30章成志謝雨欣宋云天
      圖書館論壇 2021年3期
      關鍵詞:語料關聯(lián)實體

      章成志,謝雨欣,宋云天

      0 引言

      學術文獻作為科研成果和科學知識的載體,是科研工作者接觸最頻繁的資源之一。大數據時代學術文獻數量的快速增長加重了科研工作者的負擔,他們必須閱讀大量文獻以獲取其中的知識。因此,向用戶提供精細化的、面向知識層面的信息服務具有重要意義。知識由許多相互關聯(lián)的知識單元組成,這些知識單元被封裝為學術文獻中的知識實體[1]。目前針對知識實體抽取及評估的研究已擴展到領域知識實體層面,如生物醫(yī)學領域的基因、藥物和疾病[2],計算機科學領域的任務、數據集、評測指標[3]。然而,當前研究側重于單一知識實體的評估[4],對知識實體間的語義關系挖掘較少[5-6]。針對特定領域知識實體間的關聯(lián)分析研究,從宏觀層面可全面描繪特定領域知識的使用和轉移情況,進而輔助科研工作者的文獻分析和知識獲取工作;從微觀層面可用以了解知識實體的應用場景,如圍繞某個算法或模型獲取具體解決的任務、使用的數據集規(guī)模及相關評測指標等,從而提升知識實體的評估效果。

      本研究以自然語言處理(NLP)為例,開展領域知識實體的關聯(lián)分析。NLP 是一個以方法和數據為核心的研究領域,大多數學者的研究需要算法、模型及相關工具的支持?;诖?,本文針對NLP特點將相關知識實體細分為“方法實體”“工具實體”“資源實體”“指標實體”4種類型,提取全國計算語言學會議(即中國計算語言學大會,China National Conference on Computational Linguistics,CCL)2009-2018年間收錄的中文論文,通過人工標注的方式構建知識實體語料庫,并以此為基礎進行知識實體的關聯(lián)分析研究;所得結果可輔助相關領域的科研人員,尤其是初學者進行知識實體的評估與選擇。本研究的創(chuàng)新點有:(1)利用學術論文全文對特定領域的知識實體進行關聯(lián)分析,可為傳統(tǒng)基于論文題錄數據的知識實體語義分析作補充,并為考察知識實體間的關系提供一定依據;(2)構建了中文NLP領域的知識實體標注數據集,為今后實現(xiàn)大規(guī)模的知識實體自動抽取提供訓練語料。

      1 相關研究概述

      隨著情報大數據智能分析服務的不斷精細化,學術文獻分析的對象逐步從論文元數據(題錄信息)、主題、術語和關鍵詞等,擴展到面向自然語言描述文本的知識實體及其相關工作,包括知識實體抽取和知識實體關聯(lián)分析。

      1.1 知識實體抽取

      現(xiàn)有的知識實體抽取方法可概括為4類:人工標注[7-9]、基于規(guī)則的方法[10-12]、基于統(tǒng)計的機器學習方法[13-17]和基于深度學習的方法[18-20]。從研究的知識實體類型來說,用戶往往比較關注與特定領域的需求及研究特點密切相關的知識實體。以NLP為例,該領域的研究人員需要了解針對特定任務的評估基準,以進行方法的改進或創(chuàng)新,因此文本中涉及的方法類實體是論文的重要信息,如算法、模型、數據集及評測指標。比如,Zadeh等[8]對300篇ACL論文摘要進行手動注釋,把所標注的術語分為7 個語義類別:method、tool、language resource、language resource product、model、measures、other。Hou等[3]以經典的CNN+BiLSTM+CRF框架為基礎,識別計算機科學領域學術文獻全文中的方法、數據集和指標實體。余麗等[5]建立深度學習模型,從ACL 論文摘要中識別出“研究范疇”“研究方法”“實驗數據”“評價指標及取值”4類細粒度的知識實體。

      1.2 知識實體關聯(lián)分析

      關聯(lián)分析又稱關聯(lián)規(guī)則挖掘,用于從數據集中挖掘出對象之間潛在的關聯(lián)性或相關性。對學術文獻中的知識實體進行關聯(lián)分析,有助于揭示學術文獻中蘊含的豐富的知識模式,對于學術文獻的結構化表示以及知識實體的評估和推薦都具有一定的意義。Yao等[6]提出一種新穎的實體識別框架MDER,它結合規(guī)則嵌入技術和CNNBiLSTM-Attention-CRF 結構,用于學術文獻中方法和數據集實體的挖掘,并構造復雜網絡圖對方法實體的關聯(lián)數據集進行可視化分析。Zha等[21]提出一種結合注意力機制的跨語句關系抽取模型CANTOR,從學術文獻中抽取算法實體及算法實體之間的關系,從而構建算法演化路線圖。另外,機器之心平臺的SOTA(State-Of-The-Art,https://www.jiqizhixin.com/sota)項目也是近幾年較為有代表性的工作之一。該項目基于人工標注,從大量機器學習研究論文中獲取某個任務當前最優(yōu)效果的模型,用戶可以根據自己的需要尋找機器學習對應領域和任務下的SOTA論文,平臺會提供論文、模型、數據集和Benchmark的相關信息。

      綜合國內外相關研究,本文有兩點認識:首先,近年來知識實體抽取研究多以機器學習和深度學習的方法為基礎,而人工標注方法往往耗時耗力,但因其質量可靠,常用于構建實體自動抽取系統(tǒng)的模型訓練及性能評估語料。其次,學者們往往關注實體抽取方法的改進或者單一知識實體的評估[22-25],對知識實體間的關系分析較少。因此,本研究嘗試結合NLP領域的研究特點,人工標注學術文本中的“方法實體”“工具實體”“資源實體”“指標實體”4類細粒度的知識實體,并在此基礎上挖掘知識實體的關聯(lián)關系。

      2 研究方法

      2.1 基本思路

      本次知識實體關聯(lián)分析的研究框架如圖1所示。關聯(lián)結果的可視化展示可幫助用戶更好地獲取領域知識,如可輔助相關研究人員了解NLP領域常見的研究方法在本領域的實際應用場景,從而根據特定的研究任務選擇合適的算法或者模型,同時可為選擇相關開源工具、數據集以及評測指標等提供參考。

      本研究以自然語言處理(NLP)領域為例,選擇NLP領域學術論文全文作為原始語料,人工標注論文中使用的知識實體及知識實體所在的句子。標注工作結束后,對各種知識實體進行名稱標準化處理,即對描述名稱不同但具體含義相同的知識實體進行人工校對和合并。在此基礎上分別基于頻次分析和關聯(lián)分析考察知識實體的使用情況。本文主要依據圖2所示的流程圖展開研究。

      圖1 知識實體關聯(lián)分析框架圖

      圖2 研究流程圖

      2.2 數據集及預處理

      (1)原始語料概述。本研究原始全文語料來自全國計算語言學會議(CCL)。CCL著重致力于中國境內各類語言的計算處理,是國內自然語言處理領域權威性最高、規(guī)模最大的學術會議,而且公開歷屆會議論文全文數據集[26]。選擇CCL 會議2009-2018 年間收錄的中文論文(共728篇)作為原始標注語料,并從中國中文信息學會計算語言學專業(yè)委員會官方網站(http://www.cips-cl.org/anthology)獲取論文題錄信息及全文信息。標注論文數的年代分布如表1所示。

      表1 標注論文數的年份分布 (單位:篇)

      (2)知識實體標注。綜合考慮領域需求和以往針對NLP領域的知識實體分類[15],將NLP領域的知識實體細分為“方法實體”“工具實體”“資源實體”“指標實體”4種類型,具體的分類標準見表2。本研究在標注過程中先標注包含知識實體的完整句子(以下簡稱“知識實體句”),再標注知識實體句中的知識實體。表3為知識實體句的標注示例。

      表2 NLP領域4種類型知識實體及其分類標準

      表3 NLP領域4種類型知識實體的語義標注示例

      標注規(guī)范制定后,由一位標注人員單獨對728 篇論文進行標注。對于不確定的地方,標注人員會及時與研究組的情報學教授商討,以提高標注的準確性。全部標注工作完成后,再從原始全文語料庫中隨機抽取50篇論文,由另一位標注人員依據最新的標注規(guī)范進行單獨標注。本研究使用kappa 系數對標注結果進行一致性檢驗,經計算,方法實體、工具實體、資源實體和指標實體的一致性檢驗結果分別為0.75、0.82、0.84、0.78,說明標注結果一致性較好[27]。

      (3)知識實體名稱標準化??紤]到學術文本中知識實體命名形式的多樣性,對部分知識實體的名稱進行標準化處理。例如,對于方法實體“SVM”,本文將“SVM”“SVMs”“支持向量機”等實行標準化規(guī)范,統(tǒng)一表述為“SVM(Support Vector Machine)”。

      2.3 細粒度知識實體的關聯(lián)分析方法

      為考察4類知識實體在學術論文中的使用情況,首先基于頻次統(tǒng)計找出高頻的知識實體,接著結合關聯(lián)規(guī)則挖掘算法Apriori[28]和卡方值(Chi-Square)[29]探究知識實體的使用相關性。

      (1)頻次分析。以論文為單位統(tǒng)計知識實體頻次,即某種知識實體無論在一篇論文中出現(xiàn)多少次,只記為1次。因此,每個知識實體的頻次在數量上就等于使用該知識實體的論文數,知識實體頻次越高,表明該知識實體被越多學者所使用?;陬l次統(tǒng)計可找出該領域中使用范圍較廣、影響力較大的高頻知識實體。

      (2)關聯(lián)分析?;陬l次分析的結果,進一步結合關聯(lián)規(guī)則挖掘算法Apriori 和卡方值(Chi-Square)進行知識實體的關聯(lián)分析,包括同類型知識實體間和不同類型知識實體間的關聯(lián)分析兩種情況。具體步驟包括:

      第一步,基于Apriori算法生成知識實體對。對同類型知識實體間的關聯(lián),以方法實體為例,將所有出現(xiàn)在同一篇論文中的方法實體進行匹配,生成方法實體對{“方法實體1”,“方法實體2”}。不同類型知識實體間的關聯(lián)與此類似,即將出現(xiàn)在同一篇論文中不同類型的知識實體進行匹配??紤]到NLP領域的相關研究大多以算法、模型等為中心,根據其特性選取合適的開源工具、數據集、評測指標等,通過實驗研究對算法或模型等的性能進行評估,因此本研究只針對方法實體進行不同類型知識實體間的關聯(lián)分析,即生成{“方法實體”,“工具實體”}、{“方法實體”,“資源實體”}和{“方法實體”,“指標實體”}這3種知識實體對,使知識實體關聯(lián)分析的結果更貼合NLP領域研究方法的使用需求及特點。

      第二步,計算所有知識實體對中兩個知識實體間的卡方值。卡方值是非參數檢驗中的一個統(tǒng)計量,它的作用是檢驗數據的相關性,可用于兩個分類變量的關聯(lián)性分析??ǚ街当阮l次更能反映兩個知識實體間的關聯(lián)性強弱,因此本文先基于頻次篩選出高頻的知識實體對,再以卡方值作為知識實體間關聯(lián)性強弱的度量指標。

      3 結果分析

      本研究共標注728篇CCL會議收錄的中文論文,每類知識實體所在論文數和知識實體總數的統(tǒng)計情況見表4。為便于用戶瀏覽和發(fā)現(xiàn)領域知識,借助科學知識圖譜軟件VOSviewer對前文獲取的關聯(lián)數據進行可視化分析。

      表4 知識實體標注數據集統(tǒng)計信息

      3.1 同類型知識實體的關聯(lián)分析

      獲取同類型知識實體的關聯(lián)數據后,首先過濾掉所有頻次為1的知識實體對,然后構建復雜網絡,結果見圖3-6。復雜網絡圖中的每個節(jié)點對應一個知識實體,節(jié)點的大小與該節(jié)點的“度”(即與該節(jié)點有邊相連的其他節(jié)點的數目)成正比;邊連接著出現(xiàn)在同一篇論文中的兩個知識實體,邊的權重為這兩個知識實體的卡方值。

      圖3 方法實體關聯(lián)結果網絡

      (1)方法實體間的關聯(lián)分析結果。如圖3 所示,在4類知識實體中,方法實體的總體數量最大,說明NLP領域注重對研究方法的使用。其中,與其他方法實體關聯(lián)最多的是統(tǒng)計語言模型N-gram,其次是用于評估模型的交叉驗證法和傳統(tǒng)的基于規(guī)則的方法。機器學習算法也引起很多關注,SVM、CRF、最大熵模型、決策樹模型的使用次數比較高(對應節(jié)點面積較大),而樸素貝葉斯、KMeans、LDA、KNN 等也較為常用。TF-IDF 和向量空間模型(VSM)通常一起用作文本表示方法。深度學習領域的相關方法實體,如LSTM、 BiLSTM、 CNN、RNN、Attention 等往往也是一起使用的。

      (2)工具實體間的關聯(lián)分析結果。如圖4 所示,工具實體總量較少,說明在NLP 領域的相關學術論文中工具實體的出現(xiàn)較少。工具實體ICTCLAS 和Stanford CoreNLP 與其他工具實體的共現(xiàn)頻次最高,其次是機器翻譯領域的工具實體,如GIZA++、Moses 和SRILM,它們經常是一起使用的;此外,詞向量計算工具Word2vec和分詞工具Jieba也常與其他工具一起使用。國內研究者也經常使用機器學習相關工具,如CRF++、LibSVM、MaxEnt工具包。

      圖4 工具實體關聯(lián)結果網絡

      圖5 資源實體關聯(lián)結果網絡

      圖6 指標實體關聯(lián)結果網絡

      (3)資源實體間的關聯(lián)分析結果。如圖5 所示,HowNet、 Gigaword、 同義詞林和人民日報等都是使用頻次較高的資源實體;而且,搜狗實驗室相關資源(包括搜狗新聞、搜狗詞典等)、微博、Wiki(維基百科)和百度搜索相關資源(包括百度百科、百度貼吧、百度新聞等)經常和HowNet、同義詞林一起使用。研究者也經常使用一些評測語料,如NIST 評測語料、Senseval/Semeval 評測語料、NLP&CC 評測語料和CoNLL評測語料。

      (4)指標實體間的關聯(lián)分析結果。圖6中面積最大的節(jié)點對應指標實體“F-measure”,即該節(jié)點的“度”數最大,表明“F-measure”最經常與其他指標實體一起使用;同時可看到,與“F-measure”聯(lián)系較為緊密的指標實體有“Recall”“Precision”“Accuracy”等,這些都是NLP中使用頻率最高的評測指標,常用于分類任務的評測;此外,還有一些衍生出來的統(tǒng)計指標,如“F-measure”附近的“Macro-F1”“ROC 曲線”等。機器翻譯評價指標(如“BLEU”)也較為常用,與之相關的有“NIST”“METEOR”“CIDEr”等。BLEU 是最早提出的機器翻譯評價指標,NIST(National Institute of standards and Technology)是在BLEU基礎上的一種改進,METEOR 測度的目的是解決BLEU標準中一些固有的缺陷,而CIDEr最早是針對圖片摘要問題提出的度量標準。此外,指標實體“Coverage”是多標簽學習系統(tǒng)的評價指標,與其相關的常用指標有Hamming Loss、One Error、Ranking loss 和Average Precision等,這與圖6展示的結果是一致的。

      3.2 不同類型知識實體的關聯(lián)分析

      對不同類型知識實體的關聯(lián)結果,同樣以復雜網絡形式展示。由于不同類型知識實體對中包含的節(jié)點數量較多,為了更清晰地展示關聯(lián)結果,本文過濾所有共現(xiàn)頻次小于等于2的知識實體對,與“方法實體”相關的分析結果如圖7所示。圖7給出了方法實體和其他3種知識實體的關聯(lián)結果。從整體的分布來看,與其他知識實體關聯(lián)性較強的方法實體(紅色節(jié)點)有N-gram、交叉驗證、基于規(guī)則的方法、SVM、CRF、最大熵模型和TF-IDF等,這些都是該領域常用的經典研究方法;同時,可以看到方法實體的分布比較集中,反映了NLP領域的研究往往涉及多種研究方法,如數據的采集和預處理以及具體的實驗步驟都要使用不同的研究方法,其中實驗步驟經常對多種類似的算法或模型進行性能比較。另外,與方法實體的關聯(lián)較為密切的工具實體(綠色節(jié)點)有ICTCLAS、Stanford CoreNLP、Word2vec、LTP、CRF++等,這些都是該領域使用較為廣泛的開源工具。而資源實體(藍色節(jié)點)的總體數量則相對較少,反映了該領域可使用的數據集、語料庫等資源相對較少;此外,可以看到資源實體在復雜網絡圖中的分布較為均勻,沒有明顯的聚集現(xiàn)象,因為該領域的研究者針對特定的研究任務往往只會選取一個合適的數據集,一般很少針對不同的數據集進行研究方法的評測和比較。圖7也表明,大多數方法實體最常搭配的指標實體(黃色節(jié)點)有F-measure、Recall、Precision等,而且這幾個指標有明顯的聚集現(xiàn)象,說明它們經常被同時用作模型性能評估的評測指標。

      同理可得到“工具實體-指標實體”“工具實體-資源實體”“資源實體-指標實體”的復雜網絡圖,限于篇幅,這里不再展示這部分內容的具體結果。從上面的可視化結果分析中可以發(fā)現(xiàn):首先,NLP領域中,知識實體間的關聯(lián)分析結果基本符合該領域常見知識實體的使用規(guī)律,這說明針對知識實體的關聯(lián)分析可為建立各類型知識實體間的語義關系網絡提供一定依據,有助于科研人員全面了解特定領域知識實體的具體使用及應用情況;其次,后續(xù)可將各種NLP任務與知識實體的關聯(lián)分析結果結合起來,從而針對具體的應用場景找到最合適的方法、工具及評價指標等知識實體,服務于知識實體的評估與推薦。

      4 結論與展望

      本文以自然語言處理領域為例,基于學術全文本內容,通過人工標注“方法實體”“工具實體”“資源實體”“指標實體”4類細粒度的知識實體,構建了一個知識實體語料庫。在此基礎上對各類知識實體進行頻次統(tǒng)計,并結合Apriori算法和卡方值挖掘不同知識實體在使用上的相關性。知識實體間的關聯(lián)分析,不但可以讓研究人員更全面地了解特定領域方法實體的實際使用情況,并且有利于知識實體的科學評估。

      本研究存在的不足有:一是采取人工標注的方式抽取學術文本中的細粒度知識實體,標注難度大,費時費力,且標注質量依賴于標注者的判斷,語義標注的內容和規(guī)模也相對有限;二是只選取CCL會議收錄的中文論文作為標注樣本,樣本量相對較小。未來將考慮從以下幾個方面進行改進:(1)擴大學術全文語料庫的規(guī)模,并以自然語言處理領域的英文論文為原始語料,用傳統(tǒng)機器學習和深度學習方法實現(xiàn)對知識實體的自動抽

      ?。?2)增加學術文獻的主題、任務等知識實體類型,從而進行更多維度的分析;(3)加入時間維度,構建知識實體的動態(tài)關聯(lián)網絡,用于揭示知識實體的演化情況;(4)根據細粒度知識實體間的關聯(lián)分析,進行知識實體推薦的相關應用研究。

      猜你喜歡
      語料關聯(lián)實體
      前海自貿區(qū):金融服務實體
      中國外匯(2019年18期)2019-11-25 01:41:54
      “一帶一路”遞進,關聯(lián)民生更緊
      當代陜西(2019年15期)2019-09-02 01:52:00
      奇趣搭配
      實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
      哲學評論(2017年1期)2017-07-31 18:04:00
      兩會進行時:緊扣實體經濟“釘釘子”
      振興實體經濟地方如何“釘釘子”
      智趣
      讀者(2017年5期)2017-02-15 18:04:18
      基于語料調查的“連……都(也)……”出現(xiàn)的語義背景分析
      華語電影作為真實語料在翻譯教學中的應用
      《苗防備覽》中的湘西語料
      武邑县| 肃宁县| 内丘县| 南皮县| 阿拉善右旗| 堆龙德庆县| 施秉县| 定兴县| 西藏| 隆子县| 汕头市| 郯城县| 萨嘎县| 孝感市| 葫芦岛市| 宁夏| 丰镇市| 衡南县| 濮阳县| 冀州市| 尉氏县| 乌兰浩特市| 南京市| 陆丰市| 盐城市| 同心县| 孝昌县| 北辰区| 江川县| 靖江市| 宣武区| 丹棱县| 砀山县| 如东县| 承德市| 朔州市| 永寿县| 财经| 花垣县| 福清市| 策勒县|