• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    信息抽取技術(shù)及其發(fā)展

    2022-01-15 07:53:56明,曾
    關(guān)鍵詞:評測語料實體

    肖 明,曾 莉

    (1.西南民族大學計算機科學與工程學院,四川 成都 610041;2.西南民族大學數(shù)學學院,四川 成都 610041)

    隨著信息技術(shù)的不斷發(fā)展,網(wǎng)絡(luò)信息飛速增加,從網(wǎng)絡(luò)獲取信息資源變得更加快捷,傳統(tǒng)搜索引擎能幫用戶獲得海量網(wǎng)頁信息,但這還需要進行人工排查和篩選,在成千上萬的反饋中去找尋所需的準確信息,猶如大海撈針.因此,信息的精準獲取,已是信息處理的一項熱點.信息抽取(Information Extraction,IE)的任務(wù)就是對海量的信息內(nèi)容進行自動分類、提取和重構(gòu),轉(zhuǎn)換為便于構(gòu)建知識圖譜或者能直接查詢的結(jié)構(gòu)化信息[1].由于當前網(wǎng)絡(luò)信息的絕大多都以文本形式存在,所以當前信息抽取的主要研究范圍是文本信息抽取(Text Information Extraction)[2].

    從20世紀60年代,國外已有不少學者開始對自動信息抽取技術(shù)進行研究,從1987年到1998年,MUC(Message Understanding Conference,消息理解系列會議)[3]連續(xù)舉辦七屆,MUC會議以其特有的信息抽取系統(tǒng)評測機制,推動IE技術(shù)不斷向前發(fā)展.特別是在1995年舉辦的第六屆MUC會議中,引入了多語種命名實體識別評測任務(wù),除傳統(tǒng)的英文語料外,中文、日文也參與評測.在1998年第七屆MUC中,命名實體識別被具體化為人名、地名、機構(gòu)名等七類實體的識別.從1999年起ACE(Automatic Content Extraction,自動內(nèi)容抽取評測會議)[4]接力推動信息抽取技術(shù)的向前發(fā)展,不僅評測內(nèi)容擴大,包含了實體檢測、數(shù)值檢測、關(guān)系檢測和事件檢測等多項內(nèi)容,語料來源也從原來MUC的限定領(lǐng)域語料變?yōu)閮?nèi)容更為廣泛的書面新聞?wù)Z料,相應(yīng)語料規(guī)模也大幅增加.從2009年開始,ACE被歸入TAC(Text Analysis Conference,文本分析評測會議),評測任務(wù)納入了實體鏈接和屬性的抽取.

    中文文本信息抽取研究起步相對較晚,20世紀90年代初期,學者們陸續(xù)對中文的通用命名實體進行了研究[4,6-8].如:宋柔使用規(guī)則來識別人名[4],孫茂松采用統(tǒng)計和概率識別人名[6],劉挺設(shè)計了一個基于信息抽取的自動文摘系統(tǒng)[7],而Zhang等人在ACL2000上演示了他們利用記憶學習算法獲取規(guī)則的中文信息抽取系統(tǒng)[8].

    1 信息抽取的任務(wù)

    信息抽取目前的主要對象還是各類文本信息,其任務(wù)有:命名實體識別(Named Entity Recognition,NER)、命名實體消歧(Named Entity Disambiguation)、實體關(guān)系抽取(Entity Relation Extraction)和事件抽取(Extracting Events)[9].命名實體(Named Entity,NE)是指信息數(shù)據(jù)中的固有名稱、縮寫及其他唯一標識.命名實體識別是自然語言處理中的一項關(guān)鍵技術(shù),是從文本信息句子中找出包括人名、地名、組織名等各類專有名詞,并同時標注它們的類型.命名實體消歧根據(jù)上下文信息,確定有多個客觀實體對應(yīng)的命名實體,在此處指代的真實世界實體.如,“蘋果”一詞可以代表日常生活中的一種水果,也可以代表美國的一家高科技公司.命名實體消歧可分為基于聚類和基于實體鏈接的兩類實體消歧方法.基于聚類的實體消歧的基本思想是通過指稱項的上下文因素,利用聚類算法進行消歧.如,文本“今天蘋果發(fā)布了新的手機”,可由其上下文中的“發(fā)布”“手機”通過相似度計算確定“蘋果”對應(yīng)到高科技公司.而基于實體鏈接的實體消歧是指先給定目標實體列表,然后計算指稱項與各鏈接實體候選項的一致性分數(shù),選擇得分最高的候選項來實現(xiàn)消歧.實體關(guān)系抽取是指確定實體間的語義關(guān)系,關(guān)系抽取結(jié)果可以用三元組來表示,如,從“四川的省會是成都”中可抽取出三元組(四川,省會,成都).事件抽取是指從信息中抽出用戶關(guān)注的事件,并將其轉(zhuǎn)換為結(jié)構(gòu)化的形式.事件抽取可分為事件識別任務(wù)和論元角色分類任務(wù),事件識別任務(wù)是一個基于單詞的多分類任務(wù),它需識別出句子中的單詞歸屬的事件類型,事件識別又可分為觸發(fā)詞(event trigger)識別、事件類型(event type)分類兩項任務(wù);論元角色分類任務(wù)是對句子中的觸發(fā)詞對和實體之間的角色關(guān)系進行判別,其進一步分為論元(event argument)識別和角色(argument role)分類任務(wù)兩項任務(wù).

    2 信息抽取技術(shù)的發(fā)展

    2.1 基于規(guī)則的階段

    命名實體識別最早在1995年的第六屆MUC會議上被明確提出.實際上,早在20世紀90年代初,針對中文信息處理做分詞處理時,由于出現(xiàn)大量的未登錄詞影響分詞效果,國內(nèi)很多學者就開始對中文專用名進行研究[4,6,8,10].早期的命名實體識別常采用基于規(guī)則的方法,一般由語言學專家先根據(jù)欲識別實體類型的特點,挑選出能代表某類實體的各類特征,如人名的姓氏用字,職位稱呼等,構(gòu)建有限的規(guī)則模板,再通過模式匹配的手段完成命名實體的抽取[4,6,11].這類系統(tǒng)大多依賴語言學專家領(lǐng)域知識,不僅耗時耗力,還不免會有遺漏.由此,也有學者嘗試通過算法自動生成規(guī)則,Collins等[12]提出的DLCoTrain方法,就是通過對小規(guī)模的種子規(guī)則集不斷迭代訓練,滾動生成越來越多的規(guī)則.基于規(guī)則的方法存在著前期投入大、魯棒性和移植性差、局限于特定領(lǐng)域的缺點.

    最早的關(guān)系抽取是基于模式匹配的方法,它是通過定義文本中表達的字符、語法或者語義模式,將模式與文本的匹配作為主要手段,來實現(xiàn)關(guān)系實例的抽取.模式的來源可以由專家定義或者算法自動抽取,專家定義的模式質(zhì)量精良,抽取準確率高,但成本高昂,召回率低.自動抽取模式方式采用滾雪球的方式實現(xiàn)模式抽取和實體抽取的循環(huán)迭代,其特點是自動、高效,但準確率不高.

    2.2 統(tǒng)計學習階段

    隨著機器學習發(fā)展,基于統(tǒng)計的機器學習也不斷應(yīng)用于信息抽取.此類方法中將文本中每個詞的各類特征(如詞法特征、詞性標注,詞義特征等)表達為一個特征向量,然后通過不同的模型方法對大規(guī)模的訓練語料進行學習,最后通過學習好的模型來進行實體識別.常見的模型有:HMM(Hidden Markov Mode,隱馬爾可夫模型)[13-14]、ME(Maxmium Entropy,最大熵)[15]、SVM(Support Vector Machine,支持向量機)[16-17]和CRF(Conditional Random Fields,條件隨機場)[18-21].HMM是基于轉(zhuǎn)換概率的模型,其基本思想是用前面的幾個連續(xù)狀態(tài)去預測當前狀態(tài).張華平等[14]在隱馬爾可夫模型的基礎(chǔ)上引入一種角色標注NER的方法,他們首先利用Viterbi算法,根據(jù)人名構(gòu)成和統(tǒng)計信息,對詞進行角色標注,然后再用最大模式匹配從訓練語料庫中自動識別人名,最終綜合指標為95.4%.

    實體關(guān)系抽取的本質(zhì)是一個多分類問題,因此,各種分類學習方法均可應(yīng)于實體關(guān)系抽取.歸納出來主要有兩類,第一類是基于特征向量的方法,第二類是基于核函數(shù)的方法.基于特征向量的方法,首先預定義好需要抽取的關(guān)系類型,再根據(jù)訓練語料中實體的詞法、句法、實體間文本距離以及語義特征等構(gòu)造特征向量,最后通過各種不同的機器學習分類模型進行關(guān)系抽取.基于核函數(shù)的方法不用明確給出計算對象的特征向量,它可以利用多種不同的數(shù)據(jù)組織形式,綜合各方面的知識信息來表示實體關(guān)系,通過核函數(shù)的映射,在高維空間中完成實體關(guān)系的分類.Zelenko最先在文本的淺層解析表示的基礎(chǔ)上,定義了一個多項式核函數(shù)用于關(guān)系抽取[22].劉克彬等人[23]借助知網(wǎng)提供的中文本體知識庫構(gòu)造語義核函數(shù),取得不錯的關(guān)系抽取效果.

    2.3 深度學習階段

    近年來,隨著詞向量(Word Embedding)的引入,掀起了在自然語言處理中應(yīng)用深度學習方法的高潮.Word2Vec是詞向量的代表,它的基本思想是用具有統(tǒng)一維度的向量來表示模型中的每個詞[24].這樣不僅解決了高維度向量空間帶來的數(shù)據(jù)稀疏問題,還能將更多語義特征融入其中,同時使異構(gòu)文本能得到統(tǒng)一維度的向量特征表示.

    Liu等[25]最早用CNN(Convolutional Neural Networks,卷積神經(jīng)網(wǎng)絡(luò))來自動提取特征,它用詞向量和詞法特征進行對句子進行編碼,然后接卷積層、全連接層、softmax層完成分類,它在ACE 2005數(shù)據(jù)集上比基于kernel的方法F1值提高了9%.Zeng等[26]使用預訓練詞向量和位置特征,還在CNN層后使用了最大池化層.Nguyen和Grishman[27]完全擯棄詞法特征,讓CNN自動學習,利用多窗口卷積獲得不同尺度的n-gram信息,通過端到端的神經(jīng)網(wǎng)絡(luò)取得較好效果.2016年Wang等[28]提出了結(jié)合多級注意力機制(Attention)的CNN來實現(xiàn)關(guān)系抽取,其第一級Attention在輸入層,計算所有詞對目標實體的注意力大小,第二級Attention在CNN的輸出部分,利用卷積操作將提取到的特征矩陣和目標關(guān)系嵌入矩陣,計算對于目標關(guān)系的注意力大小,再將計算結(jié)果和特征矩陣相乘,最后使用最大池操作得到目標的關(guān)系向量.

    相比于傳統(tǒng)的機器學習的方法,基于CNN的方法取得了不錯的成績,但CNN對于時序特征的抽取能力偏弱.而RNN(recurrent neural network,循環(huán)神經(jīng)網(wǎng)絡(luò))模型則適合做時序特征的抽取.Zhang等[29]首次使用BRNN(Bidirectional RNN,雙向循環(huán)神經(jīng)網(wǎng)絡(luò))來進行關(guān)系抽取,BRNN相當于集成了前向和后向兩個RNN,其先分別按照正向和逆向?qū)⒕渥又械膯卧~喂輸入到兩個RNN中,再將這兩個RNN的隱含層輸出疊加.

    Cai等人[30]于2016年提出了一種基于最短依賴路徑(Shortest Dependency Path,SDP)的深度學習關(guān)系抽取模型:雙向遞歸卷積神經(jīng)網(wǎng)絡(luò)模型(BRCNN).論文的主要思想是對兩個實體間的詞法句法的SDP進行建模,利用雙通道的LSTM(Long Short-Term Memory,長短期記憶神經(jīng)網(wǎng)絡(luò))對SDP進行全局信息編碼,并利用CNN捕獲每個依存關(guān)系鏈接的兩個單詞的局部特征,增強了實體對之間關(guān)系方向分類的能力.

    Miwa等人[31]于2016年首次將神經(jīng)網(wǎng)絡(luò)方法應(yīng)用于命名實體識別與實體關(guān)系抽取的聯(lián)合模型.模型基于LSTM-RNN,采用端到端執(zhí)行方式,模型由三個表示層組成,底層是詞嵌入層完成信息編碼,在詞嵌入層上有兩個雙向的LSTM-RNN,一個基于詞序列結(jié)構(gòu)用于實體識別任務(wù),一個基于依存樹結(jié)構(gòu)用于關(guān)系抽取,這兩部分共享編碼信息,并堆疊形成一個整體的模型,前一個的輸出和隱含層作為后一個結(jié)構(gòu)輸入的一部分,使得實體識別與抽取相互影響.

    Katiyar等人[32]在2017年將注意力機制Attention與BiLSTM聯(lián)合用于命名實體識別和關(guān)系抽取.該模型借鑒了Miwa等人[31]的模型,改善了原模型依賴于詞性序列、依存樹等特征的缺點.模型具有一個詞嵌入表示的輸入層,兩個輸出層,一個用于輸出識別出的實體,一個使用注意力模型進行關(guān)系分類.

    2018年,Devlin等人[33]提出了BERT(Bidirecttional Encoder Representations from Transformers)模型,BERT屬于預訓練語言模型,所謂預訓練模型,就是先用大量的自由文本進行預訓練,使模型學習得到通用的語言知識,再根據(jù)下游任務(wù)進行Fine-tuning階段訓練,讓模型參數(shù)按具體任務(wù)要求和領(lǐng)域知識進行微調(diào).

    3 基于BERT的實體和關(guān)系聯(lián)合抽取模型

    基于BERT的強大能力,本文設(shè)計了一個基于BERT的實體和關(guān)系聯(lián)合抽取模型,本模型將實體和關(guān)系的聯(lián)合抽取轉(zhuǎn)換為序列標注問題,模型總體分為4個部分:嵌入層、BERT層、BiLST層和CRF層.模型結(jié)構(gòu)如圖1所示:

    圖1 基于BERT的實體和關(guān)系聯(lián)合抽取模型Fig.1 Joint Extraction Model of Entity Relationship Based on BERT

    3.1 文本預處理

    預處理過程中先對數(shù)據(jù)源進行清洗和篩選,過濾掉一些無關(guān)的文本或數(shù)值.再對訓練文本序列進行標注,標注時每個文字都標注一個標簽,標簽內(nèi)容最多有4部分,分別是實體邊界、實體類型、關(guān)系類別和關(guān)系角色.實體邊界標簽采用“BIO”方式,字母“B”表示實體的頭部,字母“I”表示在實體中部或?qū)嶓w尾部,字母“O”表示非實體部分.實體類型標簽由實體類型確定,如“Per”表人名、“Org”表示公司名.實體關(guān)系標簽由關(guān)系類別來確定,如在金融領(lǐng)域中我們處理五種實體關(guān)系,分別用“Coo”“Dea”“Pun”“Mem”“Sto”表示合作、交易、處罰、成員和股權(quán)關(guān)系.關(guān)系角色用1、2、3分別表示關(guān)系主體、關(guān)系客體和重疊關(guān)系.標注過程如圖2所示.

    圖2 輸入句子標注過程Fig.2 Input sentence tagging process

    3.2 嵌入層

    BERT模型的輸入表示由Token Embedding,Segment Embedding和Position Embedding三部分相加組合而成.Token Embedding部分首先是[CLS]標志,然后是文字序列內(nèi)容,[SEP]標志句子的結(jié)束,可用于分開輸入句子,在這里每個Token都表示為一個768維的向量.Segment Embedding部分用于訓練句子的相互關(guān)系,區(qū)分每一個Token屬于句子A還是句子B,如果只有一個句子就只使用A.Position Embedding嵌入部分對文字出現(xiàn)位置進行編碼,在BERT模型中位置向量的值由正余弦函數(shù)生成,具體公式如下:

    其中,pos指當前Token在句子中的位置,d_model表示位置向量中每個值的維度.三向量相加后,進行歸一化和Dropout處理后送入BERT層進行特征提取.

    3.3 BERT層

    BERT采用雙向Transformer做特征抽取器,在預訓練時通過遮蔽語言模型(Masked Language Model,MLM),按照完形填空的思想,在輸入中隨機選擇15%的Token屏蔽掉,再根據(jù)其上下文來預測被屏蔽的Token.為了和后期Fine-tuning匹配,被選擇的Token只有80%的直接用[Mask]屏蔽,另外10%的隨機選擇別的Token代替,10%的使用原Token.此外,BERT還引入了下一句預測(Next Sentence Prediction,NSP)任務(wù),采用自監(jiān)督學習方式,學習文本對的表示.通過對海量自由文本的學習,BERT能自動學習得到文本中潛在的語言知識,并將這些知識以網(wǎng)絡(luò)參數(shù)的方式存儲起來,供后期具體任務(wù)的Fine-tuning使用.在做Fine-tuning任務(wù)時,BERT結(jié)構(gòu)無需改變,只需使用標注的數(shù)據(jù)對網(wǎng)絡(luò)進行訓練微調(diào).

    BERT中用到的是Transformer的Encoder單元,每個Encoder單元的結(jié)構(gòu)如圖3所示,其中包含兩個子層,第一子層由多頭自注意力層(Mulit-Head Attention)和規(guī)范化層(Add&Norm)以及一個殘差(Residual)連接;第二子層包括一個前饋全連接層(Feed Forward)和規(guī)范化層以及一個殘差連接.自注意力機制使用三元組(Query,Key,Value)表示,當Encoder對某個Token編碼時,用當前Token的Query表示向量Q,與其他所有Token的Key表示向量T做點積,再將點積結(jié)果歸一化后用softmax函數(shù)處理,然后與當前Token的Value表示向量V做乘法,即可得到最終的表示結(jié)果.自注意力機制能表達輸入序列的各部分(包括自己)與當前Token之間的聯(lián)系度,具體計算方法如下:

    圖3 Transformer Encoder單元Fig.3 Transformer Encoder Unit

    多頭(Multi-Head)機制,則是通過隨機初始化多組Q,K和V,經(jīng)過訓練后,得到多個不同權(quán)重的結(jié)果表示,再將這些結(jié)果通過乘法連接,多頭注意力機制增加了模型表達詞匯的多種特征的能力,從而均衡單一注意力機制可能產(chǎn)生的偏差,使多詞義詞能有多元表達.

    在進行了Attention操作之后,Encoder還使用一個前饋全連接層,對每個Token向量進行兩次線性變換和一次ReLU激活輸出.在多頭自注意力層和前饋全連接層后都有一個規(guī)范化層,其主要作用是進行數(shù)值的規(guī)范化,防止經(jīng)過多層計算后輸出開始出現(xiàn)過大或過小情況,使其特征值保持在合理范圍內(nèi).

    本文采用BERT-base模型,其中模型深度L=12層,隱藏層向量大小H=768維,多頭注意力機制A=12頭,模型參數(shù)總數(shù)是12*768*12=110 M.

    3.4 BiLSTM層

    LSTM屬于RNN的一種,它巧妙運用門控概念,實現(xiàn)了長距離依賴信息的學習.BiLSTM則是將兩個不同方向的LSTM進行疊加,從而能獲取全局信息.在BERT的頂層上套接一個BiLSTM是為了使整個模型能針對實體和關(guān)系聯(lián)合抽取任務(wù)快速學習到訓練參數(shù),適應(yīng)性更強.LSTM神經(jīng)單元中有遺忘門、記憶門和輸出門結(jié)構(gòu),可以根據(jù)細胞狀態(tài)和輸入值確定信息遺忘更新還是繼續(xù)傳遞,從而使有用信息能長期保存,而無用信息被丟棄.

    3.5 CRF層

    通過BiLSTM層能得到輸入序列中每個文字對應(yīng)各標注標簽的得分,但并不是直接按分值高低標注就是最優(yōu)結(jié)果,例如,每個序列的第一個標簽的實體邊界就只能是O或者B,不可能是I,以及I只能出現(xiàn)B或者I之后等.由此,在BiLSTM層上引入CRF層,能在預測標簽時充分考慮上下文關(guān)聯(lián),學習得到各標簽的轉(zhuǎn)移矩陣,更好的契合實體與關(guān)系的聯(lián)合抽取任務(wù).

    設(shè)輸入的序列x=(x1,x2,…,xn),經(jīng)過BERT和BiLSTM模塊后的輸出為矩陣P(n,k),k是標簽的個數(shù),Pi,j表示xi被標記為第j個標簽的概率.標簽序列為y=(y1,y2,…,yn),定義路徑得分公式為:

    其中,A為概率轉(zhuǎn)移矩陣,Ai,j表示第i個標簽轉(zhuǎn)移到第j個標簽的概率.

    3.6 實體及關(guān)系的輸出

    根據(jù)CRF輸出的序列標注結(jié)果,即可按照抽取算法,進行實體和關(guān)系的抽取.抽取算法如下:

    算法1:由CRF輸出標注序列(y1,y2,…,yn),抽取實體及關(guān)系.

    輸入:模型輸入文字序列(x1,x2,…,xn),CRF輸出標注序列(y1,y2,…,yn).

    輸出:實體集合N1,N2,…,Nk(k為實體類型數(shù)),關(guān)系集合R1,R2,…,Rm(m為關(guān)系種類數(shù)).

    步驟1:位序標記i=1,實體全體置為空,關(guān)系集合全體置為空,臨時實體名na置為空串,未匹配實體集Nn置為空.

    步驟2:如果i>n,則轉(zhuǎn)到步驟5執(zhí)行;否則做下一步.

    步驟3:如果標注yi代表O,則i++,再轉(zhuǎn)到第二步執(zhí)行;否則,如果標注yi代表B,則將其對應(yīng)輸入文字xi存入na,同時保存yi的實體屬性、關(guān)系屬性、角色屬性,i++,再轉(zhuǎn)到下一步執(zhí)行.

    步驟4:如果標注yi代表I,且yi與yi-1的其余屬性一致,則將其對應(yīng)輸入文字xi接在na的后面,i++,再重復執(zhí)行步驟4;否則做下一步.

    步驟5:根據(jù)實體屬性將na存入對應(yīng)實體集合Nj(j為對應(yīng)實體類型下標)中,并在未匹配實體集Nn中查找是否有與na關(guān)系屬性和角色屬性均匹配的實體,匹配時關(guān)系屬性應(yīng)相同,角色屬性1與2、3匹配、2與1、3匹配、3與1、2匹配,若能找到,則將其取出并與na合成關(guān)系三元組,再存入相應(yīng)類型的關(guān)系集合Rt(t為對應(yīng)關(guān)系類型下標)中;若不能找到,則將na及其所有屬性存入未匹配實體集Nn中.如果i>n,轉(zhuǎn)到步驟6執(zhí)行;否則,i++,再轉(zhuǎn)到步驟2執(zhí)行.

    步驟6:輸出實體集合N1,N2,…,Nk,關(guān)系集合R1,R2,…,Rm,算法結(jié)束.

    4 數(shù)據(jù)集與評測情況

    4.1 數(shù)據(jù)集介紹

    在信息抽取領(lǐng)域常用的數(shù)據(jù)集有MUC數(shù)據(jù)集、ACE數(shù)據(jù)集和SemEval數(shù)據(jù)集等.

    MUC數(shù)據(jù)集是MUC會議的數(shù)據(jù)庫語料,其主要來源于新聞?wù)Z料,MUC-6包含來自《華爾街日報》的318篇文章;MUC-7有來自紐約時報新聞的約158 000篇文章,語料范圍限定在海軍軍事情報、恐怖襲擊、人事職位變動等方面[3].

    ACE數(shù)據(jù)集相比MUC數(shù)據(jù)集不僅評測內(nèi)容擴大,語料來源也從原來MUC的限定領(lǐng)域語料變?yōu)閮?nèi)容更為廣泛的書面新聞?wù)Z料,應(yīng)用較廣是ACE-2004和ACE-2005.其中ACE-2004語料數(shù)據(jù)來源于LDC(linguistic data consortium,語言數(shù)據(jù)聯(lián)盟),分成廣播新聞和新聞專線兩部分,總共包括451和文檔和5 702個關(guān)系實例.ACE-2005對ACE-2004進行了擴充和完善,包括有英文、阿拉伯語和中文三個語種的資源,內(nèi)容涵蓋廣播新聞、廣播對話、新聞專線、微博和網(wǎng)絡(luò)新聞等[4].

    SemEval數(shù)據(jù)集是國際語義評測大會SemEval(International Workshop on Semantic Evaluation)的評測競賽數(shù)據(jù)集,SemEval由國際計算語言學協(xié)會(Association for Computational Linguistics,ACL)主辦,是目前規(guī)模最大、參賽人數(shù)最多、權(quán)威性最高的語義評測競賽.其中,SemEval-2010 Task 8數(shù)據(jù)集是2010年SemEval語義評測的子任務(wù),用于語義關(guān)系的分類,共包含10 717條數(shù)據(jù),訓練集8 000條,測試集2 717條,分別屬于9種不相容關(guān)系[34].

    4.2 典型論文的評測情況

    在信息抽取中常用的評測基本指標有三項,分別為:正確率(Precision)、召回率(Recall)和F值(Fmeasure).準確率反映系統(tǒng)正確抽取信息的能力,召回率反映系統(tǒng)在信息抽取時查全所有實體和關(guān)系的能力,而F值是綜合準確率和召回率指標的評估指標,用于綜合反映整體的指標,是目前使用最為廣泛的評測標準.表1是典型論文的數(shù)據(jù)集及其評測情況.

    表1 典型論文的數(shù)據(jù)集及其評測情況Table 1 Data sets of typical papers and their evaluation

    5 信息抽取展望

    目前基于深度學習的信息抽取方法已取得很好發(fā)展,但仍有很多方面值得深入研究.首先,深度學習模型擅于處理單句語義信息,但在實際應(yīng)用中,很多實體關(guān)系是由多個語句共同來表達,這就需要模型對文檔中的多個語句進行綜合理解、記憶和推理,進行文檔級關(guān)系抽取.其次,目前信息抽取的研究多集中預設(shè)好的抽取任務(wù)集上,但今后的應(yīng)用將是面向開放領(lǐng)域的信息抽取,因此,還需要不斷探索如何在開放領(lǐng)域中自動發(fā)現(xiàn)新的實體關(guān)系及其事實.最后,當前研究往往限于單語種的文本信息,而人類在接受信息時,可以多種信息綜合處理,因此,需要探索如何綜合利用多語言的文本、聲音和視頻信息進行關(guān)系抽取.總之,信息抽取的研究要面向?qū)嶋H需求,適應(yīng)開放關(guān)系和復雜的信息語境,以建立穩(wěn)定和高效的實用信息抽取系統(tǒng).

    猜你喜歡
    評測語料實體
    次時代主機微軟XSX全方位評測(下)
    次時代主機微軟XSX全方位評測(上)
    前海自貿(mào)區(qū):金融服務(wù)實體
    中國外匯(2019年18期)2019-11-25 01:41:54
    攻坡新利器,TOKEN VENTOUS評測
    實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
    哲學評論(2017年1期)2017-07-31 18:04:00
    兩會進行時:緊扣實體經(jīng)濟“釘釘子”
    振興實體經(jīng)濟地方如何“釘釘子”
    Canyon Ultimate CF SLX 8.0 DI2評測
    中國自行車(2017年1期)2017-04-16 02:54:06
    基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
    華語電影作為真實語料在翻譯教學中的應(yīng)用
    欧美激情久久久久久爽电影 | 久久精品91蜜桃| 亚洲欧美精品综合久久99| 99在线视频只有这里精品首页| 成人手机av| av网站免费在线观看视频| 黄色视频,在线免费观看| 久久久水蜜桃国产精品网| 99国产精品免费福利视频| 变态另类丝袜制服| 午夜福利,免费看| 1024香蕉在线观看| АⅤ资源中文在线天堂| 精品久久久久久久毛片微露脸| 女生性感内裤真人,穿戴方法视频| 午夜免费观看网址| 一a级毛片在线观看| 村上凉子中文字幕在线| 亚洲片人在线观看| 久久亚洲精品不卡| 亚洲美女黄片视频| 午夜福利高清视频| 亚洲专区中文字幕在线| 亚洲国产高清在线一区二区三 | 99久久综合精品五月天人人| 欧美丝袜亚洲另类 | 在线观看一区二区三区| 天天躁狠狠躁夜夜躁狠狠躁| 欧美激情久久久久久爽电影 | 免费看a级黄色片| 亚洲黑人精品在线| 亚洲精品一区av在线观看| 午夜福利18| 男人舔女人下体高潮全视频| 一a级毛片在线观看| 欧美老熟妇乱子伦牲交| 成人亚洲精品一区在线观看| 91成年电影在线观看| 母亲3免费完整高清在线观看| 亚洲精华国产精华精| 人成视频在线观看免费观看| 在线永久观看黄色视频| 99久久国产精品久久久| 午夜福利成人在线免费观看| 男人操女人黄网站| 男人的好看免费观看在线视频 | 色av中文字幕| 美女扒开内裤让男人捅视频| 国产av一区在线观看免费| 中文字幕久久专区| 国产成人精品久久二区二区免费| av电影中文网址| 日韩精品中文字幕看吧| 国产精品一区二区精品视频观看| 欧美日韩黄片免| 亚洲国产精品sss在线观看| 日韩欧美一区视频在线观看| 亚洲视频免费观看视频| 国产亚洲精品第一综合不卡| 久久欧美精品欧美久久欧美| 亚洲精品在线美女| 亚洲精品中文字幕在线视频| 999久久久国产精品视频| 中文字幕人成人乱码亚洲影| 99国产精品免费福利视频| 制服丝袜大香蕉在线| 国产精品久久久久久人妻精品电影| 电影成人av| 午夜福利在线观看吧| 18禁黄网站禁片午夜丰满| 欧美人与性动交α欧美精品济南到| 1024视频免费在线观看| 这个男人来自地球电影免费观看| 成人手机av| 黄片大片在线免费观看| x7x7x7水蜜桃| 亚洲成a人片在线一区二区| 亚洲精品国产色婷婷电影| 久久国产精品人妻蜜桃| 搡老熟女国产l中国老女人| 少妇 在线观看| 黑人巨大精品欧美一区二区蜜桃| 97人妻精品一区二区三区麻豆 | 免费在线观看视频国产中文字幕亚洲| 亚洲欧美精品综合一区二区三区| 精品国产亚洲在线| 日韩免费av在线播放| 亚洲美女黄片视频| 他把我摸到了高潮在线观看| 亚洲无线在线观看| 国产精品 国内视频| 嫁个100分男人电影在线观看| 精品一区二区三区四区五区乱码| 99久久综合精品五月天人人| 50天的宝宝边吃奶边哭怎么回事| 欧美精品啪啪一区二区三区| 99久久久亚洲精品蜜臀av| 无遮挡黄片免费观看| 岛国视频午夜一区免费看| 国产精品精品国产色婷婷| 亚洲国产欧美一区二区综合| 黄色片一级片一级黄色片| 黄片播放在线免费| av电影中文网址| 久久久久久人人人人人| 丰满的人妻完整版| 亚洲狠狠婷婷综合久久图片| 日本 欧美在线| 日韩一卡2卡3卡4卡2021年| 国产成人av教育| 精品久久蜜臀av无| 国产日韩一区二区三区精品不卡| 精品久久久久久久人妻蜜臀av | 国产又爽黄色视频| 婷婷六月久久综合丁香| 男女床上黄色一级片免费看| 欧美激情高清一区二区三区| 久久久久久久久久久久大奶| 别揉我奶头~嗯~啊~动态视频| 中文字幕色久视频| 制服人妻中文乱码| 香蕉久久夜色| 日本黄色视频三级网站网址| 亚洲欧美日韩无卡精品| 亚洲精品美女久久av网站| 日本 欧美在线| 亚洲欧美激情综合另类| 夜夜躁狠狠躁天天躁| 亚洲色图av天堂| 国产熟女xx| 国产成人精品久久二区二区免费| 国产乱人伦免费视频| 日韩欧美国产一区二区入口| 久久中文看片网| cao死你这个sao货| 在线av久久热| 一级毛片精品| 亚洲欧美日韩另类电影网站| 欧美av亚洲av综合av国产av| 国产三级黄色录像| 久久久久久久久久久久大奶| 可以免费在线观看a视频的电影网站| 国产99久久九九免费精品| 一级黄色大片毛片| 亚洲少妇的诱惑av| 在线免费观看的www视频| 久久人妻熟女aⅴ| 视频在线观看一区二区三区| 欧美丝袜亚洲另类 | bbb黄色大片| 最近最新中文字幕大全电影3 | 日韩欧美国产在线观看| 亚洲自偷自拍图片 自拍| 日韩精品青青久久久久久| 中文字幕人妻丝袜一区二区| 日本 欧美在线| 99久久综合精品五月天人人| 色播在线永久视频| 不卡一级毛片| 日韩欧美三级三区| 电影成人av| 免费久久久久久久精品成人欧美视频| 国产伦一二天堂av在线观看| 成人av一区二区三区在线看| 亚洲久久久国产精品| 一区二区三区精品91| 多毛熟女@视频| 亚洲精品一卡2卡三卡4卡5卡| 欧美av亚洲av综合av国产av| 免费看美女性在线毛片视频| 黄色片一级片一级黄色片| 欧美最黄视频在线播放免费| 久久精品91蜜桃| 国产不卡一卡二| 国产伦人伦偷精品视频| 人人妻人人澡人人看| 亚洲色图综合在线观看| 精品不卡国产一区二区三区| 亚洲欧美日韩无卡精品| 视频区欧美日本亚洲| 18禁美女被吸乳视频| 国产欧美日韩一区二区精品| 最近最新中文字幕大全电影3 | 午夜久久久久精精品| 在线十欧美十亚洲十日本专区| 午夜影院日韩av| 久久中文字幕一级| 国产极品粉嫩免费观看在线| 国内久久婷婷六月综合欲色啪| 国产成人精品久久二区二区免费| 亚洲中文字幕日韩| 国产av一区二区精品久久| 欧美成人性av电影在线观看| 国产区一区二久久| 精品国产乱子伦一区二区三区| 国产精品1区2区在线观看.| 亚洲精品一区av在线观看| 久久久久久国产a免费观看| 嫁个100分男人电影在线观看| www.精华液| 免费在线观看视频国产中文字幕亚洲| 亚洲精品一区av在线观看| 国产三级黄色录像| 国产欧美日韩综合在线一区二区| 免费观看精品视频网站| 精品不卡国产一区二区三区| 午夜福利一区二区在线看| 国产精品久久久久久人妻精品电影| 中出人妻视频一区二区| 91在线观看av| 老司机靠b影院| www.999成人在线观看| cao死你这个sao货| 精品欧美一区二区三区在线| 国产精品亚洲美女久久久| 老熟妇仑乱视频hdxx| 国产精品一区二区三区四区久久 | 免费在线观看完整版高清| 在线观看午夜福利视频| 亚洲avbb在线观看| 国产免费男女视频| 美女大奶头视频| 日本免费a在线| 女人被狂操c到高潮| 成人永久免费在线观看视频| 亚洲国产毛片av蜜桃av| 免费看美女性在线毛片视频| 日本撒尿小便嘘嘘汇集6| 99久久99久久久精品蜜桃| 国产精品久久久久久亚洲av鲁大| 露出奶头的视频| aaaaa片日本免费| 国产亚洲精品av在线| 久久人人精品亚洲av| 免费观看人在逋| 成年女人毛片免费观看观看9| 女人爽到高潮嗷嗷叫在线视频| 日韩精品青青久久久久久| videosex国产| 美女 人体艺术 gogo| 国产熟女xx| 精品久久久久久,| 欧美日韩亚洲综合一区二区三区_| av片东京热男人的天堂| 午夜福利影视在线免费观看| ponron亚洲| 亚洲无线在线观看| 国产精品野战在线观看| .国产精品久久| 久久这里只有精品中国| 国产精品久久视频播放| 黄色丝袜av网址大全| 成人特级黄色片久久久久久久| 精品国产三级普通话版| 亚洲欧美日韩卡通动漫| 免费看av在线观看网站| 欧美激情久久久久久爽电影| 亚洲自拍偷在线| 欧美成人a在线观看| 国产在线精品亚洲第一网站| 亚洲av二区三区四区| 九九久久精品国产亚洲av麻豆| 欧美成人一区二区免费高清观看| 亚洲第一电影网av| 99久久九九国产精品国产免费| 九九久久精品国产亚洲av麻豆| 18禁裸乳无遮挡免费网站照片| 亚洲精品乱码久久久v下载方式| 精品福利观看| 国产精品一及| 在现免费观看毛片| 尾随美女入室| 国内揄拍国产精品人妻在线| 美女cb高潮喷水在线观看| 亚洲va日本ⅴa欧美va伊人久久| 琪琪午夜伦伦电影理论片6080| 国产av一区在线观看免费| 少妇人妻一区二区三区视频| 久久精品国产亚洲网站| 91久久精品电影网| 美女cb高潮喷水在线观看| 色综合色国产| 欧美zozozo另类| 91在线观看av| 亚洲最大成人av| 免费观看精品视频网站| 精品午夜福利在线看| 色尼玛亚洲综合影院| 亚洲国产精品sss在线观看| 国产麻豆成人av免费视频| 日韩中文字幕欧美一区二区| 在线观看午夜福利视频| 老熟妇乱子伦视频在线观看| 狠狠狠狠99中文字幕| 国产精品人妻久久久久久| 亚洲精品色激情综合| 久久久久久久久久久丰满 | 可以在线观看的亚洲视频| 夜夜看夜夜爽夜夜摸| 啪啪无遮挡十八禁网站| 成年版毛片免费区| 丝袜美腿在线中文| 两性午夜刺激爽爽歪歪视频在线观看| 18禁在线播放成人免费| 国产午夜精品论理片| 欧美一区二区国产精品久久精品| 看片在线看免费视频| 99热只有精品国产| 国产综合懂色| 日韩欧美三级三区| 国产色爽女视频免费观看| 日韩精品有码人妻一区| 亚洲男人的天堂狠狠| 97人妻精品一区二区三区麻豆| 久久精品国产亚洲网站| 亚洲真实伦在线观看| 久99久视频精品免费| 不卡一级毛片| 97热精品久久久久久| 国产伦一二天堂av在线观看| 日韩欧美免费精品| 搞女人的毛片| 91在线精品国自产拍蜜月| 尾随美女入室| 少妇裸体淫交视频免费看高清| 国产亚洲精品综合一区在线观看| 亚洲性夜色夜夜综合| 波多野结衣巨乳人妻| 久久人人爽人人爽人人片va| 免费人成在线观看视频色| 亚洲av免费在线观看| 天堂影院成人在线观看| 久久这里只有精品中国| 又爽又黄a免费视频| 日本 av在线| 亚洲av电影不卡..在线观看| 在线观看一区二区三区| 亚洲不卡免费看| 午夜福利欧美成人| 亚洲人成网站在线播| 3wmmmm亚洲av在线观看| 亚洲av电影不卡..在线观看| 搡女人真爽免费视频火全软件 | 99热精品在线国产| 精品久久久久久久久av| 少妇的逼水好多| 亚洲国产欧美人成| 在线国产一区二区在线| 亚洲性夜色夜夜综合| 欧美高清成人免费视频www| 欧美性猛交黑人性爽| 日韩一区二区视频免费看| 国产亚洲91精品色在线| 大又大粗又爽又黄少妇毛片口| 免费电影在线观看免费观看| 欧美一级a爱片免费观看看| 亚洲av美国av| 欧美最黄视频在线播放免费| 丰满乱子伦码专区| 尾随美女入室| а√天堂www在线а√下载| 亚洲,欧美,日韩| 超碰av人人做人人爽久久| 中国美白少妇内射xxxbb| 极品教师在线免费播放| 免费看光身美女| 亚洲七黄色美女视频| 欧美绝顶高潮抽搐喷水| 久久久久久久精品吃奶| 在线观看66精品国产| 在线观看午夜福利视频| 欧美日韩黄片免| 精品欧美国产一区二区三| 身体一侧抽搐| 亚洲成人久久爱视频| 亚洲 国产 在线| 一级黄片播放器| 亚洲真实伦在线观看| 麻豆av噜噜一区二区三区| 亚洲自拍偷在线| 久久久国产成人精品二区| 亚洲国产精品sss在线观看| 久久草成人影院| 黄片wwwwww| 内地一区二区视频在线| 99久久中文字幕三级久久日本| 九色国产91popny在线| 88av欧美| 国产在线男女| 在线观看美女被高潮喷水网站| 内射极品少妇av片p| 两个人视频免费观看高清| 国产精品一区二区三区四区免费观看 | 亚洲精华国产精华精| 久久中文看片网| 热99re8久久精品国产| 国产毛片a区久久久久| 成年女人永久免费观看视频| 精品99又大又爽又粗少妇毛片 | 日韩av在线大香蕉| 大又大粗又爽又黄少妇毛片口| 搡老岳熟女国产| 麻豆av噜噜一区二区三区| 一进一出抽搐gif免费好疼| 嫩草影院新地址| 美女被艹到高潮喷水动态| 日韩欧美一区二区三区在线观看| 久久精品国产亚洲网站| 国产一级毛片七仙女欲春2| 噜噜噜噜噜久久久久久91| 亚洲人成网站在线播| 国产高潮美女av| 亚洲av熟女| 亚洲av不卡在线观看| 91狼人影院| 国产精品一区二区三区四区久久| 搡老妇女老女人老熟妇| 日本一本二区三区精品| 少妇丰满av| 美女高潮的动态| 一进一出抽搐gif免费好疼| 日韩高清综合在线| 看免费成人av毛片| 综合色av麻豆| 午夜精品一区二区三区免费看| 色吧在线观看| 日韩欧美在线二视频| 国产精品福利在线免费观看| 国产欧美日韩一区二区精品| 一个人看视频在线观看www免费| 九色成人免费人妻av| 久久人妻av系列| 丰满的人妻完整版| 精品久久久久久成人av| 国产av在哪里看| 好男人在线观看高清免费视频| av.在线天堂| 久9热在线精品视频| 欧美又色又爽又黄视频| 91精品国产九色| 国产蜜桃级精品一区二区三区| 国产色爽女视频免费观看| 国产一区二区在线av高清观看| 韩国av一区二区三区四区| 亚洲欧美日韩卡通动漫| 欧美三级亚洲精品| 午夜激情欧美在线| 少妇被粗大猛烈的视频| 亚洲人成网站高清观看| 国产精品自产拍在线观看55亚洲| 成年版毛片免费区| 国产欧美日韩一区二区精品| 久久人人精品亚洲av| 欧美高清性xxxxhd video| 美女高潮喷水抽搐中文字幕| 国产亚洲精品综合一区在线观看| 色播亚洲综合网| 亚洲人成网站在线播放欧美日韩| 简卡轻食公司| 美女免费视频网站| 国产色爽女视频免费观看| 亚洲国产欧美人成| 少妇熟女aⅴ在线视频| 国产精品久久视频播放| 久久久久久九九精品二区国产| 99热这里只有是精品在线观看| 最新中文字幕久久久久| 啦啦啦观看免费观看视频高清| 最近视频中文字幕2019在线8| 国产毛片a区久久久久| 日本一二三区视频观看| 亚洲国产精品合色在线| 国产精品久久视频播放| 在线观看av片永久免费下载| 精品日产1卡2卡| 久久久久久久久久黄片| 中文资源天堂在线| 一边摸一边抽搐一进一小说| 欧美一区二区精品小视频在线| 啦啦啦啦在线视频资源| 日日撸夜夜添| 18+在线观看网站| 亚洲国产精品成人综合色| 国产一区二区三区视频了| 韩国av在线不卡| 国产不卡一卡二| 成人美女网站在线观看视频| 免费大片18禁| 日韩中文字幕欧美一区二区| 97超级碰碰碰精品色视频在线观看| 热99在线观看视频| 日韩一区二区视频免费看| 亚洲七黄色美女视频| 日本黄色视频三级网站网址| 两人在一起打扑克的视频| 婷婷六月久久综合丁香| 亚洲av中文字字幕乱码综合| 亚洲黑人精品在线| 成人毛片a级毛片在线播放| 久久精品国产99精品国产亚洲性色| 久久精品国产清高在天天线| 国产亚洲精品综合一区在线观看| 久久午夜福利片| 久久精品人妻少妇| 亚洲不卡免费看| 有码 亚洲区| 国产探花极品一区二区| 国内精品宾馆在线| 国产 一区精品| 十八禁国产超污无遮挡网站| 欧美一区二区亚洲| 日韩中文字幕欧美一区二区| 国产亚洲欧美98| 91麻豆精品激情在线观看国产| 人人妻人人看人人澡| 性插视频无遮挡在线免费观看| ponron亚洲| 亚洲av电影不卡..在线观看| 国产成人福利小说| 欧美不卡视频在线免费观看| 国产精品一区www在线观看 | 成人美女网站在线观看视频| 天美传媒精品一区二区| 国内精品美女久久久久久| 成人二区视频| 亚洲av成人av| 欧美日韩瑟瑟在线播放| 久9热在线精品视频| 婷婷色综合大香蕉| 免费人成在线观看视频色| 岛国在线免费视频观看| 亚洲成人久久性| 女的被弄到高潮叫床怎么办 | 国产成人一区二区在线| 国产亚洲av嫩草精品影院| 日本与韩国留学比较| 真实男女啪啪啪动态图| 在线观看美女被高潮喷水网站| 成年女人看的毛片在线观看| 成年女人毛片免费观看观看9| 欧美黑人欧美精品刺激| 搞女人的毛片| 久9热在线精品视频| 欧美bdsm另类| 天堂av国产一区二区熟女人妻| 毛片一级片免费看久久久久 | 亚洲最大成人手机在线| 搡老岳熟女国产| 啦啦啦韩国在线观看视频| 丝袜美腿在线中文| 成人国产一区最新在线观看| 又爽又黄a免费视频| 深爱激情五月婷婷| av.在线天堂| 中出人妻视频一区二区| 床上黄色一级片| 国语自产精品视频在线第100页| 狂野欧美白嫩少妇大欣赏| 精品一区二区免费观看| 久久久久免费精品人妻一区二区| 久久国内精品自在自线图片| 国产真实伦视频高清在线观看 | 搡老妇女老女人老熟妇| 国产高清视频在线播放一区| 亚洲国产精品久久男人天堂| 乱人视频在线观看| 永久网站在线| 亚洲人成网站在线播| 久久久久久大精品| 在线天堂最新版资源| 久久草成人影院| 有码 亚洲区| 在线观看66精品国产| 麻豆av噜噜一区二区三区| 五月玫瑰六月丁香| 亚洲av五月六月丁香网| 三级毛片av免费| 99久久中文字幕三级久久日本| 久久精品国产亚洲av涩爱 | 18禁裸乳无遮挡免费网站照片| 色在线成人网| 成人一区二区视频在线观看| videossex国产| 亚洲乱码一区二区免费版| 亚洲三级黄色毛片| 中亚洲国语对白在线视频| 日本与韩国留学比较| 成人综合一区亚洲| 性插视频无遮挡在线免费观看| 免费看a级黄色片| 午夜精品一区二区三区免费看| 色播亚洲综合网| 亚洲真实伦在线观看| 亚洲三级黄色毛片| 国产精品久久视频播放| 国产真实伦视频高清在线观看 | av视频在线观看入口| 久久精品人妻少妇| 真实男女啪啪啪动态图| 丝袜美腿在线中文| 人人妻人人澡欧美一区二区| 啦啦啦观看免费观看视频高清| 天天躁日日操中文字幕| 日本五十路高清| 国产色婷婷99| videossex国产| 美女免费视频网站| 午夜免费男女啪啪视频观看 | 大又大粗又爽又黄少妇毛片口| 日本 欧美在线| 国产真实伦视频高清在线观看 | 丝袜美腿在线中文| 人人妻人人澡欧美一区二区| 精品国内亚洲2022精品成人| 中国美女看黄片|