高躍
(四川大學(xué)計(jì)算機(jī)學(xué)院,成都610065)
隨著互聯(lián)網(wǎng)技術(shù)的高速發(fā)展,網(wǎng)絡(luò)上產(chǎn)生了海量的非結(jié)構(gòu)化數(shù)據(jù),自然語(yǔ)言處理(Natural Language Processing,NLP)中的信息抽?。↖nformation Extraction,IE)技術(shù)被用于從海量的非結(jié)構(gòu)化文本中抽取出結(jié)構(gòu)化的信息,這些結(jié)構(gòu)化信息常用關(guān)系三元組(實(shí)體1;關(guān)系;實(shí)體2)的形式表示。傳統(tǒng)的信息抽取任務(wù)預(yù)先給定一組關(guān)系類(lèi)別集合,限定關(guān)系類(lèi)別以及文本的領(lǐng)域,在給定實(shí)體對(duì)的情況下可以將信息抽取看作是對(duì)實(shí)體對(duì)的多分類(lèi)問(wèn)題。但開(kāi)放域信息抽?。∣pen Domain Information Extraction,Open IE)[1]不限定關(guān)系類(lèi)別,從文本中抽取所有可能的關(guān)系三元組,例如:給定句子“自然語(yǔ)言處理是計(jì)算機(jī)科學(xué)的一個(gè)方向”,開(kāi)放域信息抽取能夠從中提取出關(guān)系三元組(自然語(yǔ)言處理;是;計(jì)算機(jī)科學(xué)的一個(gè)方向),其中的關(guān)系類(lèi)別不受限制。這些提取出的關(guān)系三元組可以用于許多下游工作,如:?jiǎn)柎鹣到y(tǒng)[2]、信息檢索[3]和知識(shí)圖譜構(gòu)建[4]等。
Banko 等人[1]首次提出開(kāi)放域信息抽取任務(wù),吸引了大量研究者的關(guān)注,早期的開(kāi)放域信息抽取方法大多使用從標(biāo)注文本中自動(dòng)學(xué)習(xí)[1,5-6]或者人工構(gòu)造的模板[7-9],依賴(lài)句子的依存特征進(jìn)行關(guān)系三元組的抽取,由于使用領(lǐng)域獨(dú)立的句法特征等信息,這些方法可以適用于不同領(lǐng)域和關(guān)系類(lèi)型。一些研究者認(rèn)為關(guān)系三元組缺失完整的上下文信息不利于下游任務(wù)的理解,且可能抽取出非事實(shí)性的、假設(shè)性的三元組,因此一些方法也探索了如何抽取具備完整上下文信息的關(guān)系三元組。Mausam 等人[5]分析三元組的上下文,并將其作為三元組的額外字段,Gashteovski 等人[10]用上下文信息對(duì)提取的三元組進(jìn)行標(biāo)注,一些系統(tǒng)[11-13]從三元組的上下文中提取額外的關(guān)系三元組,并使用修辭關(guān)系或依賴(lài)關(guān)系信息將其聯(lián)系起來(lái),以獲得具有完整上下文信息的關(guān)系三元組。結(jié)構(gòu)復(fù)雜的句子對(duì)于Open IE 方法來(lái)說(shuō)是一個(gè)巨大的挑戰(zhàn),難以使用規(guī)則等方法從復(fù)雜句子中抽取關(guān)系三元組,因此為了提高關(guān)系三元組抽取的準(zhǔn)確度,一些方法[13-15]提出了將復(fù)雜的句子轉(zhuǎn)化為簡(jiǎn)單的子句,并在這些簡(jiǎn)單的子句中使用簡(jiǎn)單的模板抽取三元組。隨著近幾年深度學(xué)習(xí)方法發(fā)展,基于深度學(xué)習(xí)的開(kāi)放域信息抽取成為主流,Cui 等人[16]、Stanovsky 等人[17]將開(kāi)放域信息抽取轉(zhuǎn)換為序列生成和序列標(biāo)注問(wèn)題,在多個(gè)數(shù)據(jù)集上取得了優(yōu)秀的成績(jī)。
自從Banko 等人[1]首次提出,開(kāi)放域信息抽取任務(wù)已經(jīng)獲得了長(zhǎng)足的發(fā)展,現(xiàn)有的開(kāi)放域信息抽取方法大致可以分為四類(lèi):基于學(xué)習(xí)的方法、基于規(guī)則的方法、基于子句的方法和基于深度學(xué)習(xí)的方法。此外,一些研究者針對(duì)不同語(yǔ)言的開(kāi)放域信息抽取也進(jìn)行了研究。
由于開(kāi)放域信息抽取任務(wù)缺少大規(guī)模的標(biāo)注數(shù)據(jù),早期的方法都通過(guò)啟發(fā)式方法、遠(yuǎn)監(jiān)督方法等自動(dòng)獲取大量標(biāo)注數(shù)據(jù),使用這些自動(dòng)標(biāo)注的數(shù)據(jù)自動(dòng)學(xué)習(xí)得到抽取模板或者分類(lèi)器進(jìn)行關(guān)系三元組的抽取。TextRunner[1]首先識(shí)別句子中可能的實(shí)體,然后利用一組啟發(fā)式規(guī)則自動(dòng)標(biāo)注句子中可能的三元組集合,使用這些標(biāo)注數(shù)據(jù)訓(xùn)練樸素貝葉斯分類(lèi)器,判斷兩個(gè)實(shí)體之間的文本是否表達(dá)了關(guān)系。類(lèi)似地,WOE[6]使用維基百科信息框中的數(shù)據(jù)作為監(jiān)督源進(jìn)行遠(yuǎn)監(jiān)督標(biāo)注,使用訓(xùn)練的分類(lèi)器判斷實(shí)體對(duì)之間的最短依存路徑是否隱含表達(dá)關(guān)系。WOE 系統(tǒng)首次顯示利用依存解析特征相比于淺層語(yǔ)言特征(如:詞性序列)能取得更好的結(jié)果,大多數(shù)后續(xù)開(kāi)放域信息抽取方法都利用了依存解析特征。后續(xù)的OLLIE[5]也使用了依存解析,從遠(yuǎn)監(jiān)督標(biāo)注數(shù)據(jù)的依存解析樹(shù)中自動(dòng)學(xué)習(xí)抽取模板,在依存解析上進(jìn)行關(guān)系三元組的抽取。最近有研究者提出ATP-OIE[18],與OLLIE 類(lèi)似地從依存解析樹(shù)上學(xué)習(xí)模板,但不同的是ATP-OIE 針對(duì)關(guān)系三元組的每個(gè)部分單獨(dú)學(xué)習(xí)抽取模板,取得了較好的效果。
除了從標(biāo)注數(shù)據(jù)中自動(dòng)學(xué)習(xí)抽取的模板,早期還有一些方法使用人工總結(jié)的規(guī)則進(jìn)行關(guān)系三元組的抽取,REVERB[7]通過(guò)定義一組人工定義的詞性序列模板對(duì)關(guān)系短語(yǔ)進(jìn)行句法約束,避免不連貫和無(wú)信息的抽取,同時(shí)REVERB 作者認(rèn)為正確的關(guān)系短語(yǔ)應(yīng)該在語(yǔ)料庫(kù)中和不同的論元共同出現(xiàn),對(duì)關(guān)系短語(yǔ)進(jìn)行詞匯約束以減少關(guān)系短語(yǔ)的過(guò)度抽取。EXEMPLAR[8]使用一組人工構(gòu)造的基于依存解析樹(shù)的模板,檢測(cè)關(guān)系觸發(fā)詞和與它相連的論元實(shí)體。PropS[19]認(rèn)為從依存解析樹(shù)中直接抽取三元組很困難,使用一組規(guī)則將依存解析樹(shù)轉(zhuǎn)化為帶標(biāo)注的有向圖,由于有向圖的形式比依存解析樹(shù)更簡(jiǎn)單,只包含幾種節(jié)點(diǎn)和邊,因此從轉(zhuǎn)化后的有向圖中可以輕松抽取出關(guān)系三元組。與PropS 很相似,PredPatt[9]也基于普遍依存解析(Universal Dependency Parse)對(duì)句子構(gòu)建了有向圖,使用規(guī)則在其上進(jìn)行抽取。這些基于規(guī)則的方法往往能夠帶來(lái)精確的抽取,但構(gòu)造規(guī)則需要觀察大量語(yǔ)料,耗時(shí)耗力。
結(jié)構(gòu)復(fù)雜的長(zhǎng)句子一直是開(kāi)放域信息抽取的挑戰(zhàn),為了提高開(kāi)放域信息抽取在復(fù)雜長(zhǎng)句子上的抽取效果,研究者嘗試將復(fù)雜的句子轉(zhuǎn)換為結(jié)構(gòu)簡(jiǎn)單的獨(dú)立子句,從這些子句中抽取關(guān)系三元組更簡(jiǎn)單。經(jīng)典的ClausIE[14]識(shí)別句子中的所有動(dòng)詞,然后根據(jù)語(yǔ)法知識(shí)和依存關(guān)系識(shí)別依賴(lài)于這些動(dòng)詞的子句部分,得到的子句會(huì)被判斷屬于哪一種類(lèi)型,以便使用對(duì)應(yīng)的模板抽取關(guān)系三元組。Angeli 等人[15]提出了Stanford OIE,巧妙地使用一個(gè)依存解析樹(shù)上遞歸向下的邊搜索算法解決了子句位置的識(shí)別問(wèn)題,同時(shí)采用自然邏輯對(duì)得到的子句進(jìn)行處理,使得從這些子句中抽取得到的三元組在下游任務(wù)中更有用。最近的Graphene[13]使用一組人工定義的簡(jiǎn)化規(guī)則移除句子中不重要的從句和短語(yǔ),最終將復(fù)雜的句子轉(zhuǎn)換為簡(jiǎn)單緊湊的獨(dú)立句子,并使用模板從中抽取關(guān)系三元組。
近幾年,自然語(yǔ)言處理領(lǐng)域的許多任務(wù)運(yùn)用深度學(xué)習(xí)技術(shù)取得了不俗的成果,基于深度學(xué)習(xí)的方法也逐漸在開(kāi)放域信息抽取任務(wù)中占據(jù)主流。目前這些方法主要將開(kāi)放域信息抽取看作是序列生成、序列標(biāo)注和基于分塊(span-based)的選擇問(wèn)題。Cui 等人[16]將開(kāi)放域信息抽取看作是序列到序列的生成問(wèn)題,使用編碼器-解碼器框架對(duì)輸入句子進(jìn)行編碼,生成包含關(guān)系三元組序列和分隔符的輸出序列。簡(jiǎn)單的序列生成模型可能會(huì)生成大量相似的冗余抽取,同時(shí)Beam 搜索無(wú)法很好處理句子中的三元組個(gè)數(shù)問(wèn)題,Kolluru 等人[20]在序列生成模型的基礎(chǔ)上提出將生成的三元組序列添加到編碼端重新編碼,以指導(dǎo)后續(xù)三元組的生成。Stanovsky 等人[17]將開(kāi)放域信息抽取轉(zhuǎn)化為序列標(biāo)注問(wèn)題,首先識(shí)別句子中可能的關(guān)系詞,然后針對(duì)每個(gè)關(guān)系詞對(duì)輸入句子進(jìn)行BIO 標(biāo)注,得到對(duì)應(yīng)的關(guān)系三元組序列。SenseOIE[21]也使用序列標(biāo)注方法,但將多個(gè)開(kāi)放域信息抽取方法的輸出作為序列標(biāo)注模型的輸入特征,利用了之前方法的優(yōu)點(diǎn)。使用一個(gè)基于分塊的選擇模型,SpanOIE[22]得到句子中每個(gè)分塊屬于各個(gè)標(biāo)簽的得分,為關(guān)系三元組中的每個(gè)角色(關(guān)系,論元)從句子中選擇得分最高的分塊作為相應(yīng)的抽取。這些基于深度學(xué)習(xí)的方法相比于之前的基于規(guī)則的系統(tǒng)更靈活,同時(shí)不存在錯(cuò)誤傳播等問(wèn)題。
現(xiàn)有的開(kāi)放域信息抽取研究大多集中在英語(yǔ)文本,但不同的語(yǔ)言在詞匯、句法和語(yǔ)義等層面具備很大差異,因此一些研究者針對(duì)英語(yǔ)之外的其他語(yǔ)言進(jìn)行研究,提出了特定語(yǔ)言的開(kāi)放域信息抽取方法。ZORE[23]在中文的依存解析樹(shù)上使用模板和語(yǔ)法知識(shí)進(jìn)行抽取,最近有研究者提出使用端到端的指針-生成器的網(wǎng)絡(luò)[24]解決錯(cuò)誤傳播問(wèn)題,在中文上取得了較好的效果。針對(duì)西班牙語(yǔ),有方法使用與REVERB 類(lèi)似的基于詞性序列模板的句法約束進(jìn)行開(kāi)放域信息抽取[25]。
開(kāi)放域信息抽取工作中常用的數(shù)據(jù)集有OIE2016、CaRB、PENN、Web、NYT 等,其中Web、NYT、PENN 數(shù)據(jù)集是人工標(biāo)注的數(shù)據(jù)集。Web 數(shù)據(jù)集[8]中的句子來(lái)自網(wǎng)頁(yè)和新聞,這些句子往往不完整或者包含錯(cuò)誤的語(yǔ)法,并且句子結(jié)構(gòu)一般比其他數(shù)據(jù)集更簡(jiǎn)單。NYT 數(shù)據(jù)集[8]中的句子來(lái)自《紐約時(shí)報(bào)》語(yǔ)料庫(kù),書(shū)寫(xiě)更加正式規(guī)范。OIE2016 數(shù)據(jù)集[26]是由QA-SRL 自動(dòng)轉(zhuǎn)換而來(lái),被現(xiàn)有的開(kāi)放域信息抽取方法廣泛采用作為評(píng)價(jià)數(shù)據(jù)集,最近IMOJIE[20]采用眾包對(duì)OIE2016中的驗(yàn)證集和測(cè)試集重新進(jìn)行了標(biāo)注,得到了更準(zhǔn)確的數(shù)據(jù)集CaRB。表1 顯示了這些數(shù)據(jù)集的更多細(xì)節(jié)。
表1 數(shù)據(jù)集
隨著互聯(lián)網(wǎng)上海量非結(jié)構(gòu)化文本的產(chǎn)生,越來(lái)越多的研究工作從傳統(tǒng)的信息抽取轉(zhuǎn)向了開(kāi)放域信息抽取,本文介紹了開(kāi)放域信息抽取任務(wù),對(duì)目前的開(kāi)放域信息抽取研究工作進(jìn)行了總結(jié)和梳理,列舉了被廣泛使用的評(píng)價(jià)數(shù)據(jù)集。近幾年深度學(xué)習(xí)技術(shù)的使用使得開(kāi)放域信息抽取模型更加靈活,解決了之前方法的錯(cuò)誤傳播問(wèn)題,取得了不錯(cuò)的效果,但目前這方面研究還是有一定的問(wèn)題。一方面深度學(xué)習(xí)方法需要更加大量的標(biāo)注數(shù)據(jù),目前開(kāi)放域信息抽取任務(wù)并沒(méi)有特別可靠的大規(guī)模標(biāo)注數(shù)據(jù),另一方面復(fù)雜句子的抽取仍然是一個(gè)很大的挑戰(zhàn),同時(shí)對(duì)于抽取結(jié)果的評(píng)價(jià)方式也存在爭(zhēng)議。未來(lái)的開(kāi)放域信息抽取工作可以思考如何自動(dòng)標(biāo)注更可靠的數(shù)據(jù),或者引入外部信息輔助抽取,例如對(duì)遠(yuǎn)監(jiān)督獲得的標(biāo)注數(shù)據(jù)進(jìn)行去噪。后續(xù)工作也可以考慮對(duì)復(fù)雜句子進(jìn)行處理,降低開(kāi)放域信息抽取任務(wù)復(fù)雜度,使模型更好地學(xué)習(xí)到抽取需要的特征,同時(shí)在英語(yǔ)外的其他語(yǔ)言上的開(kāi)放域信息抽取任務(wù)也還有很大的研究空間。