張淑霞 龔炳江
摘要:關(guān)系抽取是信息抽取的子任務(wù),將關(guān)系抽取應(yīng)用到煤礦的規(guī)范、章程等諸多復(fù)雜的文本信息方面,對(duì)于煤礦行業(yè)知識(shí)圖譜的構(gòu)建等研究有重要的價(jià)值。文章將目前基于規(guī)則、基于機(jī)器學(xué)習(xí)和基于深度學(xué)習(xí)的關(guān)系抽取等主要技術(shù)的方法和思路進(jìn)行分析,并提出了使用BiLSTM-ATT(雙向長(zhǎng)短期記憶網(wǎng)絡(luò)一注意力機(jī)制)模型來(lái)實(shí)現(xiàn)煤礦行業(yè)文本信息中實(shí)體關(guān)系的抽取。該課題可以為從事煤礦行業(yè)的人員和其他領(lǐng)域的研究提供較大的實(shí)際意義。
關(guān)鍵詞:煤礦行業(yè);關(guān)系抽取;主要技術(shù);BiLSTM-ATT模型;文本信息
中圖分類(lèi)號(hào):TP391.1 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2020)22-0187-03
開(kāi)放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
1 背景
近年來(lái),隨著網(wǎng)絡(luò)信息資源的不斷擴(kuò)充,信息數(shù)據(jù)呈現(xiàn)高速增長(zhǎng),在互聯(lián)網(wǎng)中準(zhǔn)確高效地獲取所需要的信息成為當(dāng)下研究的熱點(diǎn),因此信息抽取技術(shù)得到廣泛關(guān)注。而煤礦行業(yè)本身就存在著諸多煩瑣的規(guī)章、條例、規(guī)范等信息,因此本課題旨在挖掘煤礦領(lǐng)域文本數(shù)據(jù)中的語(yǔ)義關(guān)系,為構(gòu)建知識(shí)圖譜、智能問(wèn)答等能夠快速獲取所需信息的研究提供堅(jiān)實(shí)的基礎(chǔ)。關(guān)系抽取是信息抽取的主要步驟之一,在自然語(yǔ)言處理中有著廣泛的應(yīng)用。
關(guān)系抽取具體來(lái)講是指從非結(jié)構(gòu)化的文本數(shù)據(jù)中找出實(shí)體之間存在的關(guān)系,并表示為三元組:<實(shí)體1,關(guān)系,實(shí)體2>。通過(guò)關(guān)系抽取,可以找出實(shí)體間更多隱藏的關(guān)系,幫助計(jì)算機(jī)更好的理解大規(guī)模的文本數(shù)據(jù)信息。本文將對(duì)目前已有的關(guān)系抽取技術(shù)進(jìn)行分析對(duì)比,并在此基礎(chǔ)上針對(duì)煤礦領(lǐng)域的條例、規(guī)范等數(shù)據(jù),提出實(shí)現(xiàn)關(guān)系抽取的解決方法,為構(gòu)建煤礦行業(yè)知識(shí)圖譜和實(shí)現(xiàn)智能問(wèn)答提供有效的幫助。
2 關(guān)系抽取的發(fā)展歷程
MUC是美國(guó)一個(gè)研究委員會(huì)資助的信息理解會(huì)議,一直致力于信息抽取方法的研究,關(guān)系抽取最早是MUC于1998年的第七次會(huì)議上以關(guān)系模板的形式提出的[1]。MUC只召開(kāi)過(guò)七次,之后在1999年,美國(guó)的研究院又召開(kāi)了ACE(自動(dòng)內(nèi)容抽?。┰u(píng)測(cè)會(huì)議,ACE針對(duì)新聞行業(yè)的實(shí)體關(guān)系抽取展開(kāi)研究,為以后關(guān)系抽取的發(fā)展提供了基礎(chǔ)的語(yǔ)料和關(guān)系類(lèi)型,在一定程度上推動(dòng)了關(guān)系抽取技術(shù)的進(jìn)步。近年來(lái),開(kāi)放域關(guān)系抽取方法在語(yǔ)料獲取方面提供了有效的解決方法,逐漸走進(jìn)研究人員的視野,慢慢受到越來(lái)越多的關(guān)注。目前的維基百科、Freebase等大規(guī)模知識(shí)庫(kù)涉及的領(lǐng)域更廣、關(guān)系類(lèi)型更多,為研究人員在標(biāo)注語(yǔ)料的獲取方面提供了有效的支持。在當(dāng)今時(shí)代,中文在世界上的使用越來(lái)越廣泛,對(duì)中文實(shí)體關(guān)系抽取的研究越來(lái)越迫切。
3 關(guān)系抽取技術(shù)的分析比較
本文將中文實(shí)體關(guān)系抽取方法按照模型的特點(diǎn)分為規(guī)則、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)三類(lèi)分別進(jìn)行分析。
3.1 基于規(guī)則的方法
基于規(guī)則的方法是通過(guò)專(zhuān)家對(duì)語(yǔ)料的深入分析,列舉出其中存在的各種關(guān)系模板,構(gòu)建出大規(guī)模的關(guān)系模板庫(kù),然后在數(shù)據(jù)集中尋找與模板相似的句子實(shí)例,從而獲取實(shí)體間的語(yǔ)義關(guān)系。Fukumoto等人根據(jù)謂語(yǔ)動(dòng)詞來(lái)判斷實(shí)體之間的關(guān)系,實(shí)驗(yàn)結(jié)果顯示召回率很低,在測(cè)試中F指數(shù)只達(dá)到了39.1%[2]。Aone利用語(yǔ)義關(guān)系特征,識(shí)別出句子的中心詞和修飾詞之間的關(guān)系,在測(cè)試中達(dá)到了75.6%的F指數(shù),效果是最好的[3]。 人工規(guī)則往往是高精度的,可以針對(duì)特定領(lǐng)域進(jìn)行定制,具有較好的準(zhǔn)確率。但是通常會(huì)出現(xiàn)低召回率,信息缺乏覆蓋率,人工成本高、代價(jià)大,設(shè)計(jì)過(guò)程艱難。
3.2 基于機(jī)器學(xué)習(xí)的方法
基于機(jī)器學(xué)習(xí)的方法中最依賴(lài)于標(biāo)注的就是有監(jiān)督的關(guān)系抽取,主要包括特征向量和核函數(shù)兩種方法。特征向量方法速度很快,但因?yàn)檎Z(yǔ)義關(guān)系復(fù)雜多樣,再找出更適合的有效特征來(lái)提高性能是不太容易的。核函數(shù)的方法是將句子構(gòu)造為結(jié)構(gòu)樹(shù),使用核函數(shù)來(lái)計(jì)算樹(shù)和樹(shù)之間的距離,可以綜合利用多種不同方面的特征,但核函數(shù)計(jì)算過(guò)程復(fù)雜,需要花費(fèi)大量時(shí)間。
最常見(jiàn)的半監(jiān)督方法是自舉方法( Bootstrapping),在沒(méi)有足夠的標(biāo)注語(yǔ)料時(shí),只需要將每種關(guān)系標(biāo)注少量種子實(shí)體對(duì),選擇包含種子實(shí)體對(duì)的相關(guān)句子集合,再?gòu)木渥又谐槿£P(guān)系的模式,以此循環(huán)迭代,最終得到關(guān)系數(shù)據(jù)[4]。此方法能自動(dòng)挖掘句子中的部分詞法特征,適合沒(méi)有足夠語(yǔ)料標(biāo)注的關(guān)系抽取場(chǎng)景,但是對(duì)種子的質(zhì)量要求高。
無(wú)監(jiān)督的抽取方法不需要人工標(biāo)注語(yǔ)料,是通過(guò)聚類(lèi)方法尋找相似度比較接近的實(shí)體對(duì),將其歸為一類(lèi),再使用合適的詞語(yǔ)來(lái)標(biāo)注這種關(guān)系[5]。相比有監(jiān)督和半監(jiān)督的方法有很大的優(yōu)勢(shì);但是聚類(lèi)閾值確定困難,缺乏必要的語(yǔ)料庫(kù),頻率少的實(shí)例抽取率也低,在評(píng)價(jià)標(biāo)準(zhǔn)上難以量化和統(tǒng)一。
3.3 基于深度學(xué)習(xí)的關(guān)系抽取方法
有監(jiān)督關(guān)系抽取方法雖然抽取效果不錯(cuò),但是十分依賴(lài)于人工標(biāo)注提供有效特征,而標(biāo)注通常會(huì)存在一些誤差,在關(guān)系抽取過(guò)程中這些誤差最后可能使得結(jié)果產(chǎn)生很大偏差,達(dá)不到想要的效果。近年來(lái),深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型在關(guān)系抽取中受到許多研究者的關(guān)注,不但節(jié)省了人工的工作,并且取得不錯(cuò)的效果,使用神經(jīng)網(wǎng)絡(luò)模型來(lái)實(shí)現(xiàn)關(guān)系抽取時(shí),可以自動(dòng)提取特征,不需要有復(fù)雜的設(shè)計(jì)過(guò)程。卷積網(wǎng)絡(luò)可以通過(guò)卷積和池化操作提取句子的重要特征,長(zhǎng)短期記憶網(wǎng)絡(luò)是通過(guò)記憶句子的上下文,來(lái)提取句子的重要特征。
3.4 方法對(duì)比總結(jié)
基于規(guī)則的方法精確率較高,但局限性強(qiáng),數(shù)據(jù)集發(fā)生改變時(shí),原來(lái)制定的規(guī)則可能就不能再滿(mǎn)足新的需要,人工再制定規(guī)則是非常困難的;而機(jī)器學(xué)習(xí)的方法不再過(guò)度依賴(lài)專(zhuān)家對(duì)語(yǔ)料庫(kù)的詳細(xì)分析,只需要有一定的專(zhuān)業(yè)知識(shí)來(lái)提取重要的特征,減少了一定的人工工作量;基于深度學(xué)習(xí)的方法其實(shí)是機(jī)器學(xué)習(xí)的發(fā)展分支,能夠避免人工特征選擇的步驟,自動(dòng)提取出隱藏的實(shí)體關(guān)系特征,減少特征誤差,效果比機(jī)器學(xué)習(xí)要好。
4 煤礦領(lǐng)域文本關(guān)系抽取實(shí)現(xiàn)方案
4.1 方法選擇的原則
傳統(tǒng)的基于規(guī)則的方法實(shí)現(xiàn)關(guān)系抽取任務(wù),需要專(zhuān)家針對(duì)語(yǔ)料庫(kù)手工編寫(xiě)規(guī)則,設(shè)計(jì)規(guī)則耗時(shí)耗力,過(guò)程艱難,若規(guī)則設(shè)計(jì)得不好,會(huì)達(dá)不到預(yù)期的效果,基于機(jī)器學(xué)習(xí)的方法,需要提供標(biāo)注好的語(yǔ)料庫(kù),然后根據(jù)定義好的關(guān)系類(lèi)型提取特征,但特征的提取需要經(jīng)過(guò)復(fù)雜的設(shè)計(jì)和驗(yàn)證,也是非常艱巨的任務(wù)。目前,基于深度學(xué)習(xí)的方法得到廣泛應(yīng)用,構(gòu)造神經(jīng)網(wǎng)絡(luò)模型來(lái)自動(dòng)提取特征,可以有效減少誤差和人工的工作量。本課題選擇使用深度學(xué)習(xí)的BiLSTM-ATT模型來(lái)實(shí)現(xiàn)關(guān)系抽取任務(wù)。
4.2 BiLSTM-ATT模型結(jié)構(gòu)
該關(guān)系抽取模型主要分為四部分,分別為:詞向量、BiL-STM、注意力機(jī)制和Softmax分類(lèi)器。詞向量層的作用是把輸入的句子用詞向量來(lái)表示,也就是將自然語(yǔ)言的文本轉(zhuǎn)換為計(jì)算機(jī)可以理解的向量形式,嵌入到輸入矩陣中;BiLSTM的作用是通過(guò)神經(jīng)網(wǎng)絡(luò)抽取實(shí)體間的關(guān)系特征;注意力機(jī)制會(huì)計(jì)算出各個(gè)關(guān)系特征最終所占關(guān)系類(lèi)型的權(quán)重;Softmax分類(lèi)器會(huì)對(duì)實(shí)體間的關(guān)系類(lèi)別做出最后的判斷。
4.3 詞向量
詞向量層是把自然語(yǔ)言的文本轉(zhuǎn)化為模型所需的數(shù)字化向量。使用訓(xùn)練工具Word2vec進(jìn)行訓(xùn)練,并采用CBOW詞袋模型,將一個(gè)詞的上下文對(duì)應(yīng)的詞向量輸入,得到該詞的詞向量。例如一個(gè)句子為:“…natural language processmg is an im-portant direction in the field of computer science -”,取上下文大小為6,那么“direction”的前六個(gè)和后六個(gè)詞的詞向量就作為輸入,“direction”就是需要輸出的詞向量,在詞袋模型中,關(guān)鍵詞前后的詞沒(méi)有順序,不需要考慮這些詞之間距離的大小。
4.4 雙向長(zhǎng)短期記憶網(wǎng)絡(luò)
循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)對(duì)于很長(zhǎng)的文本,不能很好地聯(lián)系上下文,只能記住比較近的信息,比較遠(yuǎn)的信息記憶不到。長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)通過(guò)引入門(mén)機(jī)制來(lái)決定需要被記住或者需要被丟棄的信息,實(shí)質(zhì)上是優(yōu)化過(guò)的RNN,可以有效記住長(zhǎng)文本的內(nèi)容。
所謂門(mén)機(jī)制,即模型中包含三個(gè)門(mén):忘記門(mén)、輸入門(mén)和輸出門(mén),通過(guò)公式來(lái)計(jì)算最終被傳遞的信息。公式中:輸入表示為X,詞向量表示為W,,BiLSTM模型對(duì)詞向量的編碼表示為ht。
輸入門(mén)用來(lái)決定當(dāng)前傳人的信息和上一級(jí)傳送的信息哪些需要被傳遞,保留在細(xì)胞狀態(tài)C+中,公式為:
但是單純的LSTM只能單向傳遞信息,不能記住未來(lái)時(shí)刻的內(nèi)容,在一個(gè)句子中,實(shí)體間的關(guān)系不僅僅會(huì)被前面所影響,還可能會(huì)被后面所影響,所以在BiLSTM中使用前向和后向兩個(gè)順序來(lái)記憶上下文,最后將兩個(gè)方向的輸出向量連接起來(lái),可以更有效地利用上下文。
4.5 注意力機(jī)制
注意力機(jī)制的原理就像人在靠視覺(jué)感知周?chē)氖挛飼r(shí),往往不會(huì)完完全全的每個(gè)點(diǎn)都認(rèn)真看,而是根據(jù)需要觀察特定的部分。在實(shí)體對(duì)的句子集合中,不同的句子對(duì)于分類(lèi)的貢獻(xiàn)不一樣,使用注意力機(jī)制學(xué)習(xí)實(shí)例權(quán)重,可以從諸多復(fù)雜信息中快速注意到對(duì)于需求來(lái)說(shuō)更重要的信息,在輸出層融入注意力機(jī)制,能夠更加有效的表征實(shí)體間的關(guān)系。輸出向量以Rh表示,注意力層的權(quán)重矩陣由以下公式得出:
4.7 BiLSTM-ATT模型訓(xùn)練過(guò)程
首先使用word2vec訓(xùn)練詞向量模型,也就是將文本以計(jì)算機(jī)可以理解的向量形式來(lái)表示,構(gòu)建初始數(shù)據(jù)集,以詞向量矩陣作為BiLSTM層的輸入,將初始數(shù)據(jù)集分別放入forward cell和backward cell,把兩個(gè)方向的輸出向量合并,融合上下文信息,提取句子中的特征,再通過(guò)注意力機(jī)制計(jì)算出特征的權(quán)重,最后,使用softmax函數(shù)將特征轉(zhuǎn)換為對(duì)應(yīng)的關(guān)系類(lèi)別的概率。
5 結(jié)果分析
5.1 實(shí)驗(yàn)環(huán)境
實(shí)驗(yàn)采用的環(huán)境見(jiàn)表2。
5.2 實(shí)驗(yàn)數(shù)據(jù)
本次研究針對(duì)的數(shù)據(jù)是煤易聯(lián)網(wǎng)站中的法規(guī)、標(biāo)準(zhǔn)和規(guī)范,由于條件限制,只選取了2300個(gè)句子作為數(shù)據(jù)集進(jìn)行關(guān)系抽取,涉及的實(shí)體關(guān)系共有5種:包含、依據(jù)、裝配、禁止、影響。關(guān)系定義見(jiàn)表3。
5.3 實(shí)驗(yàn)結(jié)果
由于條件限制,只選擇了小部分?jǐn)?shù)據(jù)做實(shí)驗(yàn),將數(shù)據(jù)集中的1840個(gè)句子作為訓(xùn)練集,460個(gè)句子作為測(cè)試集,各類(lèi)關(guān)系的測(cè)試結(jié)果見(jiàn)表4:
由測(cè)試結(jié)果可知,“禁止”這類(lèi)關(guān)系的準(zhǔn)確率最高,“包含”關(guān)系、“依據(jù)”關(guān)系和“裝配”關(guān)系的識(shí)別準(zhǔn)確率較高,“影響”這一關(guān)系的識(shí)別效果最差,召回率也是最低的。
6 結(jié)束語(yǔ)
本文首先分析了目前的關(guān)系抽取方法的優(yōu)劣,然后提出了使用BiLSTM-ATT模型完成煤礦領(lǐng)域語(yǔ)料的關(guān)系抽取任務(wù)。首先使用word2vec將文本句子轉(zhuǎn)換為詞向量的形式,然后將詞向量輸入到BiLSTM提取關(guān)系特征,最后通過(guò)注意力機(jī)制計(jì)算特征的權(quán)重,使用分類(lèi)器對(duì)關(guān)系類(lèi)型做出概率計(jì)算。實(shí)驗(yàn)結(jié)果表明,對(duì)整體語(yǔ)料庫(kù)的抽取效果較好,但是由于條件限制,語(yǔ)料不夠多,對(duì)于“影響”關(guān)系類(lèi)型識(shí)別的效果較差,因此,需要在語(yǔ)料庫(kù)的獲取和優(yōu)化上繼續(xù)進(jìn)行研究。
參考文獻(xiàn):
[1]陽(yáng)小華,張碩望,歐陽(yáng)純萍.中文關(guān)系抽取技術(shù)研究[J].南華大學(xué)學(xué)報(bào)(自然科學(xué)版),2018,32(1): 66-72.
[2] Fukumoto J,Masui F,Shimohata M,et al.Oki Eletricity In-dustry: Description of the Oki System as Used for MUC-7[C].Proceedings of the 7th Message Understanding Conference(MUC-7),1998.
[3] Aone C,Ramos-Santacruz M.REES:a large-scale relation and event extraction system[C]//Proceedings of the sixth confer-ence on Applied natural language processing .April 29-May 4,2000. Seattle, Washington. Morristown, NJ, USA: Associationfor Computational Linguistics, 2000: 76-83.
[4]武文雅,陳鈺楓,徐金安,等.中文實(shí)體關(guān)系抽取研究綜述[Jl.計(jì)算機(jī)與現(xiàn)代化,2018(8): 21-27,34.
[5]杜嘉,劉思含,李文浩,等.基于深度學(xué)習(xí)的煤礦領(lǐng)域?qū)嶓w關(guān)系抽取研究[J].智能計(jì)算機(jī)與應(yīng)用,2019,9(1):114-118.
[6]陳鵬,郭劍毅,余正濤,等.融合領(lǐng)域知識(shí)短語(yǔ)樹(shù)核函數(shù)的中文領(lǐng)域?qū)嶓w關(guān)系抽取[Jl,南京大學(xué)學(xué)報(bào)(自然科學(xué)),2015(1):181-186.
[7]郭喜躍,何婷婷,胡小華,等.基于句法語(yǔ)義特征的中文實(shí)體關(guān)系抽取[Jl,中文信息學(xué)報(bào),2014,28(6):183-189.
[8]朱珊珊,唐慧豐,基于BiLSTM_Att的軍事領(lǐng)域?qū)嶓w關(guān)系抽取研究[J].智能計(jì)算機(jī)與應(yīng)用,2019,9(4): 96-99.
【通聯(lián)編輯:謝媛媛】
作者簡(jiǎn)介:張淑霞(1997-),女,河北衡水人,碩士,主要研究方向?yàn)樽匀徽Z(yǔ)言處理;龔炳江,教授,碩士。