金璐鈺 姚建民
1.蘇州托普信息職業(yè)技術(shù)學(xué)院;2.蘇州市科學(xué)技術(shù)情報(bào)研究所;3.蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院
無(wú)論一個(gè)句子中顯式地指明時(shí)間,還是事件中人的語(yǔ)言動(dòng)作隱式地蘊(yùn)含時(shí)間,自然語(yǔ)言中事件描述總是在一定的時(shí)空之中。理解時(shí)間詞的語(yǔ)義表達(dá),對(duì)解析事件抽取中特定的人、物在特定時(shí)間和特定地點(diǎn)相互作用具有重要意義。本文以獲得事件在時(shí)間軸上的位置為出發(fā)點(diǎn),從語(yǔ)義上研究漢語(yǔ)時(shí)間在計(jì)算機(jī)中的表達(dá)。通過(guò)抽取事件中的時(shí)間詞,并構(gòu)建漢語(yǔ)時(shí)間本體,從而理解事件間的時(shí)間關(guān)系。
事件信息普遍包含時(shí)間、地點(diǎn)、人物3個(gè)基本元素。其中,時(shí)間元素決定了事件內(nèi)部的邏輯關(guān)系以及事件間的時(shí)間聯(lián)系,是事件信息中極為重要的部分。事件的時(shí)間信息可以是顯式或隱式的。顯式的時(shí)間元素由時(shí)間詞或時(shí)間短語(yǔ)構(gòu)成,直接指明動(dòng)作或狀態(tài)發(fā)生的時(shí)間。隱式的時(shí)間元素將時(shí)間信息暗含在用于描述事件的動(dòng)詞之中,通過(guò)行為動(dòng)作側(cè)面襯托出事件的前后關(guān)系。
從語(yǔ)法詞性上來(lái)看,漢語(yǔ)時(shí)間的主要分類有:時(shí)間名詞,如“秒、分鐘、今天、上午”等;時(shí)間副詞,如“馬上、曾經(jīng)”等;數(shù)量短語(yǔ),如“一分鐘、一年”等;介詞短語(yǔ),如“今天起、截止上周六”等。
關(guān)于時(shí)間詞分類,從時(shí)間的表現(xiàn)形式上來(lái)看,學(xué)術(shù)上統(tǒng)一將其分為時(shí)點(diǎn)與時(shí)段[1]。其中,時(shí)點(diǎn)是持續(xù)時(shí)間為零的特殊時(shí)段,表達(dá)了一個(gè)瞬間的概念。從時(shí)間的組成形式來(lái)看,李向農(nóng)的《現(xiàn)代漢語(yǔ)時(shí)點(diǎn)時(shí)段研究》提出,將時(shí)間分為本體時(shí)間與代體時(shí)間[2]。本體時(shí)間是指本身具有時(shí)間屬性的詞,如“春節(jié)”;代體時(shí)間需要時(shí)間輔助詞加上行為動(dòng)作來(lái)表示時(shí)間語(yǔ)義,如“上課鈴響起時(shí)”。此分類方法對(duì)于時(shí)間語(yǔ)義在計(jì)算機(jī)中的表達(dá)具有借鑒意義。
關(guān)于時(shí)間詞的信息提取,現(xiàn)有的提取漢語(yǔ)時(shí)間詞的語(yǔ)義信息分為兩種方案[3]。第一種方案是基于時(shí)間要素的分解,通過(guò)對(duì)“著”“了”“過(guò)”等時(shí)間輔助標(biāo)記,對(duì)動(dòng)作所經(jīng)歷的時(shí)段進(jìn)行結(jié)構(gòu)化的分析。這一方法的貢獻(xiàn)在于使用簡(jiǎn)單的公式便完成了事件間時(shí)間關(guān)系的推理,為之后更為深入的研究提供了理論基礎(chǔ)。缺點(diǎn)在于,該方案將注意力集中在時(shí)間助動(dòng)詞的處理,從而忽略了時(shí)間詞本身的語(yǔ)義表達(dá),不利于計(jì)算機(jī)對(duì)時(shí)間詞的語(yǔ)義進(jìn)行解析。第二種方案是基于時(shí)間認(rèn)知窗口的表達(dá),時(shí)間認(rèn)知窗口是一系列參照點(diǎn)結(jié)構(gòu)構(gòu)成的時(shí)間鏈條。例如“去年春節(jié)”被表達(dá)為“現(xiàn)在→今年→去年→春節(jié)”。在這種表達(dá)下,一個(gè)時(shí)間或時(shí)間短語(yǔ)所包含的全部時(shí)間信息以及信息之間的關(guān)系都能被顯式地表達(dá),為時(shí)間信息在計(jì)算機(jī)中的表達(dá)提供了可行的方法,也是本文所參考的方法之一。
隨著自然語(yǔ)言處理技術(shù)不斷深入,計(jì)算機(jī)領(lǐng)域的時(shí)間信息處理也有了初步成果。
杜津的《自然語(yǔ)言時(shí)間語(yǔ)義處理》中,以本體論為基礎(chǔ)提出了時(shí)間的概念網(wǎng)絡(luò)模型[4],構(gòu)建了一個(gè)比較完全的時(shí)間表達(dá)模型,其本質(zhì)是對(duì)漢語(yǔ)言文學(xué)信息提取研究中的第一方案進(jìn)行了實(shí)現(xiàn),取得了一定進(jìn)展。
2017年萬(wàn)維網(wǎng)聯(lián)盟正式發(fā)布了OWL時(shí)間本體標(biāo)準(zhǔn)[5],為時(shí)間本體的構(gòu)建提供了參考。在該標(biāo)準(zhǔn)中,明確地將時(shí)間分為Instant(時(shí)點(diǎn))與Interval(時(shí)段),并給出了時(shí)間之間的13種關(guān)系(如Before、After等),為時(shí)間語(yǔ)義在計(jì)算機(jī)中的計(jì)算奠定了基礎(chǔ)。除此之外,標(biāo)準(zhǔn)引入以日歷參考系統(tǒng)為基礎(chǔ)的時(shí)間表達(dá)方法,證明了時(shí)間語(yǔ)義結(jié)構(gòu)化表達(dá)的可行性。
本文將漢語(yǔ)時(shí)間詞的識(shí)別視為實(shí)體識(shí)別問(wèn)題,嘗試條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)和長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)+CRF兩種方法[6,7]。借鑒OWL時(shí)間本體標(biāo)準(zhǔn),將時(shí)間表達(dá)轉(zhuǎn)化為本體文件。
作為識(shí)別問(wèn)題,漢語(yǔ)時(shí)間詞的識(shí)別同大多數(shù)自然語(yǔ)言處理問(wèn)題一樣,可以采用序列標(biāo)注的方法解決。漢語(yǔ)時(shí)間詞語(yǔ),在理論上是可以窮舉的,而時(shí)間短語(yǔ)則擁有固定的搭配形式。因此,可以預(yù)見(jiàn),漢語(yǔ)時(shí)間詞的識(shí)別將會(huì)收獲一個(gè)良好的效果。本文采用CRF與LSTM-CRF兩種方法。
條件隨機(jī)場(chǎng)CRF是一種無(wú)向圖模型,結(jié)合了最大熵模型和隱馬爾可夫模型的特點(diǎn),在實(shí)體識(shí)別等序列標(biāo)注的領(lǐng)域中擁有突出表現(xiàn)。對(duì)于一個(gè)輸入句子s,CRF在所有的可選標(biāo)注序列中,給出一個(gè)最有可能的標(biāo)注序列作為結(jié)果。其中,對(duì)于每一個(gè)標(biāo)注序列l(wèi),其對(duì)應(yīng)于輸入句子的評(píng)分如公式(1)所示。
公式(1)中,f表示特征函數(shù),λ表示特征函數(shù)的權(quán)值。對(duì)這個(gè)分?jǐn)?shù)進(jìn)行指數(shù)化和標(biāo)準(zhǔn)化,就可以得到標(biāo)注序列l(wèi)的概率值p(l|s),如公式(2)所示。
由此,CRF返回一個(gè)評(píng)分最高的序列標(biāo)注作為結(jié)果。
作為循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的一種特殊類型,LSTM通過(guò)刻意的設(shè)計(jì)來(lái)避免長(zhǎng)期依賴的問(wèn)題,在自然語(yǔ)言處理中得到廣泛的應(yīng)用。將LSTM與CRF相結(jié)合,可以在實(shí)體識(shí)別上獲得更好的效果。LSTM-CRF模型的基本結(jié)構(gòu)是在LSTM后添加一層CRF層。LSTM提取句子的特征,并且會(huì)在每一步返回一個(gè)字w對(duì)應(yīng)每個(gè)標(biāo)簽j的分值向量,如圖1所示。
圖1 LSTM-CRF模型和結(jié)果分值(概率)的反饋Fig.1 Feedback of the LSTM-CRF model and result score(probability)
在LSTM層我們已經(jīng)可以得到最高概率的標(biāo)簽,但是仍然需要CRF層的輔助,原因是CRF可以進(jìn)行句子級(jí)的標(biāo)注,從訓(xùn)練數(shù)據(jù)中獲得約束性的規(guī)則,保證預(yù)測(cè)的標(biāo)簽是合法的。由此,對(duì)于每一個(gè)標(biāo)注序列y,其對(duì)應(yīng)于輸入句子x的評(píng)分如公式(3)所示。
歸一化后,最終概率如公式(4)所示為返回預(yù)測(cè)標(biāo)簽結(jié)果。
訓(xùn)練集采用人民日?qǐng)?bào)語(yǔ)料。其中語(yǔ)料中每行一句,句子分詞,且詞后跟有屬性標(biāo)簽,時(shí)間詞以標(biāo)簽“/t”表示。將原始語(yǔ)料的80%劃分入訓(xùn)練集,20%劃分入測(cè)試集。以單字切割,打上標(biāo)簽:時(shí)間詞開(kāi)始TB、時(shí)間詞中間TM、時(shí)間詞結(jié)束TE、時(shí)間單字TS、其他O。特別的,在使用CRF模型時(shí),需要給出模板與分詞特征標(biāo)簽,S表示單字為一個(gè)詞,B表示詞開(kāi)始,M表示詞中間,E表示詞結(jié)束。CRF與LSTM-CRF的訓(xùn)練測(cè)試結(jié)果如表1所示。結(jié)果數(shù)據(jù)表明,模型的召回率相比于準(zhǔn)確率略低,其中一些專有的表示時(shí)間的名詞,如朝代、秦朝等;如表示年的,虎年,牛年,這些詞往往不能夠被準(zhǔn)確識(shí)別出來(lái)??赡艿脑蚴菍?duì)于專有的時(shí)間名詞,沒(méi)有足夠多的語(yǔ)料將它們?nèi)堪?,?dǎo)致識(shí)別失敗,召回率下降。為了提升召回率,我們構(gòu)建了專門(mén)的時(shí)間詞表,收入朝代、天干地支、節(jié)日和一些描述季節(jié)的詞匯,構(gòu)建漢語(yǔ)時(shí)間詞專有詞表[8]與LSTM-CRF模型結(jié)合。結(jié)果如表1所示。
表1 CRF、LSTM-CRF模型及結(jié)合時(shí)間詞表的模型測(cè)試結(jié)果Tab.1 Test results of CRF, LSTM-CRF, and combination with time expressions
三次模型測(cè)試結(jié)果對(duì)比如圖2所示。
圖2 CRF、LSTM-CRF模型及結(jié)合時(shí)間表的模型測(cè)試結(jié)果對(duì)比Fig.2 Comparison of test results of CRF, LSTM-CRF, and combination with time expressions
從結(jié)果可以看出,對(duì)于漢語(yǔ)時(shí)間詞這一詞類的識(shí)別,使用序列標(biāo)注的方法可以獲得可觀的結(jié)果,相信在足量的數(shù)據(jù)和完善的時(shí)間詞表的支持下,現(xiàn)有的模型性能可以滿足時(shí)間詞識(shí)別與提取的需要。
本文的最終目的是用RDF的方法來(lái)描述時(shí)間本體,如圖3所示展示了對(duì)北京奧運(yùn)會(huì)(2008.8.8-2008.8.24)這一時(shí)間段利用Turtle語(yǔ)法進(jìn)行的文字形式描述。
圖3 使用Turtle語(yǔ)法描述北京奧運(yùn)會(huì)的時(shí)間本體Fig.3 Time ontology of Beijing Olympics under Turtle grammar
在Turtle語(yǔ)法中,“@prefix”的作用是聲明前綴,“@base”的作用是聲明基本域。為了減少與結(jié)果無(wú)關(guān)的實(shí)例的數(shù)量,Turtle允許實(shí)例缺省表達(dá),例如圖3的右半部分,這樣,在整個(gè)本體描述的過(guò)程中,只需要用到“BJOlympic”這一個(gè)時(shí)間實(shí)例,同時(shí)它也是我們所要表達(dá)的原始時(shí)間,因此,本文希望利用這種方法完成漢語(yǔ)時(shí)間詞的本體文件輸出。需要注意的是,為了簡(jiǎn)便,最終只將實(shí)例的類型分為“Instant”或“Interval”,借助歸一化后的Time類區(qū)分,“Begin”與“End”項(xiàng)相同的為“Instant”,反之為“Interval”。最后的輸出內(nèi)容以Time中的Format為依據(jù)。
本文從漢語(yǔ)時(shí)間詞入手,對(duì)漢語(yǔ)時(shí)間表達(dá)進(jìn)行識(shí)別并最終生成對(duì)應(yīng)的本體文件。在時(shí)間的識(shí)別上,使用了CRF與LSTM-CRF兩種方法,并利用漢語(yǔ)專有時(shí)間詞表進(jìn)一步提高模型的召回率。時(shí)間本體的構(gòu)造利用OWL時(shí)間本體的內(nèi)容,采用Turtle語(yǔ)法將歸一化后Time類型實(shí)例轉(zhuǎn)變?yōu)闀r(shí)間本體文件。
本文研究限于漢語(yǔ)時(shí)間詞以及由時(shí)間詞和介詞、動(dòng)詞等輔助詞組成的時(shí)間短語(yǔ)。事實(shí)上,許多事件型時(shí)間表達(dá),即代體時(shí)間,例如“吃飯時(shí)、下課鈴打響的時(shí)候”等同樣具有重要意義,完善的時(shí)間解析系統(tǒng)會(huì)推動(dòng)事件抽取、事件理解的發(fā)展,為自然語(yǔ)言處理帶來(lái)更多可能。
引用
[1]余東濤.現(xiàn)代漢語(yǔ)時(shí)間詞研究[D].武漢:華中師范大學(xué),2006.
[2]李向農(nóng).現(xiàn)代漢語(yǔ)時(shí)點(diǎn)時(shí)段研究[M].武漢:華中師范大學(xué)出版社,2003.
[3]陳振宇.現(xiàn)代漢語(yǔ)時(shí)間系統(tǒng)的認(rèn)知模型與運(yùn)算[D].上海:復(fù)旦大學(xué),2006.
[4]杜津.自然語(yǔ)言時(shí)間語(yǔ)義信息處理[D].北京:中科院自動(dòng)化所,2005.
[5]陳世祺,張俊,曾敏,等.基于時(shí)態(tài)本體的時(shí)態(tài)數(shù)據(jù)表示研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2019,29(12):33-39.
[6]郭軍成,萬(wàn)剛,胡欣杰,等.基于BERT的中文簡(jiǎn)歷命名實(shí)體識(shí)別[J].計(jì)算機(jī)應(yīng)用,2021,41(S1):15-19.
[7]HUANG Z H,XU W,YU K.Bidirectional LSTM-CRF Models for Sequence Tagging[A].Computer Science,2015.
[8]曾婉.漢語(yǔ)時(shí)間詞研究綜述[J].現(xiàn)代語(yǔ)文,2018(5):22-26.