李風環(huán) 鄭德權 趙鐵軍
摘 要:事件中與主題相關的時間信息體現(xiàn)了事件在時間維度的特征。而當前面向事件的時間識別大多是基于句子或短語的,并采用靜態(tài)時間值機制。本文提出了一個面向主題事件的時間識別模型。該模型采用參考時間動態(tài)選擇機制對時間表達式進行規(guī)范化,然后利用設置了優(yōu)先級的關鍵詞,將基于句子或短語的時間識別轉化為基于篇章的時間識別,從而識別主題事件中的時間。改善了純粹基于關鍵詞或靜態(tài)參考時間機制的主題事件中的時間識別的性能。
關鍵詞:主題事件;時間表達式規(guī)范化;時間識別;參考時間;動態(tài)
中圖分類號:TP391 文獻標識號:A 文章編號:2095-2163(2015)06-
Abstract: Temporal information related to topic event reflects temporal characteristic of events. Most research on time recognition is sentence-oriented or phrase-oriented, and adopts static mechanism. A time recognition model for topic event is proposed in this paper. Dynamic choosing mechanism of reference time is developed for normalizing temporal expressions, then key words are assigned to different priorities. Sentence-level or phrase-level time recognition is transformed into document-level in topic event. The performance is improved greatly compared to the algorithm just based on key word or reference time static choosing strategy.
Keywords: Topic Event; Temporal Expression Normalization; Time Recognition; Reference Time; Dynamic
0 引言
人們不止關注一個動作的發(fā)生和變化,更多的是想關注一個專題事件整體的信息框架和發(fā)展過程。本文根據這一現(xiàn)象提出面向主題事件的時間識別和規(guī)范化。目前規(guī)范化處理主要采用兩種參考時間選擇機制,即上下文無關策略[1]和上下文局部相關策略[2]。但是研究發(fā)現(xiàn)這兩種機制都不適用于真實的新聞文本,因為固定的時間值或者規(guī)則[3-4]僅僅能解決靜態(tài)的單一時態(tài)參照選擇問題,對于動態(tài)變化的真實語境下的時間表達式不適合[5]。研究者對時間表達式的識別和規(guī)范化已經提出了很多方法。主要是基于規(guī)則[6]和機器學習[7-8]的方法?;谝?guī)則的方法簡單,易于理解,便于擴展。但是缺點是人工工作量較大,早期的方法完全使用人工方式來構建規(guī)則,后期則先通過一些機器標注的方法對文本進行預處理,然后根據標注結果構建規(guī)則。基于機器學習方面,D.Ahn[7]和K.Hacioglu[8]分別進行了嘗試,研究中首先將語料進行預處理,接著有選擇地抽取特征,通過分類器訓練模型進行時間表達式的標注。Lin等人[9]采用動態(tài)方法來處理隱式時間表達式,用新的計分模型來確定網頁的關注時間并設計了基于時間和文本相關度的時間-文本檢索排序方法。趙旭劍等人[10]在時間表達式的規(guī)范化方面,選擇了動態(tài)基準時間選擇機制,并對模糊時間表達式根據場景依賴性進行了去模糊處理,達到了較好的效果。
當前面向事件的時間識別大多是基于句子或短語的,并采用靜態(tài)時間值機制。針對上述問題,本文提出了一個面向主題事件的時間識別模型,該模型采用參考時間動態(tài)選擇機制對時間表達式進行規(guī)范化,然后將基于句子或短語的時間識別轉化為基于篇章的時間識別。改善了純粹基于關鍵詞或靜態(tài)參考時間機制的性能。本文內容包括兩個任務:時間表達式的識別和規(guī)范化,以及主題事件片段的時間識別。
1 基于動態(tài)選擇機制的時間表達式的識別和規(guī)范化
中文表達式是多種多樣的,包括明確的時間表達式和隱式時間表達式[10]。在此,給出這兩類表達式的具體含義。
(1) 顯式時間表達式(Explicit Time,ET):能夠直接在時間軸上定位準確的時間,不需要進行轉換,比如“2008年5月12日”、“2008-05-12”等。
(2) 隱式時間表達式(Implicit Time,IT):需通過上下文和先驗知識進行確定準確時間,且需要轉換,比如“5月12日”、“兩天以前”等。還包括基于事件的時間,比如:“汶川地震發(fā)生后兩小時”等。
時間表達式的表現(xiàn)規(guī)則是多種多樣的,不僅包括外部規(guī)則,還有內部規(guī)則。時間表達式的出現(xiàn)總是伴隨著相應事件的發(fā)生,并且和關聯(lián)的名詞、動詞、介詞等構成了外部規(guī)則,比如:在北京時間+time+發(fā)生。如果一個句子的出現(xiàn)符合該規(guī)則,則認為“發(fā)生”前面的詞語為時間表達式。內部規(guī)則是時間表達式本身的組織結構,通常,時間表達式包括年月日時分秒,描述方式如:“2008年5月12日”、“2008-05-12”等。如果一個時間表達式滿足這種規(guī)則,相應位置的數(shù)字就被識別為特定的時間。顯式時間表達式的內部規(guī)則相對比較明顯和統(tǒng)一,因此對顯式時間表達式利用內部規(guī)則模式匹配的方法進行識別和規(guī)范化,規(guī)范化后的時間格式如“年-月-日”,并且被標記為“ET”。
隱式時間表達式利用基于規(guī)則的方法進行規(guī)范化,該過程需要確定參考時間、偏移粒度、偏移量。規(guī)范化后的時間被標記為“IT”。偏移量和偏移粒度由時間表達式本身的語義決定。偏移量是相對參考時間的偏移量,偏移粒度是時間表達式本身的粒度。比如“5月”或“12日”這樣的隱式時間, 偏移量和偏移粒度能夠很明確地獲得,因此這樣的表達式能夠很容易被規(guī)范化。但是像“昨晚” 和“當時”等表達式,研究則創(chuàng)建了一個隱式時間表達式參照表來獲得偏移量、偏移粒度以及參考時間類型。隱式時間轉換參考表根據語料獲取并進行擴展,組成四元詞對的形式,如(今晚,0,天,GRT)可以擴展出(明晚,1,天,GRT),參考表如表1所示。本文并沒有對所有時間進行轉換,因為一些表達式轉換后并不能對具體時間的確定起到作用,反而會影響時間確定的效果,比如“近期”,“震后”,“將來”等。隱式時間表達式規(guī)范的參考時間有兩種:全局參考時間和局部參考時間。
(1) 全局參考時間(Global Reference Time,GRT):以報道時間或者新聞的發(fā)布時間作為參考時間,推測出時間表達式的具體時間信息。
(2) 局部參考時間(Local Reference Time,LRT):以最近的敘述時間為參考時間,即以前一個時間表達式的信息為參考來推斷當前時間表達式的具體時間信息。
本文選用動態(tài)參考時間選擇機制,全局隱式時間表達式(Global Implicit Time, GIT)選用全局參考時間,局部隱式時間表達式(Local Implicit Time,LIT)選用局部參考時間。同時需要維護局部參考時間表的更新,以確保最新的局部參考時間和隱式時間表達式的及時性。局部參考時間列表的維護和隱式時間表達式的轉化如圖1所示。
2主題事件片段時間識別
主題事件片段對應于一篇新聞報道,因此主題事件片段時間的識別是基于篇章的。事件發(fā)生的時間常常是和能代表事件的關鍵動名詞相關聯(lián)。對于主題事件片段時間的識別,一般是把每個關鍵動名詞前面的時間表達式識別出來,如果沒有,則識別后面的時間表達式,然后再考慮其他的關鍵動名詞。由于時間信息一般出現(xiàn)在關鍵詞的前面,因此研究中改變了關鍵詞的檢索方式。而且還需要確定主題事件片段的發(fā)生時間,所以這些關鍵動名詞要盡可能地覆蓋語料中所有事件片段。同時,每一個關鍵動名詞對于時間識別的影響不是同等重要的,在此即對動名詞的優(yōu)先級進行了設置,關鍵詞的確定方法如下:
(1) 根據TFIDF(Term Frequency,Inverse Document Frequency)公式來確定時間表達式所在句子中的詞語的權重,選取權重最高的詞語,作為一個關鍵動名詞,并把該詞語的優(yōu)先級設為最高。
(2) 對不包含已確定關鍵詞,但包含時間表達式的句子中的詞語,應用TFIDF公式,選取權重最高的詞語,作為一個關鍵動名詞,并把該詞語的優(yōu)先級設為其次。
(3) 重復(2)中的過程,直到語料中的所有文件都能找出關鍵動名詞,形成最初的關鍵動名詞表。
(4) 對關鍵動名詞表進行基于領域和同義詞進行擴展,形成最終的關鍵動名詞表。
主題事件片段時間識別的步驟如下:
(1) 規(guī)范化顯式和隱式時間表達式;
(2) 按照上述方法確定具有優(yōu)先級屬性的關鍵動名詞表;
(3) 按照優(yōu)先級依次查找每個關鍵動名詞的前面是否有規(guī)范化后的時間表達式,如果有,則把該時間作為主題事件片段時間,不再繼續(xù)查找;
(4) 如果所有的關鍵動名詞之前都沒有規(guī)范化后的時間表達式,則按照優(yōu)先級依次查找關鍵動名詞之后的時間表達式,如果有,則把該時間作為主題事件片段的時間,不再繼續(xù)查找;
(5) 如果所有關鍵動名詞之后都沒有規(guī)范化后的時間表達式,則認為為空。
3 實驗結果與結論分析
本文在ACE07語料上進行了時間表達式的識別和規(guī)范化,識別結果如表2所示,規(guī)范化結果如表3,表4和表5所示。本文主要是時間規(guī)范化和主題事件片段的時間識別,因此沒有對時間表達式的識別進行對比分析,而只是針對時間規(guī)范化的參考時間選擇策略進行了分析,對比實驗分別選擇上下文無關策略和上下文局部相關策略。時間表達式規(guī)范化包括3組實驗:
(1) 在正確識別的表達式上的實驗,記為:RC。
(2) 在所有識別的表達式上的實驗,記為:R。
(3) 在語料中標注的所有表達式上的實驗,記為:G。
從表3,表4和表5的實驗結果看出,本文算法的性能明顯超過了另外兩種策略。正確率最高提高了18%。相對于上下文局部相關算法,本研究解決了在參考時間選擇過程中,僅僅考慮局部語境而忽視了時間表達式本身的語義問題。同時相對于上下文無關策略,其采用文檔的報道時間或者發(fā)布時間作為全局參考時間,所有的時間表達式都選用相同的參考時間,就使其具有了一定的局限性。ACE07語料中有很多基于事件的時間表達式,比如:“年前”和“個把小時”等,這類時間表達式很難規(guī)范化,因此當在語料中標注的所有表達式上進行時間表達式規(guī)范化時,效果反而可能是最差的。
為了研究主題事件片段時間識別的性能,本文從網站爬取了1 890篇地震事件。因為語料中不但有對當天事件的報道,還有跟蹤報道,因此不能單純地選用局部參考時間,這將顯著影響了實驗效果。根據本文算法的特點,實驗分為3個階段,每個階段的實驗效果如表6所示。
(1) 階段1:選用局部參考時間規(guī)范化隱式時間表達式,檢索所有關鍵動名詞前面的時間表達式,如果所有關鍵詞前面都沒有規(guī)范后的時間表達式,則檢索關鍵詞后面的時間表達式。
(2) 階段2:根據語義不同,隱式時間進行規(guī)范化時動態(tài)選擇全局和局部參考時間。
(3) 階段3:由于關鍵詞對時間確定的影響不是同等重要的,因此對關鍵詞設置了優(yōu)先級,依據優(yōu)先級,依次處理每一個關鍵詞。
可以看到,隱式時間規(guī)范化改進處理后,結果并沒有顯著的改進。經分析,地震新聞報道中,由于地震的發(fā)生幾乎都是瞬時的,因此全局時間和局部時間的時間差不是很大,除非是專題報道或災后重建這樣的報道中,時間差相對較大。設置了關鍵詞的優(yōu)先級后,實驗效果得到了較大的提高,說明不同關鍵詞對于時間表達式識別的影響還是有一定的差距的,并驗證了本文方法的可行性和有效性。由于本文沒有處理基于事件的時間,比如“汶川地震”,如果文章中提到這個詞,將會直接聯(lián)想到發(fā)生時間是“2008年5月12日”,但在實現(xiàn)過程中沒有對此信息進行處理。下一步要考慮基于事件的時間。同時,本文與馮禮的方法[11]進行了比較,可以看到本文方法的實驗效果大大好于對比方法,如表6所示。
4 結束語
當前面向事件的時間識別大多是基于句子或短語的,并采用靜態(tài)時間值機制。針對這些問題,本文提出了一個面向主題事件的時間識別模型。該模型采用參考時間動態(tài)選擇機制對時間表達式進行規(guī)范化,然后利用設置了優(yōu)先級的關鍵詞,將基于句子或短語的時間識別轉化為基于篇章的時間識別,從而識別主題事件中的時間。實驗表明,在時間表達式規(guī)范化任務中,參考時間動態(tài)選擇機制比上下文無關策略和上下文局部相關算法取得了更高的正確率;關鍵動名詞優(yōu)先級的設置,大大改善了主題事件片段的時間識別效果。
參考文獻:
[1] WU Mingl, LI Wenjie, LU Qin, et al. CTEMP: A Chinese temporal parser for extracting and normalizing temporal information[C]// Proceedings of IJCNLP, Berlin, Heidelberg, Germany: Springer-Verlag, 2005: 694-706.
[2] 林靜, 曹德芳, 苑春法. 中文時間信息的TIMEX2自動標注[J]. 清華大學學報, 2008, 48(1): 117-120.
[3] 趙華. 話題檢測與跟蹤關鍵技術研究[D]. 哈爾濱: 哈爾濱工業(yè)大學, 2008.
[4] HE Dan, PARKER D S. Topic dynamics: An alternative model of ‘Bursts in streams of topics[C]// Proceedings of the 16th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, New York, NY, USA: ACM, 2010:443-452.
[5] 趙旭劍. 中文新聞話題動態(tài)演化及其關鍵技術研究[D]. 合肥: 中國科學技術大學, 2012.
[6] LLIDO D, BERLANGA R, ARAMBURU M J. Extracting temporal references to assign document event-time periods[C]// Proceedings of the 12th International Conference on Database and Expert Systems Applications, Berlin, Heidelberg, Germany: Springer-Verlag, 2001: 62-71.
[7] AHN D, ADAFRE S F, De RIJKE M. Towards task-based temporal extraction and recognition[C]// Proceedings of Annotating, Extracting, and Reasoning about Time and Events, Dagstuhl, Germany: Internationales Begenungs-und Forschungszentrum Informatik (IBFI), 2005:05151.
[8] HACIOGLU K , CHEN Ying, DOUGLAS B. Automatic time expression labeling for English and Chinese text[C]// Proceedings of Computational Linguistics and Intelligent Text Processing (CICLing), Berlin, Heidelberg, Germany: Springer-Verlag, 2005, 3406: 548-559.
[9] LIN Sheng, JIN Peiquan, ZHAO Xujian, et al. Exploiting temporal information in Web Search[J]. Expert Systems with Applications, 2014, 41(2): 331-341.
[10] ZHAO Xujian, JIN Peiquan, YUE Lihua. Automatic temporal expression normalization with reference time dynamic-choosing[C]// Proceedings of Coling, Stroudsburg, PA, USA: Association for Computational Linguistics, 2010:1498-1506.
[11] 馮禮. 基于事件框架的突發(fā)事件信息抽取[D]. 上海: 上海交通大學, 2008.