張溟 徐進 解放軍信息工程大學(xué)洛陽校區(qū)
時間作為新聞的一個基本組成要素決定著新聞的價值。分析新聞的一個核心環(huán)節(jié)就是識別和分析時間。通??梢愿鶕?jù)某些固定搭配或是數(shù)字組合得到文本中的具體時間點。俄語新聞中時間的識別是一個難題,主要原因在于:一是俄語時間的表述形式非常豐富,不僅有數(shù)字格式,還有一系列時間副詞,或是以紀(jì)念日等說法代替具體時間出現(xiàn)的現(xiàn)象。二是時間與其他詞匯一樣也涉及變格的問題,并且有部分表示時間的數(shù)詞的變格屬于特殊變化,這又為時間的識別和分析增加了難度。三是俄語行文具有避免重復(fù)的特點,時間表示方面也是如此,一篇文章中常常使用多種方式來表達(dá)同一時間。下面本文首先簡要介紹一種方便機器處理的形式化時間表達(dá)方法,之后分析俄語新聞中時間識別與判定的難點,并嘗試解決。
俄語新聞中,時間的表達(dá)方式多種多樣。要讓機器來挑出這些時間表達(dá),并確定一些具體的時間點,僅憑自然語言是不行的,單依靠一兩張詞表也很難完成這個任務(wù)。因此首先需要對現(xiàn)有的時間表達(dá)方法進行梳理,整理出形式化的規(guī)則,這樣才能讓機器識別,并進行后續(xù)的處理工作。
形式化的規(guī)則主要包括兩個部分,一個是匹配規(guī)則,一個是時間值。匹配規(guī)則就是一串包含前置詞、數(shù)詞等“線索詞”的語句,也就是一組“類聯(lián)接”(colligation),程序?qū)⒏鶕?jù)它們找出符合條件的時間表述。時間值是一些表示時間的詞對應(yīng)的具體數(shù)值或運算符,程序可根據(jù)給出的值來計算一些具體的時間。在確定具體時間點時,常常需要結(jié)合上下文相關(guān)信息做進一步的判斷與推理。這些信息有時并不從文本中直接體現(xiàn),需要語法層面和語義層面的分析才能剝離出來。因此對應(yīng)規(guī)則有時需要結(jié)合語法分析過程,并增加分析和判斷的步驟。
以央視網(wǎng)俄語臺推送的一條新聞(圖1)為例說明時間表達(dá)形式的多樣性及相應(yīng)的處理步驟和規(guī)則。文中被強調(diào)標(biāo)記的部分都是時間的表示方法。標(biāo)題下方“2013-06-06”為新聞在本網(wǎng)站的發(fā)布時間。而在本段新聞中,с е г о дня一詞對應(yīng)的日期應(yīng)該是2013-06-05,而不是發(fā)布時間2013-06-06,這里就需要引入一個時間參照點來幫助判斷。如果以發(fā)布日期為參照點,那么首先假設(shè)с е г о дня對應(yīng)日期為 2013-06-06。同時,后文中給出的參考時間段с 5 п о 7 июня表明會議起止時間為6月5日開幕,6月7日閉幕。所以若假設(shè)成立,с е г о дня后的動詞“開幕”(о тк р о е т)的時態(tài)(現(xiàn)在時)與已知參考時間段的時態(tài)不一致,產(chǎn)生沖突。因此假設(shè)不成立。根據(jù)參考時間段和現(xiàn)在時動詞的使用時間范圍,可以推知с е г о дня指的是 2013-06-05。
圖1 央視網(wǎng)俄語臺2013年6月6日推送新聞
俄語的時間表達(dá)方式并不拘泥于某幾種特定的格式,這首先為識別規(guī)則的確定造成了困難。想要盡可能多地覆蓋所有可能出現(xiàn)的情況,僅靠幾條規(guī)則是無法完成的。然而過于細(xì)致和復(fù)雜的規(guī)則會為機器的處理帶來困難,因此需要在保持一定粒度的前提下,盡量合并精簡規(guī)則。以具體鐘點的表達(dá)為例:
表 示“ 在 六 點十 五分”的 表 述 有:в ше с т ь ч а с о в пя тна дца т ь минут/в пя тна дца т ь минут с е дьмо г о/ч е т в е р т ь с е дьмо г о/в ше с т ь с ч е т в е р т ью
如果為每種表述方法都寫特定的規(guī)則,那么規(guī)則庫將會變得十分臃腫,因此必須對此進行精簡,寫成規(guī)則為:
然而,并不是每種情況都可以整合精簡在一條規(guī)則之中。語言的靈活性和詞匯的搭配關(guān)系使得一些形式大體相同的組合之間由于選詞的差別而在前后搭配詞語的選擇上存在差異。比如,序數(shù)詞“第一”與其他序數(shù)詞的接格關(guān)系及搭配的名詞都存在較大差別,需要單獨列出,并給出對應(yīng)的規(guī)則。這一部分的困難主要是比較難把握規(guī)則的顆粒度。規(guī)則過細(xì)會造成規(guī)則庫臃腫,降低整個系統(tǒng)運行的效率;而規(guī)則過于精簡則會大大降低匹配的準(zhǔn)確度。尋找一個平衡點是這一階段的核心問題。
俄語新聞文本中,縮略現(xiàn)象隨處可見,表示時間的縮略形式是其中重要的一部分。最常見的就是年份與月份的縮寫,這種情況較好識別,只要將縮略形式與原型一一對應(yīng)起來就可以了。然而,縮略的書寫形式并不總是規(guī)范的,這使得此類時間詞的識別與提取非常困難。
時間詞的非規(guī)范縮略寫法主要發(fā)生在變格的數(shù)字形式中。如年份的變格,以“在2013年”為例,常見的寫法有:
可以看到,數(shù)字后的變形詞尾為數(shù)字“3”的序數(shù)詞6格單數(shù)形式詞尾,屬于形容詞軟變化??梢钥吹?,數(shù)字后接的同格變形詞尾出現(xiàn)了多種形式。在機器識別時,需要把這些形式都通過詞典來告知機器。另一種解決方案是明確線索詞,例如文中的в … г о д у,此時負(fù)責(zé)匹配和識別的部分是作為一組完整的類聯(lián)接(colligation)出現(xiàn)的,不能省略??傮w來說,對于非規(guī)范寫法的識別主要依靠規(guī)則在機讀詞典中窮舉所有詞尾及相關(guān)的前置詞搭配。研究者需要分析和整理大量文本,列舉出所有可能的形式。這個階段中需要人工分析各種詞形變化。
規(guī)則的確定不僅需要看形式,還要看意義。例如:в др у г о й д е нь與н а др у г о й д е нь不能合為一條規(guī)則 *в/н а+др у г о й д е нь(case 4),而要單獨拆開來寫,因為各自對應(yīng)的語義信息是不同的,前者是“另一天”,后者是“第二天”,因此轉(zhuǎn)換而成的時間值也不同。所以,上例應(yīng)寫為:
這種比較明顯直觀的語義信息表示只需要在轉(zhuǎn)換部分加以區(qū)別就能夠解決。然而,俄語中還存在大量的“模糊概念”和一詞多義現(xiàn)象,特別是在描述某個時間段(某時期)時,轉(zhuǎn)換規(guī)則必須加入語義分析,否則無法得出準(zhǔn)確時間。
另外,慣用語的處理也需要特殊對待。慣用語的特殊性在于單個詞的意義之和并不等于整個表達(dá)的意義,這就為規(guī)則的確定以及機器的自動處理帶來了很大的困難。俄語時間表達(dá)方法中也存在著慣用語的現(xiàn)象,如 np.+н е з а г о р ами/н а н о с у/с т о я т ь у д в о р а,字面意思為“(名詞短語)沒在山后 / 已經(jīng)到了鼻子尖/站在院子里”,然而作為表示時間的習(xí)慣用語,這三組詞組的意義都是“近在眼前,眼看著要(來臨)”。解決這類問題的最大障礙是整個表達(dá)沒有標(biāo)志性線索詞,組成詞組的各個單詞均為普通詞,這樣就很難將表示時間的情況與表示其字面意義情況相區(qū)分。目前此類問題通常還是采用窮舉的方法來解決。
對于俄語新聞文本中時間的識別與確定,本研究嘗試建立一個規(guī)則庫,將表示時間的詞匯、短語等形式同意義(值)對應(yīng)起來,同時嘗試加入運算,以確定所需的具體時間點。筆者參考《俄語語法(第2版)》與《俄語表義語法》后針對具體時間的識別已初步歸納出了近百條規(guī)則,針對模糊表述的規(guī)則也正在完善與細(xì)化。
初步的工作為列出時間詞詞表,并使用WordSmith5.0以及C++編寫的一些正則表達(dá)式匹配代碼驗證初步形式化后的規(guī)則。共使用100篇從互聯(lián)網(wǎng)上隨機抽取的語料參加測試,目前已總結(jié)的92條規(guī)則參與驗證。驗證結(jié)果顯示,70多條規(guī)則均可以實現(xiàn)識別。所有規(guī)則中有20條左右的規(guī)則未出現(xiàn)在當(dāng)前語料中,這些規(guī)則多數(shù)是習(xí)慣用語。這個結(jié)果表明,新聞中的時間表達(dá)方法選擇存在一定的偏向,習(xí)慣用語在新聞報道中的使用機會相對較低。因此習(xí)慣用語盡管是一塊非常重要的內(nèi)容,但是在新聞領(lǐng)域可以相對弱化。此外,測試中能夠明顯發(fā)現(xiàn),單個詞與前后緊密相連的詞組的匹配效果要優(yōu)于匹配詞中間有距離的形式,對字母詞的識別效果優(yōu)于對數(shù)字-字母混合詞識別的效果。中間有間隔的搭配形式和數(shù)字-字母混合形式的匹配效果不理想。這說明這部分的規(guī)則需要重點修改,或考慮單獨編寫代碼實現(xiàn)這部分規(guī)則。驗證規(guī)則后,將逐步把所有規(guī)則都轉(zhuǎn)寫為C++代碼,并使用更大規(guī)模的俄語新聞?wù)Z料測試規(guī)則。
讓計算機自動識別和分析文本中的時間表達(dá)能夠提高人處理海量信息的效率。這對于網(wǎng)絡(luò)輿情分析等工作來說非常重要。我們已經(jīng)驗證了現(xiàn)有的規(guī)則,之后的工作是嘗試根據(jù)不同的語料來修改規(guī)則,并逐步代碼化。目前我們的規(guī)則以相對標(biāo)準(zhǔn)的新聞?wù)Z料為基礎(chǔ),在可預(yù)見的將來,我們將逐步擴充和完善這些規(guī)則,嘗試使其能夠分析論壇、微博等環(huán)境中的文本,并能夠在突發(fā)事件的分析與跟蹤方面發(fā)揮一定的作用。
[1]趙艷仿.俄語中時間表述[J].黑龍江科技信息.2010 (8)
[2]王燁姝,許適琳.現(xiàn)代俄語簡單句中時間關(guān)系表示法芻議[J].長春師范學(xué)院學(xué)報(人文社會科學(xué)版).2008 (7)
[3]宿俊巍.淺析俄語簡單句中時間關(guān)系表示法[J].雞西大學(xué)學(xué)報.2004 (1)
[4]張會森.俄語表義語法[M].北京:外語教學(xué)與研究出版社.2010
[5]張會森,信德麟,華劭 編.俄語語法(第2版)[M].北京:外語教學(xué)與研究出版社.2009