楊麗英 雷勇
山西大學(xué)商務(wù)學(xué)院信息學(xué)院 山西 030031
隨著互聯(lián)網(wǎng)的高速發(fā)展,Web已經(jīng)成為最重要的新聞媒體之一。通過瀏覽Web新聞,人們能夠在很短的時(shí)間內(nèi)了解來自不同國家和地區(qū)近期所發(fā)生的各類事件。而在眾多新聞當(dāng)中,那些難以準(zhǔn)確預(yù)測(cè)而突然爆發(fā)的,對(duì)國家和社會(huì)產(chǎn)生重大影響的突發(fā)事件新聞是人們普遍關(guān)心的焦點(diǎn)。為了滿足各級(jí)政府和社會(huì)的需求,有必要對(duì)突發(fā)事件新聞做系統(tǒng)的研究分析和信息處理。而這項(xiàng)研究首要任務(wù)是建立突發(fā)事件新聞?wù)Z料庫,并對(duì)其進(jìn)行信息加工,如突發(fā)事件新聞分類和編號(hào)等。
突發(fā)事件新聞?wù)Z料庫的建立是適應(yīng)信息化建設(shè)的需求。第一,通過該語料庫可以盡早地、準(zhǔn)確地、全面地掌握國內(nèi)外各種突發(fā)事件的發(fā)生情況和發(fā)展趨勢(shì),為國家和各級(jí)地方政府有關(guān)部門及時(shí)采取應(yīng)急措施和制定防范計(jì)劃等提供科學(xué)決策依據(jù);第二,對(duì)醫(yī)學(xué)研究疾病及其分布規(guī)律和影響因素提供實(shí)例資源;第三,為語言學(xué)關(guān)于突發(fā)事件新聞的語言研究提供語料資源。
Web新聞是利用萬維網(wǎng)技術(shù),采用網(wǎng)頁的方式進(jìn)行新聞發(fā)布的網(wǎng)絡(luò)新聞業(yè)務(wù),是傳統(tǒng)新聞業(yè)務(wù)的一種延伸,但它比傳統(tǒng)的新聞發(fā)布方式有著更強(qiáng)的時(shí)間觀,更能體現(xiàn)出新聞的紀(jì)實(shí)性。突發(fā)事件的突發(fā)性、偶然性和不可預(yù)料性,使得新聞網(wǎng)頁比其他媒體有著更快反應(yīng)的優(yōu)勢(shì)。所以,互聯(lián)網(wǎng)是收集突發(fā)事件新聞的最好來源。
語料庫的加工主要包括四部分:語料的人工分類,文本格式處理,語料編號(hào),以及分詞與詞性標(biāo)注。本文主要介紹人工分類和語料編號(hào)兩部分。
目前,對(duì)突發(fā)事件的分類主要有以下兩種。
國務(wù)院頒布預(yù)案的目的是提高政府保障公共安全和處置突發(fā)公共事件的能力。 根據(jù)突發(fā)公共事件的發(fā)生過程、性質(zhì)和機(jī)理,突發(fā)公共事件主要分為以下四類:
(1) 自然災(zāi)害。主要包括水旱災(zāi)害,氣象災(zāi)害,地震災(zāi)害,地質(zhì)災(zāi)害,海洋災(zāi)害,生物災(zāi)害和森林草原火災(zāi)等。
(2) 事故災(zāi)難。主要包括工礦商貿(mào)等企業(yè)的各類安全事故,交通運(yùn)輸事故,公共設(shè)施和設(shè)備事故,環(huán)境污染和生態(tài)破壞事件等。
(3) 公共衛(wèi)生事件。主要包括傳染病疫情,群體性不明原因疾病,食品安全和職業(yè)危害,動(dòng)物疫情,以及其他嚴(yán)重影響公眾健康和生命安全的事件。
(4) 社會(huì)安全事件。主要包括恐怖襲擊事件,經(jīng)濟(jì)安全事件和涉外突發(fā)事件等。
各類突發(fā)公共事件按照其性質(zhì)、嚴(yán)重程度、可控性和影響范圍等因素,一般分為四級(jí):Ⅰ級(jí)(特別重大)、Ⅱ級(jí)(重大)、Ⅲ級(jí)(較大)和Ⅳ級(jí)(一般)。
突發(fā)事件流行病學(xué)是研究突發(fā)事件的原因、發(fā)生、發(fā)展及其后果和應(yīng)對(duì)方法的一門學(xué)科。突發(fā)事件可以有多種分類方法,目前最常用的是按照原因和性質(zhì)分類,將其分成自然災(zāi)害、人為事故和疾病爆發(fā)三大類。
(1) 自然災(zāi)害(natural disaster)。主要包括氣象災(zāi)害,海洋災(zāi)害,洪水災(zāi)害,地質(zhì)災(zāi)害,地震災(zāi)害,農(nóng)業(yè)生物災(zāi)害,森林災(zāi)害,宇宙災(zāi)害。
(2) 人為事故(accident)。 主要包括戰(zhàn)爭(zhēng)和暴力,恐怖活動(dòng),重大交通事故,嚴(yán)重火災(zāi),意外爆炸,群體中毒,急性化學(xué)事故,放射事故,其他事故。
(3) 疾病爆發(fā)(outbreak)。 主要包括腸道傳染病,呼吸道傳染病,蟲媒傳染病,自然疫源性疾病,性傳播疾病等。
突發(fā)事件還可按其規(guī)模大小和嚴(yán)重程度分為:一般性突發(fā)事件、重大突發(fā)事件和特大突發(fā)事件。此外,也可以按發(fā)生地點(diǎn)、發(fā)生時(shí)間和事件的后果對(duì)突發(fā)事件進(jìn)行分類。
根據(jù)新聞報(bào)道的特點(diǎn)和突發(fā)事件新聞?wù)Z料庫的基本功能,本文提出以下一些分類原則。
(1) 主題分類與實(shí)際情況相結(jié)合
由于新聞報(bào)道的特點(diǎn)和實(shí)際新聞工作的需要,按主題進(jìn)行分類也能滿足用戶希望在一個(gè)主題或?qū)n}下查全相關(guān)信息的需求。因而,本文二級(jí)類目按照主題或?qū)n}內(nèi)容確定類目,這不僅直觀與實(shí)用,也更能保證這些主要類目在較長時(shí)期內(nèi)的穩(wěn)定性??紤]到有些突發(fā)事件新聞信息量大,且是人們的關(guān)注熱點(diǎn),可以對(duì)其類目進(jìn)行提升。
(2) 求大同存小異
分類層次在三級(jí)以上的類目應(yīng)最大程度的統(tǒng)一,這有利于自動(dòng)標(biāo)引的標(biāo)準(zhǔn)化與網(wǎng)絡(luò)分類瀏覽檢索的資源共享。三級(jí)以下類目,特別是專業(yè)性太強(qiáng)的小類,有些確實(shí)是難在最大層面上作到統(tǒng)一的,只要大類得到統(tǒng)一,采用主題詞就可以較好地解決這一問題。這種求大同(1-2級(jí)類目高度統(tǒng)一)存小異的原則,可以保證突發(fā)事件新聞分類法的實(shí)用性與可推廣性。
(3) 用語規(guī)范性與靈活性相結(jié)合
在力求達(dá)到準(zhǔn)確性與通用性的前提下,充分考慮到突發(fā)事件新聞信息的特點(diǎn)。對(duì)一級(jí)和二級(jí)類目的命名,基本上參考了國務(wù)院的類名,力求科學(xué)規(guī)范。但由于新聞報(bào)道的特點(diǎn)是綜合性強(qiáng)、時(shí)效性強(qiáng),不斷有新事物、新名稱出現(xiàn),變化性大,所以在類名的命名時(shí)也采取了相應(yīng)的靈活處理原則。例如,三級(jí)及三級(jí)以下關(guān)鍵詞語有些則采用了自然語言或習(xí)慣用語(即新聞?wù)Z言)作為類名,但力求選用能夠被廣泛認(rèn)可和語意明了的詞。
(4) 具有層次性和可擴(kuò)展性
突發(fā)事件的突發(fā)性和偶然性本身就需要我們?cè)诨敬箢惐3植蛔兊那疤嵯?,可?duì)相應(yīng)類目進(jìn)行擴(kuò)充。分類體系擬采用三層結(jié)構(gòu),其中的二級(jí)類目、三級(jí)類目以及主題詞都具有可擴(kuò)充性。
根據(jù)以上分類原則提出的突發(fā)事件新聞?wù)Z料分類體系包括3個(gè)層次,其中一級(jí)4類,二級(jí)33類,三級(jí)94類。下面給出了一、二級(jí)類別及其編碼,三級(jí)編碼種類多,不列出:
(1) 自然災(zāi)害類N(Natural disaster):
01 水旱災(zāi)害 02 氣象災(zāi)害
03地震災(zāi)害 04地質(zhì)災(zāi)害
05海洋災(zāi)害 06生物災(zāi)害
07森林草原火災(zāi) 08宇宙災(zāi)害
(2) 事故災(zāi)難類A(Accident):
01戰(zhàn)爭(zhēng)和暴力
02工礦商貿(mào)安全事故
03交通運(yùn)輸安全事故
04城市生命線事故
05通訊安全事故
06環(huán)境污染和生態(tài)破壞
07嚴(yán)重火災(zāi)
08中毒事件
09急性化學(xué)事故
(3) 公共衛(wèi)生事件P(public health):
01傳染病疫情
02群體性不明原因疾病
03食品安全和職業(yè)危害
04動(dòng)物疫情
05其他嚴(yán)重影響公眾健康和生命安全的事件
(4) 社會(huì)安全事件S(social safety):
01恐怖襲擊事件
02重大刑事案件00
03經(jīng)濟(jì)安全事件 00
04涉外突發(fā)事件00
05規(guī)模較大的群體性事件
06民族宗教
07反政府和反社會(huì)主義
編碼是對(duì)新聞信息進(jìn)行分類標(biāo)引和檢索的工具,是分類法的表現(xiàn)形式。一般是將同一主題從大類到小類,按照邏輯系統(tǒng)逐級(jí)展開。突發(fā)事件新聞?wù)Z料的編碼從新聞和語料庫兩方面入手,參考了《中文新聞信息分類及代碼》和人民日?qǐng)?bào)語料庫編碼規(guī)則,根據(jù)實(shí)際檢索進(jìn)行了編碼。
(1) 類目代碼
一級(jí)類目代碼用每類事件英文首字母表示。二級(jí)和三級(jí)類目采用十進(jìn)分類法,每一級(jí)類目用兩位阿拉伯?dāng)?shù)字表示(01-99)。無三級(jí)目錄的類目用“00”表示。
(2) 語料編碼
采用突發(fā)事件發(fā)生日期+文檔編號(hào)。日期用8位表示,年用4位,月和日都用2位表示。文檔編號(hào)為3位(000—999)。
一篇新聞的完整編碼為:類目編碼+新聞編碼, 全部代碼共16位,具體如下:
一級(jí)分類號(hào)(1位字母)+二級(jí)分類號(hào)(2位數(shù)字)+三級(jí)分類
號(hào)(2位數(shù)字)+日期編號(hào)(8位數(shù)字)+文檔編號(hào)(3位數(shù)字)。
(3) 實(shí)例說明
例如:編號(hào)為A070120101115000的新聞?wù)Z料的解析如表1所示。它表示事故災(zāi)難類中的第7類嚴(yán)重火災(zāi)中住宅區(qū)火災(zāi),報(bào)道時(shí)間是2010年11月15日,文檔編號(hào)000表示在此類中對(duì)此事件的第一篇新聞報(bào)道。
表1 語料編碼方案解析示例
本文在建立突發(fā)事件語料庫的過程中,對(duì)語料進(jìn)行了初級(jí)加工,對(duì)突發(fā)事件新聞分類體系進(jìn)行了詳細(xì)的研究。由于突發(fā)事件本身的不確定性,使得對(duì)突發(fā)事件的分類存在一定的困難,需要根據(jù)實(shí)際情況不斷地?cái)U(kuò)充和完善。
[1] http://www.gov.cn.
[2] 李立明. 流行病學(xué)(第4版).北京:人民衛(wèi)生出版社.1999.
[3] 周文.基于應(yīng)對(duì)視角的突發(fā)公共事件分類[J].商場(chǎng)現(xiàn)代化.2011.
[4] 張玲玲,李鼎鑫.重大突發(fā)事件新聞報(bào)道的分類及特點(diǎn)[J].華北科技學(xué)院學(xué)報(bào).2009.
[5] http://news.xinhuanet.com.
[6] 俞士汶,段慧明,朱學(xué)峰等.規(guī)范[J].中文信息學(xué)報(bào).北京大學(xué)現(xiàn)代漢語語料庫基本加工. 2002.
[7] 袁辛奮,胡子林.淺析突發(fā)事件的特征.分類及意義[J].科技與管理.2005.
[8] 孫香勤.國內(nèi)外重大突發(fā)事件管理模式分析[J].交通企業(yè)管理.2005.