饒慧
摘 要:社會(huì)的發(fā)展和科技的進(jìn)步,使得我國各項(xiàng)社會(huì)事業(yè)都不斷繁榮,信息科技的發(fā)展,也為信息抽取技術(shù)的發(fā)展奠定了良好的基礎(chǔ)。信息抽取技術(shù)是一種對(duì)語言進(jìn)行處理的技術(shù),在社會(huì)生活中的應(yīng)用范圍也不斷擴(kuò)大,本文主要信息抽取技術(shù)在情報(bào)監(jiān)測領(lǐng)域內(nèi)的應(yīng)用進(jìn)行詳細(xì)的分析與研究,以便為信息抽取技術(shù)的發(fā)展提供借鑒。
關(guān)鍵詞:信息抽取技術(shù);情報(bào)監(jiān)測;應(yīng)用
0 引言
進(jìn)入新世紀(jì)以來,互聯(lián)網(wǎng)技術(shù)在人們生活中的作用愈來愈大,信息科技的發(fā)展使人們對(duì)各種信息資源的獲取變的更加方便和快捷,人們可以借助各種搜索引擎,找出自己所需的各種信息,然后瀏覽相關(guān)的網(wǎng)頁得到信息。面對(duì)網(wǎng)絡(luò)日益復(fù)雜的環(huán)境,人們都在對(duì)獲取信息的方式不斷進(jìn)行創(chuàng)新和探索,而且,各種信息也日益變得更加透明、公開,很多信息都被放在網(wǎng)絡(luò)中以便大家閱讀、檢驗(yàn)和交流,這就為人們信息的獲取創(chuàng)造條件。在美英等軍事比較發(fā)達(dá)的國家,網(wǎng)絡(luò)情報(bào)的搜集是整個(gè)情報(bào)工作的重要環(huán)節(jié)。在國內(nèi),各種計(jì)算機(jī)網(wǎng)絡(luò)的使用使我國情報(bào)工作的手段和環(huán)境都有了很大變化,傳統(tǒng)情報(bào)思想已經(jīng)和現(xiàn)代化國防的要求有很大脫離,老式搜集情報(bào)的方式也逐漸落后于時(shí)代潮流,這就需要位信息抽取技術(shù)在情報(bào)監(jiān)測領(lǐng)域的應(yīng)用提供了契機(jī),下面對(duì)其進(jìn)行詳細(xì)的介紹。
1 信息抽取技術(shù)概述
信息抽取主要指從一段文本內(nèi)抽取出指定的信息,并把這種信息的形式結(jié)構(gòu)化,然后填進(jìn)數(shù)據(jù)庫內(nèi)一般用戶進(jìn)行查詢和使用,這一技術(shù)在20世紀(jì)60年代中期開始研究,主要是從自然語言的文本內(nèi)獲得各種結(jié)構(gòu)化信息。國外已經(jīng)有了很多信息抽取技術(shù)應(yīng)用的領(lǐng)域,比如在外交、恐怖襲擊、自然災(zāi)難等。信息抽取和信息檢索有一定的聯(lián)系,但也有很大的相關(guān)性。信息抽取是對(duì)信息檢索的深化,信息檢索可以查找出和查詢條件有關(guān)的各種文本,而信息抽取則是從文本內(nèi)抽取特定的信息,其主要的任務(wù)就是抽取指定信息然后填進(jìn)預(yù)先的數(shù)據(jù)庫內(nèi)。信息抽取和自然語言理解也有很大的關(guān)系,使一種淺層的應(yīng)用,自然語言理解是信息抽取中必須涉及的,是對(duì)多樣化的內(nèi)容進(jìn)行處理和分析,而信息抽取的針對(duì)性則比較強(qiáng),其分析檔案一般是針對(duì)特定類型,所以不需要理解去全部信息的內(nèi)容,只要對(duì)相關(guān)的內(nèi)容進(jìn)行分析即可。
2 信息抽取的方法
從自然語言理解到信息抽取技術(shù),一直存在兩種不同的主義斗爭,也就是理性和經(jīng)驗(yàn)主義,在信息抽取系統(tǒng)內(nèi),針對(duì)這兩種不同的主義,對(duì)信息進(jìn)行抽取的方法也有兩種:第一,理性知識(shí)的工程方法,主要由專家專門對(duì)語料庫進(jìn)行整理和分析,進(jìn)而人工對(duì)各種模板和規(guī)則進(jìn)行制定,可以把規(guī)則方法為基礎(chǔ)。第二,以經(jīng)驗(yàn)為基礎(chǔ)自動(dòng)進(jìn)行訓(xùn)練的方法,給出經(jīng)過標(biāo)注的文檔組合,借助機(jī)器來學(xué)習(xí)對(duì)模板進(jìn)行推導(dǎo),以及使模板能夠自動(dòng)進(jìn)行填充的規(guī)則,也可以借助統(tǒng)計(jì)學(xué)方法進(jìn)行抽取,設(shè)計(jì)對(duì)自然語言進(jìn)行處理的技術(shù)。和原來的方法有所不同,我們可以把經(jīng)驗(yàn)和理性相結(jié)合,人工對(duì)模板和規(guī)則進(jìn)行制定,也要自動(dòng)對(duì)文檔進(jìn)行訓(xùn)練。
3 信息抽取技術(shù)在情報(bào)監(jiān)測中的應(yīng)用
3.1 設(shè)計(jì)的具體思想
首先是針對(duì)各種外文信息的抽取,對(duì)情報(bào)監(jiān)測這一特殊領(lǐng)域,我們要對(duì)各種國外的信息進(jìn)行研究,對(duì)國外的信息進(jìn)行抽取,需要翻譯成漢語,然后按照一定形式提供給用戶。接著要根據(jù)具體的領(lǐng)域進(jìn)行信息抽取,比如國防的經(jīng)費(fèi),可以從國外關(guān)于國防經(jīng)費(fèi)英文的文本內(nèi)抽取特定事實(shí)的信息,以便對(duì)世界各國有關(guān)國防經(jīng)費(fèi)變化的情況進(jìn)行監(jiān)測。例如,可以從國防經(jīng)費(fèi)的預(yù)算和其他的報(bào)道內(nèi),找出相關(guān)軍事研究和發(fā)展的費(fèi)用,裝備武器研究的費(fèi)用,更新和購置武器的費(fèi)用,軍隊(duì)具體開支的各種費(fèi)用等。在這里,可以提出一個(gè)有效而快速的方法,具體的流程如下:首先使用相對(duì)成熟的信息檢索,將所需英文的文檔下載進(jìn)本地,使之成為本地文檔;接著借助信息抽取的工具抽取出英文的信息,將有用的信息充實(shí)進(jìn)相關(guān)的數(shù)據(jù)庫內(nèi);最后要和相關(guān)的翻譯系統(tǒng)相連接,因?yàn)閿?shù)據(jù)庫內(nèi)信息大都比較零散、簡單,因此翻譯的工作也就比較簡單,提交給用戶的就是各種結(jié)構(gòu)化中文的信息。
3.2 對(duì)文本進(jìn)行預(yù)處理
這是一種初使的工作,這一環(huán)節(jié)主要對(duì)詞性進(jìn)行標(biāo)注。因?yàn)樾畔⒊槿〉娜蝿?wù)具有特殊性,抽取出的信息一般在某一領(lǐng)域內(nèi)數(shù)量比較有限,因此,文本內(nèi)和抽取的任務(wù)有關(guān)的信息可能只有很小的一部分。這就需要設(shè)計(jì)過濾器,其作用主要是對(duì)文本內(nèi)的句子逐詞進(jìn)行掃描,然后按照語料庫的設(shè)計(jì)對(duì)所需信息的單詞進(jìn)行判斷,如果這一句內(nèi)沒有所需的單詞,就將其刪除,以便使計(jì)算機(jī)的資源得到節(jié)省,提高抽取的效率,最后會(huì)形成帶有標(biāo)注句子的序列。
可以設(shè)置一些符號(hào)當(dāng)做拆分符,這樣就可以得到具體句子的序列。根據(jù)每個(gè)不同句子,對(duì)具體單詞的詞性進(jìn)行標(biāo)注,句子的序列標(biāo)號(hào)在文本被可以借助SN=1、2、3進(jìn)行標(biāo)示。
3.3 詞法的分析
按照詞條的相關(guān)規(guī)則與專業(yè)的詞庫,對(duì)詞條的句法、詞法與語義的信息等進(jìn)行標(biāo)注。首先在專業(yè)的詞庫內(nèi)進(jìn)行搜索和匹配,如果沒有匹配項(xiàng),再去詞條庫進(jìn)行搜索。在這里需要注意一點(diǎn),對(duì)信息進(jìn)行抽取時(shí)需要時(shí)特定領(lǐng)域內(nèi)特定的信息,講究準(zhǔn)確性,所以并不是完全自然語言處理的過程,需要盡量應(yīng)用相關(guān)領(lǐng)域的知識(shí)。如果專業(yè)的詞庫內(nèi)有信息,就可以直接對(duì)其進(jìn)行標(biāo)注,不必根據(jù)單詞詞法匹配的規(guī)則進(jìn)行再次匹配。
3.4 對(duì)模式進(jìn)行匹配
在一些特定的領(lǐng)域內(nèi),知識(shí)庫的完善對(duì)信息收取有很大幫助,可以建立以下知識(shí)庫:第一,命名實(shí)體的規(guī)則,命名實(shí)體主要指真實(shí)存在的抽象或者具體的實(shí)體,比如地點(diǎn)、人和公司等,一般都有唯一標(biāo)識(shí)的符號(hào)進(jìn)行表示,這是文本內(nèi)基本的元素。要按照領(lǐng)域內(nèi)的知識(shí)建立命名實(shí)體的規(guī)則系統(tǒng),在這里存儲(chǔ)大量領(lǐng)域內(nèi)或者和領(lǐng)域有關(guān)的實(shí)體。第二,概念的層次庫。需要建立概念的層次庫,以便使所得信息的結(jié)果變的更加精確。第三,共指關(guān)系的規(guī)則,通常,我我們所關(guān)心的關(guān)系和實(shí)踐都在文本內(nèi)不同的位置中散布,其中,涉及實(shí)體一般都很多不同的方式進(jìn)表達(dá),而且有很多和事實(shí)有關(guān)的信息在文本內(nèi)隱藏。為了能夠全部且準(zhǔn)確的抽取出文本內(nèi)的信息,信息抽取系統(tǒng)需要對(duì)文本內(nèi)共指關(guān)系進(jìn)行識(shí)別,并進(jìn)行一些必要推理,然后進(jìn)行合并,對(duì)相同的實(shí)體或者事件信息的片段進(jìn)行描述。共指關(guān)系的規(guī)則內(nèi)定義命名實(shí)體多種不同表達(dá)的方式,還對(duì)指代關(guān)系識(shí)別的方式有所規(guī)定,對(duì)指代的關(guān)系進(jìn)行識(shí)別遵守鄰近進(jìn)行匹配原則。
3.5 機(jī)器的翻譯
因?yàn)槲覀兂槿〉男畔⑹怯⑽牡奈谋?,因此最后所得?shù)據(jù)庫內(nèi)也是英文的信息,這就就需要接入相關(guān)翻譯的系統(tǒng),然后得出我們所需的結(jié)果。
4 結(jié)語
綜上所述,信息抽取技術(shù)在情報(bào)監(jiān)測內(nèi)的應(yīng)用具有重要的意義,可以使抽取信息的速度得到加快,更加直觀??焖俚恼宫F(xiàn)所需信息,提高總體的效率。隨著社會(huì)的發(fā)展,其精度也在不斷提高,層次不段深化,使用的范圍也在不斷擴(kuò)大,因此,需要引起相關(guān)人員的重視,不斷對(duì)其進(jìn)行改進(jìn)和完善,切實(shí)發(fā)揮出信息抽取技術(shù)在情報(bào)監(jiān)測領(lǐng)域的價(jià)值,促進(jìn)情報(bào)監(jiān)測領(lǐng)域的發(fā)展。
參考文獻(xiàn)
[1]李濤,李銀勝,柴躍廷.一種產(chǎn)品情報(bào)的在線檢索和智能分析方法與系統(tǒng):CN,CN 101866340 A[P].2010.
[2]劉劍蘭,朱東華.信息抽取技術(shù)在情報(bào)監(jiān)測中的應(yīng)用[J].情報(bào)學(xué)報(bào),2004,23(6):661-666.
[3]冷伏海,白如江,祝清松.面向科技文獻(xiàn)的混合語義信息抽取方法研究[J].圖書情報(bào)工作,2013,57(11):112-119.
[4]鄭彥寧,鄧擘.信息抽取技術(shù)在情報(bào)學(xué)中的應(yīng)用分析[J].情報(bào)理論與實(shí)踐,2008,31(5):769-772.