黨蕾
摘 要:信息時(shí)代,特別是大數(shù)據(jù)時(shí)代的到來,引發(fā)了文獻(xiàn)和信息量劇增,地方社科院在新環(huán)境新形勢(shì)下大力推進(jìn)哲學(xué)社會(huì)科學(xué)繁榮與發(fā)展面臨著更多機(jī)遇和挑戰(zhàn)。針對(duì)地方社科院的發(fā)展,各研究所的科研人員需要的學(xué)科研究領(lǐng)域的資料信息卻無從查找,只有在社科類方向和一些專業(yè)研究機(jī)構(gòu)網(wǎng)站中搜索與自身研究相關(guān)的信息內(nèi)容,但這一工作量無疑是巨大的,由此可見,信息抽取技術(shù)的合理應(yīng)用能夠有效的解決研究人員資料儲(chǔ)備不足的問題,只有豐富充沛的信息量,才能使得專業(yè)課題研究、學(xué)科領(lǐng)域研究在良好的前提下取得事半功倍的效果。
關(guān)鍵詞:信息抽取 地方社科院 主題文檔
中圖分類號(hào):G202 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-3791(2015)05(a)-0011-01
1 研究現(xiàn)狀
在各地方社科院網(wǎng)站建設(shè)運(yùn)行中,一方面一般的站內(nèi)搜索引擎具備通用搜索引擎的構(gòu)架和功能,通過設(shè)定的關(guān)鍵字來進(jìn)行匹配查詢,查詢條件比較單一,比如:作者、標(biāo)題。而另一方面在網(wǎng)站信息中對(duì)于新聞的抓取和各學(xué)科領(lǐng)域研究的信息拓展則反映較少,能將信息抽取技術(shù)應(yīng)用到現(xiàn)有網(wǎng)站建設(shè)結(jié)構(gòu)中的較少,網(wǎng)站功能上來看,只是簡(jiǎn)單的作為新聞的傳播渠道,與網(wǎng)絡(luò)中聚結(jié)的大量WEB信息量無法做到有效交互,對(duì)研究人員進(jìn)行學(xué)科研究提供的幫助不大。
2 存在的問題
(1)信息檢索的缺陷:目前信息檢索的正確率不是很高,需要人工自己進(jìn)行判斷。它的根本原因是文檔內(nèi)容和查詢的表示都是一種不精確性表示。另一方面自然語(yǔ)言的同義性和多義性也造成了檢索的正確率不高,因?yàn)樵~和意義的關(guān)系是多對(duì)多的關(guān)系。計(jì)算機(jī)如果沒有語(yǔ)義知識(shí)和背景知識(shí),就很難作出正確判斷。
(2)信息抽取技術(shù)的局限性:web信息抽取方法主要有基于HTML、基于本體、基于數(shù)學(xué)模型等多種技術(shù)方法,但是在信息抽取中不能準(zhǔn)確對(duì)區(qū)域中的主題信息進(jìn)行區(qū)分,并且噪聲大,啟發(fā)式算法需要較長(zhǎng)的頁(yè)面處理時(shí)間,在這些方法中,準(zhǔn)確度高的信息抽取方法大多需要人工參與,并且需要建立復(fù)雜的知識(shí)庫(kù),過程比較復(fù)雜。自動(dòng)化程度較高的信息抽取方法一般頁(yè)面處理時(shí)間較長(zhǎng),并且準(zhǔn)確度比較低。
3 研究意義
社科院在社會(huì)理論研究的前沿,其網(wǎng)站功能的發(fā)展也需要隨之改革創(chuàng)新。因此,在現(xiàn)行以新聞信息發(fā)布為主要功能的前提下,不斷提供更多新型的交互式功能,比如擴(kuò)展信息檢索的條件,以主要理論研究網(wǎng)站和社科類相關(guān)網(wǎng)站為備選,返回更多的相關(guān)文檔新聞以供選擇;其次根據(jù)時(shí)間節(jié)點(diǎn)抓取隨時(shí)更新的信息,基于主題的信息抽取技術(shù)能夠較準(zhǔn)確的返回用戶所需要的新聞信息。
該文研究目的不僅使地方社科院網(wǎng)站建設(shè)更加完善,提供暢通的搜索反饋渠道滿足對(duì)信息的多樣化需求,促進(jìn)地方社科院各項(xiàng)學(xué)科領(lǐng)域建設(shè)的蓬勃發(fā)展。
4 研究的基本思路和方法
該文從一般信息抽取技術(shù)的應(yīng)用方法入手,將web文檔進(jìn)行抽取。典型的信息抽取系統(tǒng)包括一個(gè)預(yù)處理過程,目的在于過濾掉與抽取目標(biāo)不相干掉文本;然后通過詞法分析和標(biāo)引,識(shí)別所有相關(guān)的詞匯;句法和語(yǔ)義分析只應(yīng)用于所有包含了關(guān)鍵詞典句子的集合,對(duì)每個(gè)句子的分析結(jié)果近似于該句子的語(yǔ)義框架表示;最后對(duì)這些框架進(jìn)行合并和綜合,便可得到所需的信息的各種數(shù)據(jù)項(xiàng)。
該文采用基礎(chǔ)改進(jìn)的方法,主要根據(jù)現(xiàn)有的信息抽取技術(shù)結(jié)合站內(nèi)檢索的特點(diǎn),將信息抽取技術(shù)加到信息檢索中,增加約束條件的檢測(cè)和命名實(shí)體的抽取,滿足用戶輸出的要求,對(duì)站內(nèi)搜索功能進(jìn)行拓展和完善;在新聞發(fā)布的同時(shí)對(duì)WEB信息中本院新聞和學(xué)科研究領(lǐng)域進(jìn)行信息抽取,呈現(xiàn)在地方社科院網(wǎng)站中予以展示,促進(jìn)地方社科院網(wǎng)站發(fā)展的新模式。
5 主要觀點(diǎn)及理論創(chuàng)新程度
(1)改進(jìn)的站內(nèi)檢索功能:站內(nèi)搜索引擎具備通用搜索引擎的構(gòu)架和功能,可以對(duì)用戶的輸入進(jìn)行分詞,可以進(jìn)行多關(guān)鍵字搜索、關(guān)鍵詞組合搜索、句子搜索,大大提高了用戶操作的友好度;而這就需要基于學(xué)習(xí)統(tǒng)計(jì)模型的主要基準(zhǔn)詞確定好,隨后查詢與之相關(guān)度較高的詞匯,計(jì)算PMI值(詞匯相關(guān)度)來進(jìn)行判別。句子搜索則要根據(jù)句子結(jié)構(gòu)分析判別出句中短語(yǔ)結(jié)構(gòu)和搭配模式,確定該句中主題詞,根據(jù)主題詞進(jìn)行匹配計(jì)算,并抽取出相似度最高的文章或報(bào)道。
我們可以在此基礎(chǔ)上將輸入關(guān)鍵字的某些相關(guān)的信息加入搜索條件,聯(lián)合進(jìn)行查找。比如:按照一個(gè)主題把所有相關(guān)文檔提供給訪問者,可以讓訪問者更全面的了解他所想要的東西,這增加了網(wǎng)站信息間的組織性和邏輯性,方便了訪問者的使用,提升用戶體驗(yàn)度。通過上述方法能夠根據(jù)用戶的需求進(jìn)行數(shù)據(jù)挖掘,從而提高地方社科院網(wǎng)站系統(tǒng)的價(jià)值。
(2)信息抽取模塊功能:信息抽取技術(shù)能夠根據(jù)關(guān)鍵字匹配方法自動(dòng)獲取網(wǎng)絡(luò)資源信息,它能夠抓取網(wǎng)站上的信息標(biāo)題和詳細(xì)內(nèi)容,而且可以對(duì)信息進(jìn)行自動(dòng)判別和分類。從社科院網(wǎng)站建設(shè)規(guī)劃來看,信息抽取不是盲目的新聞抓取,而按照關(guān)聯(lián)程度和時(shí)間順序?qū)?guó)內(nèi)外社科類新聞進(jìn)行采集并審核后發(fā)布。
針對(duì)社科院網(wǎng)站建設(shè),我們通過應(yīng)用屬性對(duì)比技術(shù),在一定程度上避免了對(duì)社科類網(wǎng)頁(yè)的重復(fù)分析和采集, 提高了信息的更新速度和全部搜索率。同時(shí),對(duì)不同時(shí)期需要提取的網(wǎng)頁(yè)給予修正。搭建WEB管理平臺(tái)便于信息處理人員處理和校驗(yàn)數(shù)據(jù),對(duì)于一些網(wǎng)站,無法用軟件采集的就用人工處理。需要對(duì)所有信息源進(jìn)行實(shí)時(shí)監(jiān)控,如有新的數(shù)據(jù)則進(jìn)行更新。
(3)信息抽取技術(shù)應(yīng)用的效應(yīng):信息抽取技術(shù)的應(yīng)用使得地方社科院網(wǎng)站建設(shè)更加多元化,不僅體現(xiàn)在各學(xué)科領(lǐng)域研究方面,將專業(yè)領(lǐng)域的相關(guān)主題文檔等做自動(dòng)分類的搜索返回,這一應(yīng)用產(chǎn)生的效應(yīng)可以提升地方社科院網(wǎng)站在推進(jìn)社科研究方面應(yīng)有的功能和和作用;同時(shí)信息抽取技術(shù)的應(yīng)用還反映在能夠挖掘更多不同角度和層次的新聞信息,能夠更加詳盡的展示出地方社科院廣泛的影響力,在網(wǎng)絡(luò)環(huán)境下發(fā)揮社科發(fā)展的更大優(yōu)勢(shì)。
除此之外,添加信息抽取技術(shù)的信息檢索方法可以拓展多種檢索條件,使得檢索結(jié)果更為準(zhǔn)確,滿足研究人員的多種需求,同時(shí)也可建立會(huì)議檢索等媒體搜索通道,又便于院內(nèi)人員進(jìn)行查詢相關(guān)會(huì)議資訊,及時(shí)掌握專業(yè)領(lǐng)域動(dòng)態(tài),對(duì)于地方社科院各個(gè)研究所的領(lǐng)域研究發(fā)展也具有積極的意義。
參考文獻(xiàn)
[1] 楊文清,黃宜華,張福炎.中文web文檔庫(kù)全文檢索技術(shù)研究與實(shí)現(xiàn)[J].中文信息學(xué)報(bào),1999(4):50-57.
[2] 吳立德,等.大規(guī)模中文文本處理[M].上海:復(fù)旦大學(xué)出版社,1997.
[3] 黃萱菁.大規(guī)模中文文本的檢索、分類與文摘研究[D].上海:復(fù)旦大學(xué),1998.
[4] 王曄,王曉玲,周傲英.學(xué)術(shù)搜索引擎的技術(shù)研究和系統(tǒng)實(shí)現(xiàn)[J].知識(shí)科學(xué)和知識(shí)工程進(jìn)展,2011.
[5] 李芳,盛煥燁,姚天昉.信息檢索與信息抽取技術(shù)的研究[J].計(jì)算機(jī)應(yīng)用研究,2002(1):16-18.