余素雅
(空軍航空儀器設(shè)備計(jì)量總站 北京 100070)
信息檢索(Information Retrieval)廣義的定義是指信息按一定的方式組織起來,并根據(jù)信息用戶的需要找出有關(guān)的信息的過程和技術(shù)。 狹義的信息檢索就是信息檢索過程的后半部分,即從信息集合中找出所需要的信息的過程,即信息查尋(Information Search或Information Seek)。信息檢索是獲取知識(shí)的捷徑,是科學(xué)研究的向?qū)В墙K身教育的基礎(chǔ)。信息檢索的全過程包含兩個(gè)方面,一是信息標(biāo)引和存儲(chǔ)過程,二是信息的需求分析和檢索過程。人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)是一種模仿動(dòng)物神經(jīng)網(wǎng)絡(luò)行為特征,進(jìn)行分布式并行信息處理的算法數(shù)學(xué)模型。這種網(wǎng)絡(luò)依靠系統(tǒng)的復(fù)雜程度,通過調(diào)整內(nèi)部大量節(jié)點(diǎn)之間相互連接的關(guān)系,從而達(dá)到處理信息的目的。人工神經(jīng)網(wǎng)絡(luò)是通過直觀性思維方式模擬人的思維,是一種非線性動(dòng)力學(xué)系統(tǒng),將分布式存儲(chǔ)的信息綜合起來,在忽然間產(chǎn)生想法或解決問題的辦法。這種思維方式的根本之點(diǎn)在于信息是通過神經(jīng)元上的興奮模式分布儲(chǔ)在網(wǎng)絡(luò)上,并且通過神經(jīng)元之間同時(shí)相互作用的動(dòng)態(tài)過程完成信息處理。將人工神經(jīng)網(wǎng)絡(luò)應(yīng)用于信息檢索技術(shù)中,可以建立一種更高效的信息檢索模式。
1.1.1 檢索的意義
信息具有共享性,信息資源共享 (Information Resource Sharing)是當(dāng)今社會(huì)的一個(gè)熱點(diǎn)問題。為了分享人類共同的知識(shí)財(cái)富、研究成果,人們必須通過一種科學(xué)的方法從取之不盡的信息源中去識(shí)別和獲取所需要的那部分信息,即檢索(Searching)。信息的檢索、利用和創(chuàng)造是一個(gè)循環(huán)和增值的過程,通過工具(數(shù)據(jù)庫)檢索獲得信息,經(jīng)過處理篩選出需要的部分,在利用信息的過程中又創(chuàng)出新的信息,這些信息經(jīng)過核準(zhǔn)后又被標(biāo)引、組織進(jìn)檢索工具(數(shù)據(jù)庫),再提供人們使用,信息在這個(gè)循環(huán)的處理過程中不斷得到擴(kuò)充。
1.1.2 信息檢索的基本原理
信息檢索的基本原理是指用戶信息需求與文獻(xiàn)信息集合的比較和選擇,是兩者匹配(Match)的過程,它既是用戶的信息需求,也是組織有序的文獻(xiàn)信息集合。信息檢索從用戶特定的信息需求出發(fā),對特定的信息集合采用一定的方法、技術(shù)手段,根據(jù)一定的線索與規(guī)則從中尋找出相關(guān)的信息。信息檢索原理如圖1所示。
圖1 信息檢索原理Fig.1 Principle of information retrieval
1.1.3 信息檢索的對象
1)文獻(xiàn)檢索(Document Retrieval):以文獻(xiàn)(包括題錄、文摘和全文)為檢索對象的檢索,分為全文檢索和書目檢索。
2)數(shù)據(jù)檢索(Data Retrieval):以數(shù)值或數(shù)據(jù)(包括數(shù)據(jù)、圖表、公式等)為對象的檢索。
3)事實(shí)檢索 (Fact Retrieval):以某一客觀事實(shí)為檢索對象,查找某一事物發(fā)生的時(shí)間、地點(diǎn)及過程的檢索。
信息檢索從技術(shù)上分為手工檢索 (Manual Retrieval)(手檢)和計(jì)算機(jī)檢索(Computer-based Retrieval)(機(jī)檢)兩大類。
1.2.1 手工檢索
手工檢索使用的多為印刷型或書本型檢索(Paper-based Retrieval)工具,早期有檢索卡片,現(xiàn)在使用最多的是檢索刊,它定期地將最新收集到的信息、文獻(xiàn)加以匯總、組織和報(bào)道。手工檢索的技術(shù)要求不高,以人的勞動(dòng)為本,由人來翻閱、比較、選擇、完成匹配。手工檢索工具能提供的檢索點(diǎn)十分有限,檢索結(jié)果往往不盡人意。
1.2.2 計(jì)算機(jī)檢索
計(jì)算機(jī)檢索是通過數(shù)據(jù)庫系統(tǒng)實(shí)現(xiàn)的,其檢索系統(tǒng)包括計(jì)算機(jī)主機(jī)設(shè)備、外部存貯器、輸入輸出設(shè)備、終端設(shè)備、通信設(shè)備等硬件設(shè)施,還需要控制、提供檢索的軟件系統(tǒng),包括通信軟件、操作系統(tǒng)、應(yīng)用程序等,以實(shí)現(xiàn)對數(shù)據(jù)庫的信息存取。計(jì)算機(jī)檢索過程是在人與機(jī)器的合作、協(xié)同下完成的,它們經(jīng)常用實(shí)時(shí)(Real Time)、交互(Interactive)的方式從計(jì)算機(jī)存貯的大量數(shù)據(jù)中自動(dòng)分揀出用戶所需要的信息。計(jì)算、比較、選擇的匹配任務(wù)由機(jī)器執(zhí)行,而人則是整個(gè)檢索方案的設(shè)計(jì)者和操縱者。計(jì)算機(jī)檢索的性能明顯優(yōu)于手工檢索,主要表現(xiàn)在檢索的信息量大、數(shù)據(jù)更新快、檢索功能強(qiáng)、檢索結(jié)果輸出的多樣性等方面。
1.3.1 信息意識(shí)
信息意識(shí)是信息檢索的前提,它是指人們利用信息系統(tǒng)獲取所需信息的內(nèi)在動(dòng)因,具體表現(xiàn)為對信息的敏感性、選擇能力和消化吸收能力。信息意識(shí)含有信息認(rèn)知、信息情感和信息行為傾向這3個(gè)層面。
1.3.2 信息源
信息源,及信息的來源,它是信息檢索的基礎(chǔ),其構(gòu)成按文獻(xiàn)載體可分為印刷型、縮微型、機(jī)讀型、聲像型,按文獻(xiàn)內(nèi)容和加工程度可分為一次信息、二次信息、三次信息,按出版形式可分為圖書、報(bào)刊、研究報(bào)告、會(huì)議信息、專利信 息、統(tǒng)計(jì)數(shù)據(jù)、政府出版物、檔案、學(xué)位論文、標(biāo)準(zhǔn)信息。
1.3.3 信息獲取能力
信息獲取能力是信息檢索的核心,它用來了解各種信息來源、掌握檢索語言、熟練使用檢索工具、以及對檢索效果進(jìn)行判斷和評價(jià)。判斷檢索效果的兩個(gè)指標(biāo),即查全率=被檢出相關(guān)信息量/相關(guān)信息總量(%)、查準(zhǔn)率=被檢出相關(guān)信息量/被檢出信息總量(%)。
1.3.4 信息利用
信息利用是信息檢索的關(guān)鍵,社會(huì)進(jìn)步的過程是一個(gè)知識(shí)不斷的“生產(chǎn)-流通-再生產(chǎn)”的過程。為了全面、有效地利用現(xiàn)有知識(shí)和信息,在學(xué)習(xí)、科學(xué)研究和生活過程中,信息檢索的時(shí)間比例逐漸增高。獲取學(xué)術(shù)信息的最終目的是通過對所得信息的整理、分析、歸納和總結(jié),根據(jù)自己學(xué)習(xí)、研究過程中的思考和思路,將各種信息進(jìn)行重組,創(chuàng)造出新的知識(shí)和信息,從而達(dá)到信息激活和增值的目的。
1.4.1 布爾邏輯檢索
利用布爾邏輯算符進(jìn)行檢索詞或代碼的邏輯組配,是現(xiàn)代信息檢索系統(tǒng)中最常用的一種技術(shù)。常用的布爾邏輯算符有 3 種,邏輯或“OR”、邏輯與“AND”、邏輯非“NOT”。
1.4.2 截詞檢索
截詞檢索是計(jì)算機(jī)檢索系統(tǒng)中應(yīng)用非常普遍的一種技術(shù)。由于西文的構(gòu)詞特性,在檢索中經(jīng)常會(huì)遇到名詞的單復(fù)數(shù)形式不一致;同一個(gè)意思的詞,英美拼法不一致;詞干加上不同性質(zhì)的前綴和后綴就可以派生出許多意義相近的詞等等。這是就要用到截詞檢索。
1.4.3 位置檢索
位置檢索也叫全文檢索、鄰近檢索。所謂全文檢索,就是利用記錄中的自然語言進(jìn)行檢索,詞與詞之間的邏輯關(guān)系用位置算符組配,對檢索詞之間的相對位置進(jìn)行限制。這是一種可以不依賴主題詞表而直接使用自由詞進(jìn)行檢索的技術(shù)方法。
1.4.4 字段限定檢索
字段限定檢索是指限定檢索詞在數(shù)據(jù)庫記錄中的一個(gè)或幾個(gè)字段范圍內(nèi)查找的一種檢索方法。在檢索系統(tǒng)中,數(shù)據(jù)庫設(shè)置的可供檢索的字段通常有兩種:表達(dá)文獻(xiàn)主題內(nèi)容特征的基本字段和表達(dá)文獻(xiàn)外部特征的輔助字段。
1.4.5 加權(quán)檢索
加權(quán)檢索是某些檢索系統(tǒng)中提供的一種定量檢索技術(shù)。加權(quán)檢索同布爾檢索、截詞檢索等一樣,也是文獻(xiàn)檢索的一個(gè)基本檢索手段,但與它們不同的是,加權(quán)檢索的側(cè)重點(diǎn)不在于判定檢索詞或字符串是不是在數(shù)據(jù)庫中存在、與別的檢索詞或字符串是什么關(guān)系,而是在于判定檢索詞或字符串在滿足檢索邏輯后對文獻(xiàn)命中與否的影響程度。
1.4.6 聚類檢索
聚類是把沒有分類的事物,在不知道應(yīng)分幾類的情況下,根據(jù)事物彼此不同的內(nèi)在屬性,將屬性相似的信息劃分到同一類下面。
科技信息檢索的流程如圖2所示。
圖2 科技信息檢索流程Fig.2 Sicence and technology information retrieval process
1987年美國計(jì)算機(jī)專家Robert Hecht-Nielsen將Kohonen特征映射網(wǎng)絡(luò)與Grossberg(格勞斯貝格)基本競爭網(wǎng)絡(luò)相結(jié)合提出了對向傳播神經(jīng)網(wǎng)絡(luò) (Counter Propagation Network,CPN),也稱作對傳網(wǎng),它是一種新型特征映射網(wǎng)絡(luò),提供了一個(gè)輸入模式和輸出模式之間的雙向映射,并被廣泛地應(yīng)用于模式分類、函數(shù)逼近、統(tǒng)計(jì)分析和數(shù)據(jù)壓縮等領(lǐng)域。CPN讓網(wǎng)絡(luò)的隱藏層執(zhí)行無監(jiān)督學(xué)習(xí),它是解決多級網(wǎng)絡(luò)訓(xùn)練的另一個(gè)思路。CPN是將Kohonen特征映射網(wǎng)絡(luò)與Grossberg基本競爭型網(wǎng)絡(luò)相結(jié)合的一種新型特征映射網(wǎng)絡(luò)[4-7],它是監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)相結(jié)合的神經(jīng)網(wǎng)絡(luò),既具有監(jiān)督網(wǎng)絡(luò)分類準(zhǔn)確精細(xì)的優(yōu)點(diǎn),也具有無監(jiān)督網(wǎng)絡(luò)分類靈活、算法簡練的特點(diǎn),將二者有機(jī)的結(jié)合起來。CPN一般分為前向?qū)骶W(wǎng)(Forward Counter Propagation Network,F(xiàn)orward-CPN)和全向?qū)骶W(wǎng)(Full Counter Propagation Network,F(xiàn)ull-CPN)兩種。
Forward-CPN的結(jié)構(gòu)由輸入層、競爭層、輸出層3部分組成,如圖3所示,輸入層和競爭層構(gòu)成自組織特征映射(Selforganizing Feature Map,SOM)網(wǎng)絡(luò),競爭層與輸出層構(gòu)成基本競爭網(wǎng)絡(luò)。Forward-CPN屬于監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)相結(jié)合的網(wǎng)絡(luò),它從整體上分析屬于監(jiān)督型網(wǎng)絡(luò),從輸入層和競爭層構(gòu)成的SOM網(wǎng)絡(luò)上分析屬于無監(jiān)督型網(wǎng)絡(luò)。
Forward-CPN的隱層為競爭層,競爭層獲勝神經(jīng)元調(diào)整其內(nèi)星和外星權(quán)值向量。內(nèi)星權(quán)值向量采用無監(jiān)督學(xué)習(xí)算法,權(quán)值調(diào)整的目的是使得權(quán)值向量不斷靠近當(dāng)前的輸入模式類,從而將該模式類的典型向量編碼到獲勝神經(jīng)元的內(nèi)星權(quán)值向量中;外星權(quán)值向量采用監(jiān)督學(xué)習(xí)算法,權(quán)值調(diào)整的目的是使得外星權(quán)值向量不斷靠近并等于期望輸出,從而將該輸出編碼到外星權(quán)值向量中。
圖3 Forward-CPN模型Fig.3 Model of forward-CPN
Forward-CPN從輸入層到競爭層,網(wǎng)絡(luò)按照SOM學(xué)習(xí)規(guī)則產(chǎn)生競爭層獲勝神經(jīng)元,并按照這一規(guī)則調(diào)整相應(yīng)的輸入層到競爭層之間的連接權(quán)值。從競爭層到輸出層,網(wǎng)絡(luò)按照基本競爭網(wǎng)絡(luò)學(xué)習(xí)規(guī)則得到輸出層各神經(jīng)元的實(shí)際輸出值,并按照有監(jiān)督學(xué)習(xí)規(guī)則的誤差校正方法調(diào)整相應(yīng)的競爭層到輸出層之間的連接權(quán)值。經(jīng)過上述反復(fù)學(xué)習(xí),將任意的輸入模式映射為輸出模式。
Forward-CPN算法可以分為兩個(gè)階段,第一階段對輸入層-競爭層的權(quán)值矩陣進(jìn)行訓(xùn)練,使權(quán)值向量不斷靠近當(dāng)前的輸入模式類;第二階段對競爭層-輸出層的權(quán)值矩陣進(jìn)行訓(xùn)練,使權(quán)值向量不斷靠近并等于目標(biāo)輸出。
1)將服務(wù)器系統(tǒng)中的每個(gè)分類主題詞分配給Forward-CPN輸入層的每個(gè)神經(jīng)元,建立“輸入層-競爭層”權(quán)值矩陣。
2)將用戶的初始檢索提問詞集和作為神經(jīng)網(wǎng)絡(luò)的輸入模式集合提供給網(wǎng)絡(luò),通過提問詞集和的輸入模式通過網(wǎng)絡(luò)的競爭層,到達(dá)輸出層。
3)不斷地將輸入模式集合中的輸入模式反復(fù)提供給網(wǎng)絡(luò),讓網(wǎng)絡(luò)完成學(xué)習(xí),直到某一時(shí)刻,網(wǎng)絡(luò)的輸出神經(jīng)元能夠滿足用戶期望輸出的結(jié)果,網(wǎng)絡(luò)達(dá)到穩(wěn)定。
4)對網(wǎng)絡(luò)輸出端檢索出的信息進(jìn)行智能分類,使用戶獲得更多的想得到的結(jié)果。
步驟1:輸入模式預(yù)處理
將每個(gè)輸入模式進(jìn)行歸一化處理,將二進(jìn)制離散數(shù)據(jù){a1,a2,…an}轉(zhuǎn)換為雙極式數(shù)據(jù){x1,x2,…xn},即
步驟2:初始化權(quán)值矩陣 w1和w2。
步驟3:將利用檢索提問詞建立的輸入模式集合提交給網(wǎng)絡(luò)。
步驟4:通過網(wǎng)絡(luò)的權(quán)值矩陣w1和w2,對輸入模式進(jìn)行學(xué)習(xí)。
步驟5:當(dāng)網(wǎng)絡(luò)檢索到所有信息時(shí),網(wǎng)絡(luò)處于穩(wěn)定狀態(tài),停止運(yùn)行,同時(shí)輸出檢索結(jié)果。
假設(shè)現(xiàn)有 6 篇文獻(xiàn)分別為 D1、D2、D3、D4、D5、D6,將其存儲(chǔ)于服務(wù)器進(jìn)行檢索。Forward-CPN輸入層神經(jīng)元為3個(gè),隱層神經(jīng)元為7個(gè),輸出層神經(jīng)元為6個(gè)。利用6篇文獻(xiàn)建立輸入模式,即
將其轉(zhuǎn)換為雙極數(shù)據(jù)模式,即
然后,利用Forward-CPN進(jìn)行仿真,與傳統(tǒng)方法比較,前者具有更好的效果,如表1所示。
表1 Forward-CPN方法與傳統(tǒng)方法比較Tab.1 Compare between Forward-CPN and traditional method
通過對信息檢索技術(shù)的基本概念、原理、檢索方式、以及科技信息檢索流程的分析,在對前向?qū)ο騻鞑ド窠?jīng)網(wǎng)絡(luò)的基本模型和算法的研究的基礎(chǔ)上,提出了基于前向?qū)ο騻鞑ド窠?jīng)網(wǎng)絡(luò)的信息檢索的原理和算法,并將這種算法與傳統(tǒng)方法通過仿真實(shí)驗(yàn)進(jìn)行對比,在保持100%的查準(zhǔn)率的情況下,將查全率由79.63%提高至85.59%,獲得了較好的效果。
[1]周瑛.神經(jīng)網(wǎng)絡(luò)作為分類器的算法研究及其在信息檢索中的應(yīng)用[D].合肥:安徽大學(xué),2006.
[2]劉斌,黃鐵軍,程軍,等.一種新的基于統(tǒng)計(jì)的自動(dòng)文本分類方法[J].中文信息學(xué)報(bào),2002,16(6):18-24.LIU Bing, HUANG Tie-jun,CHENG Jun, et al.A new statistical-based method in automatic text classification[J].Journal of Chinese Information Processing,2002,16(6):18-24.
[3]Salton G,McGill M J.Introduction to modem information retrieval[C]//New York:McGraw Hill,1983.
[4]Hecht Nielsen R.Counter propagation network[C]//Proc.of IEEE First Int’l Conference on Neural Networks,1987(2):19-32
[5]Kuzmanovski I,Novic M.Counter-Propagation neural networks in matlab[J].Chemometrics and Intelligent Laboratory System,2008(90):84-91.
[6]金明曦,武妍.基于對向傳播神經(jīng)網(wǎng)絡(luò)的人臉識(shí)別方法[J].電子科技大學(xué)學(xué)報(bào),2004,33(5):573-576.JIN Ming-xi,WU Yan.Face recognition based on counter propagation network[J].Journal of University of Electronic Science and Technology of China,2004,33(5):573-576.
[7]葛哲學(xué),孫志強(qiáng).神經(jīng)網(wǎng)絡(luò)理論與MATLAB R2007實(shí)現(xiàn)[M].北京:電子工業(yè)出版社,2007.
[8]Hagan M T,Demuth H B,beale M H,著.神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)[M].戴葵,等譯.北京:機(jī)械工業(yè)出版社,2006.
[9]Fredric M.Ham,Ivica Kostanic,著.神經(jīng)計(jì)算原理[M].葉世偉,王海娟,譯.北京:機(jī)械工業(yè)出版社,2007.