[摘要] 本文首先從起源,概念,影響范圍,中西文信息檢索之比較及檢索模型幾個方面總體介紹了信息檢索。繼而引入基于向量模型的信息檢索方法,從它的相關概念包括向量、權值、相似度等到它的實現(xiàn)方法。在此基礎上以經(jīng)濟類文檔信息檢索為例詳細解釋了向量空間模型的實際應用。最后總結此算法的不足之處及其對傳統(tǒng)檢索方法的改良。
[關鍵詞] 向量空間 中文 信息檢索 經(jīng)濟
信息檢索( Information Retrieval) 是一個古老而又全新的話題。說它古老,因為自從有了文獻便有了信息檢索。當人們從中查找所需信息時,信息檢索也就應運而生。只不過那時可檢索的對象較少,因而檢索是一個不自覺的過程。早期的信息檢索主要是手工檢索,人們通過“心想——手翻——眼看”的方式進行。隨著社會的發(fā)展和信息量的增加,人們逐漸認識到信息檢索的必要性與重要性,信息檢索逐漸作為一門新興的學科發(fā)展起來?,F(xiàn)代信息檢索是以計算機科學與技術、網(wǎng)絡技術、光盤技術、通信技術等現(xiàn)代信息技術在信息存儲與檢索中的應用為基礎發(fā)展起來的。
一、信息檢索簡介
1.概念
廣義的信息檢索范圍很大,可以說從書本、報紙以及其他的各種媒體中查找人們需要的信息都可以稱為信息檢索。
狹義的信息檢索是特指利用計算機這個高效的工具對各種信息進行檢索的技術。信息檢索的內(nèi)容包括文本、圖像、視頻和音頻等多種,但本文只討論文本信息的檢索技術,特別是中文信息的檢索技術。
信息檢索是一門研究從一定規(guī)模的文檔庫(Document Collection)中找出滿足用戶提出的信息需求(User Information Need)的技術。
2.Web信息檢索
Web的出現(xiàn)大大地促進了信息檢索技術的發(fā)展。Web上有異常豐富但又十分混亂的信息資源,其中絕大部分有用的信息還沒有挖掘出來。這是因為目前還沒有特別好的信息處理和檢索工具。這一領域的開發(fā)仍然處于初級階段。
3.中西文信息檢索比較
在文本信息檢索領域,西文信息檢索的發(fā)展較為迅速。西文信息檢索系統(tǒng)可以利用向量空間表示檢索信息內(nèi)容,并將自然語言處理應用于信息檢索,大大提高了信息檢索的準確性。中文信息的檢索和英文信息的檢索在很多地方是一致的,但也有一些不同。比如中文詞語之間沒有空格,因此在索引前需要進行詞語切分。此外,與英文相比,漢語句法分析和語義理解更為困難。
4.信息檢索的模型
一般有兩種信息檢索模型:基于統(tǒng)計的模型和基于語義的模型。基于統(tǒng)計的模型是應用某些統(tǒng)計的手段從被檢索文檔和高標注等級文檔中查詢與用戶需求匹配程度最好的文檔;而基于語義的模型則嘗試對需求實現(xiàn)一定程度語法語義分析,即對自然語言文本進行一定程度的理解并重新生成查詢。
基于統(tǒng)計的模型主要有:布爾模型(Boolean Model)、擴展布爾模型(Extended Boolean Model)、向量空間模型(Vector Space Model)以及概率模型(Probabilistic Model)等。
二、向量模型
向量模型是重要的檢索模型,其主要優(yōu)點在于:a、通過對特征項的加權改進了模型的檢索效果;b.模型的部分匹配策略允許檢索出與查詢條件相接近的文獻;c.相似度的引進使得能夠對查詢結果進行排序,以倒排文檔方式提交結果。
1.文檔和項的向量空間表示
首先把一個文檔進行分詞處理,并去除那些停用詞,如“我”、“的”、“人們”等。然后對剩余的詞進行合并處理。
在一個給定的集合中先對每個文檔進行以上的操作,獲得每個文檔索引項的集合。再把所有文檔的索引項進行合并,形成了一個代表整個文檔集合的索引項集合,整個索引項集合表示了一個“空間”。在一個文檔空間中,可以給每個索引項賦一個權值,代表這個索引項在這個文檔中的地位。如表1所示,文檔1的向量空間是(3,4,5),文檔2的向量空間是(2,3,3)。
與文檔空間相對應的一個概念是“項空間”,它是指一個索引項在文檔集合中的各個文檔權值的集合。如表1所示,索引項“經(jīng)濟”的向量空間是(4,3,0,0),索引項“金融”的向量空間是(5,3,0,5)。
于是文獻和查詢均可用由項構成的向量來表示:d=(t1,t2, ……,tn) 。項的權重(term weight) :對于有n 個不同的項的系統(tǒng),文獻D=(t1,t2,……,tn)。
2.項權值
項t k(1≤k≤n)常常被賦予一個數(shù)值Wk,表示它在文獻中的重要程度,稱為項t k 的權重。因此,我們一般用D=(w1,w2,…,wn)的形式表示文獻。特征項的權重計算,是人為賦予的,因此主觀性較強,但比較權威的確定權重的方法是運用TF - IDF 公式,即Wik = tfik/dfk=tfik ×idfk,其中tfik為特征項Tk在文檔Di中的出現(xiàn)頻率,稱為項頻率(term frequency);dfk則是文檔集D中出現(xiàn)特征項Tk的文檔的數(shù)量,稱為文檔頻率;idfk為dfk的倒數(shù),稱為反轉文檔頻率(inverteddocument frequency)。另外,還應考慮到文檔的長度,否則長文檔易被檢出,而短文檔會被漏檢,所以通常還要對上面公式進行標準化處理。
假設有三個項:“經(jīng)濟”、“金融”和“計算機”,它們在不同文檔中的權值如表1所示。
根據(jù)這個表,可以畫出權值和文檔的三維向量空間。
3.計算向量之間的相似程度
相似度S(Similarity):指兩個文檔內(nèi)容相關程度的大小,當文檔以向量來表示時,可以使用向量文檔向量間的距離來衡量,一般使用內(nèi)積或夾角θ的余弦來計算,兩者夾角越小說明相似度越高。由于查詢也可以在同一空間里表示為一個查詢向量(見圖1),可以通過相似度計算公式計算出每個文檔向量與查詢向量的相似度,排序這個結果后與設立的閾值進行比較。如果大于閾值則頁面與查詢相關,保留該頁面查詢結果;如果小于則不相關,過濾此頁。這樣就可以控制查詢結果的數(shù)量,加快查詢速度。
三、以經(jīng)濟信息檢索為例的實例分析
經(jīng)濟發(fā)展依賴于自然資源的開發(fā)與利用,也離不開經(jīng)濟信息資源的開發(fā)和利用。開發(fā)經(jīng)濟信息資源,實際上是對人類智力的開發(fā),是一種知識和科學技術的開發(fā),一種生產(chǎn)技能和管理技能的開發(fā)。現(xiàn)在,經(jīng)濟信息已經(jīng)滲透到現(xiàn)代生活的各個領域,有效地地開發(fā)和利用經(jīng)濟信息,提高經(jīng)濟信息的傳播速度已經(jīng)成為現(xiàn)代經(jīng)濟發(fā)展的一種推動力,能夠大大提高勞動者的智力水平,從而促進經(jīng)濟的發(fā)展。因此,在以經(jīng)濟建設為中心、大力發(fā)展社會主義經(jīng)濟的過程中,必須不斷地開發(fā)和利用經(jīng)濟信息資源。
經(jīng)濟信息是一種社會資源,作用于經(jīng)濟活動過程,已經(jīng)成為現(xiàn)代社會經(jīng)濟發(fā)展的一個先決條件。現(xiàn)代經(jīng)濟建設是一個龐大而復雜的系統(tǒng),需要依據(jù)大量的經(jīng)濟信息去控制、指揮、協(xié)調(diào)和組織系統(tǒng)的內(nèi)部關系,系統(tǒng)和系統(tǒng)之間也需要靠經(jīng)濟信息去聯(lián)系,才能使經(jīng)濟活動達到人們預期的目標。在科學技術迅猛發(fā)展的社會里,經(jīng)濟信息資源顯得更加重要。
假設現(xiàn)有一個包含4篇經(jīng)濟金融類相關信息文檔的集合,這4篇文檔如下:
D1:金融投資的對象是金融資產(chǎn)……
D2:金融資產(chǎn)是獲得投資收益的資產(chǎn)……
D3:證券投資、基金投資和期權投資組成金融投資……
D4:獲得投資收益是證券性金融投資的主要目的……
檢索表達式Q為:金融投資的資產(chǎn)收益。
首先,需要對文檔和檢索表達式進行分詞處理,其結果如下:
D1:金融/投資/的/對象/是/金融/資產(chǎn)/……
D2:金融/資產(chǎn)/是/獲得/投資/收益/的/資產(chǎn)/……
D3:證券/投資/、/基金/投資/和/期權/投資/組成/金融/投資/……
D4:獲得/投資/收益/是/證券/性/金融/投資/的/主要/目的/……
Q:金融/投資/的/資產(chǎn)/收益/。
然后除去停用詞,去除后的文檔如下:
D1:金融/投資/對象/金融/資產(chǎn)/……
D2:金融/資產(chǎn)/獲得/投資/收益/資產(chǎn)/……
D3:證券/投資/基金/投資/期權/投資/組成/金融/投資/……
D4:獲得/投資/收益/證券/金融/投資/主要/目的/……
Q:金融/投資/資產(chǎn)/收益/。
計算項的權值根據(jù)公式
各個索引項的df和idf值如表2所示
各個索引項在文檔中的頻度如表3所示
則各個索引項在文檔中的權值如表4所示
檢索表達式的權值很簡單,如表5所示
采用內(nèi)積法計算向量的相似度,則可以看出,文檔D3與檢索表達式的相似度最高,D1、D2、D4相同且低于D3。
四、算法分析總結
算法的計算復雜程度還需要進一步探討,目前這些研究都還不夠深入,許多問題還有待于進一步探討;同時由于自然語言的復雜性,新查詢向量的查全率和查準率雖然有所提高向量模型是以假設向量空間的各維之間相互正交(即各關鍵字之間相互獨立) 為前提的,因而不可避免地存在由此帶來的損失關鍵字間的相關性的缺點,可它把對文檔內(nèi)容和查詢要求的處理簡化為向量空間中向量的運算,克服了布爾模型的二值評價的缺點,可以計算出文檔與查詢式的相關程度,因而可以很容易地進行輸出結果的排序,用戶相關性反饋機制也很容易實現(xiàn),尤其是具有對處理海量數(shù)據(jù)的適應性等種種優(yōu)點使得它自誕生以來,至今都有很強的生命力。
參考文獻:
[1]雷景生林冬雪符淺淺:基于改進向量空間模型的Web信息檢索技術研究[J].計算機工程, 2005, 1: 14~16
[2]王曉黎王文杰:基于向量空間模型的文本檢索系統(tǒng) [J].微電子學與計算機, 2006, 23: 188~190
[3]包金龍:基于向量空間模型的信息檢索系統(tǒng)的設計 [J].情報檢索, 2005, 7:44~45
[4]安茹娜:淺析經(jīng)濟文獻信息的開發(fā)和利用[J].科技情報開發(fā)與經(jīng)濟,2007,12:54~55
[5]劉海峰王元元:基于向量模型的文本檢索若干問題研究 [J].情報雜志,2006,10:57~59
[6]齊繼國高埃汪東升:基于多用戶協(xié)同反饋的信息檢索模型[J].小型微型計算機系統(tǒng),2003,7:1152~1155