朱秋霞
摘 要 信息檢索模型主要是對(duì)查詢(xún)和文檔進(jìn)行相似度表示和計(jì)算的框架和方法。傳統(tǒng)檢索模型有布爾模型、概率模型、向量空間模型和模糊集模型等,現(xiàn)在已經(jīng)發(fā)展到了新的階段,具有堅(jiān)實(shí)理論基礎(chǔ)和明顯優(yōu)勢(shì)的檢索模型是研究的熱點(diǎn)。
關(guān)鍵詞 信息檢索 檢索模型
中圖分類(lèi)號(hào):G354 文獻(xiàn)標(biāo)識(shí)碼:A
信息檢索模型是運(yùn)用數(shù)學(xué)或其它的語(yǔ)言和工具,對(duì)信息檢索的主要要素—查詢(xún)和文檔,及其之間的匹配程度—相似度進(jìn)行表示和計(jì)算的框架和方法。它基于以下觀(guān)點(diǎn): 文檔和查詢(xún)共有的詞項(xiàng)越多,則認(rèn)為這篇文檔和該查詢(xún)?cè)较嚓P(guān)。
1布爾檢索模型→加權(quán)布爾檢索模型→擴(kuò)展布爾檢索模型
布爾模型是信息檢索中第一個(gè)被提出的模型,其表達(dá)提問(wèn)的方式與人們的思維方式相近,人們習(xí)慣于采用此種模式進(jìn)行檢索查詢(xún)。它側(cè)重于結(jié)構(gòu)化查詢(xún)表達(dá)式,即通過(guò)AND、OR 和NOT 構(gòu)造查詢(xún)表達(dá)式,反映用戶(hù)需求,并通過(guò)精確匹配來(lái)返回文檔。布爾檢索實(shí)際是通過(guò)對(duì)若干個(gè)文獻(xiàn)集合的并、交、補(bǔ)運(yùn)算回答用戶(hù)提問(wèn)的。布爾模型最顯著的特點(diǎn)是將用戶(hù)查詢(xún)與文獻(xiàn)標(biāo)引進(jìn)行邏輯的、而非數(shù)值的比較而獲得檢索結(jié)果。這種模型把復(fù)雜的檢索過(guò)程簡(jiǎn)單化,將復(fù)雜的情報(bào)提問(wèn)按其概念組面的邏輯關(guān)系描述出來(lái),使機(jī)器根據(jù)事先確定的程序進(jìn)行自動(dòng)匹配,簡(jiǎn)化了運(yùn)算。
但是,布爾邏輯式的構(gòu)造不易全面反映用戶(hù)的需求,匹配標(biāo)準(zhǔn)存在某些不合理的地方,檢索結(jié)果不能按照用戶(hù)定義的重要性排序輸出。針對(duì)這些缺陷,提出加權(quán)布爾模型,通過(guò)對(duì)標(biāo)引詞進(jìn)行加權(quán),解決了傳統(tǒng)布爾檢索的一些缺點(diǎn),比如傳統(tǒng)布爾模型的運(yùn)算符在加權(quán)布爾模型中無(wú)法使用,為解決此問(wèn)題,提出了擴(kuò)展布爾模型,該模型通過(guò)對(duì)標(biāo)引詞加權(quán)值,同時(shí)將向量檢索模型與布爾檢索模型融為一體,克服了傳統(tǒng)與加權(quán)布爾邏輯模型的缺陷。其擴(kuò)展規(guī)模是傳統(tǒng)布爾檢索模型完全匹配的嚴(yán)格性和向量模型提問(wèn)的無(wú)結(jié)構(gòu)性的折中,在保持布爾邏輯檢索的結(jié)構(gòu)式提問(wèn)的同時(shí),吸納了模糊檢索和向量檢索模型的長(zhǎng)處。
2概率模型→貝葉斯網(wǎng)絡(luò)檢索模型
概率論可以用來(lái)計(jì)算查詢(xún)和文檔的相關(guān)性,概率模型通過(guò)計(jì)算文檔與查詢(xún)相關(guān)的概率作為相似度。這就使相關(guān)性排序問(wèn)題降為概率論應(yīng)用問(wèn)題。概率模型基于以下論點(diǎn): 基于一個(gè)詞項(xiàng)分別在相關(guān)文檔和不相關(guān)文檔中出現(xiàn)的頻率來(lái)估計(jì)該詞項(xiàng)的權(quán)重。概率模型完全基于概率論,采用嚴(yán)格的數(shù)學(xué)理論為依據(jù)和基礎(chǔ)來(lái)進(jìn)行檢索決策,具有堅(jiān)實(shí)的理論基礎(chǔ)。它的主要缺點(diǎn)是增加存貯和計(jì)算資源的開(kāi)銷(xiāo)、參數(shù)估計(jì)難度較大、系統(tǒng)的檢索性能提高不明顯。
貝葉斯網(wǎng)絡(luò)檢索模型是從傳統(tǒng)的概率理論中分離出來(lái)的,以概率理論為基礎(chǔ),是概率檢索模型的擴(kuò)展。貝葉斯網(wǎng)絡(luò)是一個(gè)帶有概率注釋的有向無(wú)環(huán)圖,圖中的點(diǎn)表示所要解決的問(wèn)題中的變量。這種概率圖模型能表示變量之間的聯(lián)合概率分布,分析變量之間的相互關(guān)系,因而貝葉斯網(wǎng)絡(luò)模型可以用來(lái)表示術(shù)語(yǔ)間的條件概率和概念語(yǔ)義,并對(duì)查詢(xún)與文檔間的相似度進(jìn)行預(yù)測(cè),從而實(shí)現(xiàn)基于語(yǔ)義概念的查詢(xún)。盡管關(guān)于貝葉斯網(wǎng)的理論研究還很不完善,應(yīng)用研究還處于起步階段,但已通過(guò)不同的方式應(yīng)用到了信息檢索領(lǐng)域,隨著技術(shù)的進(jìn)步,貝葉斯網(wǎng)模型將發(fā)揮越來(lái)越重要的作用。
3向量空間模型→隱性語(yǔ)義檢索模型→本體向量空間模型
向量空間模型是目前最為流行的信息檢索模型之一。其通過(guò)使用空間的相似性來(lái)解決語(yǔ)義上的相似性,把文檔和查詢(xún)?cè)诟呔S空間中用向量表示出來(lái),每一個(gè)維對(duì)應(yīng)著文檔集合中的一個(gè)詞。
向量空間模型最顯著的缺陷是基于關(guān)鍵詞的向量空間模型無(wú)法反應(yīng)術(shù)語(yǔ)間的語(yǔ)義關(guān)系,為使處理水平從離散的關(guān)鍵詞匹配深入到概念匹配的層次上,提出了隱性語(yǔ)義檢索( LSI)。
LSI 可以看作是擴(kuò)展的向量空間模型,其簡(jiǎn)化了計(jì)算的復(fù)雜性,但語(yǔ)義空間不夠完整。本體為向量空間模型提供了更為豐富、詳細(xì)的概念空間,涵蓋了領(lǐng)域內(nèi)的所有知識(shí)及關(guān)系。在本體的支持下,文檔中語(yǔ)義相關(guān)的術(shù)語(yǔ)彼此間有了豐富的語(yǔ)義聯(lián)系,如上下位關(guān)系,同義、近義、成員、屬性等內(nèi)在聯(lián)系,每種關(guān)系的關(guān)聯(lián)程度也不同。
在獲得豐富而詳細(xì)的本體的前提下,對(duì)基于本體的向量空間模型定義如下: 所有的文檔組成信息對(duì)象集合D = { di | 1≤i≤M} ,M 為信息對(duì)象的總數(shù)。根據(jù)向量空間模型,每條信息di都可以用一個(gè)特征向量v( s) =[s1,s2,…,sN]來(lái)表示。si對(duì)應(yīng)于本體中的實(shí)體ei,表示某個(gè)信息對(duì)象中術(shù)語(yǔ)ei的權(quán)重。本體向量空間模型有著良好的前景,但由于構(gòu)建完善的本體難度太大,因而基于本體的向量空間模型僅在小范圍有試用,如Gene Ontology。
4模糊集檢索模型→粗糙集檢索模型
模糊集合理論研究的是邊界不明確的集合表示,其中心思想是把隸屬函數(shù)和集中的元素結(jié)合在一起。該函數(shù)的取值在區(qū)間[0,1]上,0表示不隸屬于該集合,1表示完全隸屬于該集合,隸屬值在0 和1 之間表示集合中的邊際元素。模糊集合模型被用來(lái)定義查詢(xún)語(yǔ)詞和文獻(xiàn)之間的模糊關(guān)系。每一個(gè)查詢(xún)語(yǔ)詞定義了一個(gè)模糊集合,每個(gè)文獻(xiàn)在相應(yīng)的語(yǔ)詞集合中有一個(gè)隸屬度,取值通常小于1。
模糊檢索主要是建立隸屬函數(shù),即為查詢(xún)條件使用的模糊語(yǔ)言定制適當(dāng)?shù)暮瘮?shù),用于計(jì)算數(shù)據(jù)庫(kù)中各記錄相應(yīng)字段的匹配度。合適的隸屬函數(shù)則能準(zhǔn)確把握用戶(hù)的意愿,滿(mǎn)足用戶(hù)的檢索需求。傳統(tǒng)的模糊集合模型只考慮利用語(yǔ)詞共現(xiàn)關(guān)系來(lái)進(jìn)行模糊檢索,給出了文獻(xiàn)隸屬度的計(jì)算。由于它沒(méi)有考慮語(yǔ)詞與整個(gè)查詢(xún)概念的相似性,模糊程度有限。
粗糙集理論由波蘭數(shù)學(xué)家Z.Pawlak 于1982 年提出,建立在分類(lèi)的基礎(chǔ)上。它將分類(lèi)理解為在特定空間上的等價(jià)關(guān)系,而等價(jià)關(guān)系則構(gòu)成對(duì)該空間的分類(lèi),且每個(gè)分類(lèi)后的集合稱(chēng)為概念。模糊集和粗糙集雖然都是集合理論,但模糊集側(cè)重集合中的元素,而粗糙集側(cè)重于集合與集合之間。粗糙集理論應(yīng)用于信息檢索是利用粗糙集的上下近似函數(shù)設(shè)置相等、粗糙相等、粗糙包含于、粗糙包含和粗糙相交幾種匹配等級(jí)標(biāo)準(zhǔn),提出一種擴(kuò)充和優(yōu)化用戶(hù)查詢(xún)的新方法,此方法可根據(jù)用戶(hù)查詢(xún)和等級(jí)匹配標(biāo)準(zhǔn)實(shí)現(xiàn)檢索,從而得到檢索結(jié)果的排序輸出?;诖植诩臋z索模型目前還在研究階段尚無(wú)大范圍應(yīng)用。
參考文獻(xiàn)
[1] 孫坦,周靜怡.近幾年來(lái)國(guó)外信息檢索模型研究進(jìn)展[J].圖書(shū)館建設(shè),2008(3):82-85.
[2] 王娟琴.三種檢索模型的比較分析研究[J].情報(bào)科學(xué),1998(3):225-230,260.