開磊
(安徽省合肥市安徽新華學院國際教育學,安徽 合肥 230088)
處在當前互聯(lián)網(wǎng)信息時代的背景下,互聯(lián)網(wǎng)信息總量不僅種類增多,而且數(shù)量不斷增長,這就需要探索出精確、快速和高效提取信息的途徑,這同時也是研究核心所在,備受社會各界的關(guān)注。
隨著社會的逐步發(fā)展和進步,不同類型的信息檢索算法模型已經(jīng)形成和應用。其中,Sallon等學者就對向量空間模型算法進行了構(gòu)建,借助TFIDF對文檔進行了轉(zhuǎn)換,形成向量的形式,極大地簡化了運算過程,有著大規(guī)模的應用。基于典型向量空間檢索模型算法下,借助涵蓋特征項構(gòu)成向量可以對查詢、文檔進行表示,同時借助查詢、文檔二者間的向量夾角余弦當成度量相似性的過程,并且隨著夾角的減小會使相似度逐漸增大。在對特定向量進行查詢的過程中,通常需要將其同全部文檔向量相似性進行比較,同時以相似度為標準,按照降序的規(guī)則來排列文檔,并對最終的檢索結(jié)果進行提交。上述方式具有多種優(yōu)勢,例如:簡便化、處理速度較快和直觀化等。然而文檔集合下特征項總量比各篇查詢、文檔下特征項數(shù)量要大,所以查詢、文檔二者的向量代表形式下多數(shù)均是0。零項能夠基于運算特征項相似度、權(quán)重,從而在空間、實踐繁瑣性方面存在問題,影響數(shù)據(jù)稀疏的狀況。除此之外,抽取、查詢匹配特征項時,相同特征項可以在文檔各區(qū)域內(nèi)出現(xiàn),在顯示文檔內(nèi)容能力方面有所差異。同時,相同區(qū)域內(nèi)的文檔,如果特征項存在差異,則對文檔內(nèi)容的表達能力也會有所不同。借助典型向量空間模型能夠視作上述特征項對文檔的表達能力相一致,不存在較大的差別。
推廣應用向量空間模型之后,其在信息檢索中發(fā)揮著非常重要的作用,然而在信息技術(shù)快速進步的同時,使用者的需求發(fā)生了很大的變化,這就導致向量空間模型的問題日益呈現(xiàn)出來,眾多研究人員對此進行了分析,同時構(gòu)建了改進算法。
建立向量空間模型的根本就在于,各篇文檔、查詢均涵蓋了借助概念詞進行呈現(xiàn)和表示相關(guān)內(nèi)容的獨立屬性,各屬性均能夠視作概念空間下維數(shù)。所以,查詢、文檔均能夠表達成不同屬性的集合,這就會對文本結(jié)構(gòu)下的詞語、句子及段落的煩瑣聯(lián)系有所忽視。由此,就需要依次借助空間下獨立點來代表查詢、文檔,同時,查詢、文檔二者的矢量間相繼具有差異化的空間距離,此距離聯(lián)系呈現(xiàn)于信息檢索內(nèi),表示的即為查詢、文檔二者相似度。因此,在衡量查詢、文檔二者相似度的過程中,能夠借助矢量距離進行表達。相似度運算相似度的方式較多,本研究借助余弦系數(shù)法,將查詢、文檔相關(guān)度借助矢量間夾角余弦進行表達。夾角在增大的過程中,距離就會相繼拉遠,但是余弦和相關(guān)度均會變小,不然就會呈現(xiàn)相關(guān)度逐漸增大的結(jié)果。
針對文檔進行N層組織結(jié)構(gòu)分割,針對各層文本內(nèi)容對特征項向量、權(quán)值進行構(gòu)建,同典型空間模型相比,其運算權(quán)重及抽選特征項目相一致。由此,N層向量空問模型就是N層分割文檔所獲取向量空間模型。
本研究結(jié)合Web信息檢索開展分析工作,因為Web頁面的格式非常的特殊,規(guī)定各篇文檔應至少涵蓋三大部分,即為文檔正文、文檔標題及文檔鏈接。同時這些內(nèi)容在表達文檔能力方面也存在一定的差異。吸引使用者進行閱覽文檔的直接途徑就是鏈接文字,因此必須要去報文檔表達能力最強的就是鏈接內(nèi)容,之后才是標題,而文檔表達能力最差的就是正文內(nèi)容?;赪eb信息檢索的過程中,發(fā)揮N層向量空問模型的作用,能夠針對Web文檔,依據(jù)指向文檔鏈接、正文及標題進行三層結(jié)構(gòu)劃分,集合具體情況也能夠形成四層向量空間模型。
1、對特征項庫進行構(gòu)造。對文檔集合下特征項進行輸入,形成特征項庫;
2、對文檔信息進行構(gòu)建。在數(shù)據(jù)庫內(nèi)輸入文檔內(nèi)容,形成文檔信息庫;
3、對文檔向量信息庫進行建立。針對各文檔信息對各特征項權(quán)值進行運算,形成文檔向量;
4、查詢文檔。對查詢條件進行輸入,借助布爾模型獲取查詢條件下文檔向量,同各文檔向量開展運算,獲取文檔、查詢條件相似度;
5、對輸出結(jié)果進行排序。根據(jù)相似度對查詢結(jié)果進行排序。
1、運算文檔向量權(quán)值時,對反比文獻頻率idfk進行了運用,所以在對文檔進行增加時,應對向量進行再次運算;
2、借助鏈接能夠變遷不同 Web文檔信息,所以鏈接文本信息象征被鏈接Web文檔的關(guān)鍵內(nèi)容,借助向量空間模型來查詢Web信息,不會對這些內(nèi)容進行考慮。這就會使典型向量模型的查詢速率降低,影響精確程度。
索引項權(quán)重wik即為索引項針對文檔的關(guān)鍵性,也就是索引項能夠大致區(qū)分文檔。借助tf-idf法能夠加權(quán)索引項,能夠使索引項(較多不分文檔較少出現(xiàn),而較少文檔經(jīng)常出現(xiàn))具有的權(quán)重增大。因為Web文檔具有半結(jié)構(gòu)化特點,特殊位置形成超鏈接、標題等各類域下的索引項。特殊位置內(nèi)容對Web文檔重要信息進行表示,所以索引項權(quán)重、位置存在緊密聯(lián)系。借助tfidf法,在向量空間模型下,對索引項權(quán)重進行運算過程中,能夠不考慮信息重要程度,導致Web信息檢索系統(tǒng)輸出結(jié)果順序排列能力不高。