海南大學(xué) 李俊頡 李為民
基于自然語(yǔ)言檢索的網(wǎng)頁(yè)快照技術(shù)研究
海南大學(xué) 李俊頡 李為民
隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,信息的發(fā)布與共享超越了時(shí)空的限制,互聯(lián)網(wǎng)信息的極速發(fā)展給用戶(hù)帶來(lái)海量的信息資源的同時(shí),也帶來(lái)了尋找有效信息的困難.本文通過(guò)現(xiàn)有搜索引擎的比較研究,提出一套基于自然語(yǔ)言檢索的網(wǎng)頁(yè)快照技術(shù).舉例Google的PageRank算法優(yōu)化網(wǎng)頁(yè)排名、自然檢索和網(wǎng)頁(yè)快照技術(shù)相結(jié)合的檢索方式,提高了用戶(hù)檢索體驗(yàn)。
搜索引擎;自然語(yǔ)言檢索;網(wǎng)頁(yè)快照;搜索引擎排序
自然語(yǔ)言檢索包括自然語(yǔ)言標(biāo)引和自然語(yǔ)言提問(wèn)查詢(xún)。自然語(yǔ)言是以源文檔中的內(nèi)容作為源檢索標(biāo)示,之后會(huì)提供給用戶(hù)接口使得用戶(hù)可以使用自然語(yǔ)言作為檢索內(nèi)容并進(jìn)行提問(wèn),完成檢索。
自然語(yǔ)言的檢索方法符合人們?nèi)粘2檎倚畔⒌乃季S模式。用戶(hù)無(wú)需學(xué)習(xí)布爾檢索式,拋開(kāi)了有關(guān)關(guān)鍵詞和詞組的種種限制,不需牢記繁瑣的檢索規(guī)則,只要像平時(shí)提問(wèn)一樣即可。
目前在中國(guó),網(wǎng)絡(luò)信息資源總量呈爆炸式增長(zhǎng),且在全球信息檢索中的比例不斷提高,Google的圖書(shū)數(shù)字化計(jì)劃開(kāi)展以來(lái)也使得數(shù)字化信息成為了愈來(lái)愈重要的資源形式。與此同時(shí),用戶(hù)的結(jié)構(gòu)也發(fā)生了變化,越來(lái)越多的普通用戶(hù)代替了原來(lái)專(zhuān)業(yè)技術(shù)用戶(hù),隨之而來(lái)的檢索需求也趨向多元化發(fā)展,目前,大多數(shù)用戶(hù)即使不了解專(zhuān)業(yè)術(shù)語(yǔ),也可以使用自然語(yǔ)言來(lái)對(duì)他們所需要的信息進(jìn)行描述來(lái)達(dá)到二次檢索的效果。自然語(yǔ)言相對(duì)于受控語(yǔ)言具有以下特點(diǎn):
(1)符合用戶(hù)思考習(xí)慣,不必使用特定語(yǔ)法;
(2)可以進(jìn)行概念控制,提高查準(zhǔn)率。
自然語(yǔ)言研究處理所使用的語(yǔ)言都是以自己的母語(yǔ)為主(大部分為英語(yǔ))。雖然在研究中發(fā)現(xiàn)自然語(yǔ)言處理的有些思想理論可以脫離于具體語(yǔ)種,具有很大程度上的普適性,但在一些具體的研究項(xiàng)目中,許多處理方法都是與所使用的語(yǔ)言緊密相連的,例如英語(yǔ)與漢語(yǔ)的側(cè)重點(diǎn)具有很大的差異。因此,自然語(yǔ)言檢索的研究仍處于探索階段,一些方法理論僅僅只適用于特殊設(shè)定的情況,同時(shí),在漢語(yǔ)方面的研究還是要落后于國(guó)外,缺乏一些深層次的研究[1]。
2.1 網(wǎng)頁(yè)快照技術(shù)的提出
在通過(guò)國(guó)內(nèi)外搜索引擎對(duì)比分析之后發(fā)現(xiàn),目前大多數(shù)Internet搜索引擎都主要是對(duì)Web信息資源進(jìn)行抓取收集,并對(duì)用戶(hù)提供檢索服務(wù)這類(lèi)模式,在日漸發(fā)展中,都在向綜合搜索引擎靠攏。這些搜索引擎在提供與用戶(hù)搜索內(nèi)容相關(guān)聯(lián)的網(wǎng)頁(yè)內(nèi)容之后,雖然根據(jù)一定的算法進(jìn)行了排序工作,但搜索結(jié)果仍然魚(yú)龍混雜,更為主觀的決定還是在于用戶(hù)本身,需要用戶(hù)自己判定結(jié)果中那些是正確的,哪些是不正確的。而對(duì)于一些客觀存在的,具有唯一答案的問(wèn)題,在參雜了網(wǎng)民主觀因素之后,也會(huì)出現(xiàn)不同的答案,這些帶有主觀色彩檢索結(jié)果不但降低了檢索問(wèn)題所需要的準(zhǔn)確性,而且耗費(fèi)了很多用戶(hù)的時(shí)間。下面舉例說(shuō)明(Baidu Search):
古詩(shī)詞:在對(duì)關(guān)鍵字“床前明月光”進(jìn)行檢索時(shí),除了出現(xiàn)“床前明月光,疑是地上霜”正確答案之外,在靠前的網(wǎng)頁(yè)中還有“床前明月光,李白睡得香”、“床前明月光,苦悶心慌慌”、“床前明月光,李白打開(kāi)窗”等一系列錯(cuò)誤答案。
2.2 建筑物位置
在對(duì)關(guān)鍵詞“我想知道海南大學(xué)圖書(shū)館具體位置”進(jìn)行檢索時(shí),前10個(gè)檢索結(jié)果都是與“海南大學(xué)圖書(shū)館簡(jiǎn)介”有關(guān),在內(nèi)容里并沒(méi)有具體提供檢索關(guān)鍵詞的答案。
基于此,提出了一項(xiàng)基于自然語(yǔ)言檢索的網(wǎng)頁(yè)快照技術(shù),通過(guò)實(shí)驗(yàn)可以發(fā)現(xiàn),使用此項(xiàng)技術(shù)不但可以提高用戶(hù)檢索體驗(yàn),而且檢索速度加快了26.1%-32.2%。
網(wǎng)頁(yè)快照技術(shù):用戶(hù)在搜索引擎檢索框通過(guò)自然語(yǔ)言輸入所需要的檢索內(nèi)容(例如:海南大學(xué)圖書(shū)館的具體位置;我需要??诎咨抽T(mén)公園的地圖),搜索引擎使用數(shù)據(jù)和語(yǔ)言分析技術(shù)與用戶(hù)的查詢(xún)問(wèn)題做精確匹配。并在檢索答案返回時(shí)具有相應(yīng)匹配結(jié)果的鏈接下方增設(shè)網(wǎng)頁(yè)快照按鈕,當(dāng)用戶(hù)移動(dòng)光標(biāo)置于此按鈕時(shí),會(huì)以文本的形式顯示相應(yīng)匹配答案。
3.1 網(wǎng)頁(yè)快照數(shù)據(jù)庫(kù)
在除普通搜索引擎服務(wù)器外,新增加網(wǎng)頁(yè)快照數(shù)據(jù)庫(kù)組,里面儲(chǔ)存自然語(yǔ)言檢索問(wèn)題及相應(yīng)答案。
在普通檢索頁(yè)面增設(shè)網(wǎng)頁(yè)快照置位vn(用1和0表示),當(dāng)頁(yè)面檢索網(wǎng)頁(yè)快照置位為1時(shí),提交后臺(tái)審核,成功后將此頁(yè)面放入網(wǎng)頁(yè)快照數(shù)據(jù)庫(kù)。用戶(hù)在進(jìn)行檢索操作時(shí),搜索引擎首先在網(wǎng)頁(yè)快照數(shù)據(jù)庫(kù)內(nèi)根據(jù)語(yǔ)言分析技術(shù)匹配,若匹配成功,則在具有此檢索的頁(yè)面下方增設(shè)網(wǎng)頁(yè)快照按鈕,之后執(zhí)行搜索引擎自身檢索操作。
3.2 網(wǎng)頁(yè)快照頁(yè)面排序
引入網(wǎng)頁(yè)快照因子vf,常常取值vf=0.05;網(wǎng)頁(yè)快照置位vn(vn=0或1),帶有網(wǎng)頁(yè)快照的PageRank算法如下:
上述公式解釋?zhuān)?/p>
如果網(wǎng)T存在一個(gè)指向網(wǎng)頁(yè)A的鏈接,則表明所有者認(rèn)為A比較重要,從而把T的一部分重要性賦予A,這個(gè)重要性得分值為:其中PR(T)為T(mén)的PageRank值,L(T)為T(mén)的出鏈數(shù);由于一些出鏈為0,也就是那些不連接人和其他網(wǎng)頁(yè)的頁(yè)面(孤立頁(yè)面),因此增加了阻尼系數(shù)q,q一般取值q=0.85;考慮到存在網(wǎng)頁(yè)快照按鈕頁(yè)面較為重要,因此引入vf、vn提高這類(lèi)頁(yè)面的PageRank值以增加排名。
由于網(wǎng)頁(yè)快照是存儲(chǔ)在搜索引擎服務(wù)器中,所以查看網(wǎng)頁(yè)快照的速度比直接訪問(wèn)網(wǎng)頁(yè)要快。網(wǎng)頁(yè)快照中,搜索的關(guān)鍵詞用鮮艷的亮色顯示,用戶(hù)可以點(diǎn)擊呈現(xiàn)亮色的關(guān)鍵詞直接找到關(guān)鍵詞的位置,以便于快速找到有效信息,提高搜索效率。使用基于自然語(yǔ)言檢索的網(wǎng)頁(yè)快照技術(shù)有以下特點(diǎn):
(1)優(yōu)點(diǎn)
1)網(wǎng)頁(yè)快照技術(shù)已經(jīng)得到谷歌,百度,必應(yīng)等主流搜索引擎的支持,并且都支持自然語(yǔ)言檢索,并且使用效果極其優(yōu)秀。
2)超鏈技術(shù)是每一個(gè)網(wǎng)頁(yè)必備的基礎(chǔ),所以與網(wǎng)頁(yè)快照結(jié)合十分高效,敏捷。
3)用戶(hù)只需將鼠標(biāo)移至該圖標(biāo)(或者直接放在網(wǎng)頁(yè)的超鏈上)。
并稍做停留,就會(huì)該出現(xiàn)網(wǎng)站的基于網(wǎng)頁(yè)快照優(yōu)化后的超鏈文本,它能使用戶(hù)在進(jìn)入最終網(wǎng)頁(yè)之前能夠預(yù)覽到即將點(diǎn)進(jìn)的搜索結(jié)果.從而給出準(zhǔn)確的相關(guān)判斷,節(jié)省用戶(hù)搜索時(shí)間。
4)可以避免點(diǎn)擊進(jìn)入無(wú)關(guān)網(wǎng)頁(yè)所浪費(fèi)的時(shí)間,流量。
5)可以避免大量的廣告,網(wǎng)頁(yè)快照技術(shù),只有關(guān)鍵的文本信息,不會(huì)顯示任何無(wú)關(guān)信息
6)可以根據(jù)點(diǎn)擊率和網(wǎng)頁(yè)停留時(shí)間對(duì)網(wǎng)站進(jìn)一步對(duì)搜索引擎排序算法進(jìn)行優(yōu)化
(2)缺點(diǎn)
目前,自然語(yǔ)言檢索比起傳統(tǒng)的檢索方式需要更多的資源和優(yōu)化,這個(gè)技術(shù)更像是一個(gè)專(zhuān)利,將它授權(quán)給搜索引擎公司會(huì)產(chǎn)生更高的價(jià)值,而且會(huì)損害到網(wǎng)站的流量和廣告收入,不過(guò)用戶(hù)體驗(yàn)會(huì)有極大的改善。
[1]黃敏.自然語(yǔ)言處理與信息檢索[J].圖書(shū)情報(bào)工作,2001,04:41-44+65.
李俊頡(1996—),男,大學(xué)本科,現(xiàn)就讀于海南大學(xué)信息科學(xué)技術(shù)學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)專(zhuān)業(yè)。