• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    搜索引擎檢索結果網頁組織技術與優(yōu)化策略研究

    2016-02-13 23:30:21昊,曾
    關鍵詞:搜索引擎網頁檢索

    徐 昊,曾 馳

    (信陽職業(yè)技術學院數(shù)學與計算機科學學院,河南 信陽 464000)

    搜索引擎檢索結果網頁組織技術與優(yōu)化策略研究

    徐 昊,曾 馳

    (信陽職業(yè)技術學院數(shù)學與計算機科學學院,河南 信陽 464000)

    隨著信息技術的不斷發(fā)展,互聯(lián)網已經成為人們生活當中的重要組成部分。人們在需要尋找各種信息時,只需要打開網頁,在搜索引擎當中輸入相關的關鍵詞就能進行相關信息的搜集,在較短的時間內搜索到自己所需要的信息。大部分人都廣泛地使用搜索引擎這種工具,但是大部分人對搜索引擎檢索結果的組織原理并不是十分清晰,無法有效選擇自己所需要尋找的答案。在本文當中,筆者針對現(xiàn)階段的搜索引擎技術進行了分析,并分析了其中的不足,同時還對搜索引擎的組織技術進行了優(yōu)化,最后總結了如何提供搜索引擎搜索排名的相關策略。

    搜索引擎;檢索結果;網頁組織技術;優(yōu)化策略

    我國自20世紀90年代開始,信息技術開始高速發(fā)展,同時在最近幾年當中,隨著移動互聯(lián)技術以及無線通信技術的不斷發(fā)展,網絡信息資源已經成為人們最重要的信息資源。大部分的人都采用搜索引擎搜索自己所需要的信息,但是從現(xiàn)階段的搜索引擎的具體技術方面來看,在對信息資源的分類方面還存在著較大的問題,其組織還不夠完善,信息產品存在著較大的不合理之處。具體看來,主要存在于信息搜索的精準度存在著一定的問題,智能化程度較低,從而導致搜索引擎在信息的組織方面存在著一定的問題。

    因此,如何提高用戶在網絡當中信息搜索的精準度,已經成為現(xiàn)階段網絡搜索技術的重要研究內容。筆者通過查閱大量的文獻,發(fā)現(xiàn)現(xiàn)階段如果要提高用戶信息搜索的效率,首先必須要開發(fā)智能型的搜索工具,同時還應該對檢索結果的組織機構進行完善。在本文當中,筆者研究的內容主要集中在后者當中。搜索引擎在進行檢索結果的組織當中往往是以web資源的特征為重要依據,即海量的信息。用戶每進行一次搜索,搜索引擎往往需要檢索約50億個網頁,而返回的結果往往高達幾十萬,而用戶不可能對所有的信息進行一一判斷。因特網上信息的生產目的、內容、過程包羅萬象,這與傳統(tǒng)聯(lián)機檢索系統(tǒng)的信息供應商和數(shù)據庫生產者所提供的專業(yè)、系統(tǒng)、完整的信息源截然不同。

    一、搜索引擎檢索結果的組織技術

    在搜索引擎技術當中,對搜索引擎的搜索效果進行評價的最重要依據就是搜索結果的組織技術。從搜索引擎還沒有真正誕生開始,已經有無數(shù)的專家與學者對搜索引擎的結果組織技術進行了大量的研究。歸納起來,現(xiàn)階段的研究內容主要有以下幾個方面:第一,搜索引擎第一定律,其主要內容是搜索關鍵詞的詞頻以及位置。第二,搜索引擎第二定律,即網頁間的超鏈接分析。第三,Northern Light的智能技術,即通過智能技術進行檢索結果的組織,同時最大程度地貼近用戶的搜索目標。第四,根據網站當中超鏈接的點擊數(shù)量來對網站的重要性進行評價。

    (一)搜索引擎第一定律

    在搜索引擎發(fā)展的初始階段,對于信息的搜索是基于全文的,往往通過對信息當中詞頻的統(tǒng)計確定與搜索內容的關聯(lián)性,即用戶如果在搜索引擎當中輸入一個關鍵詞,搜索引擎就會對出現(xiàn)該詞的詞頻較高的文章進行檢索,同時對其重要性進行判斷,在此基礎之上對該關鍵詞平時的使用程度進行加權處理,最后再根據計算的結果將相關的信息排列組合起來。相關性則是指搜索關鍵詞與搜索結果當中網站的匹配程度,搜索引擎在進行關聯(lián)度判斷時采用的方法是“匹配—位置—頻次”原則,即網站當中所出現(xiàn)的詞語與用戶所輸入的關鍵詞的相似度越高,出現(xiàn)的概率越大,則其關聯(lián)度就越大,從而使得其在搜索結果當中所出現(xiàn)的位置也就越靠前。

    (二)搜索引擎第二定律

    在搜索引擎的發(fā)展歷史當中,人氣質量定律是較為重要的一種定律,也即搜索引擎第二定律,也就是超鏈接分析技術。超鏈接分析技術的原理是科學文件的索引機制,也就是說誰的文章被引用的次數(shù)越多,誰的文章的價值也就越大,這篇文章就是一篇好的文章。這種原理被運用在搜索引擎當中也就是說,一個網站如果被鏈接的次數(shù)越多,其人氣就越旺,價值也就越高。對鏈接的文字進行分析,就可以對搜索結果進行排名。搜索引擎第二定律就是在這樣的背景之下誕生的,根據搜索引擎第二定律的相關內容,關聯(lián)性也不僅僅是與詞頻有關的,超鏈接分析對關聯(lián)性也具有較大的影響。所謂超鏈分析, 是指當從網頁A鏈接到網頁B時, 則認為“網頁A投了網頁B一票”。此種技術就是根據網頁的得票數(shù)來評定其重要性的。

    (三)Northern Light的智能技術

    Northern Light創(chuàng)造性地將定向文件夾搜索技術運用到搜索引擎當中,對搜索結果進行分類。在Northern Light的智能技術當中,其結果頁面被分為兩個不同的部分,在頁面的右邊列出了不同的搜索結果,而左邊則是Custom Search Folders。同時,所有的檢索結果也被分為幾個不同的類別,在分類的過程當中,主要是依據不同的主題、信息來源以及語言對其進行分類。用戶如果點擊不同類型的文件夾,則所有的命中結果都會在右邊的文件夾當中顯示出來。而在左邊所有的下一層的文件夾都會被顯示出來,通過這種逐級搜索的方式,所有的結果必然都會顯示出來。

    二、搜索引擎檢索組織技術所存在的問題,即優(yōu)化對策分析

    (一)搜索引起檢索組織技術所存在的問題分析

    根據搜索引擎第一定律的相關規(guī)定,搜索引擎會對網站當中的字詞與句子進行檢索,并與用戶所輸入的關鍵詞進行對比與分析,從而確定關聯(lián)度。但是互聯(lián)網是一種開放的環(huán)境,在互聯(lián)網當中,所有人都可以自由地發(fā)布許多信息,這種情況往往會導致兩個具有相同詞頻的網頁在質量上卻具有很大的差異,而根據搜索引擎第一定律的相關規(guī)定,這兩個網站在排名上確實較為接近?;诖朔N情況,許多網站為了提升在搜索結果當中的排名,都紛紛為自己的網站添加大量的關鍵詞,但是搜索引擎對于此種現(xiàn)象并不能更好地進行分辨,從而導致搜索的質量存在著嚴重的問題。

    而搜索引擎第二定律則存在著下列的不足:第一,完全根據超鏈接分析尚不能從更深的層次上計算網頁的權重。根據最新的數(shù)據統(tǒng)計資料顯示,現(xiàn)階段我國大部分知名網站的主頁、技術文件和部分著作的目錄網頁都具有極高的人氣,但是還存在著大量的普通網頁并不具有較高的人氣。筆者進行進一步的研究發(fā)現(xiàn),載有大量文章的許多網站并沒有在外部被超鏈接所連接,而在網站的內部往往也僅僅存在一個超鏈接。這就必然導致如果僅僅根據超鏈接對網頁計算權重是不合理的,必須要采用一定的措施對網頁的附加權重進行分析。第二,許多網頁為了提高網站的點擊率,往往會在較為敏感的部位添加許多與網頁內容完全沒有任何關聯(lián)的詞語,從而使得人們在搜索的過程當中使自己的網頁會被搜索出來,并被用戶所點擊。但是,大部分的搜索引擎對此種現(xiàn)象并不能很好地識別出來。一般情況下,搜索引擎所提供的搜索結果都達到數(shù)十頁,從而給用戶帶來了較大的負擔,因此,搜索引擎需要對自己的搜索結果進行細分,將部分結果隔離開來。

    在點擊率方法上也存在著一定的不足,在同一關鍵詞的檢索過程結果當中,一個網頁的URL如果被點擊的次數(shù)越多,則搜索引擎判定該網頁的重要性越大。但是在實際的網絡當中,由于存在著許多文不對題的現(xiàn)象,從而導致這種判斷并不能完全反應出網絡P的重要性。

    (二)搜索引擎組織技術的優(yōu)化處理

    在上文當中,筆者論述了搜索引擎組織技術所存在的問題。基于此種情況,筆者進行了大量的研究之后提出了一種關于網頁級別的評價與優(yōu)化模型:

    W(IRC)=f[PR,R(P),C(P)]

    在上式當中,W是指經過加權計算之后網站P的等級。而通過超鏈接分析所得出的網站P的等級則如下所示:

    PR=(1-d)+d(PR(T1)/C(T1)+…+PR(Tn)/C(Tn))在上式當中,網頁的重要性判定是通過對網頁當中超鏈接的點擊率為基本依據。同時,對上面兩個公式進行分析之后我們發(fā)現(xiàn),在該模型當中,網頁的重要性與相關性是由其所包含的關鍵詞詞頻、位置、外向鏈接的數(shù)量、用戶對該網頁的超文本鏈的點擊率綜合決定的。

    三、搜索引擎檢索結果排名優(yōu)化策略總結

    (一)對網站的關鍵詞進行優(yōu)化

    通過上文的論述我們可以發(fā)現(xiàn),現(xiàn)階段大部分的搜索引擎在進行搜索結果的排名時都會根據網站的關鍵詞與關鍵詞的密度進行判定,如果用戶所輸入的關鍵詞與網頁的關鍵詞存在著較大的聯(lián)系,則該網站就會被搜索引擎判定為高關聯(lián)度的網站,該網站的等級就越高,在搜索結果當中的排名也就越靠前,因此,在網頁當中應該充分認識到關鍵詞的重要性,對網站的關鍵詞進行合理的利用與布局。即在進行網站關鍵詞的確定時,要充分利用一切可以利用的條件,對關鍵詞進行組織與優(yōu)化,盡量避免采用重復或者疊加的方式增加網站的關鍵詞。同時,關鍵詞的排列盡量符合語法特點,能夠形成較為通暢的語句,從而增加網站的吸引力。而從頁面角度進行分析,我們可以將關鍵字分布在網頁標題元、網頁描述關鍵字元、正文標題、正文內容、文本鏈接、ALT標識當中。

    (二)網站內部鏈接的優(yōu)化

    根據超鏈接分析的相關內容,如果網站當中的內部網頁被搜索引擎收錄了,則該網站就會被計一分;如果網站存在著許多內部網站被搜索引擎所收錄的話,則該網站的分值就必然更高。基于此種情況,如果我們希望網站獲得更高的分值,從而使得在搜索結果的排列當中具有更靠前的排名,我們需要對網站的內容進行進一步的完善,同時創(chuàng)建大量的內部網頁,并逐步提高內部網頁的豐富程度,并盡量使得內部網頁可以被搜索引擎所收錄。

    (三)友情鏈接的優(yōu)化

    搜索引擎在對網站的超鏈接分析時,如果網站具有較多的連接入口,但是在網站內部卻并沒有超鏈接導向其他網站,搜索引擎也會將這種網站判定為沒有價值。因此,我們可以在網頁當中添加必要的超鏈接,為用戶提供更具有指導意義的其他網站,同時也可以提高自己在搜索結果當中的排名。

    (四)增加網站的相關性

    首先,在網頁的標題當中加入關鍵詞,并進行加粗處理,這對提高網站與搜索關鍵詞之間的相關性具有非常重要的意義;其次,我們還可以對網頁的超鏈接當中的關鍵詞進行加粗處理,從而使得相關性得分進一步加大。

    當前階段,由于網絡當中存在著海量般的資源,搜索引擎雖然能夠幫助用戶獲得一定的信息,但是在精準度方面也存在著一定的問題。同時,用戶檢索的關鍵詞與網頁之間的相關性也受到多種因素的影響,從而使得搜索引擎檢索結果的組織技術具有較高的復雜性。因此,對網頁的重要性與相關性進行分析具有非常重要的意義。在本文當中,筆者首先分析了現(xiàn)階段搜索引擎檢索結果組織技術所存在的問題,并進一步總結了優(yōu)化策略,希望能對我國的搜索引擎技術的發(fā)展有所幫助。

    [1]陳濤,林杰.基于搜索引擎關注度的網絡輿情時空演化比較分析——以谷歌趨勢和百度指數(shù)比較為例[J].情報雜志,2013(3):7-10,16.

    [2]付志超.基于Map/Reduce的分布式智能搜索引擎框架研究[D].武漢理工大學,2008.

    [3]李貴林,楊禹琪,高星,廖明宏.企業(yè)搜索引擎?zhèn)€性化表示與結果排序算法研究[J].計算機研究與發(fā)展,2014(1): 206-214.

    [4]張衛(wèi)豐,徐寶文,周曉宇,許蕾,李東.元搜索引擎結果生成技術研究[J].小型微型計算機系統(tǒng),2003(1):34-37.

    [5]楊丹波.應用Web數(shù)據挖掘的主題元搜索引擎設計與實現(xiàn)[D].清華大學,2009.

    [6]王曉丹,胡喬遷.信息檢索中元搜索引擎結果選擇策略[J].哈爾濱商業(yè)大學學報(自然科學版),2008(4):467-470.

    [8]李紅梅,丁振國,周水生,周利華.元搜索引擎結果合成算法[J].北京郵電大學學報,2008(5):78-81.

    [9]張輝,謝科,龐斌,吳輝.一種基于關鍵特征的搜索引擎結果聚類算法[J].北京航空航天大學學報,2007(6):739-742.

    [10]種梅,劉方愛.元搜索引擎中的成員選擇和結果合并策略研究[J].計算機工程與設計,2007(21):5125-5127.

    [11]張儉恭.擴展元搜索引擎(EMSE)的系統(tǒng)設計[D].中國科學院研究生院(文獻情報中心),2002.

    [12]張立彬,翟清劍,劉才華,何杉.山寨搜索引擎的技術特點及其發(fā)展趨向研究[J].情報科學,2010(3):470-476.

    TP

    A

    1673-0046(2016)12-0173-03

    猜你喜歡
    搜索引擎網頁檢索
    2019年第4-6期便捷檢索目錄
    基于CSS的網頁導航欄的設計
    電子制作(2018年10期)2018-08-04 03:24:38
    基于URL和網頁類型的網頁信息采集研究
    電子制作(2017年2期)2017-05-17 03:54:56
    專利檢索中“語義”的表現(xiàn)
    專利代理(2016年1期)2016-05-17 06:14:36
    網頁制作在英語教學中的應用
    電子測試(2015年18期)2016-01-14 01:22:58
    網絡搜索引擎亟待規(guī)范
    基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
    10個必知的網頁設計術語
    廣告主與搜索引擎的雙向博弈分析
    國際標準檢索
    蒲城县| 朝阳县| 河北省| 庆阳市| 浪卡子县| 明星| 乐亭县| 克拉玛依市| 太湖县| 清水河县| 德州市| 望都县| 沐川县| 泸水县| 乌苏市| 哈巴河县| 宁河县| 五华县| 织金县| 永川市| 衡阳市| 黄陵县| 霍州市| 栾城县| 封丘县| 佛山市| 泌阳县| 枣阳市| 惠东县| 张家界市| 曲阜市| 张家港市| 太谷县| 来宾市| 高密市| 湟源县| 临朐县| 襄城县| 垣曲县| 淄博市| 峨眉山市|