• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      搜索引擎的文本聚類研究

      2014-06-18 21:38:37王佳樂
      商業(yè)經(jīng)濟(jì) 2014年3期
      關(guān)鍵詞:搜索引擎展望

      王佳樂

      [摘 要] 近年來,隨著信息技術(shù)的發(fā)展,越來越多的學(xué)者開始關(guān)注搜索引擎聚類。國內(nèi)研究相比國外較晚,還處于發(fā)展的初級階段,存在著數(shù)據(jù)庫依附性過強(qiáng)、搜索速度緩慢、用戶的個性化服務(wù)需要提升等問題。有關(guān)網(wǎng)站可建立自己獨立的數(shù)據(jù)庫或與專業(yè)搜索引擎公司合作,建立專有數(shù)據(jù)庫或?qū)ag標(biāo)簽應(yīng)用到網(wǎng)頁中,以加快搜索引擎聚類的速度并滿足不同用戶的需要,以促進(jìn)搜索引擎聚類在搜索引擎中可持續(xù)健康快速發(fā)展。

      [關(guān)鍵詞] 搜索引擎;文本聚類;發(fā)展局限;展望

      [中圖分類號] F27.4 [文獻(xiàn)標(biāo)識碼] B

      一、前言

      2013年7月發(fā)布的CNNIC第32次互聯(lián)網(wǎng)報告顯示,截止2013年6月止,我國網(wǎng)民規(guī)模達(dá)5.91億,半年共計新增網(wǎng)民2656萬人?;ヂ?lián)網(wǎng)普及率為44.1%,較2012年底提升了2.0個百分點。從2009年到2013年,互聯(lián)網(wǎng)普及率逐年上升,從28.9%上升到44.1%。計算機(jī)的普及,使人們越來越依賴于詢問互聯(lián)網(wǎng)。面對浩瀚的信息海洋,如何獲得用戶真正有用的信息,成為了一個炙手可熱的話題。從最早的門戶網(wǎng)站方式到現(xiàn)在的谷歌、百度全文本搜索,對待信息的獲取方式已經(jīng)有了很大的改變。然而,隨著互聯(lián)網(wǎng)越來越普及,網(wǎng)絡(luò)中存儲的信息,出現(xiàn)很多冗雜信息,僅僅依靠傳統(tǒng)的搜索方式,并不能滿足用戶的需要。從2000年開始,以Vivisimo為代表,越來越多的學(xué)者開始注意到,聚類能更準(zhǔn)確的定位搜索結(jié)果。

      二、聚類

      聚類是指將抽象或物理對象組成集合,將集合中類似對象組成多個類的過程。由聚類所生成的簇可以看做是一組數(shù)據(jù)對象的集合,這些對象與同一個簇中的其他對象彼此相似,而與其他簇中的對象不同。聚類分析又被叫做群分析,是針對分類問題的一種統(tǒng)計分析方法。由一個度量的向量或多維空間中的一個點構(gòu)成模式,再由多個模式構(gòu)成聚類分析。聚類分析可以追溯于分類學(xué),不過聚類并不是單純的分類。聚類與分類最大的的不同之處是,劃分為聚類的類是未知的。

      聚類作為一種有效的分類方法,可以從龐大的消費(fèi)者數(shù)據(jù)庫區(qū)分屬性、目標(biāo)不同的消費(fèi)群體,再概括出這些消費(fèi)群體的消費(fèi)模式也就是普通意義上的習(xí)慣。它作為數(shù)據(jù)挖掘中的一個模塊,可以作為一個單獨的工具以發(fā)現(xiàn)數(shù)據(jù)庫中分布的一些深層的信息,并且概括出每一類的特點,或者把注意力放在某一個特定的類上以作進(jìn)一步的分析;并且,在數(shù)據(jù)挖掘算法時,聚類算法可以作為對數(shù)據(jù)進(jìn)行預(yù)處理,再用其他分析算法處理。聚類分析的算法可以分為層次法(Hierarchical Methods)、基于網(wǎng)格的方法(grid-based methods)、基于密度的方法(density-basedmethods)、劃分法(Partitioning Methods)、基于模型的方法(Model-Based Methods)。

      三、搜索引擎聚類國內(nèi)外發(fā)展進(jìn)程

      國外對于搜索引擎聚類方面的研究最早發(fā)生在1996年,HearstMA,PedersenJO學(xué)者研究開發(fā)的Scatter/Gather系統(tǒng)是世界上第一個將聚類引入搜索引擎的系統(tǒng)。2000年開發(fā)的Vivisimo元搜索引擎系統(tǒng),采用自主開發(fā)的啟發(fā)式算法來集合并聚類原文文獻(xiàn)。這種算法吸收了傳統(tǒng)人工智能思想,對檢索結(jié)果進(jìn)行更好描述和聚類。它的文獻(xiàn)聚類技術(shù)首先將文本內(nèi)容自動分類,劃分為等級式排列的目錄之后進(jìn)行聚類。作為一種完全自動化的聚類技術(shù),不需要人為干擾收集數(shù)據(jù),也不需要進(jìn)行數(shù)據(jù)維護(hù)。SnakeT在前者研究的基礎(chǔ)上,開發(fā)了能完整將搜索引擎聚類化的系統(tǒng),并且可以向用戶展示帶有明確標(biāo)簽的層次型結(jié)構(gòu)。Grouper是利用后綴樹聚類(STC,Suffix Tree Clustering)算法專門針對文檔摘要進(jìn)行聚類的搜索引擎系統(tǒng)。SHoc是首個面向文本信息進(jìn)行聚類功的搜索引擎。Sergio系統(tǒng)應(yīng)用改進(jìn)過的k均值算法對兩個搜索引擎結(jié)果進(jìn)行聚類處理。在新聞處理方面,Nesrec系統(tǒng)提取Altzvista新聞的新聞?wù)虝r間內(nèi)進(jìn)行層次聚類,并使之成為擁有良好可讀性的類標(biāo)簽。而Newsblaster系統(tǒng)針對每天的新聞進(jìn)行聚類處理,文本生成等處理之后,產(chǎn)生摘要文檔。WhatsonWeb是應(yīng)用拓谷驅(qū)動和圖像聚類算法來構(gòu)建搜索引擎聚類系統(tǒng),具有良好的可視化效果,同時支持處理無效標(biāo)簽。

      國內(nèi)的研究要相對較晚,最早開始于20005年,但是隨著科技發(fā)展,取得了很不錯的優(yōu)秀成果。2005年的PinkySearch利用后綴樹算法和相同詞聚類對多個搜索引擎的結(jié)果進(jìn)行聚類處理,最后獲得搜索結(jié)果。在2007年成立的國內(nèi)首家搜索引擎聚類公司比比貓(Bbmao),采用先進(jìn)的聚類和去重技術(shù),不僅帶給用戶快捷、智能的體驗經(jīng)歷,還引領(lǐng)創(chuàng)新了聚類技術(shù)。國內(nèi)高水準(zhǔn)的數(shù)據(jù)挖掘研究所論壇上,提出了web挖掘算法、分類聚類,應(yīng)用方案等聚類應(yīng)用技術(shù)。

      四、搜索引擎聚類分析

      搜索引擎形式從最早的目錄式搜索到基于Robot搜索引擎,再到現(xiàn)在的聚類搜索引擎,其對象不僅僅是對資源進(jìn)行搜索,也開始關(guān)注用戶體驗,如何使用戶能更為便捷的找到自己所需內(nèi)容。搜索引擎聚類發(fā)展已有十余年,通過對國內(nèi)外相對比較成熟的聚類搜索引擎作為研究對象,從劃分類型、基本功能、聚類算法角度分析。

      1.劃分類型分析

      根據(jù)分類標(biāo)準(zhǔn)不同,搜索引擎聚類劃分的種類也不同。根據(jù)提供的服務(wù)劃分成社區(qū)型(比如貝殼網(wǎng))和搜索型(如第易搜)。按照信息的來源即是否擁有獨立的數(shù)據(jù)庫,聚類搜索引擎能劃分為寄生型(Vivisimo)和原生型(如CNKI搜索)。按照搜索引擎來源的數(shù)目,聚類搜索引擎可以劃分為單一型來源搜索引擎(如TouchGraph)和多來源搜索引擎,即元搜索引擎(如Bbmao)。

      2.基本功能分析

      在對國內(nèi)外具有代表性的搜索引擎聚類分析后,發(fā)現(xiàn)其搜索對象不僅僅為網(wǎng)頁,更延伸到網(wǎng)頁、新聞、目錄、摘要、博客,可應(yīng)用于商業(yè)、政府工作、新聞搜集等多種多樣。另外,在提供個性化搜索的同時,用戶還可根據(jù)自己的喜好,在游戲、旅游、博客等大類下選擇的信息源,在右側(cè)會自動呈現(xiàn)圖片、新聞、購物等搜索結(jié)果。

      3.聚類算法角度分析

      目前的網(wǎng)頁聚類算法根據(jù)其針對的方向分為3種,即基于鏈接分析、基于網(wǎng)頁內(nèi)容、基于用戶搜索日志的聚類算法。

      基于鏈接分析的聚類和傳統(tǒng)的搜索引擎搜索有一定相似之處,對任一網(wǎng)頁,必有本網(wǎng)頁指向其他網(wǎng)頁的鏈接和其他網(wǎng)頁指向本網(wǎng)頁的鏈接。若這些其他網(wǎng)頁都包含有同一個網(wǎng)頁的鏈接,則被認(rèn)為同音關(guān)系,具有相似性,進(jìn)而依次聚類?;诰W(wǎng)頁內(nèi)容的聚類即是對網(wǎng)頁的內(nèi)容直接聚類,傳統(tǒng)的聚類算法是對網(wǎng)頁內(nèi)容去標(biāo)點、化復(fù)數(shù)形式為單數(shù)、去掉前后綴。然而這些方法是針對單個文字的聚類,并沒有考慮詞間含義,也不能真實的反映網(wǎng)頁內(nèi)容。于是出現(xiàn)了STC算法即后綴樹算法,通過將網(wǎng)頁進(jìn)行處理,得到詞組,再依賴于后綴樹,辨別擁有相同詞義的詞組,將他們作為基本類,合并形成高層次的類,進(jìn)行高效的聚類。隨著搜索引擎的發(fā)展,研發(fā)者開始考慮到對用戶行為分析,構(gòu)建用戶模型,出現(xiàn)了基于用戶搜索日志的聚類算法。通過用戶對搜索結(jié)果網(wǎng)頁進(jìn)行聚類。

      上述三種聚類算法各有優(yōu)缺點,基于用戶搜索日志的算法注重用戶體驗,基于網(wǎng)絡(luò)內(nèi)容的算法注重搜索對象,而基于鏈接分析的聚類注重相似網(wǎng)頁之間的鏈接。在以后聚類搜索引擎發(fā)展中,這三種方法將會結(jié)合使用。

      五、發(fā)展局限及展望

      國外的搜索引擎聚類最早開始于1996年,而國內(nèi)的發(fā)展相對較晚。然而由于還處于發(fā)展的初始階段,還存在一定的局限性。中國第一家元搜索聚類引擎公司是2007年的比比貓(Bbmao)公司,可以直接搜尋文檔,搜索結(jié)果匯集各大搜索引擎結(jié)果,具有強(qiáng)大網(wǎng)絡(luò)收藏夾等多元功能。然而由于局限性,只存在了較短的時間。必須綜合考慮搜索引擎聚類的問題,才可能使之長遠(yuǎn)發(fā)展。

      1.數(shù)據(jù)庫依附性過強(qiáng)

      目前的搜索引擎的聚類技術(shù)多是將已有的搜索引擎檢索出的結(jié)果進(jìn)行聚類分析,得到更準(zhǔn)確的結(jié)果,呈現(xiàn)給用戶。其存在形式多為衍生性搜索引擎,這就意味著需鏈接已有搜索引擎的數(shù)據(jù)庫,然而搜索引擎本就是依靠搜索結(jié)果獲得收入。對于第三方間接使用其搜索結(jié)果,原搜索引擎必然會采取限制,這也就造成數(shù)據(jù)的無法獲得。國內(nèi)成立的比比貓公司就是由于依附性太強(qiáng),最后導(dǎo)致無法繼續(xù)生存下去。建立自己獨立的數(shù)據(jù)庫不失為一個好的解決辦法,然而由于獨立數(shù)據(jù)庫所需強(qiáng)大的技術(shù)支持,還可以與專業(yè)搜索引擎公司合作。

      2.搜索速度緩慢

      由于當(dāng)前搜索引擎的聚類技術(shù)對搜索結(jié)果進(jìn)行聚類,實質(zhì)上也就是進(jìn)行二次加工、聚類、排序,最后呈現(xiàn)搜索結(jié)果。勢必影響其搜索速度。值得探討的是直接建立轉(zhuǎn)有數(shù)據(jù)庫,是可以解決的方法之一;此外隨著技術(shù)發(fā)展,越來越多的Tag標(biāo)簽應(yīng)用到網(wǎng)頁中,這也對準(zhǔn)確了解網(wǎng)頁內(nèi)容、屬性產(chǎn)生裨益,從而加速搜索引擎聚類的速度。

      3.用戶的個性化服務(wù)還需提升

      搜索引擎的最終結(jié)果是為了使用戶使用,即服務(wù)于用戶。目前搜索引聚類還不夠成熟,如何使搜索結(jié)果更加滿足用戶的個性化需要還有很大的研究空間。記錄用戶的搜索歷史,在聚類時,返回符合用戶個性的聚類。將聚類和用戶行為結(jié)合起來,完美的實現(xiàn)聚類結(jié)果的個性化服務(wù),滿足用戶需要。

      總之,雖然針對搜索引擎的聚類分析還存在一定問題,可是基于聚類能更加精確、準(zhǔn)確的提供搜索結(jié)果,能更好的反映用戶需求,隨著科技的發(fā)展,問題終將得到解決,搜索引擎聚類也勢必是搜索引擎的大勢所趨。

      [參 考 文 獻(xiàn)]

      [1]第32次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告[R].北京:中國互聯(lián)網(wǎng)絡(luò)信息中心,2013

      [2]Liu W, Xue G R, Huang Set al. Interactive Chinese Search Results Clustering for Personalization. Lecture Notes in Computer Science. 2005, 3739:676-681

      [3]靖培棟,田亮.聚類在搜索引擎中的應(yīng)用[J].信息系統(tǒng),2006(4):493-496

      [4]韓建福.文檔聚類在搜索引擎結(jié)果中的應(yīng)用研究[D].北京交通大學(xué)碩士論文,2006

      [責(zé)任編輯:劉玉梅]

      猜你喜歡
      搜索引擎展望
      我國環(huán)境會計研究回顧與展望
      移動機(jī)器人導(dǎo)航技術(shù)現(xiàn)狀與展望
      國內(nèi)外森林生物量碳儲量估測現(xiàn)狀存在問題及展望
      園林綠化植物應(yīng)用現(xiàn)狀與展望
      國內(nèi)延續(xù)性護(hù)理現(xiàn)狀及展望
      考試周刊(2016年77期)2016-10-09 12:37:53
      網(wǎng)絡(luò)搜索引擎亟待規(guī)范
      Nutch搜索引擎在網(wǎng)絡(luò)輿情管控中的應(yīng)用
      基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
      廣告主與搜索引擎的雙向博弈分析
      “展望” ——阿倫德
      临西县| 巴林左旗| 枣阳市| 黄浦区| 会同县| 竹溪县| 临城县| 阳西县| 土默特右旗| 石台县| 宜宾市| 綦江县| 固始县| 麦盖提县| 唐山市| 吴桥县| 应城市| 衡南县| 平塘县| 卢龙县| 万载县| 高雄县| 手游| 四会市| 射阳县| 景宁| 郧西县| 奇台县| 岳西县| 道孚县| 信宜市| 高州市| 大荔县| 普洱| 乡城县| 阿合奇县| 乌什县| 景德镇市| 当涂县| 文山县| 中卫市|