• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    面向藏文檢索結(jié)果的聚類研究

    2014-12-31 00:00:00蔚承剛韓爭艷戴玉剛
    數(shù)字化用戶 2014年21期

    【摘 要】隨著信息的迅猛發(fā)展,針對(duì)檢索系統(tǒng)的改進(jìn)已逐漸成為研究的熱點(diǎn)。通過對(duì)檢索結(jié)果的進(jìn)一步處理已成為研究的熱點(diǎn)領(lǐng)域。采取聚類算法的研究是一種有效的改進(jìn)策略,通過對(duì)檢索結(jié)果進(jìn)行聚類,將檢索結(jié)果進(jìn)行分類,這方便用戶快速找到自己所需信息。本文是將傳統(tǒng)的聚類算法運(yùn)用到信息檢索系統(tǒng)中,對(duì)檢索得到的結(jié)果進(jìn)行聚類,達(dá)到對(duì)結(jié)果分類區(qū)分。

    【關(guān)鍵詞】信息檢索;藏文;聚類

    一、引言

    隨著IT技術(shù)的發(fā)展,我們處于一個(gè)信息爆炸的時(shí)代。目前人們對(duì)信息索取的需要也變得越來越嚴(yán)格,如何從海量數(shù)據(jù)中高效、準(zhǔn)確地獲得自己所需的信息,是目前國內(nèi)外專家學(xué)者亟需研究的熱點(diǎn)。信息檢索是指從信息資源的集合中查找所需文獻(xiàn)或查找所需文獻(xiàn)中包含的信息內(nèi)容的過程。藏文信息檢索技術(shù)對(duì)于促進(jìn)藏文信息處理技術(shù)的發(fā)展及廣大藏語區(qū)的信息化程度的發(fā)展意義重大。藏文信息檢索技術(shù)近年來在各個(gè)方面也取得了一些進(jìn)展,目前已完成了基本的搜索功能,包括分詞、去停用詞、編碼轉(zhuǎn)換、建立索引、以及查詢等關(guān)鍵技術(shù)[1]。為使用戶能夠從大量的檢索信息中快速地找到自己感興趣的內(nèi)容,可以將聚類技術(shù)應(yīng)用于搜索引擎中,通過對(duì)檢索返回的信息進(jìn)行聚類,可以使用戶快速地定位到自己感興趣的信息所在的類別,方便用戶的查詢。

    二、藏文檢索關(guān)鍵技術(shù)

    藏文信息處理中的非常重要的工作就是藏文分詞,目前很多專家對(duì)藏文分詞作了研究并開發(fā)了相關(guān)分詞系統(tǒng),如何切分緊緊相連的字符又能最大程度保持原意,目前對(duì)于藏文的切分主要是BCCF(基于格助詞和接續(xù)特征的分詞)法[2]。

    Lucene是一個(gè)用Java寫的全文檢索引擎工具包,可以方便地嵌入到實(shí)現(xiàn)針對(duì)應(yīng)用的全文索引檢索功能。源碼中核心類包主要有3個(gè): analysis、index、search。其中, analysis主要用于切分詞,切分詞的工作由Analyzer的擴(kuò)展類來實(shí)現(xiàn)。由于Lucene默認(rèn)不支持藏文分詞,因此需要擴(kuò)展接口以實(shí)現(xiàn)藏文分詞。利用擴(kuò)展藏文分詞是實(shí)現(xiàn)基于Lucene的藏文信息檢索的重要一步

    支持藏文分詞以后,基于Lucene的藏文信息檢索以后的工作與漢語中的操作一致,還要對(duì)文檔建立倒排索引表、相似度計(jì)算等。

    三、檢索結(jié)果聚類算法研究

    聚類是在未知數(shù)據(jù)情況下尋找自然分組的過程,可以提高結(jié)果相關(guān)度,增加搜索結(jié)果針對(duì)性。對(duì)本文,聚類是針對(duì)檢索結(jié)果形成不同分類,縮小用戶搜索范圍,只要用戶選定某一話題就可針對(duì)該話題搜索,給用戶一個(gè)選擇范圍彌補(bǔ)搜索的不相關(guān)性。聚類結(jié)果會(huì)以層次.關(guān)系形成導(dǎo)航欄,用戶根據(jù)自己需求來選擇要瀏覽的類別或下面的子類。目前,對(duì)檢索結(jié)果進(jìn)行聚類的算法主要有兩大類。第一類是對(duì)現(xiàn)有的傳統(tǒng)聚類算法進(jìn)行使用或者改進(jìn),以適應(yīng)信息檢索結(jié)果的聚類,現(xiàn)有聚類算法主要以k均值為主;第二類是對(duì)檢索信息的聚類技術(shù)是主題分析方法,首先獲得結(jié)果集包含的多類信息,并抽取相應(yīng)的特征,然后合并相關(guān)文檔以形成一個(gè)類別,此方法描述每個(gè)類別所反映的主題[4]。由于傳統(tǒng)聚類算法實(shí)現(xiàn)起來簡單,本文擬采用傳統(tǒng)的聚類算法對(duì)信息檢索結(jié)果的聚類。

    傳統(tǒng)聚類算法有劃分法、層次法等,目前最常用的是劃分法中的k均值算法,由于此算法具有速度快等優(yōu)點(diǎn),本文擬采用此算法。在檢索的過程中,將所有包括查詢項(xiàng)的文檔進(jìn)行建模,然后執(zhí)行k均值算法對(duì)檢索結(jié)果分類。

    k均值算法的基本過程為:(1) 從 n個(gè)數(shù)據(jù)對(duì)象任意選擇 k 個(gè)對(duì)象作為初始聚類中心;(2) 根據(jù)每個(gè)聚類對(duì)象的均值,計(jì)算每個(gè)對(duì)象與這些中心對(duì)象的距離;并根據(jù)最小距離重新對(duì)相應(yīng)對(duì)象劃分;(3) 重新計(jì)算每個(gè)聚類的均值;(4)計(jì)算標(biāo)準(zhǔn)測度函數(shù),當(dāng)滿足一定條件,如函數(shù)收斂時(shí),則算法終止;如果條件不滿足則回到步驟(2)。

    聚類過程中,對(duì)每個(gè)文檔利用向量空間模型建模,從而將每一個(gè)文檔表示成一個(gè)向量模型,向量上的每一個(gè)值對(duì)應(yīng)的都是一個(gè)詞在某一個(gè)文檔中的文檔頻率-逆文檔頻率值。Tf值,公式如下:

    四、總結(jié)

    本文在基于藏文信息檢索的上對(duì)結(jié)果進(jìn)行聚類,以提高檢索效率,將最終結(jié)果展現(xiàn)為目錄分類形式。由于傳統(tǒng)的聚類算法原理簡單,實(shí)現(xiàn)起來高效快速,故本文選擇了傳統(tǒng)的聚類算法k均值算法進(jìn)行聚類。本文目前的研究還很有限,算法的效率有待提高,或者使用更高效的算法以達(dá)到提高聚類效率以及準(zhǔn)確率的目的。藏文信息檢索技術(shù)將是未來藏文信息化處理的重要方向,具有很大價(jià)值,對(duì)于檢索結(jié)果的聚類研究將是未來的熱點(diǎn)研究領(lǐng)域。

    參考文獻(xiàn):

    [1]蘇譚英,等.一種基于 LUCENE 的中文全文檢索系統(tǒng)[J].計(jì)算機(jī)工程,2007.

    [2]陳玉忠,李保利,俞士汶,等.基于格助詞和接續(xù)特征的藏文自動(dòng)分詞方案[J].語言文字應(yīng)用,2003,1:75-82.

    [3]萬德穩(wěn). 藏文搜索和搜索結(jié)果聚類研究及系統(tǒng)實(shí)現(xiàn)[D].西南交通大學(xué),2013.

    [4]劉銘,劉秉權(quán),劉遠(yuǎn)超. 面向信息檢索的快速聚類算法[J]. 計(jì)算機(jī)研究與發(fā)展,2013,07:1452-1463.

    作者簡介:蔚承剛,男,碩士研究生,研究方向?yàn)榫W(wǎng)絡(luò)與應(yīng)用;韓爭艷,女,碩士研究生,研究方向?yàn)樵朴?jì)算;戴玉剛,男,教授,方向?yàn)樽匀徽Z言處理;

    項(xiàng)目名稱:西北民族大學(xué)中央專項(xiàng)資金資助研究生項(xiàng)目(項(xiàng)目號(hào):ycx14031)

    繁昌县| 商丘市| 肥西县| 友谊县| 雷山县| 新密市| 巴东县| 宁明县| 崇明县| 北辰区| 平定县| 汕头市| 河北省| 调兵山市| 资阳市| 长子县| 库伦旗| 道孚县| 四平市| 太和县| 大城县| 息烽县| 克山县| 辛集市| 常州市| 马关县| 阜阳市| 垣曲县| 玉林市| 尼勒克县| 改则县| 积石山| 土默特右旗| 自贡市| 宜良县| 康乐县| 黑龙江省| 仁怀市| 商南县| 百色市| 孝昌县|