• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于TF—IDF算法的研究與應(yīng)用

      2019-09-10 10:34:26宋琳璇
      炎黃地理 2019年1期
      關(guān)鍵詞:搜索引擎語料庫短語

      宋琳璇

      首先介紹一下TF-IDF算法的官方概念:TF-IDF是一種統(tǒng)計(jì)方法,用來評算估測一個(gè)詞字對于一個(gè)文件集或一個(gè)語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會(huì)隨著它在語料庫中出現(xiàn)的頻率成反比下降。TF-IDF加權(quán)的各種形式常常被用來搜索應(yīng)用,作為文件與用戶的查詢之間的相關(guān)程度的度量或評級(jí)。

      接下來看一下TF-IDF算法的核心使用概念:如果某個(gè)詞或短語在一篇文章中出現(xiàn)的頻率TF高,并且在其他文章中很少出現(xiàn),則認(rèn)為這個(gè)詞或者這個(gè)短語具有很好的類別區(qū)分能力,適合用來進(jìn)行分類。同時(shí),如果一篇文章中出現(xiàn)了我們要查的詞,我們就會(huì)認(rèn)為該文章與我們要查的詞有比較大的相關(guān)性。延續(xù)這種思路,如果一篇文檔中出現(xiàn)要查詢的詞的次數(shù)越多,該文章與要查詢的詞之間的相關(guān)性應(yīng)該越大。

      具體我們應(yīng)該如何使用TF-IDF算法,可以采用如下思路:在TF-IDF算法中,先定義一個(gè)TF(t,d)表示詞語t在文章d中的出現(xiàn)次數(shù)。我們可以通過關(guān)鍵詞密度查詢工具來查詢該詞的TF值,但僅僅考慮詞出現(xiàn)的次數(shù)是不行的,因?yàn)槲覀兺ǔ2樵兊亩际莾蓚€(gè)以上的詞,比如“AA BB”或者“XX YY ZZ”等形式。如果是這種形式的查詢,到底哪個(gè)詞出現(xiàn)的次數(shù)應(yīng)該作為重要性的依據(jù)呢?這就引出了IDF來測量詞的稀缺度,在這里我們定義IDF為IDF(t)= log(N / DF(t))(具體含義下段會(huì)解釋)。

      其中DF(t):該詞(以t為代表)在多少篇文章中出現(xiàn)過。查詢辦法是通過google搜索某一個(gè)詞t,得到的搜索結(jié)果我們可以理解為DF(t)。

      另外,我們定義一個(gè)大寫字母N來表示總文章數(shù)。這個(gè)數(shù)值雖然在我們工作中沒有什么實(shí)際的用處,因?yàn)槲覀儾豢赡苤浪阉饕嫠饕硕嗌傥恼隆5菍τ谒阉饕鎭碚f,N卻是一個(gè)判定詞權(quán)重的數(shù)據(jù)。

      接下來是log:這個(gè)也不是我們工作中需要考慮的數(shù)值。一般來說,log的底數(shù)可以隨便設(shè)定,我們采用+1的方式來抑制多倍夸張情況的出現(xiàn)。

      接下來我們看一段實(shí)例,如何真正的去操作TF-IDF算法:

      TF-IDF值 = TF×IDF(TF乘以IDF)=(1+log tf(t,d))× log(N / DF(t))。以《網(wǎng)站權(quán)重 SEO》和《SEO學(xué)習(xí):什么是網(wǎng)站權(quán)重》這篇文章為例:“網(wǎng)站權(quán)重”TF值為:w=1+log 31(次出現(xiàn))=2.49?!熬W(wǎng)站權(quán)重”IDF值為:log(1萬億(假設(shè)值,08年數(shù)據(jù))/ 23,200,000篇)=4.63?!熬W(wǎng)站權(quán)重”TF-IDF值為:2.49*4.63=11.53?!癝EO”TF值為:w=1+log 34(次出現(xiàn))=2.53,“SEO”IDF值為:(1萬億(假設(shè)值,08年數(shù)據(jù))/ 1,220,000,000篇)=2.91?!癝EO”TF-IDF值為:2.53*2.91=7.36。我們得到了“網(wǎng)站權(quán)重”TF-IDF值11.53和“SEO”TF-IDF值7.36。

      TF-IDF值越大,文章與索引詞越相關(guān);只有當(dāng)“網(wǎng)站權(quán)重”這個(gè)詞權(quán)重高的頁面,才有可能在“網(wǎng)站權(quán)重 SEO”這個(gè)搜索結(jié)果的排名上有比較好的效果。

      猜你喜歡
      搜索引擎語料庫短語
      《語料庫翻譯文體學(xué)》評介
      把課文的優(yōu)美表達(dá)存進(jìn)語料庫
      網(wǎng)絡(luò)搜索引擎亟待規(guī)范
      基于JAVAEE的維吾爾中介語語料庫開發(fā)與實(shí)現(xiàn)
      語言與翻譯(2015年4期)2015-07-18 11:07:45
      基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
      廣告主與搜索引擎的雙向博弈分析
      語料庫語言學(xué)未來發(fā)展趨勢
      搜索,也要“深搜熟濾”
      濮阳县| 沙坪坝区| 房山区| 金山区| 嘉善县| 日照市| 高雄市| 无极县| 广宗县| 铜山县| 肥城市| 安岳县| 长寿区| 石首市| 桑日县| 本溪| 察雅县| 若尔盖县| 武鸣县| 武定县| 衡山县| 德庆县| 武清区| 德清县| 阿城市| 苗栗市| 宣威市| 信丰县| 正镶白旗| 古浪县| 怀化市| 始兴县| 新蔡县| 泰宁县| 青铜峡市| 民县| 洮南市| 兴义市| 邢台市| 马山县| 达州市|