• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      淺談基于Web挖掘的個性化搜索引擎技術(shù)

      2018-09-22 02:49:42謝海艇
      發(fā)明與創(chuàng)新 2018年21期
      關(guān)鍵詞:信息檢索搜索引擎日志

      謝海艇

      山東體育學(xué)院 山東 濟(jì)南 250000

      引言

      搜索引擎的基本概念出現(xiàn)于20世紀(jì)70年代,并于20世紀(jì)90年代中期得到快速的發(fā)展。隨著Web信息的迅速增加,搜索引擎市場出現(xiàn)了前所未有的繁榮景象,搜索引擎正向著智能化、個性化等適應(yīng)不同用戶需求的方向發(fā)展。目前,搜索引擎仍然存在很多的局限性,主要表現(xiàn)在以下幾個方面:查詢精度不高且不能根據(jù)用戶興趣返回信息、資料檢索與用戶的交互不夠、查詢結(jié)果排序不合理、不能處理多種格式的文件等。

      一、Web挖掘技術(shù)概述

      Web挖掘[1]是指從異構(gòu)的分布式互聯(lián)網(wǎng)數(shù)據(jù)中收集信息,利用計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)和人工智能技術(shù),不斷地發(fā)現(xiàn)有用的數(shù)據(jù)模型和隱含知識。根據(jù)挖掘?qū)ο蟮牟煌琖eb挖掘可分為Web內(nèi)容挖掘、Web結(jié)構(gòu)挖掘以及Web日志記錄挖掘。

      Web內(nèi)容挖掘是基于Internet中各種網(wǎng)站的數(shù)據(jù)內(nèi)容,以獲得有效的知識驅(qū)動模型,并自動檢索網(wǎng)絡(luò)資源,提高網(wǎng)絡(luò)數(shù)據(jù)的使用。

      Web結(jié)構(gòu)挖掘是研究Web文檔的鏈接結(jié)構(gòu),找到鏈接中隱含的可用模式。其中兩個最著名的算法是PageRank算法和HITS算法。

      Web日志記錄挖掘也稱為Web日志挖掘,以Web服務(wù)器訪問日志為主要數(shù)據(jù),分析用戶的瀏覽行為與頁面之間的結(jié)構(gòu)類型,改進(jìn)站點(diǎn)結(jié)構(gòu),為用戶提供個性化服務(wù)。

      二、基于Web挖掘的用戶個性化數(shù)據(jù)庫

      用戶個性化數(shù)據(jù)庫以用戶的多維信息為基礎(chǔ),不斷深入挖掘用戶的瀏覽行為,并根據(jù)頁面權(quán)重、時間間隔、下載信息等因素不斷更新數(shù)據(jù)庫,幫助用戶查找真實(shí)需求的資源信息[2]。用戶個性化數(shù)據(jù)庫包括信息收集與信息更新。

      1.收集用戶訪問信息

      如何獲取有關(guān)用戶的個性化信息是用戶個性化數(shù)據(jù)庫需要解決的首要問題。用戶個性化數(shù)據(jù)庫的數(shù)據(jù)信息主要來自于用戶提交的信息以及分析用戶的訪問日志。用戶在訪問互聯(lián)網(wǎng)的過程中,提交的查詢關(guān)鍵詞、停留網(wǎng)頁時間、下載狀態(tài)等信息會在Web服務(wù)器上留下記錄,并形成用戶訪問日志。用戶個性化數(shù)據(jù)庫通過不斷分析用戶訪問日志,挖掘用戶的潛在個性化信息。

      2.更新用戶個性化信息

      用戶的個性化需求不是一成不變的,大多數(shù)用戶的個人特征數(shù)據(jù)會隨著時間推移而變化。其主要表現(xiàn)形式有兩方面,一為興趣領(lǐng)域的變化,二為興趣程度的變化。用戶興趣的變化將不可避免地影響用戶個性化數(shù)據(jù)庫的內(nèi)容,這就要求用戶個性化數(shù)據(jù)庫具有自主學(xué)習(xí)的能力,并根據(jù)用戶的興趣變化不斷更新數(shù)據(jù)庫中的相關(guān)特征項(xiàng)。

      本文采用改變權(quán)重的方法更新用戶的個性化特征項(xiàng),公式如下:

      i為用戶訪問網(wǎng)站的參數(shù)。針對不同用戶的訪問行為進(jìn)行定義,如用戶對訪問內(nèi)容進(jìn)行下載、對網(wǎng)頁進(jìn)行全文瀏覽、對部分網(wǎng)頁內(nèi)容進(jìn)行瀏覽、未對網(wǎng)頁進(jìn)行瀏覽等。不同的訪問行為反應(yīng)了用戶對信息的滿意程度,依次為i確定不同的數(shù)值。

      t是時間參數(shù)。用戶通常會長時間瀏覽他們感興趣的頁面,否則瀏覽時間將會變短。

      三、基于Web挖掘的個性化搜索引擎模型

      個性化服務(wù)的目標(biāo)是反映用戶之間的差異,尊重用戶的個性特征并向用戶提供各種信息服務(wù)[3]?;赪eb挖掘的個性化搜索引擎模型主要為用戶提供個性化的信息檢索服務(wù),便于用戶查閱使用。

      本系統(tǒng)主要包括個性化數(shù)據(jù)庫、檢索系統(tǒng)、后臺管理系統(tǒng)。

      個性化數(shù)據(jù)庫主要表示用戶的興趣趨勢,通過不斷挖掘用戶訪問日志,自動更新用戶的個性化特征項(xiàng)。

      檢索系統(tǒng)主要基于用戶查詢關(guān)鍵詞,在檢索信息的同時計(jì)算相應(yīng)頁面的權(quán)重,以此為依據(jù)進(jìn)行排序,并把檢索結(jié)果反饋給用戶。

      后臺管理系統(tǒng)主要加強(qiáng)子系統(tǒng)之間的通信連接,維持系統(tǒng)的穩(wěn)定運(yùn)行。

      四、結(jié)語

      隨著互聯(lián)網(wǎng)信息的急劇增加,搜索引擎技術(shù)在信息檢索中發(fā)揮的作用越來越大。相信隨著科學(xué)技術(shù)的進(jìn)步,網(wǎng)絡(luò)信息檢索技術(shù)的發(fā)展也會越來越快?!?/p>

      猜你喜歡
      信息檢索搜索引擎日志
      一名老黨員的工作日志
      華人時刊(2021年13期)2021-11-27 09:19:02
      扶貧日志
      心聲歌刊(2020年4期)2020-09-07 06:37:14
      游學(xué)日志
      醫(yī)學(xué)期刊編輯中文獻(xiàn)信息檢索的應(yīng)用
      新聞傳播(2016年18期)2016-07-19 10:12:06
      基于神經(jīng)網(wǎng)絡(luò)的個性化信息檢索模型研究
      網(wǎng)絡(luò)搜索引擎亟待規(guī)范
      基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
      廣告主與搜索引擎的雙向博弈分析
      教學(xué)型大學(xué)《信息檢索》公選課的設(shè)計(jì)與實(shí)施
      河南科技(2014年11期)2014-02-27 14:10:19
      一種基于粗集和SVM的Web日志挖掘模型
      锦州市| 涞水县| 屏边| 济南市| 崇仁县| 左贡县| 那曲县| 阿尔山市| 凌云县| 资中县| 萝北县| 北宁市| 青铜峡市| 宁蒗| 吉安县| 交口县| 香港 | 武清区| 宝应县| 桦川县| 三台县| 大田县| 湄潭县| 河曲县| 岳西县| 天台县| 建水县| 寿阳县| 来安县| 漳浦县| 防城港市| 东兰县| 绥阳县| 双峰县| 三门县| 长海县| 蓬安县| 泊头市| 安多县| 枞阳县| 克山县|