• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      數(shù)據(jù)挖掘技術(shù)在Web中的應(yīng)用問(wèn)題探討

      2009-08-04 09:21:08李仕楊
      關(guān)鍵詞:信息服務(wù)數(shù)據(jù)挖掘

      李仕楊

      摘要:隨著數(shù)據(jù)庫(kù)技術(shù)及萬(wàn)維網(wǎng)(WWW)技術(shù)的迅速發(fā)展,大量形式各異的復(fù)雜類(lèi)型數(shù)據(jù)不斷涌現(xiàn)。因此數(shù)據(jù)挖掘面臨重要課題是針對(duì)復(fù)雜類(lèi)型數(shù)據(jù)的挖掘,其中Web數(shù)據(jù)尤為重要。本文通過(guò)分析Web數(shù)據(jù)挖掘的特點(diǎn)及分類(lèi),針對(duì)常用技術(shù)和主要應(yīng)用方向進(jìn)行探討,以其充分發(fā)揮web數(shù)據(jù)挖掘的作用,服務(wù)信息化社會(huì)。

      關(guān)鍵詞:web;數(shù)據(jù)挖掘;信息服務(wù);常用技術(shù)

      1 Web數(shù)據(jù)挖掘的特點(diǎn)

      萬(wàn)維網(wǎng)目前是一個(gè)巨大的、分布廣泛的和全球性的信息服務(wù)中心,它涉及新聞、廣告、消費(fèi)信息、金融管理、教育、政府、電子商務(wù)和許多其他信息服務(wù)。Web還包含了豐富和動(dòng)態(tài)的超鏈接信息,以及Web頁(yè)面的訪問(wèn)和使用信息,這為數(shù)據(jù)挖掘提供了豐富的資源。然而,Web挖掘不僅僅是數(shù)據(jù)挖掘算法在Web數(shù)據(jù)上的應(yīng)用,同傳統(tǒng)的數(shù)據(jù)庫(kù)數(shù)據(jù)相比,Web數(shù)據(jù)具有其特殊性,其特點(diǎn)就是數(shù)據(jù)沒(méi)有嚴(yán)格的結(jié)構(gòu)模式,含有不同格式的數(shù)據(jù)(文本、聲音、圖像等),面向顯示的Html文本無(wú)法區(qū)分?jǐn)?shù)據(jù)類(lèi)型,并且存在大量的冗余和噪聲,同時(shí)Web是一個(gè)動(dòng)態(tài)性極強(qiáng)的信息源,所以面向Web的數(shù)據(jù)挖掘研究極具挑戰(zhàn)性。

      2 Web數(shù)據(jù)挖掘的分類(lèi)

      2.1 web結(jié)構(gòu)挖掘

      Web結(jié)構(gòu)包括不同網(wǎng)頁(yè)之間的超鏈接結(jié)構(gòu)和一個(gè)頁(yè)面內(nèi)部的樹(shù)形結(jié)構(gòu),以及文檔URL中的目錄路徑結(jié)構(gòu)等。Web結(jié)構(gòu)可以用有向圖表示,頁(yè)面對(duì)應(yīng)圖中的點(diǎn),超級(jí)鏈接對(duì)應(yīng)圖中的邊。通過(guò)把Web表示成有向圖,可以得到從一個(gè)站點(diǎn)的主頁(yè)到它任意一個(gè)定點(diǎn)的最短路徑,Robot沿最短路徑瀏覽Web站點(diǎn),就可以以較小的代價(jià)發(fā)現(xiàn)較多的文檔。HITS、PageRank,以及在鏈接結(jié)構(gòu)中增加了Web內(nèi)容信息的HITS改進(jìn)算法等,主要用于模擬Web站點(diǎn)的拓?fù)浣Y(jié)構(gòu),計(jì)算Web頁(yè)面的等級(jí)和Web頁(yè)面之間的關(guān)聯(lián)度,典型的例子是CleverSystem和Google等。

      2.2 Web內(nèi)容挖掘

      Web內(nèi)容挖掘是指從Web上的文件內(nèi)容及其描述信息中獲取潛在的、有價(jià)值的知識(shí)或模式的過(guò)程,它分為Web文本挖掘和Web多媒體挖掘。Web文本挖掘可以對(duì)Web上大量的文檔集合的內(nèi)容進(jìn)行總結(jié)、分類(lèi)、聚類(lèi)、關(guān)聯(lián)分析以及利用Web文檔進(jìn)行趨勢(shì)分析等。Web多媒體挖掘主要是指通過(guò)對(duì)Web上的音頻、視頻數(shù)據(jù)和圖像進(jìn)行預(yù)處理,應(yīng)用挖掘技術(shù)對(duì)其中潛在的、有意義的信息和模式進(jìn)行挖掘的過(guò)程。

      2.3 Web訪問(wèn)挖掘

      對(duì)于一個(gè)網(wǎng)站而言,網(wǎng)頁(yè)瀏覽量、點(diǎn)擊數(shù)、獨(dú)立IP訪問(wèn)數(shù)等參數(shù)是反映這個(gè)網(wǎng)站用戶訪問(wèn)情況的重要指標(biāo),通過(guò)對(duì)網(wǎng)站LOG文件的分析,可以獲得網(wǎng)站訪問(wèn)情況的詳細(xì)統(tǒng)計(jì)數(shù)據(jù)。針對(duì)這些統(tǒng)計(jì)數(shù)據(jù)進(jìn)行的數(shù)據(jù)挖掘,屬于靜態(tài)的Web訪問(wèn)記錄的數(shù)據(jù)挖掘,可以有效地提高網(wǎng)站的服務(wù)。例如:通過(guò)分析訪問(wèn)者的來(lái)源,可以使一個(gè)網(wǎng)站有針對(duì)性地提供內(nèi)容;通過(guò)分析每天各個(gè)時(shí)段訪問(wèn)者人數(shù)的變化,網(wǎng)站可以調(diào)整每天內(nèi)容更新的時(shí)間。

      3 Web數(shù)據(jù)挖掘的常用技術(shù)

      Web數(shù)據(jù)挖掘中常用的技術(shù)有數(shù)據(jù)挖掘領(lǐng)域常用的分類(lèi)聚類(lèi)技術(shù)、關(guān)聯(lián)規(guī)則技術(shù) 序列模式技術(shù)和Web特有的路徑分析技術(shù)等。

      3.1 分類(lèi)聚類(lèi)技術(shù)

      數(shù)據(jù)分類(lèi)技術(shù)可以通過(guò)挖掘數(shù)據(jù)中的某些共同特性從而對(duì)數(shù)據(jù)項(xiàng)進(jìn)行分類(lèi)。在Web數(shù)據(jù)挖掘中,分類(lèi)技術(shù)可以根據(jù)捕獲的Web訪問(wèn)用戶的個(gè)人信息或共同的訪問(wèn)模式得出訪問(wèn)某一服務(wù)器文件的用戶特征。常用的數(shù)據(jù)分類(lèi)技術(shù)有:判定樹(shù)歸納、貝葉斯分類(lèi)和貝葉斯網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)、基于案例的推理、遺傳算法、粗糙集方法和模糊集方法。

      聚類(lèi)是一個(gè)將物理或者抽象對(duì)象的集合分組成由類(lèi)似的對(duì)象組成的多個(gè)類(lèi)或簇的過(guò)程。聚類(lèi)分析技術(shù)能用于對(duì)Web上的文檔進(jìn)行分類(lèi),已發(fā)現(xiàn)信息。聚類(lèi)分析能作為一個(gè)獨(dú)立的工具來(lái)獲得數(shù)據(jù)分布的情況,觀察每個(gè)簇的特點(diǎn),集中對(duì)某些簇做進(jìn)一步的分析。常用的聚類(lèi)算法大體上可以劃分為幾類(lèi):劃分方法、層次方法、基于密度的方法、基于網(wǎng)格的方法和基于模型的方法。

      3.2 關(guān)聯(lián)規(guī)則挖掘技術(shù)

      關(guān)聯(lián)規(guī)則挖掘技術(shù)主要用于從用戶訪問(wèn)序列數(shù)據(jù)庫(kù)的序列項(xiàng)中挖掘出相關(guān)的規(guī)則。在Web挖掘中,關(guān)聯(lián)規(guī)則挖掘就是要挖掘出用戶在一個(gè)訪問(wèn)會(huì)話期間從服務(wù)器上訪問(wèn)的頁(yè)面或文件之間的聯(lián)系,這些頁(yè)面之間可能并不存在直接的引用關(guān)系。最常用的算法是Aprior算法,它從事務(wù)數(shù)據(jù)庫(kù)中挖掘出最大頻繁訪問(wèn)項(xiàng)集,這個(gè)項(xiàng)集就是關(guān)聯(lián)規(guī)則挖掘出來(lái)的用戶訪問(wèn)模式。

      3.3 時(shí)間序列模式挖掘技術(shù)

      時(shí)間序列模式數(shù)據(jù)挖掘就是要挖掘出交易集之間的有時(shí)間序列的模式。在網(wǎng)站服務(wù)器日志里,用戶的訪問(wèn)是以一段時(shí)間為單位記載的。經(jīng)過(guò)數(shù)據(jù)凈化和事件交易確認(rèn)得到一個(gè)間斷的時(shí)間序列,這些序列所反映的用戶行為有助于幫助商家印證其產(chǎn)品所處的生命周期階段。

      3.4 路徑分析技術(shù)

      用路徑分析技術(shù)進(jìn)行Web數(shù)據(jù)挖掘時(shí),最常用的是圖。因?yàn)閃eb可以用一個(gè)有向圖來(lái)表示,G=(V,E),V是頁(yè)面的集合,E是頁(yè)面之間的超鏈接集合。頁(yè)面抽象為圖中的頂點(diǎn),而頁(yè)面之間的超鏈接抽象為圖中的有向邊。頂點(diǎn)V的入邊表示對(duì)V的引用,出邊表示V引用了其它的頁(yè)面。

      4 Web數(shù)據(jù)挖掘的主要應(yīng)用

      4.1 Web數(shù)據(jù)挖掘在電子商務(wù)方面的應(yīng)用

      Web挖掘這方面的應(yīng)用可以為企業(yè)更有效的確認(rèn)目標(biāo)市場(chǎng)、改進(jìn)決策獲得更大的競(jìng)爭(zhēng)優(yōu)勢(shì)提供幫助,從中可得到商家用于特定消費(fèi)群體或個(gè)體進(jìn)行定向營(yíng)銷(xiāo)的決策信息。電子商務(wù)方面的Web挖掘功能主要是如下幾個(gè)方面:首先,客戶分類(lèi)和客戶聚類(lèi)。對(duì)Web的客戶訪問(wèn)信息進(jìn)行挖掘。對(duì)客戶進(jìn)行分類(lèi)分析。應(yīng)用聚類(lèi)分析對(duì)客戶進(jìn)行分組,并且分析組中客戶的共同特征,這樣就可以讓商家更好了解自己的客戶,向客戶提供更有針對(duì)性的服務(wù)。其次是找到潛在的客戶。在對(duì)Web的客戶訪問(wèn)信息的挖掘中,利用分類(lèi)技術(shù)可在因特網(wǎng)上找到未來(lái)的潛在客戶。最后保留客戶的駐留時(shí)間。對(duì)于客戶而言,在網(wǎng)上每個(gè)銷(xiāo)售商對(duì)于客戶來(lái)說(shuō)都是樣的,如何盡量使客戶在自己的網(wǎng)上駐留更長(zhǎng)的時(shí)間,這樣對(duì)于商家才能有更多客戶和更大的利潤(rùn)空間。

      4.2 Web數(shù)據(jù)挖掘在網(wǎng)絡(luò)教育中的應(yīng)用

      教育網(wǎng)絡(luò)化的趨勢(shì)不僅為學(xué)生提供了便利的學(xué)習(xí)方式和廣泛的選擇,也為學(xué)校提供了更加深入了解學(xué)生需求信息和學(xué)生行為特征的可能性。由于受教育對(duì)象個(gè)體之間存在著極大的差異性,網(wǎng)絡(luò)教學(xué)也必須是一種適應(yīng)個(gè)別化學(xué)習(xí)需求的個(gè)性化教學(xué)。這種個(gè)性化教學(xué)的提供。是通過(guò)將傳統(tǒng)的數(shù)據(jù)挖掘M Web結(jié)合起來(lái)。進(jìn)行Web數(shù)據(jù)挖掘,即從Web文檔和Web活動(dòng)中抽取學(xué)生感興趣的潛在的有用模式和隱藏的信息,作為對(duì)學(xué)生提供個(gè)性化教學(xué)服務(wù)的依據(jù),協(xié)助管理者優(yōu)化站點(diǎn)結(jié)構(gòu)。提高站點(diǎn)效率,更好地為網(wǎng)絡(luò)教育服務(wù)。

      4.3 在網(wǎng)站設(shè)計(jì)中的應(yīng)用

      在網(wǎng)站設(shè)計(jì)方面中的應(yīng)用,主要是通過(guò)對(duì)網(wǎng)站內(nèi)容的挖掘。特別是對(duì)文本內(nèi)容的挖掘,可以有效地組織網(wǎng)站信息。如采用自動(dòng)歸類(lèi)技術(shù)實(shí)現(xiàn)網(wǎng)站信息的層次性組織;通過(guò)對(duì)用戶訪問(wèn)日志記錄信息的挖掘,把握用戶感興趣的信息。從而有助于開(kāi)展網(wǎng)站信息推送服務(wù)以及個(gè)人信息的定制服務(wù),吸引更多的用戶。

      結(jié)束語(yǔ)。社會(huì)的發(fā)展離不開(kāi)信息的傳播與使用,在數(shù)據(jù)急劇增長(zhǎng)的情況下,如何高效的檢索到用戶需要的信息顯得更加重要。Internet作為世界上最大的信息庫(kù),分布于世界各地?cái)?shù)以億計(jì)的網(wǎng)頁(yè)以及站點(diǎn),為Web挖掘大發(fā)展提供了前提條件。 隨著Internet的進(jìn)一步發(fā)展,Web挖掘在信息的準(zhǔn)確檢索、個(gè)性化的信息服務(wù)、開(kāi)展有針對(duì)性的電子商務(wù)、構(gòu)建智能化的web站點(diǎn)起到重要作用,Web挖掘技術(shù)在實(shí)際生活中也會(huì)越來(lái)越重要。

      參考文獻(xiàn)

      [1]毛國(guó)君等著.?dāng)?shù)據(jù)挖掘原理與算法,2005,7.

      [2]范明等譯.?dāng)?shù)據(jù)挖掘--概念與技術(shù)[M].機(jī)械工業(yè)出版社.2004.

      [3]李琳等.基于web的數(shù)據(jù)挖掘技術(shù).自動(dòng)化與儀表.2007,2.

      猜你喜歡
      信息服務(wù)數(shù)據(jù)挖掘
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      微信平臺(tái)在公共圖書(shū)館信息服務(wù)中的應(yīng)用
      數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
      智慧社區(qū)信息服務(wù)績(jī)效評(píng)價(jià)研究
      公共圖書(shū)館科技創(chuàng)新服務(wù)探析
      農(nóng)業(yè)高校圖書(shū)館專(zhuān)利信息服務(wù)研究
      基于價(jià)值共創(chuàng)共享的信息服務(wù)生態(tài)系統(tǒng)協(xié)同機(jī)制研究
      科技視界(2016年18期)2016-11-03 22:02:50
      微信公眾平臺(tái)在高校圖書(shū)館信息服務(wù)中的應(yīng)用研究
      科技視界(2016年21期)2016-10-17 19:25:20
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      汨罗市| 新竹县| 宜宾市| 巩留县| 巴中市| 阿勒泰市| 垣曲县| 永嘉县| 繁峙县| 东阳市| 新竹县| 湘潭市| 杭锦后旗| 固始县| 昭苏县| 珠海市| 嘉峪关市| 鄂温| 眉山市| 信阳市| 漳州市| 曲水县| 涟源市| 肇东市| 迁西县| 凤阳县| 洞头县| 扶风县| 章丘市| 五峰| 平塘县| 兰考县| 远安县| 岐山县| 尉氏县| 体育| 普宁市| 罗平县| 清河县| 资溪县| 海原县|