• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      數(shù)據(jù)挖掘下的高校圖書館信息資源管理分析

      2020-09-03 11:52:24
      科技視界 2020年25期
      關(guān)鍵詞:日志數(shù)據(jù)挖掘預(yù)處理

      沈 惠

      0 引言

      現(xiàn)如今,高校數(shù)字圖書館信息資源日漸增長(zhǎng),計(jì)算機(jī)技術(shù)被投用到日常管理工作實(shí)踐中,數(shù)據(jù)量也呈幾何倍數(shù)增長(zhǎng),在處理數(shù)據(jù)時(shí)暴露出針對(duì)性不強(qiáng)、檢索精確度偏低、資源利用率低、存有大量冗余信息、數(shù)據(jù)庫(kù)信息訪問(wèn)不便利等問(wèn)題。和Web 數(shù)據(jù)相比較,傳統(tǒng)數(shù)據(jù)庫(kù)內(nèi)的數(shù)據(jù)結(jié)構(gòu)性更強(qiáng),而Web 上儲(chǔ)留的數(shù)據(jù)盡管具有一定結(jié)構(gòu)性,但屬于半結(jié)構(gòu)化數(shù)據(jù)。結(jié)合處理對(duì)象的不同,Web 挖掘有內(nèi)容、結(jié)構(gòu)及使用記錄挖掘三種類型,其中使用挖掘又被稱之為日志挖掘,為Web 挖掘?qū)嵺`中的重點(diǎn)對(duì)象,其通過(guò)解讀日志記錄內(nèi)容的規(guī)律,提供樣式多樣的統(tǒng)計(jì)報(bào)告,強(qiáng)化Intemet 信息服務(wù)品質(zhì),優(yōu)化服務(wù)器屬性與結(jié)構(gòu)。

      1 數(shù)據(jù)挖掘的概念分析

      數(shù)據(jù)挖掘?qū)儆谝粋€(gè)跨學(xué)科的邊緣性技術(shù),主要囊括計(jì)算機(jī)技術(shù)、信息技術(shù)、統(tǒng)計(jì)學(xué)、數(shù)據(jù)可視化等。

      數(shù)據(jù)挖掘又被叫作數(shù)據(jù)庫(kù)內(nèi)的知識(shí)發(fā)現(xiàn)(KDD),被定義成從數(shù)據(jù)庫(kù)內(nèi)探尋到隱匿信息,部分情況下也被叫作探索性數(shù)據(jù)分析、歸納學(xué)習(xí)等,等同于分析數(shù)據(jù)庫(kù)內(nèi)大批量的、不完整性的、存有噪聲的、模糊性、隨機(jī)分配的現(xiàn)實(shí)應(yīng)用數(shù)據(jù),其宗旨在于探索不同數(shù)據(jù)之間隱含的相關(guān)性、運(yùn)作模式,以新的技術(shù)方法為支撐,重新整合事前未知的、存有實(shí)際應(yīng)用價(jià)值的數(shù)據(jù)轉(zhuǎn)型化為實(shí)用信息與知識(shí)[1]。

      數(shù)據(jù)挖掘過(guò)程中不僅會(huì)協(xié)助相關(guān)人員更深度地學(xué)習(xí)現(xiàn)有知識(shí),還能使用探查到的模式做出合理預(yù)測(cè),進(jìn)而捕獲易于理解且運(yùn)用過(guò)程便利的知識(shí)。數(shù)據(jù)挖掘用于圖書館信息資源管理實(shí)踐中,能為廣大讀者提供個(gè)性化信息服務(wù),優(yōu)化服務(wù)質(zhì)量;整合多種數(shù)據(jù)資源,拓展信息資源的豐富度,提升資源利用率與檢索的準(zhǔn)確度;為圖書館工作人員創(chuàng)造一個(gè)更有效的平臺(tái),進(jìn)而優(yōu)化信息服務(wù)工作質(zhì)效。

      2 SAS 數(shù)據(jù)挖掘的主要流程

      從宏觀層面上,可以把數(shù)據(jù)挖掘細(xì)化為獲取數(shù)據(jù)源、數(shù)據(jù)預(yù)處理、建設(shè)與訓(xùn)練模型、評(píng)估模式幾過(guò)程。SEMMA 為SAS 工具內(nèi)的挖掘過(guò)程,具體如下[2]:

      (1)SamPle—數(shù)據(jù)采樣:在挖掘數(shù)據(jù)時(shí),要由大批量數(shù)據(jù)內(nèi)擇選出典型的、真實(shí)度高、完整的、有效的且與要研究問(wèn)題存在相關(guān)性的數(shù)據(jù)子集。

      (2)ExPfore 一數(shù)據(jù)分析與預(yù)處理:規(guī)劃采樣數(shù)據(jù)集類別并作出篩選,解讀不同因素間的相關(guān)性。數(shù)據(jù)規(guī)律與趨向等,可采用曲線、圖表等呈現(xiàn)出來(lái)。

      (3)Modify 一數(shù)據(jù)調(diào)整與技術(shù)選用:經(jīng)探索過(guò)程對(duì)數(shù)據(jù)有籠統(tǒng)性認(rèn)識(shí)后,需對(duì)數(shù)據(jù)做出刪減、選擇、轉(zhuǎn)型及數(shù)量化等處理,以確保數(shù)據(jù)挖掘過(guò)程有效推進(jìn)。

      (4)Model 一建模與發(fā)現(xiàn)知識(shí):這是知識(shí)挖掘過(guò)程中的核心環(huán)節(jié),應(yīng)結(jié)合數(shù)據(jù)集自身特點(diǎn)及要達(dá)成的目標(biāo),選擇一種或數(shù)種挖掘手段,回歸分析、決策樹(shù)等是常用方法,在對(duì)比分析中選用最佳的模型,開(kāi)展后續(xù)階段的預(yù)測(cè)工作。

      (5)Acces—整體解釋、評(píng)估模型與知識(shí):綜合多方面因素,解釋歷經(jīng)以上處置過(guò)程獲得的結(jié)果和模型,并在某種方法協(xié)助下,評(píng)估決策支持信息的適用程度,進(jìn)而更為客觀的判讀數(shù)據(jù)挖掘結(jié)果的可靠性、有效性。

      3 基于SAS 的Web 使用日志數(shù)據(jù)挖掘?qū)嵺`

      3.1 日志數(shù)據(jù)挖掘過(guò)程

      以SAS 為基礎(chǔ)的Web 采用日志數(shù)據(jù)挖掘資源,等同于采用SAS 挖掘工具與SQL Server2000 挖掘Web 適用的日志數(shù)據(jù),實(shí)踐中要把Web 采用的日志數(shù)據(jù)整合至SQL Server2000內(nèi),轉(zhuǎn)換、預(yù)處理數(shù)據(jù)后形成事務(wù)表,而后利用SAS 挖掘工具對(duì)事務(wù)表內(nèi)數(shù)據(jù)進(jìn)行聚類、關(guān)聯(lián)等處理,進(jìn)而捕獲有關(guān)知識(shí)的過(guò)程??梢詫⒁陨线^(guò)程分為兩個(gè)部分與三階段。在兩個(gè)部分中,第一部分是數(shù)據(jù)預(yù)處理;第二部分是SAS 數(shù)據(jù)挖掘;數(shù)據(jù)采集與預(yù)處理、模式挖掘、分析挖掘結(jié)果構(gòu)成三階段。

      在數(shù)據(jù)預(yù)處理階段中,先要以文本文件形式由Web 服務(wù)器內(nèi)導(dǎo)出Web 日志數(shù)據(jù),而后再將其導(dǎo)進(jìn)SQLServer2000,使用SQLServer2000 的DTS 器具對(duì)的文本文件行數(shù)據(jù)轉(zhuǎn)換與清洗處理。針對(duì)那些清洗效果達(dá)標(biāo)的Web 日志文件,要依照網(wǎng)站具體內(nèi)容或者結(jié)構(gòu)完成用戶、會(huì)話辨識(shí)的系列性工作。預(yù)處理過(guò)程中,Web 日志數(shù)據(jù)資源被梳理、分割為單組用戶事務(wù)集,其作用是能清晰地呈現(xiàn)出各個(gè)用戶對(duì)站點(diǎn)的不同訪問(wèn)行為。而在模式挖掘(SAS)階段,有選擇地使用SAS 持有的數(shù)據(jù)挖掘手段進(jìn)而呈現(xiàn)出用戶特別的隱匿形式、簡(jiǎn)單統(tǒng)計(jì)Web 資源與用戶群體。在該過(guò)程的后期,要系統(tǒng)解析、總結(jié)、梳理被挖掘出的模式與信息,形成與挖掘目的相匹配的知識(shí)與規(guī)律[3]。

      3.2 數(shù)據(jù)預(yù)處理的關(guān)鍵技術(shù)

      3.2.1 數(shù)據(jù)清洗

      又被稱之為數(shù)據(jù)凈化,即提出Web 服務(wù)器日志內(nèi)和挖掘算法無(wú)相關(guān)性的數(shù)據(jù)。多數(shù)情況下,日志內(nèi)僅有HTML 文件和用戶會(huì)話有關(guān)??梢酝ㄟ^(guò)如下兩種辦法刪掉不相關(guān)數(shù)據(jù):一是檢索客戶瀏覽器類型,二是檢查HTML 的后綴,當(dāng)后綴名是GIF、JpEG、JpG 等圖形文件可被刪除。把初始Web 日志文件整合至sqlserver 2000 完成轉(zhuǎn)換,逐一掃描后剔除和挖掘算法無(wú)關(guān)數(shù)據(jù)。

      3.2.2 用戶辨識(shí)

      等同于關(guān)聯(lián)用戶于請(qǐng)求界面的過(guò)程,多用于處理數(shù)個(gè)用戶以代理服務(wù)器或防火墻為載體訪問(wèn)網(wǎng)站的情況,辨識(shí)用戶有益于協(xié)助圖書館工作人員提供個(gè)性化服務(wù)[4]。

      3.2.3 會(huì)話辨識(shí)

      即在辨識(shí)用戶后,對(duì)各個(gè)用戶的全部點(diǎn)擊序列作出梳理規(guī)劃,其宗旨是把用戶當(dāng)下及既往訪問(wèn)記錄規(guī)劃成單一會(huì)話模式。

      超時(shí)方法是辨識(shí)用戶會(huì)話的常用手段,其有兩種形式:一是設(shè)定用戶會(huì)話全過(guò)程的超時(shí)閾值,即符合time(l)- time(k)≤T(T 是事前設(shè)定好的超時(shí)閾值)條件時(shí),便可確定是同個(gè)會(huì)話,要么為新的會(huì)話;二是設(shè)定兩個(gè)相毗鄰請(qǐng)求見(jiàn)的超時(shí)閾值,若測(cè)算出兩頁(yè)面請(qǐng)求事件差超出上限時(shí),便認(rèn)定用戶進(jìn)行了一個(gè)新會(huì)話活動(dòng)。在同個(gè)會(huì)話中頁(yè)面請(qǐng)求一定要符合time(i)- time(i- 1)≤T(1<i≤k)。

      3.2.4 事務(wù)辨識(shí)

      等同于對(duì)單次用戶會(huì)話作出語(yǔ)義分組,將其割斷為數(shù)個(gè)邏輯單元,進(jìn)而為訪問(wèn)者創(chuàng)建有現(xiàn)實(shí)意義的數(shù)據(jù)集。全部用戶事務(wù)的結(jié)合可以采用m×n 的用戶界面訪問(wèn)矩陣表示。

      3.3 Web 采用日志數(shù)據(jù)的預(yù)處理結(jié)果

      針對(duì)Web 采用日志數(shù)據(jù)完成轉(zhuǎn)換與預(yù)處理日志數(shù)據(jù)以后,就可把歷經(jīng)用戶辨識(shí)后的32 個(gè)用戶于2019- 3- 15~2019- 3-31 期間的數(shù)據(jù)轉(zhuǎn)變?yōu)橛脩羰聞?wù)表、數(shù)據(jù)資源表[5]。

      3.4 SAS 模式挖掘與結(jié)果分析

      針對(duì)數(shù)據(jù)預(yù)處理后形成的各種事務(wù)表,采用SAS 挖掘工具內(nèi)的用戶聚類進(jìn)行處理,過(guò)程為:

      把歷經(jīng)預(yù)處理流程后獲得的用戶事務(wù)表數(shù)據(jù)整合至SAS工具內(nèi),于Work 數(shù)據(jù)庫(kù)中創(chuàng)建YHjh 數(shù)據(jù)集。采用平均距離、最長(zhǎng)距離法、離差平放于距離法完成聚類分析。針對(duì)不同方法形成的聚類過(guò)程結(jié)果表加以分析,各類方法的主要統(tǒng)計(jì)數(shù)量呈現(xiàn)聚類最適宜的類數(shù)目可歸納為表1。

      表1 聚類類數(shù)目表

      對(duì)表1 內(nèi)數(shù)據(jù)加以分析后,我們認(rèn)為聚類數(shù)目為2、3、4 類時(shí)較為適宜,但哪種是最適方法,細(xì)化為幾類更為科學(xué),還需考評(píng)依照各種方法勾畫的聚類樹(shù)。

      采用如上四種方法繪制出的聚類樹(shù)圖內(nèi),對(duì)比分析后認(rèn)定選用comPlete 法聚類取得的效果最優(yōu)良,聚類數(shù)據(jù)分布較勻稱,類間距顯著[6]。

      4 結(jié)束語(yǔ)

      采用comPlete 法把用戶群體細(xì)化為積極、一般與消極用戶是合理的,對(duì)于高校圖書館而言,依照用戶群體對(duì)數(shù)字資源的實(shí)際應(yīng)用情況進(jìn)行規(guī)劃是有很大現(xiàn)實(shí)意義的?;谟脩纛悇e規(guī)劃情況,可以結(jié)合各類別用戶對(duì)圖書館信息資源的需求,更合理的購(gòu)置于管理資源;針對(duì)消極用戶可以進(jìn)行問(wèn)詢與技術(shù)上的支持,整體提升圖書館資源的利用率,促進(jìn)高校圖書館事業(yè)長(zhǎng)效、穩(wěn)定發(fā)展進(jìn)程。

      猜你喜歡
      日志數(shù)據(jù)挖掘預(yù)處理
      一名老黨員的工作日志
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
      扶貧日志
      心聲歌刊(2020年4期)2020-09-07 06:37:14
      游學(xué)日志
      基于預(yù)處理MUSIC算法的分布式陣列DOA估計(jì)
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      淺談PLC在預(yù)處理生產(chǎn)線自動(dòng)化改造中的應(yīng)用
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      絡(luò)合萃取法預(yù)處理H酸廢水
      基于自適應(yīng)預(yù)處理的改進(jìn)CPF-GMRES算法
      乌兰察布市| 洮南市| 英超| 孝义市| 宜君县| 克拉玛依市| 盱眙县| 内江市| 桃园县| 恩平市| 云安县| 麟游县| 习水县| 濮阳市| 柯坪县| 通城县| 吉隆县| 洪泽县| 噶尔县| 丹棱县| 南华县| 勃利县| 延安市| 钟祥市| 那曲县| 旬阳县| 车险| 周宁县| 平山县| 宁都县| 常熟市| 镇原县| 阿克苏市| 禄丰县| 拉萨市| 泽库县| 宣化县| 普兰店市| 麻江县| 琼结县| 邯郸市|