• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      構(gòu)建檔案用戶數(shù)據(jù)分析引擎的研究*

      2015-06-14 03:05:32韓海濤
      檔案與建設(shè) 2015年3期
      關(guān)鍵詞:引擎檔案館檢索

      田 偉 韓海濤 陳 靜

      (天津工業(yè)大學(xué)檔案館,天津,300387)

      1 為什么需要對檔案用戶數(shù)據(jù)進行分析?

      大數(shù)據(jù)技術(shù)之所以迅速得到各行業(yè)的青睞和熱捧,就是因其能夠利用“用戶行為大數(shù)據(jù)分析”的技術(shù)手段,為互聯(lián)網(wǎng)“數(shù)據(jù)廢氣”變廢為寶提供機遇與途徑[1]。而對于檔案館未來的發(fā)展而言,具備和提升對用戶數(shù)據(jù)分析能力是大數(shù)據(jù)時代的要求,是建設(shè)智慧檔案館的一項重要內(nèi)容。具體來說,大數(shù)據(jù)時代的檔案館,必須要能夠有效地收集用戶數(shù)據(jù),并從中提取出寶貴的使用價值,感知檔案用戶的現(xiàn)實需求特點,預(yù)測檔案用戶下一步的行動與需求。只有實現(xiàn)了這一系列的功能,才能真正使檔案館在用戶視角中成為一個智慧化的實體。

      因此,從分析用戶數(shù)據(jù)來提升檔案服務(wù)的目的出發(fā),當(dāng)前檔案館應(yīng)立足于自身實踐需求和實際數(shù)據(jù)建設(shè)能力,提出對檔案用戶數(shù)據(jù)分析引擎架構(gòu)及其配套的技術(shù)實現(xiàn)方案。通過建立檔案館對用戶數(shù)據(jù)的分析機制,指導(dǎo)和促進自身服務(wù)的提升,應(yīng)對大數(shù)據(jù)時代的要求。

      2 檔案館需要建立怎樣的用戶數(shù)據(jù)分析引擎?

      本文所稱的檔案用戶數(shù)據(jù),是指檔案用戶在利用檔案過程中所形成的反映檔案利用行為、利用主體以及客體特征的數(shù)據(jù),主要包括對檔案利用行為的數(shù)據(jù)、檔案用戶自身屬性的數(shù)據(jù)、所利用檔案具有屬性的數(shù)據(jù)等。這就是我們要變廢為寶的“數(shù)據(jù)廢氣”。要實現(xiàn)通過關(guān)注檔案用戶數(shù)據(jù)促進檔案服務(wù)的提升,就要建立對于檔案用戶數(shù)據(jù)進行分析判斷、知識抽取以及據(jù)此采取相應(yīng)行動的機制,這就是檔案用戶數(shù)據(jù)分析引擎。

      該分析引擎應(yīng)具備用戶數(shù)據(jù)收集、提取知識、保護隱私與安全、檔案館策略提示幾項主要的功能。其中檔案用戶數(shù)據(jù)收集模塊應(yīng)負責(zé)對檔案用戶特征、檔案利用行為、用戶對檔案評價等數(shù)據(jù)的收集,然后通過數(shù)據(jù)整理清洗規(guī)整收集到的數(shù)據(jù)、消除數(shù)據(jù)噪聲等。并應(yīng)具有隱私保護和密級保護規(guī)則模塊,負責(zé)防止數(shù)據(jù)調(diào)用時違反隱私和保密規(guī)則。

      知識提取模塊,應(yīng)根據(jù)收集存儲的用戶利用數(shù)據(jù),運用數(shù)據(jù)挖掘工具提取出有用知識。主要可以包括以下的幾個功能單元:1.分類模型。對檔案用戶和所利用檔案數(shù)據(jù)資源進行分類和聚類,按照用戶以及利用檔案資源之間的相似度判定其各自的所屬類別,對用戶評價的原因進行分類;2.推薦引擎。主要根據(jù)檔案用戶的利用行為、身份屬性或檔案資源所獲得的評價,為用戶推薦檔案數(shù)據(jù)資源,提供檔案數(shù)據(jù)個性化推薦的系統(tǒng)服務(wù);3.評價分析。對檔案數(shù)據(jù)資源所獲得的評價進行整理和統(tǒng)計分析,得出用戶對所利用的檔案資源、服務(wù)情況等方面的信息;4.關(guān)聯(lián)分析。對檔案用戶數(shù)據(jù)中所體現(xiàn)的規(guī)律和聯(lián)系進行分析,如用戶利用目的與利用檔案類型的關(guān)系,檔案數(shù)據(jù)信息之間在利用中的聯(lián)系,檔案利用行為與特定時間之間的關(guān)系等等。5.異常檢測。識別檔案用戶數(shù)據(jù)中不常見的、反常的實例,包括異常的評價、利用行為、用戶屬性信息等,判定這是新的檔案利用趨勢,還是需要特殊服務(wù)的用戶,或是對檔案利用數(shù)據(jù)的惡意干擾等。

      策略提示模塊,是根據(jù)分析引擎根據(jù)所表示的知識規(guī)則,提示檔案館應(yīng)采取策略的功能層次。主要可包括:1.服務(wù)提升。檔案資源個性化推薦、檔案數(shù)據(jù)智能檢索、檔案用戶間交流群建設(shè)及相應(yīng)好友推薦等內(nèi)容;2.資源建設(shè)。根據(jù)分析引擎提供的知識來改進檔案數(shù)據(jù)資源的收集與構(gòu)成,如進行以下工作:檔案資源評價分類、用戶差評分析、檔案數(shù)據(jù)資源利用關(guān)聯(lián)分析、用戶未能檢索到的檔案資源分析等;3.支持決策。應(yīng)用分析引擎提取的知識支持檔案館的管理決策,實現(xiàn)循數(shù)管理[2]的思想。如通過對檔案用戶進行分類與聚類、實現(xiàn)小眾化服務(wù);通過對檔案用戶數(shù)據(jù)中異常實例的感知和分析,確定檔案館應(yīng)采取的相應(yīng)措施;通過檔案項目所獲評價的趨勢分析,實施檔案開放以及利用工作的前瞻性安排等。

      3 檔案館如何實現(xiàn)和部署檔案用戶數(shù)據(jù)分析引擎?

      以上我們所提出的分析引擎,從概念模型的角度闡釋了引擎總體架構(gòu)和所包含的功能。要實現(xiàn)和實際部署這樣的引擎,從總體上講檔案館需要從兩個方面開展工作:技術(shù)進步和制度建設(shè)。具體來講,當(dāng)前檔案館可分別開展以下幾個方面的工作:

      3.1 完善當(dāng)前檔案信息系統(tǒng)用戶數(shù)據(jù)采集功能

      目前在開展了檔案信息化的檔案部門,一般均采用了基于數(shù)據(jù)庫系統(tǒng)加管理軟件的檔案信息系統(tǒng),多數(shù)檔案部門所用到這類系統(tǒng)的主要功能是存儲和檢索檔案數(shù)據(jù)文件,而較少關(guān)注和利用這些信息系統(tǒng)所具有的用戶數(shù)據(jù)采集功能。而且,在一些型號的檔案信息系統(tǒng)中,對檔案用戶數(shù)據(jù)的采集功能支持度也很不完善。所以,檔案部門應(yīng)當(dāng)從現(xiàn)在起,除了重視檔案數(shù)據(jù)本身,還要重視對檔案用戶數(shù)據(jù)的采集與存儲工作。要充分將自身已有的檔案信息系統(tǒng)用戶數(shù)據(jù)采集功能利用起來,或是依托相關(guān)技術(shù)力量來開發(fā)與完善此部分數(shù)據(jù)的采集功能,為部署分析引擎提供必要的數(shù)據(jù)基礎(chǔ)。

      3.2 根據(jù)自身情況選擇適當(dāng)?shù)挠脩魯?shù)據(jù)分析引擎開發(fā)方案

      從目前的實際情況來看,各級各類檔案館在IT 技術(shù)方面的能力水平相差較大。而構(gòu)建檔案用戶數(shù)據(jù)分析引擎實質(zhì)上是一項信息系統(tǒng)開發(fā)工作,所以檔案館要充分考慮到自身的現(xiàn)實數(shù)據(jù)分析需求、技術(shù)力量和館藏資源特點,選擇恰當(dāng)?shù)男畔⑾到y(tǒng)開發(fā)方式,實現(xiàn)分析引擎的建設(shè)。這主要包括兩個方面:一是建設(shè)方式是由檔案館自主完成還是外包建設(shè)工作;二是選擇適用于檔案館自身的分析引擎實現(xiàn)技術(shù)。

      實際上,在整個檔案用戶數(shù)據(jù)分析引擎建設(shè)的過程中,檔案館方面要始終居于主導(dǎo)地位。即使是外包建設(shè)工作方式,檔案館也要在系統(tǒng)需求、技術(shù)選擇、使用界面等方面提出適合自身特點的方案,并與信息系統(tǒng)建設(shè)方密切溝通,確保其正確實施。而在實現(xiàn)技術(shù)選擇方面,所選擇的具體數(shù)據(jù)分析技術(shù)應(yīng)當(dāng)是對于分析引擎建設(shè)工程易于實現(xiàn)、功能較強、易于理解與應(yīng)用,既符合檔案部門實際應(yīng)用需求又不超越自身的技術(shù)力量。這樣,使分析引擎既發(fā)揮積極作用,又不使檔案部門陷入“技術(shù)泥潭”。

      3.3 結(jié)合自身情況實現(xiàn)分析引擎的具體功能

      檔案用戶數(shù)據(jù)分析引擎所具有的實際功能可以包含很多種,每種功能面對檔案部門的實際環(huán)境也會具有不同的表現(xiàn)形式。因此,檔案部門可根據(jù)自身所面對的用戶群體與檔案資源狀況,應(yīng)用自身所選擇的引擎實現(xiàn)技術(shù),實現(xiàn)符合自身服務(wù)需要的分析引擎功能。例如可以根據(jù)自身所面對用戶的身份特征信息,開展對檔案數(shù)據(jù)資源的個性化推薦;建立對檔案用戶屬性的多維分析資源庫;開發(fā)對檔案數(shù)據(jù)資源的輔助檢索系統(tǒng),應(yīng)對用戶檢索多樣化的應(yīng)用環(huán)境;為了防止檔案資源流失,通過異常檢測分析潛在的不守信用用戶并進行預(yù)警;通過趨勢變動及預(yù)估來感知用戶對檔案需求或反饋意見的變化趨勢等。從總體講,這些具體功能的根本目的,就是為了將用戶數(shù)據(jù)驅(qū)動服務(wù)提升與管理進步的宗旨落到實處。

      3.4 建立與完善用戶數(shù)據(jù)分析引擎的配套制度

      對于檔案部門來說,信息技術(shù)要與配套制度相結(jié)合,才能實現(xiàn)檔案服務(wù)與管理的真正進步。用戶數(shù)據(jù)分析引擎在檔案館部署運行的過程中,檔案部門要制定有效的管理制度和使用規(guī)范,確保其發(fā)揮良好的作用。例如,應(yīng)研究建立用戶數(shù)據(jù)收集實施辦法、用戶數(shù)據(jù)安全性責(zé)任規(guī)范、用戶數(shù)據(jù)使用及安全責(zé)任追究實施辦法、檔案數(shù)據(jù)個性化推薦服務(wù)規(guī)則等。通過這一系列的工作制度和紀律規(guī)范,明確用戶數(shù)據(jù)分析引擎運行過程中檔案工作人員的任務(wù)職責(zé),以制度的形式確保分析引擎的良好運行,確保分析引擎對檔案部門進步的促進作用。

      4 檔案用戶數(shù)據(jù)分析引擎的實例是怎樣的?

      以下我們根據(jù)自身的項目研究,以實例的形式為大家展現(xiàn)檔案用戶數(shù)據(jù)分析引擎具體的建設(shè):

      4.1 分析引擎實現(xiàn)技術(shù)的選擇

      關(guān)聯(lián)規(guī)則(Association Rule)、協(xié)同過濾(Collaborative Filter)、項目的向量建模是與我們所提出的分析引擎相關(guān)的幾項技術(shù)。其中協(xié)同過濾的基本原理是基于最近鄰居的評分數(shù)據(jù)對目標(biāo)用戶產(chǎn)生推薦。該技術(shù)的核心是用戶—評分矩陣,用來表示用戶對每個項目的評價?;镜耐扑]步驟是用戶評價、最近鄰查找、推薦結(jié)果生成。

      項目的向量建模技術(shù)主要思想是,將目標(biāo)項目提取為特征向量,用于匹配計算等場景。這項技術(shù)的個性化程度較高,但其難點在于對推薦項目(如文檔)特征的提取,如文獻[3]介紹了對于文本的特征提取公式等,而對于那些難以提取特征、準(zhǔn)確表達成向量形式的推薦項目(如音像檔案等)則較難應(yīng)用。

      考慮到檔案館現(xiàn)實的數(shù)據(jù)分析需求、技術(shù)力量和館藏資源特點,在此主要選擇協(xié)同過濾技術(shù)作為分析引擎的實現(xiàn)技術(shù),并輔以向量建模技術(shù)以提高分析效果。正如選擇軟件的一種原則一樣:功能強大的傻瓜軟件才是最好的。協(xié)同過濾技術(shù)對于我們分析引擎的需要而言,其功能即強大又很“傻瓜”。

      4.2 分析引擎若干典型功能的實現(xiàn)

      4.2.1 檔案資源個性化推薦

      與電影、商品、新聞等領(lǐng)域的推薦系統(tǒng)不同,當(dāng)前檔案數(shù)據(jù)推薦的特點是推薦結(jié)果主要基于用戶因辦理某事務(wù)而對檔案的剛性需求,且需求往往是先映射到類再尋求具體數(shù)據(jù)文件。即用戶的檔案需求在類別上有共性、在具體文件上有個性。為此我們提出如下的推薦方案:

      ①首先對檔案用戶建模,采用向量形式描述用戶屬性,并確定待推薦檔案文件的類別粒度;②再根據(jù)檔案業(yè)務(wù)利用數(shù)據(jù),建立“用戶屬性-檔案文件類別”二值觀測值矩陣,矩陣以0、1 數(shù)值的形式記錄具有某屬性的用戶利用過某類檔案文件的情況;③當(dāng)目標(biāo)用戶檔案利用中輸入自身的屬性信息,推薦引擎即根據(jù)屬性信息在用戶模型空間中查找最相似用戶,然后檢索這些最相似用戶在用戶屬性-檔案文件類別矩陣中利用過什么類別的檔案文件;④將檢索到的文件類別(并集)與目標(biāo)用戶自身屬性相結(jié)合,在檔案數(shù)據(jù)庫中檢索到具體的檔案數(shù)據(jù)文件推薦給用戶。

      4.2.2 檔案資源智能檢索

      在實踐中,用戶往往需要在檔案信息系統(tǒng)中費力嘗試多種檢索詞,以確定檔案文件的存在性。一個用戶若以關(guān)鍵詞檢索方式未找到某檔案文件,他可想到的辦法就是換其他關(guān)鍵詞另行檢索。而其他同樣需要這個文件的用戶,在其各自的檢索過程中也會遇到這樣的問題并采用此種策略,有些用戶在一遍遍嘗試后就會檢索到所需文件。所以我們可以將這些找到文件的用戶所嘗試過的檢索關(guān)鍵詞和他們所命中的文件都記錄下來,以后遇到使用這些關(guān)鍵詞檢索但又暫未找到該文件的用戶,就將其映射過來,將該文件作為推薦結(jié)果呈獻給該用戶。

      我們提出檢索策略如下:①根據(jù)用戶以往的檢索記錄與其所命中文件結(jié)果,建立“用戶命中文件-檢索關(guān)鍵詞”二值觀測值矩陣,該矩陣每行代表用戶命中的一個檔案文件,矩陣的列是用戶為命中該文件所嘗試過的檢索關(guān)鍵詞(1 表示該文件用到過該檢索詞),這里每個檢索關(guān)鍵詞可以是單詞也可以是詞組或短句;②用戶在檔案系統(tǒng)中輸入關(guān)鍵字檢索文件,若未找到滿意結(jié)果則啟動推薦引擎,根據(jù)用戶所輸入的關(guān)鍵詞檢索矩陣列,若發(fā)現(xiàn)矩陣中存在此檢索關(guān)鍵詞,則將此詞所對應(yīng)的文件作為推薦結(jié)果呈獻給用戶,若矩陣無此關(guān)鍵詞則用戶再輸入新嘗試關(guān)鍵詞;③若用戶認定推薦結(jié)果中某個或某些文件是檢索目標(biāo),則向系統(tǒng)表示已命中結(jié)果、結(jié)束推薦,系統(tǒng)據(jù)此向矩陣添加、調(diào)整新的規(guī)則,即將嘗試過程所用到的新檢索詞添加到矩陣列并將其在命中文件處設(shè)為1,同時在該文件行中將命中此文件檢索過程中用到的所有矩陣已有檢索詞處設(shè)為1;④若用戶在檔案系統(tǒng)中經(jīng)過一系列檢索嘗試,命中的是一個推薦系統(tǒng)矩陣中沒有的新文件,則將此文件及其嘗試關(guān)鍵詞作為新規(guī)則添加到矩陣中。

      4.2.3 檔案差評分析

      如果用戶做出了好評,則表示其對檔案資源、檔案服務(wù)等方面均滿意,而如果在利用后檔案用戶對某檔案文件做出的是差評(用戶-項目矩陣中的低值評分),原因則可能是多方面的,包括檢索到的檔案資源不是自身所需、檔案記錄不完整、本次服務(wù)質(zhì)量不佳等等。差評分析就是要呈現(xiàn)導(dǎo)致差評可能的原因。這在實質(zhì)上是一個分類模型(classification model)問題,即通過分析評分矩陣中出現(xiàn)差評的實例,根據(jù)其用戶屬性、項目特征以及作出差評的時間場景等,將差評原因歸結(jié)到正確的類別中。

      建立分類模型需要訓(xùn)練集(training set)與檢驗集(test set)。對此可以通過檔案館人員人工分析得出差評原因(如用戶回訪等方式),建立差評原因統(tǒng)計數(shù)據(jù)集,以其中的一部分數(shù)據(jù)建立反映輸入與差評類關(guān)系的決策樹,另一部分進行模型的驗證和完善。這個過程在實踐中可以定期進行,以完善和優(yōu)化分類模型。在分類模型建立后,一方面可實現(xiàn)對用戶差評原因的自動映射,提供了統(tǒng)計分析的智能工具;另一方面,更為重要的是,這個分類模型實際上是對于檔案館工作的“警示模型”,其描述了在哪些情況下檔案用戶會對檔案資源或服務(wù)做出差評,因此列明了檔案館在資源建設(shè)等工作中應(yīng)避免的情況,這為檔案館提升服務(wù)、改進資源等提供了決策依據(jù)。

      圖1 檔案用戶差評原因分類模型

      4.2.4 檔案利用關(guān)聯(lián)分析

      檔案利用關(guān)聯(lián)分析的目的是要揭示用戶屬性(如身份信息、利用目的等)與所利用檔案類別之間的關(guān)系。這種分析得出的結(jié)果主要有兩個方面的重要用途:一是為檔案館識別用戶、安排與優(yōu)化檔案資源提供依據(jù);二是為實現(xiàn)檔案數(shù)據(jù)資源的個性化提供建模支持。

      基于4.2.1節(jié)的內(nèi)容,建立利用分析模型。重點是根據(jù)檔案館實際情況分別建立檔案用戶模型與檔案資源類別模型。其中用戶模型的建模目的是將檔案用戶映射為不同的特征向量。例如在檔案資源個性化推薦中,使得目標(biāo)用戶能通過模型映射找到與其特征相同的唯一近鄰用戶;而對于檔案項目的建模,目標(biāo)是使資源模型可以準(zhǔn)確刻畫檔案數(shù)據(jù)文件從屬于何種類別,該類別的劃分有助于揭示此類文件的共性,且有助于其與用戶屬性結(jié)合后準(zhǔn)確地直接檢索到用戶所需的具體文件。

      4.2.5 未命中檢索詞分析

      用戶對檔案數(shù)據(jù)檢索所使用的關(guān)鍵詞,體現(xiàn)用戶對檔案資源的實際需求和自身表達特點。在4.2.2節(jié)中所提出的智能檢索模型,主要著眼于用戶找到所需文件場景的分析。若是用戶經(jīng)過一系列嘗試后未命中所需的文件,檔案館應(yīng)對這些嘗試檢索關(guān)鍵詞進行分析,找出檢索未命中的原因。該原因一般可歸結(jié)為三類:資源不存在、檢索詞筆誤、資源命名不匹配。在確定原因后,分別采取如下的處理措施:對于資源不存在,應(yīng)在對檢索詞統(tǒng)計匯總后,研究加強所需要的檔案資源建設(shè),調(diào)整檔案收集的項目,以使檔案資源的擴充向用戶需求方向發(fā)展;對于檢索詞筆誤,可將用戶輸入有誤的檢索詞作為規(guī)則加入4.2.2 節(jié)的協(xié)同過濾矩陣中(加入其應(yīng)該命中的文件行),今后當(dāng)用戶再有輸入此種錯誤檢索詞時,推薦系統(tǒng)可將正確的文件作為推薦結(jié)果返回給用戶,增強檔案檢索系統(tǒng)的容錯性;對于資源命名不匹配,換句話說也就是用戶嘗試的檢索關(guān)鍵詞不充足或此前未出現(xiàn)過,導(dǎo)致了檢索的“半途而廢”,所以應(yīng)將這些未命中檢索詞作為規(guī)則,加入4.2.2節(jié)的協(xié)同過濾矩陣中應(yīng)命中文件行中,擴充文件的可命中檢索關(guān)鍵詞。

      相關(guān)研究表明[5],未能查找到所需的檔案資源是檔案用戶不滿意的最主要原因。因此,檔案館應(yīng)重點關(guān)注這些未命中檢索詞所透露出來的用戶需求,研究完善自身館藏資源和制度建設(shè),針對性地解決諸如館藏資源結(jié)構(gòu)缺陷、開放鑒定工作滯后等方面的問題。

      4.2.6 檔案用戶聚類

      識別檔案用戶類別是檔案館實現(xiàn)“小眾化”服務(wù)的重要前提。因此,根據(jù)某種標(biāo)準(zhǔn)將檔案用戶劃分為有意義的組是支持決策必要的環(huán)節(jié),這就是檔案用戶聚類分析。與只根據(jù)用戶自身屬性(如年齡、性別等)進行建模劃分不同,此處對檔案用戶的聚類分析著重強調(diào)將用戶對檔案的評價反饋作為聚類依據(jù)。建立檔案用戶-項目協(xié)同過濾矩陣,其中項目的粒度可以是一個檔案文件。將矩陣中每個用戶視為一個評分向量進行聚類,用以總體上反映用戶對檔案館資源不同的評價狀況。

      聚類的方法主要包括基于劃分的方法、基于層次的方法、基于密度的方法等,相關(guān)研究中多將K均值(K-Means)聚類方法[4]應(yīng)用于協(xié)同過濾技術(shù)場景,該聚類方法的優(yōu)點在于簡單有效,且比較適用于檔案館實際的技術(shù)條件和應(yīng)用環(huán)境。因此我們在此提出基于用戶-項目矩陣,對于用戶進行聚類的算法:

      ①根據(jù)檔案館自身情況,選擇K個用戶作為初始質(zhì)心;

      ②repeat

      ③將矩陣中每個用戶指派到與其最相似的質(zhì)心(以式1 計算相似度);

      ④重新計算每個簇的質(zhì)心;

      ⑤until 每個簇的質(zhì)心不發(fā)生變化;

      計算得出的若干用戶簇,可作為檔案館提供分類資源服務(wù)、評估當(dāng)前服務(wù)質(zhì)量的統(tǒng)計數(shù)據(jù)依據(jù)。對于初始K 的選取,可經(jīng)過對自身用戶數(shù)據(jù)的反復(fù)試驗確定。如對用戶聚類的質(zhì)量可以總凝聚度[6]衡量,因此可在實踐中依據(jù)該項指標(biāo)選擇最優(yōu)K 值及聚類方案,對檔案館聚類分析方案進行調(diào)優(yōu)。

      3.2.7 檔案評價異常檢測

      對于檔案用戶-項目矩陣中用戶評分信息可能存在的異常情況,檔案館應(yīng)具備一定的檢測探知能力。所謂異常主要用戶對檔案資源的評價偏離了普遍的情況,主要包括用戶個性化程度強、資源項目爭議性大、數(shù)據(jù)錯誤與噪音、對評價反饋系統(tǒng)的攻擊等。

      異常檢測本質(zhì)上是一個分類問題,且可以根據(jù)不同的原因采用不同的檢測方法。對于出現(xiàn)用戶個性化程度強的情況,可基于用戶-項目協(xié)同過濾矩陣,計算全部用戶之間的相似度,對于共有m 個用戶的矩陣,共需計算個相似度數(shù)值,然后可找出與其他用戶相似度數(shù)值均比較低的若干用戶,分析這些用戶“與眾不同”的原因,采取相應(yīng)的行動:或是針對性地推進個性化服務(wù),或是判定其為數(shù)據(jù)錯誤噪聲,予以糾正或清除。

      對于資源項目爭議性大的情況,可采用計算項目所獲評分的方差以及極差的方式,從而衡量評分與中心的偏差程度,找出飽受爭議的檔案資源項目(其方差或極差值較高),分析其具體原因。而對于檔案評價反饋系統(tǒng)的惡意攻擊問題,可借鑒推薦系統(tǒng)攻擊檢測的相關(guān)研究[7],識別出對于系統(tǒng)有攻擊意圖的用戶,及時采取措施,保障分析引擎的基礎(chǔ)數(shù)據(jù)質(zhì)量。

      5 總結(jié)

      “一名檔案工作者應(yīng)是首先想到未來的人”[8]。對于未來的大數(shù)據(jù)時代檔案館建設(shè),我們現(xiàn)在應(yīng)加快研究如何使檔案館具備強大的數(shù)據(jù)分析能力。這主要包括兩個方面:對館藏檔案數(shù)據(jù)的分析和對檔案用戶數(shù)據(jù)的分析。本文重點關(guān)注的是后者,即如何通過對用戶數(shù)據(jù)的分析來驅(qū)動檔案服務(wù)提升的問題。為此,本文提出了檔案用戶數(shù)據(jù)分析引擎的架構(gòu),并基于協(xié)同過濾和向量建模等技術(shù)提出了若干具體功能的實現(xiàn)策略。各檔案館在開展用戶數(shù)據(jù)分析工作過程中,可將本文提出的策略作為設(shè)計要求和實現(xiàn)說明,將對用戶數(shù)據(jù)的感知及分析功能融入檔案系統(tǒng)中加以實現(xiàn),從而實現(xiàn)檔案館服務(wù)由“供給導(dǎo)向”向“需求導(dǎo)向”的現(xiàn)實轉(zhuǎn)變。

      [1]張倩.高校檔案用戶行為大數(shù)據(jù)分析技術(shù)應(yīng)用研究[J].檔案與建設(shè),2014(08):16-21.

      [2]周楓. 資源.技術(shù).思維——大數(shù)據(jù)時代檔案館的三維詮釋[J]. 檔案學(xué)研究.2013(06):61-64.

      [3]林鴻飛,姚天順.基于示例的中文文本過濾模型[J].大連理工大學(xué)學(xué)報,2000,40(03):375-378.

      [4]王鑫等.網(wǎng)絡(luò)資源中基于K-Means 聚類的個性化推薦[J].北京郵電大學(xué)學(xué)報,2014,37(04):120-124.

      [5]劉金霞.檔案館用戶滿意度定量分析_兼論兩個體系的建設(shè)[J].檔案學(xué)研究,2010,(01):52-56.

      [6]Pang-Ning Tan等著.數(shù)據(jù)挖掘?qū)д摚跰],北京:人民郵電出版社,2006:312.

      [7]余力等.電子商務(wù)推薦攻擊研究[J].計算機科學(xué),2010,34(05):134-137.

      [8]馬丁·博倫斯.一名檔案工作者應(yīng)是首先想到未來的人[N].李文棟,節(jié)譯.中國檔案報,2010-12-16(03).

      猜你喜歡
      引擎檔案館檢索
      2019年第4-6期便捷檢索目錄
      藍谷: “涉藍”新引擎
      商周刊(2017年22期)2017-11-09 05:08:31
      關(guān)于縣級檔案館館藏檔案開發(fā)利用的思考
      全省部分檔案館新館掠影
      浙江檔案(2017年10期)2017-03-31 06:27:31
      專利檢索中“語義”的表現(xiàn)
      專利代理(2016年1期)2016-05-17 06:14:36
      無形的引擎
      河南電力(2015年5期)2015-06-08 06:01:46
      when與while檔案館
      基于Cocos2d引擎的PuzzleGame開發(fā)
      國際標(biāo)準(zhǔn)檢索
      國際標(biāo)準(zhǔn)檢索
      上虞市| 上饶县| 景泰县| 忻州市| 杭锦旗| 奇台县| 将乐县| 通道| 靖江市| 龙川县| 页游| 麦盖提县| 随州市| 新安县| 志丹县| 广宁县| 丹寨县| 定结县| 临朐县| 西华县| 汝城县| 盱眙县| 应用必备| 凤阳县| 高陵县| 鱼台县| 环江| 百色市| 临泽县| 湘西| 牡丹江市| 和顺县| 叶城县| 凉山| 瑞丽市| 吴川市| 大竹县| 黄龙县| 普兰县| 修文县| 平乡县|