●周 欣 (南京曉莊學院 南京 211171)
在大數(shù)據(jù)背景下,應用數(shù)據(jù)挖掘技術,可以提高知識服務的智能化、個性化和自動化,實現(xiàn)“數(shù)據(jù)→信息→知識→價值”的轉變。如何從用戶的行為數(shù)據(jù)中找到用戶的真實需求,挖掘出與用戶學科相匹配的知識資源,并通過合適的方法和渠道展現(xiàn)給用戶,是當前圖書館研究的主要問題。大數(shù)據(jù)環(huán)境下圖書館學科用戶的行為數(shù)據(jù)正在呈指數(shù)增長,這極大地增加了數(shù)據(jù)挖掘的難度和精確度,這種情況下“小數(shù)據(jù)”概念應運而生,被人們廣泛認知和運用,用戶“小數(shù)據(jù)”的挖掘分析具有可操作性、適用性和人文關懷等特點,更適合于給用戶提供個性化的、差異性需求[1]。
美國康奈爾大學教授德波哈爾·艾斯汀2014年首次提出“小數(shù)據(jù)”的概念[2]。這位計算機學教授在父親去世的前幾個月,發(fā)現(xiàn)年邁的老人的日常行為與往常有很大不同,例如發(fā)送郵件及購物的次數(shù)減少、散步的距離縮短等,然而這種身體的異常在醫(yī)院的體檢中卻無法體現(xiàn)出來。因此艾斯汀教授把這種利用日常小數(shù)據(jù)來分析、評估個體特征生命信息的方式運用到醫(yī)療中,為病人的治療提供科學依據(jù)?!靶?shù)據(jù)”的概念提出之后,得到了很多學者的關注。馬曉亭指出“小數(shù)據(jù)”是以人這個個體為中心,圍繞不同個體采集的人的思想、行為、個性、愛好等數(shù)字化特征的數(shù)據(jù)[3]。
“小數(shù)據(jù)”的研究對于圖書館領域來說,在用戶個性化服務方面具有更強的優(yōu)勢和應用價值。陳臣分析了小數(shù)據(jù)對個性化服務的影響,提出了一種基于小數(shù)據(jù)決策支持的圖書館個性化服務模式[2]。馬曉亭為解決個性化智慧服務中的相關問題,提出了一種基于可信小數(shù)據(jù)的圖書館個性化服務模式[3]。楊曉剛等系統(tǒng)地分析了小數(shù)據(jù)的基本概念和來源,小數(shù)據(jù)和大數(shù)據(jù)的異同,從小數(shù)據(jù)的采集、存儲和使用三個方面研究了小數(shù)據(jù)的管理方法[4]。刁羽探討了小數(shù)據(jù)在學科微知識集成服務研究中的優(yōu)勢,構建了基于小數(shù)據(jù)的學科微知識集成服務系統(tǒng)框架[5]。王欣和張冬梅通過對高校讀者小數(shù)據(jù)的采集、預處理、個性化閱讀需求發(fā)現(xiàn)與預測利用,建立決策推薦機制為高校讀者推送個性化智能服務[6]。李志芳研究了“互聯(lián)網(wǎng)+”驅動下的圖書館用戶的小數(shù)據(jù)行為,設計了圖書館個性化推薦服務模式[7]。小數(shù)據(jù)作為大數(shù)據(jù)的補充和完善,更具有針對性和個性化,小數(shù)據(jù)的研究更能反映出單個用戶的學科需求。
圖書館界對小數(shù)據(jù)的研究很多,為圖書館開展個性化服務提供了新的思路,但是現(xiàn)有的研究鮮有將小數(shù)據(jù)作為研究對象,并用大數(shù)據(jù)的思維來實現(xiàn)學科知識服務的整體過程。本文在大數(shù)據(jù)背景下,從學科用戶小數(shù)據(jù)視角對圖書館的學科知識服務進行探討,以學科用戶使用圖書館學科資源的過程中產(chǎn)生的“小數(shù)據(jù)”為研究對象,通過對學科用戶的“小數(shù)據(jù)”進行數(shù)據(jù)挖掘和建模分析,開展個性化的學科知識服務,并指導學科服務的開展。
大數(shù)據(jù)關注大量用戶的同一類型的行為和特征規(guī)律,而小數(shù)據(jù)關注單個獨立的用戶,以個體用戶為中心進行數(shù)據(jù)的采集研究。小數(shù)據(jù)的目的是為用戶個體提供個性化服務,對數(shù)據(jù)的精確描述要求較高,它的本質并不是數(shù)據(jù)總量小,而是通過研究單一用戶多種類型的特征、數(shù)據(jù)和行為來挖掘關于用戶個體的規(guī)律和知識。小數(shù)據(jù)可以來源于大數(shù)據(jù),從大數(shù)據(jù)中把針對同一個用戶的信息抽取出來,組成小數(shù)據(jù)記錄,但記錄比大數(shù)據(jù)更加全面、詳細。小數(shù)據(jù)能體現(xiàn)個體的個性化行為和需求,數(shù)據(jù)具有非結構化的特點,單個用戶個體的數(shù)據(jù)總量小,因此實時計算相比大數(shù)據(jù)來說,算法簡單,計算量小,反饋更快。
學科用戶小數(shù)據(jù)是指學科用戶在科研和教學過程中產(chǎn)生的所有數(shù)據(jù)的總和。根據(jù)數(shù)據(jù)的來源,本文將學科用戶的小數(shù)據(jù)構成分為6個部分,分別是學科用戶的基本特征數(shù)據(jù)、用戶行為信息數(shù)據(jù)、各種管理系統(tǒng)的數(shù)據(jù)、移動互聯(lián)網(wǎng)數(shù)據(jù)、社交網(wǎng)絡數(shù)據(jù)、傳感器數(shù)據(jù)等。學科用戶的基本特征數(shù)據(jù),例如用戶的姓名、院系部門、教育程度、學科、研究方向、已經(jīng)發(fā)表的學術成果、學術著作等。用戶行為信息數(shù)據(jù)可以從Web 日志記錄的用戶行為數(shù)據(jù)中獲取,包括到訪次數(shù)、Web停留時間、下載次數(shù)等。各種管理系統(tǒng)數(shù)據(jù)如科研管理系統(tǒng)、教務系統(tǒng)、OPAC系統(tǒng)、數(shù)字資源管理系統(tǒng)等。移動互聯(lián)網(wǎng)數(shù)據(jù)是指讀者通過手機等移動設備借助移動互聯(lián)網(wǎng)技術進行的圖書館信息査詢、瀏覽、下載、閱讀等行為的記錄,主要涉及手機圖書館網(wǎng)站、手機短信提醒、微信、APP等方式。社交網(wǎng)絡數(shù)據(jù)是讀者通過微博、微信、QQ群、論壇、郵件等產(chǎn)生的數(shù)據(jù)。傳感器數(shù)據(jù)是指通過有線或無線傳感器網(wǎng)絡技術對圖書館不同位置的環(huán)境和資源進行智能化感知的數(shù)據(jù)。這些數(shù)據(jù)能夠記錄讀者與圖書館的溝通互動記錄,能夠直觀了解用戶群體使用圖書館的狀況和讀者的關注點。
數(shù)據(jù)挖掘技術作為一種信息分析的輔助技術應用到高校圖書館的學科服務中,利用聚類分析、關聯(lián)分析等手段,對不同類型的海量數(shù)據(jù)進行有效整合,并在此基礎上開展實時分析和數(shù)據(jù)挖掘,可以幫助高校圖書館對學科用戶進行分類,發(fā)現(xiàn)各類用戶的需求特征,為用戶提供學科知識服務和個性化知識服務,協(xié)助學科館員開展學科服務工作。
數(shù)據(jù)挖掘在圖書館中的應用主要集中在個性化知識服務和智慧圖書館知識服務兩個方面,兩者緊密相連密不可分。個性化服務一般依據(jù)用戶的行為習慣、興趣愛好等個性特點和不同需求,通過個性化檢索、系統(tǒng)推薦等方式為用戶提供知識服務[8]。柳益君提出了基于大數(shù)據(jù)挖掘的圖書館智慧服務模型,通過用戶群挖掘、用戶興趣挖掘、學科和領域知識挖掘、業(yè)務關聯(lián)挖掘等實現(xiàn)大數(shù)據(jù)應用和智慧服務的需求[9]。王穎純等基于知識挖掘的智慧推薦服務,包括了以知識庫為核心的智慧推薦、以用戶需求為核心的智慧推薦和以“用戶畫像”為核心的個性化推薦體驗[10]。
圖書館可以利用用戶大數(shù)據(jù)分析和知識挖掘,基于海量服務數(shù)據(jù)、業(yè)務數(shù)據(jù)的關聯(lián)和挖掘,更好地把握用戶需求和行為偏好,針對不同的用戶群開展個性化知識定制服務、智能知識推送服務、自動知識導航服務、個性化知識導航等服務[11]。針對不同的人群,數(shù)據(jù)挖掘有其特定的價值。從學科館員的角度來說,可以分析學科用戶的資源需求傾向,找出有相近資源需求的讀者后,相互推薦資源的下載信息等,并進行資源推送服務,對學科資源建設、資源評價也具有指導作用。從學科用戶的角度來說,分析學科用戶對數(shù)字資源的使用行為,挖掘用戶在數(shù)字資源訪問系統(tǒng)中的行為信息,發(fā)現(xiàn)不同類別用戶的閱讀愛好、學科方向,找出學科用戶的學科資源需求規(guī)律,以便運用智能推薦系統(tǒng),向用戶提供個性化的資源推薦提供依據(jù)[12],如圖1所示。
圖1 數(shù)據(jù)挖掘在學科服務中的作用
運用大數(shù)據(jù)的思維可以對圖書館學科用戶小數(shù)據(jù)進行有效的存儲和處理,也可以依托大數(shù)據(jù)分析處理平臺和大數(shù)據(jù)處理算法,對用戶小數(shù)據(jù)進行數(shù)據(jù)挖掘和分析,向學科用戶提供學科知識服務。
基于小數(shù)據(jù)的服務挖掘能夠掌握學科用戶的真實需求,提高學科服務質量,實現(xiàn)學科資源個性化服務,同時對于圖書館方面來說能指導圖書館的學科資源建設,有利于館藏資源的充分利用。圖書館領域的“小數(shù)據(jù)”挖掘是以讀者為中心,動態(tài)分析讀者在不同時刻的各種需求,進行數(shù)據(jù)采集、處理、計算、分析與應用的過程。借鑒服務挖掘和數(shù)據(jù)挖掘的一般過程,本文提出學科用戶小數(shù)據(jù)挖掘的系統(tǒng)構架,共分為4個層次,分別是用戶數(shù)據(jù)采集、數(shù)據(jù)處理和存儲、數(shù)據(jù)挖掘分析和個性化知識服務,基本研究框架如圖2所示。
圖2 學科用戶小數(shù)據(jù)挖掘的框架
數(shù)據(jù)的采集階段通過各種途徑搜集來自學科用戶的各方面的數(shù)據(jù)(見圖2),內部的專用各種系統(tǒng)可以直接通過日志提取的方式,外部的社交網(wǎng)絡數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)等可以通過網(wǎng)絡爬蟲系統(tǒng)獲取。
數(shù)據(jù)處理和存儲階段,即將采集到的各種數(shù)據(jù)進行選擇、預處理和數(shù)據(jù)轉換,建立學科用戶基本信息庫、用戶本體數(shù)據(jù)庫、用戶行為特征數(shù)據(jù)庫以及學科知識數(shù)據(jù)庫等。由于大數(shù)據(jù)主要關注數(shù)據(jù)的海量多樣化,對細節(jié)的精確度要求不高,在提取用戶個體的小數(shù)據(jù)時,需要對數(shù)據(jù)進行清洗和完善,如檢查數(shù)據(jù)一致性,處理無效值和缺失值,補充關鍵信息等。
數(shù)據(jù)挖掘和分析階段是整個數(shù)據(jù)挖掘過程的核心階段,在這個過程中最主要的是數(shù)據(jù)挖掘算法的選擇。數(shù)據(jù)挖掘分析階段通過數(shù)據(jù)挖掘算法分析用戶的行為特征,包括客戶行為指標體系構建、客戶行為分析和算法實現(xiàn)等,實現(xiàn)方法見圖2。數(shù)據(jù)挖掘的作用是利用利用機器學習、統(tǒng)計分析等特定的數(shù)據(jù)挖掘算法,從數(shù)據(jù)庫中發(fā)現(xiàn)有用的知識或相關的模式。
個性化知識服務是將數(shù)據(jù)挖掘分析的結果,通過個性化知識搜索、自動知識導航、個性化知識定制、個性化知識咨詢、智能知識推薦等方式向學科用戶展示出來。
知識服務的前提是用戶需求,因此知識服務的核心問題也就是如何確立用戶需求,然后根據(jù)用戶的真實需求搜尋匹配用戶所需的知識資源。要想有針對性地向讀者推薦學科信息或知識信息,首先要對讀者在數(shù)字資源訪問系統(tǒng)上的海量搜索行為進行采集,為每位讀者建立獨有的讀者信息挖掘庫,然后根據(jù)這個信息庫對每位讀者的搜索記錄進行讀者行為分析,使用數(shù)據(jù)挖掘聚類算法,找到其合適的讀者類型,最終為讀者推薦合適的學科知識資源。
小數(shù)據(jù)的挖掘是基于用戶行為數(shù)據(jù)庫,利用各種統(tǒng)計分析工具,獲取用戶對圖書館資源的使用偏好特征,挖掘出用戶對學科知識所產(chǎn)生的影響因子,并預測用戶未來對學科資源的需求。圖3展示了基于小數(shù)據(jù)挖掘的學科知識服務模型。模型以學科用戶為中心,通過學科用戶數(shù)據(jù)采集、數(shù)據(jù)的標準化存儲、數(shù)據(jù)挖掘分析、個性化知識服務等過程,向用戶提供個性化的學科知識服務。
圖3 基于小數(shù)據(jù)挖掘的學科知識服務模型
首先對學科用戶的基礎數(shù)據(jù)進行采集,建立學科用戶信息庫,同時對本機構的數(shù)據(jù)資源進行重構,建立學科知識數(shù)據(jù)庫;然后采用聚類分析和LSA潛在語義分析方法對學科用戶進行建模分析,形成學科用戶的興趣集合和用戶行為集合;最后采用內容推薦算法和協(xié)同過濾算法,在學科知識信息庫中尋找與學科用戶想匹配的知識資源,實現(xiàn)個性化服務和知識推薦等。
一站式學術搜索引擎作為高校圖書館智能學科服務個性化推薦的基礎支撐[13],詳細記錄了學科用戶的學術搜索行為信息,這部分數(shù)據(jù)是小數(shù)據(jù)挖掘最重要的數(shù)據(jù)來源。學科用戶信息庫是實現(xiàn)數(shù)據(jù)挖掘個性化服務的前提條件,通過對用戶信息的挖掘才能發(fā)現(xiàn)用戶的真實需求。學科知識信息庫的建立需要在用戶需求的前提下,按照學科分類對本單位的知識資源進行整理和重構,是實現(xiàn)學科知識服務的基礎,將圖書館的資源與用戶的需求相結合之后才能實現(xiàn)精準的學科知識服務。面向學科用戶,采用用戶特征提取方法和用戶行為分片對學科用戶進行聚類分析,建立聚類分析模型,分別產(chǎn)生興趣集和相似分片集。結合用戶行為信息庫和學科知識庫,采用用戶檢索詞特征向量和數(shù)據(jù)資源特征向量分析方法,建立語義分析模型。在聚類分析和語義分析的基礎上形成學科用戶的興趣集合和用戶行為集合。采用內容推薦算法和協(xié)同過濾算法,根據(jù)用戶的興趣偏好和用戶行為特征建立興趣模型,在學科知識信息庫中尋找與學科用戶想匹配的知識資源,實現(xiàn)知識的關聯(lián)和知識的挖掘。發(fā)現(xiàn)隱藏在讀者行為數(shù)據(jù)中的知識和價值,并采取合適的方式展示給用戶,實現(xiàn)以用戶需求為目標的個性化推薦和知識服務。在個性化精準服務的基礎上,實現(xiàn)服務內容和服務方式的創(chuàng)新,為教學和科研提供服務。
收集用戶需求和反饋。針對每個學科用戶建立用戶信息庫,并對用戶進行需求分析、展示其現(xiàn)行需求,挖掘其隱性需求。小數(shù)據(jù)分析決策、個性化服務反饋,可以促進系統(tǒng)自適應優(yōu)化和完善,提升用戶服務滿意度。同時收集用戶的反饋信息,做到有的放矢、按需定制服務。
用戶行為可視化呈現(xiàn)。利用可視化技術將學科用戶的數(shù)據(jù)行為展示出來,為學科用戶本人提供數(shù)據(jù)服務,呈現(xiàn)其科研過程脈絡,同時將其隱性需求展示出來。同時,利用以上對學科用戶小數(shù)據(jù)的分析,將其數(shù)據(jù)行為軌跡,以圖表或的形式展示給用戶。為用戶展示其用戶畫像或數(shù)據(jù)畫像,記錄其科研過程,追蹤用戶的學科發(fā)展動態(tài),提供數(shù)據(jù)分析和數(shù)據(jù)展示服務。
開展個性化知識服務。在對讀者行為小數(shù)據(jù)挖掘分析的基礎上開展個性化服務,避免盲目性和低效性,從讀者的需求出發(fā),實現(xiàn)精準服務,提高個性化服務的時效性和準確性。并以讀者為中心、關注個性化的需求、明確讀者未來的需求發(fā)展趨勢,構建全方位的個性化服務體系。
優(yōu)化數(shù)字資源建設。根據(jù)小數(shù)據(jù)分析的結果和用戶反饋,對圖書館的知識資源進行有效的整合和重構,有針對性地進行資源建設,滿足大多數(shù)人群的資源需求和少數(shù)重點用戶的需求。基于用戶小數(shù)據(jù)的挖掘分析,也可以對學科用戶開展用戶生命周期、用戶忠誠度分析等研究。
小數(shù)據(jù)是個體用戶的“全數(shù)據(jù)”,可以用來統(tǒng)計分析用戶個體信息、推薦個性化的信息服務、指標預警、制作用戶畫像、提升用戶服務感受等。在后續(xù)的研究過程中可重視以下幾個方面的研究:統(tǒng)籌規(guī)劃大數(shù)據(jù)的基礎設施建設;推進智能化建設,推進核心技術攻關;推進圖書館與學校各個業(yè)務系統(tǒng)的數(shù)據(jù)融合和數(shù)據(jù)共享;小數(shù)據(jù)挖掘和使用過程對用戶的隱私的保障等。