肖柳珠
(北海藝術(shù)設(shè)計(jì)學(xué)院,廣西北海,536000)
數(shù)據(jù)挖掘最初的概念始于20世紀(jì)末期,當(dāng)時(shí)學(xué)者們指出在海量的信息數(shù)據(jù)中隱藏著大量的有用信息需要挖掘與提取。信息數(shù)據(jù)挖掘技術(shù)就是通過利用統(tǒng)計(jì)技術(shù)與人工技術(shù)將海量的信息數(shù)據(jù)進(jìn)行整合分析,并從這些海量的信息數(shù)據(jù)中提取出對人們有用的信息數(shù)據(jù),實(shí)現(xiàn)人們高效率獲取信息數(shù)據(jù)的目的。資料顯示,數(shù)據(jù)挖掘分析方法主要有描述與可視化,基于可視化工具將人們所需要的目標(biāo)信息進(jìn)行分析,鉆取有用信息,使得信息數(shù)據(jù)挖掘的結(jié)果更加的生動(dòng)形象。其中,分類是指通過系統(tǒng)預(yù)設(shè)的信息數(shù)據(jù)分類模型,對海量的信息數(shù)據(jù)進(jìn)行篩選分類;估計(jì)是指將篩選得出的信息數(shù)據(jù)基于估值計(jì)算得到連續(xù)變量值,并由系統(tǒng)預(yù)設(shè)的閥值(常用的閥值為0-9級)進(jìn)行合理的分級管理;預(yù)測是指通過前述的分類與估值,并基于所獲取的信息數(shù)據(jù)進(jìn)行分類分析,得出計(jì)算模型,滿足對信息變量的預(yù)估;聚類是指對所挖掘的信息數(shù)據(jù)進(jìn)行記錄,并將具有相似性特點(diǎn)的信息數(shù)據(jù)整合在一個(gè)序列內(nèi),從而確保每一個(gè)分組的信息數(shù)據(jù)均形成具有預(yù)測性或暗示性的特征。相關(guān)性分組是指,基于模型中既定的信息數(shù)據(jù)特征量關(guān)聯(lián)度的分析,進(jìn)行預(yù)測。數(shù)據(jù)挖掘技術(shù)的實(shí)現(xiàn)需要借助強(qiáng)大的數(shù)據(jù)庫系統(tǒng)來實(shí)現(xiàn),為數(shù)據(jù)挖掘提供存儲(chǔ)、索引與查詢支持,并能夠滿足運(yùn)用高性能計(jì)算手段達(dá)到對海量信息數(shù)據(jù)的集成化處理,例如常使用的分布式技術(shù)。20世紀(jì)中后期,學(xué)者們開始嘗試將數(shù)據(jù)挖掘技術(shù)應(yīng)用到圖書館中。近些年來,各高校為滿足用戶對信息數(shù)據(jù)服務(wù)質(zhì)量的要求,逐漸開始在高效圖書館內(nèi)推廣使用數(shù)字信息技術(shù),海量的信息數(shù)據(jù)充斥在圖書館內(nèi),數(shù)據(jù)挖掘技術(shù)在高效圖書館內(nèi)的應(yīng)用逐漸變寬,并滲入高效圖書信息服務(wù)、圖書管理各個(gè)領(lǐng)域。
完備的數(shù)據(jù)是進(jìn)行大數(shù)據(jù)分析的基礎(chǔ),對大數(shù)據(jù)的利用與分析有著重要意義。但在現(xiàn)實(shí)生活中,在各種因素的影響下,信息數(shù)據(jù)出現(xiàn)缺失、殘缺的現(xiàn)象層出不窮,可以說信息數(shù)據(jù)不完備問題嚴(yán)重制約了信息的高質(zhì)量利用。因此,通過填補(bǔ)技術(shù)對海量的信息數(shù)據(jù)進(jìn)行填補(bǔ)成為解決信息數(shù)據(jù)不完備的主要途徑。目前,最常使用的填補(bǔ)技術(shù)是動(dòng)態(tài)概率數(shù)據(jù)填補(bǔ)法,首先根據(jù)已經(jīng)被挖掘出來的信息進(jìn)行邏輯順序的確定,并基于挖掘出的信息數(shù)據(jù)預(yù)測后期事件發(fā)生情況以及填補(bǔ),該填補(bǔ)技術(shù)具有操作簡單、功能性強(qiáng)等優(yōu)點(diǎn),且在使用的過程中其填補(bǔ)的準(zhǔn)確性有待提高。我國學(xué)者鄭啟瑞提出了一種基于局部敏感哈希數(shù)據(jù)填補(bǔ)算法,通過哈希數(shù)值的計(jì)算找尋出各信息數(shù)據(jù)間的相似程度,最終達(dá)到相似度更高的若干數(shù)據(jù),之后使用KNN算法對那些不完整的數(shù)據(jù)進(jìn)行填補(bǔ)。經(jīng)研究發(fā)現(xiàn),該填補(bǔ)技術(shù)具有較高的填補(bǔ)準(zhǔn)確性,但由于在填補(bǔ)過程中沒有對信息數(shù)據(jù)進(jìn)行統(tǒng)一歸類處理,影響了填補(bǔ)的效率。
大數(shù)據(jù)的挖掘與填補(bǔ)必然需要借助強(qiáng)大的數(shù)據(jù)中心服務(wù)平臺完成,尤其是隨著高校圖書館信息數(shù)量的劇增,對信息管理系統(tǒng)質(zhì)量要求越來越高。
基于logistic不完備信息數(shù)據(jù)的填補(bǔ)技術(shù),首先需要將信息數(shù)據(jù)的作歸一化處理,基于預(yù)估規(guī)則把采集到的信息數(shù)據(jù)做協(xié)方差函數(shù),做模擬填補(bǔ),之后通過使用回歸模型分析信息數(shù)據(jù)中缺失的數(shù)據(jù),按照數(shù)據(jù)分布的特征完成缺失變量的填補(bǔ),進(jìn)而獲取到完備的信息數(shù)據(jù)。然后對信息數(shù)據(jù)平均向量和協(xié)方差函數(shù)進(jìn)行再次估計(jì),通過不斷的迭代完成不完備數(shù)據(jù)的填補(bǔ)輸出。具體過程如下:首先通過估計(jì)計(jì)算獲取出信息數(shù)據(jù)的平均向量和協(xié)方差函數(shù),并通過對待填補(bǔ)信息數(shù)據(jù)的觀察,對缺失值進(jìn)行模擬填補(bǔ)。假定Q為其中的一個(gè)待估計(jì)參數(shù),可以通過點(diǎn)估值Q1進(jìn)行保證,此時(shí)由于具有M個(gè)完備的信息數(shù)據(jù)集合,那么就存在著M個(gè)Q1標(biāo)準(zhǔn)誤,由此可以得出:
由公式(1)可以計(jì)算得出協(xié)方函數(shù):
利用公式(1)、公式(2)即可滿足對待填補(bǔ)對象缺失值獨(dú)立模型的填補(bǔ),通過回歸模型制定不存在缺失值變量的后概率分布結(jié)果,選擇相應(yīng)的填補(bǔ)值,計(jì)算出需要填補(bǔ)信息數(shù)據(jù)的全部部分。反復(fù)進(jìn)行迭代,直至迭代結(jié)果滿足要求。
(1)高效處理圖書館信息數(shù)據(jù)管理系統(tǒng)中的海量數(shù)據(jù)。如圖1所示為海量數(shù)據(jù)處理流程。
圖1 海量數(shù)據(jù)處理流程
首先對信息管理系統(tǒng)中的海量數(shù)據(jù)做離散化處理,將各種形式的繁雜信息數(shù)據(jù)按照統(tǒng)一歸類原則劃分成子集合,之后以子集合中的某一項(xiàng)特征屬性對各個(gè)子集合完成區(qū)分,各子集合間可能存在這相類似的特征量,此時(shí)利用決策樹剪枝功能對各子集合中的信息數(shù)據(jù)進(jìn)行剪枝,把子集中的無效信息數(shù)據(jù)做集合處理,以此達(dá)到降低信息數(shù)據(jù)挖掘難度。之后再利用決策樹算法對信息數(shù)據(jù)處理,降低信息數(shù)據(jù)的緯度。
(2)滿足用戶個(gè)性化圖書服務(wù)。每一位用戶對信息數(shù)據(jù)的需求是存在較大差異性的,為提升圖書館信息服務(wù)質(zhì)量,就需要做到專職服務(wù)。而填補(bǔ)技術(shù)的應(yīng)用就可以滿足個(gè)性化需求,通過對用戶所具備的共同特點(diǎn)的挖掘,總結(jié)歸納出用戶對信息需求相似之處,進(jìn)而為每一位用戶提供具體的圖書信息需求。通過不斷的聚類、計(jì)算均值,確保目標(biāo)測度逐漸區(qū)域收斂,進(jìn)而得到具體的信息集合,滿足用戶個(gè)性化需求。如圖2所示為系統(tǒng)挖掘用戶個(gè)性化需求過程。
圖2 挖掘用戶個(gè)性化需求流程圖
(3)預(yù)測讀者需求,指導(dǎo)圖書決策的制定??茖W(xué)合理長效機(jī)制的建立能夠幫助圖書館精準(zhǔn)地預(yù)測客戶對圖書信息的需求,并根據(jù)采集到的信息數(shù)據(jù)進(jìn)行圖書信息服務(wù)的調(diào)整與優(yōu)化,進(jìn)而滿足用戶的個(gè)性化需求。其中,支持向量機(jī)本質(zhì)上可以說是一種監(jiān)督學(xué)習(xí)模型,通過把那些滿足整體特征的信息數(shù)據(jù)進(jìn)行整合,并做歸一分析,進(jìn)而構(gòu)建能夠?qū)τ脩粑磥黹喿x信息的預(yù)測,幫助圖書館完成信息服務(wù)管理系統(tǒng)的優(yōu)化升級。向量機(jī)在對用戶閱讀信息進(jìn)行預(yù)測時(shí),首先會(huì)把兩種信息數(shù)據(jù)隔離開,通過對比分析選擇使用適宜的支持向量,并按照各信息數(shù)據(jù)點(diǎn)的就近原則完成相應(yīng)信息數(shù)據(jù)的處理,并計(jì)算得出最優(yōu)邏輯。比如,在分析哪一類人員對某種書籍需求度較高進(jìn)行分析時(shí),可以利用系統(tǒng)把原始信息數(shù)據(jù)投射至高緯度特征空間,實(shí)現(xiàn)對各專業(yè)使用該本數(shù)據(jù)的占比,并基于分析將給本書籍推廣到定位人群。
在信息時(shí)代背景下,大數(shù)據(jù)驅(qū)動(dòng)決策成為必然。我國高校逐漸開始應(yīng)用大數(shù)據(jù)技術(shù),高校圖書館作為一個(gè)大數(shù)據(jù)信息的生產(chǎn)者,要想發(fā)揮信息數(shù)據(jù)的活力,就需要基于圖書館特點(diǎn),構(gòu)建相應(yīng)的系統(tǒng),對其中各種形式的信息數(shù)據(jù)進(jìn)行采集、整理、分析,發(fā)掘信息數(shù)據(jù)價(jià)值,為用戶提供高質(zhì)量的信息服務(wù)質(zhì)量。