王明
【摘 要】隨著科學(xué)技術(shù)的飛速發(fā)展,我們贏來了信息化時(shí)代,各類數(shù)據(jù)越來越豐富。如何準(zhǔn)確地記錄和傳遞信息,是全面、正確地利用信息,產(chǎn)生社會(huì)價(jià)值的重要前提。而數(shù)據(jù)挖掘技術(shù)的出現(xiàn)及其飛速發(fā)展,為我們組織管理海量信息,挖掘其中的價(jià)值提供了可行的路徑。數(shù)據(jù)挖掘技術(shù)在計(jì)算機(jī)信息管理技術(shù)中的具體應(yīng)用廣泛,有進(jìn)一步研究的價(jià)值。
【關(guān)鍵詞】計(jì)算機(jī);信息管理技術(shù);探討
人類的發(fā)展伴隨著信息的傳遞,從原始社會(huì)的結(jié)繩記事到封建社會(huì)的烽火傳書,信息的管理和傳播貫穿人類文明進(jìn)程。隨著科學(xué)技術(shù)的飛速發(fā)展,我們贏來了信息化時(shí)代,信息與物質(zhì)和能源共同構(gòu)成了現(xiàn)代社會(huì)的三大支柱資源[1]。隨著計(jì)算機(jī)的普及、網(wǎng)絡(luò)技術(shù)的發(fā)展和數(shù)據(jù)庫技術(shù)的成熟,人們利用信息技術(shù)生產(chǎn)和搜集數(shù)據(jù)的能力大幅度提高,大量的數(shù)據(jù)庫被用于商業(yè)管理、政府辦公、科學(xué)研究和工程開發(fā)等行業(yè)[2]。各類數(shù)據(jù)越來越豐富。如何準(zhǔn)確地記錄和傳遞信息,是全面、正確地利用信息,產(chǎn)生社會(huì)價(jià)值的重要前提。而數(shù)據(jù)挖掘技術(shù)的出現(xiàn)及其飛速發(fā)展,為我們組織管理海量信息,挖掘其中的價(jià)值提供了可行的路徑[3]。
1.數(shù)據(jù)挖掘概念及現(xiàn)狀
數(shù)據(jù)挖掘是一門研究從數(shù)據(jù)中尋找有價(jià)值信息的新興學(xué)科,是從大量、有缺失的隨機(jī)模糊數(shù)據(jù)中提取用戶感興趣的信息的一種應(yīng)用技術(shù)。從決策科學(xué)的角度來講,數(shù)據(jù)挖掘就是在已知的集合數(shù)據(jù)集合中建立模型以支持決策的過程。數(shù)據(jù)挖掘的過程就是從大量的數(shù)據(jù)源的集合C中發(fā)現(xiàn)隱含的模型P。將C定義為輸入,將P定義為輸出,數(shù)據(jù)挖掘就是一個(gè)從輸入到輸出的條件映射C=>P。挖掘的信息不僅是數(shù)據(jù)庫中的數(shù)據(jù),還可以是任何形式組織成的集合數(shù)據(jù)。既可以是結(jié)構(gòu)化的標(biāo)準(zhǔn)數(shù)據(jù),也可以是非結(jié)構(gòu)化的網(wǎng)絡(luò)資源。通過挖掘這些數(shù)據(jù),能夠進(jìn)一步了解信息內(nèi)在的意義。數(shù)據(jù)挖掘技術(shù)是當(dāng)前計(jì)算機(jī)信息管理技術(shù)研究的熱點(diǎn)。
數(shù)據(jù)挖掘所采用的方法多種多樣,既有定量分析方法,也有定量判斷的技術(shù)。其應(yīng)用范圍廣泛,可以被用于信息的管理、組織等。它是一門前沿學(xué)科,涉及數(shù)學(xué)、計(jì)算機(jī)、人工智能等多個(gè)新興領(lǐng)域。目前該領(lǐng)域的常用技術(shù)有人工神經(jīng)網(wǎng)絡(luò)、決策樹、遺傳算法、最近鄰技術(shù)、規(guī)則歸納、可視化等[4]。
2.數(shù)據(jù)挖掘在計(jì)算機(jī)信息管理領(lǐng)域的應(yīng)用
人們對(duì)信息的利用要求已經(jīng)不只滿足一般的信息檢索和簡(jiǎn)單獲取。而且還要求組織機(jī)構(gòu)中的信息管理服務(wù)部門能對(duì)內(nèi)容進(jìn)行深入分析,從收集到的大量數(shù)據(jù)中挖掘出隱藏的、內(nèi)在的、有用的知識(shí)或信息,發(fā)現(xiàn)數(shù)據(jù)間的想關(guān)性。為生產(chǎn)生活活動(dòng)提供更深層次的信息服務(wù)。下面以檔案管理為例介紹數(shù)據(jù)挖掘技術(shù)的具體應(yīng)用。
20世紀(jì)80年代以來,計(jì)算機(jī)技術(shù)的飛速發(fā)展為信息管理提供一種全新的技術(shù)手段,使機(jī)構(gòu)以前的檔案作為一種信息在信息時(shí)代展露頭腳。在近20年的計(jì)算機(jī)管理過程中,各個(gè)檔案部門積累了大量的數(shù)字化信息,既有目錄索引、原文文獻(xiàn),又有利用記錄、查詢統(tǒng)計(jì)等方面的信息。目前,估計(jì)存于檔案數(shù)據(jù)庫中的條目多達(dá)10億條,約有1PB的數(shù)據(jù)。而相信隨著后期數(shù)字化檔案館建設(shè)工作的展開,數(shù)字化的檔案信息數(shù)量將飛速增長(zhǎng),而現(xiàn)有的計(jì)算機(jī)信息管理系統(tǒng)只能對(duì)這些信息進(jìn)行簡(jiǎn)單的檢索和數(shù)據(jù)統(tǒng)計(jì)常規(guī)分析,遠(yuǎn)遠(yuǎn)不能滿足實(shí)際工作需要,使得存儲(chǔ)于數(shù)據(jù)中的信息不能被充分利用,造成了資源的極大浪費(fèi)。目前來說,數(shù)據(jù)挖掘技術(shù)存在的應(yīng)用方向有以下幾類:
2.1信息資源的優(yōu)化建設(shè)
通過對(duì)數(shù)據(jù)庫系統(tǒng)的查詢、運(yùn)行、檢索請(qǐng)求進(jìn)行挖掘分析,統(tǒng)計(jì)數(shù)據(jù)查詢、利用情況,為進(jìn)一步有針對(duì)性地補(bǔ)充和豐富高價(jià)值的信息資源提供決策支持。同時(shí)對(duì)用戶的使用情況進(jìn)行關(guān)聯(lián)分析,發(fā)現(xiàn)各類數(shù)據(jù)庫間的關(guān)聯(lián)規(guī)則,優(yōu)化信息管理系統(tǒng)的建設(shè)和布局。
通過對(duì)用戶利用數(shù)據(jù)庫的模式進(jìn)行深入挖掘,了解用戶的興趣動(dòng)態(tài),并結(jié)合具體科研情況及現(xiàn)有館藏信息,及時(shí)發(fā)現(xiàn)信息資源的缺漏,滿足用戶的需要。
通過網(wǎng)頁內(nèi)容的進(jìn)一步挖掘,可以對(duì)互聯(lián)網(wǎng)上大量的文檔集合的內(nèi)容進(jìn)行提取、分類、群聚和關(guān)聯(lián)性分析,從而從大量的互聯(lián)網(wǎng)資源中抽取潛在的有用信息,通過對(duì)網(wǎng)站結(jié)構(gòu)和相互關(guān)系的挖掘,找到相關(guān)專業(yè)及研究方向的權(quán)威頁面,進(jìn)一步方便用戶的信息資源的獲取。
實(shí)現(xiàn)信息的自動(dòng)化處理。針對(duì)檔案館主要為文本數(shù)據(jù)的特點(diǎn),利用文本挖掘技術(shù)實(shí)現(xiàn)對(duì)文本內(nèi)容的自動(dòng)摘要、分類。其基本思想是應(yīng)用統(tǒng)計(jì)算法,提取與主題密切相關(guān)的語句,挖掘該文檔的類別,自動(dòng)生成摘要信息和主題詞,以供查詢[5]。
降低數(shù)字化成本。例如,系統(tǒng)對(duì)單位人事檔案進(jìn)行數(shù)據(jù)挖掘分析,發(fā)現(xiàn)在每一卷幾十份的人事檔案中用戶利用數(shù)量最多的是其中的“簡(jiǎn)歷”等少數(shù)幾份文件。針對(duì)這個(gè)結(jié)果,在安排掃描數(shù)字化工作時(shí),可以設(shè)計(jì)為只掃描每一卷中部分檔案,可以大大減輕掃描人員的工作量,而且節(jié)省了設(shè)備開銷。
預(yù)測(cè)檔案之間關(guān)聯(lián)關(guān)系。系統(tǒng)通過對(duì)用戶的使用情況進(jìn)行挖掘,發(fā)現(xiàn)用戶在使用“請(qǐng)示”類和“報(bào)告”類文件時(shí),50%以上還利用了“批復(fù)”類文件。針對(duì)這一現(xiàn)狀,在提供檔案利用時(shí),當(dāng)用戶提出利用“請(qǐng)示”和“報(bào)告”文件時(shí),我們可以主動(dòng)提供“批復(fù)”類文件。取得了良好的利用效果,受到用戶稱贊。
2.2數(shù)據(jù)挖掘在信息服務(wù)中的應(yīng)用
可以借助數(shù)據(jù)挖掘技術(shù)以完善信息結(jié)構(gòu),提升服務(wù)質(zhì)量,拓展服務(wù)范圍。具體包括:
提高信息的獲取速度。為保證用戶迅速獲取所需信息,可以先搜集用戶歷年使用的專題集合(瀏覽模式)作為一個(gè)事件庫,記錄所有用戶的瀏覽歷史事件庫,對(duì)其如下操作:
利用挖掘算法進(jìn)行關(guān)聯(lián)性分析,找出訪問頻率異常突出的專題(項(xiàng)目)集,利用分類算法匹配用戶瀏覽模式和項(xiàng)目集,將具有相似瀏覽模式的用戶遷移集中至一個(gè)服務(wù)器上,以降低服務(wù)器負(fù)荷和傳輸頁面數(shù)量。
針對(duì)事件庫中訪問頻率超過給定閾值的專題,利用關(guān)聯(lián)分析建立專題間的關(guān)聯(lián)規(guī)則,構(gòu)件索引,當(dāng)用戶瀏覽某頁時(shí),根據(jù)設(shè)定的規(guī)則預(yù)先連接其關(guān)聯(lián)頁,以提高響應(yīng)速度。
提供個(gè)性化信息服務(wù)??梢郧罢靶缘臑橛脩籼峁┲鲃?dòng)響應(yīng),以發(fā)掘培養(yǎng)用戶的使用。根據(jù)用戶的興趣提供個(gè)性化服務(wù)。具體包括:當(dāng)發(fā)現(xiàn)新數(shù)據(jù)時(shí),及時(shí)告知用戶;當(dāng)用戶訪問時(shí),自動(dòng)推介相關(guān)專題信息。應(yīng)用興趣模式算法判斷并開發(fā)潛在用戶,并轉(zhuǎn)化為新用戶。
3.結(jié)論
總之,數(shù)據(jù)挖掘技術(shù)的引入,提升了計(jì)算機(jī)信息管理海量資源的能力和水平,使得數(shù)據(jù)管理層次進(jìn)一步深入,更好地滿足人們的需要,具有巨大的經(jīng)濟(jì)和社會(huì)效益。但同時(shí)應(yīng)當(dāng)注意,數(shù)據(jù)挖掘是目前新興的智能信息處理技術(shù),目前的發(fā)展還暴露出許多的難題和不足,尤其是在web2.0的網(wǎng)絡(luò)環(huán)境下,用戶自己組織產(chǎn)生了大量的數(shù)據(jù),此時(shí),如何利用數(shù)據(jù)挖掘技術(shù)作為基本的數(shù)據(jù)分析模塊,高度集成計(jì)算機(jī)信息管理系統(tǒng)、數(shù)據(jù)庫系統(tǒng)和互聯(lián)網(wǎng)資源,管理、挖掘和分析信息,是我們面臨的機(jī)遇和挑戰(zhàn),有待進(jìn)一步研究和探索。
【參考文獻(xiàn)】
[1]丁永生.計(jì)算機(jī)信息管理技術(shù)研究[J].黑龍江科技信息,2011(31):93.
[2]王偉,譚媛媛.計(jì)算機(jī)信息管理技術(shù)初探[J].今日科苑,2010(12):137.
[3]田大翠,李海全,田素奇.計(jì)算機(jī)信息管理技術(shù)研究[J].才智,2011(20):72.
[4]李朝葵,凌云.數(shù)據(jù)挖掘及其在圖書館中的應(yīng)用[J].情報(bào)雜志,2002(06):33-34.
[5]金梅.淺析基于數(shù)據(jù)挖掘的圖書館虛擬參考咨詢服務(wù)[J].河南科技,2013(03):5.