• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于數(shù)據(jù)挖掘技術(shù)的高校檔案信息服務(wù)功能研究

      2018-02-21 02:30:30戈妍妍牟虹竇雪
      科技視界 2018年32期
      關(guān)鍵詞:數(shù)據(jù)挖掘關(guān)聯(lián)檢索

      戈妍妍 牟虹 竇雪

      【摘 要】數(shù)據(jù)挖掘是數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)的一個(gè)過(guò)程,數(shù)據(jù)挖掘技術(shù)是從大型數(shù)據(jù)庫(kù)中提取以前未知的有意義的數(shù)據(jù),然后做出決策的過(guò)程。本文在分析數(shù)據(jù)挖掘概念及其主要技術(shù)方法的基礎(chǔ)上,結(jié)合徐州醫(yī)科大學(xué)檔案館的實(shí)際工作,探討了數(shù)據(jù)挖掘技術(shù)在檔案信息服務(wù)中的具體應(yīng)用。

      【關(guān)鍵字】數(shù)據(jù)挖掘;高校檔案;信息服務(wù)

      中圖分類號(hào): G273.5;G647.24 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 2095-2457(2018)32-0226-002

      DOI:10.19694/j.cnki.issn2095-2457.2018.32.104

      【Abstract】Data mining is a process of knowledge discovery in a database. Data mining is a process of extracting meaningful data from a large database and then making decisions. Based on the analysis of the concept of data mining and its main technical methods, this paper discusses the application of data mining technology in archives management based on the practice of archives of Xuzhou Medical University.

      【Key words】Data Mining; University Archives; Service

      隨著電子政務(wù)和社會(huì)信息化的加快推進(jìn),檔案的工作理念、技術(shù)、方法及模式受到深刻影響。過(guò)去傳統(tǒng)的檔案管理方式,已經(jīng)不能夠滿足當(dāng)前信息化建設(shè)的需求,在高校檔案信息化管理過(guò)程中積累了海量的數(shù)據(jù),挖掘出這些數(shù)據(jù)背后隱藏的大量有價(jià)值的信息。對(duì)加強(qiáng)高校檔案服務(wù)功能起到重要作用。

      1 數(shù)據(jù)挖掘及其在高校檔案信息服務(wù)中的基本應(yīng)用

      1.1 數(shù)據(jù)挖掘的概念及主要方法

      數(shù)據(jù)挖掘,是從大量的、不完全、模糊的數(shù)據(jù)中挖掘或抽取未知的、有價(jià)值的知識(shí)的過(guò)程[1]。整個(gè)知識(shí)的挖掘過(guò)程由六個(gè)挖掘步驟組成,分別是數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)挖掘、知識(shí)表示,數(shù)據(jù)挖掘只是其中主要的一個(gè)步驟。作為一種有效利用數(shù)據(jù)資源的方法和途徑,數(shù)據(jù)挖掘技術(shù)在檔案信息服務(wù)領(lǐng)域具有廣闊的應(yīng)用范圍和開發(fā)前景,數(shù)據(jù)挖掘在檔案信息服務(wù)中適用的三種技術(shù)方法是:(1)關(guān)聯(lián)規(guī)則:它是數(shù)據(jù)挖掘技術(shù)中重要的研究方法之一,它可以從海量的數(shù)據(jù)和關(guān)聯(lián)的數(shù)據(jù)中,挖掘出有價(jià)值的知識(shí)和模式[2]。(2)分類與預(yù)測(cè):分類是數(shù)據(jù)挖掘的一種重要的方法,主要是在現(xiàn)有的數(shù)據(jù)基礎(chǔ)上,選出分類好的訓(xùn)練集,構(gòu)造一個(gè)分類函數(shù)或者一個(gè)分類模型,把對(duì)象總體區(qū)分成各個(gè)類別的過(guò)程。預(yù)測(cè)是從歷史數(shù)據(jù)中自動(dòng)計(jì)算出給定數(shù)的推廣描述,挖掘出隱藏的規(guī)律信息,從而對(duì)未來(lái)相關(guān)的數(shù)據(jù)進(jìn)行預(yù)測(cè)。(3)聚類規(guī)則:它是一種比較常見的描述工作,它將數(shù)據(jù)分成不同群組,屬于同一類的群組的數(shù)據(jù)盡可能的相似,而不同群組的數(shù)據(jù)的差別盡可能的大,通常采用數(shù)值分析中圖論的相關(guān)知識(shí)來(lái)進(jìn)行聚類,一般來(lái)說(shuō)聚類要經(jīng)過(guò)多次才能得到一個(gè)理想的結(jié)果。

      1.2 數(shù)據(jù)挖掘技術(shù)在高校檔案信息服務(wù)中的基本應(yīng)用

      數(shù)據(jù)挖掘技術(shù)目前的發(fā)展已相對(duì)成熟,在圖書情報(bào)、教育研究等領(lǐng)域也有了一定的價(jià)值體現(xiàn),而在檔案信息管理中,該技術(shù)還沒有得到推廣,仍處于實(shí)驗(yàn)階段[3]。從2004年開始我校檔案館就開始了檔案的數(shù)字化建設(shè),我們使用檔案管理系統(tǒng),把各個(gè)門類的檔案錄入到系統(tǒng)中,至今為止徐州醫(yī)科大學(xué)檔案館存儲(chǔ)了大量的案卷級(jí)、文件級(jí)目錄庫(kù)、全文數(shù)據(jù)庫(kù)、圖像數(shù)掘庫(kù)、數(shù)字化掃描數(shù)據(jù)庫(kù),并建立了干部任免、科研成果,職稱等專題數(shù)據(jù)庫(kù)。隨著檔案數(shù)字化建設(shè)的資源積累,館內(nèi)存儲(chǔ)了海量數(shù)據(jù),但數(shù)據(jù)本身存在重復(fù)、冗余的現(xiàn)象。如何更加有效的利用檔案信息中現(xiàn)有的數(shù)據(jù),提高檔案利用的效率,提供更便利的檔案服務(wù)已成為當(dāng)前迫切需要解決的問(wèn)題。經(jīng)研究發(fā)現(xiàn),數(shù)據(jù)挖掘技術(shù)正是解決這個(gè)問(wèn)題的最佳技術(shù)方法,為檔案信息服務(wù)的應(yīng)用奠定了物質(zhì)基礎(chǔ)。

      數(shù)據(jù)挖掘技術(shù)無(wú)論是在理論上還是實(shí)際上都能夠應(yīng)用于檔案信息服務(wù)中。在這個(gè)知識(shí)經(jīng)濟(jì)時(shí)代,數(shù)據(jù)挖掘技術(shù)是很重要的知識(shí)獲取工具,它是在網(wǎng)絡(luò)技術(shù)和數(shù)字知識(shí)的基礎(chǔ)上,發(fā)掘和尋找出檔案信息管理中的有價(jià)值的知識(shí)資源,使檔案信息管理中的數(shù)據(jù)得到更合理的利用。而且隨著信息化時(shí)代的來(lái)臨,社會(huì)各界對(duì)檔案服務(wù)的需求更趨多樣和迫切,對(duì)檔案工作領(lǐng)域拓展和服務(wù)能力提升提出了更高的要求,越來(lái)越多的數(shù)字化檔案被利用,領(lǐng)導(dǎo)對(duì)檔案工作也是越來(lái)越重視,給予了大量人力、財(cái)力、技術(shù)上的支持,這些都為數(shù)據(jù)挖掘技術(shù)在檔案信息服務(wù)中應(yīng)用提供了強(qiáng)有力的保障,確保數(shù)據(jù)挖掘技術(shù)在檔案信息服務(wù)中應(yīng)用的可行性。

      2 數(shù)據(jù)挖掘技術(shù)在檔案信息服務(wù)中的具體功能體現(xiàn)

      2.1 為用戶提供個(gè)性化服務(wù)

      傳統(tǒng)的檔案信息服務(wù)是被動(dòng)的,被咨詢的,隨著社會(huì)信息化的加快推進(jìn),檔案工作要主動(dòng)提供服務(wù),關(guān)聯(lián)規(guī)則通過(guò)對(duì)用戶數(shù)據(jù)庫(kù)進(jìn)行關(guān)聯(lián)分析,從海量數(shù)據(jù)中挖掘出對(duì)檔案管理員有參考價(jià)值的數(shù)據(jù),從而主動(dòng)提供個(gè)性化服務(wù)。例如,在檔案館的網(wǎng)站上建立一個(gè)留言板窗口:如圖1所示,用戶可以進(jìn)行查檔咨詢,提供個(gè)人相關(guān)信息和查詢內(nèi)容。如有用戶輸入留言板這個(gè)數(shù)據(jù)庫(kù),系統(tǒng)則針對(duì)用戶的需求來(lái)提供服務(wù)。運(yùn)用關(guān)聯(lián)分析的技術(shù)方法根據(jù)用戶提供的信息和查詢內(nèi)容的情況進(jìn)行綜合分類;根據(jù)用戶提問(wèn)的問(wèn)題,發(fā)現(xiàn)用戶的關(guān)注點(diǎn);根據(jù)這些數(shù)據(jù)挖掘出不同用戶的需求和使用特點(diǎn),主動(dòng)向用戶推薦;通過(guò)對(duì)用戶興趣的統(tǒng)計(jì),我們可以把握當(dāng)下與用戶個(gè)人利益相關(guān)的信息。比如申報(bào)衛(wèi)生職業(yè)醫(yī)師、職稱申報(bào)、出國(guó)留學(xué)等時(shí)間節(jié)點(diǎn),發(fā)現(xiàn)某類檔案的在某月份利用率會(huì)比其它時(shí)候的高,可以提前做好準(zhǔn)備,挖掘用戶數(shù)據(jù)庫(kù)中有參考價(jià)值的信息,把“死”檔案變成“活”檔案,為用戶提供有效、準(zhǔn)確、快捷的個(gè)性化服務(wù)。

      2.2 提高檔案信息檢索效率

      我們現(xiàn)在所使用的檢索工具是輸入關(guān)鍵字的模糊檢索,檢索出一堆無(wú)關(guān)的信息,需要逐條逐頁(yè)的進(jìn)行篩選,工作量很大,給查找有用信息帶來(lái)不便,利用數(shù)據(jù)挖掘技術(shù)可以將查詢結(jié)果進(jìn)行歸類和預(yù)測(cè),將檢索信息進(jìn)一步進(jìn)行定位,這樣可以極大的提高檢索的速度。例如學(xué)生在校期間的一些信息記錄,把學(xué)生的姓名與其學(xué)號(hào)、性別、學(xué)籍、成績(jī)、畢業(yè)證書號(hào)、學(xué)位證號(hào)進(jìn)行關(guān)聯(lián),還可以將其獲得獎(jiǎng)勵(lì)、處分等進(jìn)行關(guān)聯(lián),并且實(shí)現(xiàn)任意相關(guān)檢索詞都可以查到相關(guān)檔案的功能,即一次檢索就可以查到某個(gè)學(xué)生的在校獎(jiǎng)懲情況、成績(jī)、畢業(yè)信息等與該學(xué)生相關(guān)的所有信息,這樣可以快速的獲取學(xué)生的較為完整的信息集合,提高查找速度。再比如,我們還可以把學(xué)校教師的相關(guān)信息進(jìn)行整合,將教師的個(gè)人信息與職稱、課題名稱、基金名稱、獎(jiǎng)項(xiàng)、年齡進(jìn)行關(guān)聯(lián),并且將其申請(qǐng)課題基金的時(shí)間、級(jí)別以及基金號(hào)、等進(jìn)行關(guān)聯(lián),通過(guò)一次檢索,就可以查到某個(gè)教師的職稱、課題以及獲得哪些獎(jiǎng)項(xiàng),還可以利用數(shù)據(jù)挖掘技術(shù)將職稱和獲得人數(shù)相關(guān)聯(lián),這樣我們可以很清楚的了解到我們學(xué)校教授人數(shù)、副教授人數(shù)、講師人數(shù)等,還可以統(tǒng)計(jì)出某個(gè)年齡段教授的人數(shù)、副教授人數(shù)等,以及各類職稱所占的比例和發(fā)展趨勢(shì),另外還可以把課題級(jí)別和申請(qǐng)課題人數(shù)相關(guān)聯(lián),結(jié)果可以發(fā)現(xiàn)教師申請(qǐng)國(guó)自然課題的教師比例逐年上升,申請(qǐng)市級(jí)以下的課題的反而有下降趨勢(shì)。由此可見,利用數(shù)據(jù)挖掘技術(shù)的分類和預(yù)測(cè)技術(shù)將信息資源進(jìn)行整合和關(guān)聯(lián)后,不用手工檢索累計(jì)相加,就可以更加快速的獲得我們需要的結(jié)果,分類和預(yù)測(cè)技術(shù)的應(yīng)用極大的提高了工作效率。

      2.3 為優(yōu)化館藏檔案信息資源提供便利

      隨著檔案信息化建設(shè)的推進(jìn),海量傳統(tǒng)紙質(zhì)檔案轉(zhuǎn)化為數(shù)字檔案,數(shù)據(jù)挖掘技術(shù)可以分析館藏的數(shù)字化信息、用戶數(shù)據(jù)庫(kù)、檢索數(shù)據(jù)庫(kù)、專題數(shù)據(jù)庫(kù)以及歸檔部門信息,從而了解學(xué)校的發(fā)展走向和用戶需求,確定數(shù)字化重點(diǎn),優(yōu)化館藏結(jié)構(gòu),運(yùn)用聚類規(guī)則在歸檔單位信息和用戶信息中進(jìn)行歸類,如教學(xué)獲獎(jiǎng)?lì)?、專業(yè)設(shè)置類、人事任免類文件在歸檔部門中使用比較頻繁,研究生成績(jī)單在考研復(fù)試階段,查找使用的比較多等等,通過(guò)關(guān)聯(lián)分析檢索用戶數(shù)據(jù)庫(kù),我們可以深入挖掘各個(gè)時(shí)間段的用戶需求,找準(zhǔn)用戶在哪個(gè)時(shí)間節(jié)點(diǎn)哪些檔案使用較為頻繁,我們可以優(yōu)先重點(diǎn)掃描使用相對(duì)頻繁的檔案,從而確定數(shù)字化掃描的方向和重點(diǎn),使檔案館的數(shù)字化資源更加科學(xué)合理。

      3 結(jié)束和體會(huì)

      隨著信息化帶來(lái)的信息量的不斷增加,及對(duì)檔案信息提取的更高要求,數(shù)據(jù)挖掘技術(shù)在檔案信息服務(wù)中的應(yīng)用有著巨大的潛力,本在分析數(shù)據(jù)挖掘概念及技術(shù)的基礎(chǔ)上,針對(duì)徐州醫(yī)科大學(xué)檔案館的特點(diǎn),對(duì)數(shù)據(jù)挖掘技術(shù)在檔案信息管理中的具體應(yīng)用進(jìn)行了一定的探索,實(shí)踐證明,數(shù)據(jù)挖掘技術(shù)將給檔案信息服務(wù)帶來(lái)前所未有的機(jī)遇和挑戰(zhàn)。

      【參考文獻(xiàn)】

      [1]韓吉義.基于數(shù)據(jù)挖掘技術(shù)的高校圖書館檔案信息管理平臺(tái)的構(gòu)筑[J].山西檔案,2015,06:61-63.

      [2]王平,安亞翔.大數(shù)據(jù)時(shí)代的檔案信息平臺(tái)建設(shè)[J].檔案與建設(shè),2015,10:8-13.

      [3]王鐵牛.大數(shù)據(jù)檔案學(xué)國(guó)內(nèi)研究現(xiàn)狀及研究方向分析[J].山西檔案,2015,03:107-110.

      猜你喜歡
      數(shù)據(jù)挖掘關(guān)聯(lián)檢索
      “苦”的關(guān)聯(lián)
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
      2019年第4-6期便捷檢索目錄
      奇趣搭配
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      智趣
      讀者(2017年5期)2017-02-15 18:04:18
      專利檢索中“語(yǔ)義”的表現(xiàn)
      專利代理(2016年1期)2016-05-17 06:14:36
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      基于GPGPU的離散數(shù)據(jù)挖掘研究
      語(yǔ)言學(xué)與修辭學(xué):關(guān)聯(lián)與互動(dòng)
      神池县| 昌黎县| 葫芦岛市| 龙州县| 梁山县| 突泉县| 龙南县| 灵丘县| 木兰县| 涿州市| 叶城县| 武胜县| 白朗县| 灵武市| 镇康县| 吉首市| 扎赉特旗| 绥棱县| 志丹县| 敦煌市| 含山县| 黄陵县| 隆子县| 孝感市| 甘谷县| 乌拉特前旗| 胶州市| 克什克腾旗| 天津市| 修文县| 曲靖市| 沂南县| 缙云县| 丽水市| 隆尧县| 巴东县| 双鸭山市| 故城县| 横山县| 洪江市| 丹阳市|