• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      檔案信息化的大數(shù)據(jù)問題與解決對策探析

      2017-08-04 21:35:57杜曉艷
      知識管理論壇 2017年3期
      關(guān)鍵詞:數(shù)字檔案檔案信息化大數(shù)據(jù)

      摘要:[目的/意義]探討檔案信息化管理面臨的數(shù)據(jù)量急劇增加、類型與結(jié)構(gòu)日益多元復(fù)雜的現(xiàn)實問題。[方法/過程]結(jié)合檔案的基本屬性與特征,分析數(shù)字化檔案在存儲、利用等典型環(huán)節(jié)所具有的大數(shù)據(jù)特征,研究并闡述檔案信息化過程中,新的大數(shù)據(jù)技術(shù)對數(shù)字檔案存儲與利用、知識發(fā)現(xiàn)過程的支持與應(yīng)用。[結(jié)果/結(jié)論]現(xiàn)代大數(shù)據(jù)處理技術(shù)不僅為檔案信息化管理帶來一定的解決對策,同時可以促進其理論與實踐的發(fā)展。

      關(guān)鍵詞:數(shù)字檔案 大數(shù)據(jù) 檔案信息化 存儲與利用 知識發(fā)現(xiàn)

      分類號:G271

      引用格式:杜曉艷. 檔案信息化的大數(shù)據(jù)問題與解決對策探析[J/OL]. 知識管理論壇, 2017, 2(3): 244-249[引用日期]. http://www.kmf.ac.cn/p/1/123/.

      1 引言

      隨著信息時代的快速發(fā)展,檔案的信息化建設(shè)是大勢所趨。檔案信息化是檔案管理從傳統(tǒng)實體服務(wù)轉(zhuǎn)向數(shù)字化信息服務(wù)模式的轉(zhuǎn)變,通過數(shù)字化檔案信息資源和網(wǎng)絡(luò)化檔案的管理過程實現(xiàn)對檔案信息資源的合理管理和有效利用[1]。在大數(shù)據(jù)時代潮流下,大數(shù)據(jù)所具有的海量(Volume)、多樣(Variety)、高速(Velocity)、可用與可信(Veracity)即4V特性,已經(jīng)體現(xiàn)到檔案信息化建設(shè)中,出現(xiàn)了“檔案大數(shù)據(jù)”的概念[2]及在大數(shù)據(jù)技術(shù)支持下對數(shù)字化檔案的深度挖掘策略[3]。然而,傳統(tǒng)的檔案管理系統(tǒng)難以動態(tài)擴展,越來越吃力[4],網(wǎng)絡(luò)化檔案的管理過程迫在眉睫。特別是數(shù)字化檔案信息資源本身日益成為繁重、冗長而效益低下的工作,數(shù)字化后的資源仍然存在“信息孤島”現(xiàn)象而得不到有效利用。傳統(tǒng)的管理與技術(shù)體系已經(jīng)逐漸不能滿足要求,如何與大數(shù)據(jù)環(huán)境和技術(shù)接軌是檔案信息化面臨的挑戰(zhàn)與機遇。

      2 檔案信息化研究現(xiàn)狀

      國內(nèi)關(guān)于檔案信息化的研究最早開始于20世紀(jì)90年代末,檔案信息化的研究源于社會信息時代的到來。隨著時代進步和研究的不斷深入,發(fā)表論文的數(shù)量呈逐年上升趨勢,檔案信息化逐漸成為檔案學(xué)術(shù)界的研究熱點。研究初期,學(xué)者們較多地關(guān)注檔案信息化的相關(guān)理論研究,研究范圍主要集中在檔案信息化的來源,檔案信息化與相關(guān)概念、相關(guān)工作之間的關(guān)系,檔案信息化建設(shè)的相關(guān)內(nèi)容研究,檔案信息化過程中存在的問題及對策等方面。史麗萍[5]認為檔案館與社會信息化緊密相關(guān),探討了檔案信息化的形成,并對未來發(fā)展趨勢進行分析。李治金[6]分析了檔案信息化與企業(yè)信息化之間的聯(lián)系,說明信息化對企業(yè)檔案事業(yè)發(fā)展的重要性。張銳[7]對檔案信息化理論體系建設(shè)的有利時機、建設(shè)現(xiàn)狀與存在問題,及完善檔案信息化理論體系建設(shè)的策略和措施進行了探討。丁立新[8]在分析我國檔案信息化發(fā)展的機遇與困惑基礎(chǔ)上,對檔案信息化工作模式、應(yīng)用系統(tǒng)建設(shè)及其運行維護的發(fā)展方向進行了趨勢預(yù)測。王美琴[9]則基于我國檔案信息化建設(shè)基本現(xiàn)狀分析,指出檔案信息化過程中存在的主要問題,提出加快實施檔案信息化的措施。

      隨著物聯(lián)網(wǎng)的出現(xiàn)和云計算、大數(shù)據(jù)等信息技術(shù)的興起,社會信息化水平越來越高,同時人們對檔案信息化的要求也逐漸提高。自2011年以來,國內(nèi)掀起了大數(shù)據(jù)研究熱潮,研究文獻數(shù)量呈逐年上升趨勢,大數(shù)據(jù)和檔案信息化的結(jié)合也日漸緊密。我國學(xué)者圍繞大數(shù)據(jù)背景,展開了一系列針對檔案信息化的研究。張英奎[10]等分析了大數(shù)據(jù)時代企業(yè)檔案管理所面臨的主要問題,為使檔案管理模式更好契合時代發(fā)展,提出了相關(guān)策略。劉國華等[11]建議從服務(wù)觀念、檔案信息質(zhì)量、檔案資源云平臺構(gòu)建三個方面融入并強化大數(shù)據(jù)技術(shù)應(yīng)用。

      國內(nèi)學(xué)者同時還關(guān)注大數(shù)據(jù)技術(shù)背景下我國高校檔案信息化發(fā)展與應(yīng)用問題。陳晨[12]分析了高校圖書館的檔案大數(shù)據(jù)及信息化現(xiàn)狀,從軟硬件基礎(chǔ)設(shè)施、管理人員構(gòu)成及其業(yè)務(wù)和安保意識、管理制度等方面提出了相應(yīng)改進對策。目前國內(nèi)檔案信息化研究發(fā)展迅速,已經(jīng)覆蓋數(shù)字檔案管理、檔案信息服務(wù)、檔案數(shù)據(jù)挖掘等內(nèi)容。但總體上講,我國檔案信息化研究還處于初步發(fā)展階段,更多地關(guān)注信息技術(shù)在檔案信息化過程中的應(yīng)用,理論體系尚不完善;對大數(shù)據(jù)背景下檔案信息化所面臨的理論基礎(chǔ)和技術(shù)問題認知尚淺,缺乏對檔案信息化技術(shù)的具體說明,研究范圍和領(lǐng)域有待拓展,研究層次有待進一步深化。

      3 檔案信息化建設(shè)面臨的大數(shù)據(jù)問題

      當(dāng)前大數(shù)據(jù)技術(shù)的示范應(yīng)用主要包括社交媒體數(shù)據(jù)分析、互聯(lián)網(wǎng)廣告、地理坐標(biāo)及商務(wù)智能[13],主要應(yīng)用于數(shù)據(jù)挖掘與決策層面。但從長遠看,以上領(lǐng)域會拓展到數(shù)據(jù)長期保存、信息系統(tǒng)管理等方面。任何新技術(shù)的應(yīng)用都與社會環(huán)境密切相關(guān),顯示著技術(shù)的社會性,并受到各種社會條件的制約和影響[14]。在檔案的信息化建設(shè)過程中,大數(shù)據(jù)技術(shù)應(yīng)用在元數(shù)據(jù)與數(shù)字化檔案信息資源的存儲、可追溯、利用的時效性、知識服務(wù)的可用性等方面面臨一些問題。

      3.1 數(shù)字檔案資源存儲問題

      只有對所收藏的數(shù)字檔案資源進行可信的、長久保存的系統(tǒng)才能稱之為數(shù)字檔案館系統(tǒng)[15]。檔案的特性在于持續(xù)記錄不斷發(fā)展的歷史過程。因此,數(shù)字檔案資源的存儲是個永久的量增過程,需要不斷擴充存儲載體來支持這樣的增長。此外,任何材質(zhì)的載體受到自然環(huán)境及技術(shù)進步的影響,都會逐漸喪失載體的功能,從而影響到所記錄的信息。實現(xiàn)永久保存就意味著按照一定的時間周期,對于需要永久保存的檔案資源定期進行數(shù)據(jù)遷移,以便對數(shù)據(jù)進行載體更新、技術(shù)更新、管理更新,使得信息資源能夠不斷保存下去,這是檔案實現(xiàn)可靠長期保存的基本要求。

      數(shù)字檔案的數(shù)據(jù)由描述檔案實體內(nèi)容的數(shù)據(jù)與描述數(shù)據(jù)的數(shù)據(jù)(元數(shù)據(jù))兩大部分構(gòu)成。檔案數(shù)據(jù)一般具有只讀特性。因此,數(shù)字檔案的著錄、標(biāo)引、索引、目錄等元數(shù)據(jù)相對容易進行標(biāo)準(zhǔn)化。但是其實體數(shù)據(jù)的數(shù)據(jù)類型、格式、結(jié)構(gòu)等會隨著技術(shù)革新不斷發(fā)生變化,其所承載的信息完整性與可靠性受到挑戰(zhàn)。對于數(shù)據(jù)量的規(guī)模增加可以通過不斷增加相應(yīng)的軟硬件設(shè)備來應(yīng)對,但量的規(guī)模到一定程度后有可能導(dǎo)致對數(shù)據(jù)的控制力下降甚至系統(tǒng)崩潰。大數(shù)據(jù)環(huán)境下,數(shù)據(jù)遷移是最難應(yīng)對的考驗。盡管可以通過傳統(tǒng)關(guān)系數(shù)據(jù)庫的三級模式來維持遷移過程軟件的獨立性,但遷移的數(shù)據(jù)量會越來越大;遷移數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)及附載其上的信息含義越來越復(fù)雜;遷移的周期隨著技術(shù)革新節(jié)奏的加快,周期越來越短。傳統(tǒng)的數(shù)據(jù)庫模式已經(jīng)不能有效應(yīng)付遷移的復(fù)雜性,特別是現(xiàn)有的系統(tǒng)經(jīng)過技術(shù)或管理革新重組后,數(shù)據(jù)的類型、結(jié)構(gòu)、約束等都存在轉(zhuǎn)型問題。維護檔案的真實性和可靠性面臨著巨大挑戰(zhàn)。

      3.2 數(shù)字檔案資源的可追溯問題

      從縱向角度通過檔案能了解其反映出的基本語義、產(chǎn)生的背景、來源及原來制檔機關(guān)的目的,而且也能夠發(fā)現(xiàn)不同檔案資料存在的相關(guān)性,即檔案具有可追溯性。雖然檔案本身一般是按照一事一案以案卷、全宗等作為關(guān)聯(lián)的單位保存的,但是一因多果或一果多因在現(xiàn)實的社會環(huán)境中廣泛存在。所以對檔案的可追溯性并非局限在案卷內(nèi)或全宗內(nèi),往往需要利用數(shù)字檔案的特點進行復(fù)雜的關(guān)聯(lián)查詢與分析利用。而且,隨著不同行業(yè)、專業(yè)領(lǐng)域之間的互相滲透,互相之間的相關(guān)性會越來越多,越來越復(fù)雜。此外,數(shù)字檔案全宗及案卷內(nèi)往往存在文本、圖像、視頻等異類及同類但異構(gòu)的數(shù)據(jù),用戶的追溯需求也會越來越多元化。

      由此使得數(shù)字檔案的可追溯性在不遠的將來日益成為一項艱巨的任務(wù)。即使數(shù)字化的信息系統(tǒng)在理論與實踐方面能夠在邏輯上實現(xiàn)這樣的復(fù)雜關(guān)聯(lián),但是所導(dǎo)致的時間與空間復(fù)雜度會使成本巨大。此外,數(shù)字檔案由于對各層次軟硬件環(huán)境及原始檔案管理制度的依賴,需要大量的元數(shù)據(jù)來描述,而元數(shù)據(jù)與檔案內(nèi)容之間雖然存在邏輯關(guān)聯(lián),但是在物理上常是獨立的,這種關(guān)聯(lián)往往隨著技術(shù)環(huán)境的變化表現(xiàn)為一定的脆弱性。傳統(tǒng)意義上的量或規(guī)模已經(jīng)不再是衡量復(fù)雜性的第一要素,復(fù)雜關(guān)聯(lián)與聚集引發(fā)的數(shù)據(jù)復(fù)雜性遠遠超過規(guī)模的復(fù)雜性效應(yīng)[16]??勺匪菪允菙?shù)字檔案長期保存的可用性基本要求,日益復(fù)雜的關(guān)聯(lián)性與高效、可用及可信是矛盾統(tǒng)一體,也是大數(shù)據(jù)環(huán)境下必須面對的問題。

      3.3 數(shù)字檔案利用的時效性問題

      在一般性事務(wù)查詢利用方面,對于以關(guān)系模型存儲的檔案元數(shù)據(jù),標(biāo)準(zhǔn)SQL查詢的結(jié)果與響應(yīng)時間(時間復(fù)雜度)受到數(shù)據(jù)量與關(guān)聯(lián)數(shù)的限制,理論與實踐上不可能無限制擴大。如果數(shù)據(jù)庫中包含了圖像、大文本、視頻等大二進制字段,檢索效率更會大打折扣。此外,為了加強對數(shù)字化檔案的利用,會在原始分類的基礎(chǔ)上要求有更多的邏輯分類,以便于進行關(guān)聯(lián)分析。由此,在檢索過程中,會造成數(shù)據(jù)庫之間、數(shù)據(jù)表之間復(fù)雜的、大數(shù)據(jù)量的關(guān)聯(lián)運算。另外,現(xiàn)有的數(shù)字檔案系統(tǒng)一般均要求支持全文查詢,現(xiàn)有技術(shù)針對全文查詢一般是建立在對相關(guān)文件窮舉式掃描基礎(chǔ)上的,在具體文件不確定的情況下,如果涉及到跨庫、跨文件查詢,在EB級數(shù)據(jù)量下,這幾乎是不可能實現(xiàn)的。

      因此,一般的解決的方法就是縱向不斷增加層級及橫向采用更廣泛的分布系統(tǒng),但不會解決時間復(fù)雜度越來越大、系統(tǒng)熵越來越大的根本問題。

      3.4 數(shù)字檔案知識服務(wù)的可用性問題

      在對信息資源進行分析或進行知識發(fā)現(xiàn)研究時,首先要求信息資源能夠按照知識發(fā)現(xiàn)主題的需要建立多維度分析模型,建立各種復(fù)雜關(guān)聯(lián)?,F(xiàn)有的數(shù)字化檔案體系一般是傳統(tǒng)紙制檔案的數(shù)字化轉(zhuǎn)換。受制于其傳統(tǒng)載體及立檔單位,其數(shù)字化副本在物理與邏輯結(jié)構(gòu)上都存在小集中、大分散的現(xiàn)象。小集中指的是檔案的保存邏輯上體現(xiàn)的立檔單位一般以全宗為單位,事由以案卷為單位,關(guān)聯(lián)方式一是通過文件物理存儲的集中性來體現(xiàn),另外通過大量的元數(shù)據(jù)描述在邏輯結(jié)構(gòu)上體現(xiàn);大分散指的是不同地域、不同機構(gòu)之間的數(shù)字檔案資料缺乏關(guān)聯(lián),形成一定規(guī)模的信息孤島。雖然有利于保證檔案案卷的整體性及體現(xiàn)原來制檔機構(gòu)的目的,但是不利于按照一定分類主題形成大規(guī)模的數(shù)據(jù)集市或數(shù)據(jù)倉庫。數(shù)據(jù)挖掘形成的語義關(guān)聯(lián)或知識圖譜可信程度大打折扣。檢索查詢及查詢后基于批處理的分析計算在數(shù)據(jù)量及非結(jié)構(gòu)化達到一定程度后,很難保證其可用性,更不能保證其高效性。

      此外,檔案信息化還面臨著元數(shù)據(jù)與數(shù)據(jù)結(jié)構(gòu)問題。現(xiàn)有的元數(shù)據(jù)主要存在于關(guān)系數(shù)據(jù)庫中,關(guān)系結(jié)構(gòu)以行記錄為單位,而大數(shù)據(jù)技術(shù)環(huán)境下的數(shù)據(jù)庫往往是以列為單位,這樣就需要對原有的元數(shù)據(jù)結(jié)構(gòu)進行重新設(shè)計,也就是現(xiàn)有的元數(shù)據(jù)結(jié)構(gòu)也需要發(fā)生相應(yīng)的變化。大數(shù)據(jù)技術(shù)應(yīng)用面臨著與原有系統(tǒng)沖突的問題。

      另一方面,大數(shù)據(jù)技術(shù)應(yīng)用還存在對關(guān)聯(lián)粒度及層次結(jié)構(gòu)制約的問題。在實際應(yīng)用中,數(shù)字檔案之間的邏輯關(guān)系相對具有較多的層次結(jié)構(gòu)。除了檔案實體文件內(nèi)部的相關(guān)性外,還存在案卷與案卷之間的聯(lián)系,同一案卷中 “件”與 “件”之間的聯(lián)系,不同級別的檔案管理聯(lián)系。這些關(guān)聯(lián)具有一定的“立體”特征。但在現(xiàn)有的大數(shù)據(jù)技術(shù)環(huán)境下,由于數(shù)據(jù)結(jié)構(gòu)相對簡單,重在對異構(gòu)、海量數(shù)據(jù)的“平面”關(guān)聯(lián)分析,因此,如何將數(shù)字檔案的數(shù)據(jù)結(jié)構(gòu)重新組織,在不破壞其固有的立體聯(lián)系情況下,實現(xiàn)高效率的大數(shù)據(jù)分析將是極大的挑戰(zhàn)。

      4 檔案信息化建設(shè)中大數(shù)據(jù)問題的解決對策

      4.1 加強數(shù)字檔案資源存儲

      檔案數(shù)字化是借助計算機網(wǎng)絡(luò)技術(shù)和多媒體技術(shù)發(fā)展而產(chǎn)生的一種新型檔案信息形態(tài),將各種傳統(tǒng)載體的館藏檔案資源轉(zhuǎn)化為數(shù)字化檔案信息,以數(shù)字化形式存儲、網(wǎng)絡(luò)化形式傳輸并利用計算機系統(tǒng)進行管理,進而實現(xiàn)檔案信息的快捷利用與共享[17]。數(shù)字檔案數(shù)據(jù)在保存中需要按照時間序列或事由進行分類與關(guān)聯(lián),追求的目標(biāo)是將存儲管理由載體控制轉(zhuǎn)化為軟件控制。傳統(tǒng)的模式對數(shù)據(jù)的結(jié)構(gòu)、操作及約束有一定的范式要求,采用轉(zhuǎn)儲方式或基于分布式數(shù)據(jù)庫系統(tǒng)的模式。通過中心管理服務(wù)器將分布在不同節(jié)點數(shù)據(jù)庫中的數(shù)據(jù)實現(xiàn)邏輯上的統(tǒng)一管理,存儲的方法一般是將結(jié)構(gòu)化的關(guān)系模型作為元數(shù)據(jù)信息存儲的數(shù)據(jù)結(jié)構(gòu),以此來關(guān)聯(lián)實體檔案。關(guān)系型數(shù)據(jù)庫雖然能夠?qū)崿F(xiàn)比較復(fù)雜的關(guān)聯(lián),但對數(shù)據(jù)量非常敏感,具有較大的時間與空間復(fù)雜度。在檔案信息化建設(shè)過程中,利用大數(shù)據(jù)存儲技術(shù)加強數(shù)字檔案信息資源存儲,如通過GFS(Google Files System)、HDFS(Hadoop Files System)等分布式文件存儲系統(tǒng),能夠處理非結(jié)構(gòu)化數(shù)據(jù)并實現(xiàn)關(guān)聯(lián),自動建立基本的索引元數(shù)據(jù),適合半結(jié)構(gòu)化數(shù)字檔案信息資源的存儲與處理。

      4.2 維護檔案靜態(tài)特征及遷移過程的可靠性

      原始記錄性是檔案的本質(zhì)屬性之一,客觀上要求其所依賴的軟硬件環(huán)境、依附的載體及其語義能夠維護其所記錄信息的原始性、真實性、可靠性等靜態(tài)特征,同時要求隨著信息技術(shù)的發(fā)展能夠?qū)崿F(xiàn)一致性的數(shù)據(jù)遷移,從而保證檔案信息的可追溯性。

      大數(shù)據(jù)分布式文件存儲系統(tǒng)能夠?qū)⑽募蛭募A中的對象直接轉(zhuǎn)化為二進制數(shù)據(jù)序列,忽視其中的具體格式或結(jié)構(gòu),對各種形式存在的檔案資源在底層實現(xiàn)智能化存儲與處理,在更高的層次上再進行利用分析;此外,大數(shù)據(jù)技術(shù)更適應(yīng)對大文件的處理,如HDFS文件系統(tǒng),可將要存儲的非結(jié)構(gòu)化數(shù)據(jù)按照統(tǒng)一二進制大?。?4M)進行分片、多點備份、并行處理,形成一系列的(key,value)鍵值對,然后按照鍵進行歸并,對相同鍵的值進行結(jié)果匯總與合并。這也符合檔案文件的組織特點(以“件”或“卷”組織成復(fù)合文件)。由此能夠很地維持檔案資源存儲與利用過程中的完整性、可靠性,實現(xiàn)檔案數(shù)據(jù)變換、整合及利用的智能化,可以針對檔案案卷的組織特性,將其以復(fù)合文件或文件類集合的模式進行多種形式的組織,然后按照全宗建立群節(jié)點,從而簡化數(shù)字檔案文件存儲管理的層次級別。

      4.3 維護數(shù)字檔案的時效性和可用性

      大數(shù)據(jù)技術(shù)可以通過弱化關(guān)系降低數(shù)據(jù)模型的復(fù)雜性,統(tǒng)一電子文件的物理與邏輯集成(集成指在文檔管理范疇內(nèi),將電子文件及其內(nèi)容信息、結(jié)構(gòu)信息、背景信息采用一定標(biāo)準(zhǔn)、規(guī)范和編碼進行融合[18])。分布式鍵值對的存儲系統(tǒng)能夠?qū)崿F(xiàn)面向列的、可伸縮的數(shù)據(jù)存儲模式,將不同類型、不同結(jié)構(gòu)的海量數(shù)據(jù)按照列簇存儲到同一文件中并實現(xiàn)性能良好的隨機訪問,使數(shù)字檔案按照事由進行物理封裝成為可能。相應(yīng)地也可以使內(nèi)容信息、結(jié)構(gòu)信息、背景信息具有邏輯與物理上的統(tǒng)一標(biāo)識與封裝。此外,存儲的結(jié)構(gòu)支持多維特性,能夠在結(jié)構(gòu)上實現(xiàn)動態(tài)改變,可以在不影響原有數(shù)字檔案內(nèi)容及結(jié)構(gòu)的前提下,實現(xiàn)行、列、時間戳的動態(tài)擴展,由此可以實現(xiàn)數(shù)字檔案內(nèi)容的動態(tài)擴展。自動生成索引的機制可將非結(jié)構(gòu)化的數(shù)字檔案實現(xiàn)半結(jié)構(gòu)化,實現(xiàn)更緊密的結(jié)合,進一步維持數(shù)字檔案在長期保存過程中的完整性。如果能夠與現(xiàn)有系統(tǒng)中數(shù)字檔案的標(biāo)準(zhǔn)元數(shù)據(jù)進行關(guān)聯(lián),共同實現(xiàn)對檔案內(nèi)容信息的索引及描述,會極大增強數(shù)字檔案的可用性。

      檔案一旦形成后在內(nèi)容上就不能再修改,大數(shù)據(jù)技術(shù)對數(shù)據(jù)修改的敏感或不支持并不影響檔案的長期保存,反而成了檔案長期存儲的一種優(yōu)勢。首先是大數(shù)據(jù)技術(shù)所支持的文件系統(tǒng)通過不斷增加硬盤數(shù)量實現(xiàn)容量的智能化增長,存儲采用集群架構(gòu)的管理與多重備份并基于智能化容錯,讀寫模式采用基于二進制的分塊、并行處理、合并的方式,而且所使用的文件系統(tǒng)一般不限制文件大小及格式。因此,在構(gòu)建數(shù)字檔案存儲系統(tǒng)時,無論從邏輯上還是物理上都能夠有效維護檔案資源的原始記錄性特征。

      4.4 實現(xiàn)檔案信息的關(guān)聯(lián)性分析及知識發(fā)現(xiàn)

      數(shù)字檔案的存儲在數(shù)據(jù)結(jié)構(gòu)上大都具有半結(jié)構(gòu)化特性。一方面由于檔案數(shù)量與種類的多元導(dǎo)致的海量、異構(gòu)等非結(jié)構(gòu)化特征;另一方面數(shù)字檔案一般都有結(jié)構(gòu)化、標(biāo)準(zhǔn)化的元數(shù)據(jù)描述及電子標(biāo)引等元素。因此,隨著數(shù)字檔案資源的不斷增加,完全結(jié)構(gòu)化或完全非結(jié)構(gòu)化的資源形態(tài)均不多見。將結(jié)構(gòu)化元數(shù)據(jù)與非結(jié)構(gòu)化的檔案實體描述數(shù)據(jù)按照一定的模式關(guān)聯(lián)成半結(jié)構(gòu)化模式,日漸成為數(shù)字檔案資源組織的基本模式。大數(shù)據(jù)技術(shù)環(huán)境可以提供基于鍵值對的分布式存儲與處理,能夠在海量、異構(gòu)數(shù)據(jù)中自動尋找出文字間的語義主題,有利于面向領(lǐng)域?qū)Ρ倔w的主題知識構(gòu)建。此外,面向列的、可伸縮的半結(jié)構(gòu)化數(shù)據(jù)庫存儲模式,如基于HDFS的Habse數(shù)據(jù)庫管理系統(tǒng),能夠在行、列、時間維實現(xiàn)動態(tài)擴展,通過行關(guān)鍵字、列簇、列關(guān)鍵字、時間戳形成多維表。一方面能夠?qū)崿F(xiàn)復(fù)雜的半結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)之間的關(guān)聯(lián),另一方面也有利于形成領(lǐng)域、論域、主題三個知識關(guān)聯(lián)層次。由此,為異源、異構(gòu)的數(shù)字檔案進行數(shù)據(jù)挖掘與知識發(fā)現(xiàn)提供了基本的技術(shù)支持。

      5 結(jié)束語

      盡管檔案信息化工作所面臨的大數(shù)據(jù)問題突出,相關(guān)的研究重點主要聚焦在檔案所具有的大數(shù)據(jù)特征及相關(guān)的管理與利用宏觀策略方面[19],但大數(shù)據(jù)技術(shù)所具有的分布式、云計算、智能化特征,及對海量、異構(gòu)數(shù)據(jù)處理所具有的優(yōu)勢與數(shù)字檔案管理的現(xiàn)實需求具有一定的吻合度。與此同時,對大數(shù)據(jù)及其相關(guān)技術(shù)應(yīng)用于數(shù)字檔案管理的深層次問題需要進一步理解與把握,例如大數(shù)據(jù)技術(shù)如何為檔案存儲、遷移及跨部門與平臺的知識發(fā)現(xiàn)提供支持,以及應(yīng)用于數(shù)字檔案管理所需要面對的信息系統(tǒng)重構(gòu)、信息及數(shù)據(jù)轉(zhuǎn)換層次劃分問題等。大數(shù)據(jù)技術(shù)及其生態(tài)環(huán)境是信息技術(shù)發(fā)展的必然趨勢,促進著通常的數(shù)字檔案以及包括數(shù)字圖書資源等泛化“數(shù)字檔案”相關(guān)管理理論與技術(shù)的快速發(fā)展[20]。

      參考文獻:

      [1] 王學(xué)平. 淺議我國檔案數(shù)字化建設(shè)實踐與發(fā)展策略[J]. 檔案學(xué)通訊, 2011(6): 54-57.

      [2] 魯?shù)挛? 試述檔案大數(shù)據(jù)的定義、特征及核心內(nèi)容[J]. 檔案, 2014(4): 13-15.

      [3] 張文元, 張倩. 大數(shù)據(jù)技術(shù)與檔案數(shù)據(jù)挖掘[J]. 檔案管理, 2016(2): 33-35.

      [4] WANG X C, DING J Y. On innovation of archive management in big data era[C]//中國科學(xué)技術(shù)信息研究所. 大數(shù)據(jù)時代的科技資源共享: COINFO 2013論文集. 北京: 科學(xué)出版社, 2013: 66-72.

      [5] 史麗萍. 檔案信息化形成與發(fā)展趨勢[J]. 黑龍江檔案, 1999(6): 31.

      [6] 李治金. 談檔案信息化與企業(yè)信息化[J]. 檔案與建設(shè), 2003(1): 52-53.

      [7] 張銳. 檔案信息化理論體系建設(shè)的理性思考[J]. 檔案學(xué)研究, 2008(2): 49-52.

      [8] 丁立新. 檔案信息化的發(fā)展趨勢[J]. 檔案學(xué)研究, 2009(4): 12-14.

      [9] 王美琴. 我國檔案信息化過程中的主要問題及對策[J]. 檔案學(xué)研究, 2011(1): 64-66.

      [10] 張英奎, 王飛, 房彥君. 大數(shù)據(jù)時代的企業(yè)檔案信息化建設(shè)[J]. 北京工業(yè)大學(xué)學(xué)報(社會科學(xué)版), 2014(3): 32-36.

      [11] 劉國華, 李澤鋒. 檔案工作中大數(shù)據(jù)框架構(gòu)建及應(yīng)用思考[J]. 檔案管理, 2014(2): 32-34.

      [12] 陳晨. 基于大數(shù)據(jù)的高校圖書館檔案信息化建設(shè)探究[J]. 蘭臺世界, 2015(23): 143-144.

      [13] 李戰(zhàn)懷, 王國仁, 周傲英. 從數(shù)據(jù)庫視角解讀大數(shù)據(jù)的研究進展與趨勢[J]. 計算機工程與科學(xué), 2013, 35(10): 1-11.

      [14] 常立農(nóng). 技術(shù)哲學(xué)[M]. 長沙: 湖南大學(xué)出版社, 2003: 14-15.

      [15] 馮惠玲, 劉越男.電子文件管理國家戰(zhàn)略[M]. 北京: 中國人民大學(xué)出版社, 2011: 350.

      [16] 何非, 何克清. 大數(shù)據(jù)及其科學(xué)問題與方法的探討[J]. 武漢大學(xué)學(xué)報(理學(xué)版), 2014, 60(1): 1-12.

      [17] 王美琴. 我國檔案信息化過程中的主要問題及對策[J]. 檔案學(xué)研究, 2011(1): 64-66.

      [18] 趙屹. 基于前端控制思想的電子文件形成過程研究[J]. 檔案學(xué)研究, 2012(3): 16-23.

      [19] 石俊峰, 周俐霞, 付雙雙. 大數(shù)據(jù)時代數(shù)字檔案資源管理研究現(xiàn)狀與趨勢分析[J]. 信息安全與通信保密, 2014(9): 87-89.

      [20] 蘇新寧. 大數(shù)據(jù)時代數(shù)字圖書館面臨的機遇和挑戰(zhàn)[J]. 中國圖書館學(xué)報, 2015(6): 4-12.

      Analysis on Big Data Problems and Technique Supports of Archives Informatization

      Du Xiaoyan

      Shenzhen University Library, Shenzhen 518060

      Abstract: [Purpose/significance] The realistic questions of the archives informatization management are faced with data size rapidly increasing, and their types and structures more diverse and complex. [Method/process] Based on the essential attribute of archives in this paper, the big data characteristics of digital archives in their storage and utilization links were analyzed, and the support of new big data techniques in the course of archives informatization, and their applications to the storage and utilization of digital archives and knowledge discovery were researched. [Result/conclusion] Modern processing technology for big data would not only bring certain supports for the management of archives informatization, but also promote the development of its theory and practice.

      Keywords: digital archives big data archives informatization storage and utilization knowledge discovery

      猜你喜歡
      數(shù)字檔案檔案信息化大數(shù)據(jù)
      數(shù)字檔案生態(tài)鏈信息流轉(zhuǎn)效率提升策略研究
      研究數(shù)字檔案信息安全保障體系
      淺析高校檔案信息化建設(shè)
      醫(yī)院檔案信息化管理存在的問題與對策
      檔案信息化的思考
      基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
      科技視界(2016年20期)2016-09-29 10:53:22
      傳統(tǒng)聲像檔案數(shù)字化工作
      對檔案信息化管理的理性思考
      未來英才(2016年1期)2007-12-26 00:35:15
      刚察县| 浦江县| 昌宁县| 白城市| 石渠县| 白沙| 麻阳| 仪陇县| 贵南县| 涿州市| 玉环县| 浦县| 财经| 上栗县| 博白县| 樟树市| 称多县| 柳林县| 凤凰县| 丹棱县| 子长县| 镇雄县| 浙江省| 福贡县| 和田市| 建阳市| 行唐县| 包头市| 平安县| 宣汉县| 威海市| 陆川县| 望奎县| 宝丰县| 隆德县| 汤原县| 乌海市| 福安市| 永登县| 汾阳市| 咸丰县|