李迪
摘 要:2012年“大數(shù)據(jù)”一詞被介紹到中國,中國如何在大數(shù)據(jù)時代取得更大的發(fā)展,成為社會各界探討的熱點,在閱讀完涂子沛先生寫的《大數(shù)據(jù):正在到來的數(shù)據(jù)革命》一書后,對大數(shù)據(jù)有了簡單的了解,本文主要介紹了“大數(shù)據(jù)”的內(nèi)涵,從大數(shù)據(jù)的概念、價值作用以及大數(shù)據(jù)的特點三個方面介紹大數(shù)據(jù),讓大家對大數(shù)據(jù)有一個簡單的了解,在此基礎(chǔ)上,結(jié)合檔案館的發(fā)展,對大數(shù)據(jù)背景下檔案工作遇到的機遇和挑戰(zhàn)做簡單的分析,真正了解大數(shù)據(jù)對檔案發(fā)展的影響。
關(guān)鍵詞:大數(shù)據(jù);信息;檔案館
2012年3月29日,美國政府推出“大數(shù)據(jù)的研究和發(fā)展計劃”,將大數(shù)據(jù)提升到了全球性戰(zhàn)略發(fā)展的高度。中國,自古以來就不太注重對事物的定量研究, “差不多”、“大約”、“左右”等模糊性詞語經(jīng)常出現(xiàn)在公眾的眼球中,致使中國人落下了“差不多先生”的叫法。如今,中國正處于經(jīng)濟、技術(shù)發(fā)展的黃金時期,中國要想在世界發(fā)展中取得更大的成就,就必須摘掉“差不多先生”的帽子,讓數(shù)據(jù)說話,將科學(xué)的數(shù)據(jù)作為研究的保障,而“大數(shù)據(jù)”時代正為中國的發(fā)展提供了極大的機遇。要想在此次信息革命中取得成績,首先我們要了解“大數(shù)據(jù)”究竟是什么,究竟能為我們的生活帶來何種改變。
1 “大數(shù)據(jù)”的內(nèi)涵
1.1 “大數(shù)據(jù)”的概念
2011年5月,全球知名咨詢公司麥肯錫 (Mckinsey and Company)發(fā)布了 《大數(shù)據(jù) :創(chuàng)新 、競爭和生產(chǎn)力的下一個前沿領(lǐng)域》報告,首次提出了“大數(shù)據(jù)”的概念,從“大數(shù)據(jù)”一詞被提出以來,人們對大數(shù)據(jù)的概念就存在不同的理解,各個定義雖然在具體的表達中存在不同,但其都有一個共識,即:大數(shù)據(jù)不是對數(shù)據(jù)量大小的定量描述,而是一種在種類繁多、數(shù)量龐大的多樣數(shù)據(jù)中進行的快速信息獲取。大數(shù)據(jù)是對海量數(shù)據(jù)的管理,其核心是基于數(shù)據(jù)的決策。之所以稱其為“大數(shù)據(jù)”,一是其數(shù)據(jù)量大,更大一部分原因是因其數(shù)據(jù)管理的價值大。
大數(shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的總和,主要來源于海量交互數(shù)據(jù)、海量數(shù)據(jù)處理以及海量交易數(shù)據(jù),而我們在日常生活中,智能設(shè)備、物聯(lián)網(wǎng)、社交網(wǎng)站等產(chǎn)生的半結(jié)構(gòu)化數(shù)據(jù)、非機構(gòu)化數(shù)據(jù)量更是遠遠大于在學(xué)習(xí)、工作中產(chǎn)生的結(jié)構(gòu)化數(shù)據(jù)。 如何處理這些占據(jù)了主要份額的半結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)也因此成為大數(shù)據(jù)的主要業(yè)務(wù)與內(nèi)容,進而對數(shù)據(jù)分析與數(shù)據(jù)挖掘產(chǎn)業(yè)提出了更多的要求。因此大數(shù)據(jù)的“數(shù)據(jù)”不是指數(shù)據(jù)的存儲,而是數(shù)據(jù)的獲取和數(shù)據(jù)的分析應(yīng)用。
通過對大數(shù)據(jù)的了解,大數(shù)據(jù)的概念可以總結(jié)為:大數(shù)據(jù)是指通過對結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的挖掘、分析,進而為社會決策提供數(shù)據(jù)依據(jù)一種數(shù)據(jù)研究。
1.2 “大數(shù)據(jù)”的作用、價值
之所以稱其為“大數(shù)據(jù)”的一個主要原因是因為其含有“大價值”,通過大數(shù)據(jù)中的數(shù)據(jù),我們可以了解客戶行為習(xí)慣,可以對市場發(fā)展進行預(yù)測,可以了解一個行業(yè)的發(fā)展趨勢等各種有價值的信息,不僅可以促進商業(yè)、經(jīng)濟的發(fā)展,更能為政府決策體統(tǒng)可靠的依據(jù),使政府決策更加貼近民心,順應(yīng)民意,使政府更加了解民意等??梢哉f大數(shù)據(jù)能夠?qū)σ粋€地區(qū)的政治、經(jīng)濟、社會的發(fā)展發(fā)揮更大的作用和價值。
“大數(shù)據(jù)”的價值可以歸納為以下幾個方面:
(1)通過數(shù)據(jù)的分析、挖掘,為企業(yè)的可持續(xù)發(fā)展做出科學(xué)預(yù)測,減小企業(yè)發(fā)展風(fēng)險,實現(xiàn)企業(yè)的科學(xué)發(fā)展。為社會經(jīng)濟的發(fā)展提供科學(xué)的分析依據(jù)。
(2)對用戶的研究分析,通過從海量數(shù)據(jù)中的深度分析,挖掘利用者的行為習(xí)慣和愛好,充分了解利用者的需求。
(3)有助于提高信息安全,為信息安全部門應(yīng)對安全威脅提供有效途徑。
(4)通過對公共大數(shù)據(jù)的分析、挖掘,可提高公共機構(gòu)的執(zhí)行能力,減少錯誤數(shù)據(jù)的負(fù)面作用,幫助政府節(jié)省開支,為政府決策體統(tǒng)可靠依據(jù)。
1.3 “大數(shù)據(jù)”的特點
“種類多 、流量大 、容量大、價值高”被稱為“大數(shù)據(jù)”的4V特性:
(1)容量大:數(shù)據(jù)量級已從TB(1012字節(jié))發(fā)展至PB乃至ZB,可稱海量、巨量乃至超量。
(2)多樣化:數(shù)據(jù)類型繁多,愈來愈多為網(wǎng)頁、圖片、視頻、圖像與位置信息等半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)信息。
(3)快速化:數(shù)據(jù)流往往為高速實時數(shù)據(jù)流,而且往往需要快速、持續(xù)的實時處理;處理工具亦在快速演進,軟件工程及人工智能等均可能介入。
(4)價值高和密度低:以視頻安全監(jiān)控為例,連續(xù)不斷的監(jiān)控流中,有重大價值者可能僅為一兩秒的數(shù)據(jù)流;360°全方位視頻監(jiān)控的“死角”處,可能會挖掘出最有價值的圖像信息。
2 大數(shù)據(jù)背景下的檔案
2.1 復(fù)雜數(shù)據(jù)的處理將成為大數(shù)據(jù)時代檔案工作的發(fā)展方向
當(dāng)前環(huán)境下,檔案信息的數(shù)據(jù)處理主要是將檔案信息等進行數(shù)字化、電子化處理,并在此基礎(chǔ)上最大程度地滿足用戶的利用,數(shù)據(jù)庫、檔案網(wǎng)站、檔案公眾號等都為檔案信息的開發(fā)利用提供更多的途徑。這也使得檔案資源的處理范圍、處理方式、對象等都發(fā)生了巨大的變化,例如根據(jù)利用者的利用數(shù)據(jù)了解利用者的需求、愛好,為用戶提供推動服務(wù)、知識服務(wù)等。
此外,大數(shù)據(jù)對檔案館的數(shù)據(jù)分析、挖掘能力提出更高的要求,從大量數(shù)據(jù)中發(fā)現(xiàn)其中的規(guī)律,找出隱藏在數(shù)據(jù)中的潛在價值,才能提高檔案館的服務(wù)質(zhì)量,才能帶來服務(wù)方式的轉(zhuǎn)變,這樣才能更大限度地發(fā)揮檔案的社會功能,為社會提供更多更有價值的信息資源。
2.2 快速增長的復(fù)雜海量數(shù)據(jù)為檔案信息的存儲能力提出更高的要求
隨著數(shù)據(jù)庫、檔案網(wǎng)站、電子文件的不斷發(fā)展和完善,檔案信息資源的種類、信息類型越來越豐富,大數(shù)據(jù)背景下人們的一舉一動都將產(chǎn)生出大量結(jié)構(gòu)化、半結(jié)構(gòu)化的信息數(shù)據(jù),在如此復(fù)雜的數(shù)據(jù)中進行分析、挖掘,對檔案信息的存儲能力提出了更大的挑戰(zhàn),甚至?xí)绊憴n案信息資源的建設(shè)模式的轉(zhuǎn)變。
此外,大數(shù)據(jù)背景下不僅是對檔案存儲能力提出更高的要求,更對數(shù)據(jù)的分析、挖掘能力提出更生層次的挑戰(zhàn),如何從如此復(fù)雜大量的數(shù)據(jù)中找出有效的信息,分析出有效的數(shù)據(jù),為用戶提供更加準(zhǔn)確的信息服務(wù)都將是檔案工作面臨的問題。
2.3 大數(shù)據(jù)背景下信息資源管理面臨的挑戰(zhàn)
我們知道信息管理面臨眾多的挑戰(zhàn)和難題,而在大數(shù)據(jù)背景下,在如此復(fù)雜、大量的數(shù)據(jù)中,信息管理面臨著以下幾方面的挑戰(zhàn):
1.數(shù)據(jù)多,數(shù)據(jù)質(zhì)量良莠不齊,真?zhèn)坞y辨,如何判斷檔案信息資源的真?zhèn)我恢笔菣n案界討論的熱點。
2.信息領(lǐng)域技術(shù)日新月異,高度復(fù)雜,對工作者的技術(shù)要求越來越高。
3.大數(shù)據(jù)背景下,用戶的要求越來越高,用戶的需求也在不斷的增多,如何更好的滿足用戶的需求,成為檔案館以及信息服務(wù)機構(gòu)需要解決的重要問題之一。
4.市場經(jīng)濟條件下,信息產(chǎn)品和信息服務(wù)的價值越來越難在市場上實現(xiàn)。這就為信息機構(gòu)如何實現(xiàn)其市場價值提出了要求。
5.檔案信息的安全問題越來越重要。大數(shù)據(jù)背景下,如何確保海量存儲信息的安全,如何確保信息系統(tǒng)的安全等問題,仍需要人們深入的研究。
參考文獻
[1]韓翠峰.大數(shù)據(jù)帶給圖書館的影響與挑戰(zhàn)[J].圖書與情報,2012.5.
[2]楊海燕.大數(shù)據(jù)時代的圖書館服務(wù)淺析[J].圖書與情報,2012.4.
[3]樊偉紅,李晨輝,張興旺,秦曉珠,郭自寬.圖書館需要怎樣的“大數(shù)據(jù)”[J].圖書館雜志,2012.11.
[4]劉琪.大數(shù)據(jù)能改變什么[J].IT經(jīng)理世界,2011.8
[5]陳如明. 大數(shù)據(jù)時代的挑戰(zhàn)、價值與應(yīng)對策略[J]. 移動通信,2012.11
[6]涂子沛.大數(shù)據(jù):正在到來的數(shù)據(jù)革命[M].廣西:廣西師范大學(xué)出版社,2012.