◆朱 榮 高 瑞
(漢江師范學(xué)院 湖北 442000)
“大數(shù)據(jù)”時代科學(xué)數(shù)據(jù)整合研究
◆朱 榮 高 瑞
(漢江師范學(xué)院 湖北 442000)
隨著社會經(jīng)濟不斷發(fā)展以及科學(xué)技術(shù)水平的不斷提高,人們的生產(chǎn)、生活水平也有了極大的改善。在當今的21世紀對信息、數(shù)據(jù)等進行管理和分析已經(jīng)成為必然的趨勢,在日常的生活中以及工作中,大數(shù)據(jù)作為新時代的力量滲入到我們生活的各個方面,扮演著越來越重要的角色。政府數(shù)據(jù)分析、工程項目管理等多個方面都開始進行有效的管理,推動自身信息化的建設(shè)和工作效率和質(zhì)量的不斷提升。信息與網(wǎng)絡(luò)技術(shù)的不斷發(fā)展當中,通過各類的科學(xué)研究產(chǎn)生了大量的原生態(tài)數(shù)據(jù),又通過對數(shù)據(jù)資源的分析整合,可以使大數(shù)據(jù)運用更加便捷,實現(xiàn)數(shù)據(jù)的綜合利用和數(shù)據(jù)資源的共享,幫助數(shù)據(jù)資源被有效的利用以及推動政府各項職能的實現(xiàn)有著十分重要的意義,大數(shù)據(jù)已經(jīng)影響了我們今天生活的各個方面。在本文筆者將會研究大數(shù)據(jù)在今天的發(fā)展態(tài)勢以及分析大數(shù)據(jù)時代下科學(xué)研究的特點和科學(xué)研究中大數(shù)據(jù)整合所面臨的諸多問題與挑戰(zhàn)。
大數(shù)據(jù); 數(shù)據(jù)整合; 數(shù)據(jù)分析
21世紀的中國是一個科技不斷發(fā)展的時代,科學(xué)技術(shù)正在蓬勃發(fā)展,對于各類技術(shù)的研究開始走向人們的視眼,科學(xué)研究在計算機、信息網(wǎng)絡(luò)技術(shù)方面的發(fā)展下產(chǎn)生了大量的數(shù)據(jù),貫穿了計算機模擬以及傳播的多個過程當中。數(shù)據(jù)資源可以通過一些圖書、論文的形式來進行發(fā)表,也可以通過實現(xiàn)結(jié)果的記錄、通過儀器觀察得到的數(shù)據(jù)來展現(xiàn)等等,而我們現(xiàn)今的重要任務(wù)就是通過科學(xué)技術(shù)來對這些數(shù)據(jù)資源進行整合,避免將大量的科學(xué)研究得到成果因為無法保存而失去價值,讓大量準確真實的數(shù)據(jù)失散在實驗室當中,我們需要將這些數(shù)據(jù)有效的保存起來,讓更多的人能夠獲取到有效的信息,讓科研人員可以通過這些數(shù)據(jù)進行進一步的研究,避免研究過程的雜亂和重復(fù),推動科學(xué)研究的有效進行。未來的科學(xué)研究是通過數(shù)據(jù)來推動的,大數(shù)據(jù)是未來社會不斷發(fā)展的無限動力,大數(shù)據(jù)推動人類生活走向科技和先進,推動科學(xué)技術(shù)向前沿的方向發(fā)展??茖W(xué)研究作為一項巨大的項目,并且涉及國家戰(zhàn)略發(fā)展的方方面面,研究中所涉及的數(shù)據(jù)資源正有待我們有效的解決。
在不斷發(fā)展的社會中科學(xué)技術(shù)的作用越來越重要,科學(xué)技術(shù)都在推動著人類社會的每一項進步。例如不斷發(fā)展的計算機技術(shù)、通訊技術(shù)、生物醫(yī)藥等都在一定程度上為整個國民經(jīng)濟水平的發(fā)展和提高起到了重大的作用,大數(shù)據(jù)時代之下智慧城市的建設(shè)和規(guī)劃,大數(shù)據(jù)時代下科學(xué)教育的發(fā)展以及政府數(shù)據(jù)的分析治理等等都越來越受到重視。大數(shù)據(jù)是將計算機科學(xué)、統(tǒng)計學(xué)以及社會學(xué)等多個領(lǐng)域的資源結(jié)合起來,運用科學(xué)的管理手段將這些信息以數(shù)據(jù)的形式儲存起來,達到數(shù)據(jù)的保存和共享,為科學(xué)研究和其他技術(shù)研究提供服務(wù)。
人們越來越能夠意識到數(shù)據(jù)對于企業(yè),對于科研以及政府各項職能的發(fā)展所產(chǎn)生的重要作用,但是卻忽視數(shù)據(jù)爆炸性增長中所存在的一些隱患和問題。每一項科學(xué)研究都在產(chǎn)生大量的數(shù)據(jù),形成成功或者失敗的研究成果,在這一個過程中必然會有大量有價值的信息和數(shù)據(jù),以后的科學(xué)研究需要對這些數(shù)據(jù)進行分析整合,充分實現(xiàn)數(shù)據(jù)所產(chǎn)生的價值以及帶來的作用。大數(shù)據(jù)不僅僅是一項技術(shù)工程,更重要的是他與我們的生活實際運用聯(lián)合起來而發(fā)揮了巨大的作用,大到地球科學(xué)、生命科學(xué)以及高能物理研究等多個方面,小到我們?nèi)粘5纳a(chǎn)生活當中。例如互聯(lián)網(wǎng)技術(shù)的發(fā)展,提供了人與人之間連接的平臺,提供了創(chuàng)業(yè)的平臺,也提供了商業(yè)交往的平臺,這些都是基于大數(shù)據(jù)的運用和發(fā)展。京東、唯品會或者淘寶等都因大數(shù)據(jù)走向我們的生活,我們可以在上面購物,與賣方直接跨地區(qū)不受空間限制的溝通,大數(shù)據(jù)時代已經(jīng)向我們走來。但是在這之中有一個問題需要引起我們的重視,就是在科學(xué)研究當中應(yīng)該如何去獲得相關(guān)的數(shù)據(jù),如何去尋找與科學(xué)研究相關(guān)的數(shù)據(jù)庫。可以通過科技文獻、實驗室的報告、實驗室的結(jié)果分析以及相關(guān)的視頻和圖片等等來獲取相關(guān)的數(shù)據(jù)輔助科學(xué)研究的順利進行,大數(shù)據(jù)時代科學(xué)數(shù)據(jù)整合仍然需要不斷的努力和探索新的方法。
雖然大數(shù)據(jù)時代已經(jīng)來臨,科學(xué)技術(shù)也在突飛猛進,但是在發(fā)展中仍然存在著諸多的問題,大數(shù)據(jù)時代的科學(xué)數(shù)據(jù)研究整合面臨著諸多的挑戰(zhàn),比如說對于相關(guān)的科學(xué)技術(shù)進行描述的時候所運用的語法不統(tǒng)一,有的以文本形式來對數(shù)據(jù)進行保存,有的以視頻的方式來進行數(shù)據(jù)的保存,但是由于科學(xué)研究中的實驗室所用到的系統(tǒng)都存在差異,所以在對相同信息的文本或者視頻來進行解讀的時候必然會產(chǎn)生一些出入,影響相關(guān)研究中對數(shù)據(jù)進行分析。除了科學(xué)數(shù)據(jù)整合中語法上存在差異之外,科學(xué)數(shù)據(jù)的元數(shù)據(jù)之間也存在著不同,元數(shù)據(jù)之間格式異同,同樣的科學(xué)數(shù)據(jù)在應(yīng)用中會應(yīng)格式不同而有所差別。我們應(yīng)該找到一種可以從元數(shù)據(jù)格式到集成元數(shù)據(jù)之間的正確的映射或者說正確的解決方法,能夠使得元數(shù)據(jù)自身所帶有的不完整性得到一定的改善和補充,幫助科學(xué)研究工作的順利進行。在大數(shù)據(jù)時代科學(xué)數(shù)據(jù)的整合研究之中還存在一個重要的問題就是不同的數(shù)據(jù)之間缺乏一個有效的數(shù)據(jù)關(guān)聯(lián)和連接體,不同的數(shù)據(jù)之間沒有有效的語言連接手段,一般來講科學(xué)數(shù)據(jù)研究必然由多種元數(shù)據(jù)組合而成,科學(xué)家需要對各種相關(guān)的數(shù)據(jù)進行分析組合,因此使得科學(xué)數(shù)據(jù)無法得到有效的查詢,探索數(shù)據(jù)之間各個實體的關(guān)系和連接方法有著巨大的意義。
科學(xué)數(shù)據(jù)的整合顧名思義就是要將在科學(xué)研究中各類相關(guān)的數(shù)據(jù)聯(lián)系起來,進行數(shù)據(jù)的查詢、篩選和整合,實現(xiàn)數(shù)據(jù)資源的共享和分析,不同的數(shù)據(jù)之間能夠有效的聯(lián)系和結(jié)合,共同服務(wù)于科學(xué)研究的項目。在科學(xué)數(shù)據(jù)的集成過程中也就存在著一個關(guān)鍵性的問題就是數(shù)據(jù)之間進行連接的中間件,如何構(gòu)建這種可以方便數(shù)據(jù)整合的中間件,解決好這一問題也就會解決大數(shù)據(jù)時代科學(xué)數(shù)據(jù)整合的困境。
大數(shù)據(jù)時代探索數(shù)據(jù)資源科學(xué)整合的方式尤為重要,通過把不同數(shù)據(jù)的元數(shù)據(jù)信息進行轉(zhuǎn)換,使得各個異構(gòu)數(shù)據(jù)庫之間的信息可以通過正確的中間件組合成為全局性的虛擬視圖。讓每一個異構(gòu)數(shù)據(jù)庫按照相關(guān)的規(guī)定通過包裝器轉(zhuǎn)變?yōu)樽约旱腦ML視圖,并且可以對XML進行分析和選擇,使數(shù)據(jù)更加有效和精準,這種中間構(gòu)建是將異構(gòu)數(shù)據(jù)進行有效的處理。在上面描述中筆者已經(jīng)提到在大數(shù)據(jù)時代不斷的發(fā)展之下,科學(xué)數(shù)據(jù)研究整合之中存在著一個重要的問題就是不同格式的數(shù)據(jù)之間沒有相關(guān)的語言格式,而對于此類問題,我們也應(yīng)該尋找相對適應(yīng)的中間件,單是依靠語法上面的數(shù)據(jù)已經(jīng)無法滿足更多科學(xué)工作者的需要,也無法滿足現(xiàn)在社會科學(xué)技術(shù)不斷興盛的需求,所以語言模型的中間件構(gòu)建也顯得十分的重要。也就是說可以在XML包裝器上再另外的進行疊加,加上CM-Wrapper包裝器,實現(xiàn)不同語言格式之間數(shù)據(jù)的聯(lián)合搜集和整合,將不同的數(shù)據(jù)組合成為一個整體,元數(shù)據(jù)的轉(zhuǎn)換以及中間件的建設(shè)對于科學(xué)數(shù)據(jù)資源整合至關(guān)重要。
無論是哪一種中間件的構(gòu)建都會涉及到原始數(shù)據(jù)以及用戶查詢意圖所產(chǎn)生的數(shù)據(jù),中間件的構(gòu)建涉及到數(shù)據(jù)自身以及科學(xué)家對數(shù)據(jù)資源的應(yīng)用,兩者之間需要通過映射模式組合生成,所以對模式之間映射關(guān)系的構(gòu)建顯得十分重要,其中最為常見的是GAV和LAV兩種方法。GAV是指將數(shù)據(jù)源映射到全局的視圖當中從而獲得較高的查詢效率,LAV的方法是更加適用于數(shù)據(jù)變化較大的數(shù)據(jù)源,這種方法中的映射關(guān)系有著良好的擴展性。這兩種方法在科學(xué)數(shù)據(jù)研究整合當中有著各自的特點,但對于數(shù)據(jù)的整合運用都有著巨大的有利之處,所以在大數(shù)據(jù)時代對于科學(xué)數(shù)據(jù)進行有效的處理是我們必須要面對的挑戰(zhàn)。大數(shù)據(jù)時代高效的利用各種數(shù)據(jù)分析方法進行科學(xué)項目研究或者說相關(guān)數(shù)據(jù)產(chǎn)業(yè)的構(gòu)建都有著重要的意義,小到在圖書館數(shù)據(jù)管理、電視營銷數(shù)據(jù)等中涉獵,大至科學(xué)產(chǎn)業(yè)數(shù)據(jù)整合與政府網(wǎng)站信息資源分析都在實現(xiàn)其社會價值。
“大數(shù)據(jù)”不僅僅是一個概念性的表達,更是一個時代發(fā)展的深刻體現(xiàn),大數(shù)據(jù)中蘊含著時代發(fā)展的無限動力,科學(xué)技術(shù)騰飛的基礎(chǔ)條件,在不斷發(fā)展的今天,我們要意識到大數(shù)據(jù)時代所帶來的教育和挑戰(zhàn),認識到科學(xué)數(shù)據(jù)研究整合的意義所在。
[1]白如江,冷伏海.情報理論與實踐,2014.
[2]方璐.大數(shù)據(jù)時代的科學(xué)研究方法.浙江工業(yè)大學(xué),2014.
[3]馬曉亭.大數(shù)據(jù)時代圖書館數(shù)據(jù)整合系統(tǒng)構(gòu)建研究,圖書館建設(shè),2014.
[4]陳亞東,孟憲學(xué),趙瑞雪,寇遠濤,鮮國建.我國蘋果產(chǎn)業(yè)科學(xué)數(shù)據(jù)整合系統(tǒng)的設(shè)計與實現(xiàn).中國農(nóng)業(yè)科技導(dǎo)報,2016.
[5]吳寧博.大數(shù)據(jù)時代圖書館科學(xué)數(shù)據(jù)生命周期管理策略研究.貴圖學(xué)苑,2015.
[6]張?zhí)m廷.大數(shù)據(jù)的社會價值與戰(zhàn)略選擇.中共中央黨校,2014.
[7]金元寶.大數(shù)據(jù)時代政府網(wǎng)站信息資源整合研究.東北財經(jīng)大學(xué),2015.
[8]劉峰.劉峰大數(shù)據(jù)時代的電視媒體營銷研究.華東師范大學(xué),2014.
漢江師范學(xué)院科研項目(項目編號:2014B19)。