陳勵和
摘要:大數(shù)據(jù)時代的到來催生了數(shù)據(jù)科學家,本文探討了數(shù)據(jù)科學家積極主動地參與醫(yī)療機構(gòu)高層的決策咨詢,努力為解決大數(shù)據(jù)時代醫(yī)學圖書館發(fā)展中的戰(zhàn)略問題提供可持續(xù)發(fā)展的咨詢報告,為宏觀決策提供科學依據(jù),對所服務的讀者在使用圖書館資源和網(wǎng)上資源的過程中所產(chǎn)生的大量數(shù)據(jù)進行統(tǒng)一收集、統(tǒng)一分析,為訂購醫(yī)學資源提供咨詢和依據(jù),從繁雜無序的大量數(shù)據(jù)中找到有用的價值信息,并將這些有用的數(shù)據(jù)信息傳遞給高層決策者和用戶,最終得以在讀者使用中實現(xiàn)有用的價值。
關(guān)鍵詞:數(shù)據(jù)科學家;大數(shù)據(jù);圖書館;未來發(fā)展
DOI: 10.3969/j.issn.2095-5707.2018.04.002
中圖分類號:R-058 文獻標識碼:A 文章編號:2095-5707(2018)04-0006-03
Abstract: The advent of the era of big data has given rise to data scientists. This article discussed that the data scientists actively participate in decision-making consultation of high-level medical institutions, make efforts to provide sustainability consultation reports for solving strategic problems in the development of medical libraries in the era of big data, which can provide a scientific basis for macro decision. It also pointed out that data scientists provide unified collection and analysis of the large amount of data generated by the serviced readers in the process of using library resources and online resources. offer consultation and basis for ordering medical resources, find a large number of useful and valuable data from the chaos of information, pass these useful data information to high-level decision makers and users, and finally realize useful value in the use of readers.
Key words: data scientists; big data; libraries; future development
大數(shù)據(jù)時代的到來給數(shù)據(jù)分析和挖掘帶來相當大的難度。據(jù)“國際數(shù)據(jù)公司”(IDC)研究人員預計,到2020年全球每年產(chǎn)生的數(shù)據(jù)量將達到35ZB。這些數(shù)據(jù)如果刻成DVD光盤,把這些DVD光盤一張一張地疊加起來的高度是地球到月球的2倍[1]。這些繁雜巨大的信息數(shù)據(jù)依賴傳統(tǒng)的人工分析方法已顯得緩慢滯后,只依靠機器處理也難以適應大數(shù)據(jù)時代的信息需要。那些運用數(shù)據(jù)科學的方法進行收集數(shù)據(jù)、分析數(shù)據(jù)、研究數(shù)據(jù)、處理數(shù)據(jù)的數(shù)據(jù)科學家的出現(xiàn),為大數(shù)據(jù)的研究與應用帶來新的希望。
1 數(shù)據(jù)科學與數(shù)據(jù)科學家
1.1 數(shù)據(jù)科學
數(shù)據(jù)科學是關(guān)于數(shù)據(jù)的綜合體或者是專門研究數(shù)據(jù)的一門科學,其研究對象是數(shù)據(jù)系統(tǒng)中的數(shù)據(jù),是專門研究網(wǎng)絡空間中的數(shù)據(jù)系統(tǒng)的規(guī)律、方法和技術(shù)。與我們所認知的自然科學和社會科學比較,其出現(xiàn)的時間還比較遲,它專門研究的是虛擬的數(shù)據(jù)。數(shù)據(jù)科學主要是為我們所認知的自然科學和社會科學研究提供一種全新的方法,稱為科學研究的數(shù)據(jù)方法,其目的在于探索和提示自然界和人類行為的現(xiàn)象和規(guī)律。
1.2 數(shù)據(jù)科學家
數(shù)據(jù)科學家是由美國的Natahn Yau博士在2009年提出來的[2],目前還沒有統(tǒng)一的定義。比較認可的定義是,數(shù)據(jù)科學家是指運用專門的統(tǒng)計分析、機器判斷、分布式處理、綜合評估等技術(shù),從大量數(shù)據(jù)中提煉出對用戶有意義的信息,以容易通用明了的形式傳送給用戶和決策者,并綜合提煉出新的數(shù)據(jù)來應用服務的人才。數(shù)據(jù)科學家通過關(guān)注使用者提供的數(shù)據(jù)來進行綜合分析,在更高層面上創(chuàng)造出不同特性的產(chǎn)品和流程,為使用者提供增值性的信息服務[3]。
2 數(shù)據(jù)科學家的素質(zhì)和能力
2.1 數(shù)據(jù)科學家具備的素質(zhì)
2.1.1 創(chuàng)業(yè)意識 數(shù)據(jù)科學家應該具備以繁雜、無序、海量的數(shù)據(jù)為核心進行創(chuàng)新性研發(fā)和提升的創(chuàng)業(yè)意識。亞馬遜(Amazon)、谷歌(Google)、阿里巴巴(Alibaba)、臉書(Facebook)等都是基于對龐大復雜的數(shù)據(jù)進行收集、分析、整合、創(chuàng)新,進而產(chǎn)生出新型的服務型企業(yè),都是數(shù)據(jù)分析和數(shù)據(jù)處理的研究人員通過艱苦探求才獲得成功的。
2.1.2 探索精神 堅韌的探索精神是科學家不斷進取的驅(qū)動力和創(chuàng)造力的根源,數(shù)據(jù)科學家的工作就是在龐大復雜數(shù)據(jù)中探求,具有強烈的探索精神才能驅(qū)動他們探求和研究問題實質(zhì),尋找問題的最佳答案,并把它們提煉為一組更加明了、清晰、可以驗證的假設[4]。數(shù)據(jù)科學家的價值并不是單靠做簡單的報表和PPT等材料提供給高層決策者,而是通過收集全體用戶的標準、要求和流程等,對海量繁雜的數(shù)據(jù)進行再分析和加工,揭示出事物的內(nèi)在聯(lián)系,從而找出最佳的解決問題的方案,這需要數(shù)據(jù)科學家強烈的探求精神和嚴謹?shù)墓ぷ鲬B(tài)度。
2.1.3 廣泛興趣 具有卓越品質(zhì)的數(shù)據(jù)科學家的興趣和好奇并不是局限于他們所掌握的計算機科學、數(shù)學、統(tǒng)計學等與數(shù)據(jù)分析有關(guān)的學科,而是對文學、音樂、藝術(shù)、醫(yī)療、社會科學、自然科學等各個領(lǐng)域都擁有廣泛的愛好[5]。美國的數(shù)據(jù)科學家大多數(shù)具有豐富的工作經(jīng)歷,他們具有實驗物理學、計算機化學、數(shù)據(jù)統(tǒng)計學,甚至是生理學、神經(jīng)外科學等工作的扎實經(jīng)驗和豐富理論。正因為他們具有廣泛的探求精神和淵博的知識,在他們對不同領(lǐng)域數(shù)據(jù)的搜集、整合、分析、評估時,才能夠發(fā)現(xiàn)常人難以發(fā)現(xiàn)的有價值的數(shù)據(jù)與觀點,找出不同事件的發(fā)展特征和正在發(fā)生事件的趨勢。
2.2 數(shù)據(jù)科學家需具備的技能
2.2.1 計算機科學與數(shù)據(jù)分析能力 掌握計算機編程技能和數(shù)據(jù)搜集、數(shù)據(jù)分析、數(shù)據(jù)儲存、數(shù)據(jù)安全的技術(shù)。具備處理大數(shù)據(jù)所需要的Hadoop、Mahout等大數(shù)據(jù)和大規(guī)模的處理技術(shù)。
2.2.2 數(shù)據(jù)處理與統(tǒng)計分析能力 除了掌握數(shù)據(jù)搜集、數(shù)據(jù)分析、數(shù)據(jù)優(yōu)化和數(shù)據(jù)綜合能力外,還要具備數(shù)學、統(tǒng)計及綜合的知識和技能,如SAS、SPSS等統(tǒng)計分析軟件和與編程語言與運行環(huán)境相關(guān)的知識。
2.2.3 數(shù)據(jù)可視化能力 數(shù)據(jù)可視化能力的確是數(shù)據(jù)科學家非常重要的技能。信息數(shù)據(jù)的表達方法決定了信息數(shù)據(jù)的質(zhì)量,數(shù)據(jù)信息可視化對信息的直接采用和對高層決策的利用都有很重要的作用。數(shù)據(jù)科學家要從零散繁亂的數(shù)據(jù)中進行采集和分析,使用應用程序接口(Application Programming Interface, API)將地圖、圖表、儀表盤(Dashboard)等數(shù)據(jù)服務統(tǒng)一起來,進一步完成分析結(jié)果可視化。
3 數(shù)據(jù)科學家是未來的戰(zhàn)略資源
隨著對大數(shù)據(jù)應用研究的進一步推廣和應用,數(shù)據(jù)科學家對數(shù)據(jù)的收集、存儲、處理、分析,以及對大數(shù)據(jù)的解決方案都會不斷地深化,但是研究大數(shù)據(jù)最大的問題不是工具,而是人才短缺,作為大數(shù)據(jù)研究的引導者,社會上對數(shù)據(jù)科學家的需求也不斷增長。大型互聯(lián)網(wǎng)技術(shù)廠商易安信公司(EMC)在2013年發(fā)表的一份關(guān)于對美國、中國、英國、法國、印度等數(shù)據(jù)科學家的調(diào)研報告中得出,有2/3的參與者認為在未來幾年中數(shù)據(jù)科學家仍然缺乏[4]。這一發(fā)展趨勢進一步印證了2016年12月麥肯錫全球研究院發(fā)表的《分析的時代:在大數(shù)據(jù)的世界競爭》報告的結(jié)果:美國專業(yè)數(shù)據(jù)科學家每年仍缺口約25萬人。預測未來的10年內(nèi),單是美國對這種人才的需求約為200~400萬[6]。
社會上對數(shù)據(jù)科學家的需求在四、五年前還僅限于Google、Amazon等較大型的網(wǎng)絡公司。隨著大數(shù)據(jù)分析重要性的不斷出現(xiàn),重視數(shù)據(jù)分析、研究與應用的企業(yè)日益增加,一些發(fā)達國家如德國、日本、法國、美國、加拿大等都大量需要數(shù)據(jù)科學家,美國通過培養(yǎng)和高薪引進數(shù)據(jù)研究人員,來填充數(shù)據(jù)科學家數(shù)量不足帶來的問題[7]。Facebook、IBM、Google、Amazon等大型企業(yè)對數(shù)據(jù)科學家的需求不斷增加,據(jù)報道,日本新成立“數(shù)據(jù)科學家協(xié)會”,致力于企業(yè)內(nèi)部培養(yǎng)“大數(shù)據(jù)”分析人才[8],未來數(shù)據(jù)科學家會成為一種戰(zhàn)略資源。
4 數(shù)據(jù)科學家在醫(yī)學圖書館中的作用
從Facebook、IBM、Google、Amazon等大型企業(yè)成功的例證上我們可以看出,支撐這些大公司業(yè)務提升與業(yè)績的背后就是數(shù)據(jù)科學家。這些大型企業(yè)對于海量繁雜的數(shù)據(jù)不僅是進行收集、存儲,而是通過一系列的研究與分析,將其變?yōu)橛袃r值的數(shù)據(jù)信息,通過對結(jié)果的分析、產(chǎn)品的推薦為公司的發(fā)展起到了決定性的作用。就醫(yī)學圖書館來說,數(shù)據(jù)科學家的作用也與其在網(wǎng)絡公司起到的作用近似,主要體現(xiàn)在以下3個方面:
4.1 為醫(yī)學圖書館決策服務
數(shù)據(jù)科學家積極主動地參與醫(yī)學機構(gòu)高層的決策咨詢,為解決大數(shù)據(jù)時代醫(yī)學圖書館發(fā)展中的戰(zhàn)略問題提供可持續(xù)發(fā)展的咨詢報告,為醫(yī)學圖書館的宏觀決策提供科學依據(jù)。數(shù)據(jù)科學家對讀者的醫(yī)學信息數(shù)據(jù)的需求和醫(yī)學科技發(fā)展的走向有著很強的預測性,并且長期追蹤醫(yī)學圖書館的信息服務的發(fā)展熱點和讀者急需的醫(yī)療數(shù)據(jù)[9]。因此,數(shù)據(jù)科學家的研究成果往往能夠直接為醫(yī)學圖書館的發(fā)展提供決策性的建議,解決實際問題。
4.2 為醫(yī)學圖書館的資源訂購提供咨詢和依據(jù)
醫(yī)學圖書館是信息聚集、搜集、存儲和傳遞的重要匯集地,大數(shù)據(jù)的收集、分析、利用、傳遞離不開數(shù)據(jù)科學家的參與。培養(yǎng)數(shù)據(jù)科學家成為今后醫(yī)學圖書館在大數(shù)據(jù)時代生存發(fā)展的迫切任務。每個醫(yī)學圖書館沒有能力也不可能訂購所有科研和醫(yī)療單位專家所需要的醫(yī)學信息資源,單靠圖書館專家咨詢和問卷調(diào)查來滿足大部分用戶對醫(yī)學信息的需求是不可能實現(xiàn)的。這樣,就需要數(shù)據(jù)科學家對讀者在使用圖書館資源和網(wǎng)上資源的過程中所產(chǎn)生的大量數(shù)據(jù)進行統(tǒng)一收集、統(tǒng)一分析,探求出讀者使用愛好和關(guān)注焦點的規(guī)律,并預測出未來的研究方向,依據(jù)研究成果來指導醫(yī)學信息資源的訂購工作,通過對數(shù)據(jù)的分析還可以預測到未來信息服務的方向。
4.3 提高醫(yī)學圖書館資源利用率
依靠數(shù)據(jù)科學家所具備的數(shù)據(jù)收集、分析、綜合的能力來挖掘知識,利用數(shù)據(jù)科學家的數(shù)據(jù)優(yōu)化與綜合能力、統(tǒng)計分析能力來整合知識,充分發(fā)揮數(shù)據(jù)科學家的可視化能力來傳遞和推廣醫(yī)學圖書館的信息數(shù)據(jù)知識,利用數(shù)據(jù)存儲和數(shù)據(jù)安全技能保障信息數(shù)據(jù)和信息知識的安全。目前,大多數(shù)醫(yī)學圖書館所訂購的數(shù)據(jù)庫利用率比較低,是因為其數(shù)據(jù)和信息的分析能力遠遠未能達到真正把讀者需要的信息和知識挖掘出來[10]。如果不依靠數(shù)據(jù)科學家分析和整理出所訂購的信息資源,醫(yī)學圖書館所擁有的數(shù)據(jù)庫即使再多,數(shù)據(jù)量再大,也很難讓這些資源再增加價值。數(shù)據(jù)科學家的作用就是從繁雜無序的大量數(shù)據(jù)中找到有用的價值信息,并將這些有用的數(shù)據(jù)信息傳遞給高層決策者和用戶,最終得以在讀者使用中實現(xiàn)信息的價值。
5 小結(jié)
數(shù)據(jù)科學家的出現(xiàn)是數(shù)據(jù)科學不斷完善和發(fā)展的具體表現(xiàn),使數(shù)據(jù)科學變得更加直觀和可視,也體現(xiàn)出數(shù)據(jù)科學研究的重要性。在大數(shù)據(jù)時代的今天,數(shù)據(jù)科學家為加快醫(yī)學圖書館的發(fā)展、優(yōu)化醫(yī)學圖書館的管理有很大的促進作用,也為醫(yī)學信息資源的優(yōu)化訂購、充分利用、個性化服務起到積極的推動作用。
參考文獻
[1] TAYLOR Chris. Career of the Future: Data Scientist [INFOGRAPHIC][EB/OL].(2012-01-13)[2017-11-22].https://mashable. com/2012/01/13/career-of-the-future-data-scientist-infographic/ #Jpk5xwbSn8qW.
[2] 王新才,丁家友.大數(shù)據(jù)知識圖譜:概念、特征、應用與影響[J].情報科學,2013,31(9):10-14,136.
[3] 趙振營.圖書館實施大數(shù)據(jù)戰(zhàn)略實踐路徑分析[J].中國中醫(yī)藥圖書情報雜志,2017,41(2):35-38.
[4] 朱揚勇,熊贇.大數(shù)據(jù)時代的數(shù)據(jù)科學家培養(yǎng)[J].大數(shù)據(jù),2016(3): 106-112.
[5] 秦小燕,初景利.國外數(shù)據(jù)科學家能力體系研究現(xiàn)狀與啟示[J].圖書情報工作,2017,61(23):40-50.
[6] 數(shù)據(jù)觀.帶你讀懂麥肯錫大數(shù)據(jù)分析報告[EB/OL].(2017-02-10) [2017-11-22].http://www.raincent.com/content-10-8451-1.html.
[7] 榮邵.人才大數(shù)據(jù)[J].國際人才交流,2016(1):21.
[8] 環(huán)球網(wǎng).日本成立“數(shù)據(jù)科學家協(xié)會” 培養(yǎng)大數(shù)據(jù)分析人才[EB/OL].(2013-07-17)[2017-11-22].http://world.huanqiu.com/ exclusive/2013-07/4140239.html.
[9] 陳振沖,賀田田.數(shù)據(jù)科學人才的需求與培養(yǎng)[J].大數(shù)據(jù),2016(5): 95-106.
[10] 杜棟,蘇樂天.大數(shù)據(jù)時代信息管理面臨的挑戰(zhàn)和應對策略[J].工業(yè)和信息化教育,2015(11):87-89,94.
(收稿日期:2018-02-21)
(修回日期:2018-02-28;編輯:魏民)