• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      數(shù)據(jù)科學(xué)人才的需求與培養(yǎng)

      2016-04-08 03:49:13陳振沖賀田田
      大數(shù)據(jù) 2016年5期
      關(guān)鍵詞:工業(yè)界碩士科學(xué)家

      陳振沖,賀田田

      香港理工大學(xué)電子計(jì)算學(xué)系,香港 999077

      數(shù)據(jù)科學(xué)人才的需求與培養(yǎng)

      陳振沖,賀田田

      香港理工大學(xué)電子計(jì)算學(xué)系,香港 999077

      信息科技業(yè)已進(jìn)入大數(shù)據(jù)時(shí)代。作為能夠從大數(shù)據(jù)中挖掘知識(shí)的人才,數(shù)據(jù)科學(xué)家(data scientist)受到各行各業(yè)的青睞。首先從美國(guó)和中國(guó)主要的在線人才招聘平臺(tái)收集數(shù)據(jù),通過(guò)對(duì)比分析得出數(shù)據(jù)科學(xué)家與傳統(tǒng)的數(shù)據(jù)分析師(data analyst)在工作性質(zhì)、工作能力要求以及薪資待遇等方面的差別。其次,考察和總結(jié)了世界范圍內(nèi)優(yōu)秀大學(xué)數(shù)據(jù)科學(xué)人才培養(yǎng)的概況,并與工業(yè)界的實(shí)際要求進(jìn)行對(duì)比。根據(jù)以上兩者之間的差異,就當(dāng)前大學(xué)數(shù)據(jù)科學(xué)人才的培養(yǎng)提出了建議和對(duì)策。

      大數(shù)據(jù);數(shù)據(jù)科學(xué);大學(xué)教育;人才培養(yǎng)

      1 引言

      信息科技已經(jīng)進(jìn)入大數(shù)據(jù)的時(shí)代。“大數(shù)據(jù)”的數(shù)據(jù)容量(volume)、增長(zhǎng)速度(velocity)、多樣性(variety)、多變性(variability)和精確性(veracity)相比以往都有了翻天覆地的變化。因此,傳統(tǒng)的數(shù)據(jù)處理方法遇到了前所未有的挑戰(zhàn)。大數(shù)據(jù)帶來(lái)的巨大挑戰(zhàn),同時(shí)也是巨大的機(jī)遇。

      數(shù)據(jù)資源是重要的現(xiàn)代戰(zhàn)略資源,其重要性在本世紀(jì)有可能超過(guò)石油、煤炭、礦產(chǎn),成為人類最重要的資源[1]。因此,如何存儲(chǔ)、管理數(shù)據(jù),發(fā)現(xiàn)大數(shù)據(jù)中有價(jià)值的信息,成為科學(xué)界、工業(yè)界炙手可熱的問(wèn)題。眾所周知,“事”在人為,數(shù)據(jù)處理的策劃、實(shí)施的主體是具備專業(yè)知識(shí)和技能的數(shù)據(jù)處理人才。大到一個(gè)國(guó)家,小到一間公司或一個(gè)集體,若想充分利用數(shù)據(jù)帶來(lái)的價(jià)值,必須擁有具有專業(yè)知識(shí)和技術(shù)的數(shù)據(jù)人才。培養(yǎng)出足夠的、合格的數(shù)據(jù)人才,對(duì)我國(guó)在未來(lái)掌握大數(shù)據(jù)的核心價(jià)值起著至關(guān)重要的作用。

      在本文中,筆者首先闡述大數(shù)據(jù)時(shí)代催生出的新興科學(xué)——數(shù)據(jù)科學(xué),之于大數(shù)據(jù)處理的重要性;而后,通過(guò)總結(jié)工業(yè)界對(duì)于時(shí)下最熱門的兩個(gè)數(shù)據(jù)科學(xué)方面的職業(yè)(數(shù)據(jù)科學(xué)家和數(shù)據(jù)分析師)的要求,闡述工業(yè)界對(duì)于數(shù)據(jù)科學(xué)人才的一般要求;而后,再通過(guò)對(duì)比的方式得出大學(xué)教育培養(yǎng)數(shù)據(jù)科學(xué)人才與工業(yè)界要求的差異;最后對(duì)數(shù)據(jù)科學(xué)人才培養(yǎng)提出行之有效的建議。

      2 大數(shù)據(jù)處理與數(shù)據(jù)科學(xué)

      當(dāng)今社會(huì),伴隨著計(jì)算機(jī)互聯(lián)網(wǎng)技術(shù)的普及與發(fā)展,人類社會(huì)的諸多活動(dòng)都會(huì)產(chǎn)生大量的數(shù)據(jù)。比如在科學(xué)研究方面,目前生物學(xué)的數(shù)據(jù)每年都以指數(shù)速率增長(zhǎng)[2],截至2013年,歐洲生物信息協(xié)會(huì)保存的基因和蛋白質(zhì)的數(shù)據(jù)就達(dá)到20 PB[3]。此外,政府和企業(yè)的政務(wù)以及業(yè)務(wù)數(shù)據(jù)的總量也迅速增長(zhǎng)。國(guó)內(nèi)一項(xiàng)調(diào)查顯示,接近30%的國(guó)內(nèi)企業(yè)擁有500 TB以上級(jí)別的企業(yè)數(shù)據(jù)庫(kù)用于存儲(chǔ)企業(yè)數(shù)據(jù)[4]。截至2014年,全球各國(guó)政府和地區(qū)僅開放的數(shù)據(jù)集就已超過(guò)700000個(gè)[5]。而人類使用互聯(lián)網(wǎng)終端產(chǎn)生的數(shù)據(jù),更是難以計(jì)數(shù)。面對(duì)如此巨大的數(shù)據(jù)總量,如何存儲(chǔ)、處理、發(fā)現(xiàn)數(shù)據(jù)中有價(jià)值的信息,成為科學(xué)界、工業(yè)界炙手可熱的話題。

      為應(yīng)對(duì)大數(shù)據(jù)帶來(lái)的前所未有的挑戰(zhàn),一個(gè)以多學(xué)科多技術(shù)融合為特點(diǎn)的新興基礎(chǔ)學(xué)科[6]——數(shù)據(jù)科學(xué),已經(jīng)形成并迅速發(fā)展。從宏觀角度而言,數(shù)據(jù)科學(xué)是一門利用數(shù)據(jù)學(xué)習(xí)知識(shí)的學(xué)科,其目標(biāo)是通過(guò)在數(shù)據(jù)中提取的有價(jià)值的信息來(lái)生產(chǎn)數(shù)據(jù)產(chǎn)品。數(shù)據(jù)科學(xué)結(jié)合了諸多領(lǐng)域中的理論和技術(shù),包括應(yīng)用數(shù)學(xué)、統(tǒng)計(jì)、模式識(shí)別、機(jī)器學(xué)習(xí)、數(shù)據(jù)可視化、數(shù)據(jù)倉(cāng)庫(kù)以及高性能計(jì)算①https:// en.wikipedia.org/ wiki/Data_science。從其定義不難看出,數(shù)據(jù)科學(xué)與傳統(tǒng)的數(shù)據(jù)分析學(xué)科有一定的交集,但不完全相同。可以看到,數(shù)據(jù)科學(xué)涉及的學(xué)科更多、更全面。

      知識(shí)的獲取是整個(gè)數(shù)據(jù)處理過(guò)程最重要的組成部分,也是獲取海量數(shù)據(jù)之后的重要目的。目前,數(shù)據(jù)分析以獲取知識(shí)的方法傳統(tǒng)上稱為data analysis,但近年來(lái),data analytics這一術(shù)語(yǔ)也經(jīng)常見(jiàn)到,特別是談?wù)摯髷?shù)據(jù)與社交媒體分析的時(shí)候。雖然這兩個(gè)術(shù)語(yǔ)都可翻譯為數(shù)據(jù)分析,但它們是否全無(wú)分別呢?

      data analysis一般泛指?jìng)鹘y(tǒng)的數(shù)據(jù)分析方法。針對(duì)不同的數(shù)據(jù),data analysis運(yùn)用統(tǒng)計(jì)學(xué)相關(guān)的方法,如T檢驗(yàn)、F檢驗(yàn)、卡方檢驗(yàn)、邏輯回歸等,獲取數(shù)據(jù)中的相關(guān)知識(shí)。相比于data analysis,dataanalytics更加與時(shí)俱進(jìn)。針對(duì)各式各樣的數(shù)據(jù),data analytics首先針對(duì)數(shù)據(jù)建立數(shù)學(xué)模型,然后運(yùn)用各類方法,如數(shù)理統(tǒng)計(jì)類方法、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等,對(duì)數(shù)據(jù)進(jìn)行深層次的知識(shí)發(fā)掘。根據(jù)之前提到的數(shù)據(jù)科學(xué)的定義(數(shù)據(jù)科學(xué)是一門利用不同方法從數(shù)據(jù)中獲取知識(shí)的科學(xué)),它更傾向于運(yùn)用data analytics為主、data analysis為輔的方式發(fā)掘數(shù)據(jù)中的知識(shí)。由以上兩種不同的知識(shí)發(fā)掘方法,催生出兩大類不同的數(shù)據(jù)科學(xué)工作者,即數(shù)據(jù)科學(xué)家(data scientist)和數(shù)據(jù)分析師(data analyst)。在下文中,筆者將著重分析和對(duì)比工業(yè)界對(duì)以上兩類數(shù)據(jù)科學(xué)工作者的要求和大學(xué)教育培養(yǎng)數(shù)據(jù)科學(xué)工作者之間的差異。

      3 數(shù)據(jù)科學(xué)人才的要求與培養(yǎng)現(xiàn)狀

      根據(jù)前文所述可知,能否培養(yǎng)出能夠應(yīng)對(duì)和處理不同類型數(shù)據(jù)的專業(yè)數(shù)據(jù)科學(xué)人才是能否應(yīng)對(duì)大數(shù)據(jù)帶來(lái)的巨大挑戰(zhàn)的關(guān)鍵。作為向工業(yè)界輸送人才的重要力量,大學(xué)教育理應(yīng)成為數(shù)據(jù)科學(xué)人才培養(yǎng)的重要基地。本節(jié)將著重分析工業(yè)界對(duì)于數(shù)據(jù)工作者的要求和大學(xué)數(shù)據(jù)科學(xué)人才培養(yǎng)的概況,并總結(jié)二者的差異。

      3.1 數(shù)據(jù)科學(xué)工作者——工業(yè)界的要求

      雖然目前工業(yè)界雇傭數(shù)據(jù)科學(xué)工作者時(shí)會(huì)用各式各樣的工作頭銜,如數(shù)據(jù)工程師、數(shù)據(jù)分析師、數(shù)據(jù)分析員等,但根據(jù)前文的闡述,數(shù)據(jù)科學(xué)工作者可以大概分為兩類:數(shù)據(jù)分析師與數(shù)據(jù)科學(xué)家。這兩類數(shù)據(jù)科學(xué)工作者可以看作為實(shí)現(xiàn)不同層次的數(shù)據(jù)處理而設(shè)定的工作崗位。為了能夠明確區(qū)分工業(yè)界對(duì)于二者的要求,筆者主要以中美兩國(guó)兩家在線招聘平臺(tái),拉勾網(wǎng)②www.lagou.com和CareerBuilder③http://www.careerbuilder.com/當(dāng)日投放的招聘廣告為樣本,統(tǒng)計(jì)了中美兩國(guó)對(duì)于數(shù)據(jù)分析師和數(shù)據(jù)科學(xué)家的崗位要求,并對(duì)統(tǒng)計(jì)結(jié)果進(jìn)行對(duì)比分析。使用以上兩個(gè)在線招聘平臺(tái)的數(shù)據(jù)作對(duì)比分析主要基于下列原因:其一,拉勾網(wǎng)和CareerBuilder分別是中國(guó)內(nèi)地和美國(guó)較大的IT類在線招聘平臺(tái),在這兩個(gè)平臺(tái)投放的招聘廣告在一定程度上能夠代表兩國(guó)工業(yè)界對(duì)于數(shù)據(jù)分析師和數(shù)據(jù)科學(xué)家的崗位要求;其二,兩個(gè)在線招聘平臺(tái)均提供了詳細(xì)的關(guān)鍵字搜索、分類搜索以及過(guò)濾功能,筆者能夠借助這些功能實(shí)現(xiàn)不同角度的對(duì)比分析。

      從2016年5月21日的廣告投放數(shù)據(jù),筆者統(tǒng)計(jì)了中美兩國(guó)對(duì)于數(shù)據(jù)科學(xué)家和數(shù)據(jù)分析師的學(xué)歷及工作經(jīng)驗(yàn)要求,見(jiàn)表1。從表1可以看到,雖然具體的數(shù)據(jù)有所差異,但中美兩國(guó)公司對(duì)于數(shù)據(jù)科學(xué)家以及數(shù)據(jù)分析師的要求基本相似。數(shù)據(jù)科學(xué)家需要更高的學(xué)歷,例如:要求碩士以上學(xué)歷的招聘廣告在拉勾網(wǎng)上達(dá)到27.7%,在CareerBuilder上則接近42%。在其他調(diào)查報(bào)告中,對(duì)于數(shù)據(jù)科學(xué)家的學(xué)歷要求也給出了相似的結(jié)果。例如,在一項(xiàng)由RJMetrics發(fā)起的調(diào)查中④https://rjmetrics.com/press/newstudy-finds-52-of-data-scientistshave-earnedthat-title-withinthe-past-4-years/,在過(guò)去4年成功獲得數(shù)據(jù)科學(xué)家工作職位的數(shù)據(jù)科學(xué)工作者中,接近45%的數(shù)據(jù)科學(xué)家至少擁有碩士學(xué)歷,而擁有博士學(xué)歷的數(shù)據(jù)科學(xué)家也接近20%。相比于數(shù)據(jù)科學(xué)家,數(shù)據(jù)分析師更需要相對(duì)豐富的工作經(jīng)驗(yàn),例如CareerBuilder和拉勾網(wǎng)要求數(shù)據(jù)分析師有3~5年工作經(jīng)驗(yàn)的招聘比例分別達(dá)到24.65%和56.6%,而要求同樣工作經(jīng)驗(yàn)的數(shù)據(jù)科學(xué)家的比例只有12.9%和26%。由表1的統(tǒng)計(jì)分析不難發(fā)現(xiàn),數(shù)據(jù)科學(xué)家對(duì)于數(shù)據(jù)科學(xué)的理論要求更高,而數(shù)據(jù)分析師更傾向于強(qiáng)調(diào)數(shù)據(jù)處理的熟練程度。

      表1 數(shù)據(jù)分析師與數(shù)據(jù)科學(xué)家的學(xué)歷及工作經(jīng)驗(yàn)要求

      除去比較學(xué)歷和工作經(jīng)驗(yàn)的要求,筆者還對(duì)數(shù)據(jù)分析師和數(shù)據(jù)科學(xué)家的工作職責(zé)要求進(jìn)行了對(duì)比分析。根據(jù)拉勾網(wǎng)和CareerBuilder于2016年5月21日的招聘廣告投放數(shù)據(jù),表2列出了中美兩國(guó)對(duì)于數(shù)據(jù)科學(xué)家和數(shù)據(jù)分析師工作職責(zé)要求的對(duì)比情況。

      從表2可以看出,數(shù)據(jù)分析師被要求參與更多的應(yīng)用性工作:如40%的招聘廣告標(biāo)明數(shù)據(jù)分析師需要撰寫數(shù)據(jù)報(bào)告,而要求數(shù)據(jù)分析師利用工具軟件進(jìn)行數(shù)據(jù)挖掘的招聘廣告超過(guò)了50%。相比之下,中美兩國(guó)對(duì)于數(shù)據(jù)科學(xué)家的要求更強(qiáng)調(diào)數(shù)據(jù)科學(xué)理論,例如:美國(guó)至少80%的數(shù)據(jù)科學(xué)家工作要求應(yīng)聘者具備建立數(shù)據(jù)模型的能力,而國(guó)內(nèi)幾乎所有的數(shù)據(jù)科學(xué)家崗位都要求應(yīng)聘者具備數(shù)據(jù)建模的能力;此外,中美兩國(guó)對(duì)于數(shù)據(jù)科學(xué)家的應(yīng)聘者的算法設(shè)計(jì)能力、統(tǒng)計(jì)推理和數(shù)據(jù)挖掘理論以及決策支持方面的能力也有較高要求。而這些理論方面的崗位要求,在數(shù)據(jù)分析師的崗位要求中基本不會(huì)涉及。由表2的統(tǒng)計(jì)可以看出,就工作職責(zé)而言,數(shù)據(jù)科學(xué)家與數(shù)據(jù)分析師的區(qū)別也是顯而易見(jiàn),例如:數(shù)據(jù)科學(xué)家需掌握更全面的數(shù)據(jù)科學(xué)理論和應(yīng)用知識(shí),而數(shù)據(jù)分析師則更強(qiáng)調(diào)應(yīng)用。由于工作性質(zhì)、職責(zé)不盡相同,數(shù)據(jù)分析師與數(shù)據(jù)科學(xué)家的薪資待遇也不完全相同。筆者通過(guò)調(diào)查CareerBuilder投放的數(shù)據(jù)科學(xué)家的崗位招聘廣告發(fā)現(xiàn),大多數(shù)招聘公司給出的年薪都在10萬(wàn)~20萬(wàn)美元,少數(shù)公司對(duì)于優(yōu)秀的數(shù)據(jù)科學(xué)家可以給出更高的年薪。相比之下,數(shù)據(jù)分析師的年薪普遍低于10萬(wàn)美元,只有少數(shù)公司能夠給經(jīng)驗(yàn)豐富的數(shù)據(jù)分析師更高的勞動(dòng)報(bào)酬。

      表2 數(shù)據(jù)分析師與數(shù)據(jù)科學(xué)家的職責(zé)要求

      根據(jù)表1和表2的統(tǒng)計(jì),可以區(qū)分工業(yè)界對(duì)于數(shù)據(jù)分析師與數(shù)據(jù)科學(xué)家的要求。一名合格的數(shù)據(jù)分析師需要具備較強(qiáng)的實(shí)際應(yīng)用能力,能夠收集和管理數(shù)據(jù),利用工具或軟件分析數(shù)據(jù),生成分析報(bào)告或撰寫數(shù)據(jù)報(bào)告,能夠?qū)崿F(xiàn)不同的算法;而一名合格的數(shù)據(jù)科學(xué)家需要具備分析、研究、解決問(wèn)題的能力,能夠根據(jù)不同的數(shù)據(jù)建立數(shù)據(jù)模型,設(shè)計(jì)和實(shí)現(xiàn)數(shù)據(jù)分析、知識(shí)獲取的算法,并且能夠與商業(yè)或決策部門合作,利用從數(shù)據(jù)中獲得的知識(shí)提供決策支持。只有具備以上相應(yīng)能力的應(yīng)聘者,才能成為符合工業(yè)界要求的數(shù)據(jù)科學(xué)人才。

      表3 不同產(chǎn)業(yè)公司投放的數(shù)據(jù)人才招聘廣告數(shù)量

      3.2 供需失衡——數(shù)據(jù)科學(xué)人才的需求

      在大數(shù)據(jù)的時(shí)代背景下,公司和企業(yè)都已認(rèn)識(shí)到數(shù)據(jù)所能帶來(lái)的巨大價(jià)值。但是數(shù)據(jù)科學(xué)人才的供應(yīng)卻明顯不足。調(diào)查了近2000家各類形式的商業(yè)團(tuán)體的數(shù)據(jù)分析人才狀況[15],超過(guò)40%的受訪公司承認(rèn)自身缺乏具備深度數(shù)據(jù)分析能力的數(shù)據(jù)人才。據(jù)麥肯錫預(yù)測(cè),到2018年,僅美國(guó)本土專業(yè)數(shù)據(jù)分析人才的缺口就將達(dá)到14萬(wàn)~19萬(wàn)人之多[14]。

      同樣通過(guò)對(duì)在線工作招聘網(wǎng)站數(shù)據(jù)的分析,可以在一定程度上了解工業(yè)界對(duì)數(shù)據(jù)科學(xué)人才的強(qiáng)烈需求。僅透過(guò)中國(guó)香港www.indeed.hk和美國(guó)CareerBuilder在線招聘網(wǎng)站的關(guān)鍵字data scientist和data analyst的查詢,收集到2016年4—5月在以上兩地投放的數(shù)據(jù)科學(xué)人才相關(guān)的招聘廣告總計(jì)超過(guò)3000條。為了解不同行業(yè)對(duì)于數(shù)據(jù)科學(xué)人才的需求,基于在線招聘平臺(tái)2016年5月21日的廣告投放數(shù)據(jù),統(tǒng)計(jì)了不同行業(yè)投放數(shù)據(jù)科學(xué)相關(guān)職位的招聘廣告的數(shù)量信息。

      表3給出了拉勾網(wǎng)在2016年5月21日當(dāng)日數(shù)據(jù)科學(xué)相關(guān)人才招聘廣告中公司的分類統(tǒng)計(jì)及職位提供數(shù)。不難看出,和數(shù)據(jù)密切相關(guān)的產(chǎn)業(yè),如移動(dòng)互聯(lián)網(wǎng)、金融、數(shù)據(jù)服務(wù)以及電子商務(wù)產(chǎn)業(yè),都需要大量的數(shù)據(jù)科學(xué)人才。同時(shí),從整體的人才需求而言,各行各業(yè)根據(jù)自身的特點(diǎn),都有一定量的數(shù)據(jù)科學(xué)人才需求??梢哉f(shuō),在大數(shù)據(jù)的時(shí)代背景下,數(shù)據(jù)的巨大價(jià)值和利用專業(yè)數(shù)據(jù)人才管理數(shù)據(jù)、發(fā)掘知識(shí)的理念已經(jīng)深入人心,不同的行業(yè)都希望結(jié)合自身特點(diǎn),利用本行業(yè)特有的數(shù)據(jù)創(chuàng)造更大的商業(yè)價(jià)值。因?yàn)楦餍懈鳂I(yè)對(duì)于數(shù)據(jù)科學(xué)人才均有需求,這就對(duì)數(shù)據(jù)科學(xué)工作者的全面性提出了更高的要求:能夠處理不同行業(yè)、不同類型的數(shù)據(jù);能夠利用不同方法發(fā)現(xiàn)數(shù)據(jù)中的知識(shí)和價(jià)值。

      3.3 數(shù)據(jù)科學(xué)人才的培養(yǎng)

      作為向各個(gè)產(chǎn)業(yè)培養(yǎng)和輸送人才的基地,大學(xué)理應(yīng)承擔(dān)起培養(yǎng)合格的數(shù)據(jù)科學(xué)人才的責(zé)任。為應(yīng)對(duì)數(shù)據(jù)科學(xué)人才需求的挑戰(zhàn),國(guó)內(nèi)外的大學(xué)均在一定程度上改變各自的教學(xué)計(jì)劃或內(nèi)容,希望能夠培養(yǎng)更多的數(shù)據(jù)科學(xué)人才。為調(diào)查世界范圍內(nèi)優(yōu)秀大學(xué)的數(shù)據(jù)科學(xué)人才培養(yǎng)情況,依據(jù)QS2015全球大學(xué)的排名情況,著重了解了QS排名前50的大學(xué)數(shù)據(jù)相關(guān)的教學(xué)培養(yǎng)計(jì)劃。在本次調(diào)查和統(tǒng)計(jì)中,重點(diǎn)關(guān)注每所大學(xué)的全日制碩士教育,調(diào)查教學(xué)計(jì)劃中是否開設(shè)數(shù)據(jù)科學(xué)相關(guān)的專業(yè)。此次調(diào)查和統(tǒng)計(jì)過(guò)程中并未考慮本科教育的原因是:其一,絕大多數(shù)學(xué)校在本科教育中并未將數(shù)據(jù)科學(xué)作為一門獨(dú)立的教學(xué)學(xué)科,而僅開設(shè)一定量的數(shù)據(jù)科學(xué)相關(guān)的課程,如數(shù)據(jù)挖掘、算法設(shè)計(jì)等;其二,相比于本科教育,碩士培養(yǎng)的方向更加精細(xì)化,這也為培養(yǎng)專業(yè)的數(shù)據(jù)科學(xué)人才提供了前提條件;其三,根據(jù)前文的敘述,盡管工業(yè)界對(duì)于數(shù)據(jù)人才的要求不盡相同,但是碩士水平的人才的比例仍然占很大一部分?;谝陨?點(diǎn)原因,著重考察優(yōu)秀大學(xué)在碩士培養(yǎng)計(jì)劃中是否考慮到數(shù)據(jù)科學(xué)人才的培養(yǎng),這能夠在一定程度上揭示當(dāng)前大學(xué)教育對(duì)于數(shù)據(jù)科學(xué)人才培養(yǎng)的重視程度。

      表4 QS世界排名前50大學(xué)中開設(shè)數(shù)據(jù)科學(xué)相關(guān)碩士培養(yǎng)計(jì)劃的學(xué)校統(tǒng)計(jì)

      首先,將QS世界排名前50的大學(xué)中設(shè)有數(shù)據(jù)科學(xué)相關(guān)的碩士培養(yǎng)計(jì)劃的大學(xué)做了整理,見(jiàn)表4。根據(jù)統(tǒng)計(jì),在2015—2016年度,QS世界排名前50的大學(xué)中,僅有17所大學(xué)開設(shè)數(shù)據(jù)科學(xué)相關(guān)的碩士培養(yǎng)計(jì)劃。也就是說(shuō),超過(guò)60%的大學(xué)在碩士階段沒(méi)有數(shù)據(jù)科學(xué)相關(guān)專業(yè)。作為替代,這些未開設(shè)數(shù)據(jù)科學(xué)相關(guān)專業(yè)的大學(xué)設(shè)有一定量的關(guān)于數(shù)據(jù)科學(xué)的課程供碩士學(xué)生選擇。這個(gè)現(xiàn)狀和目前學(xué)術(shù)界與工業(yè)界的“大數(shù)據(jù)熱”形成了鮮明的對(duì)比。

      通過(guò)觀察這17所大學(xué)所在的國(guó)家,發(fā)現(xiàn)這17所學(xué)校僅僅來(lái)自3個(gè)國(guó)家,分別為美國(guó)10所、英國(guó)6所、新加坡1所。通過(guò)大學(xué)所在地的分布,可以看出,作為大學(xué)教育整體領(lǐng)先的歐美地區(qū),對(duì)數(shù)據(jù)科學(xué)專業(yè)的重視程度也相對(duì)較高。因此英美兩國(guó)的優(yōu)秀大學(xué)中,均有一定比例的大學(xué)開設(shè)了數(shù)據(jù)科學(xué)相關(guān)的專業(yè)。同時(shí),這也契合了前文中所敘述的問(wèn)題,英美兩國(guó)的大學(xué)對(duì)工業(yè)界大量的數(shù)據(jù)人才需求做出了及時(shí)的應(yīng)對(duì),比如開設(shè)專門的碩士培養(yǎng)計(jì)劃,向社會(huì)輸送專業(yè)的數(shù)據(jù)科學(xué)人才。

      其次,詳細(xì)調(diào)查了各個(gè)大學(xué)數(shù)據(jù)科學(xué)相關(guān)專業(yè)的碩士培養(yǎng)計(jì)劃,包括培養(yǎng)計(jì)劃的名稱、開設(shè)的院系和培養(yǎng)計(jì)劃中著重處理的數(shù)據(jù)類型。通過(guò)此項(xiàng)調(diào)查,可以了解到不同大學(xué)對(duì)于數(shù)據(jù)科學(xué)人才培養(yǎng)的側(cè)重點(diǎn)。表5給出了該項(xiàng)調(diào)查的詳細(xì)結(jié)果。在開設(shè)數(shù)據(jù)科學(xué)相關(guān)專業(yè)的17所大學(xué)中,碩士培養(yǎng)計(jì)劃的名稱、開設(shè)院系以及針對(duì)的數(shù)據(jù)類型不盡相同。8所大學(xué)的計(jì)算機(jī)院系開設(shè)了數(shù)據(jù)科學(xué)碩士培養(yǎng)計(jì)劃(倫敦大學(xué)學(xué)院、芝加哥大學(xué)、加州大學(xué)伯克利分校、曼徹斯特大學(xué)、布里斯托大學(xué)、加州大學(xué)圣地亞哥分校、華威大學(xué)以及倫敦帝國(guó)學(xué)院)。除芝加哥大學(xué)外,另外7個(gè)開設(shè)在計(jì)算機(jī)院系的碩士培養(yǎng)計(jì)劃并不強(qiáng)調(diào)處理特定的數(shù)據(jù)處理類型。這一特點(diǎn)同時(shí)也呈現(xiàn)在由統(tǒng)計(jì)類、信息類以及數(shù)據(jù)科學(xué)類院系所開設(shè)的碩士培養(yǎng)計(jì)劃中。而由商業(yè)、運(yùn)籌學(xué)以及公共健康類的院系開設(shè)的數(shù)據(jù)科學(xué)碩士培養(yǎng)計(jì)劃,則傾向于應(yīng)對(duì)特定的數(shù)據(jù)類型,諸如公共健康數(shù)據(jù)、金融及商業(yè)數(shù)據(jù)。從這些統(tǒng)計(jì)數(shù)據(jù)可以推斷,由計(jì)算機(jī)、統(tǒng)計(jì)、信息類院系開設(shè)的數(shù)據(jù)科學(xué)碩士培養(yǎng)計(jì)劃將培養(yǎng)教學(xué)中更大的比重放在如何將數(shù)據(jù)科學(xué)理論應(yīng)用到不同數(shù)據(jù)的處理和發(fā)掘方面,而商業(yè)類院系開設(shè)的碩士培養(yǎng)計(jì)劃更傾向于利用數(shù)據(jù)對(duì)科學(xué)理論處理和發(fā)掘商業(yè)以及金融數(shù)據(jù)。

      雖然各個(gè)大學(xué)碩士培養(yǎng)計(jì)劃的名稱、開設(shè)院系以及針對(duì)的數(shù)據(jù)類型不盡相同,但作為數(shù)據(jù)科學(xué)相關(guān)的碩士培養(yǎng)計(jì)劃,課程的設(shè)置應(yīng)該或多或少具有一定的相似性。為驗(yàn)證以上推斷,調(diào)查了17所開設(shè)數(shù)據(jù)科學(xué)相關(guān)碩士培養(yǎng)計(jì)劃的大學(xué)的詳細(xì)的課程設(shè)置情況,并進(jìn)行了橫向的對(duì)比分析。通過(guò)該對(duì)比分析,可以在一定程度上了解到目前大學(xué)教育對(duì)于合格的數(shù)據(jù)科學(xué)人才的一般要求。圖1列舉了8個(gè)多所大學(xué)開設(shè)的熱門課程。從圖1中可以看出大學(xué)教育對(duì)于數(shù)據(jù)科學(xué)人才培養(yǎng)的幾點(diǎn)考慮,具體如下。

      ● 是否精通統(tǒng)計(jì)學(xué)相關(guān)的知識(shí)在很大程度上決定了一個(gè)數(shù)據(jù)科學(xué)工作者是否合格。眾所周知,統(tǒng)計(jì)學(xué)、統(tǒng)計(jì)推理等學(xué)科在數(shù)據(jù)挖掘過(guò)程中扮演著重要的角色,諸多知識(shí)發(fā)掘方法都源于統(tǒng)計(jì)學(xué)中的模型。

      ● 堅(jiān)實(shí)的數(shù)據(jù)分析方面的知識(shí)也是數(shù)據(jù)科學(xué)人才培養(yǎng)的重要組成部分,從圖1中看到,8個(gè)大學(xué)碩士培養(yǎng)計(jì)劃中開設(shè)了數(shù)據(jù)分析類的課程。

      表5 各大學(xué)開設(shè)數(shù)據(jù)科學(xué)的院系以及針對(duì)的數(shù)據(jù)類型

      ● 并行和高性能計(jì)算也是合格的數(shù)據(jù)科學(xué)人才必備的技能之一。伴隨著大數(shù)據(jù)時(shí)代的到來(lái),可收集的數(shù)據(jù)總量與日俱增,傳統(tǒng)方法的效率不足以應(yīng)對(duì)龐大的數(shù)據(jù)總量。因此,傳統(tǒng)方法的并行以及高性能計(jì)算的應(yīng)用能夠大大加速數(shù)據(jù)處理和知識(shí)發(fā)掘的過(guò)程。

      ● 除統(tǒng)計(jì)學(xué)相關(guān)的課程外,其他知識(shí)發(fā)掘的方法,如機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘也是數(shù)據(jù)科學(xué)人才培養(yǎng)的重點(diǎn)。

      從以上4個(gè)特點(diǎn)不難看出,目前大學(xué)培養(yǎng)數(shù)據(jù)科學(xué)人才基本按照數(shù)據(jù)科學(xué)的定義和范疇進(jìn)行,但更著重培養(yǎng)學(xué)生掌握在一定數(shù)據(jù)類型中發(fā)掘知識(shí)的原理和方法,同時(shí)要求學(xué)生掌握數(shù)據(jù)存儲(chǔ)、處理方面的理論。

      圖1 數(shù)據(jù)科學(xué)相關(guān)碩士培養(yǎng)計(jì)劃下相似的課程設(shè)置

      表6 中國(guó)內(nèi)地與中國(guó)香港及美國(guó)較優(yōu)秀的10所大學(xué)

      3.4 數(shù)據(jù)科學(xué)人才的培養(yǎng)——中美之對(duì)比

      為了解中美兩國(guó)大學(xué)培養(yǎng)數(shù)據(jù)科學(xué)人才的概況,還調(diào)查了中國(guó)內(nèi)地、中國(guó)香港和美國(guó)較優(yōu)秀的10所大學(xué)的數(shù)據(jù)科學(xué)相關(guān)碩士培養(yǎng)計(jì)劃,見(jiàn)表6。經(jīng)統(tǒng)計(jì),在美國(guó)排名前10的大學(xué)中,共有5所大學(xué)設(shè)有專門的數(shù)據(jù)科學(xué)相關(guān)的碩士培養(yǎng)計(jì)劃,分別為哈佛大學(xué)、斯坦福大學(xué)、芝加哥大學(xué)、約翰·霍普金斯大學(xué)和康奈爾大學(xué)。而中國(guó)內(nèi)地和中國(guó)香港,僅有香港中文大學(xué)開設(shè)了全日制數(shù)據(jù)科學(xué)相關(guān)的碩士培養(yǎng)計(jì)劃。

      不過(guò),以上略顯懸殊的對(duì)比并不能說(shuō)明中國(guó)的優(yōu)秀大學(xué)不足夠重視數(shù)據(jù)科學(xué)人才的培養(yǎng),而是因?yàn)橹袊?guó)內(nèi)地的碩士教育制度與美國(guó)和中國(guó)香港有一定的差異。在美國(guó)和中國(guó)香港地區(qū),大學(xué)中設(shè)有專門的授課式碩士培養(yǎng)計(jì)劃,而中國(guó)內(nèi)地的大學(xué)多數(shù)采用授課和研究混合式的碩士培養(yǎng)計(jì)劃?;谶@個(gè)原因,中國(guó)內(nèi)地很多大學(xué)并未直接給出明確的數(shù)據(jù)科學(xué)碩士培養(yǎng)計(jì)劃,但是很多大學(xué)都設(shè)有專門的數(shù)據(jù)科學(xué)相關(guān)的研究院,通過(guò)這些研究院培養(yǎng)數(shù)據(jù)科學(xué)方面的人才。表7列出了3所大學(xué)開設(shè)的數(shù)據(jù)科學(xué)相關(guān)的研究院或研究小組,分別是清華大學(xué)的數(shù)據(jù)科學(xué)研究院、復(fù)旦大學(xué)的數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室和南京大學(xué)的機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘研究所。在這些研究院中,均設(shè)有數(shù)據(jù)科學(xué)相關(guān)的研究方向。同時(shí),還可以通過(guò)其他幾個(gè)實(shí)例來(lái)了解中國(guó)優(yōu)秀大學(xué)對(duì)于數(shù)據(jù)科學(xué)人才的培養(yǎng):如清華大學(xué)于2014年開設(shè)大數(shù)據(jù)碩士培養(yǎng)計(jì)劃并于2014年9月開始招生;復(fù)旦大學(xué)也在2015年正式開設(shè)數(shù)據(jù)科學(xué)專業(yè)研究生培養(yǎng)計(jì)劃[7]。因以上列舉的培養(yǎng)計(jì)劃主要針對(duì)專業(yè)碩士(非全日制),所以它們并未計(jì)入第3.3節(jié)中的統(tǒng)計(jì)和對(duì)比。不過(guò)這也足夠說(shuō)明,數(shù)據(jù)科學(xué)人才的培養(yǎng)在我國(guó)同樣得到了相當(dāng)程度的重視。

      3.5 人才培養(yǎng)與市場(chǎng)需求的對(duì)比

      本節(jié)對(duì)大學(xué)數(shù)據(jù)科學(xué)人才的培養(yǎng)與市場(chǎng)需求進(jìn)行了對(duì)比。二者之間的具體差異已經(jīng)在表8中做了總結(jié)。從表8可以看出,當(dāng)前大學(xué)教育對(duì)于數(shù)據(jù)科學(xué)人才的培養(yǎng)目標(biāo)與市場(chǎng)的要求存在一定差異。

      首先,很多大學(xué)僅開設(shè)一定量的數(shù)據(jù)科學(xué)相關(guān)的課程,而工業(yè)界更需要能夠全面系統(tǒng)掌握數(shù)據(jù)科學(xué)理論的人才;其次,很多大學(xué)側(cè)重?cái)?shù)據(jù)科學(xué)相關(guān)的理論,如數(shù)學(xué)或統(tǒng)計(jì)建模、算法設(shè)計(jì)等,而工業(yè)界更傾向于聘用可以將數(shù)據(jù)科學(xué)理論應(yīng)用到特定行業(yè)(如金融、商業(yè)、公共信息等)的人才;第三,由于學(xué)校教育的時(shí)間限制,學(xué)生對(duì)于不同工具、軟件的掌握不可能做到面面俱到,而不同行業(yè)、不同的公司,要求使用的數(shù)據(jù)處理工具往往不盡相同;最后,就是巨大的人才缺口,如前文所述,在大數(shù)據(jù)的時(shí)代背景下,數(shù)據(jù)科學(xué)人才的需求總量遠(yuǎn)大于大學(xué)培養(yǎng)的人才總量。以上4點(diǎn)是目前數(shù)據(jù)科學(xué)人才培養(yǎng)與市場(chǎng)需求之間存在的突出矛盾。

      表7 中國(guó)內(nèi)地優(yōu)秀大學(xué)數(shù)據(jù)科學(xué)相關(guān)研究院舉例

      表8 數(shù)據(jù)科學(xué)人才的培養(yǎng)與市場(chǎng)需求的差異

      4 數(shù)據(jù)科學(xué)人才培養(yǎng)的改進(jìn)

      根據(jù)數(shù)據(jù)科學(xué)人才培養(yǎng)與市場(chǎng)需求之間存在的突出矛盾,筆者給出以下關(guān)于數(shù)據(jù)科學(xué)人才培養(yǎng)的建議。

      首先,各個(gè)大學(xué)應(yīng)大力支持?jǐn)?shù)據(jù)科學(xué)這一新興基礎(chǔ)科學(xué)的研究,發(fā)展和完善數(shù)據(jù)科學(xué)理論體系,為數(shù)據(jù)科學(xué)人才培養(yǎng)提供必要的理論和知識(shí)基礎(chǔ)。第二,鑒于大學(xué)教育在本科教育更重視基礎(chǔ)能力的培養(yǎng),我國(guó)的優(yōu)秀大學(xué)可以借鑒世界范圍內(nèi)優(yōu)秀高等學(xué)府的經(jīng)驗(yàn),在碩士教育階段開設(shè)專門的數(shù)據(jù)科學(xué)碩士培養(yǎng)計(jì)劃,在本科教育階段適當(dāng)開設(shè)數(shù)據(jù)科學(xué)相關(guān)的基礎(chǔ)課程,以培養(yǎng)不同層次的數(shù)據(jù)科學(xué)人才。依據(jù)目前大學(xué)培養(yǎng)數(shù)據(jù)科學(xué)人才的概況和工業(yè)界對(duì)于數(shù)據(jù)科學(xué)人才的需求,給出如下數(shù)據(jù)科學(xué)碩士培養(yǎng)計(jì)劃以供參考。該培養(yǎng)計(jì)劃根據(jù)數(shù)據(jù)科學(xué)的定義,將數(shù)據(jù)科學(xué)碩士培養(yǎng)分為4部分:相關(guān)基礎(chǔ)學(xué)科學(xué)習(xí)、知識(shí)發(fā)掘方法的學(xué)習(xí)、數(shù)據(jù)科學(xué)理論在大數(shù)據(jù)背景下的應(yīng)用以及數(shù)據(jù)科學(xué)在不同行業(yè)中的應(yīng)用。前3個(gè)階段可以看作數(shù)據(jù)科學(xué)理論體系的培養(yǎng),最后一個(gè)階段強(qiáng)調(diào)實(shí)際應(yīng)用。接下來(lái)筆者將對(duì)這4個(gè)階段分別進(jìn)行詳細(xì)的介紹。

      (1)基礎(chǔ)學(xué)科的學(xué)習(xí)

      基礎(chǔ)學(xué)科是數(shù)據(jù)科學(xué)人才培養(yǎng)的前提。在碩士培養(yǎng)的初始階段,學(xué)校應(yīng)該開設(shè)基礎(chǔ)科目以夯實(shí)學(xué)生的理論基礎(chǔ)。依據(jù)數(shù)據(jù)科學(xué)的發(fā)展現(xiàn)狀,數(shù)據(jù)科學(xué)的基礎(chǔ)學(xué)科至少應(yīng)包括高等微積分、數(shù)理統(tǒng)計(jì)、矩陣論等數(shù)學(xué)方面的學(xué)科。開設(shè)這一類課程的原因有二:一是數(shù)據(jù)科學(xué)與數(shù)學(xué)類的學(xué)科聯(lián)系緊密,眾多的知識(shí)發(fā)掘方法都需要學(xué)生以數(shù)學(xué)為基礎(chǔ)去理解和學(xué)習(xí);二是選擇學(xué)習(xí)數(shù)據(jù)科學(xué)專業(yè)的學(xué)生可能有著不同的本科教育背景,學(xué)生可以根據(jù)自身情況酌情選擇所修的課程。例如,出自數(shù)學(xué)、統(tǒng)計(jì)學(xué)相關(guān)專業(yè)的學(xué)生可能在以上提到的幾個(gè)科目比較擅長(zhǎng),因此他們可以選擇少修或者跳過(guò)種類基礎(chǔ)學(xué)科的學(xué)習(xí)。而來(lái)自數(shù)學(xué)基礎(chǔ)相對(duì)薄弱的專業(yè)的學(xué)生,在進(jìn)修數(shù)據(jù)科學(xué)專業(yè)的初始階段,應(yīng)著重學(xué)習(xí)數(shù)學(xué)方面的基礎(chǔ)理論,為今后的課程打好基礎(chǔ)。

      (2)系統(tǒng)地學(xué)習(xí)知識(shí)發(fā)掘的方法

      知識(shí)的獲取是整個(gè)數(shù)據(jù)處理過(guò)程中的關(guān)鍵,是處理數(shù)據(jù)的重要目的。在學(xué)生掌握相關(guān)基礎(chǔ)學(xué)科理論的前提下,學(xué)??梢蚤_設(shè)不同的課程,讓學(xué)生系統(tǒng)地學(xué)習(xí)知識(shí)獲取的方法。依據(jù)前文中提到的開設(shè)數(shù)據(jù)科學(xué)學(xué)科的大學(xué)的培養(yǎng)計(jì)劃,筆者認(rèn)為這一部分的課程至少應(yīng)包括以下科目:統(tǒng)計(jì)推理、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘和數(shù)據(jù)分析。通過(guò)學(xué)習(xí)統(tǒng)計(jì)推理、機(jī)器學(xué)習(xí)相關(guān)的課程,學(xué)生可以掌握一系列知識(shí)獲取的概率模型,如貝葉斯模型、線性回歸模型、邏輯回歸模型等。通過(guò)學(xué)習(xí)數(shù)據(jù)挖掘、數(shù)據(jù)分析相關(guān)的課程,學(xué)生能夠進(jìn)一步將基礎(chǔ)理論和實(shí)際的知識(shí)獲取方法(算法)聯(lián)系起來(lái),如利用統(tǒng)計(jì)推理中的殘差分析在數(shù)據(jù)中發(fā)現(xiàn)知識(shí)的算法[8,9]以及一些經(jīng)典的數(shù)據(jù)挖掘算法,如決策樹、k-means、k-NN等。知識(shí)獲取方法這一部分是數(shù)據(jù)科學(xué)人才培養(yǎng)的關(guān)鍵,各個(gè)大學(xué)可以根據(jù)自身實(shí)際情況,盡量開設(shè)全面系統(tǒng)的課程,讓學(xué)生從多個(gè)不同的角度深刻全面地理解數(shù)據(jù)科學(xué)理論中知識(shí)獲取的方法。在培養(yǎng)學(xué)生掌握知識(shí)獲取方法的同時(shí),各個(gè)大學(xué)也應(yīng)開設(shè)一定量的學(xué)習(xí)計(jì)算機(jī)程序語(yǔ)言的科目,以提高來(lái)自不同專業(yè)背景的學(xué)生掌握流行的計(jì)算機(jī)程序語(yǔ)言,如Java、R、C++、C#等。

      (3)掌握高效的數(shù)據(jù)處理方法

      在大數(shù)據(jù)的時(shí)代背景下,數(shù)據(jù)科學(xué)工作者面對(duì)的數(shù)據(jù)的容量、復(fù)雜度都今非昔比。海量數(shù)據(jù)帶來(lái)的最直接挑戰(zhàn)就是傳統(tǒng)的方法難以處理如此巨大的數(shù)據(jù)集。因此,現(xiàn)代的數(shù)據(jù)處理方法在獲取知識(shí)的過(guò)程中起到至關(guān)重要的作用。學(xué)校應(yīng)在碩士階段開設(shè)專門的課程以培養(yǎng)學(xué)生利用數(shù)據(jù)科學(xué)理論處理大數(shù)據(jù)的能力。根據(jù)世界范圍內(nèi)優(yōu)秀大學(xué)的教學(xué)經(jīng)驗(yàn),我國(guó)的大學(xué)可以酌情開設(shè)針對(duì)大數(shù)據(jù)的高性能計(jì)算、并行計(jì)算、分布式計(jì)算、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)庫(kù)管理等課程以及Spark、Hadoop等大數(shù)據(jù)處理平臺(tái)的課程。通過(guò)學(xué)習(xí)這些課程,學(xué)生可以掌握如何高效地處理大數(shù)據(jù),在大數(shù)據(jù)中獲取有價(jià)值的知識(shí),進(jìn)而成為具備大數(shù)據(jù)處理能力的數(shù)據(jù)科學(xué)人才。

      (4)數(shù)據(jù)科學(xué)在不同領(lǐng)域中的應(yīng)用

      在夯實(shí)數(shù)據(jù)科學(xué)理論的基礎(chǔ)上,學(xué)校也應(yīng)重視培養(yǎng)學(xué)生在不同類型的數(shù)據(jù)中獲取知識(shí)的能力。畢竟行業(yè)、領(lǐng)域不同,數(shù)據(jù)不盡相同。為達(dá)到以上目的,學(xué)??梢試L試與工業(yè)界合作,以實(shí)習(xí)的方式讓學(xué)生在工作中接觸不同類型的數(shù)據(jù),利用所學(xué)的知識(shí)嘗試做數(shù)據(jù)科學(xué)方面的工作。當(dāng)然,學(xué)校也可根據(jù)當(dāng)前的市場(chǎng)需求,利用已經(jīng)開放的數(shù)據(jù)資源,開設(shè)數(shù)據(jù)科學(xué)在熱門行業(yè)、領(lǐng)域中的應(yīng)用課程。通過(guò)這一類應(yīng)用性課程的學(xué)習(xí),學(xué)生能夠根據(jù)自身的興趣和未來(lái)的就業(yè)取向在數(shù)據(jù)科學(xué)理論的應(yīng)用上有的放矢。因?yàn)閿?shù)據(jù)量日益龐大,近來(lái)生物學(xué)方面的研究愈發(fā)依賴計(jì)算機(jī)技術(shù),因此,學(xué)??勺们殚_設(shè)計(jì)算生物學(xué)相關(guān)的課程,讓感興趣的學(xué)生學(xué)習(xí)。通過(guò)學(xué)習(xí)這些課程,學(xué)生可以了解和掌握數(shù)據(jù)科學(xué)在生物學(xué)領(lǐng)域中的應(yīng)用,如在基因表達(dá)數(shù)據(jù)中的聚類分析[10]、在PPI網(wǎng)絡(luò)中發(fā)現(xiàn)蛋白質(zhì)化合物的方法[11]等。再比如,在搜索優(yōu)化、定向推薦以及定向廣告投放等時(shí)下流行的技術(shù)中,一部分知識(shí)的獲取是基于文檔分類以及特征抽取的方法完成的。為培養(yǎng)有志在這個(gè)方面發(fā)展的學(xué)生,學(xué)??梢蚤_設(shè)數(shù)據(jù)科學(xué)在自然語(yǔ)言處理方面的應(yīng)用課程。通過(guò)學(xué)習(xí)這一類課程,學(xué)生可以掌握一系列自然語(yǔ)言處理和特征抽取的基本模型,并進(jìn)一步研究復(fù)雜的、可并行的模型使特征抽取效率更高,準(zhǔn)確率更高[12,13]。數(shù)據(jù)科學(xué)在不同行業(yè)、不同領(lǐng)域中的應(yīng)用實(shí)例還有很多,在此筆者不一一列舉??傊ㄟ^(guò)接觸和學(xué)習(xí)如何處理不同來(lái)源的數(shù)據(jù),學(xué)生的實(shí)際應(yīng)用能力可以得到大大加強(qiáng)。

      數(shù)據(jù)科學(xué)目前還處于起步和發(fā)展的階段,理論體系還需要完善。在將來(lái)的一段時(shí)間內(nèi),數(shù)據(jù)科學(xué)的理論、相關(guān)的知識(shí)獲取方法以及應(yīng)用還會(huì)進(jìn)一步豐富,大學(xué)教育也應(yīng)該根據(jù)不同時(shí)期數(shù)據(jù)科學(xué)的發(fā)展情況,調(diào)整培養(yǎng)計(jì)劃,適應(yīng)市場(chǎng)需求。

      5 結(jié)束語(yǔ)

      在大數(shù)據(jù)的時(shí)代背景下,各行各業(yè)均意識(shí)到了數(shù)據(jù)所能帶來(lái)的巨大價(jià)值,因此紛紛向數(shù)據(jù)科學(xué)人才拋出橄欖枝,希望能借數(shù)據(jù)科學(xué)工作者的手,發(fā)掘數(shù)據(jù)中的潛在價(jià)值。在本文中,首先探討了能夠應(yīng)對(duì)大數(shù)據(jù)處理的學(xué)科——數(shù)據(jù)科學(xué);依據(jù)收集到的實(shí)例,考察了工業(yè)界對(duì)于不同類型的數(shù)據(jù)科學(xué)人才(數(shù)據(jù)科學(xué)家和數(shù)據(jù)分析師)的需求和崗位要求的異同;根據(jù)當(dāng)前國(guó)內(nèi)外優(yōu)秀大學(xué)開設(shè)的數(shù)據(jù)科學(xué)相關(guān)的學(xué)科培養(yǎng)計(jì)劃,總結(jié)了國(guó)內(nèi)外優(yōu)秀大學(xué)在碩士學(xué)歷水平上培養(yǎng)數(shù)據(jù)科學(xué)人才的概況;根據(jù)大學(xué)教育培養(yǎng)數(shù)據(jù)科學(xué)人才的概況與工業(yè)界對(duì)于數(shù)據(jù)科學(xué)人才的具體需求,總結(jié)出大學(xué)教育培養(yǎng)的數(shù)據(jù)科學(xué)人才與工業(yè)界實(shí)際需求之間存在的突出矛盾;最后,根據(jù)供需之間的矛盾給出關(guān)于大學(xué)培養(yǎng)數(shù)據(jù)科學(xué)人才的4點(diǎn)改進(jìn)建議,即重視基礎(chǔ)學(xué)科的學(xué)習(xí),系統(tǒng)地掌握知識(shí)發(fā)掘方法,掌握高效的數(shù)據(jù)處理方法以及精通數(shù)據(jù)科學(xué)在不同領(lǐng)域中的應(yīng)用。人類也已進(jìn)入大數(shù)據(jù)時(shí)代,能否培養(yǎng)出合格的數(shù)據(jù)專業(yè)人才關(guān)系到能否掌握數(shù)據(jù)的核心價(jià)值。作為為社會(huì)各界輸送人才的基地,大學(xué)教育對(duì)于數(shù)據(jù)科學(xué)人才的培養(yǎng)至關(guān)重要。

      [1] ZHU Y Y, XIONG Y.Protection and utilization of data resources[M].Shanghai: Shanghai Scientific and Technical Publishers, 2008: 133-137.

      [2] HOWE D, COSTANZO M, FEY P, et al.The future of biocuration[J].Nature, 2008, 455(7209): 47-50.

      [3] MARX V.The big challenges of big data[J].Nature, 2013, 498(7453): 255-260.

      [4] China Academyof Informationand Communications Technology.Survey on the development of big data in China[R].2015.

      [5] FAN L, HONG X, CHAO H, et al.Challenge and countermeasure of governing government big data[J].Big Data Research, 2016, 2(3): 27-38.

      [6] PAN Z, CHENG X, YUAN X.Developing trend forecasting of big data in 2016 from CCF TFBD: interpretation and proposals[J].Big Data Research, 2016, 2(1): 105-113.

      [7] ZHU Y Y, XIONG Y.Training data scientists in the era of big data[J].Big Data Research, 2016, 2(3): 106-112.

      [8] CHAN K C C,WONG A K C, CHIU D K Y.Learning sequential patterns for probabilistic inductive prediction[J].IEEE Transactions on Systems Man and Cybernetics, 1994, 24(10): 1532-1547.

      [9] CHING J Y, WONG A K C, CHAN K C C.Class-dependent discretization for inductive learning from continuous and mixed-mode data[J].IEEE Transactionson Pattern Analysis and Machine Intelligence, 1995, 17(7): 641-651.

      [10] AU W H, CHAN K C, WONG A K, et al.Attribute clustering for grouping, selection, and classification of gene expression data[J].IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2005, 2(2): 83-101.

      [11] HU A L, CHAN K C C.Utilizing both topological and attribute information for protein complex identification in ppi networks[J].IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2013, 10(3): 780-792.

      [12] LIU Z, ZHANG Y, CHANG E Y, et al.Plda+: parallel latent dirichlet allocation with data placement and pipeline processing[J].ACM Transactions on Intelligent Systems and Technology, 2011, 2(3): 389-396.

      [13] LIU Z, HUANG W, ZHENG Y, et al.Automatic keyphrase extraction via topic decomposition[C]//Conference on Empirical Methods in Natural Language Processing, October 9-11, 2010, Massachusetts, USA.[S.l.:s.n.], 2010: 366-376.

      [14] MANYIKA J, CHUI M, BROWN B, et al.Big data: the next frontier for innovation, competition, and productivity[J].McKinsey Global Institute, 2011.

      [15] RANSBOTHAM S, KIRON D, PRENTICE P K.The Talent Dividend[J].MIT Sloan Management Review, 2015, 56(4): 1.

      Data science: the demand and development of talents

      Keith C C CHAN, HE Tiantian
      Department of Computing, The Hong Kong Polytechnic University, Hong Kong 999077, China

      Information technology has entered the era of big data.As talents who can discover the knowledge in big data, data scientists are tremendously demanded.The differences between data scientists and data analysts in the job nature, entry requirement and even remuneration were presented.Through a careful survey of the current job markets in the US and China.Then, it was revealed the gap between the kind of talents that were required for the jobs and the kind of graduates that the universities were training out.After a gap analysis, the views to the kind of data science programs which we believe may best develop the talents for the current and future job market were presented.

      big data, data science, university education, talent development

      TP3

      A

      10.11959/j.issn.2096-0271.2016058

      陳振沖(1959-),男,博士,香港理工大學(xué)學(xué)務(wù)長(zhǎng),電子計(jì)算學(xué)系教授。分別于1984年、1985年和1989年在加拿大滑鐵盧大學(xué)計(jì)算機(jī)科學(xué)與統(tǒng)計(jì)學(xué)系獲學(xué)士、系統(tǒng)設(shè)計(jì)工程方向碩士及博士學(xué)位,畢業(yè)后供職于IBM加拿大實(shí)驗(yàn)室,并于1994年加入香港理工大學(xué)電子計(jì)算學(xué)系擔(dān)任教職工作至今。目前主要研究方向?yàn)榇髷?shù)據(jù)分析、生物信息學(xué)、計(jì)算生物學(xué)、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、模糊邏輯系統(tǒng)、遺傳算法、人工智能以及軟件工程。

      賀田田(1985-),男,香港理工大學(xué)電子計(jì)算學(xué)系博士生,主要研究方向?yàn)閿?shù)據(jù)挖掘、圖聚類分析、生物信息學(xué)和遺傳算法。

      2016-07-30

      猜你喜歡
      工業(yè)界碩士科學(xué)家
      昆明理工大學(xué)工商管理碩士(MBA)簡(jiǎn)介
      期望優(yōu)秀的工業(yè)文化
      鍛造與沖壓(2020年1期)2020-12-13 15:24:45
      期望優(yōu)秀的工業(yè)文化
      鍛造與沖壓(2020年2期)2020-12-04 16:17:27
      假如我是科學(xué)家
      如何寫好碩士博士學(xué)位論文
      專業(yè)課程中引入職業(yè)信息與科研經(jīng)驗(yàn)的實(shí)踐與探索
      與科學(xué)家面對(duì)面
      兩岸工業(yè)界簽署交流合作備忘錄
      臺(tái)聲(2015年24期)2015-08-15 00:49:13
      當(dāng)天才遇上科學(xué)家(二)
      當(dāng)天才遇上科學(xué)家(一)
      龙门县| 天全县| 文化| 杭锦旗| 康平县| 巴楚县| 长武县| 万荣县| 朝阳县| 松溪县| 定襄县| 虎林市| 抚州市| 宜都市| 酒泉市| 中西区| 正定县| 马尔康县| 红原县| 灵山县| 林周县| 信宜市| 马龙县| 锦屏县| 平顶山市| 澄迈县| 马尔康县| 温州市| 哈密市| 赫章县| 福鼎市| 资阳市| 阿合奇县| 大新县| 石屏县| 怀远县| 新昌县| 泸州市| 平陆县| 枝江市| 建始县|