劉大海,李曉璇,王春娟,李先杰
(國家海洋局第一海洋研究所 青島 266061)
?
基于大數(shù)據(jù)架構(gòu)的國家海洋創(chuàng)新指標(biāo)及其預(yù)測方法研究
劉大海,李曉璇,王春娟,李先杰
(國家海洋局第一海洋研究所 青島 266061)
基于國家創(chuàng)新體系理論和大數(shù)據(jù)思想,探討國家海洋創(chuàng)新體系定義和范圍;根據(jù)國家海洋創(chuàng)新體系的具體內(nèi)容,選取對(duì)外海洋技術(shù)依存度、海洋儀器設(shè)備國有化率、海洋關(guān)鍵技術(shù)自主化率、海洋科技進(jìn)步貢獻(xiàn)率、海洋科技成果轉(zhuǎn)化率等作為國家海洋創(chuàng)新預(yù)測指標(biāo);在Bigtable+MapReduce框架內(nèi)討論適用于海洋創(chuàng)新指標(biāo)的預(yù)測方法,探索國家海洋創(chuàng)新指標(biāo)預(yù)測技術(shù)思路,為建立支撐海洋創(chuàng)新戰(zhàn)略制定的預(yù)測體系做了有益嘗試。
海洋創(chuàng)新指標(biāo);大數(shù)據(jù)架構(gòu);預(yù)測方法
黨的十八大將創(chuàng)新驅(qū)動(dòng)作為國家發(fā)展的主要目標(biāo),提出“實(shí)施創(chuàng)新驅(qū)動(dòng)發(fā)展戰(zhàn)略,到2020年進(jìn)入創(chuàng)新型國家行列”,《中共中央關(guān)于全面深化改革若干重大問題的決定》明確提出要“建設(shè)國家創(chuàng)新體系”。海洋創(chuàng)新是建設(shè)創(chuàng)新型國家的關(guān)鍵領(lǐng)域,也是國家創(chuàng)新體系的重要組成部分。習(xí)近平總書記在中共中央政治局第八次集體學(xué)習(xí)時(shí)強(qiáng)調(diào)要“著力推動(dòng)海洋科技向創(chuàng)新引領(lǐng)型轉(zhuǎn)變”,突出體現(xiàn)了中央對(duì)海洋創(chuàng)新領(lǐng)域的高度重視。
為貫徹落實(shí)黨和國家的重要戰(zhàn)略部署,國家海洋局積極推進(jìn)國家海洋創(chuàng)新工作。在工作扎實(shí)推進(jìn)的同時(shí),也遇到一些困難:①尚未形成系統(tǒng)的海洋創(chuàng)新體系,難以深入分析我國海洋創(chuàng)新發(fā)展的現(xiàn)狀和問題;②尚難實(shí)現(xiàn)對(duì)我國海洋創(chuàng)新領(lǐng)域發(fā)展趨勢(shì)的定量化預(yù)測;③缺少對(duì)未來海洋創(chuàng)新戰(zhàn)略重點(diǎn)的布局。出現(xiàn)問題的原因在于:海量多源的海洋創(chuàng)新數(shù)據(jù)、難以預(yù)測的海洋創(chuàng)新行為、高度復(fù)雜的海洋創(chuàng)新環(huán)境,使得傳統(tǒng)海洋創(chuàng)新預(yù)測體系面臨嚴(yán)峻挑戰(zhàn)。當(dāng)前,我國海洋創(chuàng)新數(shù)據(jù)應(yīng)用局限于簡單的報(bào)表,海洋創(chuàng)新領(lǐng)域預(yù)測仍主要依賴“專家咨詢”和“問卷調(diào)查”等定性方法,缺乏對(duì)海洋創(chuàng)新大數(shù)據(jù)的深度挖掘,更缺乏系統(tǒng)的指標(biāo)預(yù)測研究,給我國海洋創(chuàng)新領(lǐng)域發(fā)展趨勢(shì)的定量化預(yù)測和未來海洋創(chuàng)新戰(zhàn)略重點(diǎn)的有效布局造成一定的困難。
因此,有必要基于大數(shù)據(jù)思想,盡快探索構(gòu)建海洋創(chuàng)新指標(biāo)預(yù)測方法體系:以分布式數(shù)據(jù)存儲(chǔ)系統(tǒng)Bigtable支持下的海量多源海洋創(chuàng)新數(shù)據(jù)為基礎(chǔ),以基于國家海洋創(chuàng)新體系理論確定的海洋創(chuàng)新指標(biāo)為對(duì)象,在MapReduce計(jì)算框架下探索預(yù)測海洋創(chuàng)新領(lǐng)域未來發(fā)展的整體趨勢(shì)、重點(diǎn)領(lǐng)域和關(guān)鍵技術(shù)的方法體系,為海洋創(chuàng)新總體規(guī)劃和海洋科技政策中的預(yù)測信息提供方法支撐。
國外對(duì)國家創(chuàng)新體系理論的研究始于20世紀(jì)80年代中期,隨后,該理論在發(fā)達(dá)國家的政策部門和學(xué)術(shù)界的影響迅速擴(kuò)大。Niosi等[1]認(rèn)為國家創(chuàng)新體系是指以促進(jìn)本土科學(xué)技術(shù)創(chuàng)造為目標(biāo),由企業(yè)、大學(xué)、政府機(jī)關(guān)等主體相互作用構(gòu)成的一個(gè)體系。我國2006年出臺(tái)的《國家中長期科學(xué)和技術(shù)發(fā)展規(guī)劃綱要(2006—2020年)》將國家創(chuàng)新體系界定為:以政府為主導(dǎo)、充分發(fā)揮市場配置資源的基礎(chǔ)性作用、各類科技創(chuàng)新主體緊密聯(lián)系和有效互動(dòng)的社會(huì)系統(tǒng)。
將國家創(chuàng)新體系理論引入海洋領(lǐng)域,國家海洋創(chuàng)新體系[2]是指通過政府、科研機(jī)構(gòu)、高校、企業(yè)等創(chuàng)新主體相互合作,進(jìn)行促進(jìn)全社會(huì)海洋創(chuàng)新資源合理配置和有效利用的活動(dòng),涵蓋涉海的科學(xué)研究、人才培養(yǎng)、產(chǎn)業(yè)發(fā)展、創(chuàng)新服務(wù)與管理等一系列內(nèi)容的系統(tǒng)。也就是說,其范圍主要包括:①創(chuàng)新主體,包括涉海科研機(jī)構(gòu)、高等學(xué)校和企業(yè);②創(chuàng)新活動(dòng),包含海洋科技成果、結(jié)題課題、論文、專利、企業(yè)效益、社會(huì)效益、環(huán)境效益等;③創(chuàng)新環(huán)境,涵蓋宏觀社會(huì)制度環(huán)境與微觀個(gè)體觀念環(huán)境。
海洋創(chuàng)新是國家創(chuàng)新的關(guān)鍵領(lǐng)域,有效評(píng)估海洋創(chuàng)新以反映國家海洋創(chuàng)新的發(fā)展問題,對(duì)于實(shí)現(xiàn)創(chuàng)新型海洋強(qiáng)國具有重要的戰(zhàn)略意義和現(xiàn)實(shí)意義。海洋創(chuàng)新評(píng)估指標(biāo)的選取是海洋創(chuàng)新評(píng)估工作的關(guān)鍵,對(duì)海洋創(chuàng)新評(píng)估的結(jié)果影響重大。
結(jié)合定義,為全面有效地反映海洋創(chuàng)新領(lǐng)域發(fā)展?fàn)顩r,根據(jù)國家海洋創(chuàng)新體系的具體內(nèi)涵,選取擬預(yù)測的海洋創(chuàng)新指標(biāo)見表1。
可將國家海洋創(chuàng)新指標(biāo)預(yù)測方法分成傳統(tǒng)海洋創(chuàng)新預(yù)測方法和基于大數(shù)據(jù)思想的預(yù)測方法。
3.1 傳統(tǒng)海洋創(chuàng)新預(yù)測方法研究
傳統(tǒng)海洋創(chuàng)新預(yù)測方法主要應(yīng)用于傳統(tǒng)指標(biāo)預(yù)測和技術(shù)預(yù)見兩方面[3]。
在傳統(tǒng)指標(biāo)預(yù)測方面,通常運(yùn)用趨勢(shì)外推法進(jìn)行預(yù)測[4]。其預(yù)測需基于指標(biāo)測算結(jié)果,指標(biāo)具體包括海洋科技進(jìn)步貢獻(xiàn)率[5]、海洋科技成果轉(zhuǎn)化率[6]和海洋科技投入產(chǎn)出效率[7]。在測算方法上,科技進(jìn)步貢獻(xiàn)率主要運(yùn)用時(shí)滯灰色生產(chǎn)函數(shù)[5]和索洛余值法等[6];科技成果轉(zhuǎn)化率主要運(yùn)用綜合評(píng)價(jià)法和主成分分析法等[7-8];科技投入產(chǎn)出效率主要運(yùn)用數(shù)據(jù)包絡(luò)分析和柯布-道格拉斯生產(chǎn)函數(shù)等[9-10]。
表1 擬預(yù)測的海洋創(chuàng)新指標(biāo)
在技術(shù)預(yù)見方面,主要方法是德爾菲法、情景分析和專家會(huì)議等[11]。
傳統(tǒng)海洋創(chuàng)新預(yù)測方法在實(shí)際工作中的局限性包括:
(1)定量難。我國海洋經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)在完備性和銜接性上存在不足,無法為海洋創(chuàng)新指標(biāo)的定量測算提供結(jié)構(gòu)化數(shù)據(jù)支撐。
(2)契合度低。由于創(chuàng)新領(lǐng)域的特殊性,海洋創(chuàng)新數(shù)據(jù)大多呈暴發(fā)性無序增長,而傳統(tǒng)預(yù)測方法只適用于有明顯趨勢(shì)性的數(shù)據(jù)。
(3)研究重點(diǎn)定位難。傳統(tǒng)預(yù)測得出的結(jié)果僅顯示相應(yīng)數(shù)據(jù)的趨勢(shì)性增長規(guī)律,無法確定海洋創(chuàng)新的研究前沿和研究熱點(diǎn),在對(duì)海洋創(chuàng)新發(fā)展戰(zhàn)略提供決策服務(wù)方面有效性不足。
3.2 基于大數(shù)據(jù)思想的預(yù)測方法研究
與傳統(tǒng)數(shù)據(jù)模式不同,大數(shù)據(jù)不再采用隨機(jī)樣本數(shù)據(jù),而是全體數(shù)據(jù)。也就是說,大數(shù)據(jù)不用抽樣調(diào)查方法,而是對(duì)所有數(shù)據(jù)進(jìn)行分析處理,大量、高速、多樣和價(jià)值被公認(rèn)為大數(shù)據(jù)的四大特點(diǎn)。隨著大數(shù)據(jù)時(shí)代的到來,海洋創(chuàng)新數(shù)據(jù)類型和數(shù)量量級(jí)均發(fā)生巨大變化,對(duì)傳統(tǒng)的預(yù)測方法提出了挑戰(zhàn)。為解決此類問題,一些新技術(shù)、新方法應(yīng)運(yùn)而生,其中MapReduce以其良好的擴(kuò)展性、容錯(cuò)性和大規(guī)模并行處理的優(yōu)勢(shì)成為大數(shù)據(jù)處理領(lǐng)域的代表技術(shù)。MapReduce可以定義為一種用于大規(guī)模數(shù)據(jù)集并行運(yùn)算的編程模型,分為Map(映射)和Reduce(規(guī)約)兩步。
(1)關(guān)于Map函數(shù)算法的研究。Map函數(shù)將數(shù)據(jù)映射到預(yù)先定義好的群組成類,主流算法有:決策樹,Bayes分析、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等[12-15]。其中,神經(jīng)網(wǎng)絡(luò)主要處理數(shù)值型數(shù)據(jù),Bayes分析主要用于基于已知先驗(yàn)概率的情況下進(jìn)行決策和推理,支持向量機(jī)更適用于小樣本。決策樹算法相比于以上算法,在處理非數(shù)值型數(shù)據(jù)上擁有顯著優(yōu)勢(shì),可以在相對(duì)短的時(shí)間內(nèi)對(duì)大型數(shù)據(jù)源計(jì)算出可行且效果良好的結(jié)果。
(2)關(guān)于Reduce函數(shù)算法的研究。Reduce的算法主要有聚類分析、主成分分析、BP神經(jīng)網(wǎng)絡(luò)等[16-18]。其中,主成分分析是將多個(gè)變量通過線性變換以選出較少個(gè)數(shù)重要變量,BP神經(jīng)網(wǎng)絡(luò)能學(xué)習(xí)和存貯大量的輸入-輸出模式映射關(guān)系,聚類分析在處理大量的、不完全的、含有噪聲的數(shù)據(jù)中具有強(qiáng)大優(yōu)勢(shì)。
需要說明的是,實(shí)現(xiàn)MapReduce還需要HBase、Cassandra、Bigtable等非關(guān)系型數(shù)據(jù)庫支持。其中,Bigtable是Google開發(fā)的分布式數(shù)據(jù)存儲(chǔ)系統(tǒng),在適用性、擴(kuò)展性和計(jì)算性能方面具有較強(qiáng)優(yōu)勢(shì)。
在對(duì)我國海洋創(chuàng)新發(fā)展?fàn)顩r深入分析的基礎(chǔ)上,確定擬預(yù)測的海洋創(chuàng)新指標(biāo),收集整理海洋創(chuàng)新數(shù)據(jù),構(gòu)建Bigtable分布式數(shù)據(jù)存儲(chǔ)系統(tǒng)+MapReduce技術(shù)的大數(shù)據(jù)架構(gòu),對(duì)海洋創(chuàng)新指標(biāo)的預(yù)測方法及其應(yīng)用進(jìn)行研究(圖1)。
圖1 技術(shù)路線圖
技術(shù)路線可分為4個(gè)階段:①進(jìn)行我國海洋創(chuàng)新發(fā)展現(xiàn)狀和問題研究,定義國家海洋創(chuàng)新體系,確定擬預(yù)測的海洋創(chuàng)新指標(biāo);②收集海洋創(chuàng)新指標(biāo)所需數(shù)據(jù),完善健全現(xiàn)有數(shù)據(jù);③對(duì)數(shù)據(jù)進(jìn)行整理和預(yù)處理,建立Bigtable分布式數(shù)據(jù)存儲(chǔ)系統(tǒng);④綜合運(yùn)用合適算法對(duì)海洋創(chuàng)新數(shù)據(jù)進(jìn)行Map處理和Reduce處理,形成完善的海洋創(chuàng)新指標(biāo)預(yù)測方法體系。
技術(shù)路線的核心在基于大數(shù)據(jù)思想的海洋創(chuàng)新指標(biāo)預(yù)測方法研究部分,具體分成兩個(gè)方面:①數(shù)據(jù)收集整理與Bigtable數(shù)據(jù)庫構(gòu)建。收集海洋創(chuàng)新指標(biāo)所需數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行整理和預(yù)處理,建立Bigtable分布式數(shù)據(jù)存儲(chǔ)系統(tǒng),對(duì)海洋創(chuàng)新數(shù)據(jù)進(jìn)行存儲(chǔ)和管理;②基于MapReduce計(jì)算框架的指標(biāo)預(yù)測方法研究。針對(duì)各類非結(jié)構(gòu)化、非線性、無因果關(guān)系數(shù)據(jù),基于MapReduce計(jì)算框架,形成一套系統(tǒng)的海洋創(chuàng)新指標(biāo)預(yù)測方法,具體包括Map處理和Reduce處理兩方面。運(yùn)用設(shè)定決策樹的最大高度來限制樹的增長或者設(shè)定每個(gè)節(jié)點(diǎn)必須包含的最少記錄數(shù)對(duì)決策樹算法進(jìn)行改進(jìn),并通過改進(jìn)的決策樹算法對(duì)海洋創(chuàng)新數(shù)據(jù)進(jìn)行Map處理。根據(jù)數(shù)據(jù)類型不同,綜合運(yùn)用BP神經(jīng)網(wǎng)絡(luò)和不同類別的聚類算法,對(duì)海洋創(chuàng)新數(shù)據(jù)進(jìn)行Reduce處理,為海洋創(chuàng)新指標(biāo)的預(yù)測奠定基礎(chǔ)。
Bigtable+MapReduce架構(gòu)下海洋創(chuàng)新指標(biāo)預(yù)測最優(yōu)方法的實(shí)現(xiàn)是研究的難點(diǎn)。具體表現(xiàn)為:如何基于大數(shù)據(jù)思想,運(yùn)用Bigtable分布式數(shù)據(jù)存儲(chǔ)系統(tǒng)有效地管理海量多源海洋創(chuàng)新數(shù)據(jù)?如何在MapReduce計(jì)算架構(gòu)下綜合運(yùn)用合適算法對(duì)海洋創(chuàng)新數(shù)據(jù)進(jìn)行Map處理和Reduce處理,實(shí)現(xiàn)并尋找到最優(yōu)算法?若能實(shí)現(xiàn),將能為海洋創(chuàng)新總體規(guī)劃編制和海洋科技政策制定提供全面準(zhǔn)確的預(yù)測信息,實(shí)現(xiàn)對(duì)我國海洋創(chuàng)新領(lǐng)域發(fā)展趨勢(shì)的定量化預(yù)測和未來海洋創(chuàng)新戰(zhàn)略重點(diǎn)的有效布局。
基于大數(shù)據(jù)架構(gòu)開展國家海洋創(chuàng)新指標(biāo)預(yù)測有雙重意義。一是在學(xué)術(shù)方面,將MapReduce技術(shù)與海洋創(chuàng)新數(shù)據(jù)結(jié)合,探索海洋創(chuàng)新指標(biāo)預(yù)測方法,可以建立起一套支撐海洋創(chuàng)新戰(zhàn)略制定的預(yù)測體系。二是在應(yīng)用方面,通過Bigtable分布式數(shù)據(jù)存儲(chǔ)系統(tǒng)對(duì)海洋創(chuàng)新數(shù)據(jù)進(jìn)行存儲(chǔ)和管理,深入分析多源數(shù)據(jù),進(jìn)行科學(xué)合理的海洋創(chuàng)新指標(biāo)預(yù)測方法研究,實(shí)現(xiàn)對(duì)我國海洋創(chuàng)新領(lǐng)域發(fā)展趨勢(shì)的定量化預(yù)測,可以為海洋創(chuàng)新戰(zhàn)略和政策的制定提供決策輔助服務(wù)。
[1] JORGE N, SAVIOTTI P, BELLON B, et al.National systems of innovation: in search of a workable concept[J].Technology in Society,1993(15): 207-227.
[2] 劉曙光,丁麗君.海洋創(chuàng)新體系建設(shè)國際經(jīng)驗(yàn)與借鑒[J].海洋開發(fā)與管理,2012,29(3):63-66.
[3] Hajime Eto.The suitability of technology forecasting/foresight methods for decisionsystems and strategy A Japanese view [J].Technological Forecasting & Social Change, 2003:231-249.
[4] 王元地,潘雄峰,劉鳳朝.科技進(jìn)步貢獻(xiàn)率測算及預(yù)測實(shí)證研究[J].商業(yè)研究,2005(5):28-31.
[5] 魯亞運(yùn).基于時(shí)滯灰色生產(chǎn)函數(shù)的我國海洋科技進(jìn)步貢獻(xiàn)率研究[J].科技管理研究,2014,32(12):55-59.
[6] 趙蕾,林連升,楊寧生,等.綜合評(píng)價(jià)方法在中國水產(chǎn)科學(xué)研究院科技成果轉(zhuǎn)化率研究中的應(yīng)用構(gòu)想[J].科技管理研究,2011,29(6):42-45.
[7] 呂晨,曾明彬.基于DEA的中國區(qū)域科技投入產(chǎn)出相對(duì)效率研究[J].科學(xué)管理研究,2014,32(2):101-104.
[8] 徐士元,何寬,樊在虎.基于浙江面板數(shù)據(jù)的海洋科技進(jìn)步貢獻(xiàn)率研究[J].海洋開發(fā)與管理,2013,30(11):111-116.
[9] 王黎明.福建省科技成果轉(zhuǎn)化評(píng)價(jià)研究[D].福州:福建農(nóng)林大學(xué),2014:33-34.
[10] 孟慶軍,許蓮艷.基于C-D函數(shù)的高新技術(shù)產(chǎn)業(yè)科技投入產(chǎn)出效率分析[J].河北工業(yè)科技,2015,32(1):17-21.
[11] 中國未來20年技術(shù)預(yù)見研究組.中國未來20年技術(shù)預(yù)見(續(xù))[M].北京:科學(xué)出版社,2007:27.
[12] 曹寧,高瑩,徐根祺.決策樹方法的研究[J].科技視野,2014(20):72.
[13] 祝翠,劉煥彬.Bayes方法在學(xué)習(xí)效果評(píng)價(jià)上的應(yīng)用[J].科技論壇,2014(1):138-139.
[14] 孔玉靜,華爾天.基于神經(jīng)網(wǎng)絡(luò)的無線傳感器網(wǎng)絡(luò)數(shù)據(jù)融合算法研究[D].杭州:浙江工商大學(xué),2013.
[15] 丁世飛,齊丙娟,譚紅艷.支持向量機(jī)理論與算法研究綜述[J].電子科技大學(xué)學(xué)報(bào),2011,40(1):3-10.
[16] 郭紅建,陳一飛.采用K-means聚類算法提高審計(jì)分析質(zhì)量[J].中國管理信息化,2015(1):9-10.
[17] 張杰.基于主成分-聚類分析法的管道風(fēng)險(xiǎn)評(píng)價(jià)方法[J].油氣儲(chǔ)運(yùn),2014(2):139-143.
[18] 崔東文.多隱層BP神經(jīng)網(wǎng)絡(luò)模型在徑流預(yù)測中的應(yīng)用[J].水文,2013(1):68-73.
On the National Marine Innovation Index and Marine Innovation Forecasting Method Based on Big Data Architecture
LIU Dahai,LI Xiaoxuan,WANG Chunjuan,LI Xianjie
(The First Institute of Oceanography,SOA,Qingdao 266061,China)
Based on the theory of National Innovation System and the theory of big data, this paper explored the definition and scope of national marine innovation system. According to the specific contents of national marine innovation system, it put forward the national marine innovation forecasting indexes including foreign dependence of marine technology, marine equipment nationalization rate, the autonomization rate of marine key technology, the contribution rate of marine science and technology progress, marine science and technology transfer rate and so on. In addition, in the framework of Bigtable+MapReduce, it discussed the forecasting methods that were suitable for marine innovation index and explored the thought of national marine innovation index forecasting technology, which made attempts to establish the forecasting system for better marine innovation strategy-making.
Marine innovation index,Big data architecture, Forecasting method
海洋公益性行業(yè)科研專項(xiàng)經(jīng)費(fèi)項(xiàng)目“海洋強(qiáng)國建設(shè)的評(píng)價(jià)體系研究及應(yīng)用”(2014418029);國家海洋局項(xiàng)目“海洋科技創(chuàng)新評(píng)估與預(yù)測研究”(A201547);基本科研業(yè)務(wù)費(fèi)專項(xiàng)資金項(xiàng)目“海洋科技創(chuàng)新戰(zhàn)略研究”(GY0214T08);基本科研業(yè)務(wù)費(fèi)專項(xiàng)資金項(xiàng)目“我國海洋創(chuàng)新評(píng)估體系及預(yù)測技術(shù)研究與應(yīng)用”(2015T09);國家海洋局項(xiàng)目“海洋科技創(chuàng)新指數(shù)及企業(yè)創(chuàng)新能力研究”.
劉大海,助理研究員,博士,研究方向?yàn)楹Q髣?chuàng)新政策研究,電子信箱:liudahai@fio.org.cn
李曉璇,碩士研究生,研究方向?yàn)楹Q髣?chuàng)新政策研究,電子信箱:lixiaoxuan@fio.org.cn
F204 ;P7
A
1005-9857(2016)03-0009-05