唐福濤
(天津商業(yè)大學(xué)科研處 天津 300134)
研究主題是指某一研究領(lǐng)域內(nèi)的主要研究?jī)?nèi)容,反映了該領(lǐng)域的科研工作者和管理者的研究熱點(diǎn)和工作重點(diǎn)[1]。隨著當(dāng)今科技的不斷交叉與融合,如何透過科技研究主題的演化分析和把握科技發(fā)展態(tài)勢(shì),對(duì)科技工作者尤為重要。國(guó)家科學(xué)技術(shù)獎(jiǎng)代表了科學(xué)研究的最高榮譽(yù),是反映國(guó)家科學(xué)技術(shù)進(jìn)步的重要標(biāo)尺,也代表各個(gè)行業(yè)科學(xué)攻關(guān)的方向,所以,對(duì)國(guó)家科學(xué)技術(shù)獎(jiǎng)研究主題分析有重要的現(xiàn)實(shí)意義。
我國(guó)幅員遼闊,各省市自治區(qū)受地理位置、社會(huì)文化、自然資源等因素的影響,經(jīng)濟(jì)發(fā)展不平衡,在科研產(chǎn)出結(jié)構(gòu)和優(yōu)勢(shì)領(lǐng)域的分布上差異性大。為了揭示我國(guó)各省市自治區(qū)的研究主題和優(yōu)勢(shì)領(lǐng)域,本文以2010—2019年國(guó)家科技進(jìn)步獎(jiǎng)獲獎(jiǎng)項(xiàng)目為數(shù)據(jù)源,統(tǒng)計(jì)分析了我國(guó)31個(gè)省市自治區(qū)(不包括港、澳、臺(tái))在各評(píng)審組中的科技進(jìn)步獎(jiǎng)項(xiàng)獲得情況,并借助jieba分詞功能對(duì)研究主題進(jìn)行細(xì)化分析。
目前、國(guó)內(nèi)外學(xué)者針對(duì)某一行業(yè)研究領(lǐng)域或者主題的分析已經(jīng)很多,如大數(shù)據(jù)領(lǐng)域[2-3]、醫(yī)藥領(lǐng)域[4]、計(jì)算機(jī)集成制造領(lǐng)域[5]、國(guó)內(nèi)環(huán)境治理領(lǐng)域[6]、衛(wèi)生應(yīng)急處置領(lǐng)域[7]等。但是,縱觀目前對(duì)研究主題的分析,數(shù)據(jù)來源都集中在研究論文和專利方面,還沒有對(duì)科學(xué)技術(shù)獎(jiǎng)的主題分析,而國(guó)家科技進(jìn)步獎(jiǎng)作為科技研發(fā)的前沿和主要陣地,對(duì)科技發(fā)展意義不言而喻。另外,目前的研究多是針對(duì)某一個(gè)或幾個(gè)特定的領(lǐng)域,具有一定的局限性。本文主要是從宏觀層次上進(jìn)行國(guó)家科技進(jìn)步獎(jiǎng)研究領(lǐng)域主題的分析。
本研究數(shù)據(jù)源來自國(guó)家科學(xué)技術(shù)獎(jiǎng)勵(lì)工作辦公室網(wǎng)站[8],在國(guó)家科技獎(jiǎng)勵(lì)—國(guó)家科學(xué)技術(shù)進(jìn)步獎(jiǎng)欄目,從獲獎(jiǎng)項(xiàng)目目錄即可查看歷年的獲獎(jiǎng)項(xiàng)目。數(shù)據(jù)的篩選和處理分以下幾個(gè)步驟:(1)下載2010—2019年國(guó)家科技進(jìn)步獎(jiǎng)通用獎(jiǎng)項(xiàng)一、二等獎(jiǎng)項(xiàng)目名單(不含專用項(xiàng)目),并導(dǎo)入Excel 表格;(2)整理獲獎(jiǎng)項(xiàng)目所屬評(píng)審組,并對(duì)獲獎(jiǎng)項(xiàng)目所屬省市自治區(qū)進(jìn)行劃分(含獲獎(jiǎng)參與單位);(3)利用Python 中jieba 中文分詞包功能,對(duì)每個(gè)項(xiàng)目獲獎(jiǎng)名稱進(jìn)行分詞處理并進(jìn)行清洗統(tǒng)計(jì)。
統(tǒng)計(jì)2010—2019年31個(gè)省市自治區(qū)(不包括港、澳、臺(tái))參與國(guó)家科技進(jìn)步獎(jiǎng)項(xiàng)目的情況顯示:整體上各省市的國(guó)家科技獲獎(jiǎng)項(xiàng)目數(shù)呈現(xiàn)“一超多強(qiáng)”的分布趨勢(shì),北京作為首都,獲獎(jiǎng)的次數(shù)明顯多于其他省市,其他經(jīng)濟(jì)發(fā)達(dá)地區(qū),如上海、廣東、江蘇、浙江獲得獎(jiǎng)項(xiàng)的次數(shù)也比較多,而西部欠發(fā)達(dá)地區(qū),如貴州、青海、西藏等省市獲得獎(jiǎng)項(xiàng)的數(shù)量明顯少,總體上,國(guó)家科技進(jìn)步獎(jiǎng)各省市自治區(qū)獲獎(jiǎng)?lì)l次存在著明顯的東強(qiáng)西弱的特征。
分詞是將由字符序列構(gòu)成的句子按照一定的規(guī)則重新組合成詞的集合,中文分詞就是指將句子中漢字序列切分成詞集合[9]。jieba中文分詞工具是一款使用Python 語言開發(fā)的分詞效果較好的分詞器、開源分詞工具,它的主要特點(diǎn)有3 個(gè):(1)支持3 種分詞模式,即精確模式、全模式和搜索引擎模式;(2)支持繁體分詞;(3)支持自定義詞典。jieba 分詞的實(shí)現(xiàn)基于以下3 個(gè)原理[10]:(1)基于trie樹結(jié)構(gòu),實(shí)現(xiàn)高效的詞圖掃描,生成句子中漢字所有可能成詞情況所構(gòu)成的有向無環(huán)圖(directed acyclic graph,DAG);(2)采用動(dòng)態(tài)規(guī)劃,查找最大概率路徑,找出基于詞頻的最大切分組合;(3)對(duì)于未登錄詞,采用了Viterbi 算法和基于漢字成詞能力的HMM模型。
本研究是基于國(guó)家科技獎(jiǎng)獲獎(jiǎng)項(xiàng)目的名稱進(jìn)行分詞處理,獲獎(jiǎng)名稱是對(duì)獲獎(jiǎng)項(xiàng)目的精確、濃縮概括,因此,采用jieba分詞中的精確模式。該模式是jieba分詞中最基礎(chǔ)和自然的模式,它試圖盡可能精確地劃分語句,特別適合極短文本分析。
國(guó)家科技進(jìn)步獎(jiǎng)項(xiàng)目基本每年會(huì)設(shè)有30 個(gè)左右的評(píng)審組,范圍涵蓋了理、工、農(nóng)、醫(yī)類全部學(xué)科方向。隨著時(shí)代發(fā)展,評(píng)審組也會(huì)有微調(diào),如2010—2011年設(shè)有先進(jìn)制造與重大裝備、安全生產(chǎn)、循環(huán)經(jīng)濟(jì)3個(gè)評(píng)審組,2012—2019年則沒有這3個(gè)評(píng)審組,2019年之前農(nóng)藝學(xué)和農(nóng)業(yè)工程學(xué)是在一個(gè)評(píng)審組,2019年之后農(nóng)藝學(xué)和農(nóng)業(yè)工程學(xué)分開評(píng)審。所以。本文在歷年獎(jiǎng)項(xiàng)評(píng)審組的基礎(chǔ)上進(jìn)行了微調(diào),歸納了30 個(gè)評(píng)審組,匯總了2010—2019 各個(gè)省市自治區(qū)在評(píng)審組里面主要參與獲獎(jiǎng)?lì)l次,如圖1所示。
由圖1可知,北京作為全國(guó)政治經(jīng)濟(jì)中心,在國(guó)家科技進(jìn)步獎(jiǎng)獲獎(jiǎng)方面,獲得評(píng)審組獎(jiǎng)項(xiàng)的數(shù)量遙遙領(lǐng)先,地處長(zhǎng)三角、珠三角地區(qū)的上海市、江蘇省、浙江省、廣東省參與獲得國(guó)家科技進(jìn)步獎(jiǎng)的次數(shù)也比較多,獲獎(jiǎng)范圍基本涵蓋了多數(shù)的評(píng)審組領(lǐng)域,與這幾個(gè)省份經(jīng)濟(jì)發(fā)達(dá)、學(xué)術(shù)資源豐富、各行業(yè)基礎(chǔ)研究力量較強(qiáng)相關(guān)。
圖1 各省市參與國(guó)家科技進(jìn)步獎(jiǎng)評(píng)審組情況統(tǒng)計(jì)
在全部30個(gè)評(píng)審組各省市自治區(qū)獲獎(jiǎng)次數(shù)里面,北京在26 個(gè)評(píng)審組里居于首位,另外的4 個(gè)評(píng)審組里面,通信組是廣東省獲獎(jiǎng)次數(shù)最多,機(jī)械組、紡織組、工人農(nóng)民技術(shù)創(chuàng)新組都是江蘇省獲獎(jiǎng)次數(shù)最多。從各個(gè)省市在各評(píng)審組獲獎(jiǎng)的情況來看,北京市、上海市、江蘇省、浙江省、廣東省、山東省、湖北省不但獲獎(jiǎng)次數(shù)多,而且涉及的評(píng)審組也廣,科技發(fā)展創(chuàng)新活力較強(qiáng);其他省市比較典型的,如河南省在作物遺傳育種與園藝、農(nóng)業(yè)工程評(píng)審組獲獎(jiǎng)比較多,陜西省在動(dòng)力電氣與核電評(píng)審組里面參與次數(shù)比較多,湖南省、遼寧省在金屬材料評(píng)審組里面參與次數(shù)比較多;而在經(jīng)濟(jì)薄弱的西部地區(qū),如寧夏、西藏、青海等在各個(gè)評(píng)審組獲獎(jiǎng)都很少,科技獲獎(jiǎng)能力偏弱。
利用jieba中文分詞功能,探究31個(gè)省市自治區(qū)的研究主題,包括3 個(gè)步驟:(1)對(duì)2010—2019年度獲獎(jiǎng)項(xiàng)目名稱進(jìn)行分詞處理;(2)對(duì)數(shù)據(jù)進(jìn)行清洗,剔除一些不能體現(xiàn)研究主題或內(nèi)容的詞語,如“關(guān)鍵技術(shù)”“開發(fā)”“應(yīng)用”“工程”等;(3)整理31個(gè)省市自治區(qū)獲得國(guó)家科技進(jìn)步獎(jiǎng)項(xiàng)目主要所屬評(píng)審組及分詞數(shù)據(jù),如表1所示。由分詞數(shù)據(jù)更能直觀地看到各省市自治區(qū)的科技研究?jī)?yōu)勢(shì)領(lǐng)域,各省市研究主題和所屬評(píng)審組兩者之間也有較高的關(guān)聯(lián)性,例如:上海的外科與耳鼻喉組、內(nèi)科與預(yù)防醫(yī)學(xué)組與分詞數(shù)據(jù)的臨床、治療、疾病互相關(guān)聯(lián);河南的作物遺傳育種與園藝組、農(nóng)藝組、農(nóng)業(yè)工程組與分詞數(shù)據(jù)的新品種、選育、小麥關(guān)聯(lián)度高。由分詞數(shù)據(jù)信息進(jìn)一步反映了31個(gè)省市自治區(qū)的科技研究主題。
表1 31 省市國(guó)家科技進(jìn)步獎(jiǎng)主要所屬評(píng)審組及分詞數(shù)據(jù)
各省市自治區(qū)在國(guó)家科技進(jìn)步獎(jiǎng)中獲獎(jiǎng)?lì)l次受多方面因素影響,區(qū)域?qū)W術(shù)資源、經(jīng)濟(jì)發(fā)展?fàn)顩r、自然資源聚集都會(huì)對(duì)研究主題產(chǎn)生影響[11]。京津冀、長(zhǎng)三角、珠三角地區(qū)無論是學(xué)術(shù)資源還是經(jīng)濟(jì)發(fā)展都走在前列,所以,在各評(píng)審組中都能斬獲獎(jiǎng)項(xiàng)。一些典型的自然資源聚集的省份在各自優(yōu)勢(shì)產(chǎn)業(yè)也有收獲,如山西省是煤炭大省,其獲獎(jiǎng)主要來自于礦山工程評(píng)審組;廣東省的電子通信業(yè)是其支柱產(chǎn)業(yè),故其在通信組中排名首位。中西部地區(qū)只有四川省和陜西省在國(guó)家科技進(jìn)步獎(jiǎng)項(xiàng)目中能位于前十位,原因在于這兩個(gè)省份都有8個(gè)雙一流高校,還有部分科研院所,屬于人才知識(shí)聚集地,其他西部偏遠(yuǎn)地區(qū)無論是自然資源還是經(jīng)濟(jì)活力、學(xué)術(shù)資源都比較劣勢(shì),科技創(chuàng)新能力較弱,在國(guó)家科技進(jìn)步獎(jiǎng)項(xiàng)目中獲獎(jiǎng)很少。
本文在歸納各省市自治區(qū)2010—2019年獲得國(guó)家科技進(jìn)步獎(jiǎng)項(xiàng)目所屬評(píng)審組基礎(chǔ)上,對(duì)獲獎(jiǎng)項(xiàng)目名稱進(jìn)行分詞處理并進(jìn)行研究主題分析,主要得出了如下結(jié)論。(1)31個(gè)省市自治區(qū)獲得國(guó)家科技進(jìn)步獎(jiǎng)的項(xiàng)目數(shù)呈現(xiàn)“一超多強(qiáng)”“東強(qiáng)西弱”的態(tài)勢(shì),北京處于遙遙領(lǐng)先位置,長(zhǎng)三角、珠三角經(jīng)濟(jì)發(fā)達(dá)省市科技獲獎(jiǎng)能力較強(qiáng),西部偏遠(yuǎn)地區(qū)獲獎(jiǎng)能力偏弱。(2)31個(gè)省市自治區(qū)的研究主題和地域的學(xué)術(shù)資源、自然資源密切相關(guān),以適應(yīng)當(dāng)?shù)亟?jīng)濟(jì)社會(huì)發(fā)展的需要。(3)31個(gè)省市自治區(qū)獲得國(guó)家科技進(jìn)步獎(jiǎng)項(xiàng)目所屬評(píng)審組與項(xiàng)目名稱分詞數(shù)據(jù)關(guān)聯(lián)性高,進(jìn)一步反映了各省市的科技研究主題情況。
本文以國(guó)家科技進(jìn)步獎(jiǎng)項(xiàng)目為源數(shù)據(jù),利用統(tǒng)計(jì)和jieba分詞方法,探究了31個(gè)省市自治區(qū)科技研究主題,有助于科技工作者進(jìn)一步把握科技發(fā)展方向,有助于政府和有關(guān)部門制定宏觀科技發(fā)展戰(zhàn)略。當(dāng)然,研究還存在一定的局限,后續(xù)需進(jìn)一步做優(yōu)化處理。(1)分析對(duì)象是以國(guó)家科技進(jìn)步獎(jiǎng)為數(shù)據(jù)源,沒有包括其他國(guó)家科技獎(jiǎng)項(xiàng),如國(guó)家技術(shù)發(fā)明獎(jiǎng)、自然科學(xué)獎(jiǎng),雖然這些獎(jiǎng)項(xiàng)數(shù)量比較少,但是也可以反映各省市自治區(qū)的科技研究主題。(2)此次統(tǒng)計(jì)整理各省市自治區(qū)獲得國(guó)家科技進(jìn)步獎(jiǎng)項(xiàng)目的所屬評(píng)審組和項(xiàng)目名稱分詞數(shù)據(jù),未區(qū)分該省市是項(xiàng)目的主持單位還是參與單位,一個(gè)獲獎(jiǎng)項(xiàng)目的取得往往是多家單位合作的成果,機(jī)構(gòu)在項(xiàng)目中排名能反映機(jī)構(gòu)對(duì)項(xiàng)目的貢獻(xiàn)度,后續(xù)可做各省市自治區(qū)研究深度的量化分析。(3)本次研究年限是2010—2019年,沒有對(duì)31個(gè)省市自治區(qū)的研究主題進(jìn)行分階段分析,后續(xù)對(duì)研究主題的分析可分階段進(jìn)一步關(guān)注演化趨勢(shì)。