侯素娟,趙瑞珍,宋 蘇
1(山東師范大學(xué) 信息科學(xué)與工程學(xué)院,山東 濟(jì)南 250014)
2(國家自然科學(xué)基金委員會 信息科學(xué)部,北京 100085)
通訊作者:趙瑞珍,E-mail:zhaorz@nsfc.gov.cn
國家自然科學(xué)基金申請書通常反映相關(guān)領(lǐng)域目前最新進(jìn)展和成果.申請書一般都附有關(guān)鍵詞,這些關(guān)鍵詞能夠迅速、準(zhǔn)確地反映出一份申請書的主題內(nèi)容和重點(diǎn),也是函評階段計算機(jī)輔助指派系統(tǒng)進(jìn)行專家匹配的重要因素之一.對某個研究領(lǐng)域較長時間段的大量基金申請書進(jìn)行關(guān)鍵詞的詞頻和趨勢規(guī)律分析,有助于揭示本領(lǐng)域研究的熱點(diǎn)、總體內(nèi)容特征、內(nèi)容之間的內(nèi)在聯(lián)系、學(xué)術(shù)研究的發(fā)展脈絡(luò)與發(fā)展方向等[1].文獻(xiàn)[2]對國家自然科學(xué)基金自動化領(lǐng)域1986 年~2017 年項目申請和資助數(shù)據(jù)進(jìn)行了大量分析,發(fā)現(xiàn)自動化領(lǐng)域基金資助的相關(guān)領(lǐng)域反映了國內(nèi)外研究前沿;同時發(fā)現(xiàn),熱點(diǎn)領(lǐng)域理論研究的比重大于應(yīng)用基礎(chǔ)研究.
近些年,隨著網(wǎng)絡(luò)和存儲技術(shù)的快速發(fā)展,多媒體數(shù)據(jù)量呈爆炸式增長,圖像和視頻數(shù)據(jù)的研究已成為計算機(jī)應(yīng)用領(lǐng)域研究的熱點(diǎn).2019 年,國家自然科學(xué)基金委員會信息科學(xué)部明確將“社交媒體大數(shù)據(jù)分析與處理”作為優(yōu)先支持的研究領(lǐng)域之一[3].目前,計算機(jī)學(xué)科(對應(yīng)一級代碼F02)共設(shè)有65 個三級代碼.近5 年,計算機(jī)圖像與視頻處理領(lǐng)域(對應(yīng)三級代碼F020502)的項目申請量和項目資助量在65 個三級代碼中均排第一位,具體地,在申請方面,2014 年~2018 年度各類項目總量共計2 445 項,占計算機(jī)應(yīng)用(F0205)項目總量的27.4%,占整個計算機(jī)學(xué)科項目總量的10.4%;在資助方面,2014 年~2018 年度各類項目總量共計646 項,占計算機(jī)應(yīng)用項目總量的30.09%,占整個計算機(jī)學(xué)科項目總量的11.5%.因此,本文選取2014 年~2018 年計算機(jī)圖像與視頻處理領(lǐng)域的項目關(guān)鍵詞進(jìn)行統(tǒng)計和分析.
在進(jìn)行項目申報時,國家自然科學(xué)基金委員會要求每個項目標(biāo)引5 個以內(nèi)(含5 個)的關(guān)鍵詞.我們統(tǒng)計了2014 年~2018 年計算機(jī)圖像與視頻處理領(lǐng)域的項目申請量及其標(biāo)引的關(guān)鍵詞數(shù)量(本文統(tǒng)計的關(guān)鍵詞數(shù)量包含了重復(fù)出現(xiàn)的關(guān)鍵詞)、項目資助量及其標(biāo)引的關(guān)鍵詞數(shù)量,見表1.
Table 1 Number of projects and keywords in the field of computer image and video processing from 2014 to 2018表1 2014 年~2018 年計算機(jī)圖像與視頻處理領(lǐng)域的項目數(shù)量和關(guān)鍵詞數(shù)量
根據(jù)表1 中的結(jié)果統(tǒng)計,2014 年~2018 年申請項目2 445 項,標(biāo)引關(guān)鍵詞10 686 個,篇均關(guān)鍵詞4.37 個.資助項目646 項,標(biāo)引關(guān)鍵詞2 844 個,篇均關(guān)鍵詞4.40 個.
同時,我們還統(tǒng)計了計算機(jī)圖像與視頻處理領(lǐng)域關(guān)鍵詞標(biāo)引量(關(guān)鍵詞標(biāo)引量:申請書中所標(biāo)注的關(guān)鍵詞的個數(shù))及其對應(yīng)的項目申請量,如圖1 所示.
由圖1 可以看出:大多數(shù)申請項目的關(guān)鍵詞標(biāo)引量集中在4~5 個,其中,標(biāo)注了4 個和5 個關(guān)鍵詞的項目數(shù)量分別有673 項和1 377 項,分別占總項目的27.53%和56.32%,二者之和所占比例達(dá)83.85%.
此外,筆者還統(tǒng)計了計算機(jī)圖像與視頻處理領(lǐng)域關(guān)鍵詞標(biāo)引量及其對應(yīng)的項目資助占比,如圖2 所示,其中,括號內(nèi)的數(shù)字為關(guān)鍵詞標(biāo)引量對應(yīng)項目數(shù)量的占比.
Fig.2 Number of keywords and corresponding project funding rate圖2 關(guān)鍵詞標(biāo)引量及其項目資助占比
由圖2 可以看出,近5 年資助項目的關(guān)鍵詞標(biāo)引量具有以下特點(diǎn).
(1)大多數(shù)獲資助項目的關(guān)鍵詞標(biāo)引量集中在4~5 個,其中,標(biāo)注4 個和5 個關(guān)鍵詞的項目共計544 項,占項目總數(shù)的84.21%;標(biāo)引5 個關(guān)鍵詞的項目資助占比最高,相對于同為5 個關(guān)鍵詞的項目申請占比(56.32%)高2.5%;
(2)結(jié)合圖1 數(shù)據(jù),可以計算出標(biāo)引1~5 個關(guān)鍵詞的項目資助率分別為25%,20.69%,26.83%,24.37%,27.6%,其中,標(biāo)引5 個關(guān)鍵詞的項目獲得資助的比例相對較高.
以上分析表明,獲資助申請書其關(guān)鍵詞標(biāo)引量絕大多數(shù)在4 個或以上,當(dāng)申請書的關(guān)鍵詞標(biāo)引量為5 時,獲資助比例較高.
詞頻用于定義關(guān)鍵詞在某一研究領(lǐng)域中出現(xiàn)的頻次高低[4].我們對2014 年~2018 年計算機(jī)圖像與視頻處理領(lǐng)域申請及獲資助項目的關(guān)鍵詞詞頻進(jìn)行統(tǒng)計,表2 中列出排序在前10 的關(guān)鍵詞及其詞頻(注:申請及獲資助項目的關(guān)鍵詞總量分別為10 686 和2 844).
由表2 的統(tǒng)計結(jié)果可以看出:
(1)從關(guān)鍵詞反映出的申請項目的研究熱點(diǎn)與專家的認(rèn)可度基本一致,例如:申請項目和資助項目詞頻排序在前2 位的均依次為“深度學(xué)習(xí)”和“特征提取”.然而,兩者其他關(guān)鍵詞的研究熱度和專家認(rèn)可度并不一致,如“圖像理解”在資助項目的關(guān)鍵詞詞頻排序中列第3 位,而在申請項目的關(guān)鍵詞詞頻排序中列第7 位;
(2)高頻詞確實反映了計算機(jī)圖像與視頻處理領(lǐng)域的熱點(diǎn):a)隨著AlphaGo 戰(zhàn)勝人類圍棋世界冠軍,人工智能迎來第三次熱潮,深度學(xué)習(xí)成為本領(lǐng)域備受關(guān)注的研究內(nèi)容,這在表2 的詞頻統(tǒng)計結(jié)果中得到了充分體現(xiàn);b)圖像特征提取是圖像和視頻研究的關(guān)鍵,特征提取的效果直接決定著圖像和視頻應(yīng)用的性能.如何從原始圖像中提取具有較強(qiáng)表示能力的特征,是計算機(jī)圖像與視頻處理的一個研究熱點(diǎn).這從表2 中也得到體現(xiàn).
Table 2 Top 10 keyword frequency in the field of computer image and video processing from 2014 to 2018表2 2014 年~2018 年計算機(jī)圖像與視頻處理領(lǐng)域項目關(guān)鍵詞詞頻TOP10
我們對計算機(jī)圖像與視頻處理領(lǐng)域的項目出現(xiàn)頻次較高的關(guān)鍵詞的資助率進(jìn)行統(tǒng)計,并將統(tǒng)計結(jié)果按照資助項目的關(guān)鍵詞詞頻高低進(jìn)行排序,表3 給出了資助項目詞頻排序在前10 的關(guān)鍵詞的資助率統(tǒng)計結(jié)果.
Table 3 Keyword frequency and project funding rate in the field of computer image and video processing from 2014 to 2018表3 2014 年~2018 年計算機(jī)圖像與視頻處理領(lǐng)域的項目關(guān)鍵詞詞頻與關(guān)鍵詞的資助率
從表3 可以看出:
(1)詞頻高的項目,其資助率不一定高.例如:“圖像理解”在資助項目的關(guān)鍵詞詞頻排序中列第3 位,在申請項目的詞頻排序中列第7 位,其資助率較高;“目標(biāo)檢測”在資助項目的關(guān)鍵詞詞頻排序中列第8 位,在申請項目的關(guān)鍵詞詞頻排序中列第4 位,其資助率較低;
(2)涉及“深度學(xué)習(xí)”和“圖像理解”的項目相對容易得到同行專家的認(rèn)可.
詞頻分析法是利用詞頻來確定該領(lǐng)域研究熱點(diǎn)和發(fā)展動向的計量學(xué)方法[4].申請書中關(guān)鍵詞詞頻的高低,可以反映本領(lǐng)域的研究熱點(diǎn)和主要研究方向,由關(guān)鍵詞詞頻分布特征可以分析出本領(lǐng)域研究的集中程度.為了分析近5 年計算機(jī)圖像與視頻處理領(lǐng)域研究熱點(diǎn)的變化,筆者運(yùn)用詞頻分析法從詞頻方面分別對申請項目和資助項目的關(guān)鍵詞詞頻進(jìn)行逐年統(tǒng)計,并列出詞頻排序在前10 的關(guān)鍵詞(見表4).由表4 的統(tǒng)計結(jié)果可以看出:
(1)對于詞頻最高的關(guān)鍵詞,申請項目和資助項目兩者完全匹配.例如:2014 年,申請項目和資助項目詞頻最高的關(guān)鍵詞均為“計算機(jī)視覺”;2015 年~2018 年,關(guān)鍵詞“深度學(xué)習(xí)”的詞頻排序持續(xù)保持第一.目前,深度學(xué)習(xí)發(fā)展迅速,其研究價值和潛力正不斷地被挖掘,在圖像檢索、語音識別、人臉識別、機(jī)器翻譯等領(lǐng)域均取得了突出的應(yīng)用效果;
(2)對于其他關(guān)鍵詞,申請項目和資助項目兩者的詞頻排序基本不匹配,具體表現(xiàn)在同一關(guān)鍵詞不僅在同一年度的申請和資助的詞頻排序各不相同,而且不同年份的詞頻排序變化波動也較為明顯.以“圖像檢索”關(guān)鍵詞為例,圖3 給出其近5 年在申請和資助兩方面詞頻排序的變化.
Table 4 Top 10 annual keyword frequency of the field of computer image and video processing from 2014 to 2018表4 2014 年~2018 年計算機(jī)圖像與視頻處理領(lǐng)域項目關(guān)鍵詞TOP10 逐年統(tǒng)計
Table 4 Top 10 annual keyword frequency of the field of computer image and video processing from 2014 to 2018表4 2014 年~2018 年計算機(jī)圖像與視頻處理領(lǐng)域項目關(guān)鍵詞TOP10 逐年統(tǒng)計
Fig.3 Change of Word Frequency Ranking towards Image Retrieval from 2014 to 2018圖3 關(guān)鍵詞圖像檢索在2014 年~2018 各年度的詞頻排序變化
本文從申請項目和資助項目兩個方面,對2014 年~2018 年計算機(jī)圖像與視頻處理領(lǐng)域的關(guān)鍵詞進(jìn)行統(tǒng)計,分別對關(guān)鍵詞的標(biāo)引量和詞頻進(jìn)行分析,并探討了它們與資助率的關(guān)系,最后,透過熱頻關(guān)鍵詞的變化分析了計算機(jī)圖像與視頻處理領(lǐng)域研究熱點(diǎn)的變化.可以看出,“深度學(xué)習(xí)”在計算機(jī)圖像與視頻處理領(lǐng)域已持續(xù)成為大家關(guān)注和感興趣的研究課題.