郝輝 哈力木拉提·買買提 喬薩礎(chǔ)拉 蘇佩佩
摘 要: 為了探究字符識(shí)別領(lǐng)域的研究現(xiàn)狀和發(fā)展趨勢(shì),整理Web of Science中近20年以字符識(shí)別為主題的典型文獻(xiàn)作為研究對(duì)象,采用文獻(xiàn)計(jì)量分析方法,利用CiteSpace可視化分析工具繪制知識(shí)網(wǎng)絡(luò)圖譜,系統(tǒng)科學(xué)地分析字符識(shí)別領(lǐng)域的研究國(guó)家、研究機(jī)構(gòu)、研究熱點(diǎn)以及核心文獻(xiàn),理清研究發(fā)展脈絡(luò)。研究發(fā)現(xiàn),字符識(shí)別的理論研究已經(jīng)相對(duì)成熟,研究?jī)?nèi)容主要集中在算法或模型優(yōu)化,以提高字符識(shí)別在實(shí)際應(yīng)用中的識(shí)別準(zhǔn)確率。通過(guò)上述工作,希望為我國(guó)研究人員了解字符識(shí)別的相關(guān)研究提供進(jìn)一步的參考和幫助。
關(guān)鍵詞: 字符識(shí)別; 研究現(xiàn)狀; 發(fā)展趨勢(shì); 文獻(xiàn)計(jì)量分析; 知識(shí)網(wǎng)絡(luò)圖譜; CiteSpace
中圖分類號(hào): TN911?34; TP391.1 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2018)22?0154?05
Abstract: The typical literatures in Web of Science with character recognition as the subject in recent 20 years are taken as the research objects to explore the research status and development trend of the character recognition field. The bibliometric analysis method and the CiteSpace visualization analysis tool are used to draw knowledge network maps, so as to systematically and scientifically analyze the research countries, research institutions, research hotspots and core literatures in the character recognition field, and clarify the development vein of the research. It is found that the theoretical research of character recognition has been relatively mature, and the research content is mainly focused on algorithm or model optimization, so as to improve the recognition accuracy rate of character recognition in actual applications, and hopefully provide further references and help for Chinese researchers to understand relevant researches of character recognition.
Keywords: character recognition; research status; development trend; bibliometric analysis; knowledge network map; CiteSpace
德國(guó)科學(xué)家Tausheck在1929年首先提出字符識(shí)別的概念,并申請(qǐng)專利[1]。但直到1960年左右,字符識(shí)別的相關(guān)研究才真正開(kāi)始,距今已有近60年,但沒(méi)有從科學(xué)知識(shí)圖譜的角度對(duì)字符識(shí)別領(lǐng)域進(jìn)行總結(jié)分析。出于上述原因,本文通過(guò)Web of Science檢索平臺(tái),利用CiteSpace[2]數(shù)據(jù)可視化分析工具對(duì)檢索到的字符識(shí)別文獻(xiàn)數(shù)據(jù)進(jìn)行分析,嘗試從宏觀角度分析并闡述以下三個(gè)方面:近20年字符識(shí)別領(lǐng)域的研究國(guó)家;近20年字符識(shí)別領(lǐng)域的研究機(jī)構(gòu);近20年字符識(shí)別領(lǐng)域的熱點(diǎn)演化。
本文的具體工作如下:說(shuō)明數(shù)據(jù)來(lái)源和研究方法;對(duì)采集到的文獻(xiàn)數(shù)據(jù)進(jìn)行描述分析;對(duì)結(jié)果進(jìn)行討論和總結(jié)。力圖通過(guò)客觀形象的方法展示字符識(shí)別領(lǐng)域的現(xiàn)狀和趨勢(shì),為國(guó)內(nèi)研究人員對(duì)字符識(shí)別領(lǐng)域的認(rèn)知提供進(jìn)一步的幫助和參考。
1.1 數(shù)據(jù)采集方式
文獻(xiàn)數(shù)據(jù)來(lái)自信息檢索平臺(tái)Web of Science的核心合集數(shù)據(jù)庫(kù),檢索步驟如下:
1) 通過(guò)主題檢索的方式,在高級(jí)檢索中創(chuàng)建檢索式:TS=(“character recognition”);
2) 設(shè)定檢索索引:引文索引和SCI?EXPANDED (1999年至今);
3) 設(shè)定時(shí)間跨度:1999—2017年;
4) 研究領(lǐng)域限定在“computer science”;
5) 選擇文獻(xiàn)類型:期刊(ARTICLE)和會(huì)議論文(PROCEEDINGS PAPER)。共采集文獻(xiàn)數(shù)據(jù)1 127篇,包含作者、標(biāo)題、摘要、關(guān)鍵詞、來(lái)源出版物以及該文獻(xiàn)所引用參考文獻(xiàn)等相關(guān)屬性信息。
1.2 研究方法
采用的研究方法是文獻(xiàn)計(jì)量分析,它可以利用數(shù)學(xué)、統(tǒng)計(jì)學(xué)的方法研究探討科學(xué)技術(shù)動(dòng)態(tài)特征[3]。而利用CiteSpace可視化工具可以將文獻(xiàn)數(shù)據(jù)通過(guò)文獻(xiàn)計(jì)量學(xué)的方法轉(zhuǎn)化成網(wǎng)絡(luò)知識(shí)圖譜。網(wǎng)絡(luò)知識(shí)圖譜是以科學(xué)知識(shí)為計(jì)量研究對(duì)象,在特定空間特定時(shí)間范圍中顯示科學(xué)知識(shí)的發(fā)展進(jìn)程與結(jié)構(gòu)關(guān)系,揭示學(xué)科知識(shí)之間的聯(lián)系及知識(shí)的進(jìn)化規(guī)律[4],通過(guò)圖表的方式直觀展示宏觀角度的學(xué)科研究。通過(guò)對(duì)1 127篇字符識(shí)別文獻(xiàn)數(shù)據(jù)進(jìn)行研究國(guó)家、研究機(jī)構(gòu)、關(guān)鍵詞、核心文獻(xiàn)統(tǒng)計(jì)分析,挖掘出字符識(shí)別領(lǐng)域潛藏的知識(shí)以及知識(shí)來(lái)源和發(fā)展規(guī)律,研究流程如圖1所示。
2.1 主要國(guó)家/地區(qū)分析
國(guó)家/地區(qū)之間會(huì)有不同的語(yǔ)言和文字,對(duì)國(guó)家/地區(qū)分析可以了解字符識(shí)別領(lǐng)域研究活動(dòng)在全世界的分布范圍、主要研究的語(yǔ)種以及國(guó)家/地區(qū)在字符識(shí)別領(lǐng)域的影響力。圖2是1999—2017年在字符識(shí)別領(lǐng)域比較活躍的國(guó)家或地區(qū)發(fā)文數(shù)量分布。
如圖2所示,字符識(shí)別領(lǐng)域中主要研究的文字識(shí)別有:中文、英文、日文、印度文、韓文、法文、意大利文、西班牙文、德文、阿拉伯文。在該領(lǐng)域內(nèi)中國(guó)發(fā)文量最高,以243篇排名第一,其次美國(guó)150篇排名第二,日本(115篇)、印度(99篇)、韓國(guó)(62篇)、加拿大(57篇)、法國(guó)(57篇)等國(guó)家或地區(qū)緊隨其后。從國(guó)家或地區(qū)分布來(lái)看,亞洲地區(qū)國(guó)家數(shù)量明顯高于世界其他地區(qū),主要有中國(guó)、日本、印度、韓國(guó)、伊朗和沙特阿拉伯。根據(jù)首次發(fā)文年曲線可知,前11個(gè)國(guó)家在1999年就已經(jīng)發(fā)表相關(guān)研究文獻(xiàn),西班牙、德國(guó)相繼在2000年和2001年發(fā)表了第一篇關(guān)于字符識(shí)別的研究文獻(xiàn)。值得注意的是,伊朗和沙特阿拉伯對(duì)字符識(shí)別的研究起步較晚,可以看出對(duì)于阿拉伯文字符識(shí)別兩國(guó)分別是在2005年和2007年開(kāi)始的。
2.2 研究機(jī)構(gòu)分析
研究機(jī)構(gòu)是對(duì)特定領(lǐng)域或者特定學(xué)科進(jìn)行專業(yè)研究的組織,其在特定領(lǐng)域具有一定的權(quán)威性和影響力。1999—2017年字符識(shí)別領(lǐng)域發(fā)表文獻(xiàn)量排名Top 10的研究機(jī)構(gòu)見(jiàn)表1。
如表1可知,表中研究機(jī)構(gòu)共來(lái)自5個(gè)國(guó)家,分別是中國(guó)5所,日本2所、加拿大1所、新加坡1所、印度1所。中國(guó)科學(xué)院(45篇)排名第一,東京農(nóng)工大學(xué)(19篇)排名第二,肯高迪亞大學(xué)(18篇)排名第三。其余新加坡國(guó)立大學(xué)(17篇),印度統(tǒng)計(jì)學(xué)院(16篇)等,中國(guó)的研究機(jī)構(gòu)在字符識(shí)別領(lǐng)域最活躍,其次是日本、加拿大、新加坡、印度的研究機(jī)構(gòu),其中日本的日立公司在字符識(shí)別領(lǐng)域發(fā)表文獻(xiàn)14篇。
1999—2017年字符識(shí)別領(lǐng)域研究機(jī)構(gòu)合作網(wǎng)絡(luò)圖譜見(jiàn)圖4,圖譜中的節(jié)點(diǎn)代表研究機(jī)構(gòu)。節(jié)點(diǎn)之間連線表示具有合作關(guān)系,粗連線表示研究機(jī)構(gòu)合作越密切。由圖4可知,機(jī)構(gòu)間的合作交流密切,例如:中國(guó)科學(xué)院與內(nèi)蒙古大學(xué)、加拿大蒙特利爾大學(xué)、東京農(nóng)工大學(xué)等有合作關(guān)系,日本日立公司與東京農(nóng)工大學(xué)、信州大學(xué)、韓國(guó)先進(jìn)科技學(xué)院有合作;清華大學(xué)與北京郵電大學(xué)、貝爾格萊德大學(xué)、倫斯勒理工學(xué)院有合作;卡耐基梅隆大學(xué)與北京郵電大學(xué)、全南國(guó)立大學(xué)有合作;新加坡國(guó)立大學(xué)與巴黎第六大學(xué)、新加坡科技研究局、新加坡資訊通信研究院等。研究機(jī)構(gòu)間的合作并不局限于國(guó)內(nèi)機(jī)構(gòu),國(guó)際間的交流合作同樣頻繁密切。
2.3 熱點(diǎn)演化分析
關(guān)鍵詞直觀反映文獻(xiàn)的主題,對(duì)關(guān)鍵詞進(jìn)行統(tǒng)計(jì)分析的方法稱為共詞分析。通過(guò)共詞分析方法,可以發(fā)現(xiàn)隱藏在真實(shí)詞匯關(guān)系網(wǎng)絡(luò)背后的復(fù)雜關(guān)系網(wǎng)絡(luò)[5],又稱為關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)。詞頻、中心性和突現(xiàn)值是共現(xiàn)詞網(wǎng)絡(luò)的三個(gè)重要指標(biāo)。詞頻是關(guān)鍵詞在某個(gè)時(shí)期出現(xiàn)的次數(shù),中心性是代表關(guān)鍵詞在共現(xiàn)網(wǎng)絡(luò)中的重要性,突現(xiàn)值是關(guān)鍵詞在某個(gè)時(shí)期波動(dòng)程度的量化,突現(xiàn)值高的關(guān)鍵詞表明在某個(gè)時(shí)期內(nèi)增長(zhǎng)速度快,關(guān)鍵詞詞頻分布和首次出現(xiàn)年份(1999—2017年)見(jiàn)表2。
根據(jù)表2關(guān)鍵詞詞頻分布及首次出現(xiàn)時(shí)間,字符識(shí)別領(lǐng)域近20年的發(fā)展大致可以分為三個(gè)階段:
1) 1999—2004年
表中有10/15個(gè)關(guān)鍵詞出現(xiàn)在這個(gè)時(shí)期且詞頻較高,表明此時(shí)字符識(shí)別領(lǐng)域比較活躍。其中“neural network”“HMM(Hidden Markov Model)”“Online”等,“SVM”“Face recognition”等具有較高突現(xiàn)值,表現(xiàn)出較強(qiáng)的爆發(fā)性,是這個(gè)時(shí)期的研究熱點(diǎn),而且“Face recognition”的出現(xiàn),表示在人臉識(shí)別領(lǐng)域和字符識(shí)別領(lǐng)域出現(xiàn)交叉研究。“Algorithm”“Segmentation”“System”“Feature extraction”頻數(shù)高但突現(xiàn)值為0,說(shuō)明在這個(gè)時(shí)期,主要關(guān)注點(diǎn)仍是傳統(tǒng)基于統(tǒng)計(jì)的識(shí)別方法,并逐漸開(kāi)展應(yīng)用研究。
2) 2005—2012年
這個(gè)時(shí)期字符識(shí)別研究趨于平穩(wěn)。“Genetic algorithm”“Document analysis”“Text detection”,雖然頻數(shù)和中心性都較低,但具有較強(qiáng)突現(xiàn)性,說(shuō)明模型優(yōu)化、文檔分析、文本檢測(cè)是這個(gè)時(shí)期的研究熱點(diǎn)。
3) 2013—2017年
2013年,“RNN(Recurrent Neural Networks)”的頻數(shù)為6,中心性為0.01,突現(xiàn)值為0,說(shuō)明“RNN”并未受到研究者的重視,只是在阿拉伯文字符識(shí)別中有相關(guān)研究,例如:Ulhasan A等人利用BLSTM(Bidirectional Long Short?term Memory)對(duì)Urdu Nastaleeq文字進(jìn)行識(shí)別,取得96.40%的識(shí)別率[6]。2016年的關(guān)鍵詞“CNN (Convolutional Neural Network)”的頻數(shù)雖然只有9次,但突現(xiàn)值是4.03,具有明顯的爆發(fā)性,將CNN用于字符識(shí)別成為這個(gè)時(shí)期的研究熱點(diǎn)。通過(guò)1999年和2017年兩篇關(guān)于神經(jīng)網(wǎng)絡(luò)用于手寫中文字符識(shí)別的文章,發(fā)現(xiàn)1999年ZHEN L和DAI R使用神經(jīng)網(wǎng)絡(luò)在手寫中文字符識(shí)別中獲得92%的識(shí)別率[7],而2017年XIAO X等人使用卷積神經(jīng)網(wǎng)絡(luò)在手寫中文字符識(shí)別中獲得97.27%的識(shí)別率[8]。
2.4 引用文獻(xiàn)分析
引用文獻(xiàn)分析是量化科研影響力和科技評(píng)價(jià)的有效工具[9],其中文獻(xiàn)的被引頻數(shù)是量化一篇文獻(xiàn)在該領(lǐng)域影響力和重要性的核心指標(biāo),是當(dāng)時(shí)研究者關(guān)注點(diǎn)的主要體現(xiàn)。通過(guò)引文分析,可以了解某個(gè)時(shí)期的研究現(xiàn)狀和發(fā)展趨勢(shì),近五年字符識(shí)別領(lǐng)域被引文獻(xiàn)Top 10見(jiàn)表3。
統(tǒng)計(jì)發(fā)現(xiàn),Yu J等人的文章引用次數(shù)遠(yuǎn)超表中其他作者,高達(dá)126次,文章中提出一種高階距離多視圖隨機(jī)學(xué)習(xí)(High?order Distance?based Multiview Stochastic Learning,HD?MSL)方法,通過(guò)超圖(hypergraph)獲取高階距離代替評(píng)估數(shù)據(jù)分布概率矩陣的每對(duì)距離,在圖像分類中取得很好的識(shí)別效果[10]。
此外,表3中文獻(xiàn)都和機(jī)器學(xué)習(xí)有關(guān),主要集中在手寫文字識(shí)別、場(chǎng)景文字識(shí)別以及神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)方法上,例如:Tian S等人在文章中提出兩種特征描述符:Co?HOG(Co?occurrence HOG)和ConvCo?HOG(Convolutional Co?HOG),用于場(chǎng)景字符識(shí)別,并在中文、英文、孟加拉文的場(chǎng)景字符數(shù)據(jù)集中取得優(yōu)秀的識(shí)別率[11];Naz S等人利用滑動(dòng)窗口對(duì)文本行提取一組統(tǒng)計(jì)特征,結(jié)合MDLSTMRNN(Multi?dimensional Long Short Term Memory Recurrent Neural Network)和CTC(Connectionist Temporal Classification)模型,對(duì)Urdu?Nastaliq字符識(shí)別并獲得96.40%的識(shí)別率[12];Zhang X Y等人將方向特征圖譜(directional feature map)和CNN模型相結(jié)合,對(duì)手寫中文字符進(jìn)行識(shí)別并獲得96.95%的識(shí)別率[13]。分析表明目前在字符識(shí)別領(lǐng)域,研究者主要關(guān)注深度學(xué)習(xí)方法在文字識(shí)別領(lǐng)域的應(yīng)用,通過(guò)深度學(xué)習(xí)方法提升復(fù)雜場(chǎng)景下字符識(shí)別的識(shí)別準(zhǔn)確率。
通過(guò)文獻(xiàn)計(jì)量分析方法對(duì)字符識(shí)別領(lǐng)域近20年的1 127篇文獻(xiàn)數(shù)據(jù)進(jìn)行系統(tǒng)科學(xué)的研究分析,揭示了字符識(shí)別領(lǐng)域從1999—2017年的研究現(xiàn)狀和發(fā)展趨勢(shì),如表4所示。
通過(guò)研究分析,字符識(shí)別近20年的發(fā)展,各語(yǔ)種文字識(shí)別已經(jīng)取得豐碩成果,但對(duì)于具有粘連特性文字識(shí)別的研究仍然存在不足,例如:阿拉伯文字符識(shí)別,字符切分仍然是當(dāng)前研究熱點(diǎn)。此外復(fù)雜場(chǎng)景下的字符識(shí)別、文本檢測(cè)以及如何提升字符識(shí)別在實(shí)際應(yīng)用中的識(shí)別準(zhǔn)確率仍然是當(dāng)前主要研究問(wèn)題。
參考文獻(xiàn)
[1] MORI S, SUEN C Y, YAMAMOTO K. Historical review of OCR research and development [J]. Proceedings of the IEEE, 1992, 80(7): 1029?1058.
[2] 陳悅,陳超美,劉則淵,等.CiteSpace知識(shí)圖譜的方法論功能[J].科學(xué)學(xué)研究,2015,33(2):242?253.
CHEN Yue, CHEN Chaomei, LIU Zeyuan, et al. The methodology function of CiteSpace mapping knowledge domains [J]. Studies in science of science, 2015, 33(2): 242?253.
[3] 邱均平.文獻(xiàn)計(jì)量學(xué)[M].北京:科學(xué)技術(shù)文獻(xiàn)出版社,1988.
QIU Junping. Bibliometrics [M]. Beijing: Scientific and Technical Documentation Press, 1988.
[4] 陳悅,劉則淵.悄然興起的科學(xué)知識(shí)圖譜[J].科學(xué)學(xué)研究,2005,23(2):149?154.
CHEN Yue, LIU Zeyuan. The rise of mapping knowledge domain [J]. Studies in science of science, 2005, 23(2): 149?154.
[5] 范少萍,李迎迎,張志強(qiáng).國(guó)內(nèi)外共詞分析研究的文獻(xiàn)計(jì)量分析[J].情報(bào)雜志,2013,32(9):104?109.
FAN Shaoping, LI Yingying, ZHANG Zhiqiang. A bibliometric analysis of the co?word analyses at home and abroad [J]. Journal of intelligence, 2013, 32(9): 104?109.
[6] UL?HASAN A, AHMED S B, RASHID F, et al. Offline printed Urdu Nastaleeq script recognition with bidirectional LSTM networks [C]// Proceedings of 12th International Conference on Document Analysis and Recognition. Washington: IEEE, 2013: 1061?1065.
[7] ZHEN L, DAI R. Off?line handwritten Chinese character recognition with nonlinear pre?classification [J]. Advances in multimodal interfaces, 2000, 1948: 473?479.
[8] XIAO X, JIN L, YANG Y, et al. Building fast and compact convolutional neural networks for offline handwritten Chinese character recognition [J]. Pattern recognition, 2017, 72: 72?81.
[9] 萬(wàn)昊,譚宗穎,魯晶晶,等.2001—2014年引文分析領(lǐng)域發(fā)展演化綜述[J].圖書(shū)情報(bào)工作,2015,59(6):120?136.
WAN Hao, TAN Zongying, LU Jingjing, et al. Summary of the evolution of citation analysis research: 2001?2014 [J]. Library and information service, 2015, 59(6): 120?136.
[10] YU J, RUI Y, TANG Y Y, et al. High?order distance?based multiview stochastic learning in image classification [J]. IEEE transactions on cybernetics, 2014, 44(12): 2431?2442.
[11] TIAN S, BHATTACHARYA U, LU S, et al. Multilingual scene character recognition with co?occurrence of histogram of oriented gradients [J]. Pattern recognition, 2016, 51: 125?134.
[12] NAZ S, UMAR A I, AHMAD R, et al. Offline cursive Urdu?Nastaliq script recognition using multidimensional recurrent neural networks [J]. Neurocomputing, 2016, 177: 228?241.
[13] ZHANG X Y, BENGIO Y, LIU C L. Online and offline handwritten Chinese character recognition: a comprehensive study and new benchmark [J]. Pattern recognition, 2017, 61: 348?360.
[14] 李戰(zhàn)明,楊紅紅.車牌圖像特征提取及改進(jìn)神經(jīng)網(wǎng)絡(luò)的識(shí)別算法研究[J].現(xiàn)代電子技術(shù),2016,39(16):102?104.
LI Zhanming, YANG Honghong. Research on feature extraction of license plate image and recognition algorithm based on improved neural network [J]. Modern electronics technique, 2016, 39(16): 102?104.
[15] CHEN C. CiteSpace II: detecting and visualizing emerging trends and transient patterns in scientific literature [J]. Journal of the American Society for Information Science & Technology, 2006, 57(3): 359?377.