江洋洋,金 伯,張寶昌
1.北京航空航天大學(xué) 圖書館,北京100191
2.北京建筑大學(xué) 國際化發(fā)展研究院,北京100044
3.北京航空航天大學(xué) 自動化科學(xué)與電氣工程學(xué)院,北京100191
4.北京航空航天大學(xué) 人工智能研究院,北京100191
自然語言處理(Natural Language Processing,NLP)是一種以理論為基礎(chǔ)的自動分析和表示人類語言的計算技術(shù)[1]。自然語言處理涉及許多研究和應(yīng)用技術(shù)[2-8],如語言建模、文本分類、機器翻譯、自動問答、自動文摘等。近年來,由于深度學(xué)習(xí)(Deep Learning,DL)擁有強大的特征提取和學(xué)習(xí)能力,已逐漸成為自然語言處理領(lǐng)域中的主流技術(shù)。深度學(xué)習(xí)的概念最早是由Hinton 等人[9]在2006年提出的,是一門用于學(xué)習(xí)和利用“深度”人工神經(jīng)網(wǎng)絡(luò)的機器學(xué)習(xí)技術(shù),主要算法模型包括卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN)和遞歸神經(jīng)網(wǎng)絡(luò)(Recursive Neural Networks,RNN)[10]。作為人工智能領(lǐng)域中最熱門的研究方向,深度學(xué)習(xí)的迅速發(fā)展受到了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注[11]。
自然語言處理被稱為人工智能皇冠上的明珠,代表了人工智能的最終目標[11]。因此如何使用深度學(xué)習(xí)技術(shù)推動自然語言處理領(lǐng)域的發(fā)展是當前的研究熱點和難點。與此同時,國內(nèi)外學(xué)者高度關(guān)注該領(lǐng)域,并展開了大量的研究工作。盡管已有的深度學(xué)習(xí)算法模型如CNN、RNN 等在自然語言處理領(lǐng)域已經(jīng)有較為廣泛的應(yīng)用,但還沒有重大突破??梢哉f深度學(xué)習(xí)在自然語言處理領(lǐng)域(DL-NLP)的研究目前仍處于起步階段,因此圍繞DL-NLP的研究還有很長的路要走,以及一系列的問題需要解決。
以往的文獻綜述往往局限于從自身角度出發(fā)進行定性分析,未能從更加客觀的“第三人”視角進行全面的定量研究?;诖?,本文采用定量與定性相結(jié)合的方法,一方面利用文獻計量學(xué)方法與可視化工具,梳理和分析DL-NLP的主要研究國家、機構(gòu)、主題演變、發(fā)展路徑與發(fā)展趨勢;另一方面閱讀領(lǐng)域內(nèi)的重要文獻,深入挖掘DL-NLP 的研究趨勢、存在的主要問題或發(fā)展瓶頸,并給出相應(yīng)的解決辦法與思路,為DL-NLP 的后續(xù)研究與發(fā)展提供參考與幫助。
科學(xué)知識圖譜能夠通過可視化的手段來呈現(xiàn)科學(xué)知識的結(jié)構(gòu)、規(guī)律和分布情況[12]。目前用于可視化分析的軟件有很多且各具優(yōu)勢,本研究主要采用目前主流的分析軟件VOSviewer[13]和CiteSpace[12]進行可視化繪圖。在本研究中,VOSviewer用來理清文獻信息在復(fù)雜網(wǎng)絡(luò)(如合作機構(gòu)、關(guān)鍵詞等)中的關(guān)系。CiteSpace 的文獻共被引分析功能可以在知識網(wǎng)絡(luò)中捕捉文獻聚類和關(guān)鍵文獻節(jié)點,從而對該領(lǐng)域的發(fā)展路徑和發(fā)展趨勢有更加精確和清晰的認識。
本研究所使用的文獻數(shù)據(jù)來自Web of Science 核心合集中的SCIE(Science Citation Index Expanded)和SSCI(Social Sciences Citation Index)數(shù)據(jù)庫。SCIE 和SSCI 是文獻計量分析中最常用的數(shù)據(jù)庫[14-15]。這兩個數(shù)據(jù)庫比其他數(shù)據(jù)庫涵蓋更多的科學(xué)和權(quán)威出版物??紤]到DL-NLP研究涵蓋許多分支內(nèi)容[7,16-18],為提高查全率,將檢索條件設(shè)置為:TS=(“deep-learn*”O(jiān)R“convolutional neural network*”O(jiān)R“recurrent neural network*”O(jiān)R“CNN*”O(jiān)R“RNN*”O(jiān)R“l(fā)ong short-term memory network*”O(jiān)R“LSTM”O(jiān)R“recursive neural network*”)AND(“natural language process*”O(jiān)R“natural language*”O(jiān)R“NLP”O(jiān)R“part-of-speech tagging”O(jiān)R“POS”O(jiān)R“syntactic analysis”O(jiān)R“sentiment analysis”O(jiān)R“opinion extraction”O(jiān)R“opinion mining”O(jiān)R“sentiment mining”O(jiān)R“subjectivity analysis”O(jiān)R“machine translation”O(jiān)R“text categorization”O(jiān)R“information retrieval”O(jiān)R“information extraction”O(jiān)R“word sense disambiguation”O(jiān)R“syntax analysis”O(jiān)R“text mining”O(jiān)R“l(fā)anguage modeling”O(jiān)R“automatic summarization”O(jiān)R“question answering system*”O(jiān)R“dialogue system”O(jiān)R“text classification”O(jiān)R“automatic speech recognition”O(jiān)R“single turn dialogue”O(jiān)R“named entity recognition”O(jiān)R“word segmentation”O(jiān)R“dependency parsing”O(jiān)R“semantic parsing”O(jiān)R“multi-turn dialogue”O(jiān)R“sentiment classification”),時間跨度定義為2000—2021 年。檢索日期為2021 年4 月13 日。共檢索文獻3 236 篇。對所得文獻進行篩選,剔除新聞、社論、書評等無關(guān)文獻后,得到有效文獻3 054篇。
圖1描繪了DL-NLP文獻的年度發(fā)文分布。自2000年以來,DL-NLP相關(guān)文獻在隨后的十幾年中增長非常緩慢,直到2014 年,特別是2016 年以后,越來越多的學(xué)者開始在這一領(lǐng)域展開研究,文獻數(shù)量呈指數(shù)級增長。
圖1 DL-NLP研究文獻年度分布趨勢Fig.1 Annual distribution trend of DL-NLP research literatures
增速如此之快的原因有很多:首先,2010年后,計算機運算能力的大幅提升支撐了深度學(xué)習(xí)算法的研究。其次,2013 至2014 年,CNN、RNN(循環(huán))、RNN(遞歸)作為深度學(xué)習(xí)最主要的算法模型,開始在自然語言處理領(lǐng)域廣泛使用,并且推動了自然語言處理的快速發(fā)展。在這之后,每年發(fā)表的文獻數(shù)量逐漸增加。2016年,美國人工智能投資開始爆發(fā),收并購案例持續(xù)增加,許多主研自然語言處理的人工智能企業(yè)如Wit.ai、DNNresearch、Maluuba、VocalIQ 等被微軟、蘋果、英特爾、谷歌等巨頭企業(yè)密集收購[19],文獻在這一年之后呈指數(shù)級增長。作為世界最重要的兩大經(jīng)濟體,中美兩國也在這兩年相繼發(fā)布白皮書,推動了中美兩國的DL-NLP研究熱潮與發(fā)展。2017年,在美國人工智能各領(lǐng)域企業(yè)數(shù)量統(tǒng)計中,自然語言處理企業(yè)數(shù)量為252 家,排名第一[20]。從文獻增長曲線和發(fā)展空間可以推斷,2021年DL-NLP研究文獻將會繼續(xù)增加。根據(jù)Markets and Markets 的研究,自然語言處理的市場規(guī)模預(yù)計將從2019 年的102 億美元增長至2024年的264億美元。DL-NLP受到了越來越多的關(guān)注,預(yù)示著這一領(lǐng)域?qū)⒗^續(xù)成為未來的研究熱點。
近年來,DL-NLP 領(lǐng)域的研究發(fā)展迅速。如圖2 所示,越來越多的國家參與了DL-NLP 的研究,其中美國和中國的學(xué)者發(fā)表的文獻數(shù)量最多。
圖2 國家/地區(qū)文獻數(shù)量地理可視化分布圖Fig.2 Geographic visualization distribution map of national/regional literature quantity
表1為發(fā)文數(shù)量排名前10的國家??梢钥闯?,中國和美國在文獻數(shù)量、被引頻次和國際合作數(shù)量上都遠遠高于其他國家。說明中國和美國對該領(lǐng)域的合作態(tài)度最為積極和包容。此外,也要注意到由于中國的文獻數(shù)量大幅超過美國,因此國際合作率遠低于美國。
表1 文獻數(shù)量排名前10的國家Table 1 Top 10 countries in number of documents
共有來自2 574個機構(gòu)的研究人員在DL-NLP領(lǐng)域發(fā)表了文獻,表2 列出了文獻數(shù)量排名前10 的機構(gòu),包括9 個中國機構(gòu)和1 個新加坡機構(gòu)。其中,發(fā)表文獻最多的機構(gòu)是中國科學(xué)院、中國科學(xué)院大學(xué)和哈爾濱工業(yè)大學(xué)。在被引頻次方面,南洋理工大學(xué)、中國科學(xué)院和哈爾濱工業(yè)大學(xué)位列前三,均遠高于其他機構(gòu)。在合作情況方面,中國科學(xué)院無論是合作強度還是合作數(shù)量均遠高于其他機構(gòu)??偟膩碚f,中國科學(xué)院與其他機構(gòu)的合作態(tài)度是最積極的,合作力度也最強。而南洋理工大學(xué)雖然文獻數(shù)量遠不及中國科學(xué)院,但是由于被引頻次最高,在該領(lǐng)域產(chǎn)生了巨大的影響力??梢哉f,這兩個機構(gòu)都為該領(lǐng)域的發(fā)展做出了很大的貢獻。
表2 文獻數(shù)量排名前10的機構(gòu)Table 2 Top 10 institutions in number of documents
圖3顯示了機構(gòu)的合作網(wǎng)絡(luò)(每個機構(gòu)的最少文獻數(shù)量為8)。節(jié)點大小表示文獻的數(shù)量,節(jié)點顏色表示平均發(fā)表年份。值得注意的是,許多機構(gòu)在該領(lǐng)域發(fā)表的論文數(shù)量差距并不明顯??傮w而言,美國、歐洲等國家的機構(gòu)起步較早,中國機構(gòu)在該領(lǐng)域起步較晚。
圖3 機構(gòu)合作網(wǎng)絡(luò)圖Fig.3 Collaborative network of institutions
通過數(shù)據(jù)統(tǒng)計,DL-NLP 的文獻發(fā)表在591 種期刊上,這些期刊主要分布在計算機科學(xué)、工程學(xué)、電子通信、醫(yī)學(xué)、化學(xué)、物理、材料科學(xué)、信息科學(xué)與圖書館科學(xué)、數(shù)學(xué)等學(xué)科。發(fā)表論文最多的前10種期刊如表3所示(多個分區(qū)的取最高分區(qū))。31.925%的文獻(975篇)發(fā)表在前10種期刊上。這些期刊的2020年影響因子在2.679 到8.038 之間,其中,Knowledge Based Systems的影響因子最高,而Applied Sciences Basel最低。由JCR分區(qū)可見,Q1區(qū)的期刊占70%,Q2區(qū)的期刊占30%。通過對期刊分布的分析,有助于找到核心期刊。
表3 發(fā)文量最多的前10種期刊Table 3 Top 10 journals with the largest number of publications
本研究共涉及6 650個關(guān)鍵詞,其中5 402個關(guān)鍵詞僅出現(xiàn)1次,占81.23%。圖4顯示了關(guān)鍵詞的共現(xiàn)網(wǎng)絡(luò)(共現(xiàn)閾值為8)。根據(jù)圖4,深度學(xué)習(xí)、自然語言處理、卷積神經(jīng)網(wǎng)絡(luò)、機器學(xué)習(xí)、循環(huán)神經(jīng)網(wǎng)絡(luò)、情緒分析、長短期記憶網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)和注意力機制為高頻關(guān)鍵詞,這些關(guān)鍵詞的平均發(fā)表年份為2018 至2019 年。此外,特征提取、語義學(xué)、BERT(Bidirectional Encoder Representations from Transformers)、預(yù)測模型、上下文建模、誤碼率、邏輯門、自適應(yīng)模型等可能是DL-NLP 領(lǐng)域的新興研究熱點,平均發(fā)表年份為2020年。
圖4 關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)圖Fig.4 Keywords co-occurrence network map
3.6.1 重點文獻選擇
共被引知識圖譜展示了共被引知識單元的游離與重組,并在重組中形成新的知識單元的過程。CiteSpace通過共被引文獻聚類的形成、積累和擴散,形成了從知識基礎(chǔ)(intellecture base)映射到研究前沿(research front)的概念模型。該過程展示了文獻的引用和共被引足跡[21-22]。通過CiteSpace 繪制科學(xué)美觀的共被引知識圖譜可以準確捕捉關(guān)鍵文獻節(jié)點和引文聚類。知識圖譜的科學(xué)性和效果評價的基礎(chǔ)依賴于網(wǎng)絡(luò)結(jié)構(gòu)和聚類銳度給出的兩個指標,即聚類模塊值(MQ)和平均輪廓值(MS)。一般來說,當MQ>0.3 時,表示聚類結(jié)構(gòu)顯著,當MS>0.7 時,認為聚類是令人信服的[22]。
過多的數(shù)據(jù)量使得圖譜過于復(fù)雜,無法找到關(guān)鍵文獻,因此去除冗余文獻信息十分必要。用CiteSpace 軟件對3 054 篇文獻數(shù)據(jù)反復(fù)繪制知識圖譜,調(diào)整多種數(shù)據(jù)過濾策略,最終將閾值設(shè)置為TopN=20,Year per slice=1,Thresholding(2,2,20;15,15,20;15,15,20),Pathfinder(pruning the merged network),得到MQ 和MS值更理想的圖進行共被引分析。
CiteSpace 通過中介中心性(Centrality)測度和衡量文獻節(jié)點的重要程度。關(guān)鍵文獻節(jié)點(Centrality>0.1)用紫色圈標記(圖5),此類文獻通常出現(xiàn)在關(guān)鍵路徑的轉(zhuǎn)折點,并且對DL-NLP知識領(lǐng)域的發(fā)展起到了積極的作用。此外,盡管一些高頻引文沒有用紫色圈標記,但它們加快了知識領(lǐng)域的延伸和擴展。因此,重點文獻的選擇標準基于高中介中心性和高被引頻次兩點。
3.6.2 DL-NLP研究軌跡
利用CiteSpace提供的聚類生成和標記功能對文獻信息進行聚類,采用對數(shù)極大似然率算法提取聚類標簽詞,將DL-NLP 知識域劃分為10 個知識聚類,如圖5所示(MQ=0.819 9,MS=0.939 2)。此外,為了描繪知識聚類的歷史跨度及其之間的關(guān)系,繪制了時間軸視圖(圖6)。
圖5 共被引網(wǎng)絡(luò)聚類圖Fig.5 Cluster visualization mapping of co-citation network
圖6 共被引網(wǎng)絡(luò)時間軸視圖Fig.6 Timeline visualization mapping of co-citation network
知識基礎(chǔ)和研究前沿之間具有二元時間對偶性(time-variant duality),因此知識基礎(chǔ)對研究前沿的相關(guān)性和歷史演變起著決定性作用。表4列出了10個聚類的參數(shù),按照平均年份整合可以發(fā)現(xiàn),DL-NLP 研究的主題演化路徑依次為2013年(條件隨機場)、2014年(圖像描述、任務(wù)分析)、2015年(視覺情感分析、文本分類、注意力機制、方面級情感分析)、2016年(情感分析、命名實體識別)、2017年(遷移學(xué)習(xí))。
表4 共被引網(wǎng)絡(luò)聚類參數(shù)Table 4 Clustering parameters of co-citation network
通過詳細閱讀隱藏在不同聚類中的重點文獻,DLNLP 研究的發(fā)展路徑和趨勢浮出水面。由表5 可以發(fā)現(xiàn),分布式表示的實現(xiàn)構(gòu)成了DL-NLP 的基礎(chǔ),此后CNN開始應(yīng)用于NLP領(lǐng)域。CNN能夠有效地在上下文中挖掘語義信息,但是無法對遠距離上下文信息進行建模,也無法處理詞匯的順序信息。與CNN 不同,RNN(循環(huán))可以處理詞匯的順序信息,并且具有靈活的計算步驟,可以提供更好的建模能力。由于RNN 容易出現(xiàn)梯度消失的問題,對其進行改進的長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)開始流行。此外,由于計算能力有限導(dǎo)致信息超載問題嚴重,注意力機制作為一種資源分配方案,通過將計算資源分配給更重要的任務(wù),有效緩解了這一問題。由于語言是具有層級結(jié)構(gòu)的,而CNN 和RNN(循環(huán))都將語言視為一個序列。因此,RNN(遞歸)網(wǎng)絡(luò)作為RNN(循環(huán))的推廣,以樹形結(jié)構(gòu)替代序列來表示語言,有效解決了數(shù)據(jù)結(jié)構(gòu)的表征問題。此后,由于一些資源貧乏的語言缺乏充足的語言數(shù)據(jù),深度學(xué)習(xí)模型無法從中學(xué)習(xí)總結(jié)到有用的規(guī)律,預(yù)訓(xùn)練模型被用來解決這一問題[7]。BERT作為一款重要的預(yù)訓(xùn)練模型,采用了Transformer的架構(gòu),一經(jīng)推出便席卷整個自然語言處理領(lǐng)域,在11 種自然語言處理任務(wù)中取得最佳性能,帶來了革命性的進步。此后,以BERT 為基礎(chǔ)的改進模型相繼被提出,大大推動了自然語言處理領(lǐng)域的進步。
通過表5 可以發(fā)現(xiàn),目前DL-NLP 研究側(cè)重網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化改進。雖然深度學(xué)習(xí)模型已經(jīng)廣泛應(yīng)用在自然語言處理任務(wù)中,但是由于存儲空間和計算資源的限制,模型在移動端和嵌入式系統(tǒng)上的存儲與計算仍然面臨巨大挑戰(zhàn)。因此,在保持模型性能不變的基礎(chǔ)上,近一步減少模型的參數(shù)量和復(fù)雜度,即模型輕量化,是DL-NLP的研究趨勢。模型輕量化主要是對算法層的壓縮與加速,包括模型剪枝、結(jié)構(gòu)優(yōu)化設(shè)計、知識蒸餾、量化等。
表5 DL-NLP發(fā)展路徑和趨勢Table 5 Development path and trend of DL-NLP
模型剪枝主要分為權(quán)重剪枝[65-66]、通道剪枝[67-68]、核剪枝[69-71]和神經(jīng)元剪枝[72-73]。Liu 等人[74]通過將ReLU 引入Winograd域,獲得激活函數(shù)(Activations)在Winograd域的動態(tài)稀疏度,通過對權(quán)重進行剪枝,獲得權(quán)重在Winograd 域的靜態(tài)稀疏度,將網(wǎng)絡(luò)剪枝與Winograd 變換相結(jié)合,有效實現(xiàn)了稀疏加速。Gordon等人[75]發(fā)現(xiàn)低水平修剪不會對預(yù)訓(xùn)練損失及遷移至其他任務(wù)產(chǎn)生影響,中水平修剪和高水平修剪會增加預(yù)訓(xùn)練損失,阻止預(yù)訓(xùn)練遷移至其他任務(wù)。因此,在不影響性能的前提下,在預(yù)訓(xùn)練階段僅對BERT 進行單次修剪即可。McCarley等人[76]通過結(jié)構(gòu)化剪枝模型的參數(shù),來壓縮基于BERT和RoBERTa的問答系統(tǒng),具體包括結(jié)合修剪了Transformer 的attention heads 數(shù)量和前饋層的中間寬度,此外減少了嵌入維度。Guo等人[77]提出了一種專為大規(guī)模語言表征模型設(shè)計的修剪方法,即重新加權(quán)近似度修剪(Reweighted Proximal Pruning,RPP)方法。實驗表明,通過RPP修剪后的BERT模型針對多個預(yù)訓(xùn)練任務(wù)和微調(diào)任務(wù)都保持了較高的準確性。
結(jié)構(gòu)優(yōu)化設(shè)計包括矩陣分解、權(quán)值共享、分組卷積[78-81]和分解卷積[82-83]等。目前,自然語言處理領(lǐng)域主要應(yīng)用的是前兩種方法。Vaswani等人[54]使用Transformer架構(gòu)探討了跨層共享參數(shù)的想法。Dehghani 等人[84]表明跨層參數(shù)共享在語言建模等方面比標準Transformer有更好的表現(xiàn)。Hao 等人[85]將參數(shù)共享的Transformer與標準Transformer 相結(jié)合,在多個任務(wù)中證明了該方法的有效性。Hieu 等人[86]提出了神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索(Efficient Neural Architecture Search,ENAS),通過對所有子模型進行權(quán)值共享,避免從零開始訓(xùn)練,從而達到提升速度的目的。Lan等人[63]采用矩陣分解和權(quán)值共享對BERT 模型進行了結(jié)構(gòu)優(yōu)化設(shè)計,提出了ALBERT模型。將嵌入層的參數(shù)量V×H分解為V×E+E×H,壓縮E/H倍。此外,將Transformer的每一層參數(shù)進行共享,參數(shù)量減少為原來的1/N(N=層數(shù))。ALBERT在降低內(nèi)存消耗的同時提高了BERT 的訓(xùn)練速度。Wang 等人[87]提出了一種基于自適應(yīng)矩陣分解的方法,將權(quán)重矩陣分解為兩個小矩陣,并設(shè)置兩個矩陣之間的對角線掩碼,通過在訓(xùn)練過程中使用正則化選擇待移除的權(quán)重。
知識蒸餾的概念最初由Bucilua 等人[88]提出。之后,Hinton 等人[89]提出了知識蒸餾的壓縮框架,通過將復(fù)雜、學(xué)習(xí)能力強的教師模型學(xué)到的特征表示蒸餾出來,傳遞給參數(shù)量小、學(xué)習(xí)能力弱的學(xué)生模型,即將大型教師模型的信息轉(zhuǎn)移到較小的學(xué)生模型中[90]。Zhao 等人[91]引入了一種新的知識蒸餾技術(shù),用于訓(xùn)練具有明顯較小的詞匯量、較低的嵌入和隱藏狀態(tài)維度的學(xué)生模型。通過同時訓(xùn)練教師和學(xué)生模型,獲得學(xué)生模型詞匯的最佳單詞嵌入,結(jié)合共享投影矩陣,將分層知識從教師模型傳遞至學(xué)生模型。Victor等人[92]在預(yù)訓(xùn)練階段使用了知識蒸餾,提出了DistilBERT 模型。DistilBERT 中的教師網(wǎng)絡(luò)與BERT 一致,學(xué)生網(wǎng)絡(luò)去掉了標記嵌入(token embedding)和變量作用域(pooler)。在Transformer 編碼器的基礎(chǔ)上,將網(wǎng)絡(luò)層數(shù)減半,并且使用教師網(wǎng)絡(luò)的參數(shù)對學(xué)生網(wǎng)絡(luò)進行初始化。Jiao 等人[93]提出了針對Transformer結(jié)構(gòu)的知識蒸餾,以及針對預(yù)訓(xùn)練和微調(diào)的知識蒸餾,并提出了TinyBERT 模型。蒸餾過程中的損失函數(shù)包括嵌入層的損失、Transformer 層的注意力損失、隱藏狀態(tài)損失和預(yù)測層損失。其學(xué)生網(wǎng)絡(luò)不僅學(xué)習(xí)教師網(wǎng)絡(luò)的預(yù)測概率,還學(xué)習(xí)嵌入層和Transformer 層的特性。Subhabrata 等人[94]提出了兩種知識蒸餾方式:硬蒸餾(hard distillation)和軟蒸餾(soft distillation)。硬蒸餾是指通過微調(diào)教師模型,對大量無標記數(shù)據(jù)進行標注,用這些補充數(shù)據(jù)對學(xué)生模型進行監(jiān)督學(xué)習(xí)。軟蒸餾是指用教師模型在未標記數(shù)據(jù)上生成的結(jié)果和內(nèi)部表示對學(xué)生模型進行不同蒸餾方式的訓(xùn)練。實驗證明基于RNN 的簡單學(xué)生模型在經(jīng)過硬蒸餾的情況下,可以再次通過軟蒸餾以及教師模型的中間表示法獲得性能提升。
量化是指通過降低權(quán)重所需要的比特數(shù),將神經(jīng)網(wǎng)絡(luò)的浮點運算轉(zhuǎn)換為定點運算[90,95]。Han等人[96]采用了剪枝、量化和哈夫曼編碼的方式,實現(xiàn)了模型的大幅壓縮。Jacob 等人[97]介紹了一種訓(xùn)練線性量化CNN 的方法,該方法使用整數(shù)算法替代浮點算法,在提高速度的同時只需占用很少的內(nèi)存。Ofir等人[98]在BERT模型的微調(diào)階段執(zhí)行了量化感知訓(xùn)練,將全連接層和嵌入層的權(quán)值量化成8 bit,以最小的精度損失將BERT 模型壓縮了80%。此外,生成的量化模型如果針對8位支持硬件進行優(yōu)化,可以加快推理速度。Shen等人[99]采用兩種量化方式來壓縮網(wǎng)絡(luò)。一種是基于Hessian信息的混合精度量化。由于BERT的Hessian行為存在極大不同,該研究提出一種基于最大特征值均值和方差的敏感度度量指標,以實現(xiàn)更好的混合精度量化。另一種是分組量化,將每個矩陣分解為不同的組,每個組擁有獨立的量化范圍和查找表。該方法在緩解準確率下降的同時,不會導(dǎo)致硬件復(fù)雜度顯著上升。
DL-NLP 存在的主要問題或發(fā)展瓶頸包含方法與應(yīng)用兩個層面。下面分別對這兩個層面進行分析,并給出相應(yīng)的解決辦法與思路供大家參考。
3.8.1 方法層面
DL-NLP 在方法層面主要存在五個問題,分別是缺乏理論基礎(chǔ),模型缺乏可解釋性,對大量數(shù)據(jù)的需求,對強大計算資源的依賴,以及難以處理長尾問題。
(1)缺乏理論基礎(chǔ)
目前DL-NLP的理論基礎(chǔ)還不夠完善、深入。由于每種模型本身都有很多超參數(shù),將這些超參數(shù)進行組合,工作量巨大,幾乎不可能單靠實驗來驗證完成。而且沒有理論基礎(chǔ)支撐,就無法證明僅通過實驗驗證的模型是最有效的方法,因此加強DL-NLP的深度思考和理論研究十分必要。由于DL-NLP 的理論基礎(chǔ)包括優(yōu)化理論、線性代數(shù)、數(shù)理統(tǒng)計、概率論、逼近理論等多種學(xué)科內(nèi)容,而主流的DL-NLP 研究人員數(shù)學(xué)基礎(chǔ)較為薄弱,重新學(xué)習(xí)的成本過高。因此,鼓勵數(shù)學(xué)專業(yè)或?qū)Q欣碚摰难芯咳藛T參與DL-NLP的理論研究,加強與這些專業(yè)人士的深入合作是解決這一問題的主要思路。
(2)模型缺乏可解釋性
由于模型缺乏可解釋性或解釋效果不佳,且缺乏統(tǒng)一的評價指標等,直接導(dǎo)致模型的可信度和安全性降低[100]。目前已有的模型解釋性研究,如從模型內(nèi)部進行可視化[101-102],對不同特征進行統(tǒng)計分析[103-108],利用具有可解釋性的模型,如線性模型、決策樹模型等,通過將黑盒的DL-NLP模型遷移到可解釋的模型中,通過可解釋模型內(nèi)部的參數(shù)或者特征統(tǒng)計信息來解釋該黑盒模型[109-110]等可以作為解決思路。此外,建立模型可解釋性的統(tǒng)一評價指標,利用先進認知理論模仿人腦,設(shè)計可解釋的DL-NLP模型[111],建立實時可交互的智能人機系統(tǒng)[112]等也為未來的研究提供了思路。
(3)對大量數(shù)據(jù)的需求
由于深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜且參數(shù)繁多,需要大量的訓(xùn)練數(shù)據(jù)作為支撐,但是絕大多數(shù)自然語言處理任務(wù)沒有足夠的數(shù)據(jù)。雖然遷移學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、弱監(jiān)督學(xué)習(xí)和少樣本學(xué)習(xí)等方法可以減少對數(shù)據(jù)的依賴,但是性能上依然無法與監(jiān)督學(xué)習(xí)相比。目前的解決思路是,相關(guān)政府部門、研究機構(gòu)和企業(yè)等,在保障數(shù)據(jù)質(zhì)量和安全性的基礎(chǔ)上,共享海量的有監(jiān)督數(shù)據(jù)[3]。優(yōu)化深度學(xué)習(xí)算法,將傳統(tǒng)的機器學(xué)習(xí)與深度學(xué)習(xí)方法相結(jié)合是另一種解決思路。此外,通過將自然語言的本質(zhì)抽象化,構(gòu)建高質(zhì)量的大規(guī)模有監(jiān)督數(shù)據(jù)集也是解決的辦法之一。
(4)對強大計算資源的依賴
由于DL-NLP過于依賴計算資源的增加,模型框架越大,需要訓(xùn)練和測試網(wǎng)絡(luò)的矩陣運算就越多,計算和能量消耗巨大。因此DL-NLP對計算能力的巨大需求限制了性能的提高程度。Ryan等人[113]提出了一種基于哈希法(Hashing)的新技術(shù),結(jié)合自適應(yīng)隨機失活(Adaptive Dropout)和最大內(nèi)積搜索(Maximum Inner Product Search,MIPS)的隨機化哈希,大幅減少了訓(xùn)練和測試神經(jīng)網(wǎng)絡(luò)所需的計算量。此外,一些硬件加速器和異構(gòu)計算平臺,如谷歌的張量處理單元(Tensor Processing Unit,TPU)、專用集成電路(Application Specific Integrated Circuit,ASIC)、現(xiàn)場可編程門陣列(Field Programmable Gate Array,F(xiàn)PGA)、阿里云異構(gòu)計算平臺等緩解了計算機的工作量,提升了計算速度。與此同時,利用神經(jīng)體系結(jié)構(gòu)搜索和元學(xué)習(xí)提高計算效率,通過網(wǎng)絡(luò)壓縮和加速技術(shù)降低計算復(fù)雜性[114]也是解決的思路。
(5)難以處理長尾問題
由于低資源型語言沒有大量數(shù)據(jù)可使用,通常存在長尾問題。目前,解決長尾的方法主要有以下幾種:一是通過半監(jiān)督學(xué)習(xí)和自監(jiān)督學(xué)習(xí)提升數(shù)據(jù)的學(xué)習(xí)表現(xiàn)[115]。二是通過對不同類別樣本進行過采樣和欠采樣來平衡數(shù)據(jù)集分布。三是嘗試將標簽集的更多信息放入模型中,從補充信息的角度讓模型有更多的信息可以去學(xué)習(xí)。四是通過忽略稀有類別的梯度,即均衡化損失的方法來解決稀有類別的長尾問題[116]。五是給標簽設(shè)置不一樣的權(quán)值。六是利用專門解決少樣本問題的學(xué)習(xí)方法,如元學(xué)習(xí)、度量學(xué)習(xí)、遷移學(xué)習(xí)等。此外,也可根據(jù)實際情況綜合使用以上策略。
3.8.2 應(yīng)用層面
目前,在自然語言處理的各個任務(wù)中,通常只報告最佳性能,很少提及平均水平、變化情況及最差性能[7]。如果模型產(chǎn)生高度可變的結(jié)果,可信度必然大打折扣。盡管越來越多的隨機參數(shù)減少了性能的變化,但總會存在一些差異,因此未來的改進方向是在研究報告中不僅提及最佳性能,還應(yīng)涵蓋平均性能、變化情況和最差性能等。此外,建立統(tǒng)一量化的模型評價標準,從更加綜合、客觀的角度評估模型的實際性能水平也是未來主要的改進方向。
在文本分類任務(wù)中,雖然許多模型已經(jīng)顯示了其在文本分類中的有效性(如DCNN、TextCNN、VDCNN、DenseNet、TopicRNN、Tree-LSTM、MT-LSTM、OpenGPT、BERT、XLNet、UniLM、FastText、DAN、doc2vec、CapsNets、NSE、GNN、SGC、S2Net、C-LSTM、DSCNN、SAN 等[117]),但仍有許多改進的方向值得探索。比如一些小的噪聲樣本可能導(dǎo)致決策置信度發(fā)生實質(zhì)性變化,甚至導(dǎo)致決策逆轉(zhuǎn),目前無法指示模型像人類一樣從語義層面“理解”文本,需要在實踐中驗證模型的魯棒性和語義表示能力。此外,對于上下文無關(guān)單詞向量的傳輸策略研究仍處于起步階段[118]。
在機器翻譯任務(wù)中,DL-NLP 的研究主要集中在英文和中文上。英語更是絕大多數(shù)任務(wù)的輸入或輸出語言,而這忽略了整個語言系統(tǒng)以及使用這些語言的人[7]。全世界有數(shù)千種語言,其中1 000多萬人使用著至少80種語言,許多語言的復(fù)雜性無法用常用的任何語言來表達。因此,未來主要的改進方向是對這些少數(shù)語種的語言進行收集和數(shù)據(jù)驗證,利用這些數(shù)據(jù)測試DL-NLP模型的性能。
在語言建模任務(wù)中,詞匯表示通常需要通過學(xué)習(xí)大量的語料庫得到,如何通過少量樣本發(fā)現(xiàn)新詞和低頻詞是未來的研究方向。
在信息抽取任務(wù)中,如何更加準確地對多源異構(gòu)信息進行關(guān)系和事件的抽取等是未來值得探索的方向。
在自動文摘任務(wù)中,準確表達要點信息及評估信息單元的重要性也是未來的改進方向。
目前DL-NLP 的絕大多數(shù)研究人員將研究重點都放在開發(fā)新的模型及模型的優(yōu)化組合上,鮮少有人重視模型訓(xùn)練前的理論研究,導(dǎo)致許多深度學(xué)習(xí)模型在自然語言處理任務(wù)中的性能提升非常緩慢。因此將更多的精力放在方法研究上也是未來的改進方向。
由于深度學(xué)習(xí)還無法處理符號數(shù)據(jù),而自然語言處理的大量知識是以符號的形式存在的,如何利用、組合符號數(shù)據(jù)和向量數(shù)據(jù)也是未來的研究方向。
此外,自然語言處理中有許多復(fù)雜的任務(wù),單靠深度學(xué)習(xí)是不容易實現(xiàn)的。例如,多回合對話任務(wù)涉及語言生成、語言理解、對話管理、推理和知識庫訪問等多種技術(shù),超出了深度學(xué)習(xí)的范疇。將深度學(xué)習(xí)和其他技術(shù)(如機器學(xué)習(xí)、強化學(xué)習(xí)等)相結(jié)合[10]可能是未來主要的改進方向。
本研究是對國際有關(guān)DL-NLP 的文獻進行定量與定性的結(jié)合分析。通過繪制科學(xué)的知識圖譜,從國家、機構(gòu)、期刊、關(guān)鍵詞、參考文獻等多個角度展示了DL-NLP的研究現(xiàn)狀。此外,通過深入挖掘領(lǐng)域內(nèi)的重要文獻,總結(jié)了DL-NLP 的發(fā)展趨勢以及存在的主要問題或發(fā)展瓶頸,并給出相應(yīng)的解決辦法與思路。隨著技術(shù)的不斷推進,學(xué)者們需要保持推陳出新的科研態(tài)度,在不斷拓展研究范圍的同時,延伸各領(lǐng)域內(nèi)的研究深度。
最后,對于如何跟蹤DL-NLP研究的相關(guān)成果給出建議,為DL-NLP 的后續(xù)研究與發(fā)展提供啟示與方向:(1)可以基于關(guān)鍵詞進行數(shù)據(jù)檢索與收集。(2)所提供的期刊可以作為追蹤文獻的渠道。(3)通過跟蹤一個機構(gòu)的文獻以及機構(gòu)之間的合作,進一步挖掘信息。(4)通過查看關(guān)鍵詞共現(xiàn)的時間趨勢,關(guān)注新出現(xiàn)的研究熱點。