陸昊翔
南京農(nóng)業(yè)大學(xué)信息管理學(xué)院 江蘇 南京 210095
人工智能研究領(lǐng)域針對文字領(lǐng)域的自然語言識別,是目前最重要也是最困難的研究點。句法分析和語言結(jié)構(gòu)識別作為自然語言處理的基礎(chǔ)任務(wù),具有重要的研究意義,只有提高對句法語言的分析能力,提高對自然語言的功能結(jié)構(gòu)塊識別效果,才能不斷推動自然語言處理向前發(fā)展。
針對句法分析和結(jié)構(gòu)識別的研究主要分為兩個大方向,第一個是以熊仲儒[1]為代表的理論研究者,研究人員主要注重對句法分析和結(jié)構(gòu)識別的數(shù)據(jù)庫建設(shè)和機器學(xué)習(xí)模型構(gòu)建;第二個是以趙鐵軍[2]為代表的識別及應(yīng)用技術(shù)研究者,該方向的研究主要注重結(jié)合最新的計算機技術(shù)提升句法分析和結(jié)構(gòu)識別效果,并在不同的研究領(lǐng)域提高計算機模型的應(yīng)用,開拓應(yīng)用場景。
在“中國知網(wǎng)”(Cnki)數(shù)據(jù)庫中,以“‘句法分析’OR‘結(jié)構(gòu)識別’”為檢索式,選擇“篇名”為檢索依據(jù),限定檢索時間為“2000年1月1日”至“2021年12月31日”,共得到1014條檢索紀錄。在Wos數(shù)據(jù)庫中,選擇“論文核心庫”,以“‘syntactic analysis’or‘syntactic analysis’”為檢索式,選擇“標(biāo)題”為檢索依據(jù),限定檢索時間為“2000年1月1日”至“2021年12月31日”,選擇檢索“Web of science類別”為“Computer Science”“Linguistics”和“Information science Library science”,共得到484條檢索紀錄。對相關(guān)文獻的內(nèi)容理解的基礎(chǔ)上,分別總結(jié)了句法分析與結(jié)構(gòu)識別的理論構(gòu)建和各類機器學(xué)習(xí)研究方法。
理論研究和相關(guān)數(shù)學(xué)模型的探究是句法分析的發(fā)展基礎(chǔ),專家和學(xué)者在已有基礎(chǔ)理論的基礎(chǔ)上,分析并提出了句法分析理論體系,并借鑒相關(guān)領(lǐng)域數(shù)學(xué)模型構(gòu)建了句法分析模型。
在句法分析和結(jié)構(gòu)識別研究中,數(shù)據(jù)標(biāo)注是所有下游任務(wù)的基礎(chǔ),在基于傳統(tǒng)的機器學(xué)習(xí)數(shù)據(jù)標(biāo)注要求的基礎(chǔ)上,研究人員開展了更加深入的標(biāo)注體系建設(shè)研究,如黨政法,周強[3]結(jié)合國內(nèi)多種數(shù)庫標(biāo)注體系,基于清華漢語樹庫標(biāo)注體系,提出一種將短語結(jié)構(gòu)轉(zhuǎn)換為依存結(jié)構(gòu)的算法,簡化了不同標(biāo)注體系間數(shù)據(jù)轉(zhuǎn)換過程。
在保證數(shù)據(jù)標(biāo)注的有效性前提下,樹庫的建設(shè)成為句法分析和結(jié)構(gòu)識別任務(wù)的重要方式,研究人員的研究重點同時放在了樹庫建設(shè)和樹庫有效利用方向。周惠巍、黃德根[4]等在構(gòu)建了大規(guī)模短語結(jié)構(gòu)數(shù)庫和依存結(jié)構(gòu)數(shù)庫的基礎(chǔ)上,制定了中心子節(jié)點過濾表,可實現(xiàn)短語結(jié)構(gòu)和依存結(jié)構(gòu)間的互相轉(zhuǎn)換,該研究為領(lǐng)域內(nèi)高價值數(shù)據(jù)樹庫建設(shè)做出了重要貢獻。在此基礎(chǔ)上,沈思[5]等在清華漢語樹庫的基礎(chǔ)上,利用時間表達式的內(nèi)外部特征,基于條件隨機場構(gòu)建了時間表達式抽取模型。研究人員在實際任務(wù)中展示了樹庫的高價值性,證明了有效的數(shù)庫資源可以提升研究人員的實驗結(jié)果,為后續(xù)的數(shù)庫建設(shè)提供了實用性參考意見。
句法分析和結(jié)構(gòu)識別是基于語言學(xué)和計算機科學(xué)等其他多學(xué)科知識的復(fù)雜任務(wù),一直以來解決該任務(wù)的核心方法都是基于機器學(xué)習(xí)模型,而此類機器學(xué)習(xí)模型需要根據(jù)特定的數(shù)據(jù)、任務(wù)和要求進行多樣化研究。研究人員通過各自實驗分析,逐步構(gòu)建起具有較強普遍適用性的機器學(xué)習(xí)模型,提高了句法分析和結(jié)構(gòu)識別的效率。
一方面,研究人員的主要研究方向是基于傳統(tǒng)的語言學(xué)或信息學(xué)理論,融合數(shù)學(xué)和計算機理論知識,逐漸在各自的研究任務(wù)中使用機器學(xué)習(xí)模型,驗證模型的有效性,如王厚峰和王波[6]基于語句相似度計算結(jié)果,提出了漢語句法結(jié)構(gòu)自動推導(dǎo)的方法,實現(xiàn)了優(yōu)于以往研究結(jié)果的效果。
另一方面,部分研究人員將探究方向投向了“依存句法”,逐漸基于漢語依存句法研究多模式的分析模型。在這類研究中,部分研究者致力于提出新的語言分析模型,如劉挺[7]等對應(yīng)用句法結(jié)構(gòu)和詞匯化這兩方面進行句法分析建模進行了探索,提出了基于詞匯支配度的漢語依存分析模型。還有些研究人員的實驗重點為改進已有的依存句法分析模型,提出更優(yōu)的解決方案,如段湘煜[8]等通過對比試驗得出決策式依存句法分析模型具有貪婪性這一結(jié)論,并提出基于動作建模的依存分析模型對決策式的貪婪性進行了改善。
在已有樹庫和依存句法結(jié)構(gòu)的基礎(chǔ)上,采用基于規(guī)則和統(tǒng)計的傳統(tǒng)方式對小規(guī)模數(shù)據(jù)進行淺層句法結(jié)構(gòu)識別和總結(jié),構(gòu)建基本的句法分析方式庫。目前國內(nèi)外已有數(shù)量可觀的針對句法分析的方式方法研究,無論是傳統(tǒng)的統(tǒng)計方式還是基于機器學(xué)習(xí)的識別方法,都對自動句法分析器的發(fā)展起到了重要推動作用。
在機器學(xué)習(xí)方法沒有大范圍普及之前,基于傳統(tǒng)的規(guī)則匹配和概率統(tǒng)計分析的方法取得了不錯的發(fā)展和研究。這類方法主要分為兩類,一類是基于概率計算,統(tǒng)計計算字、詞和句子的上下文無關(guān)概率,對句子進行句法結(jié)構(gòu)分析和識別,如李幸[9]等引入標(biāo)點來分割長句并從大型樹庫中提取囊括所有標(biāo)點的語法規(guī)則及其概率分布,提出了一種層次化長句句法分析方法,該方法提高了處理長句的效率并減少了歧義。另一類方法則是基于規(guī)則的匹配模板,在實驗前基于目標(biāo)要求和數(shù)據(jù)情況,制定匹配模板,該模板將用于后續(xù)所有數(shù)據(jù)的匹配識別,如呂雅娟[10]等以中英雙語對齊語料庫為基礎(chǔ),利用英語句法分析結(jié)果提取漢語組塊邊界信息和相關(guān)句法規(guī)則,充分利用了英語句法的研究成果。
計算機硬件技術(shù)和機器學(xué)習(xí)方法不斷成熟后,傳統(tǒng)的規(guī)則匹配和概率計算識別方法漸漸被取代,機器學(xué)習(xí)識別方法效率高且準(zhǔn)確度高,逐漸成為研究人員的重點研究對象,并取得了飛速發(fā)展。在該研究過程中,主要分為三類研究,第一類研究集中在改進原有機器學(xué)習(xí)方法,如針對句法的歧義問題,馮志偉[11]介紹了兩種改進方法:一種是給上下文無關(guān)語法的規(guī)則加上概率,即概率上下文無關(guān)語法;另一種則是概率詞匯化上下文無關(guān)語法,它考慮了中心詞對概率的影響。與此同時,部分研究人員將研究重點放在提出新機器學(xué)習(xí)方法上,如劉世岳、李珩[12]等提出一種在一致性基礎(chǔ)上的co-training選取方法,即將隱馬爾可夫模型和基于轉(zhuǎn)換規(guī)則的分類器組合起來,并在大規(guī)模未標(biāo)注語料上取得了更好的中文組塊識別效果。
第二類研究重點是在多任務(wù)情境下實現(xiàn)機器學(xué)習(xí)方法的句法結(jié)構(gòu)識別,其本質(zhì)是機器學(xué)習(xí)方法的應(yīng)用和使用場景拓展,其中“語義消歧”成為重要研究方向,如徐艷華[13]等針對自動句法分析中的“V+V”結(jié)構(gòu)序列提出了一種消歧辦法,該消歧策略旨在減輕對其他知識的依賴,在實驗中取得了一定消歧效果。
第三類研究則重點考量了“語義”這一核心內(nèi)容,將“語義”作為機器學(xué)習(xí)實驗前的重要步驟,包括淺層句法和語義分析和部分語義功能結(jié)構(gòu)的模板建設(shè)。如王金銓、梁茂成[14]等綜合利用N-gram方法和空間向量模型,對語義相似度計算領(lǐng)域中的語言形式和語言意義兩個進行了深入研究。
將傳統(tǒng)的規(guī)則模板和機器學(xué)習(xí)方法結(jié)合起來,也取得了不錯的識別效果,如朱丹浩[15]等基于漢語介賓結(jié)構(gòu)內(nèi)外部語言特征的分析建立特征模板,結(jié)合條件隨機場模型實現(xiàn)五千套介賓結(jié)構(gòu)的自動識別。
本文通過對2000年至2021年間的Cnki和Wos數(shù)據(jù)庫進行文獻檢索,分別獲得了1014篇和484篇中文、外文期刊文獻,從多角度分析了與句法分析和結(jié)構(gòu)識別相關(guān)的論文數(shù)量情況,通過對高被引論文和核心期刊論文的內(nèi)容進行深層次解讀分析,分別從“句法分析和結(jié)構(gòu)識別的理論構(gòu)建”和“句法分析和結(jié)構(gòu)識別的方法研究”兩個主要方面對該領(lǐng)域研究進行總結(jié)梳理。
對檢索出的共1498篇相關(guān)論文進行總結(jié)分析,共得到以下幾點結(jié)論:①針對數(shù)庫的理論和方法研究已經(jīng)較為成熟,近幾年未出現(xiàn)較為重要的研究成果。②基于機器學(xué)習(xí)的識別方法幾乎全面取代了基于規(guī)則和統(tǒng)計的方式,但結(jié)合傳統(tǒng)匹配模板的機器學(xué)習(xí)方法能夠取得更優(yōu)秀的識別效果。③在機器學(xué)習(xí)模型基礎(chǔ)上的應(yīng)用場景拓展研究越來越多,較為典型的方向包括機器翻譯、共指消解等。
總的來說,基于機器學(xué)習(xí)方式句法分析和結(jié)構(gòu)識別將繼續(xù)是未來重要的研究方向,且研究場景將會更加的實際化、多維化。