孫茂松,劉 挺,姬東鴻,穗志方,趙 軍,張 鈸,吾守爾·斯拉木,俞士汶,朱 軍,李建民,劉 洋,王厚峰,吐爾根·依布拉音,劉 群,劉知遠(yuǎn)
(1. 清華大學(xué) 計(jì)算機(jī)系,北京 100084; 2. 哈爾濱工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,黑龍江 哈爾濱 150001;3. 武漢大學(xué) 計(jì)算機(jī)學(xué)院,湖北 武漢 430072; 4. 北京大學(xué) 信息學(xué)院,北京 100871;5. 中國科學(xué)院自動(dòng)化研究所,北京 100190; 6. 新疆大學(xué) 信息學(xué)院,新疆 烏魯木齊 830046; 7. 中國科學(xué)院計(jì)算技術(shù)研究所,北京 100190)
賦予機(jī)器以人類的語言能力,一直是科學(xué)家們的夢想,其研究幾乎與計(jì)算機(jī)的問世同步,幾個(gè)里程碑式的發(fā)展階段,體現(xiàn)了人類對語言計(jì)算本質(zhì)的認(rèn)識(shí)不斷深化的過程。1947年,美國著名科學(xué)家Weaver在給控制論之父Wiener的一封信中首次提到了利用計(jì)算機(jī)進(jìn)行自然語言翻譯的可能性。1949年,他發(fā)表了《翻譯備忘錄》,正式提出機(jī)器翻譯的思想(同年他還與信息論之父Shannon合著出版了影響深遠(yuǎn)的《通信的數(shù)學(xué)理論》)。受信息論的影響和鼓舞,這個(gè)階段的研究把句子看作是串行的字符流,把機(jī)器翻譯看作是一種機(jī)械地解讀密碼的過程,樂觀地認(rèn)為借助計(jì)算機(jī)的能力,通過詞與詞的對應(yīng)即可實(shí)現(xiàn)機(jī)器翻譯。由于忽視了語言的本質(zhì)——具有結(jié)構(gòu)性,這種嘗試當(dāng)然碰得頭破血流。1966年,美國科學(xué)院語言自動(dòng)處理咨詢委員會(huì)公布了耗時(shí)兩年調(diào)查完成的、語言信息處理史上著名的ALPAC報(bào)告《語言與機(jī)器》,指出機(jī)器翻譯研究遇到了機(jī)器難以逾越的“語義屏障”(Semantic Barrier),全面否定了機(jī)譯的可行性。
此后,學(xué)者們?nèi)找嬲J(rèn)識(shí)到語言結(jié)構(gòu)分析的重要性,沿著兩條主線進(jìn)行了系統(tǒng)深入的探索。一條主線以句法為主,始自20世紀(jì)50年代中期貫穿至80年代末期,經(jīng)典工作包括現(xiàn)代語言學(xué)之父Chomsky的短語結(jié)構(gòu)語法和轉(zhuǎn)換生成語法,以及一批著名學(xué)者對短語結(jié)構(gòu)語法的擴(kuò)展,例如,詞匯功能語法、中心語驅(qū)動(dòng)短語結(jié)構(gòu)語法、廣義短語結(jié)構(gòu)語法、擴(kuò)充轉(zhuǎn)移網(wǎng)絡(luò)等,引入了復(fù)雜特征和詞匯化信息(主要在句法層面,但也在模型中為語義留出了位置)。另一條主線以語義為主,主要集中在20世紀(jì)60年代末期至70年代中期,經(jīng)典工作包括著名語言學(xué)家Fillmore的格語法(后演變?yōu)榭蚣苷Z義學(xué)),著名數(shù)理邏輯學(xué)家Montague的蒙太古語法,著名計(jì)算機(jī)科學(xué)家Schank的概念依存理論,著名人工智能學(xué)家Simmons的語義網(wǎng)絡(luò)理論以及圖靈獎(jiǎng)獲得者、人工智能之父Minsky的框架表示法等。這兩條主線上的研究工作在理論深刻程度上無與倫比,閃爍著人類智慧的熠熠光輝(一般被歸入理性主義的范疇),但也存在嚴(yán)重的不足。主要問題是,根據(jù)語言學(xué)家的思辨和語感人工編制句法規(guī)則集,難以保證對復(fù)雜語言現(xiàn)象的覆蓋能力;而由于受到語義資源、計(jì)算能力等各方面的限制,語義分析僅限于在受限領(lǐng)域研制一些“玩具”系統(tǒng),距離真實(shí)應(yīng)用遙不可及。
有鑒于此,1990年在芬蘭赫爾辛基召開的第13屆國際計(jì)算語言學(xué)大會(huì)適時(shí)地提出了處理大規(guī)模真實(shí)文本的戰(zhàn)略任務(wù),開啟了語言計(jì)算的一個(gè)新的歷史階段——基于大規(guī)模語料庫的統(tǒng)計(jì)自然語言處理(屬于經(jīng)驗(yàn)主義范疇),并在語音識(shí)別、文字識(shí)別、機(jī)器翻譯、信息檢索等領(lǐng)域中取得了巨大進(jìn)展,因此迅速壯大成為引領(lǐng)自然語言處理研究領(lǐng)域至今的主流方法。
耐人尋味的是,統(tǒng)計(jì)自然語言處理的基石是Hartley和Shannon的信息論以及建于其上的“語義無關(guān)”假設(shè)。信息論主要從統(tǒng)計(jì)的角度研究由串行字符流組成的消息的編碼與解碼問題,與語言具有豐富的結(jié)構(gòu)(語義)這一根本性質(zhì)并不契合,卻能夠取得如此驕人的成績,確乎有些令人驚訝。非常重要的因素是: 互聯(lián)網(wǎng)的蓬勃興起為這種模型的充分訓(xùn)練提供了優(yōu)越的語料庫條件?,F(xiàn)今的統(tǒng)計(jì)模型雖然能夠進(jìn)行部分的語言結(jié)構(gòu)分析,但它是在馬爾可夫化的假設(shè)之下,是對語言結(jié)構(gòu)分析的一個(gè)簡化,所以只能部分緩解但不可能完全克服“語義屏障”問題。我們正處于下一輪螺旋式上升周期的開端: 帶統(tǒng)計(jì)的理性主義,或者具深度的經(jīng)驗(yàn)主義,兩大方法范疇?wèi)?yīng)殊途同歸,匯流合進(jìn)。這個(gè)新的歷史進(jìn)程在宏觀上至少呈現(xiàn)出以下三個(gè)重要態(tài)勢。
(1) 從句法分析深入到語義分析。英文語言分析從深度上已超越句法整體上推進(jìn)到了語義層面,從廣度上則擴(kuò)張到了互聯(lián)網(wǎng)規(guī)模。IBM的DeepQA在強(qiáng)大的硬件平臺(tái)和知識(shí)資源的支持下,融合了多種語言分析技術(shù),包括淺層分析、命名實(shí)體識(shí)別及關(guān)聯(lián)、深層分析、語義角色標(biāo)注、邏輯表達(dá)式演算甚至共指消解等。美國華盛頓大學(xué)Etzioni教授在美國國防部先進(jìn)項(xiàng)目研究局(DARPA)支持下于2009年啟動(dòng)的“Machine Reading(機(jī)器閱讀)”重大項(xiàng)目,試圖利用深度語言分析技術(shù)自動(dòng)閱讀整個(gè)互聯(lián)網(wǎng)的文本,得到表示句子語義的邏輯表達(dá)式,從而構(gòu)造互聯(lián)網(wǎng)規(guī)模的知識(shí)庫。
(2) 經(jīng)驗(yàn)主義和理性主義的深度融合。語言計(jì)算往往是一個(gè)欠約束的不適定問題(Ill-posed Problem)[1],其求解迫切需要新的計(jì)算模型與理論。值得慶幸的是,近年來,機(jī)器學(xué)習(xí)理論取得了重大進(jìn)展,為互聯(lián)網(wǎng)條件下的語言結(jié)構(gòu)學(xué)習(xí)及分析打下了理論和方法上的堅(jiān)實(shí)基礎(chǔ)。2011年圖靈獎(jiǎng)獲得者Pearl教授的“基于圖結(jié)構(gòu)的概率推理”正在對自然語言處理、語音處理方向產(chǎn)生重要影響;2011年Science上發(fā)表了題為“心智何來?統(tǒng)計(jì)、結(jié)構(gòu)與抽象”的文章,闡發(fā)了更“類似人”的機(jī)器學(xué)習(xí)系統(tǒng)能在柔性結(jié)構(gòu)表示的層級體系上進(jìn)行概率推理,抽象知識(shí)可引導(dǎo)從稀疏數(shù)據(jù)中進(jìn)行學(xué)習(xí)和推理等[2]。這啟示我們,基于統(tǒng)計(jì)的語言結(jié)構(gòu)學(xué)習(xí)模型和主要以規(guī)則形式存在的語言知識(shí)的融合將是語言計(jì)算很有前途的解決方略。
(3) 互聯(lián)網(wǎng)海量弱標(biāo)注數(shù)據(jù)的利用。互聯(lián)網(wǎng)上海量、繁雜又包含大量噪聲的數(shù)據(jù)給語言計(jì)算帶來了嚴(yán)重困難,但同時(shí)也為解決這些困難創(chuàng)造了新的可能性,為關(guān)鍵技術(shù)的突破帶來了契機(jī)。如互聯(lián)網(wǎng)上廣泛存在的弱標(biāo)注數(shù)據(jù)資源(所謂弱標(biāo)注是指觀測數(shù)據(jù)不能完全表示模型中隱含變量的取值,或標(biāo)注數(shù)據(jù)帶有噪聲,或與直接任務(wù)間接相關(guān)的標(biāo)注數(shù)據(jù)以及無標(biāo)注數(shù)據(jù)等)為語言結(jié)構(gòu)學(xué)習(xí)算法提供了豐富的語言資源,互聯(lián)網(wǎng)上信息的高度冗余性使準(zhǔn)確抽取知識(shí)更加可行。
以下從語言計(jì)算基礎(chǔ)模型、語言分析、語言資源建設(shè)、相關(guān)關(guān)鍵技術(shù)(包括機(jī)器翻譯、文本內(nèi)容理解與問答)等方面,對國內(nèi)外重要?jiǎng)討B(tài)進(jìn)行評述。
不同于線性的信號序列,語言是一種具有復(fù)雜結(jié)構(gòu)的對象,語言的自動(dòng)分析與理解,需要借助于結(jié)構(gòu)化學(xué)習(xí)的理論與方法。
從復(fù)雜數(shù)據(jù)中學(xué)習(xí)具有結(jié)構(gòu)的統(tǒng)計(jì)模型是過去20年統(tǒng)計(jì)機(jī)器學(xué)習(xí)領(lǐng)域的核心問題之一。圖和一階謂詞邏輯是表示結(jié)構(gòu)信息的兩個(gè)有效框架,代表性的工作分別是條件隨機(jī)場和馬爾可夫邏輯網(wǎng)絡(luò)。對于同一類模型,從參數(shù)學(xué)習(xí)的角度又可分為最大似然估計(jì)、最大間隔學(xué)習(xí)以及綜合兩者優(yōu)點(diǎn)的最大熵判別式學(xué)習(xí)等。
在給定充足的完全標(biāo)注樣本的情況下,一般可以學(xué)到魯棒的模型對未知樣本進(jìn)行結(jié)構(gòu)預(yù)測。但是,在訓(xùn)練樣本有限的情況下,學(xué)習(xí)具有復(fù)雜結(jié)構(gòu)的統(tǒng)計(jì)模型是一個(gè)不適定的問題,即能夠充分描述給定數(shù)據(jù)樣本的模型可能有很多個(gè)(有可能是指數(shù)多個(gè))。理論研究表明[2],為了學(xué)習(xí)一個(gè)穩(wěn)定的統(tǒng)計(jì)模型必須借助“額外的信息”或“額外約束”。這里的額外信息可以分為以下兩個(gè)方面: ①先驗(yàn)假設(shè)或先驗(yàn)知識(shí)。主觀地對可行的模型空間及其分布進(jìn)行先驗(yàn)假設(shè)或者盡量引入客觀的先驗(yàn)知識(shí)(語言計(jì)算中如句法、語義、情境等知識(shí))作為約束,代表性的工作包括基于稀疏正則化的概率圖模型學(xué)習(xí)[3]、具有樹狀結(jié)構(gòu)的回歸分析[4]以及基于貝葉斯推理的拉普拉斯最大間隔馬爾可夫網(wǎng)絡(luò)[5]、后驗(yàn)正則化方法[6]等; ②未標(biāo)注數(shù)據(jù)。為了彌補(bǔ)完全標(biāo)注數(shù)據(jù)不足的問題,針對具有結(jié)構(gòu)的統(tǒng)計(jì)模型的半監(jiān)督以及無監(jiān)督學(xué)習(xí)方法得到了廣泛的研究,代表工作包括半監(jiān)督的最大間隔馬爾可夫網(wǎng)絡(luò)[7]、無監(jiān)督的馬爾可夫邏輯網(wǎng)絡(luò)[8]以及無監(jiān)督的語法學(xué)習(xí)[9]等。
面對越來越復(fù)雜的現(xiàn)實(shí)數(shù)據(jù),人們更希望發(fā)現(xiàn)其中隱含的深層結(jié)構(gòu),而不僅僅停留在表面的一兩層。深度學(xué)習(xí)(Deep Learning)致力于從數(shù)據(jù)中自動(dòng)學(xué)習(xí)更一般的從底層特征到高層概念的多層抽象表示,逐漸成為近年來的研究熱點(diǎn)。2006年以后,以Hinton關(guān)于深層信念網(wǎng)絡(luò)DBN[10]的革命性工作為代表,出現(xiàn)了DBN、Autoencoder等學(xué)習(xí)深層結(jié)構(gòu)的算法[10-12]。Hinton等人[13]在Science雜志上提出,可以利用多層受限波爾茲曼機(jī)RBM的Pretraining方法學(xué)習(xí)到很好的低維表示。
深度學(xué)習(xí)已經(jīng)在分類、回歸、維數(shù)約簡等學(xué)習(xí)問題中取得了成功,并被有效應(yīng)用到圖像分析、語音識(shí)別和自然語言處理等眾多具體領(lǐng)域中。例如,在語音識(shí)別中,Seide等人[14]將深層神經(jīng)網(wǎng)絡(luò)DNN與傳統(tǒng)的HMM相結(jié)合,在大規(guī)模語料上的轉(zhuǎn)寫任務(wù)中錯(cuò)誤率較現(xiàn)有方法下降了 30% 左右。又如,Collobert 等人提出了一個(gè)基于深度學(xué)習(xí)的自然語言處理框架[15],可以進(jìn)行POS、Chunking、NER和SRL等多種自然語言處理典型任務(wù)。
互聯(lián)網(wǎng)環(huán)境給基于結(jié)構(gòu)的統(tǒng)計(jì)學(xué)習(xí)既帶來了機(jī)遇也帶來了挑戰(zhàn)。如何有效利用弱標(biāo)注資源,同時(shí)避免噪聲的負(fù)面影響是目前機(jī)器學(xué)習(xí)[16]及不同應(yīng)用領(lǐng)域關(guān)注的熱點(diǎn),這方面的研究剛剛起步。也有一些工作研究如何從極少數(shù)種子樣本(有標(biāo)注的示例)進(jìn)行迭代的、滾雪球似的增量學(xué)習(xí),例如,用于自動(dòng)抽取互聯(lián)網(wǎng)上實(shí)體關(guān)系的StatSnowball系統(tǒng)[17]和美國工程院院士、卡內(nèi)基梅隆大學(xué)Mitchell教授帶領(lǐng)的NELL(Never Ending Language Learning,“永不停止的語言學(xué)習(xí)”)項(xiàng)目。雖然上述工作已經(jīng)取得初步成功,如何自動(dòng)或者半自動(dòng)地從互聯(lián)網(wǎng)上獲取有用信息仍然是一個(gè)難題。
語義和內(nèi)容的結(jié)構(gòu)屬于深層結(jié)構(gòu),語言計(jì)算的實(shí)質(zhì)是深層結(jié)構(gòu)的分析問題。由于自然語言的模糊性、歧義性和復(fù)雜性,人工編制規(guī)則的理性主義方法難以滿足互聯(lián)網(wǎng)環(huán)境下語言深層結(jié)構(gòu)分析的需求。另一方面,由于深層結(jié)構(gòu)包含密集的語義關(guān)聯(lián),在保證計(jì)算深度的條件下,還需要大量實(shí)例以保證統(tǒng)計(jì)模型的學(xué)習(xí)性能,傳統(tǒng)經(jīng)驗(yàn)主義的統(tǒng)計(jì)模型遇到了深刻的困難。而深度學(xué)習(xí)可望把一個(gè)復(fù)雜任務(wù)的學(xué)習(xí)過程分解為多層抽象表示的非線性推導(dǎo)過程,從而保證統(tǒng)計(jì)上的可行性和計(jì)算上的可操作性。深度學(xué)習(xí)在圖像分析和語音識(shí)別等領(lǐng)域已經(jīng)顯示出卓爾不群的優(yōu)越性,在自然語言處理的若干具體任務(wù)中也取得了初步進(jìn)展(雖然其成效并不很顯著)。我們認(rèn)為,深度學(xué)習(xí)的理論與方法對構(gòu)建語言計(jì)算的基礎(chǔ)模型具有重要的啟發(fā)性和參考價(jià)值。
自然語言分析按處理對象由低向高分為: 詞匯分析、句子分析與篇章分析。其中,句子分析占據(jù)核心地位,一直以來都是自然語言處理研究的重點(diǎn)和難點(diǎn)。
句子級的語言分析主要包括句法分析和語義分析,句法分析目前相對成熟,按照所使用文法的不同主要分為短語結(jié)構(gòu)文法和依存文法。由于依存結(jié)構(gòu)相對于短語結(jié)構(gòu)來說,具有形式簡潔、易于標(biāo)注、便于應(yīng)用、時(shí)間復(fù)雜度低等優(yōu)點(diǎn),因此逐漸受到更多的重視。語義分析目前主要采用語義角色標(biāo)注的形式,它標(biāo)注句子中主要?jiǎng)釉~的語義角色。CoNLL 2009年組織了一次7國語言句法分析和語義角色標(biāo)注的聯(lián)合任務(wù)評測,句法分析采用依存文法,國內(nèi)外20多家單位參與了這次評測,最終的結(jié)果表明: 英文句法分析準(zhǔn)確率最高93.5%,而中文只有83.3%;英文語義角色標(biāo)注準(zhǔn)確率最高86.2%,而中文為78.6%,中文句法分析和語義角色標(biāo)注比英文低8%~10%。這些工作都需要建立在大規(guī)模的句法語義語料庫的基礎(chǔ)之上,而語料庫的建立需要大量的專家標(biāo)注,因此一些利用弱標(biāo)注知識(shí)的方法也紛紛涌現(xiàn)出來,例如,利用生文本對詞語進(jìn)行聚類自動(dòng)產(chǎn)生詞類標(biāo)簽[18],使用雙語語料產(chǎn)生可信度較高的依存詞對結(jié)構(gòu)[19],以及從海量網(wǎng)絡(luò)資源中挖掘?qū)浞ㄓ袔椭闹R(shí)[20]。
國際上對句子級深度語義分析研究的關(guān)注程度在逐年增加。主要的研究方法包括: 采用同步上下文無關(guān)語法將句子映射成邏輯表示式[21];組合范疇語法(CCG)和lambda邏輯演算相結(jié)合[22];采用依存組合語義樹(DCS)表示句子語義[23];基于無監(jiān)督的方法進(jìn)行語義分析[24]。上述英語語義分析方法的共同特點(diǎn)是依賴于句法分析的結(jié)果。此外,值得注意的是,近年來國際上還進(jìn)一步提出了Parsing the Web(“分析互聯(lián)網(wǎng)”)的理念和任務(wù)。
與詞語、句子等更小的語言單位相比,篇章能夠從宏觀上反映信息的整體結(jié)構(gòu)和主題內(nèi)涵,對于內(nèi)容理解和語言交流具有更直接的作用。因此,在句子分析基礎(chǔ)上進(jìn)一步研究篇章分析,是實(shí)現(xiàn)深度計(jì)算的必要途徑。
共指消解是篇章分析中傳統(tǒng)的研究方向,ACL、COLING、EMNLP、EACL、NAACL等重要的國際會(huì)議都召開過共指消解的專題會(huì)議,ComputationalLinguistics也出版了專輯,先后出現(xiàn)了MUC、ACE等與共指消解相關(guān)的國際評測。初期的共指消解研究以語言學(xué)方法為主,隨后引入機(jī)器學(xué)習(xí)方法,多采用二元分類模型。目前,共指消解逐漸向多資源、跨文檔、海量數(shù)據(jù)統(tǒng)計(jì)的方向發(fā)展,典型的工作如使用世界知識(shí)的共指消解方法[25]。
句間關(guān)系識(shí)別是篇章語義分析的重要組成部分,以美國國家科學(xué)基金會(huì)NSF資助的PDTB(Penn Discourse Tree Bank)項(xiàng)目為代表。該項(xiàng)目的目標(biāo)是通過為句間關(guān)系建模來分析篇章結(jié)構(gòu)、挖掘語義信息。早期的句間關(guān)系識(shí)別以關(guān)聯(lián)詞語為中心[26]。目前,越來越多的研究者提出不依賴關(guān)聯(lián)詞語的新方法[27],例如,核函數(shù)方法被用于引入結(jié)構(gòu)化信息幫助識(shí)別句間關(guān)系,同時(shí)使用事件時(shí)序信息幫助句間關(guān)系識(shí)別。挖掘語義信息來幫助識(shí)別句間關(guān)系,并用它來支持其他任務(wù)[28],是該方向未來的發(fā)展趨勢。
語言知識(shí)資源主要包括句法資源和語義資源。20世紀(jì)50年代以來,句法分析占據(jù)主流地位,相應(yīng)的句法資源的發(fā)展與建設(shè)相對成熟,例如,在英文語言信息處理領(lǐng)域影響較大的美國賓夕法尼亞大學(xué)開發(fā)的英語句法樹庫Upenn Treebank,北京大學(xué)開發(fā)的現(xiàn)代漢語語法信息詞典和大規(guī)模詞性標(biāo)注語料庫,基本滿足了淺層語言分析的需求。然而,對語言進(jìn)行深層分析需要語義知識(shí)資源的支撐。近年來,許多語言學(xué)家、心理語言學(xué)家和計(jì)算語言學(xué)家從不同研究角度出發(fā),組織研制了眾多的語義知識(shí)庫。
認(rèn)知層面的概念、框架、情境等語義信息,在語言層面主要通過詞匯、句子、語篇等語言單位來承載和實(shí)現(xiàn)。
在概念語義方面,以詞匯為單位組織語義信息的典型工作包括WordNet、VerbNet、HowNet、MindNet等。其中,WordNet從認(rèn)知語言學(xué)的角度描述概念。描述信息包括同義詞集合(Synset)及其概念層級關(guān)系,是一種外延式的知識(shí)描述方式。HowNet描述的是概念及概念屬性之間的關(guān)系,是一種內(nèi)涵式的知識(shí)描述方式。VerbNet在對英語動(dòng)詞進(jìn)行分類的基礎(chǔ)上描述了動(dòng)詞的論旨角色、角色的語義選擇限制以及簡單的事件框架信息。美國微軟公司開發(fā)的MindNet是利用句法分析器自動(dòng)分析詞典釋義文本,通過自動(dòng)構(gòu)建的方式而建立。
在框架語義方面,近年來一個(gè)重要進(jìn)展是從謂詞—論元(Predicate-Argument)關(guān)系入手把句法關(guān)系和語義角色描述聯(lián)系起來,形成句法語義鏈接知識(shí)庫。賓州大學(xué)在賓州樹庫基礎(chǔ)上,進(jìn)一步發(fā)展了語義角色標(biāo)注的命題庫(PropBank)[29]和NomBank[30],在句法關(guān)系鏈上添加相應(yīng)的特定謂詞(包括名詞化謂詞)的論元結(jié)構(gòu)。加州大學(xué)伯克利分校的FrameNet計(jì)劃[31]以Fillmore框架語義學(xué)理論為基礎(chǔ),試圖用語義框架對語義(包括詞義、句義和情境義)進(jìn)行系統(tǒng)的描述和解釋。
在情境語義方面,在詞義、句義描寫的基礎(chǔ)上,語義資源建設(shè)又向更高層次語義的描寫發(fā)展,出現(xiàn)了篇章級標(biāo)注語料庫,包括RST-DT[33]、賓州語篇樹庫PDTB等。其中,RST-DT在系統(tǒng)功能理論框架下創(chuàng)建,在賓州語料的基礎(chǔ)上,描述了語篇單位之間的修辭結(jié)構(gòu)關(guān)系。PDTB是目前規(guī)模最大的篇章級標(biāo)注語料庫,其標(biāo)注語料也來源于賓州樹庫,將語篇連接詞看作二元的語篇關(guān)系的謂詞,目標(biāo)是標(biāo)注語篇連接詞以及語篇連接詞所支配的論元。
在多類型、多層面語言資源共存的現(xiàn)狀下,多源異構(gòu)語言知識(shí)資源的融合成為迫切需要解決的問題。OntoNotes[34]在句法結(jié)構(gòu)上,實(shí)現(xiàn)了詞義知識(shí)、指代關(guān)系等語義知識(shí)的標(biāo)注。但目前只是把現(xiàn)存的比較典型的語言資源簡單地連接在一起,包括: 詞匯、句法、篇章級語言資源,還沒有對語言知識(shí)實(shí)現(xiàn)真正的融合。
盡管上述語義資源在描述規(guī)模和深度上都達(dá)到了一定水平,但是對于面向互聯(lián)網(wǎng)深度計(jì)算的目標(biāo),仍存在問題和不足。
得益于互聯(lián)網(wǎng)文本的持續(xù)快速增長,數(shù)據(jù)驅(qū)動(dòng)的統(tǒng)計(jì)方法近年來逐漸成為機(jī)器翻譯領(lǐng)域的研究熱點(diǎn),其發(fā)展趨勢可以歸納為以下兩個(gè)方面。
第一、語言層次持續(xù)加深。統(tǒng)計(jì)機(jī)器翻譯近20年的發(fā)展是一個(gè)沿著機(jī)器翻譯先驅(qū)Vauquois提出的著名的“機(jī)器翻譯金字塔”(Machine Translation Pyramid)從底層不斷向頂層攀爬的過程: 在保持從大規(guī)模真實(shí)文本中自動(dòng)獲取翻譯知識(shí)的同時(shí)不斷加深語言分析的層次。早期的統(tǒng)計(jì)機(jī)器翻譯方法以詞作為翻譯的基本單元,屬于位于機(jī)器翻譯金字塔最底端的直接翻譯方法。本世紀(jì)初,基于短語的方法由于能夠有效地對局部的擇詞和調(diào)序進(jìn)行建模,開始成為統(tǒng)計(jì)機(jī)器翻譯的主流,并在Language Weaver、Google、Microsoft、百度和有道等商用機(jī)器翻譯系統(tǒng)中得到廣泛使用。2005年后,基于句法的方法利用同步語法對語言的層次結(jié)構(gòu)進(jìn)行建模,實(shí)現(xiàn)了機(jī)器翻譯金字塔中句法層次的轉(zhuǎn)換。
盡管統(tǒng)計(jì)機(jī)器翻譯取得了長足的發(fā)展,但是目前仍未達(dá)到語義層次。保證源語言文本和目標(biāo)語言文本的語義相同是機(jī)器翻譯的首要目標(biāo),只有實(shí)現(xiàn)了對語義的分析、轉(zhuǎn)換和生成的統(tǒng)計(jì)建模,并在大規(guī)模真實(shí)數(shù)據(jù)上自動(dòng)獲取語義翻譯知識(shí),統(tǒng)計(jì)機(jī)器翻譯才有可能逼近這一目標(biāo)。雖然美國卡內(nèi)基梅隆大學(xué)、美國羅切斯特大學(xué)、新加坡信息通訊研究院和香港科技大學(xué)的一些學(xué)者嘗試將語義引入統(tǒng)計(jì)機(jī)器翻譯,但是所采用的語義角色標(biāo)注和潛在語義分析層次較淺,無法真正利用深層次的語義知識(shí)來指導(dǎo)翻譯過程[35-37]。更重要的是,這些工作并未建立真正意義上的語義翻譯模型,只是對基于短語的系統(tǒng)的輸出結(jié)果做后處理,或者將語義信息作為基于句法的系統(tǒng)中的特征函數(shù)。
第二、語言種類不斷拓廣。統(tǒng)計(jì)機(jī)器翻譯的研究對象開始從英語、漢語和阿拉伯語等少數(shù)幾種資源豐富的語言向更多的資源匱乏的語言拓廣。2002年,美國國家標(biāo)準(zhǔn)技術(shù)研究院(NIST)開始組織一系列國際機(jī)器翻譯評測,對機(jī)器翻譯的發(fā)展起到了巨大的推動(dòng)作用。出于政治因素的考慮,NIST評測將漢語—英語和阿拉伯語—英語設(shè)為固定評測任務(wù),引導(dǎo)學(xué)術(shù)界將英語、漢語和阿拉伯語作為機(jī)器翻譯的主要研究對象。歐洲的EuroMatrix項(xiàng)目(2006~2009)和EuroMatrixPlus項(xiàng)目(2009~2012)更是試圖將統(tǒng)計(jì)機(jī)器翻譯技術(shù)擴(kuò)展到歐洲所有的語言對(如捷克語、丹麥語、荷蘭語、芬蘭語等),形成一個(gè)巨大的歐洲語言機(jī)器翻譯矩陣。
自動(dòng)問答是自然語言處理、人工智能和信息檢索領(lǐng)域的熱點(diǎn)研究方向之一。它接受用戶用自然語言提出的問題,并返回該問題的答案。華盛頓大學(xué)Etzioni教授2011年在Nature上指出問答系統(tǒng)是互聯(lián)網(wǎng)搜索引擎發(fā)展的方向[39]。
問答系統(tǒng)的發(fā)展經(jīng)歷了幾個(gè)階段。20世紀(jì)60到80年代隨著人工智能技術(shù)的發(fā)展,基于知識(shí)推理的問答系統(tǒng)在有限領(lǐng)域獲得成功,例如,MIT開發(fā)的數(shù)學(xué)符號運(yùn)算系統(tǒng)MACSYMA;20世紀(jì)90年代到本世紀(jì)初期,隨著大規(guī)模語料庫的建立和互聯(lián)網(wǎng)的發(fā)展,自然語言處理、信息檢索、信息抽取、人工智能、機(jī)器學(xué)習(xí)等多種技術(shù)相互融合,形成了一種新的問答技術(shù)—問答式檢索技術(shù),并在TREC、TAC、CLEF等評測計(jì)劃的推動(dòng)下得到迅速發(fā)展,例如,MIT開發(fā)的Start、Umass開發(fā)的QuASM以及Microsoft開發(fā)的Encarta等。但是,由于受限于自然語言處理和人工智能技術(shù)的水平,問答式檢索系統(tǒng)只能較好地回答一些相對簡單的事實(shí)性、列表性和定義性提問,離用戶更廣泛的真實(shí)信息需求存在巨大的差距,這極大地限制了自動(dòng)問答系統(tǒng)的實(shí)用性。近年來,隨著多層次自然語言處理技術(shù)的不斷融入,問答系統(tǒng)向深層次發(fā)展。2008年微軟以1億美元收購了語義搜索引擎Powerset,其核心是基于自然語言處理技術(shù)的問答系統(tǒng)。2011年,IBM基于深層問答技術(shù)DeepQA “沃森”系統(tǒng)再一次在具有歷史意義的“人機(jī)大戰(zhàn)”中戰(zhàn)勝人類;之后,蘋果公司在Wolfram Alpha知識(shí)計(jì)算引擎之上推出了智能生活助手Siri系統(tǒng)。以上事件成為問答系統(tǒng)發(fā)展的重要里程碑。
實(shí)現(xiàn)網(wǎng)絡(luò)環(huán)境下的深度問答這一目標(biāo),需要文本內(nèi)容理解技術(shù)的支撐。文本內(nèi)容理解最理想的途徑是對文本中每個(gè)句子所包含的語義內(nèi)容自動(dòng)地進(jìn)行形式化描述(例如,表示為謂詞邏輯表達(dá)式),然后融合這些語義內(nèi)容并在大規(guī)模知識(shí)系統(tǒng)中進(jìn)行推演得到新的知識(shí)或事實(shí),從而實(shí)現(xiàn)對文本內(nèi)容全面、深入的理解。要達(dá)到這個(gè)“理想”境界,無疑極具難度,還有一段較為漫長的路要走。
為了降低文本內(nèi)容理解的難度,一個(gè)替代的方法是文本內(nèi)容抽取。文本內(nèi)容抽取的任務(wù)是: 從自然語言文本中抽取指定類型的實(shí)體、關(guān)系、事件等事實(shí)信息,并形成結(jié)構(gòu)化數(shù)據(jù)輸出。從20世紀(jì)80年代開始,在MUC、ACE、TAC等評測會(huì)議的大力推動(dòng)下,文本內(nèi)容抽取技術(shù)的研究得到蓬勃發(fā)展。但是,傳統(tǒng)內(nèi)容抽取評測任務(wù)是面向限定領(lǐng)域文本的、限定類別實(shí)體、關(guān)系和事件的抽取。近年來,為了適應(yīng)互聯(lián)網(wǎng)實(shí)際應(yīng)用的需求,人們開始以較大的熱情關(guān)注開放域內(nèi)容抽取技術(shù)[40],其特點(diǎn)在于: ①文本領(lǐng)域開放: 處理的文本是不限定領(lǐng)域的網(wǎng)絡(luò)文本;②內(nèi)容單元類型開放: 所抽取的內(nèi)容單元不限定類型,而是自動(dòng)地從網(wǎng)絡(luò)中挖掘內(nèi)容單元的類型,例如,實(shí)體類型、事件類型和關(guān)系類型等。
目前,文本內(nèi)容抽取大多只能抽取文本中顯式表示的內(nèi)容,對于文本中隱含的內(nèi)容基本無能為力,學(xué)者們于是開始研究文本內(nèi)容推演問題。Schoenmackers在把文本內(nèi)容表示成一階謂詞邏輯的基礎(chǔ)上,利用自動(dòng)習(xí)得的推理規(guī)則在已有知識(shí)庫上進(jìn)行推演,得到新的事實(shí)以滿足用戶的知識(shí)需求。實(shí)驗(yàn)顯示,受限于文本內(nèi)容抽取性能的影響,邏輯推理效果一般;同時(shí)由于推理規(guī)則學(xué)習(xí)方法的局限,當(dāng)面對深層推理時(shí)性能尚不能滿足實(shí)際需求[41]。這方面的研究還比較初步。
文本內(nèi)容抽取和內(nèi)容推理技術(shù)日益受到工業(yè)界和學(xué)術(shù)界的高度關(guān)注。例如,Google自2010年收購了FreeBase后一直致力于構(gòu)建相互關(guān)聯(lián)的實(shí)體及其屬性的規(guī)模巨大的“知識(shí)圖譜”。目前這個(gè)知識(shí)圖譜所包含的實(shí)體已數(shù)以億計(jì)。CMU在DARPA、NSF、Google、Yahoo!共同資助下正在開展的研究Read the Web(“閱讀互聯(lián)網(wǎng)”),致力于研發(fā)一個(gè)不停學(xué)習(xí)的計(jì)算機(jī)系統(tǒng)—NELL,不間斷地從互聯(lián)網(wǎng)上抽取和挖掘知識(shí),以構(gòu)建一個(gè)可以支持多種智能信息處理應(yīng)用需求的海量規(guī)模網(wǎng)絡(luò)知識(shí)庫[42]。從2010年系統(tǒng)開始運(yùn)行以來,NELL已經(jīng)收集了超過1 500萬候選事實(shí),其中具有很高可信度的事實(shí)有將近90萬,關(guān)系和類別有810種。
互聯(lián)網(wǎng)環(huán)境的深度問答需要開放域文本內(nèi)容理解技術(shù),分析文本所蘊(yùn)含的實(shí)體、事件及其關(guān)聯(lián)演化關(guān)系等內(nèi)容信息。這涉及到開放域內(nèi)容抽取技術(shù)和內(nèi)容推演技術(shù)。開放域內(nèi)容抽取研究目前大多以實(shí)體為中心,停留在實(shí)體及其關(guān)系抽取的層面上,對事件抽取、事件關(guān)系抽取和事件關(guān)系推演方面的研究才剛剛起步。
如上所述,近年來語言計(jì)算的國際前沿正經(jīng)歷著深刻的變化和拓展,各種重要?jiǎng)討B(tài)如“山陰道上行,山川自相映發(fā),使人應(yīng)接不暇”?!胺治龌ヂ?lián)網(wǎng)”、“閱讀互聯(lián)網(wǎng)”、“永不停止的語言學(xué)習(xí)”、“知識(shí)圖譜”,這些以前對自然語言處理而言難以想象的困難任務(wù),目前都已經(jīng)駛?cè)胙芯康能壍郎狭?。在互?lián)網(wǎng)規(guī)模語言信息處理這個(gè)基本需求的“壓迫”之下,語言計(jì)算研究終于被徹底地“倒逼”出了“象牙塔”而置身于互聯(lián)網(wǎng)這個(gè)復(fù)雜巨系統(tǒng)中,帶著興奮,也無可避免地帶著幾分忐忑和迷惘。顯然,無論是挑戰(zhàn)還是機(jī)遇都是空前的,我們的學(xué)術(shù)研究能力和學(xué)術(shù)組織能力目前都很不適應(yīng),亟需鼎新求變。
《國家中長期科學(xué)和技術(shù)發(fā)展綱要》(2006~2020)中將以自然語言理解為基礎(chǔ)的“以人為中心”信息技術(shù)列為前沿技術(shù)。這是國家重大科技需求的體現(xiàn)。在中文信息處理領(lǐng)域,“分析中文互聯(lián)網(wǎng)”、“閱讀中文互聯(lián)網(wǎng)”、“永不停止的中文語言學(xué)習(xí)”、“中文知識(shí)圖譜”等與英文平行的大規(guī)模深入研究,幾乎都還沒有開展起來。中文的特點(diǎn)所導(dǎo)致的中文信息處理與生俱來的困難性,使得這些任務(wù)更加艱巨。但這種狀況也提示著我們,中文信息處理很可能正處于一個(gè)重大的創(chuàng)新窗口期。我們必須認(rèn)清并瞄準(zhǔn)國際重要前沿,迎難而上,攻堅(jiān)克難,謀求中文信息處理研究產(chǎn)生實(shí)質(zhì)性突破,進(jìn)而占據(jù)中文信息處理技術(shù)的戰(zhàn)略制高點(diǎn)。
致謝
本研究受到教育部哲學(xué)社會(huì)科學(xué)研究重大課題攻關(guān)項(xiàng)目(10JZD0043)和國家自然科學(xué)基金項(xiàng)目(61170196)的支持。本文是以共同作者為主要成員的國家重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃2013年度重要支持方向“互聯(lián)網(wǎng)環(huán)境中文信息處理與深度計(jì)算的基本理論與方法”申請團(tuán)隊(duì)在項(xiàng)目申請時(shí)期集體思考、研討的結(jié)晶。
[1] 張鈸,自然語言處理的計(jì)算模型[J]. 中文信息學(xué)報(bào),2007,21(3): 3-7.
[2] Tenenbaum J, Kemp C, Griffiths T, et al. How to Grow a Mind: Statistics, Structure, and Abstraction[J]. Science, 2011,(331): 1279-1285.
[3] Zhu J, Lao N, Xing E. Grafting-Light: Fast, Incremental Feature Selection and Structure Learning of Markov Networks[C]//Proceedings of SIGKDD International Conference on Knowledge Discovery and Data Mining, 2010.
[4] Kim S, Xing E. Tree-guided Group Lasso for Multi-task Regression with Structured Sparsity[C]//Proceedings of International Conference on Machine Learning (ICML), 2010.
[5] Zhu J, Xing E, Zhang B. Laplace Maximum Margin Markov Networks[C]//Proceedings of International Conference on Machine Learning (ICML):1256-1263, 2008.
[6] Ganchev K, Gra a J, Gillenwater J, et al. Posterior Regularization for Structured Latent Variable Models[J]. Journal of Machine Learning Research. 2010(11):2001-2049.
[7] Altun Y, Tsochantaridis I, Hofmann T. Hidden Markov Support Vector Machines[C]//Proceedings of International Conference on Machine Learning (ICML), 2003.
[8] Poon H, Domingos P. Unsupervised Ontology Induction from Text[C]//Proceedings of the Annual Meeting of the Association for Computational Linguistics (ACL), 2010.
[9] Cohen S, Smith N. Covariance in Unsupervised Learning of Probabilistic Grammars[J]. Journal of Machine Learning Research, 2010(11):3017-3051.
[10] Hinton G, Osindero S, Teh Y. A Fast Learning Algorithm for Deep Belief Nets[J]. Neural Computation, 2006(18): 1527-1554.
[11] Bengio Y, Lamblin P, Popovici D, et al. Greedy Layer-Wise Training of Deep Networks[C]//Proceedings of Advances in Neural Information Processing Systems 19 (NIPS 2006): 153-160, MIT Press, 2006.
[12] Ranzato M A, Poultney C, Chopra S, et al. Efficient Learning of Sparse Representations with an Energy-Based Model[C]//Proceedings of Advances in Neural Information Processing Systems (NIPS 2006), MIT Press, 2007.
[13] Hinton G E, Salakhutdinov R. Reducing the dimensionality of data with neural networks[J]. Science, 2006(313): 504-507.
[14] Seide F, Li G, Yu D. Conversational Speech Transcription Using Context-Dependent Deep Neural Networks[C]//Proceedings of the International Conference on Spoken Language Processing (INTERSPEECH), 2011:437-440.
[15] Collobert R, Weston J, Bottou L, et al. Natural Language Processing (Almost) from Scratch[J]. Journal of Machine Learning Research, 2011(12): 2493-2537.
[16] Raykar V C, Yu S, Zhao L H, et al. Learning from Crowds[J]. Journal of Machine Learning Research, 2010(4):1297-1322.
[17] Zhu J, Nie Z, Liu X, et al. StatSnowball: a Statistical Approach to Extracting Entity Relationships[C]//Proceedings of International Conference on World Wide Web (WWW), 2009: 101-110.
[18] Koo T, Carreras X, Collins M. Simple Semi-supervised Dependency Parsing[C]//Proceedings of the Annual Meeting of the Association for Computational Linguistics (ACL), Columbus, Ohio, June, 2008, 595-603.
[19] Chen W, Kazama J. Bitext Dependency Parsing with Bilingual Subtree Constraints[C]//Proceedings of the Annual Meeting of the Association for Computational Linguistics (ACL), Uppsala, Sweden, 2010, 21-29.
[20] Bansal M, Klein D. Web-Scale Features for Full-Scale Parsing[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies (ACL), Portland, Oregon, USA, 2011, 693-702.
[21] Wong Y, Mooney R. Learning Synchronous Grammars for Semantic Parsing with Lambda Calculus[C]//Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics (ACL), Prague, Czech Republic, 2007(6): 960-967.
[22] Kwiatkowski T, Zettlemoyer L S, Goldwater S, et al. Inducing Probabilistic CCG Grammars from Logical Form with Higher-Order Unification[C]//Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing, Cambridge, MA, October, 2010: 1223-1233.
[23] Liang P, Jordan M I, Klein D. Learning Dependency-Based Compositional Semantics[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies (ACL-HLT), Portland, Oregon, USA, 2011, 590-599.
[24] Poon H, Domingos P. Unsupervised Semantic Parsing[C]//Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing (EMNLP), Singapore, 2009,8: 1-10.
[25] Rahman, V. Ng. Coreference Resolution with World Knowledge[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics (ACL), Human Language Technologies,2011: 814-824.
[26] Lin Z, Kan M, Ng H T. Recognizing Implicit Discourse Relations in the Penn Discourse Treebank[C]//Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing (EMNLP), Singapore, 2009,8: 343-351.
[27] Wang W, Su J, Tan C. Kernel-based Discourse Relation Recognition with Temporal Ordering Information[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics (ACL), Uppsala, Sweden, 2010, 710-719.
[28] Lin Z, Kan M, Ng H T. Automatically Evaluating Text Coherence Using Discourse Relations[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies (ACL), USA, 2011, 997-1006.
[29] Palmer M, Kingsbury P, Gildea D. The Proposition Bank: An Annotated Corpus of Semantic Roles. Computational Linguistics,2005, 31(1): 71-106.
[30] Meyers A. Annotation Guidelines for Nombank—Noun Argument Structure for Propbank. Technical report, New York University. 2007
[31] Baker F, Fillmore J, Lowe B. The Berkeley FrameNet Project[C]//Proceedings of the the Joint Conference of the International Committee on Computational Linguistics and the Association for Computational Linguistics (COLING-ACL). 1998.
[32] Xue N, Palmer M. Annotating Propositions in the Penn Chinese Treebank[C]//Proceedings of the 2nd SIGHAN Workshop on Chinese Language Processing, in conjunction with ACL’03. Sapporo, Japan, 2003.
[33] Mann C, Thompson A. Rhetorical Structure Theory: Towards a Functional Theory of Text Organization[J]. Text, 1998,8(3):243-281.
[34] Pradhan S, Xue N, OntoNotes: the 90% Solution[C]//Proceedings of the 11th Annual Conference of the North American Chapter of the Association for Computational Linguistics (NAACL). Tutorial, 2009.
[35] Wu D, Fung P. Semantic Roles for SMT: A Hybrid Two-Pass Model[C]//Proceedings of the 11th Annual Conference of the North American Chapter of the Association for Computational Linguistics (NAACL), 2009.
[36] Liu D, Gildea D. Semantic Role Features for Machine Translation[C]//Proceedings of the conference of the International Committee on Computational Linguistics (COLING), 2010.
[37] Gao Q, Vogel S. Corpus Expansion for Statistical Machine Translation with Semantic Role Label Substitution Rules[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics (ACL), 2011.
[38] Oflazer K. Statistical Machine Translation into a Morphological Complex Language[C]//Proceedings of the Conference on Intelligent Text Processing and Computational Linguistics (CICLing), 2008.
[39] Etzioni O. Search needs a shake-up[J]. Nature, 2011(476): 25-26.
[40] Etzioni O. Anthony Fader, Janara Christensen. Open Information Extraction: the Second Generation[C]//Proceedings of the International Joint Conference on Artificial Intelligence (IJCAI), 2011.
[41] Schoenmackers S. Inference over the Web[D], Ph.D thesis, Washington University. 2011.
[42] Carlson A, et al. Toward an Architecture for Never-Ending Language Learning[C]//Proceedings of the Twenty-Fourth AAAI Conference on Artificial Intelligence (AAAI), 2010: 1306-1313.