李宇明
(北京語言大學 語言資源高精尖創(chuàng)新中心,北京 100083)
中文信息處理的發(fā)展史只有幾十年,但對于中國語言生活的影響,對于中國社會的推進,卻是巨大的?;仡欀形男畔l(fā)展的歷史,討論語言生活的變化,有利于認識中文信息發(fā)展的規(guī)律并預測其走向,有利于把握語言生活的新狀況并幫助過好語言生活。本文討論三個問題:第一,中文信息處理的進展;第二,語言生活的新時代;第三,語言學與中文信息處理。
科學技術都是由問題驅(qū)動而前的。中文信息處理是在處理漢字、詞語和句子的一系列問題中,步步向前的。
中文信息處理起步于20 世紀七八十年代。一開始是處理書面語,遇到的第一個大問題便是漢字。在解決漢字信息處理時,取得了諸多成就:大規(guī)模統(tǒng)計了漢字使用頻率,總結(jié)出了“漢字效用遞減率(周有光)”,制定了第一個漢字編碼國家標準GB 2312-80。漢字鍵盤輸入的編碼方案“萬馬(碼)奔騰”,漢字自動識別技術、漢字存儲技術及輸出技術迅速發(fā)展。特別是王選教授研發(fā)的漢字激光照排系統(tǒng),使?jié)h字印刷告別了鉛與火的時代。此期,信息檢索也有進步,主題詞表、文獻庫、全文檢索、自動標引、自動文摘等方面都有成績可述。
漢字進入計算機的難題逐步攻克,詞語處理成為亟待解決的問題,其基本任務是自動分詞和詞性標注。漢語書面語,不像英、法、俄、德等語言以詞為單位排列,而是以字為單位排列。信息處理是以詞語為識別單位的,故而需要制定信息處理的分詞規(guī)則、建立分詞詞表、妥善處理表外的“未登錄詞”(基本上是專有名詞和專業(yè)術語)。漢語形態(tài)不發(fā)達,詞類兼類現(xiàn)象較為普遍,需要制定適合信息處理的詞類系統(tǒng)、建立詞類標注規(guī)范、確立詞性標記集。為支持詞語處理,信息處理學界還建立了“語言工程”理念,建設了一些知識庫、語料庫,進行了大規(guī)模的詞頻統(tǒng)計。此期,漢語語音處理技術(特別是語音識別)、機器翻譯、計算機輔助語言教學與測試等也都有進步。中文信息處理技術整體邁入實用化、商業(yè)化階段。
詞語處理進展到一定時期,句處理的任務就緊迫起來。句處理需要進行句法分析和語義分析,還有更多的語用問題。句處理其實就是真實的自然語言處理,對于語言資源的需求也更為急切。為支持句處理工作,一批高質(zhì)量、大容量的大型通用漢語語料庫建立起來,如國家語委、清華大學、北京大學、北京語言大學等都建立了自己的大型語料庫。各類知識庫也先后被開發(fā)出來,如《現(xiàn)代漢語語法信息詞典》《動詞大詞典》、“知網(wǎng)”、《現(xiàn)代漢語語義詞典》《中文概念詞典》《同義詞詞林擴展版》、漢語虛詞知識庫、漢語事件知識庫等等。此期,機器翻譯研究呈現(xiàn)新面貌,在語料庫語言學的指導下,基于實例的翻譯方法和統(tǒng)計翻譯方法得到廣泛運用,網(wǎng)上機器翻譯系統(tǒng)發(fā)展迅速,口語機器翻譯研究取得突破?;ヂ?lián)網(wǎng)的進步和網(wǎng)絡技術的發(fā)展,大大地促進了信息檢索技術的發(fā)展,信息檢索、文本分類、信息抽取、文本摘要等的研究價值也充分顯現(xiàn)出來。計算機學界與語言學界合作緊密,中文信息處理呈現(xiàn)出蓬勃發(fā)展的情景。
2010年前后,中文信息處理掃除諸多中文處理的特殊困難,開始與國際自然語言處理更加同步。此時,“深度學習”“知識圖譜”“大數(shù)據(jù)”等概念流行起來,中文信息處理走上了“數(shù)據(jù)驅(qū)動”之路。詞向量技術帶動著語義分析領域的進展,機器翻譯、信息檢索、人機對話、機器寫作、虛擬主持人、社會計算等領域都有突破性進展,情感分析、機器語言行為等也受到關注。當前,社會對于包括中文信息處理在內(nèi)的人工智能特別關心,國家制定了人工智能發(fā)展規(guī)劃,一批人工智能、語言智能的研究院、學院相繼建立起來。語言信息處理進入一個新的繁榮期。
中文信息處理開展的時間不長,機器的中文智能還比較低下,但的確是“人工智能一小步,人類社會一大步”?;厥走^往,會發(fā)現(xiàn)我們的語言生活已經(jīng)發(fā)生了巨大變化。
過去漢字要用筆書寫,現(xiàn)在主要用鍵盤敲擊?!版I盤時代”使我們常?!疤峁P忘字”,很多人已是手拙字丑,只認識印刷體不認識手寫體。鍵盤輸入,筆畫、筆順已經(jīng)沒有寫字時代那么重要,那么,小學識字教學,是否還要特別強調(diào)“四、國”的第二筆有鉤無鉤?是否還要強調(diào)“萬”的第二筆、“方”的第三筆是寫一撇還是寫橫折鉤?從歷史上看,漢字形體的發(fā)展變化都是由書寫推進的,如篆書演變?yōu)殡`書的“隸變”,隸書演變?yōu)榭瑫摹翱?。那么,以后漢字的形體還會發(fā)生變化嗎?鍵盤時代,帶給人很多寫字的憂慮,帶給人很多關于漢字前景的思考與遐想。
語言總是需要媒介、需要載體的。文字和印刷術的出現(xiàn),使語言在聲波的基礎上又獲得了光波這一新媒介,產(chǎn)生了書面語,有了圖書報刊等平面媒體。廣播、電視的出現(xiàn),使語言又獲得了電波媒介,人類有了有聲媒體?;ヂ?lián)網(wǎng)的發(fā)展為人類構(gòu)筑了一個虛擬空間,產(chǎn)生了網(wǎng)絡媒體。平面媒體、有聲媒體、網(wǎng)絡媒體的迭代融合,便形成了融合媒體。中文信息處理,使我們在網(wǎng)絡時代可以進入融媒體時代。
網(wǎng)絡媒體和融媒體,正在改變著我們的閱讀習慣。碎片化閱讀、行走中閱讀、讀標題、讀圖等所謂的“淺閱讀”成為常態(tài),專心閱讀一篇長文已是“奢侈”之舉、罕見之事。信息檢索主要靠網(wǎng)絡,靠知識庫,紙媒圖書已經(jīng)退居到知識的“橋欄桿”的地位。許多治學者也主要靠數(shù)據(jù)庫查閱文獻,平時的文獻閱讀、素材積累的功夫正在退化。圖書、雜志等信息提供者已經(jīng)不滿足于向用戶被動地提供書目單或內(nèi)容提要,而探索著信息的二次加工和信息的精準投送。融媒體時代,知識的生產(chǎn)、儲載、應用的模式都在悄悄地發(fā)生著變化。
互聯(lián)網(wǎng),特別是移動互聯(lián)網(wǎng),4G及5G互聯(lián)網(wǎng)為人類架構(gòu)了一個“虛擬空間”。而正是因為有了中文信息處理的成果,國人方可在虛擬空間中過上虛擬語言生活。過去的語言交際方式是“人-人”交際,現(xiàn)在多數(shù)是“人-機”交際和“人-機-人”交際,在“人-機”交際和“人-機-人”交際的背后,其實還存在著“機-機”交際。網(wǎng)絡里,人們可以用虛擬身份進行交際,可以利用微信等聊天工具同時在多個群里出現(xiàn),同時扮演不同的交際角色。人類的語言交際方式發(fā)生了重大變化。
人類在現(xiàn)實空間從事的各種活動,都嘗試遷移到虛擬空間中。在這種“空間大挪移”的魔術中,有些活動比在現(xiàn)實空間做得更好,有些則無法遷移,有些則可以在兩個空間中合作進行。凡在虛擬空間做得更好的活動,就可能不在現(xiàn)實空間中進行,比如信件被電子郵件代替了,郵遞員這個職業(yè)消失了。虛擬語言生活在改變著人類的活動方式,增加了許多新行業(yè),也“取締”了不少傳統(tǒng)職業(yè)。
虛擬語言生活十分活躍,新詞語及語言的新用法常在網(wǎng)絡上孕育,再傳播到現(xiàn)實語言生活中。就語言發(fā)展、語言風格等方面來看,現(xiàn)在是虛擬語言生活在引領現(xiàn)實語言生活。網(wǎng)絡媒體成了新詞語、新現(xiàn)象產(chǎn)生的溫床,網(wǎng)民是語言發(fā)展最為重要的力量。對待網(wǎng)絡語言的態(tài)度要與時俱進。
隨著計算機語言智能的提升,計算機可以做的語言工作越來越多,介入人類的語言生活也越來越廣泛、越來越深入。語音輸入、口語與書面語的自動轉(zhuǎn)換、機器翻譯、文獻處理、人機對話、機器寫作等等,帶來了人與機器在語言生活中的深度合作。特別是將來具有語言智能的機器人出現(xiàn),人類將與機器人共處共事,共同進行語言生活。這不是童話故事,而是正在實現(xiàn)的未來。目前,網(wǎng)絡上機器人的寫作已經(jīng)占到15%左右。
在人與機器人的語言合作中,不僅馴化著機器,人類也在馴化機器中改變自己,改變著自己的書寫習慣、閱讀習慣、語言交際習慣甚至是語言思維習慣。這些習慣正在形成一種新文化,這種新文化需要通過教育傳授給社會和未來人,正如文字產(chǎn)生之后要進行掃盲和學校語文教育一樣。更為重要的是,語言智能會為社會各領域帶來發(fā)展“紅利”,也會促進社會勞動力的大轉(zhuǎn)移,從被取締的行業(yè)轉(zhuǎn)移到新興行業(yè)。就個人而言,需注意語言智能的前沿發(fā)展,為自己插上語言智能的翅膀,而不是被機器碾壓。就國家來說,語言智能的發(fā)展已經(jīng)嚴重影響到國家人力資源的分配與開發(fā),需要及時調(diào)整學校的學科設置和課程設置,培養(yǎng)適合于語言智能時代的人才,同時也要及時發(fā)出產(chǎn)業(yè)預警,并通過社會培訓有計劃地進行勞動力轉(zhuǎn)移,防止出現(xiàn)大面積失業(yè)現(xiàn)象。
語言智能的發(fā)展在支撐著一個信息化時代,同時也須思考,語言智能(包括智能機器人)是否會用在危及人類的地方,機器人的智力“無限增長”是否會變得不可控制,而最終把人作為它的奴隸。這也許是“杞人憂天”,但也確實應為語言智能裝上“牛韁繩”“馬籠頭”。這韁繩和籠頭,包括從業(yè)者的自律、科學道德和法律的保障。2018年,北京語言大學開始設立“語言智能與社會發(fā)展高層論壇”,既要促進語言智能的快速發(fā)展,保證社會獲取人工智能的最大紅利,也要應對語言智能發(fā)展可能帶來的倫理學、法學問題。
數(shù)據(jù)驅(qū)動著中文信息處理駛?cè)肟燔嚨?,在許多領域,中文信息處理已經(jīng)走在世界自然語言處理的前列。數(shù)據(jù)驅(qū)動的能量還極其強大,要不失時機地釋放數(shù)據(jù)的能量,推進語言智能的快速發(fā)展,推進語言智能的社會應用。但是,數(shù)據(jù)驅(qū)動的缺陷也是比較明顯的,比如數(shù)據(jù)所包含的知識并不全面,可能具有“偏頗性”;數(shù)據(jù)學習表現(xiàn)的是統(tǒng)計頻率,而不是因果關系,不是客觀規(guī)律;機器從數(shù)據(jù)中學到了什么,人們并不十分清楚,深度學習是一只“灰箱”。有學者預測,數(shù)據(jù)驅(qū)動的發(fā)展也會遇到“天花板”。而規(guī)則是人對事物的認識,對規(guī)律的把握,反映的是因果關系。語言智能的下一個學術發(fā)展周期,應當是數(shù)據(jù)與規(guī)則的“雙輪驅(qū)動”。這規(guī)則可能來自于多個學科,其中一個基礎學科就是語言學,是語言學得到的關于語言及其運用的規(guī)則。
語言學與中文信息處理有過一段超長的“蜜月期”,只是到了語料庫語言學時期,統(tǒng)計方法可以有效解決一些問題時,語言學的“規(guī)則”效力始被質(zhì)疑。到了深度學習的理論與方法流行之后,語言學的規(guī)則仿佛成了“無用之物”。語言學之“無用”源自三個方面:
其一,數(shù)據(jù)效力遮蔽了語言學效力,其實語言智能關于語言的屬性與概念、語言各層級各單位之間的關系、語言與人類社會的關系的認識等,還都來自于語言學的基本知識體系。
其二,語言學的知識表述沒有形式化,是供人看的知識,而不適合于機器閱讀。形式化表述成了語言學知識到達語言智能車間的“最后一公里”。
其三,語言學是以語言結(jié)構(gòu)為學術基點的,主要精力在于語言結(jié)構(gòu)的研究上,而中文信息處理在基本解決了字、詞語的問題進入句處理階段后,就開始了對真實話語的處理,而語言學對話語研究用力不夠,積蓄不多。為了打造語言智能的語言學“規(guī)則之輪”,語言學必須實現(xiàn)“話語轉(zhuǎn)向”,把學術基點轉(zhuǎn)至“話語”。話語是語言的真實存在狀態(tài),本應成為語言學研究的重要對象。
中文信息處理的發(fā)展過程中,語言學起到了重要的支撐作用,包括人才支撐和語言學知識體系的支撐。同時,中文信息處理也得到了一些新的數(shù)據(jù),比如字頻和詞頻;提出了或強調(diào)了一些研究課題,比如詞的識別和詞性的識別、詞語兼類、專有名詞及其簡稱、數(shù)量結(jié)構(gòu)、代詞的指代關系、詞語和句子歧義問題等等;建設了一批語言工程,如各種語料庫、知識庫等,這些資源支持著語言研究的現(xiàn)代化;問世了一批語言信息化產(chǎn)品,如電子詞典、自動翻譯機等,幫助語言學開展社會語言服務。這些新數(shù)據(jù)、研究課題、語言工程、語言信息化產(chǎn)品也在啟發(fā)著語言學,裝備著語言學,提升著語言學的研究能力,推進著語言學的現(xiàn)代化。
中文信息處理取得如此顯著的成就,與國家的語言規(guī)劃具有密切關系。1986年1月召開的全國語言文字工作會議就提出:漢語漢字的信息處理是一門新興的邊緣科學,有廣闊的前景,加強這方面的研究,對經(jīng)濟、文化、科學技術的發(fā)展具有長遠的意義。因此,當前語言文字工作的任務必須包括這項內(nèi)容。之后,又進一步提出了語言文字的“三化”(規(guī)范化、標準化、信息化),漢字整理工作的“四定”(定量、定形、定音、定序),并發(fā)布了信息處理用的多個規(guī)范標準,甚至還成立了“語言文字信息管理司”專司語言文字信息工作。1986年之后,國家語委一直把語言信息化作為重要工作,除了制定語言信息化的工作目標之外,所有工作都會考慮信息化的背景和對信息化的支持,許多語言文字規(guī)范,包括《通用規(guī)范漢字表》,都充分照顧到語言信息化問題。如果沒有國家語言政策的支持,我國的中文信息處理事業(yè),乃至整個國家的信息化事業(yè)都不可能有今天的局面。在語言智能時代,需要什么樣的國家語言規(guī)劃,這是應當繼續(xù)考慮的。多少有點遺憾的是,人們常常忽略國家語言政策、語言規(guī)劃對信息處理發(fā)展做出的重要貢獻。
學科交叉不僅是科學發(fā)展的要求,也是人才培養(yǎng)的要求。培養(yǎng)語言學與自然語言信息處理的交叉人才,是語言智能發(fā)展能夠獲得雙輪驅(qū)動的必要保證,也是促進語言學能夠充分利用現(xiàn)代信息技術、實現(xiàn)話語轉(zhuǎn)向、乘借語言智能而發(fā)展自己的必要保證。而當前,我國語言學人才培養(yǎng)的體制和機制,都不適應新時代的語言生活,不適應語言智能的時代發(fā)展,需要進行改革。
在一些重要的文獻中,已經(jīng)理智地認識到人工智能的發(fā)展,要與神經(jīng)科學、認知科學、量子科學、心理學、數(shù)學、經(jīng)濟學、社會學等相關基礎學科交叉融合,但是往往忽視了語言學,這是“語言意識薄弱”的一種表現(xiàn),也是不利于人工智能事業(yè)發(fā)展的。