語言規(guī)劃是人類有意識改變或調(diào)節(jié)語言的結(jié)構(gòu)與功能的活動,旨在使語言能更好地適配社會需要,助推社會發(fā)展。對語言進行有意識的改變與調(diào)節(jié)不是一件容易的事,一是因為語言與人和社會的關(guān)系密切,否則也不會有“規(guī)劃語言就是規(guī)劃社會”的說法;二是由于語言不僅是交流的工具,也具有文化的容器、身份的象征、知識的載體、社會的鏡子、國家的資源等功能。這些語言功能的重要性會隨社會發(fā)展水平的不同而不同,這就需要規(guī)劃者能順勢而為地規(guī)劃人與語言、社會、國家之間的關(guān)系。
語言規(guī)劃要順勢而為,這個“勢”指的是語言的結(jié)構(gòu)與演化規(guī)律。換言之,語言規(guī)劃要以語言演化規(guī)律為基,不能逆規(guī)律而動。理論上,語言學家應該是這個世界上最懂語言規(guī)律的人。但遺憾的是,主流語言學所發(fā)現(xiàn)的那些脫離人、脫離社會的語言規(guī)律難以被現(xiàn)實世界中需要規(guī)律的領(lǐng)域使用,從而使語言學家在最需要語言學家的數(shù)智時代幾乎完全失去了話語權(quán)。
那么,真正有用的語言規(guī)律該從何而來?又是以何種形式存在的呢?基于數(shù)據(jù)的人工智能技術(shù)不僅為我們提供了前所未有的機器語言智能體驗,也為語言學家走出“花園”,去現(xiàn)實世界發(fā)現(xiàn)真實的語言規(guī)律指明了方向。人工智能幾十年的曲折歷史說明,知識的獲得過程與表征形式也許與我們數(shù)千年來想的不一樣。人工智能時代被稱為“數(shù)智時代”的原因在于,當下的機器智能是通過深度學習的方法從數(shù)據(jù)中涌現(xiàn)出來的。也可以說,語言智能來自于語言文本。如果智能是獲取知識和使用知識解決問題的能力,數(shù)智時代的實踐表明語言知識與語言文本具有密切的關(guān)系。這樣,語言學家需要回到真實的文本上來,回到現(xiàn)實世界中人們使用的語言上來。然而,說起來容易,做起來難。在主流語言學理論失靈和語言學家失語的數(shù)智時代,語言學家該如何重新出發(fā)呢?這種從語言大數(shù)據(jù)中發(fā)現(xiàn)的規(guī)律又如何能為語言規(guī)劃所用呢?
在談到數(shù)智時代的代表性應用ChatGPT 如何能生成更像英語的詞時,有人說:“可以通過強制要求‘詞長’的分布與英文相符來更好地造‘詞’?!边@句話中提到的詞長分布就是一種語言規(guī)律,這種概率性規(guī)律不僅反映了人類語言系統(tǒng)的運作規(guī)律,也有助于機器生成更像人類語言的詞語。幸運的是,計量語言學家們已經(jīng)發(fā)現(xiàn)人類語言的詞長分布大多符合齊普夫–阿列克謝夫分布。如果將詞長與詞的使用頻率聯(lián)系在一起,也會發(fā)現(xiàn)另外一個規(guī)律,即,經(jīng)常使用的詞一般比較短。這兩種關(guān)于詞長的規(guī)律,對語言規(guī)劃均有指導價值:一是在創(chuàng)造新詞時,需要考慮符合詞長分布規(guī)律;二是在制定諸如字母詞的使用規(guī)定時,需要考慮現(xiàn)代漢語中常用詞一般都不會超過3 個音節(jié)這一規(guī)律,如果沒有合適長度的可表達同樣概念的漢語詞,字母詞是難以禁止的。一個正常的人,在日常交流中,誰會拋開簡潔的“CT”,而使用“X 射線電子計算機斷層掃描”呢?語言是人驅(qū)復雜適應系統(tǒng),驅(qū)動語言系統(tǒng)運作的是人,而不是不符合語言規(guī)律的規(guī)定。
數(shù)智時代需要語言學家從“花園”走向“野外”,從真實語料中發(fā)現(xiàn)人每天都在使用但可能沒有意識到的規(guī)律,這些規(guī)律不僅有助于構(gòu)建更好的數(shù)智應用,也可為語言規(guī)劃提供理論支持。只有這樣,我們才能發(fā)揮人的主觀能動性,處理好人與語言、機器、社會、國家之間的關(guān)系,形成面向未來的更高效的人機智能綜合體,助力現(xiàn)代化建設,為人類在數(shù)智時代的發(fā)展貢獻智慧。