范齊楠
在北京語言大學唯一的理工類學院——信息科學學院讀書,我的處境總是有些尷尬。每當親戚朋友問我:“你在北語學什么語言???”我只能略帶調侃地回答:“C語言啊(一種編程語言)。”本科時,我在北語讀信息管理與信息系統(tǒng)專業(yè)。在人工智能的浪潮中,自然語言處理有很好的發(fā)展前景,因此我決定在北語繼續(xù)攻讀自然語言處理方向的碩士學位。
語言也能計算
以前我一直認為計算機和語言學是兩個世界的,彼此沒有什么關系,直到接觸到自然語言處理領域,我才逐漸了解到原來語言也是可以計算的,這也是它文理科學生兼收的原因。
如今智能教育非?;馃?,語法改錯便是其中的一個重要功能,具有很大的應用價值。比如留學生在中文寫作時,經(jīng)常會犯一些語法錯誤,市面上一些基于規(guī)則的成熟的語法改錯工具可以幫助他們修改作文。老師也可以在相關軟件的輔助下批改學生作文,以減輕工作負擔。還有我們常用的辦公軟件Word中的字頻統(tǒng)計、拼寫檢查等功能,都是語言計算的應用。
不久前,理科出身的我參加了一個語法改錯評測任務。我和小組成員一起把目前最新的神經(jīng)網(wǎng)絡模型應用到語法改錯任務中,結果發(fā)現(xiàn)只能達到60%左右的準確率,有時候連基礎的單復數(shù)、時態(tài)錯誤都改不對。但無論我們如何改進算法,最終也只能把準確率提升到80%~90%,剩下的10%必須有語言學理論的加持。比較常見的做法是從語言學理論中總結出一些規(guī)則,用計算機可以理解的方式表示出來,作為先驗知識輸入模型。這樣一來,才有可能在改錯速度和質量上都超越人類,甚至達到100%的準確率。
看吧,原來計算機和語言學是這么密不可分!
像語言學家一樣做研究
自然語言處理是一個交叉學科,想要在這個領域做出創(chuàng)新性的工作,就必須有一雙善于發(fā)現(xiàn)的眼睛。這不僅能幫助我們從新的角度思考問題,更可能成為我們的學術靈感源泉。比如我有個師姐注意到“刷微博”“刷朋友圈”中的“刷”字是一種新的用法,于是就想到去研究這個字的語義變化。
在前不久的語料庫語言學課上,老師布置了一個作業(yè),讓我們考察一個詞的搭配情況?!按钆洹痹谡Z料庫語言學中是一個很重要的概念,有一套完整的理論。它要求我們在考察一個詞的搭配時。不僅限于看它的常見搭配詞,還要看它和搭配詞是否構成了一定的語法結構,它的語義及情感是否受到搭配詞的影響等。比如“造成”一詞,本來是中性的,但由于它經(jīng)常跟不好的事情一同使用,使它也帶有了一些消極意義。
要做好這個作業(yè),首先得選到值得探究的詞語。為了尋找靈感,我用了一種笨方法——瀏覽語料庫。一次,我看到了“整整”一詞。除了作為一種語氣上的強調外,我隱隱覺得它還有一些比較特別的語法功能和語義特點。于是,我找出了語料庫中“整整”一詞出現(xiàn)的所有場景。除了“整整紅領巾”偶爾用作動詞之外,它絕大多數(shù)都是跟數(shù)量詞或動詞+數(shù)量詞搭配,來形容數(shù)量之大、動作持續(xù)時間之長,比如“整整30年”“整整忙活了一天”,并且它傳達的消極態(tài)度占多數(shù),比如“‘大屠殺’整整持續(xù)了5個月”。
有意思的是,除了表示“整數(shù)”之外,我發(fā)現(xiàn)與“整整”連用的數(shù)量詞有時還會是零數(shù)、概數(shù)。例如:“班主任和同學們整整聊了三個半小時?!薄盎I備了整整兩個多月時間,百隊杯籃球京滬交流賽終于在上周末成行?!薄皬拇髲d就開始排隊,整整花費了30多分鐘?!?/p>
這到底是怎么回事呢?我找到“整整”在《漢語大詞典》中的義項:“(1)整齊嚴謹貌;(2)工整;(3)達到一個整數(shù)的,十足的?!睘槭裁醋值淅锩嬷挥姓麛?shù)的釋義呢?一心想搞明白緣由的我又翻閱了許多文獻,果然發(fā)現(xiàn)有學者提出,應該針對“整整”不一定完全表示整數(shù)的用法修改釋義,“這種用法雖然在比例上不占優(yōu)勢,卻非常重要”。
看到這里,你還相信我是學計算機的嗎?
年度流行語的誕生
每年的“2018漢語盤點”系列活動,都是由北京語言大學國家語言資源監(jiān)測與研究平面媒體中心共同承擔完成的。作為這個中心的一名研究生,我有幸參與了“2018年度中國媒體十大流行語”和“漢語盤點2018”年度字詞的篩選、發(fā)布工作。
每年的流行詞、流行語層出不窮,要完成中國媒體十大流行語、年度字詞的篩選工作,背后的工作量相當之大。就拿我重點參與的“2018年度中國媒體十大流行語”篩選發(fā)布工作來說吧,考慮到報紙的發(fā)行量、更新周期以及地域分布等因素,我們選擇了人民日報、北京日報、深圳特區(qū)報、齊魯晚報、華西都市報等國內16家影響力和發(fā)行量較大的報紙作為語料庫,收集到從2018年1月1日至11月底的全部報紙文本,語料規(guī)模近5億字次。接下來,我們利用語言信息處理技術,根據(jù)詞語出現(xiàn)的頻次,結合人工后期處理提取、篩選,得出流行語的候選詞表。
在篩選流行語的過程中,我成了語言監(jiān)測這個大任務中的“小監(jiān)測器”,不自覺地跟上了時代的主旋律。許多新詞高度濃縮了一年時間里的中國和世界風貌,盡現(xiàn)時代民生民情。有些跟我們的生活息息相關,比如由滴滴打車引發(fā)關注的“網(wǎng)約車安全”,頻頻出現(xiàn)在電商領域的“大數(shù)據(jù)殺熟”,備受關注的長春“問題疫苗”;有些離我們有些遙遠,比如在西昌衛(wèi)星發(fā)射中心用長征三號乙運載火箭發(fā)射兩顆衛(wèi)星的“一箭雙星”,在上海舉辦十二個國家參與的“進博會”等。一旦出現(xiàn)熱點事件,都會在第一時間引起我們高度關注,像中美貿易摩擦、川航英雄機長、重慶公交車墜江這些我們比較感興趣的話題,我和小伙伴甚至能像時事分析評論員那般,滔滔不絕地說上許久。
由于我們的語料來源于主流媒體,網(wǎng)絡上流行的“安排”“真香”“沖鴨”“涼涼”等詞,因在報紙語料中很少出現(xiàn),最終沒有進入候選詞庫。但作為年輕人,我和團隊小伙伴們養(yǎng)成了一個共同的習慣:每當生活中遇到有意思的詞或熱點事件,大家的第一反應都是“說不定能出流行語!”前段時間,我發(fā)現(xiàn)“隱形貧困人口”一詞突然流行,它是指有些人看起來每天有吃有喝但實際上非常窮。仔細一想,這說的不就是我自己嘛!我當時就想:“這個詞真不錯!做流行語研究的時候一定得跟老師提出來!”
2018年12月6日,經(jīng)過我們初步篩選以及專家評審的“漢語盤點2018”年度候選字詞正式發(fā)布,穩(wěn)、芯、退、戰(zhàn)、改革開放四十年、錦鯉、貿易摩擦等熱門字詞都涵蓋其中。2018年12月15日,“2018年度中國媒體十大流行語”正式發(fā)布。十大流行語為:憲法修正案、命運共同體、進博會、貿易摩擦、錦鯉、板門店宣言、立德樹人、“一箭雙星”、幸福都是奮斗出來的、改革開放四十周年。2018年12月20日,由網(wǎng)友最終票選的“漢語盤點2018”年度字詞發(fā)布:國際年度字“退”;國際年度詞“貿易摩擦”;國內年度字“奮”;國內年度詞“改革開放四十年”。