田媛
地處“宇宙中心”北京五道口,與清華相鄰不遠(yuǎn),人稱“小聯(lián)合國”的北京語言大學(xué)有兩個王牌專業(yè)。一個是名滿天下的漢語國際教育(俗稱對外漢語教學(xué)),還有一個專業(yè)知道的人不多,因為它是北語這所文科為主的學(xué)校里唯一一個理工專業(yè),該專業(yè)學(xué)術(shù)大拿云集,某些研究領(lǐng)域甚至位列世界前列,它就是隱藏在北語的一座金礦——語言智能與技術(shù)(俗稱計算語言學(xué))。
計算語言學(xué)到底研究啥
北語的計算語言學(xué)開設(shè)于全校唯一理工科學(xué)院信息科學(xué)學(xué)院(簡稱信科)。北語信科的歷史有三十二年了,前身是計算機科學(xué)與技術(shù)系,成立于2000年,再之前,是1987年成立的中國第一個以漢語信息處理為主要研究方向的“語言信息處理研究所”。2014年,北語進(jìn)行了大部制改革,信科在原有的語言信息處理研究所基礎(chǔ)上,成立了另外三個研究所,分別是:大數(shù)據(jù)與語言教學(xué)研究所、語言監(jiān)測與社會計算研究所(國家語言監(jiān)測與研究平面媒體中心)和管理科學(xué)與工程研究所。幾個研究所基本上都與計算語言學(xué)學(xué)科直接相關(guān),分別對語言的教學(xué)、研究和應(yīng)用開展深入的研究。信科的主要任務(wù)是培養(yǎng)外語水平出色,具有信息處理基本素養(yǎng)的通用人才,在信息領(lǐng)域開展一些前沿性的研究。
計算語言學(xué)就是利用計算機對語言進(jìn)行計算處理,比如要提出某個語言現(xiàn)象,若沒有語言數(shù)據(jù)的支持,就不能成為一個語言規(guī)律。而發(fā)現(xiàn)規(guī)律一般有兩種方法:一種基于規(guī)則,如語法專家經(jīng)過研究,發(fā)現(xiàn)語言規(guī)律;另一種基于統(tǒng)計,根據(jù)大規(guī)模數(shù)據(jù)提煉規(guī)則。后一種就是計算語言學(xué)主要做的事。
在這門融合了計算機科學(xué)、語言學(xué)和數(shù)學(xué)的計算語言學(xué)中,計算機科學(xué)是研究工具,語言學(xué)是處理對象,數(shù)學(xué)是建模工具,此外還會用到物理學(xué)等知識。計算語言學(xué),是從字、詞、句、篇章、語音等各個維度去研究語言,比如讓計算機自動評判一個留學(xué)生寫漢字寫得對不對、好不好,這項技術(shù)的核心是數(shù)學(xué)曲線在二維平面的變換;再比如研究日本人說漢語,計算機可以判斷他們說得對不對、準(zhǔn)不準(zhǔn),這項技術(shù)就利用了物理學(xué)中的聲學(xué)理論,通過發(fā)音的波形進(jìn)行判斷。計算語言學(xué)的應(yīng)用還有很多,最常見的比如在拼音輸入法中,有一項功能是“拼寫和語法錯誤”,一旦判定有錯誤嫌疑,系統(tǒng)就會用紅色波浪線劃出。還有讓計算機評判一篇論文寫得好不好,對不對等。
資源優(yōu)勢獨一無二
除了北語,國內(nèi)開展計算語言研究的還有清華大學(xué)、北京大學(xué)、中國科技大學(xué)、哈爾濱工業(yè)大學(xué)、復(fù)旦大學(xué)等名校。每所大學(xué)的研究各有側(cè)重,比如中國科技大學(xué)的科大訊飛主攻語音信息處理,特別是語音識別。語音識別的應(yīng)用也很多,比如語音輸入法,又比如語音考試,在口語考試中,有一種題型是模仿原聲讀句子,計算機會給考生自動評分。傳統(tǒng)牛校的計算語言研究規(guī)模大,相比之下,北語更像是小團(tuán)隊作戰(zhàn),但在某些領(lǐng)域有得天獨厚的優(yōu)勢。
這優(yōu)勢就是在語言資源方面,尤其是搜集外國人的語言資源上面。比如需要收集各國人書寫的漢字樣本做研究,在北語,隨便推開一間教室的門,20位同學(xué)就可能來自20個國家,只要收集每個人的漢字,就是20個國別樣本。目前,約有170多個國家和地區(qū)的學(xué)生在北語學(xué)習(xí),校園里能見到世界各地的人。在北語,研究語言信息處理根本不愁樣本,這是其他高校無法比擬的。
此外,計算語言研究需要的理論知識,北語也有著得天獨厚的條件。在培養(yǎng)漢語國際教學(xué)師資方面,北語是培訓(xùn)漢語國際教學(xué)師資的官方機構(gòu),對漢語國際教學(xué)中的各種教學(xué)研究得非常深入。豐富的學(xué)生資源、專業(yè)的理論積累,都為北語的計算語言學(xué)提供了良好環(huán)境。
專業(yè)教學(xué)各有特色
北語計算語言學(xué)專業(yè)招收本科、碩士和博士。本科時要將基礎(chǔ)數(shù)學(xué)、物理、統(tǒng)計等基礎(chǔ)學(xué)科學(xué)扎實了,這可不簡單。在本科生眼里,高等數(shù)學(xué)、線性代數(shù)、離散數(shù)學(xué)和概率論與數(shù)理統(tǒng)計是“四座大山”。在計算語言學(xué)專業(yè)中,數(shù)學(xué)是基礎(chǔ),所有的語言現(xiàn)象都要對應(yīng)一個語言模型。什么是語言模型?說得簡單點兒就是一個數(shù)學(xué)公式。攻克了“四座大山”,大三大四的學(xué)生就可以選人工智能、自然語言處理等選修課了,還可以參與到學(xué)院老師們的研究項目中。本科生直接申請項目或直接參與科學(xué)研究,這是北語信科的特色。
至于碩士和博士,北語的計算語言學(xué)專業(yè)文理兼收,會針對每個人的專業(yè)特長、興趣點對他們的研究方向進(jìn)行專門定制。多數(shù)碩士博士是理工科出身,他們會編程,但一般不懂語言學(xué),進(jìn)來后要補修《語言學(xué)概論》等語言學(xué)基礎(chǔ)課程。文科背景的研究生則要補數(shù)學(xué)和計算機課程,但這沒有想象中那么痛苦,甚至有幾位文科研究生經(jīng)過一段時間的學(xué)習(xí),成了編程大拿。
北語計算語言學(xué)強調(diào)動手能力,本科生、碩士生和博士生有時會參加同一個研究課題,但是對他們的要求是不同的:本科生做的是基礎(chǔ)工作;研究生則是解決課題中的一兩個具體問題;對于博士生,則必須有三五個完整的創(chuàng)新點,并以此為基礎(chǔ)完成博士論文,這是畢業(yè)的硬性要求。
去向好,招生難
談起同學(xué)們的畢業(yè)去向,北語堅持“專業(yè)+外語”的復(fù)合型人才培養(yǎng)模式。信科大一到大四都開設(shè)英語課,本科生的英語專八考試通過率能達(dá)到70%。選擇就業(yè)的本科生和研究生,除了去外交部、新華社等國家級機構(gòu),以及中國銀行、工商銀行等金融單位從事信息技術(shù)相關(guān)工作外,還有不少畢業(yè)生在IBM、微軟、Google、百度、阿里巴巴、騰訊、新浪等從事軟件開發(fā)、信息管理、技術(shù)服務(wù)工作。
因為做的都是前沿研究,有意深造的同學(xué)也不錯,每年都有50%左右的本科畢業(yè)生赴國內(nèi)外名校讀研,如清華、北大、北航、北郵、牛津、斯坦福、帝國理工、加州伯克利、哥倫比亞、賓夕法尼亞、卡耐基·梅隆、東京大學(xué)等。想讀博也不難,如今,每年都有外國高校請北語計算語言學(xué)的教授推薦博士生候選人。
北語曾邀請第三方機構(gòu)調(diào)查了校友滿意度,各院系中信科校友的滿意度排名第一。不過校友滿意度第一也可能是由于一個令人哭笑不得的原因:沒來信科之前,不少同學(xué)對北語唯一的理工科學(xué)院不了解甚至有怨氣,來了后卻發(fā)現(xiàn)真的很棒,不虛此行。
但畢業(yè)不愁出路的計算語言學(xué),在招生時卻讓學(xué)院操碎了心??佳袝r第一志愿填報北語計算語言學(xué)的,只要能過國家分?jǐn)?shù)線就能被錄取。但每年招的30名碩士研究生,還是有近一半要靠調(diào)劑,調(diào)劑生的平均分?jǐn)?shù)有時候甚至比第一志愿錄取的還要高。
自豪和無奈,是每一位北語信科人都流露出的情感。他們自豪于自己的前沿研究,自豪于自己靈活的本碩博培養(yǎng)方案,自豪于學(xué)生的就業(yè)去向,自豪于畢業(yè)生對學(xué)院的真心熱愛。但是,也無奈于本科生招不滿,研究生靠調(diào)劑的局面。但是金子終會發(fā)光,而北語計算語言學(xué),不僅是金子,還是一座蘊藏著金子的金礦。