鄭錦全
(美國伊利諾大學(xué)榮退教授,臺灣師范大學(xué)講座教授)
過去數(shù)十載,學(xué)界使用電腦處理語言資料,提煉出人類語言活動(dòng)的規(guī)律。研究過程中大家面對浩瀚的原始資料,希望能建立更大的語料庫。例如崔希亮、張寶林《全球漢語學(xué)習(xí)者語料庫建設(shè)方案》一文(《語言文字應(yīng)用》,2011年第2期),提出建構(gòu)全球漢語學(xué)習(xí)者中介語大語料庫的設(shè)想。2012年美國科技業(yè)關(guān)注大數(shù)據(jù)資源的流通與應(yīng)用。中文計(jì)算機(jī)學(xué)界的響應(yīng)是如何把大量資料以“詞向量”計(jì)算法列出詞語在中文文本中與臨近詞語出現(xiàn)的關(guān)系,例如2018年騰訊人工智能實(shí)驗(yàn)室發(fā)文《開源大規(guī)模高質(zhì)量中文詞向量數(shù)據(jù),800萬中文詞隨你用》。這樣的大數(shù)據(jù)能給語言學(xué)界提供什么樣的新的研究領(lǐng)域并不明顯。
我個(gè)人近年關(guān)注的問題是如何衡量古今漢語的異同,如果單以詞語的有無來考察,是無法顯示不同時(shí)期或體裁差異的,例如“之”,古今都用,但是古代用“之”的有些語境,現(xiàn)在白話文用“的”。所以古今漢語比較,需要有斷詞的文本,才能探究詞語的屬性。近年我研究所用的語料包括臺灣“中研院”典藏的上古漢語文本,取自秦漢(公元3世紀(jì)以前)的傳世文獻(xiàn),有斷詞和詞類語法標(biāo)記,一共111 000多個(gè)詞;唐詩三百首(公元7世紀(jì)至公元10世紀(jì)),有斷詞,無詞類標(biāo)記,一共有11 000多個(gè)詞;宋詞三百首(公元10世紀(jì)至公元13世紀(jì)),有斷詞,無詞類標(biāo)記,一共有13 000多個(gè)詞;近代漢語文本包括唐五代到清代的作品,例如《水滸傳》、《紅樓夢》等,一共有2 865 000多個(gè)詞;現(xiàn)代漢語語料包括臺灣“中研院”1990年前后分兩期建構(gòu)的文本,有斷詞和詞類標(biāo)記,前后兩期各收大約五百萬個(gè)詞;新聞體裁文本包括北京大學(xué)標(biāo)記的《人民日報(bào)》1998年1月份有斷詞的新聞稿,共約100萬個(gè)詞;臺灣“中央通訊社”1991年至2002年每天發(fā)布的新聞稿,共約950萬個(gè)詞,有斷詞標(biāo)記。
我從這些語料里計(jì)算出詞語使用的特色,區(qū)別特色的關(guān)鍵在于詞語在語流中的使用次數(shù),從出現(xiàn)最高的詞語往下排列出來,以出現(xiàn)頻次最高的15個(gè)詞的累計(jì)頻率百分比作為該文本的詞匯動(dòng)態(tài)屬性。細(xì)節(jié)請見鄭錦全《漢語詞匯動(dòng)態(tài)屬性與變異》一文(《語言學(xué)論叢》,2017年第2期)。通過詞匯動(dòng)態(tài)屬性能清楚地區(qū)別所考查的古代、近代、現(xiàn)代、詩詞和新聞稿的異同和近似值。其中,唐詩三百首(3.431)和宋詞三百首(3.327)的屬性接近(括號中的數(shù)字為詞語屬性數(shù)值,下同);北京大學(xué)標(biāo)記的《人民日報(bào)》1998年1月新聞稿(13.827)和臺灣“中央社”發(fā)布的新聞稿(12.392),這兩個(gè)語料庫的新聞稿屬性接近;現(xiàn)代漢語語料中的后五百萬詞(15.782)、現(xiàn)代漢語一千萬詞(16.705)和現(xiàn)代漢語前五百萬詞(17.712),三者之間的現(xiàn)代漢語屬性接近;近代漢語(18.078)類似現(xiàn)代漢語;上古漢語(28.757)則離現(xiàn)代漢語較遠(yuǎn)。今后應(yīng)該大量擴(kuò)展這些語料成為大數(shù)據(jù),希望能從中看到更多可以深入研究的理念。