孫鴻仁
(紹興文理學(xué)院 外國語學(xué)院,浙江 紹興312000)
詞匯統(tǒng)計分析是對詞匯使用進行量的描述,揭示詞匯的各種統(tǒng)計特性,并可據(jù)此編成各種頻度表或詞頻詞典和常用詞表,這對語言教學(xué)、語言研究和信息處理都有著較高的實用價值。從詞匯研究的角度來看,詞匯統(tǒng)計研究已有很長的歷史了。一般認(rèn)為,近代大規(guī)模詞匯統(tǒng)計始于1898年,德國學(xué)者F.W.Kaeding編制的世界上第一部頻率詞典《德語頻率詞典》[1][2]。大規(guī)模地使用概率和統(tǒng)計方法研究文學(xué)詞匯以1944年英國數(shù)學(xué)家G.U.Yule發(fā)表的“文學(xué)詞語的統(tǒng)計研究”為標(biāo)記。在此之后,1949年,法國學(xué)者R.Michea提出建立“統(tǒng)計詞匯學(xué)”[1]。1965年,德國學(xué)者R.D.Keil把詞頻統(tǒng)計與現(xiàn)代統(tǒng)計學(xué)結(jié)合起來,提出了“詞匯計量學(xué)(lexicometrics)”[3]。
我國語文教學(xué)中有著編選字表的傳統(tǒng)。《千字文》(1000字)、《三字經(jīng)》(1248字)是古代漢語教學(xué)的重要素材。黎錦熙在1922年發(fā)表的《國語基本語詞的統(tǒng)計研究》(《國文學(xué)會叢刊》1卷1號),是現(xiàn)代意義上的字頻統(tǒng)計分析[4]。
解放以后,中央和地方的教育部門陸續(xù)公布了一些基于頻度統(tǒng)計的字表和詞表。其中教育部和國家文字改革委編選這字表或詞表有《常用漢字登記表》(1017字,1950年)、《常用字表》(2000字,1952年)和《普通話三千常用詞表》(3000詞,1962年)。其編寫目的是為了推廣普通話、普及文化知識,編寫識字教材,避免漢語教學(xué)大綱設(shè)計和教材編寫的主觀盲目性,提高教學(xué)效率[2]。
70年代中期以來,隨著計算機處理非數(shù)值信息技術(shù)的日益提高,漢語詞匯統(tǒng)計也逐漸采用人機結(jié)合的辦法,利用計算機進行自動統(tǒng)計分析,提高了統(tǒng)計的效率和規(guī)模。1976年中國“七四八”工程查頻組首次利用計算機對漢字的頻度進行統(tǒng)計,生成《現(xiàn)代漢字綜合使用頻度表》,為中文信息處理的國家標(biāo)準(zhǔn)GB2312-80《信息交換用漢字編碼字符集——基本集》提供了科學(xué)的基礎(chǔ)數(shù)據(jù)[2]。
1982年11月北京航空航天大學(xué)等10個單位承接國家標(biāo)準(zhǔn)局下達的“現(xiàn)代漢語詞頻統(tǒng)計工程”任務(wù)。此后,北航又受中國文字改革委員會的委托,從3億漢字的素材中抽取了1108萬字的樣本進行計算機統(tǒng)計處理,于1985年3月通過了國家鑒定。統(tǒng)計結(jié)果編成《現(xiàn)代漢語用字頻度表》。這是我國規(guī)模最大、分科最多的一次字頻統(tǒng)計工作[5]。1988年,國家語言文字工作委員會在此基礎(chǔ)上制定了《現(xiàn)代漢語常用字表》,選取使用頻度高、學(xué)科分布廣、構(gòu)詞能力強的2500字作為常用字,頻率及使用度次之的1000個字則定為次常用字。
2008年國家語委發(fā)布的《現(xiàn)代漢語常用詞表》,收錄詞語共56,008個。包括單音節(jié)詞3 181個,雙音節(jié)詞語40 351個,三音節(jié)詞語6 459個,四音節(jié)詞語5855個,五音節(jié)和五音節(jié)以上詞語162個[6]。
然而迄今為止,國內(nèi)對作家進行的詞匯統(tǒng)計分析的報道罕見。值得一提的是武漢大學(xué)語言自動處理研究組于1976年用計算機對《駱駝祥子》進行的字頻統(tǒng)計,經(jīng)計算,該書總字?jǐn)?shù)為107306個,單字2413個,這在一定程度上揭示了該小說的用字特點[5]。
魯迅先生一生寫了33篇小說:《吶喊》14篇,《彷徨》11篇,《故事新編》8篇。本次統(tǒng)計選用的是《吶喊》(含“自序”)與《彷徨》,原因有兩點。一是希望分析用語料的選用與《魯迅小說漢英平行語料庫》[7]內(nèi)容同步,更重要的是《故事新編》是魯迅先生在不同時期根據(jù)遠(yuǎn)古神話和歷史傳說寫就,故未包含在本次分析語料之中。在本文,“《魯迅小說》”是指魯迅在《吶喊》和《彷徨》所寫的內(nèi)容。
對比語料采用的是北京語言大學(xué)漢語國際教育技術(shù)研發(fā)中心所提供的《漢語常用詞詞頻表》[8](簡稱為“《北語詞表》”)和《漢字字頻詞典》[9](簡稱為“《北語字表》”),以作定量對照分析。
語料采集的方式是對《吶喊》和《彷徨》兩部小說集作掃描處理,以PDF格式存儲;ABBYY[10]軟件作文字識別(OCR),經(jīng)校對修正后,形成電子文本;用中國科學(xué)院計算技術(shù)研究所張華平博士研制的漢語詞法分析系統(tǒng)ICTCLAS整合版(2008)進行兩種形式的中文分詞:有標(biāo)記分詞和無標(biāo)記分詞。有標(biāo)記分詞用于進行詞性統(tǒng)計,而無標(biāo)記分詞用作詞頻分析[11]。
采用日本早稻田大學(xué)Laurence Anthony教授開發(fā)的antconc[12],對《魯迅小說》用字和無標(biāo)記分詞進行字頻與詞頻統(tǒng)計(結(jié)果見圖1與圖2),并將統(tǒng)計結(jié)果導(dǎo)入excel與北語兩表進行整理比較。
文本處理采用微軟Word和Notepad兩種工具,尤其是Word的高級查找替換功能。
3.1 字表統(tǒng)計與比較:
《魯迅小說》總字?jǐn)?shù)(tokens),據(jù)antconc統(tǒng)計,為122,971個(不含標(biāo)點),單字(types)3051個。頻度最高100字依次是:“的、了、一、是、不、他、我、有、在、來、也、這、人、說、著、子、里、上、去、大、得、然、到、個、么、們、看、時、便、就、那、而、還、又、出、沒、你、要、道、但、自、她、都、家、和、只、見、起、地、為、下、頭、以、可、阿、過、于、天、小、面、很、卻、后、老、想、樣、回、知、多、生、之、什、好、些、已、己、中、眼、經(jīng)、走、前、兩、似、事、太、年、四、所、心、聲、幾、十、從、三、吃、無、手、話、氣、對”。
《北語字表》字頻累計總字形數(shù)為71,632,779個,單字5499個。頻度最高100字依次是:“的、一、他、我、是、了、不、在、這、人、她、有、個、們、來、你、到、上、說、那、著、地、子、里、就、時、得、么、為、要、可、也、過、去、和、大、會、出、下、道、以、看、對、沒、自、樣、想、把、好、起、生、后、而、然、能、中、都、心、斯、還、事、什、天、小、爾、只、面、開、家、些、從、頭、情、兒、手、種、發(fā)、意、于、多、但、話、很、現(xiàn)、己、當(dāng)、如、前、又、所、走、身、之、回、知、特、用、無、經(jīng)、已”。
《魯迅小說》頻率最高的前10字:“的、了、一、是、不、他、我、有、在、來”占《魯迅小說》全部語料的18.68%;前100字占53.4045%?!侗闭Z字表》頻率最高的前10字“的、一、他、我、是、了、不、在、這、人”占全部語料的17.46%;前100字占48.92%。
兩詞表頻度最高10字相同率80%,而前100字兩者的相同率為83%,即83個字共同出現(xiàn)在兩表中。其中各有17字為對方所缺。
《魯迅小說》前100、字中獨有的17字為:“眼、便、吃、幾、見、老、兩、年、氣、卻、三、聲、十、四、似、太、阿”;《北語字表》獨有的17字為:“種、當(dāng)、兒、爾、發(fā)、會、開、能、情、如、身、斯、特、現(xiàn)、意、用、把”。
《北語字表》收字5499個,其中2491個未被《魯迅小說》使用;《魯迅小說》用字3051個,未被《北語字表》收錄的有42字:胤、秕、髀、孛、鵓、猹、淝、鐨、苻、祓、喤、楫、鶺、桕、髁、噲、壙、馗、髡、醴、鸰、熳、伲、釹、恧、薺、蓐、殳、姒、凇、窣、佟、摶、仵、憮、窸、羲、祆、獬、砉、魆、荸。
3.2 詞表統(tǒng)計比較
本次分析所比較的是《北語詞表》和經(jīng)ictclas分詞所生成的《魯迅小說》詞表中的雙音節(jié)以上的詞,未包括單音節(jié)詞。原因是《北語詞表》對單音節(jié)詞的頻數(shù)標(biāo)記統(tǒng)一為“0”,無法取得定量數(shù)值,只能舍棄?!遏斞感≌f》詞表中單音節(jié)詞為2297個;《北語詞表》中單音節(jié)詞為2628個。雙音節(jié)及以上的詞數(shù)與比例,見表1。
表1 非單音節(jié)詞統(tǒng)計
《魯迅小說》詞表中非單音節(jié)詞的總詞形數(shù)(tokens)為28176個,詞類數(shù)(types)6879個;出現(xiàn)頻度最高的100詞依次是:“沒有、一個、什么、知道、他們、自己、起來、已經(jīng)、我們、因為、然而、時候、覺得、似乎、現(xiàn)在、這樣、而且、似的、看見、孩子、于是、可以、雖然、所以、有些、許多、仿佛、之后、東西、眼睛、怎么、終于、那里、后來、女人、還是、大家、母親、忽然、一定、這里、但是、先前、以為、自然、那時、大約、聲音、下去、可是、或者、一點、人們、出來、辮子、立刻、一般、太太、老爺、還有、一面、忽而、這些、聽到、實在、怎樣、家里、臉上、仍然、漸漸、第一、里面、回來、一樣、至于、你們、兒子、高興、不過、應(yīng)該、出去、慢慢、接著、今天、同時、第二、這么、那么、意思、太爺、本來、嫂子、就是、屋子、說道、只是、非常、中國、其實、只有”。
《北語詞表》中非單音節(jié)詞的累計總詞形數(shù)(tokens)為66169729個,詞類數(shù)(types)55061個;頻度最高的100詞依次是:“中國、發(fā)展、我們、經(jīng)濟、新華社、工作、國家、問題、一個、人民、他們、企業(yè)、進行、生產(chǎn)、國際、同志、記者、全國、技術(shù)、建設(shè)、北京、領(lǐng)導(dǎo)、我國、美國、這個、政府、改革、會議、社會、干部、一些、本報、今天、群眾、地區(qū)、沒有、世界、關(guān)系、自己、組織、社會主義、部門、研究、今年、解決、管理、代表、思想、政治、方面、教育、舉行、情況、要求、去年、公司、政策、這些、第一、可以、參加、提高、生活、有關(guān)、市場、產(chǎn)品、重要、文化、活動、人員、主席、蘇聯(lián)、日本、認(rèn)為、中央、加強、單位、提出、通過、合作、現(xiàn)在、農(nóng)民、總理、計劃、這樣、歷史、需要、目前、兩國、農(nóng)業(yè)、主要、就是、工業(yè)、增加、許多、報道、科學(xué)、農(nóng)村、不能、委員會”。
使用頻度最高100詞中,兩表共有13詞:“自己、今天、可以、沒有、他們、我們、現(xiàn)在、許多、一個、這些、這樣、中國、第一”。相同率為13%,大大低于兩字表最高100字的相同率。
從詞性看,《北語詞表》100詞的名詞與動詞為主,合計占81%;而《魯迅小說》詞表100詞中,如表2所示,名、動、代、副、連五類合計占81%。若按照一般語法分類,把時間、方位詞和處所詞歸為名詞,那么,《北語詞表》100詞主要為名詞、動詞和代詞3類,而《魯迅小說》詞表主要是名詞、動詞、代詞、副詞和連詞5類。
表2 最高頻度100詞詞性比較
3.4 《魯迅小說》詞表詞性分布
據(jù)antconc統(tǒng)計,《魯迅小說》用詞總詞形數(shù)(tokens)為92066個,詞類(types)為9176個,其中單音節(jié)詞為2297個??傮w語料中的詞性分布(見表3)與前100詞趨同,前5類依次為動詞、名詞、副詞、助詞和代詞。
表3 《魯迅小說》總體語料中的詞性分布。
本研究運用多種文本處理和分析工具,對魯迅小說所用字和詞進行了定量統(tǒng)計,并將結(jié)果與北京語言大學(xué)的相關(guān)語料進行了對比。從高頻字看,兩種語料雖形符數(shù)(tokens)差異極大,但相同度高達83%。不論語言作品的內(nèi)容如何或數(shù)量多少,高頻字是語言的基礎(chǔ)要素。100個高頻詞在兩種語料中覆蓋率均在50%左右。
從高頻詞看,兩類語料的差異顯著。100詞中,兩表共有僅有13個,相同率大大低于高頻字。這種差異因語料來源差異所致。從高頻詞內(nèi)容看,北語語料來源于政論與新聞,時事性、社會性與國際性突出,尤其是“蘇聯(lián)”一詞,反映了90年代以前時政語言的面貌。魯迅小說屬文學(xué)語言,充滿動感,描述性和口語性顯著。兩者在詞匯選擇上的巨大差異是顯而易見的。
從詞性分布看,開放性詞類數(shù)量使用總是居前。有研究指出,數(shù)量居前三位的是名詞、動詞和形容詞三類,占總詞頻的48%[13]。
本統(tǒng)計結(jié)果表明,魯迅小說中,名詞、動詞和形容詞三類占總詞頻數(shù)的接近48%,但是數(shù)量在前三位的依次是動詞(25.23%),名詞(17.54%)和副詞(13.00%),三者覆蓋全部語料的55.77%。若按照一般語法分類,把方位詞(2.23%),時間詞(1.26%)和處所詞(0.59%)歸為名詞,順次未出現(xiàn)變動,而覆蓋率則接近60%(59.85%)。排在這三者之后的是助詞(9.54%)和代詞(8.78%),其后是,形容詞(5.23%)。
出現(xiàn)這種差異的原因在于,政論與新聞文體重點在狀態(tài)、事實、說理和過程,以靜態(tài)書面語為主,名詞使用頻度高;而小說充滿動感,動詞使用頻數(shù)要高于名詞。形容詞是名詞的修飾語,而副詞以修飾動詞為主,自然會隨著修飾對象使用的增加而增加。但是,本次分析所發(fā)現(xiàn)的這種現(xiàn)象,是普遍性還是特殊性,尚需進一步研究。
本文首次對魯迅小說字詞進行了統(tǒng)計分析,并用相關(guān)字與詞語料進行了對比,具有拋磚引玉的意義。在研究過程中發(fā)現(xiàn)了一些需要改進的問題。
字頻與詞頻統(tǒng)計要分別進行字的切分和詞的劃分。前者操作簡單,只要用任何文本處理工具都可以完成,不需人工干預(yù)。而詞的劃分或分詞,只有依賴專門的工具軟件,才能實現(xiàn)。若人工操作,標(biāo)準(zhǔn)難以統(tǒng)一。
本次研究采用漢語詞法分析器(ictclas),由中國科學(xué)院計算所開發(fā),主要采用北大《人民日報》語料庫進行參數(shù)訓(xùn)練,詞性標(biāo)記集[13]主要以北大《人民日報》語料庫的詞性標(biāo)記集為藍本,并參考了北大《漢語語法信息詞典》中給出的漢語詞的語法信息[14]。因此,用非小說文件進行參數(shù)訓(xùn)練的分詞工具用于魯迅小說語料分詞,誤差率就不可避免地會提高。理想的做法是,可針對性地用專門的語料進行訓(xùn)練,形成自帶詞典,然后進行分詞,會大大降低誤差率。盡管認(rèn)識到誤差,但本統(tǒng)計分析對誤差未作調(diào)整,目的是使研究具有可重復(fù)性,以求證實或證偽。
其次,對照語料選用的是北語語料。盡管統(tǒng)計分析結(jié)果顯示文學(xué)類與非文學(xué)類語料之間在字頻和詞頻方面的異與同,但是,若能選用同時代或不同時代典型作家的語料進行對比,則更能突顯魯迅小說遣詞用字的特點。
參考文獻:
[1]馮志偉.數(shù)理語言學(xué)[M].上海:知識出版社,1985.
[2]劉云.漢語詞匯統(tǒng)計研究述評[J].漢語學(xué)習(xí),2009.
[3]Lyne,A.A.Lexicometric Approach to the Description of a Language Variety[M].Sheffield:University of Sheffield,1981.
[4]楊奔.20世紀(jì)的現(xiàn)代漢語詞匯統(tǒng)計研究[J].玉林師范學(xué)院學(xué)報(哲社版),2002(1).
[5]王惠.漢語詞匯統(tǒng)計研究[EB/OL].www.huayuqiao.org/ articles/wanghui/ wanghui06.doc,檢索日2012-10-7.
[6]《現(xiàn)代漢語常用詞表》課題組.現(xiàn)代漢語常用詞表[Z].北京:商務(wù)印書館,2008.
[7]楊堅定,孫鴻仁.魯迅小說漢英平行語料庫[EB/OL],http://corpus.zscas.edu.cn/ 2009-09-25,檢索日2012-10-7.
[8]漢語國際教育技術(shù)研發(fā)中心(a).漢語常用詞詞頻表[EB/OL]http://nlp.blcu.edu.cn/ downloads/ download-resources/2012-10-7.
[9]漢語國際教育技術(shù)研發(fā)中心(b).漢字字頻詞典[EB/OL]http://nlp.blcu.edu.cn/downloads/download-resources/,檢索日2012-10-7.
[10]ABBYY開發(fā)組.www.abbyy.com,檢索日2012-10-7
[11]張華平.ICTCLAS漢語分詞系統(tǒng)[EB/OL].http://ictclas.org,檢索日2008-07.
[12]Anthony,L.AntConc 3.2.4w[EB/OL].http://www.antlab.sci.waseda.ac.jp/software.html,檢索日2012-10-7.
[13]蘇新春、楊爾弘.2005年度漢語詞匯統(tǒng)計的分析與思考[J].廈門大學(xué)學(xué)報(哲社版),2006(6).
[14]劉群,張華平,張浩.計算所漢語詞性標(biāo)記集[EB/OL].ictclas.org/docs/ICTPOS3.0漢語詞性標(biāo)記集.doc,檢索日2012-10-7.