同濟(jì)大學(xué) 韓 毅 劉運(yùn)同
提要:在漢語國際教育的理論研究和教學(xué)實踐中,漢語學(xué)術(shù)口語是一個重要的組成部分,然而目前該領(lǐng)域的研究和探索十分有限。本文使用LancsBox平臺搭建了規(guī)模達(dá)86,395字的試驗性漢語學(xué)術(shù)口語語料庫。在語料采寫的過程中,通過運(yùn)用語音識別技術(shù),再結(jié)合文本人工校對,大幅提高了采寫的工作效率。語料處理方面,在參考各類標(biāo)注系統(tǒng)的基礎(chǔ)上,研究采用XML格式,標(biāo)注了停頓、重復(fù)、口誤、填充詞、未完句和替換等口語現(xiàn)象。同時,利用所搭建的漢語學(xué)術(shù)口語語料庫,本文對漢語學(xué)術(shù)口語的一些典型特征開展了初步研究。在詞頻統(tǒng)計和詞語分布分析的基礎(chǔ)上,本文還完成了漢語學(xué)術(shù)口語中的自然停頓單位分析及其分布統(tǒng)計,發(fā)現(xiàn)自然停頓單位的長度集中在1—15個音節(jié)的區(qū)間上。
在漢語國際教育的研究與教學(xué)實踐中,生活漢語、通用漢語的教學(xué)與研究較多,學(xué)術(shù)漢語的教學(xué)與研究較少,漢語學(xué)術(shù)口語的教學(xué)與研究更少。無論是在英語作為第二語言還是漢語作為第二語言的研究領(lǐng)域,目前語料庫的建設(shè)都呈現(xiàn)出書面語語料庫較多、口語語料庫較少的局面。
本文希望通過創(chuàng)建小型試驗性漢語學(xué)術(shù)口語語料庫,為進(jìn)一步創(chuàng)建大型口語語料庫,特別是學(xué)術(shù)口語語料庫的探索提供工具和方法方面的支持。利用所搭建的漢語學(xué)術(shù)口語語料庫,初步統(tǒng)計分析所選取語料的停頓單位、詞頻分布、語義關(guān)聯(lián)以及特殊句式等研究課題,為漢語學(xué)術(shù)口語研究、口語研究提供語料基礎(chǔ)和方法借鑒。
語料的采集是搭建任一類型語料庫的基礎(chǔ)工作。本文所進(jìn)行的漢語學(xué)術(shù)口語語料庫的搭建是一項試驗性的、先導(dǎo)性的研究,并未按照隨機(jī)抽樣或一定規(guī)則的分類抽樣選擇語料,而是依據(jù)便利性原則,選取了網(wǎng)易公開課平臺上的“南昌大學(xué)公開課:現(xiàn)代漢語與社會生活”1的視頻作為語料的主要來源。該課程由徐陽春教授主講,視頻音質(zhì)較高,普通話相對標(biāo)準(zhǔn),雜音較少,有利于提高轉(zhuǎn)寫效率,減少轉(zhuǎn)寫錯誤。
相較于規(guī)范的書面語語料來說,口語語料的采寫過程更為繁瑣。本研究的采寫流程為:
(1)轉(zhuǎn)錄。使用虛擬聲卡工具Virtual Audio Cable配合聲音處理工具Adobe Audition CS6對視頻聲音進(jìn)行轉(zhuǎn)錄并處理保存。其中,采用內(nèi)錄的方式是為了保證聲音質(zhì)量的穩(wěn)定,不摻雜外界噪聲。
(2)轉(zhuǎn)寫。將處理過的音頻文件導(dǎo)入“訊飛聽見”平臺,使用“語音轉(zhuǎn)文字——中文機(jī)器快轉(zhuǎn)”功能,利用語音識別技術(shù),對聲音文本進(jìn)行前期處理。該步驟的識別準(zhǔn)確率可保證在90%以上,能夠較好地提升轉(zhuǎn)寫效率。
(3)加工存檔。對轉(zhuǎn)寫后的語料進(jìn)行精細(xì)加工,對照音頻文件逐字逐句校對修正,標(biāo)注停頓等符號,并儲存為文本文檔。
語料的標(biāo)注分為兩個層面:第一是語料基本性質(zhì)的標(biāo)注,以及語料的采集時間、分類等方面的標(biāo)注。在這一層面上,漢語學(xué)術(shù)口語語料庫對每一篇語料的標(biāo)注包括以下6個方面。
(1)類型,包括課堂(這是本研究的試驗性語料庫的主要語料類型)、學(xué)術(shù)會議、學(xué)術(shù)報告等;
(2)學(xué)科,分為語言學(xué)、金融、計算機(jī)科學(xué)等;
(3)時間,指語言行為發(fā)生的時間,精確至月;
(4)地點(diǎn),指語言行為發(fā)生的地點(diǎn),精確至單位、組織和場合,如南昌大學(xué)、XX學(xué)術(shù)研討會;
(5)說話人性別;
(6)說話人年齡,以10歲為單位進(jìn)行分段分類,如20—29歲、30—39歲等。
語料標(biāo)注的另一個層面為對具體的詞、句子、段落進(jìn)行標(biāo)注。如上所述,進(jìn)行語料標(biāo)注的目的是研究語言現(xiàn)象,因此語料標(biāo)注需要有較強(qiáng)的可拓展性和靈活性。本文認(rèn)為這一層面的標(biāo)注應(yīng)堅持以下4個原則。
(1)標(biāo)注分類明確可辨;
(2)標(biāo)注符號可以全部或按照分類快速移除;
(3)可以通過標(biāo)注符號快速提取相應(yīng)分類的語料;
(4)標(biāo)注系統(tǒng)具有較強(qiáng)的適配性和拓展性。
在口語話語標(biāo)注時,通常會從以下4種標(biāo)注系統(tǒng)中進(jìn)行選取,包括:Bois的TD、Konrad Ehlich的HIAT、會話分析(CA)傳統(tǒng)的轉(zhuǎn)寫系統(tǒng)和Brian MacWhinney的CHAT(劉運(yùn)同 2016)。本文在參考上述標(biāo)注系統(tǒng)的基礎(chǔ)上,結(jié)合XML語言的形式與格式,同時以本文重點(diǎn)研究的課題為出發(fā)點(diǎn),對以下口語特征進(jìn)行標(biāo)注。
(1)停頓,即口語表達(dá)中的自然停頓。在判斷停頓時不僅依靠聽力辨別,還依靠音頻聲波圖中的靜音時長輔助判斷,在停頓處插入符號[P]表示。
(2)重復(fù),即口語表達(dá)中的語言重復(fù)。用“”符號表示,例如:“連不起來有點(diǎn)雜糅[P]。”此處需要對標(biāo)注符號的形式做一點(diǎn)簡單的說明:在“”中,“df”表示一種標(biāo)注的大類,此處“df”定義的是“口語中的不流暢”現(xiàn)象,也是本文主要標(biāo)注的類別?!皌ype='repeat'”中的“'repeat'”表示“口語中的不流暢”這一上層類別中的子類別“重復(fù)”,下文還會分別介紹其他次級子類。正如例句所示,標(biāo)注時將需要標(biāo)注的文本放置與兩個尖括號中間,“”表示該標(biāo)注的完成,“/”是結(jié)束的主要標(biāo)記,在分析時用于提取和定位標(biāo)注內(nèi)容。
(3)口誤,即在話語中表達(dá)錯誤,但沒有進(jìn)行修改或修改為其他不相關(guān)的內(nèi)容。用“”符號表示,例如:“那么我們的課大學(xué)的課呢[P]跟高中那個時候呢[P]不同點(diǎn)在哪里呢[P]?!?/p>
(4)填充詞,即用于語段間的停頓和過渡的內(nèi)容。用“”符號表示。這類現(xiàn)象出現(xiàn)的次數(shù)較多,例如:“然后[P]那么A怎么怎么樣就可以報考是這樣的[P]?!?/p>
(5)未完句,即當(dāng)前句子沒有說完,重新說或轉(zhuǎn)說其他句子。用“”符號表示。例如:“跟動作的關(guān)系最為[P]密切唉你同學(xué)們注意第一句沒有[P]啊last year in May[P]。”
(6)替換,即在說話時覺得表達(dá)不夠清晰完整,從而選擇快速替換為意思相同或相近的內(nèi)容。用“”符號表示,例如:“接著往下看[P]成分贅余[P]那就多余了[P]校門前是一條[P]很筆直的大道唉那不就這個很是多余的啦[P]”。
選擇以LancsBox作為語料庫的搭載平臺開展相應(yīng)研究。LancsBox是由英國蘭卡斯特大學(xué)的學(xué)者們開發(fā)的用于語料數(shù)據(jù)收集、儲存和分析的軟件系統(tǒng)2。選取LancsBox作為搭載平臺的理由包括以下幾點(diǎn)。
(1)本地化處理自有語料;
(2)內(nèi)置算法可以幫助開展分詞、詞頻統(tǒng)計、關(guān)鍵詞檢索等語料分析的基礎(chǔ)性工作;
(3)可將語料分析結(jié)果進(jìn)行可視化展示;
(4)支持中文。
2.4.1 語料庫基本數(shù)據(jù)
語料規(guī)模:口語音頻長度約200 分鐘,轉(zhuǎn)寫文本(除各類符號)約10萬字;
語料類型:高校課堂;
學(xué)科細(xì)分:語言學(xué);
時間:2013 年4 月(根據(jù)網(wǎng)易公開課網(wǎng)站信息推算);
地點(diǎn):南昌大學(xué);
說話人性別:男;
說話人年齡:50—60歲(根據(jù)南昌大學(xué)公開資料推算)。
2.4.2 語料關(guān)鍵詞檢索
語料關(guān)鍵詞檢索功能通過LancsBox提供的前后文關(guān)鍵字工具KWIC(key word in context)實現(xiàn)。其具體功能包括以下幾點(diǎn)。
(1)查詢一個詞或短語在語料中出現(xiàn)的頻率;
(2)檢索特殊的語言結(jié)構(gòu),例如關(guān)聯(lián)詞語、口語詞、被動句等在語料中的分布情況;
(3)對檢索出的語料條目根據(jù)具體需求進(jìn)行分類、篩選和排序;
(4)在兩個語料庫中對檢索數(shù)據(jù)進(jìn)行對比分析。
在進(jìn)行語料關(guān)鍵詞檢索的過程中,常用的檢索方式包括以下4種。
(1)直接輸入詞或短語進(jìn)行檢索;(2)使用通配符“*”進(jìn)行檢索;(3)使用正則表達(dá)式;(4)復(fù)雜度更高的方法就是將通配符與正則表達(dá)式相結(jié)合。
在進(jìn)行關(guān)鍵詞檢索時,語料庫可以為研究者提供一些自定義的配置選項,下文詳細(xì)介紹了幾種常用的配置。
(1)對關(guān)鍵詞左右顯示詞語數(shù)量的配置:默認(rèn)顯示7個詞語,可通過自定義配置的方式更改該數(shù)值。
(2)初級篩選:研究者在得到相應(yīng)檢索結(jié)果后,如得到非常多的信息條目,可據(jù)此使用初級篩選配置,定位需要保留的信息條目或者排除帶有干擾的信息條目。
(3)高級篩選:若研究者需要進(jìn)行更為具體的研究工作,則需要限定更多的篩選條件,KWIC tools提供了高級篩選功能,可以對關(guān)鍵詞及其左、右的各個詞語進(jìn)行條件設(shè)定,同時可進(jìn)行正則運(yùn)算。
詞頻統(tǒng)計分析是詞匯研究的重要方法,也是語料庫研究中分析文本特點(diǎn)的重要方法。漢語詞與詞之間沒有空格等符號標(biāo)識詞的邊界,在做詞頻統(tǒng)計之前需要對漢語文本進(jìn)行分詞處理。本研究結(jié)合LancsBox自帶的分詞模型和Jieba分詞模型對語料進(jìn)行了分詞處理。經(jīng)過兩種分詞結(jié)果的詞匯對照,在Jieba分詞的基礎(chǔ)上,添加自定義詞典,并啟用HMM模型3,將“是吧”“對不對”等詞語準(zhǔn)確地切分出來。本文使用Python程序語言引入Jieba模塊進(jìn)行相關(guān)的切詞處理,在切詞前已經(jīng)將少量英文、阿拉伯?dāng)?shù)字等先行去除。
經(jīng)過中文分詞處理,相關(guān)語料總共被切出了25,902個詞,本文對詞頻在前100的詞進(jìn)行分析研究。按照詞頻降序排列后的結(jié)果如表1所示。
表1 詞頻前100的詞降序排列結(jié)果
(續(xù)表)
從統(tǒng)計結(jié)果看,詞頻最高的是“的”“啊”“是”“呢”“了”這些詞語。眾所周知,“的”在通用漢語中的詞頻本身就很高?!鞍 薄澳亍钡忍撛~在LCMC(Lancaster Corpus of Mandarin Chinese)漢語書面語語料庫中的詞頻都在200以上4,語料庫中“啊”和“呢”等詞的高頻使用,可視為漢語口語語料庫的特征之一。
任何一個詞語都不是孤立的。在不同的場景下,詞語之間存在著某種特定的關(guān)系,這種關(guān)系很難通過只言片語或少量的文本發(fā)現(xiàn),而運(yùn)用語料庫數(shù)據(jù),語料的規(guī)模越大,越容易發(fā)現(xiàn)特定背景下的語言中詞與詞之間的特定關(guān)系,稱之為詞語搭配。
我們可以使用兩種方法衡量語料庫中詞語間的關(guān)聯(lián)程度:互信息(MI)和T值(T-score)。MI值可展示語料庫中詞語的共現(xiàn)頻率與預(yù)期值的差異。用統(tǒng)計學(xué)術(shù)語說,這種方法可用來測量詞x 和y 之間的關(guān)聯(lián)強(qiáng)度。
但是,在詞頻非常低的情況下,用MI值測量詞語之間關(guān)聯(lián)強(qiáng)度的效果難以盡如人意。T值則可以避免這一問題,這種方法也將詞頻因素納入了考慮范圍。T值測量的不是關(guān)聯(lián)強(qiáng)度,而是分析可以斷言存在關(guān)聯(lián)的置信度(confidence)。從實際的操作情況出發(fā),MI值更可能賦予完全固定的短語以較高的分值,而T值則會產(chǎn)生出現(xiàn)頻率相對較高的、特征鮮明的搭配詞。
從本次搭建的漢語口語語料庫情況來看,詞語的出現(xiàn)頻率并不低,并且本研究主要關(guān)注詞語之間的關(guān)聯(lián)強(qiáng)度而非置信度。同時,作者對兩種計算方法進(jìn)行了應(yīng)用試驗,發(fā)現(xiàn)MI值更為準(zhǔn)確,因此本文選擇使用MI值來測算詞語之間的關(guān)聯(lián)強(qiáng)度。
LancsBox支持的GraphColl能夠便捷地提供MI值與T值的計算,GraphColl是由蘭卡斯特大學(xué)社會科學(xué)語料庫研究中心開發(fā)的跨平臺工具,用于分析搭配網(wǎng)絡(luò),建立和研究詞語搭配網(wǎng)絡(luò),MI值的計算方法如下。
MI=log((AB * sizeCorpus)/(A * B * span))/log(2)
試以“語言”這個詞作為關(guān)鍵節(jié)點(diǎn),將參數(shù)span(跨距)的取值設(shè)置為10(即到關(guān)鍵節(jié)點(diǎn)詞的左邊5個詞和右邊5個詞,可以對這個參數(shù)進(jìn)行調(diào)節(jié)),“語言”這個詞語、與其相關(guān)的詞語及關(guān)聯(lián)強(qiáng)度可見于表2。
表2 “語言”及相關(guān)詞語的關(guān)聯(lián)強(qiáng)度
在“位置”一欄中,“L”表示該詞出現(xiàn)在關(guān)鍵節(jié)點(diǎn)詞左邊的頻率更高,“R”表示該詞出現(xiàn)在關(guān)鍵節(jié)點(diǎn)詞右邊的頻率更高,“M”表示該詞出現(xiàn)在關(guān)鍵節(jié)點(diǎn)詞的左邊和右邊的頻率一樣高。MI值越大,表示與詞語“語言”的關(guān)聯(lián)強(qiáng)度越大。
從分析結(jié)果中可以看出,與“詞語”關(guān)聯(lián)度最強(qiáng)的詞是“功能”,常出現(xiàn)在“詞語”的右邊,即在當(dāng)前語料中,“語言”和“功能”的關(guān)系緊密且順序常為“語言”在前,“功能”在后。與“語言”關(guān)聯(lián)關(guān)系緊密的詞還有“形式(R)”“網(wǎng)絡(luò)(L)”“民族(R)”“環(huán)境(R)”“規(guī)范(M)”和“交際(M)”等。
詞語關(guān)聯(lián)強(qiáng)度的結(jié)果可以通過GraphColl繪制成可視化網(wǎng)絡(luò)圖表,距離關(guān)鍵節(jié)點(diǎn)越近,則表示關(guān)聯(lián)強(qiáng)度越高;節(jié)點(diǎn)顏色越深,代表該詞的詞頻越高,詳見圖1。
圖1 詞語關(guān)聯(lián)強(qiáng)度可視化網(wǎng)絡(luò)
經(jīng)過梳理,研究根據(jù)口語中的停頓將目標(biāo)文本切分成5,739個停頓單位。需要特別注明的是,一些句子包含英文,英文在統(tǒng)計時會計算構(gòu)成單詞的字母數(shù)。例如句子“那么last year in May he went to Hong Kong”統(tǒng)計結(jié)果為38個字符。依據(jù)這一規(guī)則得到的計算結(jié)果不盡合理,因此在按停頓單位長度排序時,去除了包含較多英文單詞的停頓單位,未將其納入排序。
停頓單位的長度是指一個口語停頓單位所包含的音節(jié)數(shù),用正整數(shù)表示。依據(jù)對當(dāng)前語料進(jìn)行的相關(guān)統(tǒng)計和排序6,最長的停頓單位包含72個音節(jié),在11秒鐘說完,每秒平均說出6.5個音節(jié),其中有較多語言重復(fù)。長度在前20的停頓單位包含的音節(jié)數(shù)以及對應(yīng)文本如表3所示。
表3 長度前20停頓單位的音節(jié)數(shù)及文本
(待續(xù))
(續(xù)表)
從表3中可以看出,口語中的停頓越長,其話語中的重復(fù)、更正等不流暢的語言現(xiàn)象就越多、越明顯。
當(dāng)前語料的平均停頓單位長度為7.57個音節(jié),據(jù)此將停頓單位長度分為1—3個音節(jié)、4—6個音節(jié)、7—9個音節(jié)、10—15個音節(jié)、16—20個音節(jié)、21—30個音節(jié)、31—40個音節(jié)、41—50個音節(jié)、51—60個音節(jié)、61—70個音節(jié)及71個音節(jié)及以上,共計11個停頓單位進(jìn)行分段統(tǒng)計,其具體分布情況見表4。
表4 語料停頓單位長度分布情況
根據(jù)表4的統(tǒng)計分析可以看出,長度在1—15的停頓單位數(shù)量占絕對優(yōu)勢,占比達(dá)到91.3%以上??梢娫趯W(xué)術(shù)口語中,長度在1—15的停頓單位更為常見。在這一區(qū)間中,長度為1—3和4—6兩個區(qū)間段的停頓單位又相對較多,由此可以得出,短句在漢語學(xué)術(shù)口語或課堂語言中較為常見。
根據(jù)表4可以看到停頓單位的長度集中在1—15這一區(qū)間上,若再進(jìn)行一次細(xì)分統(tǒng)計,則可得到如表5所示的結(jié)果。
表5 停頓單位為1—15的細(xì)分統(tǒng)計情況
下面以停頓單位長度為3個音節(jié)的表達(dá)單位為例,具體從文本、頻次和排序三個方面進(jìn)行觀察。
長度為3個音節(jié)的停頓單位共有441個,其中出現(xiàn)頻率最高的為“對不對”,在441個句子中出現(xiàn)了45次,占比為10.2%。表6展示了按照頻次降序排列的前20個停頓單位及其頻次。
在長度為3個音節(jié)的停頓單位中,首先,高頻使用的是用來進(jìn)行發(fā)問的“對不對”“為什么”“是不是”等;其次,是用于引出解釋和說明的“所以呢”“比如說”“可見呢”和“那就是”,也有用來引起聽話者注意的“同學(xué)們”和“你看看”等,同時也不乏與學(xué)術(shù)內(nèi)容相關(guān)的專業(yè)詞語,如“普通話”和“共同語”等。
表6 頻次降序前20個長度為3的停頓單位及其頻次
漢語學(xué)術(shù)口語語料庫的創(chuàng)建和分析是一項充滿挑戰(zhàn)的研究。本研究參考了國外已建成的學(xué)術(shù)口語語料庫的搭建邏輯,如英國學(xué)術(shù)英語語料庫(British Academic Spoken English,簡稱BASE),并參照了國內(nèi)部分口語語料庫的轉(zhuǎn)寫和標(biāo)注規(guī)范,搭建了試驗性的學(xué)術(shù)漢語口語語料庫。從語料的收集、音視頻的轉(zhuǎn)碼、文字的轉(zhuǎn)寫到語料標(biāo)注和入庫,搭建語料庫的主體環(huán)節(jié)基本完成。同時,還通過使用相關(guān)技術(shù)手段,提升了部分流程的效率,例如使用語音識別技術(shù)輔助聲音轉(zhuǎn)為文本,以及使用程序進(jìn)行漢語自動分詞等。所搭建的漢語學(xué)術(shù)口語語料庫,能夠執(zhí)行檢索、分析等研究功能。這項先導(dǎo)研究為大規(guī)模學(xué)術(shù)口語語料庫的創(chuàng)建積累了寶貴的經(jīng)驗。
語料庫的創(chuàng)建是一項復(fù)雜的工程,本研究也存在一些不足。第一,轉(zhuǎn)寫與標(biāo)注的嚴(yán)密性有待加強(qiáng)。嚴(yán)格意義上說,轉(zhuǎn)寫文本和標(biāo)注文本需要多人多層校對審核,以保證較高的準(zhǔn)確率。第二,語料庫的規(guī)模雖然已經(jīng)超過8 萬字(86,395),但對語料庫來說規(guī)模仍然較小,在進(jìn)行分析時一些偶然因素可能會導(dǎo)致結(jié)果存在較大的誤差。
我們發(fā)現(xiàn),即使是一個小規(guī)模的學(xué)術(shù)口語語料庫,仍然可以為學(xué)術(shù)口語研究和教學(xué)提供許多有益的參考,例如通過對當(dāng)前語料庫的統(tǒng)計分析,發(fā)現(xiàn)漢語學(xué)術(shù)口語的句長以1—15個音節(jié)居多。另外,通過對停頓間的言語單位開展研究,本文發(fā)現(xiàn)了大量常用的固定表達(dá)方式,如“對不對”“就是說”“為什么”“所以呢”“是不是”等。上述信息不僅能夠深化我們對學(xué)術(shù)口語的認(rèn)識,也將為學(xué)術(shù)口語的教學(xué)提供真實而有效的素材,以幫助學(xué)習(xí)者更高效地掌握漢語學(xué)術(shù)口語。
注 釋
1.見http://open.163.com newview/movie/courseintro? newurl=M8s7 JDCEP。
2.見http://corpora.lancs.ac.uk/lancsbox/index.php。
3.HMM模型,即隱馬爾可夫模型(Hidden Markov Model,簡稱HMM),是一種基于概率的統(tǒng)計分析模型,用來描述一個系統(tǒng)隱性狀態(tài)的轉(zhuǎn)移和隱性狀態(tài)的表現(xiàn)概率。在Jieba中,對于未登錄到詞庫的詞,使用了基于漢字成詞能力的HMM模型和Viterbi算法。
4.LCMC語料庫是一個100萬詞次(按每1.6個漢字對應(yīng)一個英文單詞折算)的現(xiàn)代漢語書面語通用型平衡語料庫。
5.標(biāo)準(zhǔn)離差率越小,偏離程度越小,詞語在整個語料庫中的分布更為廣泛;反之,標(biāo)準(zhǔn)離差率越大,偏離程度越大,詞語在整個語料庫中出現(xiàn)更為集中。
6.音頻鏈接https://pan.baidu.com/s/1BvrZDgk5Gcd_Wg3Dg2w1Yw,提取碼:h7vt。