冉啟斌, 梁煜珠, 吳丹麗
(1.南開大學(xué) 文學(xué)院,天津 300071;2.天津中醫(yī)藥大學(xué) 文化與健康傳播學(xué)院,天津 301617)
對(duì)語言進(jìn)行分類,傳統(tǒng)上一般都依據(jù)語言的特征進(jìn)行。分子生物學(xué)取得進(jìn)展以后,借鑒以基因距離為依據(jù)的生物學(xué)分類方法,語言學(xué)中也嘗試根據(jù)語言距離對(duì)語言進(jìn)行分類[1-2]。對(duì)語言距離進(jìn)行計(jì)算,采用比較多的是編輯距離計(jì)算法。Kessler首次提倡對(duì)愛爾蘭蓋爾語方言進(jìn)行編輯距離計(jì)算[3]。Brown 等[4],王璐、張吉生[5],江荻[6],索倫·維希曼等[7]人分別對(duì)世界范圍5 000多個(gè)語檔、吳方言、藏緬語族語言、漢語方言等進(jìn)行過編輯距離計(jì)算。
除了編輯距離之外,是否還有其他方法可以對(duì)語言距離進(jìn)行計(jì)算?此前這方面的探索不多。顏為之等人基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的自編碼降維語譜圖對(duì)不同方言語音進(jìn)行深度學(xué)習(xí)從而提取其特征,進(jìn)而對(duì)贛方言進(jìn)行分類[8]。冉啟斌提出采用DTW算法直接計(jì)算詞匯聲音文件的聲學(xué)距離從而得到語言距離,并報(bào)告了初步實(shí)驗(yàn)情況[9]。本文擬集中報(bào)告采用DTW算法就語言距離計(jì)算所作的進(jìn)一步的方法探索和系列實(shí)踐,主要著眼于進(jìn)行詞匯聲學(xué)距離計(jì)算究竟需要多少詞項(xiàng)數(shù)量、不同詞項(xiàng)內(nèi)容是否會(huì)對(duì)計(jì)算結(jié)果產(chǎn)生影響及一系列相關(guān)問題。
本文采用的詞匯聲學(xué)距離計(jì)算方法為“動(dòng)態(tài)時(shí)間規(guī)整”(dynamic time warping,簡稱DTW)算法。Holmes等人對(duì)DTW算法有詳細(xì)的描述[10]。Mielke使用這種算法對(duì)英語母語者的58個(gè)輔音和元音音素進(jìn)行距離計(jì)算,繪制了這些音素的分類樹圖并作了主成分分析[11]。冉啟斌 將DTW算法擴(kuò)展到對(duì)詞匯的聲學(xué)距離計(jì)算上,以8種語言及語言變體為對(duì)象討論了不同詞項(xiàng)數(shù)量、不同計(jì)算方法對(duì)聚類結(jié)果的影響[9]。該文分析顯示,相比于10個(gè)詞、30個(gè)詞、50個(gè)詞的樣本數(shù)量,以76個(gè)核心詞為樣本的距離計(jì)算效果最好;且對(duì)應(yīng)詞項(xiàng)兩兩計(jì)算的方式優(yōu)于所有詞項(xiàng)兩兩計(jì)算的方式。對(duì)應(yīng)詞項(xiàng)兩兩計(jì)算的方式確實(shí)效果更好,本文不再討論。在詞項(xiàng)數(shù)量上,雖然我們認(rèn)為在特定語言變體的計(jì)算中76個(gè)核心詞是足夠的,但是為更加穩(wěn)定和可靠起見,我們對(duì)更多詞項(xiàng)數(shù)量的計(jì)算結(jié)果進(jìn)行了對(duì)比分析。下面報(bào)告更多詞項(xiàng)數(shù)量的計(jì)算情況。
我們據(jù)以計(jì)算的8種語言變體與冉啟斌在“基于詞匯聲學(xué)距離的語言計(jì)算分類實(shí)驗(yàn)”[9]中所提的語言變體相同,分別是:哈薩克語(新疆哈巴河),蒙古語(內(nèi)蒙古正藍(lán)旗),蒙古語布里亞特方言(內(nèi)蒙古鄂溫克旗),唐汪話(甘肅東鄉(xiāng)族自治縣),藏語(西藏拉薩市),瑤語(云南勐臘縣),瑤語(海南瓊中縣)。為便于計(jì)算與制圖,我們對(duì)8種語言或語言變體按一定規(guī)則進(jìn)行了編碼。編碼結(jié)果分別是:哈薩克語(哈巴河)-KAHB,蒙古語(正藍(lán)旗)-MVZL,蒙古語布里亞特方言(鄂溫克旗)-BXEW,唐汪話(東鄉(xiāng)族自治縣)-TANW,藏語(拉薩市)-BOLS,瑤語(勐臘縣)-IUML,瑤語(瓊中縣)-IUQZ。為比較不同詞項(xiàng)數(shù)量對(duì)計(jì)算結(jié)果具有怎樣的影響,分別從前往后選擇了10個(gè)詞(1)語保項(xiàng)目錄制各個(gè)點(diǎn)的詞匯,有的詞在該地不一定有,這樣設(shè)置的是10個(gè)詞,實(shí)際上可能正好是10個(gè),也可能不足10個(gè),但相差不大。為方便說明,均按整數(shù)稱說。其他詞項(xiàng)數(shù)量同此,不再另行說明。、30個(gè)詞、50個(gè)詞、100個(gè)詞、200個(gè)詞、300個(gè)詞、500個(gè)詞、800個(gè)詞、1 000個(gè)詞、1 200個(gè)詞進(jìn)行對(duì)應(yīng)詞項(xiàng)距離計(jì)算。語保詞匯項(xiàng)目的類別從前往后依次為天文地理、時(shí)間方位、植物等,一直到數(shù)量、代、副、介、連詞等14類。10種詞匯詞項(xiàng)數(shù)量得到距離數(shù)據(jù)后使用SPSS20.0進(jìn)行系統(tǒng)聚類分析(組間連接方式,平方歐氏距離)。這樣得到的10種聚類分析樹圖如圖1所示。
圖1 不同詞項(xiàng)數(shù)量距離計(jì)算聚類結(jié)果
從圖1可以看到,當(dāng)詞項(xiàng)數(shù)量為10個(gè)詞時(shí),兩種蒙古語變體、兩種瑤語變體均聚在了一起,這說明距離很近的語言其聲學(xué)上相似的因素已經(jīng)起到了作用。從詞項(xiàng)數(shù)量的不斷增加來看,當(dāng)詞項(xiàng)數(shù)量從10、30、50個(gè)增加到100、200個(gè)時(shí),各個(gè)樹圖的上位分支存在著一定程度的變化。當(dāng)詞項(xiàng)數(shù)量達(dá)到200個(gè)時(shí),樹圖的整個(gè)分類基本上穩(wěn)定下來。當(dāng)詞項(xiàng)數(shù)量從200個(gè)逐步增加到300、500、800、1 000、1 200個(gè)時(shí),除了具體語言的枝條長短具有一些細(xì)微的差異外,整個(gè)樹圖沒有再出現(xiàn)大的變化。換言之,詞項(xiàng)數(shù)量在200個(gè)以上繼續(xù)增加,聚類效果并沒有得到較大實(shí)質(zhì)性的改善和提升。這表明依據(jù)詞匯聲學(xué)距離數(shù)據(jù)的語言聚類在詞項(xiàng)數(shù)量達(dá)到200個(gè)以上時(shí)已經(jīng)趨于穩(wěn)定;也表明進(jìn)行語言詞匯聲學(xué)距離計(jì)算的所需詞項(xiàng)數(shù)量以200個(gè)為基礎(chǔ)是足夠的。應(yīng)該說明的是,冉啟斌曾經(jīng)使用斯瓦迪士核心詞表中的76個(gè)詞對(duì)8種語言變體進(jìn)行聚類分析,并在9種漢語方言變體的聚類上取得了較好的結(jié)果[9]。我們認(rèn)為在特定的情況下詞項(xiàng)數(shù)量低于200個(gè)是可行的,不過從總體來看仍然以不低于200個(gè)詞為好。事實(shí)上,我們使用154個(gè)核心詞或非核心詞時(shí)其計(jì)算結(jié)果與使用200個(gè)詞已經(jīng)是一致的(詳見下文)。因此將200個(gè)詞定為進(jìn)行聲學(xué)距離計(jì)算的最低詞項(xiàng)數(shù)是出于更穩(wěn)妥和保守的考慮。
依據(jù)詞匯聲學(xué)距離進(jìn)行語言計(jì)算分類的另一個(gè)問題是,當(dāng)使用200個(gè)詞的詞項(xiàng)數(shù)量時(shí),選擇不同的200個(gè)詞(即不同的詞匯意義內(nèi)容)是否會(huì)對(duì)計(jì)算結(jié)果產(chǎn)生影響?例如當(dāng)我們選擇200個(gè)名詞進(jìn)行計(jì)算,與選擇200個(gè)動(dòng)詞或其他任何200個(gè)詞進(jìn)行計(jì)算,結(jié)果是否會(huì)有所不同?這是值得研究的問題。對(duì)這一問題我們做了三個(gè)方面的測試,下面分別進(jìn)行報(bào)告。
第一個(gè)方面的測試是選取200個(gè)核心詞進(jìn)行計(jì)算,同時(shí)也選取200個(gè)非核心詞進(jìn)行計(jì)算,觀察二者的計(jì)算結(jié)果是否會(huì)有所不同。我們使用的是斯瓦迪士200核心詞表。事實(shí)上斯瓦迪士200核心詞表中的詞只有154個(gè)詞在語保項(xiàng)目詞匯錄音中存在,因此我們就以154個(gè)核心詞進(jìn)行測試(為方便稱說,我們有時(shí)也稱為“200核心詞”測試)。非核心詞則隨機(jī)從1 200個(gè)詞中選取154個(gè)詞。這樣對(duì)前述8種語言及語言變體進(jìn)行距離計(jì)算,得到兩種聚類結(jié)果如圖2所示。
圖2 154個(gè)核心詞與非核心詞距離計(jì)算聚類結(jié)果
從圖2可見,154個(gè)核心詞與非核心詞的計(jì)算結(jié)果幾乎是相同的,除了枝條的長短上有細(xì)微差異外,8種語言及語言變體的分類情況是完全一致的。這反映出依據(jù)詞匯聲學(xué)距離的語言計(jì)算在選取核心詞還是非核心詞上并沒有產(chǎn)生實(shí)質(zhì)性的不同。
可以補(bǔ)充說明的是,事實(shí)上我們也以斯瓦迪士100核心詞表(對(duì)應(yīng)于語保詞匯錄音的只有76個(gè)詞)為對(duì)象進(jìn)行計(jì)算。結(jié)果顯示核心詞與非核心詞的聚類情況總體一致,但存在局部差異(限于篇幅這里不再給出聚類樹圖,它們的區(qū)別主要是唐汪話和壯語的聚類位置發(fā)生了對(duì)換)。但我們認(rèn)為這不是由核心詞與非核心詞的不同帶來的,而主要是由唐汪話和壯語的特殊情況造成的(詳見后文);同時(shí)也由于76個(gè)詞本身詞項(xiàng)數(shù)量偏少從而導(dǎo)致了聚類的不夠穩(wěn)定。
考察不同詞項(xiàng)意義內(nèi)容是否會(huì)對(duì)計(jì)算結(jié)果產(chǎn)生影響的第二種測試時(shí),我們選取了6種完全不同的200個(gè)詞進(jìn)行距離計(jì)算。6種完全不同的200個(gè)詞是將語保項(xiàng)目的1 200個(gè)詞分為6段,分別是:1段(1~200個(gè)詞),2段(201~400個(gè)詞),3段(401~600個(gè)詞),4段(601~800個(gè)詞),5段(801~1 000個(gè)詞),6段(1 001~1 200個(gè)詞)。這6段的詞項(xiàng)是完全不相同的。其中1~200個(gè)詞事實(shí)上我們已經(jīng)計(jì)算過(即上文測試不同詞項(xiàng)數(shù)量中的200個(gè)詞,參見圖1中右上部的200個(gè)詞聚類樹圖),這里不再單獨(dú)給出。這樣得到的其余5段200個(gè)詞聚類結(jié)果如圖3所示。
在進(jìn)行枸杞子對(duì)照藥材粉碎時(shí),合理選擇預(yù)處理方法,對(duì)其后續(xù)的粉碎工作起到事半功倍的效果。經(jīng)過預(yù)處理的枸杞子對(duì)照藥材能較好地保持其外觀和色澤,且相關(guān)特性量值無顯著變化。處理后的枸杞子對(duì)照藥材水分含量相對(duì)較低,易粉碎,粉碎后粉末的流動(dòng)性較好,易于分裝,有效提高分裝效率。
圖3顯示,5段完全不同200個(gè)詞的聚類情況總體一致,但是存在局部差異,這種差異仍然主要在唐汪話和壯語的位置上。唐汪話和壯語體現(xiàn)出的聚類結(jié)果主要有兩種情況:一是唐汪話和壯語共同構(gòu)成一類;二是唐汪話單獨(dú)成為一類;三是壯語單獨(dú)成為一類。將1段(圖1右上部)的情況考慮進(jìn)來,可以看到在1段、4段、5段中唐汪話和壯語共同構(gòu)成一類;在2段、6段中唐汪話單獨(dú)構(gòu)成一類;3段中壯語單獨(dú)構(gòu)成一類。至于其他5種語言及其變體,則6段200個(gè)詞的聚類情況除了枝條長短略有差異外是完全一致的。
圖3 5段完全不同的200個(gè)詞距離計(jì)算聚類結(jié)果
為什么會(huì)出現(xiàn)唐汪話和壯語在不同詞段上的聚類差異呢?我們認(rèn)為這與唐汪話和壯語本身的距離情況有關(guān)。觀察圖1可以看到,在500個(gè)詞和1 200個(gè)詞的聚類樹圖中,唐汪話和壯語都是和兩種瑤語變體并列而分為三支;換句話說,唐汪話和壯語的獨(dú)立性基本是相同的,二者的地位沒有高下之分。實(shí)際上,下文我們進(jìn)行的倒序測試也能看到,50個(gè)詞、100個(gè)詞、800個(gè)詞、1 000個(gè)詞、1 200個(gè)詞的聚類樹圖(參見圖4)中唐汪話和壯語的地位也都是并列的。由于二者的地位是并列的,因此受到不同詞項(xiàng)意義內(nèi)容的影響時(shí),二者的相對(duì)關(guān)系就可能出現(xiàn)一定程度的搖擺。至于唐汪話和壯語二者地位并列的原因,應(yīng)該是由8種語言變體之間距離關(guān)系的不均衡造成的。兩種瑤語變體、兩種蒙古語變體之間的距離關(guān)系密切,而其他幾種語言之間的關(guān)系則比較遠(yuǎn),相互之間關(guān)系稀疏。如果用以測試的語言變體之間的關(guān)系分布均衡則聚類結(jié)果應(yīng)該會(huì)得到改善。
檢測不同詞項(xiàng)意義內(nèi)容對(duì)計(jì)算結(jié)果是否會(huì)產(chǎn)生影響的第三種測試,我們是和第二節(jié)報(bào)告的不同詞項(xiàng)數(shù)量的聚類結(jié)果相結(jié)合起來做的。第二節(jié)報(bào)告了從1 200個(gè)詞中從前往后分別選擇10個(gè)詞、30個(gè)詞一直到1 200個(gè)詞進(jìn)行距離計(jì)算;這里我們則從1 200個(gè)詞中從后往前分別選擇10個(gè)詞、30個(gè)詞一直到1 200個(gè)詞進(jìn)行距離計(jì)算。為方便稱說,從前往后選擇詞數(shù)我們稱之為正序;從后往前選擇詞數(shù)我們稱之為倒序。倒序選擇的1 200個(gè)詞即語保項(xiàng)目通用詞匯的全部詞項(xiàng),與前面正序選擇的1 200個(gè)詞是完全相同的。由于二者相同,為圖形整齊我們也將1 200個(gè)詞的聚類結(jié)果放入倒序計(jì)算中。這樣得到的10種倒序聚類樹圖如圖4所示。
觀察圖4可以看到,當(dāng)詞項(xiàng)數(shù)量達(dá)到50個(gè)以上時(shí)聚類結(jié)果趨于合理穩(wěn)定,這與正序相比聚類效果上升得更快。在詞項(xiàng)數(shù)量為200、300、500個(gè)時(shí)唐汪話在局部分類上均獨(dú)立為一類。唐汪話的這種表現(xiàn)上文做過說明??梢耘c圖1對(duì)照觀察的是,詞項(xiàng)數(shù)量在200個(gè)以上時(shí)除唐汪話、壯語的局部位置差異外其余語言的聚類情況具有很高的一致性。其中800個(gè)詞、100個(gè)詞、1 200個(gè)詞的結(jié)果基本上相同。倒序測試從多個(gè)因素交互的角度反映出當(dāng)詞項(xiàng)達(dá)到一定數(shù)量時(shí)不同詞項(xiàng)意義內(nèi)容對(duì)聚類結(jié)果的影響是不大的。
圖4 倒序不同詞項(xiàng)數(shù)量距離計(jì)算聚類結(jié)果
除詞項(xiàng)數(shù)目、詞項(xiàng)意義內(nèi)容是否會(huì)對(duì)計(jì)算結(jié)果產(chǎn)生影響外,我們進(jìn)行的測試還包括適用于漢語方言詞匯聲學(xué)距離計(jì)算的詞項(xiàng)內(nèi)容與形式、普通話聲調(diào)的距離計(jì)算以及其他測試等,下面分別描述。
眾所周知,在進(jìn)行漢語方言的分類與調(diào)查時(shí)往往以中古音為依據(jù)。在進(jìn)行漢語方言的聲學(xué)距離計(jì)算時(shí),將古音的因素考慮進(jìn)來設(shè)計(jì)特定的詞匯項(xiàng)目,計(jì)算結(jié)果是否會(huì)具有較好的效果?這方面我們進(jìn)行了與前面測試模式不同的嘗試。由于中古音的聲、韻、調(diào)系統(tǒng)比較復(fù)雜,要囊括中古音的全部音系特征是很困難的,因此我們將有代表性的聲母、韻母、聲調(diào)等多方面的因素考慮進(jìn)來,將這些因素融入40個(gè)漢字中,且這40個(gè)漢字形成20個(gè)詞(參見附錄“包含中古音因素的漢語方言詞匯發(fā)音表”)。我們初步選擇了9種漢語方言進(jìn)行錄音,這9種漢語方言分別是:北京話(GHBJ)、西南官話(GHXN)、晉方言(JIN)、湘方言(XIANG)、贛方言(GAN)、客家話(KEJIA)、吳方言(WU)、閩方言(MIN)、粵方言(YUE)(2)這是下文聚類樹圖中使用的代碼,下同。。因?yàn)槭菧y試,這9種漢語方言的層次不完全一致,有的方言如閩方言、粵方言下面還分不同的次方言,在這次測試中發(fā)音人的選擇只考慮了方言大區(qū)的相同。每種方言選擇了4名發(fā)音人(2男2女),均為青年,發(fā)音時(shí)每個(gè)詞按正常說話方式發(fā)音3遍,如該詞在當(dāng)?shù)厥褂闷渌f法,則使用當(dāng)?shù)氐氐赖恼f法發(fā)音。在進(jìn)行聲學(xué)距離計(jì)算時(shí)這次我們將各個(gè)方言的4名發(fā)音人合在一起進(jìn)行計(jì)算,這樣每種方言共有20詞*3遍*4人=240個(gè)樣本,由此計(jì)算得到的9種漢語方言聚類分析結(jié)果如圖5所示。
從圖5來看,9種漢語方言首先分為兩大類,一類包括閩方言和粵方言;另一類包括其他7種方言。在其他7種方言中,吳方言和其他方言分開,自成一類;北京話和湘方言聚在一起,再和西南官話聚在一起;贛方言和客家話聚在一起,再和晉方言聚在一起。這一聚類圖很值得說明。贛、客方言聚在一起顯然印證了贛、客方言具有很多共同點(diǎn)的公認(rèn)看法。圖5聚類值得注意的地方包括:湘方言和北京話而不是和西南官話首先聚在了一起;晉方言和贛、客方言聚成一個(gè)小類,這兩個(gè)方面是存在疑問的。從聲學(xué)距離的角度來看,圖5中的聚類有的地方是可以理解的,但有的地方則與一般預(yù)想存在較大差距。
從圖5來看,通過設(shè)計(jì)包含中古音因素的發(fā)音表對(duì)漢語方言進(jìn)行測試,我們認(rèn)為這種方法似乎并沒有取得更好的效果。分析其中的緣由,我們認(rèn)為可能與以下兩方面的原因有關(guān)。第一,雖然每種方言的計(jì)算樣本達(dá)到了240個(gè),但詞項(xiàng)數(shù)目只有20個(gè),增加的是發(fā)音人數(shù)(4人)和發(fā)音遍數(shù)(3遍),詞項(xiàng)數(shù)目本身沒有增加;第二,詞匯聲學(xué)距離計(jì)算依據(jù)的是不同方言之間共時(shí)的音頻聲學(xué)距離,對(duì)諸如清濁、入聲等這些因素可能并不敏感,更不能反映音系在歷時(shí)上的分合演變情況。因此使用包含中古音因素語料的方法在聲學(xué)距離計(jì)算上并不能取得更好的效果。而更重要的原因是,即使包含中古音因素的方法計(jì)算效果更好,這種方法也不具有普遍性,無法在更多語言和方言中推廣。例如對(duì)歐美語言、非洲語言等漢語方言之外的語言都無法使用這一方法。
圖5 包含中古音因素的9種漢語方言距離計(jì)算聚類結(jié)果
總之,可以預(yù)見的是,包含中古音因素的方法在依據(jù)詞匯聲學(xué)距離進(jìn)行的語言計(jì)算分類上可行性很低。
除計(jì)算語言或方言之間的距離外,我們還對(duì)一些語音特征之間的距離進(jìn)行了初步測試,這里簡要說明一下對(duì)不同聲調(diào)之間距離的計(jì)算情況。聲調(diào)是一種超音段特征,通常用數(shù)字或其他代表的符號(hào)(如標(biāo)調(diào)符號(hào))來表示。在使用編輯距離的計(jì)算中超音段特征很難計(jì)算,ASJP模式的距離計(jì)算都將超音段特征予以略去。為考察聲學(xué)距離對(duì)聲調(diào)距離計(jì)算的效力如何,我們選擇普通話的4個(gè)聲調(diào)進(jìn)行了測試。普通話4個(gè)聲調(diào)的語料來自黃伯榮、廖序東主編的《現(xiàn)代漢語》附帶光盤中的標(biāo)準(zhǔn)發(fā)音文件[12]。發(fā)音人男、女各1名,聲調(diào)發(fā)音音節(jié)共10個(gè),10個(gè)音節(jié)各配以4個(gè)聲調(diào)。由于這10個(gè)音節(jié)的聲母和韻母完全相同,不同的只有4個(gè)聲調(diào),因此適合于將其作為語料進(jìn)行聲調(diào)之間距離的計(jì)算。在制圖時(shí)我們將4個(gè)聲調(diào)分別用一、二、三、四表示。這樣得到的兩名發(fā)音人4個(gè)聲調(diào)的聚類樹圖如圖6所示。男、女發(fā)音人的聚類樹圖高度一致,除了二聲的枝條長度略有細(xì)微差異外,聚類樹圖整體上幾乎完全相同。這反映出聲調(diào)聲學(xué)距離計(jì)算方法的一致性和有效性。在聲學(xué)上普通話的4個(gè)聲調(diào)首先分為第三聲和第一、四、二聲兩大類,第三聲單獨(dú)形成一類;換言之,在聲學(xué)上第三聲與其他三個(gè)聲調(diào)的差異程度是最大的。這與我們對(duì)普通話聲調(diào)的一般認(rèn)識(shí)是一致的,單念的第三聲是個(gè)曲折調(diào),這顯然與其他三個(gè)聲調(diào)差異程度最大。人們一般認(rèn)為的某些音素或特征之間的主觀距離事實(shí)上融合了生理、聲學(xué)、心理等多方面的因素,而這里我們計(jì)算得出的距離是以聲調(diào)的聲學(xué)特性為依據(jù)的。聲調(diào)之間的聲學(xué)距離以及其他距離還值得進(jìn)一步進(jìn)行研究發(fā)掘。普通話聲調(diào)的聲學(xué)距離測試具有突出的意義:一方面說明可以通過聲學(xué)距離來測量聲調(diào)之間的差異;一方面也表明基于詞匯聲學(xué)距離的語言距離中是包含了聲調(diào)差異的因素的。前面我們說過,編輯距離計(jì)算將超音段特征略去。陳六君等在計(jì)算漢語方言的差異時(shí),將聲母、韻母、聲調(diào)等都轉(zhuǎn)換為一系列特征進(jìn)行計(jì)算[13]。這種方法使聲調(diào)調(diào)值計(jì)算成為可能,不過對(duì)于像入聲這樣的聲調(diào)轉(zhuǎn)換為幾位數(shù)字的問題該文并未提及。本文的測試顯示聲調(diào)的聲學(xué)距離計(jì)算是可行的,這無疑為聲調(diào)之間的距離計(jì)算提供了新的方法。
圖6 依據(jù)聲學(xué)距離的普通話4個(gè)聲調(diào)聚類結(jié)果
我們所做的語言聲學(xué)距離測試的對(duì)象還包括“語音比較”數(shù)據(jù)庫。“語音比較——探索跨語言語音的多樣性”數(shù)據(jù)庫(https:∥soundcomparisons.com/)是一個(gè)大型的專業(yè)在線數(shù)據(jù)庫,收錄提供了五六百種語言的常見詞匯的錄音。不過該數(shù)據(jù)庫中的錄音在音質(zhì)上差異很大,例如發(fā)音人性別、錄音設(shè)備、信噪比、采樣率、存儲(chǔ)位數(shù)、聲音文件格式等方面都存在不同程度的差異。我們?cè)?jì)算分析過其中24種語言的距離及聚類情況,看到只有部分聚類結(jié)果是理想的(限于篇幅聚類樹圖此處從略)。因此,我們認(rèn)為依據(jù)詞匯聲學(xué)距離進(jìn)行語言計(jì)算分類需要其詞匯錄音具有良好的音質(zhì)條件。
依據(jù)詞匯聲學(xué)距離進(jìn)行的語言距離計(jì)算研究是一種全新的方法,這意味著只要每種語言具有相同的200個(gè)詞以上的語音文件,就能夠完全自動(dòng)對(duì)語言進(jìn)行距離計(jì)算并由此進(jìn)行語言分類等計(jì)算分析。這也提示我們,在看似變異性極大的詞匯聲音之中可能直接蘊(yùn)含有語言之間的距離信息。與以往的語言分類方法相比,以詞匯聲學(xué)距離為依據(jù)的語言計(jì)算分類有兩大特點(diǎn)。一是這種分類不需要將詞匯的語音形式進(jìn)行音標(biāo)或其他編碼的轉(zhuǎn)寫,因此是完全直接的方法;二是這種分類排除了任何主觀介入或人工干預(yù),因此是完全客觀的分類。作為一種新的嘗試,基于詞匯聲學(xué)距離的語言計(jì)算研究有一些理論問題需要說明,下面從四個(gè)方面進(jìn)行討論。
第一,良好的錄音音質(zhì)是進(jìn)行聲學(xué)距離計(jì)算的前提。經(jīng)過前面的一系列實(shí)踐,我們看到錄音音頻的音質(zhì)非常關(guān)鍵,聲學(xué)距離計(jì)算需要在具有良好錄音質(zhì)量保障的基礎(chǔ)上進(jìn)行。眾所周知,聲學(xué)特征的變異性極大,一個(gè)完全相同的語音,不同的發(fā)音人之間、相同發(fā)音人幾次不同的發(fā)音、不同語境中的發(fā)音等都可能存在變異。顯而易見,只有在需要計(jì)算的所有語言詞匯的錄音音質(zhì)具有充分保障的前提下,這些語言之間的聲學(xué)距離才能得到真實(shí)體現(xiàn),距離計(jì)算也才能最大限度地發(fā)揮其功效。
第二,進(jìn)行基于詞匯聲學(xué)距離的語言距離計(jì)算一般不能低于200個(gè)詞,所選擇的詞不受詞項(xiàng)意義內(nèi)容影響。前面的測試顯示,當(dāng)詞項(xiàng)數(shù)量達(dá)到200個(gè)左右時(shí)語言的聚類結(jié)果是穩(wěn)定的,且詞項(xiàng)數(shù)量進(jìn)一步增大時(shí)聚類效果并不會(huì)得到更多的改善和提升。當(dāng)然,在特定的情況下低于200個(gè)詞進(jìn)行計(jì)算也是可行的,例如154個(gè)核心詞、76個(gè)非核心詞、正序的100個(gè)詞、倒序100個(gè)詞甚至50個(gè)詞等都展現(xiàn)了一致的聚類結(jié)果。我們認(rèn)為,在不同的語言中,每兩個(gè)對(duì)應(yīng)詞的聲音之間蘊(yùn)含有不同語言之間的微觀差異,不過這種差異是非常細(xì)微的,只有當(dāng)詞項(xiàng)數(shù)量不斷增大,蘊(yùn)含的細(xì)微差異才會(huì)逐漸積累凸現(xiàn)出來。當(dāng)兩種語言之間的微觀聲學(xué)差異積累到200倍(即詞項(xiàng)到200個(gè))時(shí),兩種語言之間的聲學(xué)差異就得到了充分體現(xiàn),并基本上達(dá)到了極限。這也是為什么當(dāng)詞項(xiàng)數(shù)量超過200個(gè)以后聚類效果得不到實(shí)質(zhì)性提升的原因。
測試也清楚地表明,在選擇怎樣的詞上,聲學(xué)距離計(jì)算不受核心詞、非核心詞、動(dòng)詞、名詞或天文、地理乃至數(shù)量、代、副、介、連詞等意義內(nèi)容的影響,只需要不同語言之間的詞匯是對(duì)應(yīng)的即可。這是可以理解的,因?yàn)槁晫W(xué)距離計(jì)算只考慮兩個(gè)聲音文件之間聲學(xué)特性之間的差異。
值得說明的是,漢語方言距離測試看到距離計(jì)算所需的是200個(gè)詞而不是200個(gè)樣本。語言或方言距離測試時(shí)樣本雖多,但詞項(xiàng)的差異體現(xiàn)得不夠,聚類結(jié)果是不理想的。從聲學(xué)特性上看,詞項(xiàng)本身的差異不夠大,也就導(dǎo)致幾種語言或方言之間對(duì)應(yīng)聲音的微觀差異積累得不夠。當(dāng)然,在做單個(gè)音素的距離計(jì)算時(shí)樣本數(shù)量可以大幅減少,Mielke使用的是9個(gè)樣本[11],我們對(duì)普通話聲調(diào)的距離測試使用的則是10個(gè)樣本。
第三,依據(jù)詞匯聲學(xué)距離得到的語言計(jì)算分類反映的是語言之間的共時(shí)聲學(xué)差異分類??赡苡幸蓡栔赋?,本文測試得到語言或語言變體的聚類結(jié)果到底屬于什么性質(zhì)的分類,它的作用是什么?它可以印證語言發(fā)生學(xué)分類,還是可以印證語言結(jié)構(gòu)分類、類型學(xué)分類乃至地域?qū)W分類?我們認(rèn)為都不是?;谠~匯聲學(xué)距離的語言計(jì)算分類體現(xiàn)的就是不同語言或語言變體之間的聲學(xué)差異或聲學(xué)相似性,它是一種客觀的新的聚類方法。至于分類的結(jié)果與以往的發(fā)生學(xué)分類或單純的語言分區(qū)存在很大的相似性,那是另外一個(gè)問題。前面的實(shí)踐結(jié)果看到,依據(jù)聲學(xué)距離的語言聚類分析確實(shí)能夠與以往的發(fā)生學(xué)分類、語言或方言的親疏關(guān)系、方言的共時(shí)分區(qū)等產(chǎn)生很強(qiáng)的關(guān)聯(lián)性。語言的共時(shí)聲學(xué)差異竟然也能反映語言關(guān)系的密切與疏遠(yuǎn),這是很有意思的現(xiàn)象,很值得進(jìn)一步深入研究和探索。
第四,基于詞匯聲學(xué)距離的語言計(jì)算分類可能在越接近末端節(jié)點(diǎn)位置上的語言聚類效果越好。在前面測試的8種語言聚類中,距離關(guān)系很近的兩種蒙古語方言、兩種瑤語方言都聚在了一起,但是在根節(jié)點(diǎn)上屬于阿爾泰語系突厥語族的哈薩克語沒有與屬于阿爾泰語系蒙古語族的兩種方言聚在一起,而是在根節(jié)點(diǎn)上自成一類。這與發(fā)生學(xué)分類或其他分類都存在差異。這可能反映出基于詞匯聲學(xué)距離的語言計(jì)算分類對(duì)于局部性(local)的近距離語言關(guān)系具有良好的效果,而對(duì)于全局性(global)的語言總體大類分化效果并不太好。由于目前的測試仍以前面提到的8種語言及其變體為主,這一結(jié)論還有待于在更多語言中去檢測證實(shí)。
除此以外,目前所進(jìn)行的語言聲學(xué)距離計(jì)算均依據(jù)同一男性發(fā)音人的語料,因受語料條件的限制,計(jì)算結(jié)果還沒有對(duì)人與人之間的同一性及差異性進(jìn)行測試。不過我們推測當(dāng)詞匯項(xiàng)目達(dá)到一定數(shù)量后人際差異可能會(huì)被淡化掉。當(dāng)然這仍只是推測,將來會(huì)進(jìn)行多人之間的計(jì)算分析,以便得出確鑿的結(jié)果。
本文報(bào)告了我們?cè)诨谠~匯聲學(xué)距離的語言計(jì)算分類方面所做的多種實(shí)際測試和實(shí)踐。一般認(rèn)為語音的聲學(xué)特征變異性極大,直接依據(jù)聲音文件進(jìn)行語言計(jì)算分類是難以想象的。然而我們的測試看到直接根據(jù)聲音文件進(jìn)行語言距離計(jì)算不僅是可能的,而且是有意義的嘗試。與有的依據(jù)語音文件進(jìn)行距離計(jì)算不同的是,我們的距離計(jì)算沒有提取語音中元音的共振峰、輔音的VOT等聲學(xué)特征參數(shù),而是使用DTW算法直接計(jì)算兩個(gè)聲音文件的聲學(xué)距離。
我們的測試看到,基于聲學(xué)距離的語言聚類分析對(duì)于較近距離關(guān)系的語言變體的分類效果良好,它能夠?yàn)榻嚯x的語言之間關(guān)系提供純粹客觀的依據(jù)。限于語料條件限制,目前的測試以8種左右的語言及語言變體為主。如能有大批量的詞匯聲音文件進(jìn)行大規(guī)模的聲學(xué)距離計(jì)算,從而對(duì)這些語言進(jìn)行聚類分析或主成分分析,將能夠?yàn)槲覀兲峁└鼜V闊和確鑿的語言之間的聲學(xué)距離數(shù)據(jù),有望給我們對(duì)語言的認(rèn)識(shí)帶來更多的發(fā)現(xiàn)和啟示。
(黃行先生對(duì)本文的計(jì)算分析給予了部分語料支持,謹(jǐn)表謝忱。)