李 昕,李 珊,龔文濤,陳曉瑩,李華昱
(1.中國石油大學(華東)計算機科學與技術學院 山東 青島 266580;2.中國石油大學(華東)信息化建設處 山東 青島 266580)
音素(Phonemes)是決定發(fā)音差異的最小單位,例如/AA/、/B/,字素(Grapheme)是對應音素的單個字母或字母序列,例如〈a〉、〈th〉,字素和音素分別是單詞和發(fā)音的基本單位。形音轉換是指字素與音素逐步進行分解和匹配,在匹配對的基礎上進行統(tǒng)計分析,形成發(fā)音規(guī)則,這個過程是語音識別和語音合成的基礎。以英語為代表的印歐語系是語音型文字,從誕生之初就與發(fā)音形成緊密聯(lián)系。掌握語音型文字的發(fā)音規(guī)則是學習相應語言的基礎。Hanna[1]早在1965年就著書詳細描述形音匹配,由于缺乏完整性和直觀性,在當時并沒有得到認可。Elovitz等[2]總結了329個字母到發(fā)音的規(guī)則,但準確性無法達到實際應用的需求。此外這些方法在詞匯量很大時變得既耗時又繁雜。近年來,隨著人工智能技術的發(fā)展,例如神經(jīng)網(wǎng)絡的應用,語音處理問題取得了極大的發(fā)展,在標準發(fā)音下的語音識別準確率達到了94%。盡管這些基于機器學習的方法提高了識別準確率,但是最終形成的語音規(guī)則數(shù)目繁多且冗長,不可解釋性是其固有弊端,不利于學習者掌握。
建立發(fā)音規(guī)則非常復雜,主要是因為語言的歷史演化和地域差別,出現(xiàn)了大量變種,外來詞的引入、元音大遷移等事件的出現(xiàn),加劇了發(fā)音異常變化。此外,由于地域的不同,即使在相同的上下文約束下,相同的字素序列也可能產(chǎn)生不同的發(fā)音,使得異常發(fā)音很難通過內部一致的方式提取通用規(guī)則集。因此,本文解決的問題歸納為以下四點。
1)通過動態(tài)分類的方式實現(xiàn)形音增量匹配。本文從分類視圖到樣例視圖創(chuàng)建了多視圖交互,提高分類準確性。在全局視圖監(jiān)督下,結合語言知識模型從粗略到精準動態(tài)地迭代匹配。
2)運用關聯(lián)分析獲取整體模式。為了呈現(xiàn)所有發(fā)音規(guī)則的整體分布,本文將形音匹配關系轉換為多層樹狀視圖,每一層從不同角度進行比較,根據(jù)大數(shù)定理探尋主要發(fā)音規(guī)律。
3)直觀有效地定位異常變化。在匹配過程中會產(chǎn)生兩種異常:匹配錯誤和特殊發(fā)音。對于匹配錯誤,本文通過相關分析構造條件規(guī)則進行糾正;對于特殊發(fā)音,本文把在字素視圖和分布視圖中使用率低于閾值的規(guī)則進行高亮顯示。
4)為研究人員提供了靈活的工具,并且可以擴展到具有語音型文字的任何語言。
Rentzepopoulos等[3]提出使用隱馬爾可夫模型對自然語言的單詞特征進行建模,并使用維特比算法對其進行形音匹配轉換。Wang等[4]基于形音匹配,提出了結合實例學習和動態(tài)編程自動預測單詞發(fā)音的方法。Ogbureke等[5]提出了基于HMM上下文相關的形音匹配轉換方法,該方法在Unilex數(shù)據(jù)集中準確率達到了79.8%,但在CMUdict數(shù)據(jù)集中準確率僅為57.8%。Kheang等[6]使用基于加權有限狀態(tài)感應器的方法實現(xiàn)兩級結構的形音轉換技術,并提出了將音素和字母信息組合作為形音轉換輸入序列的策略,更詳細地區(qū)分單詞中的元音和輔音。Hannemann等[7]提出了基于貝葉斯的形音轉換聯(lián)合序列模型,并使用CMUdict詞庫進行了實驗,結果表明,存在5.92%的音素錯誤率和24.6%的詞匯預測錯誤率。這些工作通過改進形音轉換方法提高了語音預測的準確性,但是機器學習模型隱藏了推導的規(guī)則,缺乏可解釋性。
字素音素匹配本質上是一個分類問題。針對該問題目前已提出多種方法和工具,其中交互式探索與數(shù)據(jù)分類的結合可以更有效地解決分類中存在的問題。交互式學習是一種通過集成人類專家的背景知識來擴展主動學習的方式,除了對引用數(shù)據(jù)進行手動標注之外,用戶可以直接簡化復雜分類器模型。模型可視化有助于檢測和糾正由實例訓練分類器模型與用戶預期模型之間的矛盾。Alsallakh等[8]使用顏色直方圖代表類別概率對分類數(shù)據(jù)進行分析。Kim等[9]通過分析單詞對文檔情感的影響,并使用相應的關系解釋視覺特征,更好地區(qū)分文檔情感。Jamróz等[10]提出結合Kohonen映射方法分類,并應用可視化技術識別各種類型煤炭中的顯著差異,人類可使用最直觀的可視化方法定性分析數(shù)據(jù),并且有效地確定煤炭的類型。這些可視化技術通過可視化界面幫助用戶在復雜數(shù)據(jù)中獲得更準確的分類結果。
許多典型的分類方法都不適用于復雜的語音系統(tǒng)。針對形音匹配,本文對可視化分類進行調整,聯(lián)合交互可視化和心理預期模型獲得最佳結果。
在各種異常值檢測技術中,可視化技術被眾多研究者廣泛關注。由于錯誤的模糊性,清理結果往往需要人類知識驗證,因此異常值檢測需要交互。Kandel等[11]證明了分析師可以通過集成數(shù)據(jù)驗證、轉換和可交互的可視化系統(tǒng)更有效地獲取數(shù)據(jù)。Kandel等[12]還設計了以交互式檢測和可視化呈現(xiàn)的方式查找數(shù)據(jù)異常值的Profiler。由于分析人員經(jīng)常迭代清理數(shù)據(jù),所以Krishnan等[13]設計了Active Clean漸進迭代解決統(tǒng)計建模問題。Liu等[14]開發(fā)了一個可視化分析框架,該框架通過迭代來提高數(shù)據(jù)質量。Wilkinson[15]提出了一種用于檢測大數(shù)據(jù)領域異常值的統(tǒng)計方法,交互消除了用戶指定數(shù)據(jù)轉換的煩瑣細節(jié)。Cao等[16]將基于張量的異常檢測算法與豐富的上下文可視化相結合,為數(shù)據(jù)校正模塊提供可信數(shù)據(jù)。李苑等[17]提出一種惡意代碼的異常檢測方法,結合上下文信息與可視化方法,通過比較顏色深淺,直接區(qū)分惡意代碼區(qū)域,具有極高的檢測率。Xiang等[18]在可視化分析工具中集成了分層可視化、數(shù)據(jù)可擴展的校正算法,通過交互提高數(shù)據(jù)質量。
上述異常值檢測方法證明,應用數(shù)據(jù)分析和可視化技術能有效從復雜數(shù)據(jù)集中獲取異常信息。
本文工作主要是將單詞音標轉換為形音匹配對和語音可視化分析。語料庫中的單詞和音標被轉換為字素和音素序列:字素用尖括號表示,例如〈a〉、〈th〉;音素用斜線表示,例如/AA/、/B/。匹配之前,首先定義音素全集P和字素全集G。以CMUdict數(shù)據(jù)集為例,字素全集可定義為G={〈a〉,〈b〉,…,〈z〉,〈-〉},其中〈-〉代表空字素;音素全集P由ARPAbet數(shù)據(jù)集的39個音素和表示不發(fā)音的/-/組成,定義為P={/AA/,/AE/,…,/ZH/,/-/}。單詞全集和音標全集分別定義為W={g+|g∈G}和T={p+|p∈P}。
表1 apple一詞及其音標匹配序列(〈apple〉→/AE1 P AH0 L/)Table 1 The word apple and its phonetic matching sequence(〈apple〉→/AE1 P AH0 L/)
本文形式化定義為六元組(G,P,W,T,R,M),其中R={c*[g+]c*→p+|c,g∈G,p∈P}是匹配規(guī)則,c*[·]c*表示所關注字素g+的上下文信息,約束匹配范圍。
為提高匹配的準確性,匹配規(guī)則分級處理。條件規(guī)則應優(yōu)先于無條件規(guī)則;不發(fā)音規(guī)則屬于萬能匹配,級別較低;對于同一級別規(guī)則,較長的規(guī)則具有更高的優(yōu)先級。例如,規(guī)則〈ea〉高于規(guī)則〈e〉,規(guī)則〈g[ue] s$〉高于規(guī)則〈g[ue]$〉,其中$表示一個單詞的結尾。精度系數(shù)θ的計算公式為
(1)
其中#(·)表示元素數(shù)。當規(guī)則m通過驗證且正確時,sgn(m)=1,否則為0。在此過程中,某些匹配對可能會被錯誤的規(guī)則驗證。例如,只有規(guī)則〈e〉→/IY/而尚未構建規(guī)則〈ea〉→/IY/時,〈easy〉→/IY1 Z IY0/會被分解為S(w→t)=[〈e〉→/IY1/,〈a〉→/-/,〈s〉→/Z/,〈y〉→/IY0/]。此時,〈e〉→/IY/會通過規(guī)則驗證,但結果明顯錯誤。當規(guī)則〈ea〉→/IY/建立后,easy分解結果為S(w→t)=[〈ea〉→/IY1/,〈s〉→/Z/,〈y〉→/IY0/],#S(m→t)從4變?yōu)?,精度提升。因此,本文方法是一個動態(tài)增量匹配過程。
為了驗證數(shù)據(jù)的實用性,本文以英語為例,使用布朗語料庫、古騰堡語料庫、網(wǎng)絡和聊天記錄、地址語料庫和路透社語料庫五種經(jīng)典語料庫與CMUdict的交集。由于人名、地名的發(fā)音規(guī)則與普通單詞不同,因此將其從數(shù)據(jù)集中刪除。如圖1所示,最終采用35 182個常用英語單詞及其音標作為語料庫。
圖1 數(shù)據(jù)源Figure 1 Data source
本文提出的可視化系統(tǒng)主要具有兩個功能:形音匹配和規(guī)則分析。作為規(guī)則分析的基礎,形音匹配對的生成流程如圖2所示。首先,參照單詞集W和對應的音標集T,以一對一的對齊方式對每個單詞進行匹配,構建初始形音匹配集合M。形音匹配對可分成兩類:一類是將字素和音素對齊后形成的粗略匹配對;另一類則是通過了規(guī)則集中的某條規(guī)則驗證的可信匹配對。開始處理前,所有的匹配對都是粗略的。隨著處理的進行,將部分通過規(guī)則驗證的粗略匹配對轉化為可信匹配對,并記錄到相應的單詞中。然后將所有粗略匹配對和可信匹配對反饋至可視化系統(tǒng)。通過交互界面,用戶將字素、音素、樣例和上下文信息相關聯(lián),經(jīng)過綜合分析制定新規(guī)則。新規(guī)則的產(chǎn)生將觸發(fā)系統(tǒng)進行下一輪匹配。重復上述過程,直到W和T中的所有元素分解為形音匹配對,即θ=1。因此,整個匹配過程是一個增量分類過程。用戶可以參照匹配結果進行語音分析和異常值檢測。
圖2 形音匹配流程Figure 2 Shape-tone matching process
初始的形音匹配對集合M由字素與音素以對齊的方式生成。常用的兩種字素音素對齊方法是ε散射法和手工播種法。ε散射法使用EM算法估計一對一字形匹配的概率,并使用動態(tài)時間規(guī)整引入ε,最大程度提高單詞對齊可能性。手工播種法要求列出單詞中每個字母可能對應的音素而不考慮上下文。手工播種法性能更優(yōu)但需要標定初始種子。因為初始規(guī)則集合R為空集,所以本系統(tǒng)中使用ε散射法生成M。此過程同時構建部分生成形音匹配種子的規(guī)則,使用這些種子通過手工播種法進一步校正M。本文系統(tǒng)可以幫助用戶根據(jù)整體信息做出決策,并交替執(zhí)行粗略和精準匹配,直到取得最佳結果。
根據(jù)任務和設計目標,本文提出并實現(xiàn)了基于自然語言形音匹配的可視化分析工具。系統(tǒng)的主界面分為全局視圖、分類視圖、細節(jié)視圖和控制欄四個部分。全局視圖包含進度視圖和分布視圖:進度視圖顯示了單詞在形音匹配中的進度;分布視圖展示了同級中比例關系的多層樹圖。分類視圖將字素、相關規(guī)則和音素分為不同的組,分別呈現(xiàn)于字素視圖、規(guī)則視圖和音素視圖。細節(jié)視圖包含樣例視圖和上下文視圖,可幫助用戶做出決策??刂茩诎瑒?chuàng)建或刪除規(guī)則的工具。粗略的形音對是從單詞和音標的語料庫中生成的,然后被劃分為分類視圖的子視圖。借助樣例視圖,用戶可以使用控制欄創(chuàng)建或刪除新規(guī)則以更新匹配規(guī)則。系統(tǒng)迭代運行,由粗略到精細完成所有單詞的形音匹配。用戶可以在進度視圖中觀察所有單詞的完成進度。分布視圖使分析發(fā)音和檢測異常值更加高效。
如圖3所示進度視圖使用折線圖顯示詞庫中單詞匹配的進度,其中X軸表示完成百分比,Y軸表示相應比例下的單詞數(shù)量。創(chuàng)建新規(guī)則將更新進度視圖。折線圖的實時變化給予用戶積極的心理影響,促進用戶進一步完成工作。為了顯示變化的意義,匹配成功的單詞會從進度視圖中刪除,防止大量單詞降低對比度。匹配的單詞數(shù)量以數(shù)字形式顯示在系統(tǒng)的左上角。
圖3 使用進度視圖篩選單詞Figure 3 Using the progress view to filter words
進度視圖的效果與進度指標類似,是人機交互中非常重要的環(huán)節(jié)。即使幾秒鐘的等待,也足以造成不愉快的用戶體驗。設計合適的指標,在應用過程中提供正反饋尤為重要。因此,進度視圖雖然只是一個輸出視圖,但它對整個系統(tǒng)起著指導作用。進度視圖的另一個功能是篩選單詞,用戶為關心的單詞選定一個范圍,發(fā)音往往與位置有關,如果一個相同位置發(fā)音數(shù)量非常多,應該為這些單詞制定一些關鍵規(guī)則。例如,如果90%以上的范圍內數(shù)量非常多,就意味著一些關鍵的后綴,如-ed、-s可能無法正確匹配。這個過濾可以幫助用戶快速定位不匹配的情況,找到關鍵規(guī)則。
分布視圖是一個多層樹圖。第一層按字素分組,點擊某字素進入第二層后顯示所有相關序列,然后在第三層顯示形音匹配規(guī)則。在分布視圖中顯示所有規(guī)則的比例關系,幫助用戶從全局視角進行觀察。為了顯示規(guī)則的分布,使用不同顏色區(qū)分頻率:淺藍色代表正常的規(guī)則;深藍色代表匹配率低于90%的規(guī)則;深紅色代表使用頻率低于一個閾值的異常發(fā)音變化??偨Y來說,分布視圖是顯示關于規(guī)則的匹配率、類別、比例和異常值的全局分布圖。
字素視圖用氣泡圖顯示上下文視圖中的所有字素。氣泡的大小與語料庫中的出現(xiàn)次數(shù)成正比??尚牌ヅ鋵退衅ヅ鋵Φ谋壤成涑深伾纳疃?,黃色表示被選中。所有相關的匹配對都已完成的氣泡顯示白色邊緣。大氣泡和深色氣泡會優(yōu)先處理,以快速建立發(fā)音的整體性。例如元音和輔音〈t,n,p,s,l,d,c,r〉的比例相對較大,應優(yōu)先處理。
規(guī)則視圖是一個單列的堆疊圖,它展示所有與所選字素相關的規(guī)則,在字素視圖中用黃色圓圈表示。所有粗略匹配對都被歸入TODO方塊中。規(guī)則視圖中每個方塊的高度代表其所占比例。當所有與當前選中字素相關的匹配對都被規(guī)則匹配后,TODO方塊將消失。以字素〈u〉為例,相關規(guī)則不僅包括字素序列〈ua,ui,ur〉等,還包括條件序列〈g[ue]$〉等。在規(guī)則視圖中,TODO方塊以淺藍色顯示,并設置為默認選項,而規(guī)則方塊則以深藍色顯示。當鼠標懸停在相應的方塊上時,會提示詳細信息。字素視圖和規(guī)則視圖實際上形成了匹配對字素序列的二級分類。
M中的g+部分在字素視圖和規(guī)則視圖確定后,音素視圖中顯示M中對應的p+部分。音素視圖也是一個氣泡圖,氣泡大小表示不同發(fā)音數(shù)量的對比關系。黃色氣泡表示正在處理的音素,當鼠標懸停時,會顯示相應氣泡的細節(jié)。而使用的音素小于閾值α則會以深藍色顯示,利于用戶快速定位異常發(fā)音。
字素視圖、規(guī)則視圖和音素視圖構成了本文系統(tǒng)中所有元素的分類,如字素、音素、規(guī)則和匹配對,因此合稱為分類視圖。字素視圖中的元素是固定的,因為它們是由語言決定的,但規(guī)則視圖和音素視圖中的元素是在增量匹配過程中逐步形成的。
樣例視圖顯示了分類視圖所選規(guī)則r對應的w∈W和t∈T。樣例視圖在樣例單詞和音標中高亮所選匹配對,為用戶提供詳細信息。在實際應用中,規(guī)則是匹配結果的最高準則。用戶必須參考單詞和音標,尋求最合適的規(guī)則,這就是樣例視圖的功能。采用隨機抽樣的方式將內容呈現(xiàn)在樣例視圖中,可以在樣例視圖中找到最具代表性的特征,該特征可以幫助用戶制定新的規(guī)則,對匹配對的內容進行新的分類。符合新規(guī)則的內容將從當前的樣例視圖中移除,新的樣例從剩余內容選取。本文系統(tǒng)在此基礎上實現(xiàn)了規(guī)則的增量匹配。
上下文視圖展示了當前匹配對前后內容對發(fā)音的影響。上下文視圖由水平條形圖組成,長度代表了字素或音素的數(shù)量。左右上下文和樣例視圖同步變化,對樣例視圖中的內容起到篩選作用,由用戶確定上下文為字素或音素。考慮到上下文可為字素/音素序列,上下文視圖進行了嵌套構造,單擊圖中條形欄可進入下一級,實現(xiàn)多級篩選。
形音匹配過程中,字素、音素、規(guī)則、樣例和上下文相互影響,復雜的發(fā)音規(guī)律對交互性提出了更高的要求。本文采用多視圖方式,通過交互快速確定關聯(lián)關系。在字素視圖中選擇一個字素后,規(guī)則視圖顯示相關規(guī)則,形成對字素序列的二次分類,然后在音素視圖中顯示相關的音素選項。當用戶在一個規(guī)則內選擇了一個候選匹配對后,樣例視圖中會出現(xiàn)樣例詞及其音標,上下文視圖借助上下文信息以降低匹配對的復雜性,促進正確規(guī)則的提取。新規(guī)則創(chuàng)建后,進度視圖、分布視圖也隨之更新。所有視圖構成一個有機整體,彼此相互依賴。用戶處于主導地位,通過實時交互提高分析流暢性和結果準確性。
本文中,交互的可視分析系統(tǒng)對字素、音素、樣例和上下文進行關聯(lián)分析。本節(jié)以三個具體案例詳細說明匹配過程。這些案例的結果可以結合語言的發(fā)展歷史和文化進行解釋,對語音研究提供了幫助。
案例1
以字素〈u〉為例,首先在字素視圖中選擇字素〈u〉,規(guī)則視圖中的TODO方塊默認跟隨變化。觀察音素視圖并結合英語發(fā)音的基本知識,得出元音字素〈u〉與輔音/JH/是一個錯誤匹配。觀察樣例視圖,其中僅有〈gauge〉和兩個變形詞〈gauges〉、〈gauged〉,如圖4所示。音素/EY/在/JH/的左側,表示/EY/已被匹配。因此猜測〈a〉→/EY/的規(guī)則導致了這種錯誤匹配。結合語言學知識,應該是字素序列〈au〉對應音素/EY/。為了驗證這個猜測,用戶回到分類視圖,觀察〈au〉的信息,字素序列〈au〉沒有/EY/的發(fā)音(圖5左)。于是創(chuàng)建新規(guī)則〈au〉→/EY/,因為〈au〉比〈a〉長。根據(jù)規(guī)則匹配原則,〈au〉的規(guī)則會在〈a〉之前匹配。同時,錯誤的音素/JH/從〈u〉的TODO方塊的字素視圖中消除。新規(guī)則解決了錯誤匹配問題。
圖4 〈u〉→/JH/匹配的樣例視圖Figure 4 〈u〉→/JH/matched sample view
圖5 構造新規(guī)則〈au〉→/EY/Figure 5 Construct new rules 〈au〉→/EY/
據(jù)語言學家統(tǒng)計,英語中古典語詞源只占33%,而拉丁語和希臘語占56%,其他詞源占11%。大量外來詞的存在成為英語的顯著特點。
案例2
本系統(tǒng)對匹配具有較強的推理性。例如〈u〉→/EH/構成一個不常見的候選匹配,但發(fā)音知識告訴用戶〈u〉不應該發(fā)音/EH/。顯然,在這種情況下/EH/屬于〈e〉。大多數(shù)的兩個元音序列應該只有第一個元音發(fā)音,而這里第一個字素〈u〉不發(fā)音。
為了探究原因觀察上下文視圖,如圖6所示。在這種情況下,只有一個前置字素〈g〉,推測〈g〉在〈u〉前導致了這種特殊發(fā)音。如圖7所示,重新選擇〈g〉→/G/,〈g〉→/JH/,〈g〉→/ZH/,觀察上下文視圖右側。分析得出g后跟隨〈a,o,u〉時產(chǎn)生硬發(fā)音/G/。如果后接〈i,e,y〉,大多數(shù)情況下會產(chǎn)生軟發(fā)音/JH/。所以得出結論,為了避免〈g〉與〈e〉直接相連,中間插入不發(fā)音〈u〉,以明確g的發(fā)音,所以形成新規(guī)則〈g[u]〉→/-/。圖中氣泡大小表示規(guī)則頻率。
圖6 〈u〉→/EH/的上下文視圖左右窗口Figure 6 〈u〉→/EH/context view of the left and right windows
縱觀英語發(fā)展史,〈g〉的硬發(fā)音源于原始盎格魯-撒克遜語或日耳曼語,而軟發(fā)音大多源于拉丁語,尤其是法語。原始的軟發(fā)音是法語的/ZH/,轉入英語后改為/JH/,但仍有少量單詞保持/ZH/,如圖7右下角所示。所以在字素〈g〉后面有〈i,e,y〉的單詞,是法語外來詞產(chǎn)生的軟發(fā)音,如generous、gesture、gin、gypsy。
圖7 〈g〉→/G/,/JH/,/ZH/的上下文視圖右窗口Figure 7 〈g〉→/G/,/JH/,/ZH/context view right window
案例3
粗略匹配對〈b〉→/T/明顯不合理。觀察上下文視圖,發(fā)現(xiàn)所有的樣例都是在bt一起出現(xiàn)時發(fā)生的,所以設置條件規(guī)則〈[b]t〉→/-/,即b在t之前不發(fā)音。但是新規(guī)則會產(chǎn)生新的錯誤匹配,例如subtitle、obtain等,因為sub和ob是前綴,〈b〉的發(fā)音應該是/b/。所以需要兩個新規(guī)則〈su[b]t〉→/B/和〈o[b]t〉→/B/。這個漸進的過程表明了本文系統(tǒng)的交互性和實時性。任何異常值的出現(xiàn)都被實時反饋給用戶。
查閱相關資料,大量的拉丁文單詞和特征被引入,并逐漸成為日常生活中的常用詞。這給英語中的法語單詞賦予拉丁面孔,比如在debt等單詞中插入了字素b,但沒有實際發(fā)音。規(guī)則〈[b]t〉→/-/就是來自這一歷史事件。
本系統(tǒng)將語料庫中的35 182個單詞與發(fā)音處理后得到235 272組匹配對,構建了386條發(fā)音規(guī)則。
分布視圖以樹狀圖的形式顯示所有規(guī)則,用不同大小的矩形區(qū)域代表規(guī)則的頻率。元音規(guī)則比輔音多,相對較少的規(guī)則占據(jù)了大部分區(qū)域。將所有規(guī)則按照使用量進行逆向排序,然后將數(shù)值進行累加,得到圖8左邊的曲線。通過曲線可以看出,64條規(guī)則就占到90%的發(fā)音,它們是構成英語發(fā)音的最重要規(guī)則。
圖8 累加曲線與頻率擬合Figure 8 Accumulation curve fits with frequency
如圖8所示,本文采用Yule分布對規(guī)則頻率進行擬合,得到R2=0.993。這個結果意味著規(guī)則的使用頻率符合冪律分布。同時,這也反映了一個成熟的語言系統(tǒng)經(jīng)過長期歷史沉淀后自然選擇、適者生存的生態(tài)特征。
此外,本系統(tǒng)還可以用來詳細分析英語發(fā)音。在字素視圖中選擇e,在規(guī)則視圖中選擇〈[ed]$〉后,音素視圖中顯示三種發(fā)音,如圖9所示?!碵ed]$〉在清輔音/S/、/K/、/CH/、/P/、/SH/后發(fā)/T/,如washed和skipped;在元音和濁輔音/L/、/N/、/Z/、/M/、/R/后發(fā)/D/,如played和prepared;在t、d后發(fā)/AH D/,如regarded、hoisted。
圖9 〈[ed]$〉的發(fā)音分析Figure 9 〈[ed]$〉 pronunciation analysis
在古英語中,后綴ed用于構成動詞過去式和過去分詞的弱化語態(tài),使用頻率較低。但隨著英語單詞的增多,常規(guī)的ed形式逐漸演變?yōu)橐环N主要的應用形式。它的發(fā)音主要受清輔音和濁輔音的影響,清輔音和濁輔音的發(fā)音分別為/T/和/D/。但當產(chǎn)生上下文關聯(lián),前一聲母發(fā)音為/T/、/D/時,發(fā)音就會重疊,于是形成了/AH D/的特殊發(fā)音。
自然語言的混亂導致很多發(fā)音的異常變化,異常發(fā)音的檢測與分析也很重要。在本系統(tǒng)發(fā)現(xiàn)的386條規(guī)則中,有126條規(guī)則的使用率小于10。本系統(tǒng)建立了一個增量匹配的規(guī)則。常規(guī)發(fā)音規(guī)則創(chuàng)建后,異常發(fā)音就會突出,可在分布視圖中觀察到這些異常發(fā)音。圖10顯示了所有音素到字素〈u〉的匹配關系。小于閾值α的音素用深色突出顯示,用戶很容易找到這類特殊的發(fā)音,如women一詞中的〈u〉→/IH/。字素〈o〉的分布視圖第二層如圖11所示。特殊讀音的規(guī)則用暗深色突出顯示,如〈ow〉→/AA/只出現(xiàn)在knowledge及其復合詞中。
圖10 字素〈u〉的音素Figure 10 The phoneme of 〈u〉
圖11 字素〈o〉分布視圖第二層Figure 11 〈o〉 overall view level 2
可視化反饋對異常值的檢測十分有效。頻率較低的規(guī)則可以幫助用戶定位發(fā)音的異常值。一方面可以找到特殊發(fā)音,如觀察規(guī)則〈oo〉→/UH/對應的樣例視圖,發(fā)現(xiàn)只有flood和blood兩個詞及其衍生詞;另一方面可以發(fā)現(xiàn)錯誤。如在CMUdict中,bankruptcy被寫成bankrupcty,laugher的發(fā)音為/L AA K ER/等,通過本文系統(tǒng)都被精確地發(fā)現(xiàn),經(jīng)過查找劍橋和牛津詞典,確定為拼寫錯誤。
本文設計了一個交互可視化的語音分析工具,實現(xiàn)了對語料庫中所有詞及音標的粗略到精細的增量匹配?;谛我羝ヅ鋵?,本文將相關的字素、音素、樣例和上下文一起關聯(lián)分析語音特征。通過可視化,不僅支持整體的語音結構,還支持異常值檢測下的發(fā)音異常變化的細節(jié),打開了機器學習方法的黑匣子。通過可視化交互,語言學家可以結合歷史和文化深入了解語音系統(tǒng),進一步了解語言的本質特征。本文提出的可視化工具可以將字素和音素用便于人類理解的方式進行匹配,形成發(fā)音規(guī)則,對發(fā)音預測、語言學習和語音研究都起到積極促進作用。