摘 要: 外語教學(xué)資源開發(fā)水平的高低直接影響到外語教學(xué)的效率和效果。對目前外語視聽教學(xué)資源開發(fā)中存在的問題進行了分析;對語音自動斷句技術(shù)及其在外語視聽教學(xué)資源開發(fā)中的應(yīng)用進行了研究和探討;結(jié)合作者研發(fā)的FLAVS(V3.2)系統(tǒng),給出了實現(xiàn)語音斷句的基本思路以及視聽資源的同步整合方法。
關(guān)鍵詞: 語音斷句; 外語教學(xué); 視聽教學(xué); 教學(xué)資源; 同步整合
中圖分類號:TP319 文獻標(biāo)志碼:A 文章編號:1006-8228(2014)06-04-04
0 引言
外語教學(xué)具有很強的實踐性,要獲得好的教學(xué)效果,學(xué)生須經(jīng)常進行反復(fù)的視聽訓(xùn)練,訓(xùn)練元素可以是單句、段落或意群。然而,無論是傳統(tǒng)的錄音/錄像帶,還是當(dāng)前的數(shù)字化音像制品,要迅速精確地選定訓(xùn)練元素(如:句段),單靠人工操作是一件很困難的事情。
此外,有效的視聽訓(xùn)練不僅需要生動的音視頻資源,還需要內(nèi)容豐富的文本資源(如中外文字幕、生詞注釋、句段講解、背景知識等),以及經(jīng)科學(xué)整合而形成的一個聲(像)文一體、同步可控、操作便捷的語言訓(xùn)練環(huán)境。
總之,實現(xiàn)句段的精準(zhǔn)定位和視聽資源的科學(xué)整合,是有效改善視聽教學(xué)的兩個重要條件。語音自動斷句則是實現(xiàn)這兩個重要條件的關(guān)鍵技術(shù),是高效率地進行復(fù)讀、跟讀、聽抄、會話等多種語言訓(xùn)練的技術(shù)基礎(chǔ)。
1 外語教學(xué)資源概述
“教學(xué)資源已成為影響課程教學(xué)質(zhì)量的一個制約因素,教學(xué)資源建設(shè)不僅需要媒體資源的數(shù)量,更需質(zhì)量[1]。”外語教學(xué)資源是實施外語教學(xué)的重要元素,特別是視聽資源,它在整個語言學(xué)習(xí)過程中起著至關(guān)重要的作用。豐富生動的高質(zhì)量音視頻資源,可為學(xué)生提供一個最真實,最具趣味性的語言環(huán)境,通過視、聽、說、讀等全方位的綜合訓(xùn)練,使各種語言感官同時受到刺激,進而取得良好的教學(xué)效果。
1.1 外語教學(xué)資源的類型
從廣義角度來說,教學(xué)資源是實施教學(xué)所需的包括人力資源、教材資源、環(huán)境設(shè)備資源、教學(xué)信息資源等在內(nèi)的各種軟件和硬件資源,比如:教學(xué)場地、教學(xué)設(shè)備、教育制度、師資、教法、教材、課件、參考資料等。
本文所說的外語教學(xué)資源,主要指教學(xué)課件、教學(xué)素材及教學(xué)平臺等軟件資源,從媒介形式上分,有音頻、視頻和文本等。
⑴ 音頻資源
語言本身是通過聲音來傳遞的,因此音頻資源是外語教學(xué)中普遍使用的、最基本的教學(xué)資源。傳統(tǒng)的音頻資源是以錄音帶為載體的模擬信息,目前已不能滿足現(xiàn)代外語教學(xué)的需要;而現(xiàn)代的音頻資源則是以光盤、磁盤或網(wǎng)絡(luò)為載體的數(shù)字化信息,它在外語教學(xué)中越來越表現(xiàn)出明顯優(yōu)勢和不可替代性。
⑵ 視頻資源
視頻是聲像一體的教學(xué)資源(如電影、教學(xué)片等),它在外語教學(xué)中是不可或缺的。認(rèn)知心理學(xué)的研究結(jié)果表明,人的一生中所掌握的信息有94%是通過視覺和聽覺獲得的, 其中88%通過視覺,12%通過聽覺[2]。可見,如果能夠充分利用視頻資源進行生動、形象的外語教學(xué),使各語言感官同時受到刺激,學(xué)生會有身臨其境的感覺,學(xué)習(xí)效率和教學(xué)效果將得到明顯提高。
⑶ 文本資源
文本(如字幕、生詞注釋、句段講解及背景知識等)探討最基本的外語視聽教學(xué)資源,它能精準(zhǔn)地表達語言本意,可描述任何語法現(xiàn)象和語篇細(xì)節(jié),這是音像資源所不及的。盡管有越來越多新型的教學(xué)媒體和資源產(chǎn)生,但文字資源始終占有重要地位,是其他資源無法替代的。一九八一年三月十六日,被美國媒體稱為“打破寂靜的日子”的首部字幕電視劇播出,從此,失聰及聽覺有障礙的觀眾便可以通過字幕來欣賞電視節(jié)目了[3]。這充分表明,字幕就是一種很好的教學(xué)資源,具有較強的學(xué)習(xí)功效。充分發(fā)揮文本資源的優(yōu)勢,將其與音視頻資源進行有機結(jié)合,可使外語教學(xué)獲得良好的效果。
1.2 教學(xué)資源的開發(fā)現(xiàn)狀
目前,隨著網(wǎng)絡(luò)與多媒體技術(shù)的發(fā)展,人們可通過多種途徑輕易獲得各式各樣的外語視聽素材,如:錄音、錄像、講座、教學(xué)片及相關(guān)文本素材。但由于多種因素的制約,這些素材還遠未發(fā)揮出其應(yīng)有的作用,還存在著如下幾個問題。
⑴ 自動化程度低
學(xué)好外語要靠大量反復(fù)的聽、說、讀、寫訓(xùn)練。這有賴于操作簡單、自動化程度高的視聽資源的支持。學(xué)生要反復(fù)進行某一句段的訓(xùn)練時,希望視聽環(huán)境能提供迅速精準(zhǔn)的句段定位功能,只需輕點一下鼠標(biāo)即可如愿,以利于實現(xiàn)強化訓(xùn)練。然而,經(jīng)筆者進行大量的調(diào)查統(tǒng)計發(fā)現(xiàn),目前97%以上的教學(xué)資源不具備這些功能,自動化程度極低。比如,音視頻文件一般都未進行句段標(biāo)識和斷句處理,直接導(dǎo)致句段查找與精確定位的困難,以及學(xué)習(xí)效率的低下。分析其原因,主要是目前能夠提供自動斷句功能的軟件很少,只有Aboboo、RepeatPlayer、EditLrc等為數(shù)不多的幾個,且自動斷句及資源整合功能大多較弱;而手工斷句的工作量大,開發(fā)效率低,極大影響了外語教師對教學(xué)資源開發(fā)的熱情。
⑵ 整合度差
外語視聽教學(xué)資源涉及到音頻、視頻、文本等多種形式和多項元素。各元素須經(jīng)過科學(xué)整合才能形成一套完備實用的教學(xué)資源或教學(xué)系統(tǒng)。并且,“一個好的視聽教學(xué)系統(tǒng),必須考慮對上述教學(xué)元素的同步控制,使其在視音頻信息流動的同時自動定位或展示其他教學(xué)元素。這樣,受訓(xùn)者隨時都能受到多角度、全方位的訓(xùn)練,也能極大提高訓(xùn)練效率和教學(xué)效果[4]?!比欢?,目前相當(dāng)一部分視聽素材都是從網(wǎng)上下載的,缺乏科學(xué)整合,音視頻與文本素材相互脫節(jié)、雜亂無序、系統(tǒng)化程度較低,如直接使用,則難以收到良好的教學(xué)效果。
造成外語教學(xué)資源整合度差的原因主要有:①資源類型較復(fù)雜,既有文本又有音視頻,整合難度大;②資源的開發(fā)整合技術(shù)較復(fù)雜,涉及計算機、多媒體、網(wǎng)絡(luò)及教育技術(shù)等,較適用的開發(fā)平臺不多。
⑶ 通用性不強
目前,很多外語視聽教學(xué)資源的開發(fā)都是外語教師自發(fā)進行的,既沒有明確的標(biāo)準(zhǔn),又缺乏技術(shù)人員的支持,開發(fā)工作不少還停留在較初級階段;開發(fā)的資源不具有較強的規(guī)范性、適應(yīng)性和共享性,難以進行交流和推廣,重復(fù)開發(fā)現(xiàn)象比較普遍。
2 語音自動斷句技術(shù)
語音自動斷句是開發(fā)具有較高自動化程度的外語視聽教學(xué)資源的關(guān)鍵技術(shù)。采用該技術(shù)可對音視頻資源進行語音句段的自動分割,有利于提高外語視聽教學(xué)資源的整合水平。下面介紹語音斷句的概念、基本算法以及自動斷句的實現(xiàn)方法。
2.1 語音斷句的概念
語音斷句,就是對數(shù)字音視頻素材的語音信號以句段為單位進行切分處理。語音斷句是通過形成一組句段標(biāo)識數(shù)據(jù)而實現(xiàn)的對音視頻文件進行的邏輯分割。這組標(biāo)識數(shù)據(jù)用來標(biāo)識一整段音頻(或視頻)中每個句段的起止位置,進而在程序的控制下,實現(xiàn)播放句段的靈活選擇。
語音自動斷句,實質(zhì)上就是通過程序設(shè)計的方法來自動獲得各句段的標(biāo)識數(shù)據(jù)。這有利于學(xué)習(xí)者和課件制作者能夠?qū)W⑺麄兊慕虒W(xué)活動。
語音自動斷句是進行視聽資源整合的基礎(chǔ),其自動化程度,直接關(guān)系到外語視聽教學(xué)的訓(xùn)練效率、訓(xùn)練強度和學(xué)習(xí)效果,也決定著相關(guān)教學(xué)課件的開發(fā)水平。
2.2 語音斷句的相關(guān)算法
目前,語音斷句技術(shù)所涉及的主要算法有:基于隱形馬爾科夫模型(HMM)方法、基于動態(tài)時間伸縮(DTW)方法、基于小波變換(wavelet transform)方法,以及基于粒計算(granular computing)方法等。
由于音視頻樣本中聲音信號的復(fù)雜性,盡管語音斷句的研究工作已有較長歷史,并取得了很大成績,但仍面臨許多困難,如:算法的適應(yīng)性較差、強背景噪音下分段困難、一些能量較低的爆破音和鼻音難以判斷等。要克服這些困難,需對現(xiàn)有方法進行詳細(xì)研究和比較,再輔以其他手段并施加一定的人工干預(yù)(比如,人工判斷背景噪音等情況并設(shè)置相關(guān)語音參數(shù))。
筆者在編程實踐中,自動斷句的語音參數(shù)主要采用背景噪音、句間停頓、最短句長、允許雜音數(shù)等四個。通過改變它們的設(shè)定值,可靈活尋找句間停頓,并收集斷點信息,能有效提高斷句的精度。這四個參數(shù)的意義如下(如圖1所示)。
⑴ 背景噪音:小于該值的樣本算做靜音,設(shè)定值越大,切分出的句段越多。
⑵ 句間停頓:大于該值的停頓才算句段,設(shè)定值越大,切分出的句段越少。
⑶ 最短句長:大于該值的非靜音采樣才被認(rèn)定為句段,設(shè)定值越大,切分出的句段越少。
⑷ 允許雜音數(shù):句間停頓允許存在的雜音數(shù),設(shè)定值越大,切分出的句段越多。
2.3 自動斷句的實現(xiàn)方法
考慮到語言訓(xùn)練重復(fù)性強的特點以及與其他資源整合的需求,我們采用將音視頻中的句段起止時間記錄于媒體播放器外掛文件的方法,來實現(xiàn)邏輯上的語音斷句。外掛文件有多種,我們開發(fā)的FLAVS針對的是lrc文件。
⑴ lrc文件的作用與結(jié)構(gòu)
對于lrc文件,經(jīng)常聽音樂的朋友一定不陌生,它記錄的是音視頻文件中各句段的起始時間和同步歌詞(或字幕),其作用就是為自動斷句程序提供斷點數(shù)據(jù),為視聽資源的整合提供同步數(shù)據(jù)?;诖?,我們就可以設(shè)計程序,通過外掛文件來控制音視頻文件的播放進度,進而實現(xiàn)語音自動斷句。
外掛文件的文件名一般與相應(yīng)的音視頻文件相同,其擴展名則決定于外掛文件的類型,如lrc外掛文件的擴展名為“.lrc”。lrc外掛文件的結(jié)構(gòu)如下:
上述文件中的前4行是通用信息,不是我們關(guān)注的重點。第5行以后的內(nèi)容是文件的主體,每行都由“時間”和“文本”這兩個字段組成。其中,[ ]中的內(nèi)容是時間字段,表示當(dāng)前句段的開始時間,格式為“HH:MM:SS.mmm”,若時間小于60分鐘,則表示為“MM:SS.mmm”;[ ]后的內(nèi)容是文本字段,是本句段的同步顯示文本,可設(shè)置歌詞(或中外文字幕)、生詞注釋、句段注解等。
⑵ 斷句的實現(xiàn)
實現(xiàn)語音自動斷句需做兩個方面的工作:一是準(zhǔn)確采集音視頻樣本中各句段的時間軸(即時間字段)數(shù)據(jù),并將其寫入lrc文件;二是根據(jù)時間軸,來控制播放指針的啟停位置。這里的關(guān)鍵是如何準(zhǔn)確采集時間軸數(shù)據(jù)。
為此,我們在FLAVS早期版本的基礎(chǔ)上,為其增加了語音自動斷句功能,形成了FLAVS(v3.2)。程序中對時間字段的采集主要采用上述基于語音參數(shù)的斷句算法,并設(shè)置了“背景噪音”、“時間停頓”、“最短句長”和“允許雜音數(shù)”等4個調(diào)節(jié)鈕(如圖2所示)。當(dāng)各參數(shù)值調(diào)節(jié)到滿意效果時,程序自動對音視頻樣本中各句段的起止時間進行采集,并寫入一個與音視頻文件同名的lrc文件中,進而可實現(xiàn)語音自動斷句。
下面是使用FLAVS(v3.2版)進行語音斷句的操作過程:
① 先通過“打開”按鈕打開要斷句的音視頻文件(如The_Sound_of_Music.avi);
② 再通過“斷句”按鈕進入斷句參數(shù)調(diào)整窗口,來調(diào)節(jié)“背景噪音”、“句間停頓”、“最短句長”、“允許雜音數(shù)”等參數(shù)(見圖2);
③ 最后按“保存”按鈕即可自動生成一個與音視頻文件同名的包含時間字段的句段切分文件The_Sound_of_Music.lrc,并將句段切分情況顯示于句段編輯面板中,如圖3所示。
從位于圖3下半部的句段編輯控制板中可以看出,經(jīng)FLAVS(v3.2)的斷句處理后,影片《The Sound of Music》的所有句段已全部被自動切分。之后,學(xué)習(xí)者只需輕輕點擊句段編輯控制板中的某個句段,播放指針便會迅速準(zhǔn)確地自動指向該句段的開始,以利于反復(fù)進行視聽訓(xùn)練。
3 視聽資源的同步整合
前面我們對視聽資源之一的音視頻樣本進行了斷句處理,為句段的快速選擇和精準(zhǔn)定位提供了必要條件。然而,要全面有效地提升學(xué)生的外語實踐能力,僅有音視頻資源是不夠的,還需擴展和提供中外文字幕、生詞注釋、句段注解、背景知識等文本資源,并實現(xiàn)聲文資源的同步聯(lián)動,使之形成一個句段選擇精準(zhǔn)、聲(像)文一體、融合度高的資源結(jié)構(gòu)體。
3.1 何謂同步整合
所謂“同步”,是指音視頻資源與相關(guān)文本資源(如字幕、生詞注釋、句段講解、背景知識等)在播放與展示時間上的吻合,即:在音視頻文件的播放過程中,相應(yīng)的文字信息以句段時長為切換節(jié)點而進行的同時展示。
所謂“同步整合”,則是指對視聽教學(xué)中需要同時展示的相關(guān)資源所進行的同步設(shè)置和有機融合,實現(xiàn)對音視頻資源與文本資源的聯(lián)動和靈活控制。
“混合性、整合性、技術(shù)性是屏性媒介具備的重要的視覺特質(zhì)”[5],在傳統(tǒng)的音像作品中,有的嵌入了歌詞或字幕,這勉強也算是一種同步整合,但不是真正意義的整合。真正的資源整合,是各種資源的表現(xiàn)方式不是呆板的、固定的,而是既相互關(guān)聯(lián)又靈活可控的。這種靈活可控性(以字幕為例,其他資源類同)主要表現(xiàn)在:字幕的出現(xiàn)時機和文種變化,應(yīng)由學(xué)習(xí)者根據(jù)學(xué)習(xí)進度來自主選擇,自由控制。
此外,在外語視聽訓(xùn)練的不同階段,字幕及文種變化,對學(xué)習(xí)效果的影響是確定的。調(diào)查統(tǒng)計表明:在訓(xùn)練的初始階段,外文字幕的同步展示有助于“聽清”,即聽清楚每個句段的正確發(fā)音;在訓(xùn)練的中級階段,中文字幕的同步展示有助于“聽懂”,即聽懂每個句段的真正含義;在訓(xùn)練的高級階段,字幕的隱藏有助于“聽熟”,即聽說能力的加強、鞏固和熟練。
3.2 同步整合方法
視聽資源的同步整合需在自動斷句的基礎(chǔ)上,通過程序設(shè)計的方法進行。
⑴ 程序設(shè)計思想
同步整合的實質(zhì)是以lrc文件中的每個句段為單位,將各文本字段寫入相應(yīng)的時間字段之后,并控制其內(nèi)容(如字幕、生詞注釋、句段注解等)跟隨音視頻的播放進度,在時間軸指示的節(jié)點上得到同步展示。
FLAVS(v3.2)系統(tǒng)就是依照上述設(shè)計思想而開發(fā)的。該系統(tǒng)具有整合效率高、性能穩(wěn)定、資源靈活、操作簡單等特點,既適于音頻文件,又適于視頻文件,還可將外文字幕、中文字幕以及句段注解等內(nèi)容分類錄入。
由于lrc文件是很多播放器共同知識的外掛文件,所以采用這種思想整合的視聽資源具有很強的規(guī)范性和通用性。
⑵ 同步整合的具體實現(xiàn)
在完成斷句的基礎(chǔ)上進行視聽資源的同步整合,其主要任務(wù)有兩個:一是向lrc文件布局各句段的文本字段;二是控制相關(guān)資源的同步展示。后一項任務(wù)完全由程序自動完成,只有前一項任務(wù)需要人工干預(yù)和手工錄入。
具有資源整合功能的軟件有Aboboo、EditLrc、EnMp3Player及FLAVS(v3.2)等,建議優(yōu)先選擇FLAVS(v3.2)。
使用FLAVS(v3.2)進行資源的同步整合,可在如圖4所示的聽抄窗口中進行,以句段為單元將各類文本分別輸入相應(yīng)文本框,待所有句段都輸入完畢,按“確認(rèn)退出”按鈕保存。
實現(xiàn)視聽資源同步整合的前一項任務(wù),還可不通過純手工的方法完成。該方法不需要專門的軟件,而是使用任何一種普通文本編輯器(如Windows系統(tǒng)自帶的“記事本”)直接對lrc文件進行編輯,將需要同步的字幕、生詞注釋、句段注解等文本資料錄至相應(yīng)的時間字段后。使用該方法,要注意“|”和“^”這兩個字符的使用,因為FLAVS(v3.2)使用這兩個特殊字符對lrc文件進行了兼容性擴展,其中“|”用于分割外文字幕和中文字幕,“^”用于分割中文字幕和注解。比如,圖4中的句段內(nèi)容在lrc文件中表示為:
4 結(jié)束語
對于外語教學(xué),其實踐性強的特點決定了受訓(xùn)者只有進行多角度、全方位、不間斷的語言訓(xùn)練才能提高訓(xùn)練效率和學(xué)習(xí)效果。這在客觀上要求外語教學(xué)必須有內(nèi)容豐富、通用性強、整合性好、自動化程度高、訓(xùn)練效果明顯的視聽資源作支撐。而語音自動斷句技術(shù),則是進行外語視聽教學(xué)資源同步整合的基礎(chǔ),也決定著數(shù)字化外語教學(xué)課件的開發(fā)質(zhì)量。盡管外語教學(xué)資源建設(shè)還存在著語義識別困難、語音背景噪音復(fù)雜等多種問題,但隨著計算機、多媒體等技術(shù)的不斷發(fā)展和進步,相信這些問題會逐步得到解決。
參考文獻:
[1] 王涵等.教學(xué)資源建設(shè)在課堂教學(xué)中應(yīng)用探析[J].科技文匯,2009.3:126-127
[2] 成榮榮.運用網(wǎng)絡(luò)、多媒體手段完善英語課堂教學(xué)[J].現(xiàn)代情報,2006.9:198-199
[3] 戴勁.影視字幕與外語教學(xué)[J].外語電化教學(xué),2005.6(3):18-22
[4] 張增良.外語視聽教學(xué)系統(tǒng)的開發(fā)與應(yīng)用[J].現(xiàn)代教育技術(shù),2008.11:69-72
[5] 王志強.屏性視覺媒介的自身特質(zhì)及其倫理價值反思[J].現(xiàn)代遠距離教育,2013.6:69-73