顏清波 任 鵬
常熟理工學(xué)院,江蘇 常熟 215500
全字幕是指與視頻中語(yǔ)音完全同步對(duì)應(yīng)的文本信息,是對(duì)視頻中的對(duì)話、講述、解說(shuō)等語(yǔ)音內(nèi)容以文字的形式展現(xiàn)的,主要是幫助觀眾更好地理解視頻所要表達(dá)的內(nèi)容。尤其是在教學(xué)類視頻中,全字幕發(fā)揮著重要的作用,可以避免因教學(xué)者普通話不標(biāo)準(zhǔn)、字詞同音的問(wèn)題;避免教學(xué)內(nèi)容有專業(yè)名詞不易理解,避免視頻中其他聲音的干擾;還能解決部分特殊的需求,比如聽(tīng)力不好或授課者與觀眾所掌握的語(yǔ)種不同等問(wèn)題。但傳統(tǒng)的全字幕添加是一項(xiàng)流程復(fù)雜且耗時(shí)的工作。一般視頻的全字幕文字量少則幾百,多則數(shù)萬(wàn)字,利用視頻剪輯軟件的文字添加工具一字一句添加是不現(xiàn)實(shí)的。傳統(tǒng)的添加方法一般有兩種:一是軟件本身自帶的批量添加功能,二是利用專門的字幕軟件或插件來(lái)添加。
隨著科技的進(jìn)步,AI技術(shù)的不斷發(fā)展,人工智能語(yǔ)音識(shí)別技術(shù)已能快速識(shí)別視頻中的語(yǔ)音并生成文字字幕,而且中文識(shí)別的正確率很高,利用語(yǔ)音識(shí)別技術(shù)制作全字幕已成為新的全字幕制作方式。
語(yǔ)音字幕軟件??拼笥嶏w是國(guó)內(nèi)一家專業(yè)從事智能語(yǔ)音研究的科技公司,其智能語(yǔ)音核心技術(shù)達(dá)到世界先進(jìn)水平。訊飛聽(tīng)見(jiàn)字幕是該公司的一款A(yù)I視頻字幕制作軟件。該軟件最早出現(xiàn)于2019年,通過(guò)導(dǎo)入視頻文件,自動(dòng)生成帶時(shí)間碼的字幕。該軟件功能強(qiáng)大,識(shí)別準(zhǔn)確率高,時(shí)間碼匹配準(zhǔn)確,支持生成SRT/ASS/XML等多格式字幕文件,可同時(shí)生成中英雙語(yǔ)字幕。缺點(diǎn)是屬于第三方軟件,需要另外安裝客戶端,添加字幕時(shí)需要上傳視頻文件,而且是一款收費(fèi)軟件。
視頻編輯軟件。2021年年初,國(guó)產(chǎn)視頻編輯軟件剪映推出了專業(yè)版Windows版本,該版本內(nèi)嵌AI功能,可以智能識(shí)別語(yǔ)音自動(dòng)生成字幕,該功能識(shí)別快速精準(zhǔn),時(shí)間匹配準(zhǔn)確,而且還是免費(fèi)的。剪映的這個(gè)功能在視頻編輯軟件中一度處于領(lǐng)先地位。而Premiere、FinalCutPro等專業(yè)視頻編輯軟件在當(dāng)時(shí)都沒(méi)有這項(xiàng)功能。很多視頻工作者在用Premiere、FinalCutPro編輯好視頻后再通過(guò)剪映來(lái)為自己的作品添加全字幕。也或者在剪映中生成字幕后通過(guò)第三方工具轉(zhuǎn)成SRT文件進(jìn)行添加。也可以在Premiere、FinalCutPro中導(dǎo)出視頻的語(yǔ)音文件,通過(guò)剪映識(shí)別后生成帶字幕的藍(lán)綠視頻,再導(dǎo)入Premiere、FinalCutPro中進(jìn)行摳像添加字幕。為了更好地利用剪映的語(yǔ)音識(shí)別功能,在Premiere中更是出現(xiàn)了相關(guān)的腳本插件如Q_Chameleon,使得在剪映中識(shí)別到的字幕可以直接以SRT的格式導(dǎo)入Premiere中。直到2021年年底,2022版的Premiere終于也增加了語(yǔ)音轉(zhuǎn)文本功能。2022年2月,Premiere進(jìn)一步完善其語(yǔ)音轉(zhuǎn)文本功能,使用前只需下載語(yǔ)言包,便可在無(wú)互聯(lián)網(wǎng)連接的情況下創(chuàng)建轉(zhuǎn)錄文本。
剪映和Premiere是兩款定位不同的視頻編輯軟件,剪映定位于視頻編輯愛(ài)好者,Premiere則傾向于專業(yè)用戶。剪映在進(jìn)行語(yǔ)音識(shí)別添加全字幕時(shí)操作簡(jiǎn)單,只需把視頻文件添加到時(shí)間線,然后選擇“文本”—“智能字幕”,稍作等待,軟件就自動(dòng)在時(shí)間線上添加好相應(yīng)的字幕。Premiere則將整個(gè)過(guò)程分為語(yǔ)音識(shí)別和創(chuàng)建字幕兩個(gè)步驟。將視頻文件添加到時(shí)間線,在“文本和圖形”窗口中選擇“文本”—“字幕”—“轉(zhuǎn)錄序列”,軟件進(jìn)行識(shí)別后在“轉(zhuǎn)錄文本”中顯示識(shí)別后的文本,核對(duì)無(wú)誤后點(diǎn)擊“創(chuàng)建說(shuō)明性字幕”進(jìn)行相關(guān)設(shè)置,最后生成字幕。兩款軟件目前使用者較多,語(yǔ)音識(shí)別功能強(qiáng)大,非常具有代表性。接下來(lái)就對(duì)比一下兩款軟件的語(yǔ)音識(shí)別情況。
(1)識(shí)別速度。在同一臺(tái)電腦,同種網(wǎng)絡(luò)速度下,以一段近10 min的授課視頻為例進(jìn)行測(cè)試,剪映用時(shí)40 s左右,Premiere用時(shí)近2 min。可以看出,剪映的識(shí)別速度要優(yōu)于Premiere。
(2)準(zhǔn)確率。同一段授課視頻近2300個(gè)文字,其中剪映識(shí)別錯(cuò)誤21個(gè),Premiere識(shí)別錯(cuò)誤27個(gè)。兩款軟件針對(duì)這段視頻的識(shí)別準(zhǔn)確率在99%左右,表現(xiàn)非常優(yōu)秀。
(3)時(shí)間碼匹配程度。經(jīng)測(cè)試,兩款軟件在字幕出現(xiàn)的時(shí)間上都做得很優(yōu)秀,軟件匹配好后都無(wú)須再做這方面的修改。
(4)字幕修改的便捷程度。在剪映中,軟件在識(shí)別語(yǔ)音后自動(dòng)把字幕添加到時(shí)間線上,檢查、修改文字需要在時(shí)間線上過(guò)一遍,而且單條字幕的長(zhǎng)度由軟件自定,后期修改會(huì)比較煩瑣。Premiere在識(shí)別后會(huì)在“轉(zhuǎn)錄文本”標(biāo)簽頁(yè)顯示對(duì)應(yīng)的全部文本內(nèi)容,軟件還提供查找、替換功能,視頻制作者可在該窗口中方便地修改識(shí)別錯(cuò)誤的文字。在創(chuàng)建字幕時(shí),還有單條字幕的最大字符數(shù)、字符間隔、行數(shù)等設(shè)置,可以高效地制作出符合意圖的字幕。兩款軟件在字幕的字體、樣式修改上都很方便。值得一提的是,Premiere在語(yǔ)音識(shí)別及創(chuàng)建字幕時(shí)保留了標(biāo)點(diǎn)符號(hào),我們知道,字幕一般不含標(biāo)點(diǎn),所以使用Premiere添加字幕時(shí)需人工去除標(biāo)點(diǎn)。
(5)其他區(qū)別。比如在軟件的獲得方面,剪映是免費(fèi)的,Premiere是收費(fèi)的;剪映只支持中文,而Premiere支持包含中文、英文在內(nèi)的13種語(yǔ)言的語(yǔ)音識(shí)別;剪映每次識(shí)別時(shí)都需要聯(lián)網(wǎng),而Premiere在首次使用時(shí),需通過(guò)聯(lián)網(wǎng)下載所需語(yǔ)言包,之后即可脫機(jī)進(jìn)行語(yǔ)音識(shí)別;剪映識(shí)別整個(gè)時(shí)間線的視頻語(yǔ)音,而Premiere可自定義語(yǔ)音識(shí)別的范圍。
以上是兩款軟件在語(yǔ)音識(shí)別添加字幕方面的主要區(qū)別。正如兩者的軟件定位一樣,剪映沒(méi)有復(fù)雜的設(shè)置,相對(duì)友好一些,Premiere則顯得更專業(yè)一些。但兩者各有特色,都能很好地根據(jù)視頻語(yǔ)音來(lái)添加字幕,視頻制作者可以根據(jù)實(shí)際情況來(lái)選擇相應(yīng)的工具。
視頻主要依靠畫面和聲音向觀看者傳遞信息。全字幕屬于畫面范疇,對(duì)話、講述、解說(shuō)等語(yǔ)音內(nèi)容屬于聲音范疇,全字幕的內(nèi)容也即語(yǔ)音內(nèi)容。本文所講的字幕提取主要指把視頻中的語(yǔ)音轉(zhuǎn)換成獨(dú)立于視頻的文本形式。雖然全字幕能反映出語(yǔ)音的具體內(nèi)容,但把語(yǔ)音轉(zhuǎn)換成單獨(dú)的文本依然有其現(xiàn)實(shí)意義。
(1)便于審核。隨著網(wǎng)絡(luò)的日益發(fā)達(dá),視頻傳播越來(lái)越快速、便捷,網(wǎng)絡(luò)上會(huì)出現(xiàn)一些有悖國(guó)家法律法規(guī)、影響國(guó)家利益和形象、不符合社會(huì)道德標(biāo)準(zhǔn)的視頻。因此,對(duì)于視頻內(nèi)容的審核和監(jiān)管就顯得尤為重要。目前審核方式主要有人工審核和智能審核系統(tǒng)兩種。人工方式主要依靠人力、抽取完整視頻或片斷進(jìn)行瀏覽審核。智能審核系統(tǒng)一般按一定的間隔抽取幀畫面進(jìn)行分析。人工審核費(fèi)時(shí)費(fèi)力,一般適用于視頻數(shù)量不多的情況或者作為智能審核系統(tǒng)的一個(gè)補(bǔ)充。智能審核系統(tǒng)能夠批量審核,但成本較高,一般用于專門機(jī)構(gòu)或網(wǎng)絡(luò)平臺(tái)。智能語(yǔ)音提取字幕能夠把視頻內(nèi)容轉(zhuǎn)換成文本內(nèi)容,把視頻審核轉(zhuǎn)變?yōu)殡娮游谋緦徍?,通過(guò)對(duì)預(yù)設(shè)違禁詞的排查過(guò)濾出有問(wèn)題的視頻,大大提高了小規(guī)模視頻審核的效率。
(2)助力學(xué)習(xí)。傳播知識(shí)是視頻的一大功能。相對(duì)于單一的文字、圖片或聲音類的教學(xué),視頻含有的信息量很大,最有利于學(xué)習(xí)者去理解知識(shí)。然后視頻也有其弱點(diǎn),對(duì)于內(nèi)容的可視化不夠便捷,很多時(shí)候?qū)W習(xí)者對(duì)同一內(nèi)容會(huì)進(jìn)行復(fù)習(xí)或多次學(xué)習(xí),而一遍遍地把視頻從頭看到尾比較耗費(fèi)時(shí)間。如果在初次學(xué)習(xí)后同時(shí)獲得一份視頻內(nèi)容的電子文本,對(duì)學(xué)習(xí)的知識(shí)進(jìn)行系統(tǒng)化提煉整理,不僅有利于理解和掌握學(xué)習(xí)內(nèi)容,也有利于以后進(jìn)行復(fù)習(xí)鞏固知識(shí)。
(3)利于檢索。對(duì)于一個(gè)視頻,我們一般只能從文件名或視頻開頭的標(biāo)題來(lái)獲知或推測(cè)其主要內(nèi)容。而這些信息對(duì)于負(fù)責(zé)視頻歸檔、檢索的管理者來(lái)說(shuō)是遠(yuǎn)遠(yuǎn)不夠的,但每個(gè)視頻都瀏覽一遍也是不現(xiàn)實(shí)的。在不能掌握視頻真正內(nèi)容的前提下,歸檔和檢索工作只能是粗略的、不精準(zhǔn)的,后期必將影響查閱的效率。通過(guò)對(duì)視頻語(yǔ)音內(nèi)容的提取,形成一份視頻主要內(nèi)容的簡(jiǎn)介文檔,既有利于精準(zhǔn)歸檔,也大大提高了檢索效率。
(4)便于理解。網(wǎng)上有許多優(yōu)秀的英文教學(xué)視頻、講座等,也有一些優(yōu)秀的英文電影,這些英文視頻有時(shí)沒(méi)有中文字幕,有的甚至連英文字幕都沒(méi)有。如果沒(méi)有過(guò)硬的英文本領(lǐng),就不能很好地理解這些優(yōu)秀的學(xué)習(xí)資料。而現(xiàn)在,通過(guò)對(duì)視頻語(yǔ)音的識(shí)別,生成英文的電子文本,借助百度翻譯、有道詞典等成熟的翻譯工具,即使是沒(méi)有英文基礎(chǔ)的人也能大致了解英文視頻的內(nèi)容,最大限度地消除學(xué)習(xí)中的語(yǔ)言障礙。
(5)其他作用。新聞工作者一般會(huì)在會(huì)議、活動(dòng)的現(xiàn)場(chǎng)架設(shè)攝像機(jī)或擺放錄音設(shè)備,事后通過(guò)音視頻資料的回放來(lái)整理稿件,這是件非常耗時(shí)的工作。智能語(yǔ)音識(shí)別能在幾分鐘之內(nèi)就能形成一份會(huì)議、活動(dòng)全部?jī)?nèi)容的文檔,新聞工作者可以快速地根據(jù)該文檔整理成一篇新聞稿。對(duì)于失聰人員來(lái)說(shuō),沒(méi)有字幕的視頻是不友好的,很少有視頻能做到只看畫面不聽(tīng)聲音或不看字幕就能理解內(nèi)容,有一份相應(yīng)的內(nèi)容文本輔助就會(huì)給失聰人員提供不少便利。
科大訊飛不僅有語(yǔ)音轉(zhuǎn)字幕的產(chǎn)品,也有如訊飛聽(tīng)見(jiàn)、聽(tīng)見(jiàn)智能會(huì)議系統(tǒng)這類語(yǔ)音轉(zhuǎn)文本的產(chǎn)品,用戶能借助產(chǎn)品很好地完成文本轉(zhuǎn)換任務(wù)。訊飛聽(tīng)見(jiàn)在使用時(shí)類似于訊飛聽(tīng)見(jiàn)字幕,需要把音視頻上傳至其服務(wù)器,進(jìn)行相關(guān)轉(zhuǎn)換設(shè)置后進(jìn)行識(shí)別轉(zhuǎn)換,操作簡(jiǎn)單。但因?yàn)橐岩粢曨l上傳至網(wǎng)上,如果是文件較大,就需要長(zhǎng)時(shí)間的等待,而且資料存在泄密隱患。另外,作為商用產(chǎn)品在提供服務(wù)的同時(shí)也是需要收費(fèi)的。訊飛聽(tīng)見(jiàn)智能會(huì)議系統(tǒng)主要適用于辦公會(huì)議、大型發(fā)布會(huì)、課程培訓(xùn)、電視節(jié)目直播等對(duì)語(yǔ)音轉(zhuǎn)寫、翻譯的實(shí)時(shí)性和準(zhǔn)確率要求較高的場(chǎng)景。產(chǎn)品有單機(jī)版、服務(wù)器版和私有云版。
剪映軟件本身沒(méi)有語(yǔ)音轉(zhuǎn)文本的功能,推薦使用剪映字幕轉(zhuǎn)SRT工具:JianyingSRT-1.8.0。使用時(shí)先通過(guò)剪映識(shí)別視頻語(yǔ)音,生成字幕。然后打開JianyingSRT-1.8.0,在“設(shè)置”選項(xiàng)卡中勾選“同時(shí)導(dǎo)出普通TXT文本”,在“字幕”選項(xiàng)卡中單擊“Test”選擇需要導(dǎo)出的視頻文件,然后單擊“執(zhí)行”即可。除了能生成默認(rèn)的SRT文件外,同時(shí)生成一份TXT文本。剪映的局限是只支持中文語(yǔ)音,另外生成的是不含標(biāo)點(diǎn)符號(hào)且按字幕分行規(guī)則的一行行文本。
最新的Premiere2022軟件中包含了語(yǔ)音轉(zhuǎn)文本功能。同樣也是先進(jìn)行語(yǔ)音識(shí)別,接著在“轉(zhuǎn)錄文本”中選擇窗口右上角“…”—“導(dǎo)出到文本文件”即可。Premiere的特點(diǎn)是支持多種語(yǔ)言語(yǔ)音的轉(zhuǎn)換,生成的文本不按字幕規(guī)則分行,且包含標(biāo)點(diǎn)符號(hào)。
先進(jìn)的智能語(yǔ)音識(shí)別技術(shù)給視頻全字幕添加工作帶來(lái)了變革,使視頻工作者從煩瑣的字幕添加工作中解脫出來(lái),讓全字幕成為視頻作品的標(biāo)配。同時(shí),通過(guò)智能語(yǔ)音識(shí)別,把視頻內(nèi)容提煉成文本,讓我們能更好地管理和使用視頻,更深層次地挖掘視頻的價(jià)值。了解目前主流的幾種智能語(yǔ)音添加字幕及轉(zhuǎn)文本工具,知道各工具之間的差異,有利于我們選擇合適的工具高效地完成工作。