吳嘉彥
(廣東省人民廣播電臺,廣東 廣州 510012)
基于互聯(lián)網(wǎng)實現(xiàn)戶外音頻直播關(guān)鍵技術(shù)研究
吳嘉彥
(廣東省人民廣播電臺,廣東 廣州 510012)
結(jié)合廣播電臺戶外現(xiàn)場直播特點,基于互聯(lián)網(wǎng)構(gòu)建高質(zhì)量實現(xiàn)戶外音頻直播系統(tǒng)。討論音頻信號硬件、軟件編碼的特點、設(shè)備物理網(wǎng)與互聯(lián)網(wǎng)I/O瓶頸可能導致音頻信號傳送的延遲、音頻信號數(shù)據(jù)流網(wǎng)絡(luò)傳輸阻塞等關(guān)鍵問題。
互聯(lián)網(wǎng);戶外直播;網(wǎng)絡(luò)直播
時效性和現(xiàn)場感是廣播電臺戶外直播的最顯著特點。聽眾通過收聽廣播可近乎實時地感知現(xiàn)場事件的發(fā)生與進展,聽眾的現(xiàn)場感極強,如同近距離親歷現(xiàn)場,感同身受。可大大提高聽眾的參與現(xiàn)場意識。隨著現(xiàn)代廣播技術(shù)的不斷進步,戶外現(xiàn)場音頻信號處理及傳輸載體亦日趨多樣化。隨著互聯(lián)網(wǎng)的普及和網(wǎng)絡(luò)技術(shù)的迅速發(fā)展,廣播電臺(特別是中小電臺)完全可以通過現(xiàn)成的互聯(lián)網(wǎng)傳輸音頻信號應(yīng)用于戶外直播。此技術(shù)就是基于有線寬帶互聯(lián)網(wǎng),用無線網(wǎng)橋延伸有線互聯(lián)網(wǎng)解決傳輸通道。電臺戶外現(xiàn)場或直播車的音頻信號傳輸采用無線網(wǎng)絡(luò)結(jié)合有線寬帶互聯(lián)網(wǎng)代替?zhèn)鹘y(tǒng)的小型FM發(fā)射機。這樣不但全部傳輸過程都是數(shù)字傳輸,而且?guī)缀醪皇艿赜蚪ㄖ锏淖钃跸拗?。只要直播現(xiàn)場附近(半徑在2000米范圍內(nèi))有寬帶互聯(lián)網(wǎng)覆蓋的地方均可進行直播活動。
以互聯(lián)網(wǎng)為載體,構(gòu)建如下圖所示的現(xiàn)場與聽眾之間的高質(zhì)量實時廣播系統(tǒng)。目前現(xiàn)場音頻信號采集技術(shù)、音頻信號預(yù)處理技術(shù)、廣電中心音頻信號后端處理及發(fā)射技術(shù)已日趨成熟。要實現(xiàn)音頻信號通過互聯(lián)網(wǎng)高效率傳輸,音頻信號的壓縮編碼、解碼技術(shù)、音頻信號頻帶高端擴展技術(shù)、音頻信號在線有效實時傳輸技術(shù)的研究是基于有線寬帶互聯(lián)網(wǎng)實現(xiàn)戶外音頻直播的關(guān)鍵。
基于互聯(lián)網(wǎng)的數(shù)字流媒體技術(shù)[1]隨著現(xiàn)代數(shù)字電子技術(shù)、網(wǎng)絡(luò)信息處理技術(shù)和網(wǎng)絡(luò)多媒體技術(shù)的發(fā)展而快速發(fā)展。基于互聯(lián)網(wǎng)載體構(gòu)建的廣播電臺遠程直播音頻信息的廣播系統(tǒng),改變了廣播電臺傳統(tǒng)的音頻信號依靠微波、無線調(diào)頻、ISDN、數(shù)字電話等的信號傳輸模式,實現(xiàn)傳輸成本低、廣播音頻質(zhì)量高、實時效果較好的目標;通過將現(xiàn)場采集的音頻信號進行均衡調(diào)節(jié)、數(shù)字壓縮編碼、網(wǎng)絡(luò)協(xié)議加載、IP數(shù)據(jù)包的互聯(lián)網(wǎng)絡(luò)傳輸、廣電中心的終端解碼還原現(xiàn)場音頻信號、經(jīng)調(diào)制后實現(xiàn)廣播無線調(diào)頻、調(diào)幅發(fā)射或網(wǎng)上直播;并可實現(xiàn)廣播節(jié)目的備份、網(wǎng)上點播等功能。
研究基于寬帶互聯(lián)網(wǎng)實現(xiàn)戶外音頻的直播系統(tǒng),通過對采集的音頻信號進行一定格式數(shù)字軟件(或硬件)壓縮編碼、有線或無線接入互聯(lián)網(wǎng)、經(jīng)網(wǎng)上在線廣電中心解碼、制作完整廣播系統(tǒng)信號、以無線電臺廣播方式或網(wǎng)絡(luò) IPAudio方式實現(xiàn)信息廣播。系統(tǒng)應(yīng)具有音頻信號傳輸廣播質(zhì)量高、現(xiàn)場接入及網(wǎng)絡(luò)傳輸成本低、廣播節(jié)目可備份、點播、廣播與聽眾雙向互動音頻廣播、直播現(xiàn)場監(jiān)控等特點。
現(xiàn)場音頻直播系統(tǒng)的安全性,系統(tǒng)設(shè)計必須注重現(xiàn)場直播音頻信號數(shù)據(jù)在網(wǎng)絡(luò)上傳輸?shù)臄?shù)據(jù)安全性,系統(tǒng)須設(shè)置各級用戶權(quán)限,各級管理員、操作員的分級管理制度,有效防止各種非法操作。
可靠性方面:由直播現(xiàn)場嵌入式操作系統(tǒng)的主控制器與基于UNIX或Linux或Windows操作系統(tǒng)的服務(wù)器實現(xiàn)音頻信號前端硬件或軟件信號數(shù)字處理,軟硬數(shù)字處理方式實現(xiàn)前端雙系統(tǒng)備份的大容量存儲空間技術(shù),通信網(wǎng)絡(luò)實現(xiàn)高帶寬、高可靠性和高性能的持續(xù)的高速數(shù)據(jù)讀寫傳輸要求,為確保直播信號的流暢性、現(xiàn)場直播前端系統(tǒng)的正常運行,構(gòu)建現(xiàn)場直播前端監(jiān)控系統(tǒng),實現(xiàn)直播現(xiàn)場本地控制、遠程監(jiān)控功能。
系統(tǒng)基于現(xiàn)場直播的各種物理網(wǎng)與互聯(lián)網(wǎng)具有高效的傳輸功能,現(xiàn)場直播音頻信號實現(xiàn)傳輸距離無限,可運行在跨網(wǎng)關(guān)的局域網(wǎng)和互聯(lián)網(wǎng)上,從直播現(xiàn)場到廣電中心的集中控制廣播,實現(xiàn)現(xiàn)場直播音頻信號的快速、可靠的信息廣播。
確保現(xiàn)場直播音頻信號的高質(zhì)量廣播,現(xiàn)場直播音頻信號廣播輸出流暢,播放音質(zhì)達CD級,頻響:20H-15KHz。采樣率:32-96KHz。動態(tài)范圍:數(shù)字:144dB。模擬:110dB4 THD。失真:<0.01%(20 - 1KHz) < 0.05%(15KHz), <0.02%(SMPTE)。系統(tǒng)隔離度:>55dB(20H-15KHz)。
現(xiàn)場直播音頻信號管理系統(tǒng)具一定的可移植性。直播管理系統(tǒng)可采用ODBC和JDBC多種數(shù)據(jù)庫且基于Java標準的三層結(jié)構(gòu)的系列系統(tǒng)管理模式,對數(shù)據(jù)庫中數(shù)據(jù)操作遵循SOL Server標準,使直播管理系統(tǒng)適用于多種數(shù)據(jù)庫管理系統(tǒng),盡可能降低系統(tǒng)運行的硬件平臺要求、適用 UNIX、Linux、Windows的多操作系統(tǒng)及可在多種互聯(lián)網(wǎng)絡(luò)服務(wù)器管理平臺上實現(xiàn)移植。
一般的,人對于聲音細節(jié)的分辨最佳效果為20Hz—20KHz。為實現(xiàn)較為理想的在線音樂效果,首先,對于音頻信號的采樣處理,可借鑒CD激光唱盤為提高音質(zhì)而遵循Harry Nyquist采樣理論,對直播現(xiàn)場音頻信號的數(shù)字采樣頻率為40KHz,采用96dB雙聲道動態(tài)范圍,采樣頻率高于輸入信號最高頻率兩倍將有足夠空間從采樣信號重構(gòu)直播現(xiàn)場原始音頻信號,播放音質(zhì)達CD級?;谝纛l信號必須流暢平滑直播的音質(zhì)效果要求與信號互聯(lián)網(wǎng)傳輸載體有限資源的矛盾,應(yīng)用現(xiàn)代數(shù)字電子技術(shù)針對音頻信號不論采用軟件壓縮編解碼或是采用硬件壓縮編解碼方式,將面對音頻數(shù)據(jù)流在線傳輸、播放可能出現(xiàn)的聲音延時與間斷、直播現(xiàn)場物理網(wǎng)與互聯(lián)網(wǎng)接口I/O瓶頸數(shù)據(jù)流網(wǎng)絡(luò)傳輸出現(xiàn)的數(shù)據(jù)包擁堵等關(guān)鍵技術(shù)問題。
利用硬件設(shè)備實現(xiàn)直播現(xiàn)場音頻信號壓縮編解碼。直到2010年廣州亞運會開幕之前,市面上已出現(xiàn)了類似于法國品牌的DIGIGRAM公司生產(chǎn)的PYKO系列基于IP網(wǎng)絡(luò)音頻傳輸?shù)挠布O(shè)備,該品牌系列設(shè)備針對音頻信號基于UDP傳輸協(xié)議實現(xiàn)編碼與解碼,頻響效果達20Hz—20KHz,諧波失真小于-84dB。經(jīng)現(xiàn)場實際應(yīng)用發(fā)現(xiàn),由于物理網(wǎng)所有設(shè)備的固有設(shè)計,還是未能解決設(shè)備網(wǎng)絡(luò)音頻信號壓縮編解碼與互聯(lián)網(wǎng)帶寬資源實時最優(yōu)化解決接口I/O瓶頸數(shù)據(jù)包擁堵問題,硬件設(shè)備音頻編解碼作為現(xiàn)場直播實時備用方案。
直播現(xiàn)場音頻信號軟件方式壓縮編解碼,通過任何一種網(wǎng)絡(luò)底層傳輸協(xié)議的使用,構(gòu)建音頻信號網(wǎng)絡(luò)流媒體數(shù)據(jù)結(jié)構(gòu),將音頻信號及同步信號、實時控制命令等打包組合為多媒體數(shù)據(jù)流信息,以互聯(lián)網(wǎng)資源為載體,實現(xiàn)音頻流媒體數(shù)據(jù)包的在線傳輸及經(jīng)制作后的廣播節(jié)目在線廣播。然而,基于 TCP開發(fā)的網(wǎng)絡(luò)音頻信號廣播管理系統(tǒng),由于固有網(wǎng)絡(luò)資源傳輸速度的限制,經(jīng)常會導致音頻信號數(shù)據(jù)包的連接占用很長時間,將出現(xiàn)在線連接失敗,若在2—3秒內(nèi)未能恢復(fù)建立連接,在線廣播就失敗了。通過改進在線廣播系統(tǒng)程序中套接字的超時信息,視在線實時帶寬資源的實際情況,先將套接字設(shè)置成非阻塞模式,系統(tǒng)在線連接時繼續(xù)執(zhí)行后面的指令集合,之后恢復(fù)套接字的阻塞模式,可實現(xiàn)較好效果的音頻信號在線廣播。Microsoft公司的Windows Media(*.wmv,*.asf)[2]、RealNetworks 公 司 的RealMedia(*.rm)和Apple公司的QuickTime是目前流媒體的主要工具。而微軟公司的“Windows Media”的核心是 ASF(Advanced Stream Format),且ASF支持較大自由度的音頻信號的壓縮編解碼方式。微軟公司在用于網(wǎng)絡(luò)在線應(yīng)用開發(fā)主要工具SDK,基于SDK開發(fā)平臺,可將直播現(xiàn)場采集到的音頻信號進行壓縮編碼,以ASF標準數(shù)據(jù)格式構(gòu)建流媒體數(shù)據(jù)包并與在線直播管理系統(tǒng)相集成。其中,由Windows Media Format SDK及Windows Media Servics SDK平臺可開發(fā)在線IP單播或在線互聯(lián)網(wǎng)一對多直播播管理系統(tǒng),而微軟公司提供的Windows Media Format SDK平臺用于asf格式文件的讀寫、編輯應(yīng)用程序開發(fā),Windows Media Encoder SDK是作為系統(tǒng)配置及實現(xiàn) Windows Media Encoder控制接口的開發(fā)平臺。
2010 廣州亞運會現(xiàn)場音頻直播選用實時流式傳輸。針對現(xiàn)場采集的音頻信號預(yù)處理后,由音頻壓縮編碼系統(tǒng)對前端音頻模擬信號進行數(shù)字化采樣,數(shù)據(jù)流打包,再由直播現(xiàn)場的 Windows Media Services音頻服務(wù)器中的Windows Media Encoder 9進行壓縮編碼,配置Windows Media Encoder 9 SDK系統(tǒng)支持 Windows Media Encoder,而由 Windows Media Encoder平臺將直播現(xiàn)場音頻信號進行數(shù)據(jù)流格式化,實現(xiàn)WMEncoder類的相關(guān)對象和方法描述。Windows Media Services音頻服務(wù)器的Windows Server 2003與Windows Media Services將音頻數(shù)據(jù)流對指定的IP進行有線或無線數(shù)據(jù)傳輸,最終實現(xiàn)音頻數(shù)據(jù)流化處理,通過Windows Media Services進行音頻數(shù)據(jù)流網(wǎng)絡(luò)數(shù)據(jù)格式化,協(xié)議加載后由無線路由器傳輸?shù)阶罱ヂ?lián)網(wǎng)IP端口,實現(xiàn)現(xiàn)場直播與互聯(lián)網(wǎng)的音頻數(shù)據(jù)壓縮打包傳輸,廣電中心利用Windows Media Player進行音頻信號解壓縮后實現(xiàn)廣播。
基于 WindowsMediaFormatSDK編輯Windows Media格式音頻腳本文件,以 Windows Media數(shù)據(jù)流格式進行音頻信號的壓縮編碼,形成Windows Media格式的流媒體文件。同時基于Visual C++6.0利用Windows Media Format SDK進行直播音頻信號管理系統(tǒng)的二次開發(fā),在SDK中聲明#include ”wmsdk.h”;頭文件 ,包含 Wmvcore.lib 和WMStub.lib庫文件,調(diào)用 WMCreateWriter來創(chuàng)建IWMWriter 對 象, 配 置 SetProfile、SetOutputFilename、BeginWriting、WriteSample、Flush、EndWriting,完成 Windows Media Script文件的寫入;由URL腳本命令向Media Player瀏覽器發(fā)送URL?;赪indows Media Encoder SDK完成直播現(xiàn)場音頻信號流媒體壓縮編碼任務(wù),經(jīng)實際直播應(yīng)用,現(xiàn)場直播音頻信號的高頻端信號的壓縮與解壓處理音頻質(zhì)量仍有提高空間。
目前,網(wǎng)絡(luò)數(shù)據(jù)通信技術(shù)的在快速發(fā)展,對聲音及流媒體技術(shù)的要求在提高,而實際網(wǎng)絡(luò)資源實難滿足人們對高保真音頻信號的追求,因此,對直播現(xiàn)場音頻信號的壓縮編解碼處理,在現(xiàn)有網(wǎng)絡(luò)載體資源的基礎(chǔ)上可最大限度減少重構(gòu)音頻信號的音質(zhì)損失將是實際存在的一對矛盾。隨著現(xiàn)代網(wǎng)絡(luò)技術(shù)、數(shù)字技術(shù)的不斷發(fā)展,直播現(xiàn)場音頻信號處理的壓縮編解碼的較為先進的有效算法還有待進一步研究。
為解決數(shù)據(jù)流物理網(wǎng)與互聯(lián)網(wǎng)各種實際存在的導致信號傳送產(chǎn)生的延遲、數(shù)據(jù)流傳輸阻塞等 I/O瓶頸問題。實現(xiàn)現(xiàn)場音頻信號實時順暢的流式廣播,Windows Media Services提供了控制協(xié)議插件支持Microsoft Media服務(wù)器端協(xié)議功能及實時音頻信號數(shù)字流式傳輸協(xié)議,在線HTTP超文本傳輸協(xié)議。直播現(xiàn)場在對音頻信號進行壓縮處理之前對Windows Media Services音頻信號處理系統(tǒng)服務(wù)器須進行系統(tǒng)配置。
首先,基于Windows Media Services的匿名驗證方式配置 Windows Media Services的控制協(xié)議,然后,將WMS HTTP服務(wù)器的控制協(xié)議設(shè)置為禁止,配置 HTTP數(shù)據(jù)推送協(xié)議,最后,設(shè)置 Windows Media Services的 HTTP協(xié)議端口,設(shè)置為80端口,一般的網(wǎng)絡(luò)防火墻對該端暢通。
針對音頻信號進行壓縮編碼技術(shù)處理,傳統(tǒng)習慣算法普遍依據(jù)低頻端音頻信號對人耳較高頻端音頻信號更敏感的現(xiàn)象,更多注重音頻信號的壓縮編碼效率,簡化音頻數(shù)據(jù)流冗余,優(yōu)化傳播載體資源,著重音頻信號低頻信息的壓縮編碼,如MP3、MPEG-2 AAC編碼方法[3],而忽視音頻信號高頻信息的壓縮編碼,系統(tǒng)對音頻信號的最終解碼還原質(zhì)量不高。例如:基于音頻數(shù)據(jù)信號的統(tǒng)計波形編碼,PCM(Pulse Code Modulation),DPCM(Differential Pulse Code Modulation),APCM (Adaptive Pulse Code Modulation),ADPCM(Adaptive Differential Pulse Code Modulation),特點是適應(yīng)環(huán)境資源性較強及語音還原質(zhì)量較好,缺點是音頻數(shù)據(jù)信號壓縮比較小、音頻信號數(shù)據(jù)包大;基于音頻的濾波器、預(yù)測音頻線性系數(shù)等聲學參數(shù)編碼,特點是音頻信號的數(shù)據(jù)率較低,缺點是還原音頻信號的質(zhì)量較差;均未能較理想的實現(xiàn)音頻信號的高質(zhì)量重構(gòu)。
為實現(xiàn)較理想的現(xiàn)場音頻直播效果,實現(xiàn)最終現(xiàn)場直播音頻信號的重構(gòu)廣播質(zhì)量,必須解決現(xiàn)場音頻信號采集、壓縮編解碼、網(wǎng)絡(luò)傳輸、音頻信號解碼重構(gòu)及功率放大廣播整個鏈路的音頻帶寬擴展技術(shù)問題,必須解決音頻信號的高頻擴展關(guān)鍵技術(shù)問題。音頻信號高頻端帶寬重構(gòu)是由于預(yù)處理直播現(xiàn)場音頻信號時所構(gòu)建的音頻數(shù)所包中忽略了音頻信號的高頻端信號,通過一定算法,最終由解碼重構(gòu)音頻信號的低頻信息構(gòu)建音頻信號的高頻端信息,實現(xiàn)音頻解碼信號質(zhì)量的提高。目前,較為行之有效的音頻信號高頻端帶寬恢復(fù)的方法有:非盲目式[4]音頻信號高頻端重構(gòu)法和盲目式[5]音頻信號高頻端重構(gòu)法。非盲目式音頻信號高頻端重構(gòu)法,由音頻信號壓縮編碼系統(tǒng)對音頻信號的低頻端信號、高、低頻相關(guān)關(guān)系參數(shù)、高頻端諧波/噪聲關(guān)系、音頻信號高頻端的能量包絡(luò)函數(shù)等信息進行系統(tǒng)編碼,最終由音頻信號的低頻端信息及各種音頻信號高頻端信號的關(guān)系重構(gòu)音頻信號的高頻端信息;盲目式音頻信號高頻端帶寬重構(gòu)法,音頻信號解碼系統(tǒng)直接用音頻信號的低頻端帶寬信息重構(gòu)音頻信號的高頻端內(nèi)容。
實現(xiàn)音頻信號解碼還原高頻端擴展的非盲目式算法主要有:PlusV音頻帶高端擴展重構(gòu)法、SBR的音頻帶復(fù)制擴展法、SPBE音頻帶寬擴展法、BBSM音頻譜高端擴展建模法、最小熵音頻帶高頻端擴展算法等。
實現(xiàn)音頻信號解碼還原高頻端擴展的盲目式算法主要有:LE音頻帶高端線性擴展算法、EHBE音頻帶高頻端帶寬擴展算法、HSE混合音頻信號擴展算法等。
基于互聯(lián)網(wǎng)的廣播電臺戶外現(xiàn)場直播系統(tǒng)以網(wǎng)絡(luò)作為新的傳播媒介,將音頻直播與互聯(lián)網(wǎng)相融合,改革傳統(tǒng)廣播理念,依托現(xiàn)代互聯(lián)網(wǎng)資源優(yōu)勢,實現(xiàn)直播系統(tǒng)資源的二次挖掘:實現(xiàn)廣播與聽眾互動的雙向交互式直播模式;實現(xiàn)廣播內(nèi)容備份;廣告的插播;廣播電臺的廣播模式向網(wǎng)絡(luò)多媒體或超媒體的方向發(fā)展。
利用基于互聯(lián)網(wǎng)的廣播電臺戶外現(xiàn)場直播系統(tǒng)實現(xiàn)直播現(xiàn)場本地控制、遠程監(jiān)控功能。如下圖所示。由攝像頭采集直播現(xiàn)場的實時視頻信息,通過互聯(lián)網(wǎng)將廣電中心服務(wù)器端及客戶端構(gòu)建一直播現(xiàn)場監(jiān)控系統(tǒng),實現(xiàn)直播現(xiàn)場監(jiān)控。例如,利用Windows Media Server軟件可以較理想的實現(xiàn)以上功能。
在2010年廣州亞運會中,電臺現(xiàn)場直播使用的是Windows media編碼器、無線路由器等構(gòu)建了基于互聯(lián)網(wǎng)的亞運會現(xiàn)場直播系統(tǒng),注重直播現(xiàn)場音頻信號的高頻端擴展補償。經(jīng)過頻響曲線以及延時測試,該系統(tǒng)穩(wěn)定性及延時方面都可以達到播出要求。
[1]張麗.流媒體技術(shù)大全[M].北京:中國青年出版社,2001.
[2]Microsoft Corporation.Windows Media Encoder 9 Series SDK Documentation[EB/DK].2003.
[3]潘政彥.節(jié)省參數(shù)并提升音質(zhì)之改良式高頻重建方法[D].臺灣:大葉大學,2005.PAN Jeng-yan.A Solution of High Frequency Reconstruc-tion for Saving more Parameters and Improving Quality[D].Taiwan:Da-Yeh University,2005.(in Chinese)
[4]ISO/IEC 11172-3,Codingof moving pictures and associated audio for digital storage media at up to about 1.5Mbit/s—Part 3 Audio[S].
[5]ISO/IEC 13818-7,Information technology-Generic coding of moving pictures and associated audio information-Part 7:Advanced Audio Coding(AAC)[S].
A Study on the Key Technologies of the Internet-based Broadcasting
WU Jia-yan
(Radio Guangdong,Guangzhou 510012)
This study probes into the construction of a high-quality Internet-based radio outside broadcast system with regards to the characteristics of live broadcast.It discusses the key issues such as audio hardware,software coding features,the transmission delays resulting from the I/O bottlenecks between the physical network and the Internet,and the transmission congestions in audio data streaming,etc.
the internet;outside broadcast;webcast
G229.24
A
1673-8861(2011)03-0136-04
2011-07-21
吳嘉彥(1985-),男,廣西梧州市人,廣東人民廣播電臺任助理工程師,碩士。主要研究方向:轉(zhuǎn)播直播技術(shù)。