——2021年音頻產(chǎn)業(yè)趨勢(shì)與變革"/>
李建剛
音頻產(chǎn)業(yè)(Audio Industry)是一個(gè)富有創(chuàng)造力和令人興奮的領(lǐng)域,但是它的復(fù)雜性、多元性與交叉性也同樣容易令人困惑,這種情況不僅在消費(fèi)級(jí)音頻產(chǎn)品中普遍存在,對(duì)于專業(yè)音頻器材與制作領(lǐng)域也是如此。模糊的產(chǎn)業(yè)邊界,復(fù)合的制作流程,快速更新的技術(shù)應(yīng)用以及變化中的消費(fèi)者需求,都使得關(guān)于音頻產(chǎn)業(yè)趨勢(shì)和變革的判斷面臨挑戰(zhàn)。
“根據(jù)行為理論,組織利用外部搜索跨越組織邊界并超越本地搜索”[1],從廣泛的產(chǎn)業(yè)信息中創(chuàng)造和重組知識(shí),識(shí)別和收集非自身創(chuàng)造的新知識(shí),將大幅減少創(chuàng)新盲點(diǎn)和風(fēng)險(xiǎn)。因此,外部搜索的概念和方法受到關(guān)注。前瞻性外部搜索的目的是積極主動(dòng)地確定和預(yù)測(cè)多種未來路徑與方案并得出對(duì)于自身發(fā)展的影響。并非所有的歷史數(shù)據(jù)都可用于技術(shù)預(yù)測(cè),通過關(guān)注新興技術(shù)與媒介趨勢(shì)的早期跡象,提前發(fā)現(xiàn)未來變革,從而及時(shí)調(diào)整創(chuàng)新發(fā)展方向。
到目前為止,大量的音頻研究并行發(fā)展且重點(diǎn)不同,但是在數(shù)字社會(huì)、數(shù)字經(jīng)濟(jì)和數(shù)字文化的通用視角下似乎逐漸向同一方向整合。本研究立足分析前瞻性音頻技術(shù)創(chuàng)新應(yīng)用的進(jìn)展與細(xì)節(jié),并考慮一系列廣泛的未來可選性與可行性,這些通常涉及應(yīng)用中的高度復(fù)雜性與模糊性。有學(xué)者呼吁加強(qiáng)預(yù)見性文獻(xiàn)與管理創(chuàng)新理論整合以加強(qiáng)該領(lǐng)域理論基礎(chǔ),特別是有必要將預(yù)測(cè)研究與行為理論相聯(lián)系,以獲得對(duì)于有效的前瞻性搜索實(shí)踐的更為深刻的實(shí)證洞見。這有益于媒介研究與傳播創(chuàng)新,從技術(shù)、媒體、產(chǎn)業(yè)和社會(huì)的綜合系統(tǒng)出發(fā)搭建研究與實(shí)踐的橋梁,可以更深入和更完整地理解該方法,并推動(dòng)媒體、文化與科技企業(yè)發(fā)展成為前瞻性組織。因此,以下研究問題將指導(dǎo)本文:第一,音頻產(chǎn)業(yè)的重要知識(shí)主題和分布是什么;第二,如何從音頻創(chuàng)新和產(chǎn)業(yè)應(yīng)用預(yù)測(cè)研究中獲得可靠見解。第一個(gè)問題以專家知識(shí)系統(tǒng)的代表性文獻(xiàn)和觀點(diǎn)分析來回答,這有助于快速建立研究對(duì)象的基本框架并確定外部檢索的相關(guān)維度。在此基礎(chǔ)上以研究框架及假設(shè)在全球化和媒介化的產(chǎn)業(yè)環(huán)境中進(jìn)行討論及檢驗(yàn)。與個(gè)人搜索行為相反,組織搜索關(guān)注組織層面。在開放式創(chuàng)新范式的演變下,強(qiáng)調(diào)獲取卓越和特定知識(shí)對(duì)于可持續(xù)競(jìng)爭(zhēng)優(yōu)勢(shì)的重要性。隨著知識(shí)積累和多樣性增加,集成和利用知識(shí)的創(chuàng)新成本將上升。
競(jìng)爭(zhēng)與協(xié)作基礎(chǔ)上的技術(shù)創(chuàng)新和產(chǎn)業(yè)變革是世界文明重要的推動(dòng)力量,專業(yè)知識(shí)只有將其集中到任務(wù)才能變得富有成效。1992年,彼得·德魯克(Peter F.Drucker)在研究中指出,“我們處于這樣一個(gè)轉(zhuǎn)變時(shí)期。只有這次的轉(zhuǎn)變并不局限于西方社會(huì)和西方歷史。根本變化之一是不再有西方歷史或西方文明,只有世界歷史和世界文明?!盵2]音頻科技的創(chuàng)新很少涉及政治與意識(shí)形態(tài),但是當(dāng)與產(chǎn)業(yè)融合之后,便具有連接個(gè)體、媒介、文化與社會(huì)的作用,音頻產(chǎn)業(yè)的發(fā)展與創(chuàng)新自然成為國(guó)家文化戰(zhàn)略實(shí)施和軟實(shí)力輸出體系的重要構(gòu)成。
音頻科學(xué)技術(shù)創(chuàng)新與社會(huì)發(fā)展之間的關(guān)系隨著時(shí)間推移不斷變化,盡管不同國(guó)家對(duì)于音頻領(lǐng)域都發(fā)布了許多重要研究,但是很少有共同的定義框架,缺乏對(duì)于音頻科學(xué)技術(shù)創(chuàng)新的范圍、類別與影響的綜合理解。專業(yè)學(xué)會(huì)可以較好地提供業(yè)界與學(xué)界的連接,推動(dòng)專業(yè)知識(shí)的創(chuàng)新與實(shí)踐突破。
全球有影響力的聲音與音頻研究機(jī)構(gòu)包括:美國(guó)聲學(xué)學(xué)會(huì)、音頻工程協(xié)會(huì)、英國(guó)聲學(xué)研究所、電氣電子工程協(xié)會(huì)、無線電工程協(xié)會(huì)、廣播電視工程協(xié)會(huì)和電影電視工程協(xié)會(huì)。其中,音頻工程學(xué)會(huì)(Audio Engineering Society,簡(jiǎn)稱AES)于1948年在美國(guó)成立,是唯一專門致力于音頻技術(shù)的專業(yè)學(xué)會(huì),如今已經(jīng)發(fā)展成為國(guó)際化組織,旨在通過促進(jìn)音頻技術(shù)的科學(xué)進(jìn)步與產(chǎn)業(yè)實(shí)踐,傳播新的知識(shí)和研究,并形成全球化的專業(yè)知識(shí)與人才社區(qū)。本文選擇音頻工程學(xué)會(huì)作為全球化背景下音頻專家系統(tǒng)的典型代表,通過對(duì)AES當(dāng)前音頻創(chuàng)新與實(shí)踐的專業(yè)文獻(xiàn)和知識(shí)描述進(jìn)行整理分析,為音頻產(chǎn)業(yè)重要的趨勢(shì)與變革分析提供路線與參考,具體包括:
●存檔、還原和數(shù)字圖書館(Archiving, Restoration and Digital libraries):對(duì)音頻媒體進(jìn)行存檔,保護(hù)聲音遺產(chǎn),并使人們能夠接觸到它們。確??沙掷m(xù)地獲取信息,保持穩(wěn)定性和最佳可讀性。確保數(shù)字化格式可以長(zhǎng)期保存與訪問。
● 音頻編碼(Audio Coding):是多學(xué)科交叉領(lǐng)域,使高質(zhì)量音頻傳輸和存儲(chǔ)成為現(xiàn)實(shí),徹底改變?nèi)藗兊囊纛l處理方式,新需求包括3D聲音、沉浸式音頻和與個(gè)性化音頻渲染。
● 音頻教育(Audio Education):世界上大多數(shù)學(xué)院音頻課程面向:第一,音樂錄制、制作和現(xiàn)場(chǎng)娛樂,進(jìn)行大眾傳播;第二,包括電子新聞、廣播、電影、電視;第三,與工程藝術(shù)和科學(xué)結(jié)盟,包括電氣工程、信號(hào)處理、聲學(xué)和心理物理學(xué)。
● 音頻取證(Audio Forensics):調(diào)查已記錄音頻的使用情況,例如音頻法醫(yī)學(xué)、音頻鑒識(shí)。
● 虛擬現(xiàn)實(shí)與增強(qiáng)現(xiàn)實(shí)音頻(Audio for Virtual and Augmented Reality):該領(lǐng)域增長(zhǎng)迅速,通過音頻增強(qiáng)真實(shí)感,添加“超現(xiàn)實(shí)”,使沉浸式體驗(yàn)內(nèi)在且真實(shí)。
● 音頻網(wǎng)絡(luò)(Audio Networking):涉及國(guó)際標(biāo)準(zhǔn)與廣播應(yīng)用。20世紀(jì)90年代以來,VoIP和專有音頻網(wǎng)絡(luò)協(xié)議技術(shù)突飛猛進(jìn)。
● 汽車音頻(Automotive Audio):汽車音頻是一個(gè)非常復(fù)雜的話題,遠(yuǎn)遠(yuǎn)超出揚(yáng)聲器和放大器。最近五年,音頻已經(jīng)從信息娛樂主題轉(zhuǎn)移到聲音設(shè)計(jì)主題,支持工程師設(shè)計(jì)車輛的聲音,包括汽車因振動(dòng)和空氣噪聲而產(chǎn)生的聲音。
● 廣播與在線交付(Broadcast and Online Delivery):廣播音頻包含使用多種分發(fā)網(wǎng)絡(luò)來設(shè)定、播放音頻信號(hào)并傳輸給用戶的技術(shù)。在互聯(lián)網(wǎng)興起之前,音頻信號(hào)已經(jīng)數(shù)字化。如今,廣播機(jī)構(gòu)通常提供線性頻率以及流媒體平臺(tái),用戶可以直接訪問點(diǎn)播內(nèi)容。
● 耳機(jī)(Headphones):展示出科學(xué)和技術(shù)的廣度,耳機(jī)、沉浸式音頻、輔助性聽力和移動(dòng)計(jì)算之間的界限模糊,無縫收聽體驗(yàn)面臨挑戰(zhàn)。
● 聽力和聽力損傷預(yù)防(Hearing and Hearing Loss Prevention):聽力是生活和職業(yè)的重要組成部分,大音量聲音(包括音樂)會(huì)使聽力下降,從隱性聽力喪失研究、監(jiān)測(cè)和控制的新方法都具有開創(chuàng)性。
● 高分辨率音頻(High-Resolution Audio):高分辨率已經(jīng)成為專業(yè)和高質(zhì)量音頻消費(fèi)的公認(rèn)組成部分,涉及音頻格式、信號(hào)含義、交付模式及批判性感知。
● 聽力測(cè)試(Listening Tests):研究聲音質(zhì)量評(píng)估與音頻工程,嘗試以科學(xué)方式區(qū)分人們對(duì)于聲音的選擇。
● 響度(Loudness):數(shù)字音頻有廣泛的動(dòng)態(tài)范圍,需要基于感知建立測(cè)量和響度歸一的方法,用于廣播媒體、游戲、音樂流、播客和虛擬現(xiàn)實(shí)。
● 新興音頻格式的音樂創(chuàng)作(Music Production for Emerging Audio Formats):音樂制作正在發(fā)生變化。在藝術(shù)和技術(shù)上從未有過如此多樣的創(chuàng)作和消費(fèi)音樂的途徑,融合高分辨率、流媒體、空間音頻、雙耳聲音、交互式音樂和基于對(duì)象的音頻。
● 音樂錄音(Music Recording):不論是錄制交響樂,還是中小型錄音棚中多麥克風(fēng)錄音,涵蓋從麥克風(fēng)、音頻工作站、插件和效果的工作與創(chuàng)造。
● 揚(yáng) 聲 器 指 向(Preferred Loudspeaker Directivity):揚(yáng)聲器指向性如何影響聽眾,音色和空間如何優(yōu)化,這些問題隨著大量獨(dú)立通道和基于對(duì)象的音頻出現(xiàn),正在形成新趨勢(shì)。
● 錄音(Recording):從20世紀(jì)50年代立體聲錄音技術(shù)開創(chuàng)至今,立體聲技術(shù)與錄音室的發(fā)展密切相關(guān),這個(gè)領(lǐng)域側(cè)重歷史文獻(xiàn)與技術(shù)知識(shí)發(fā)展。
● 語義分析與深度學(xué)習(xí) (Semantic Analysis and Deep Learning):隨著數(shù)字多媒體數(shù)據(jù)的普及,通過自動(dòng)化方法來處理、分析和理解此類數(shù)據(jù)已成為工程和計(jì)算機(jī)科學(xué)的中心問題。
● 聲場(chǎng)控制(Sound Field Control):可從廣義上解釋為創(chuàng)建一組揚(yáng)聲器信號(hào)以在聆聽區(qū)域上創(chuàng)造某種聆聽體驗(yàn)的過程。所需聲場(chǎng)可在物理或感知上定義,可以向共享空間的多個(gè)聽眾提供個(gè)性化音頻內(nèi)容。
● 音質(zhì)預(yù)測(cè)(Sound Quality Prediction):音質(zhì)在有關(guān)音頻的幾乎所有領(lǐng)域都是至關(guān)重要的。產(chǎn)業(yè)界和學(xué)術(shù)界研究人員致力于開發(fā)客觀模型來預(yù)測(cè)聲音質(zhì)量。這些模型可進(jìn)行快速、可重復(fù)的測(cè)量,同時(shí)保持感知有效性。
● 聲音增強(qiáng)(Sound Reinforcement):當(dāng)前挑戰(zhàn)是大型戶外活動(dòng)的噪聲污染,重點(diǎn)是實(shí)用性和保持良好的聽眾體驗(yàn)。
● 空間音頻(Spatial Audio):空間音頻在過去10年中發(fā)展迅速,引入新環(huán)繞聲格式提供3D聆聽體驗(yàn)。基于對(duì)象的音頻(OBA)是一種用于產(chǎn)生和傳遞空間音頻內(nèi)容的新方法,該方法已經(jīng)被電影和廣播電視迅速采用。
● 雙通道立體聲(Two-channel Stereophony):兩個(gè)通道如何創(chuàng)建沉浸感和包圍感,聲音圖景最有價(jià)值的感知屬性是什么,大腦如何解釋空間感和音源。
圍繞這23個(gè)重要主題的知識(shí)積累與創(chuàng)新是音頻產(chǎn)業(yè)進(jìn)一步發(fā)展的基礎(chǔ)和動(dòng)力,有些特殊領(lǐng)域未能涵蓋,例如警務(wù)、軍事和國(guó)防。圍繞信息傳播、文化藝術(shù)、數(shù)字娛樂等領(lǐng)域的發(fā)展具有高度的疊加性與穿透性,包含知識(shí)圖譜中的絕大部分領(lǐng)域,因此在推動(dòng)音頻產(chǎn)業(yè)發(fā)展、改善聲音體驗(yàn)方面扮演著至關(guān)重要的角色。
2020年 6月 2日 -5日,AES第 148屆大會(huì)線上舉辦,這也是有史以來該協(xié)會(huì)首次在線會(huì)議,會(huì)議例行的首日紀(jì)念演講由弗朗西斯·拉姆西(Francis Rumsey)發(fā)言,題目是“互動(dòng)和擴(kuò)展現(xiàn)實(shí)時(shí)代的音質(zhì)”[3]。參加本次在線會(huì)議的AES注冊(cè)會(huì)員來自59個(gè)國(guó)家,前十名是:美國(guó):441(31.5%),德國(guó):147(10.5%), 英 國(guó):131(9.3%), 日 本:87(6.2%),加拿大:66(4.7%),奧地利:57(4%),波蘭:41(2.9%),中國(guó):30(2.1%),法國(guó):28(2%),意大利:25(1.7%)。[4]從參會(huì)者所在國(guó)家和數(shù)量分布上可以看出,美國(guó)、德國(guó)、英國(guó)、日本和加拿大五個(gè)國(guó)家在參會(huì)人數(shù)上占據(jù)62.2%,這五個(gè)國(guó)家的音頻科研機(jī)構(gòu)與企業(yè)是全球音頻產(chǎn)業(yè)核心科技領(lǐng)域的主要構(gòu)成并形成了聯(lián)盟,歐洲從傳統(tǒng)聲學(xué)到最為前沿的音頻創(chuàng)新方面一直保有優(yōu)勢(shì),美國(guó)在技術(shù)產(chǎn)業(yè)化、內(nèi)容娛樂化和傳播全球化方面處于領(lǐng)導(dǎo)者地位,日本在精密電子產(chǎn)品開發(fā)和制造方面基礎(chǔ)牢固,美歐日形成了音頻產(chǎn)業(yè)事實(shí)上的“鐵三角”,在近百年視聽產(chǎn)業(yè)發(fā)展中掌控著話語權(quán)。
2021年音頻產(chǎn)業(yè)的技術(shù)展望主要關(guān)注那些具有革命性和推動(dòng)型的行業(yè)標(biāo)準(zhǔn)和轉(zhuǎn)型技術(shù)。同以往的數(shù)字化相比,新的變革也被稱為“無所不在的數(shù)字轉(zhuǎn)型”,這種趨勢(shì)并沒有受到COVID-19的阻斷,而是超速前行,通過文化、網(wǎng)絡(luò)和商業(yè)實(shí)現(xiàn)更大的全球互聯(lián)性,對(duì)于組織領(lǐng)導(dǎo)者而言,“戰(zhàn)略遠(yuǎn)景已經(jīng)大幅壓縮,預(yù)計(jì)在五到十年內(nèi)發(fā)生的重大變化已經(jīng)壓縮到數(shù)月或數(shù)周范圍內(nèi)”[5]。傳媒業(yè)需要重視將來具有競(jìng)爭(zhēng)優(yōu)勢(shì)的技術(shù)與可能性,包括來自傳媒業(yè)知識(shí)體系之外的優(yōu)勢(shì)與資源。在經(jīng)過大量文獻(xiàn)分析的過程后,本研究認(rèn)為2021年音頻產(chǎn)業(yè)的變革與趨勢(shì)將著重體現(xiàn)在以下五個(gè)方面:
判斷數(shù)字音樂音質(zhì)的一種方法是觀察它的比特率或者文件傳輸?shù)臄?shù)據(jù)量,通過播放器進(jìn)入耳朵的數(shù)據(jù)越多,聲音越好。音樂的混合和掌握方式也非常重要。諸如Apple Music或Spotify之類的音樂流媒體服務(wù)允許傳輸比特率為320kb的高品質(zhì)MP3。CD音樂文件受到存儲(chǔ)格式的限制,比特率為1.411kbps,高分辨率(High-Resolution)音樂的比特率可達(dá)9.216kbps,近乎CD的七倍。采樣率越高,用戶聽到的低音和高音部分越多。CD和MP3的最大采樣率均為44.1KHz,高分辨率音樂采樣率可以在96KHz和352.8KHz之間。絕大多數(shù)高分辨率音樂文件的采樣率為96KHz或192KHz,高于其他數(shù)字文件44.1KHz上限,超出目前大多數(shù)智能手機(jī)播放音頻的上限。
高分辨率流媒體音頻領(lǐng)域存在廣泛的競(jìng)爭(zhēng),大部分功能相似,譬如在數(shù)百萬首曲庫中按需播放,無損品質(zhì)的專輯音樂,以及下載本地離線收聽。由于高分辨率音樂具有更多數(shù)據(jù),因此文件比相同歌曲的CD或MP3版本大很多,這意味著下載時(shí)間更長(zhǎng)并且消耗更多數(shù)據(jù)流。目前亞馬遜、蘋果、Spotify均提供320kbps的壓縮流,質(zhì)量的提高帶來訂閱成本的增加。對(duì)于古典音樂迷,Primephonic提供超過350萬首古典音樂曲目。亞馬遜的Music HD曲庫則擁有超過5000萬首曲目。
語音控制仍處于應(yīng)用初期,盡管市場(chǎng)對(duì)于該技術(shù)潛力的反應(yīng)非常積極。人們幾乎會(huì)在所有地方用到語音技術(shù),尤其是在家庭中。隨著語音助理越來越智能,其體驗(yàn)也將具有更多真實(shí)感。語音作為人機(jī)接口的下一個(gè)前沿,將把信息傳播帶入物聯(lián)網(wǎng)世界,例如,由于疫情影響,電梯控制和信息顯示將限制觸摸。隨著用戶逐漸習(xí)慣于語音用戶界面(Voice User Interface,簡(jiǎn)稱VUI),這些硬件系統(tǒng)可能很快將增加語音控制的升級(jí)和修改。精心設(shè)計(jì)的語音界面可以讓用戶輕松使用新技術(shù)和新設(shè)備,而不會(huì)出現(xiàn)明顯的學(xué)習(xí)曲線。為了充分利用這些新設(shè)備,越來越多的音頻處理技術(shù)從云端移向邊緣計(jì)算,這不僅可以改善用戶界面,降低延遲,還可以節(jié)約成本。用戶在這些應(yīng)用中也將獲得更可靠的性能。
2020年初部分企業(yè)和個(gè)人已經(jīng)開始了遠(yuǎn)程工作,這為工作場(chǎng)所遠(yuǎn)程互動(dòng)創(chuàng)造了新的模式。根據(jù)Gartner Research最近一項(xiàng)調(diào)查顯示,超過80%的企業(yè)負(fù)責(zé)人計(jì)劃允許員工部分時(shí)間進(jìn)行遠(yuǎn)程工作,另外47%的受訪者將允許員工進(jìn)行全職的遠(yuǎn)程工作,這也將帶動(dòng)企業(yè)語音技術(shù)與服務(wù)的發(fā)展。[6]
人工智能已經(jīng)成為當(dāng)今音頻產(chǎn)業(yè)的主要驅(qū)動(dòng)力,被稱為媒體及附加產(chǎn)業(yè)的顛覆式創(chuàng)新技術(shù)(Disruptive Technology),傳統(tǒng)的音頻系統(tǒng)組件,如麥克風(fēng)、音頻放大器等也在使用人工智能技術(shù)。
在許多方面,音頻可能是AI的最早采用者。音頻工程師喜歡完全控制他們工作時(shí)的聲音,不論是電平和EQ微調(diào),還是通過頻譜可視化控制峰值音量和動(dòng)態(tài)范圍,這產(chǎn)生了一些后來被定義為人工智能的早期應(yīng)用。這種操作由數(shù)據(jù)驅(qū)動(dòng),消除了對(duì)于個(gè)人的經(jīng)驗(yàn)需求,有助于實(shí)現(xiàn)制作中的自動(dòng)化處理,盡管不能將這個(gè)行業(yè)中任何自動(dòng)化的工作都稱為人工智能,但是自動(dòng)化確實(shí)是媒體工作流程即將面對(duì)的深度變革。
機(jī)器學(xué)習(xí)、數(shù)字神經(jīng)網(wǎng)絡(luò)與人工智能容易混淆。人工智能包羅萬象,作為術(shù)語已經(jīng)存在數(shù)十年。工程師更偏愛機(jī)器學(xué)習(xí)這個(gè)術(shù)語,其含義是一種數(shù)據(jù)分析方法。機(jī)器學(xué)習(xí)不同于數(shù)字神經(jīng)網(wǎng)絡(luò)(DNA),DNA基于大量來自特定情況的訓(xùn)練數(shù)據(jù),如識(shí)別特定的聲線(Vocal Lines)、口音或聲音,如交通或環(huán)境噪音。一些音頻和聲音后期工作室在十余年前已經(jīng)開始使用機(jī)器學(xué)習(xí),2012年,DNS 8 Live多通道對(duì)話噪聲抑制器推出。這種錄音機(jī)能夠智能化去除語言錄音的背景噪聲。今天,音頻軟件的高級(jí)降噪處理幾乎都使用機(jī)器學(xué)習(xí)的數(shù)據(jù)分析方法。
人工智能將推動(dòng)音頻鏈(Audio Chain)應(yīng)用曲線大幅增長(zhǎng),這是一種由語音識(shí)別和智能語音引擎驅(qū)動(dòng),將云端、邊緣計(jì)算和智能硬件集成的綜合應(yīng)用。一方面,音頻鏈帶動(dòng)麥克風(fēng)傳統(tǒng)電子音頻產(chǎn)業(yè)的復(fù)興,通過在麥克風(fēng)中加入智能芯片,產(chǎn)生高品質(zhì)聲音,增強(qiáng)麥克風(fēng)在嘈雜環(huán)境中對(duì)于周圍環(huán)境的理解,提高識(shí)別準(zhǔn)確性。另一方面,基于語音的個(gè)人助理(Voice Personal Assistant,簡(jiǎn)稱VPA)在智能手機(jī)、智能揚(yáng)聲器、智能手表、無線耳機(jī)、汽車、智能電視及其遙控器中越來越受歡迎,甚至有的垃圾桶也集成了語音識(shí)別功能。在2018年和2019年,智能手機(jī)市場(chǎng)放緩,用戶的升級(jí)時(shí)間更長(zhǎng),可聽性和智能揚(yáng)聲器的爆炸式增長(zhǎng)彌補(bǔ)了這一差異。目前,VPA正在推動(dòng)所有這些設(shè)備中麥克風(fēng)和微型揚(yáng)聲器的集成。全球麥克風(fēng)和音頻芯片消費(fèi)市場(chǎng)的復(fù)合年增長(zhǎng)率有望達(dá)到6.6%,從2018年的141億美元增長(zhǎng)到2024年208億美元。麥克風(fēng)市場(chǎng)目前價(jià)值17億美元,預(yù)計(jì)2024年復(fù)合年增長(zhǎng)率為3%,達(dá)到20億美元。[7]
從歷史上看,收聽音頻的方式只有兩種:通過揚(yáng)聲器大聲地、公開地傾聽,或者是靜悄悄地戴著耳機(jī)。新的動(dòng)態(tài)聚焦音頻技術(shù)將創(chuàng)造出不帶耳機(jī)、移動(dòng)收聽沉浸式3D音頻的新產(chǎn)品與新體驗(yàn),是新一代音頻通信和娛樂服務(wù)的基石。
“聚焦音頻”不是“定向音頻”,“定向音頻”揚(yáng)聲器自2000年開始發(fā)展,使用超聲波技術(shù)將聲音直射前方,產(chǎn)生“聲音氣泡”,只有站在設(shè)備正前方的人才能聽到。定向音頻揚(yáng)聲器在貿(mào)易展會(huì)和博物館等地方很受歡迎。聚焦音頻技術(shù)要比定向音頻更加智能和先進(jìn),能夠通過高頻超聲波和3D跟蹤技術(shù)識(shí)別和追蹤聽眾耳朵位置,在對(duì)象移動(dòng)時(shí)主動(dòng)移動(dòng)聲音束。例如,這種音頻技術(shù)能夠?qū)ο喔?米之外的區(qū)域進(jìn)行-20分貝的音量衰減,這意味著周圍的人只能聽到目標(biāo)用戶所聽聲音的10%。這是個(gè)人音頻空間體驗(yàn)上的關(guān)鍵性突破,從而建立一種全新的聆聽方式。動(dòng)態(tài)聚焦的聲音傳送技術(shù)可應(yīng)用于智能家居、視頻會(huì)議,包括在流媒體音頻平臺(tái)上收聽播客,在健身環(huán)境中使用這種技術(shù)也會(huì)更加身臨其境。
便利性和效率帶來個(gè)人語音助理應(yīng)用的快速滲透,除了語音技術(shù)自身發(fā)展的重大突破,大型互聯(lián)網(wǎng)科技平臺(tái)公司發(fā)展語音的另一個(gè)動(dòng)機(jī)是透過VPA獲取用戶數(shù)據(jù),像谷歌、蘋果、臉書、亞馬遜和微軟都在推動(dòng)VPA的進(jìn)一步滲透,通過語音技術(shù)提取的數(shù)據(jù)具有真正的價(jià)值,可以幫助平臺(tái)理解用戶場(chǎng)景和真實(shí)需求。
對(duì)于用戶而言,音頻比圖像更容易接受,原因是音頻對(duì)于個(gè)人數(shù)字空間較少具有“侵入性”,因此對(duì)于主營(yíng)數(shù)據(jù)業(yè)務(wù)的平臺(tái)而言,這是從人們那里收集數(shù)據(jù)的好方法。一些公司正在利用數(shù)據(jù)開展業(yè)務(wù),而另一些公司則在利用可確保用戶隱私的集成技術(shù)展開營(yíng)銷。例如,蘋果宣揚(yáng)隱私保護(hù),并使這種策略成為強(qiáng)大的營(yíng)銷資產(chǎn)。VPA離不開智能式傳感器的普及,這意味著VPA不僅能聽到用戶的聲音,還能聽到他們的環(huán)境并理解其環(huán)境,這便是對(duì)話式人工智能的應(yīng)用模式——像人類一樣交流。麥克風(fēng)廠商應(yīng)同時(shí)開發(fā)保護(hù)用戶隱私的技術(shù),例如如何讓麥克風(fēng)從聲音中移除用戶的情緒數(shù)據(jù),只保留和呈現(xiàn)語義數(shù)據(jù)。
圍繞音頻技術(shù)主題,我們當(dāng)前看到的大部分研究都是描述音頻產(chǎn)業(yè)的新生態(tài)和新變化,卻容易忽略音頻產(chǎn)業(yè)在歷史長(zhǎng)期發(fā)展中不斷涌現(xiàn)的具體的生命周期和與國(guó)家、民族、地域文化所形成的深層的內(nèi)在聯(lián)系。二十年前,由AES Fellow巴里·布萊瑟(Barry Blesser)和德里克·皮爾金頓(Derek Pilkington)聯(lián)合發(fā)表的一篇重要論文指出:“由于音頻歷史案例的研究很難判斷具有一致性的模式,因此,是否存在不變的模式,這一點(diǎn)很難回答。從我們?nèi)粘J澜绲奈⒂^層面,也很難看出全球化的模式?!盵8]音頻產(chǎn)業(yè)的全球范式始終處于變化之中,有時(shí)這種變化融入人們的思想與生活以至于難以覺察。因此,“變化”一詞在音頻產(chǎn)業(yè)中無處不在,同時(shí)具有極大的隱匿性。
從上述分析可以看到,音頻產(chǎn)業(yè)當(dāng)下的主要?jiǎng)?chuàng)新和變革發(fā)生于傳統(tǒng)媒體之外,或者可以認(rèn)為,音頻技術(shù)正在填充和發(fā)展一種全新的數(shù)字生態(tài),在這個(gè)生態(tài)中,基于人類聽覺的聲音文化和音頻創(chuàng)新不斷向構(gòu)建智能化的數(shù)字社會(huì)的方向發(fā)展。這顯然比20世紀(jì)大眾傳播時(shí)代媒體的功能和責(zé)任擴(kuò)展了很多,同時(shí)也超出了音頻在媒體和信息傳播中的應(yīng)用目標(biāo)和要求,而成為界面、連接和網(wǎng)絡(luò)的一部分??v觀整個(gè)創(chuàng)意產(chǎn)業(yè),內(nèi)容不斷被分割、切片、長(zhǎng)尾化和播客化。面對(duì)數(shù)字革命新的格局與維度,我們依然缺乏將音頻產(chǎn)業(yè)的變革轉(zhuǎn)化為文化競(jìng)爭(zhēng)力的結(jié)構(gòu)化的分析,這會(huì)導(dǎo)致視野的失真乃至遮蔽,本文希望在該領(lǐng)域研究中發(fā)展一種方法或模式,瞄定媒體、技術(shù)和商業(yè)的整體結(jié)構(gòu)來討論產(chǎn)業(yè)的變化和影響,即便有時(shí)這種結(jié)構(gòu)會(huì)超出媒體與傳播,但是從數(shù)字社會(huì)高質(zhì)量發(fā)展的角度來看,對(duì)于傳媒業(yè)的自我更新卻也不無益處。
面對(duì)變革,研究提出三個(gè)建議:第一,傳媒機(jī)構(gòu)要重新建立和評(píng)估組織內(nèi)外專業(yè)技術(shù)人員在技術(shù)預(yù)測(cè)方面的潛力與貢獻(xiàn)。在數(shù)字時(shí)代初期,音頻產(chǎn)業(yè)的專業(yè)人士就參與了技術(shù)開發(fā),專業(yè)人員為專業(yè)人員創(chuàng)造技術(shù),因?yàn)樗麄兪俏ㄒ恢廊绾翁幚硇录夹g(shù)的人。第二,傳媒業(yè)要增強(qiáng)音頻的音質(zhì)和美學(xué)對(duì)于大眾市場(chǎng)的教育,消費(fèi)者在產(chǎn)品的便捷性和音頻質(zhì)量的衡量上同樣需要教育和引導(dǎo),這應(yīng)該從媒體所能提供的最高品質(zhì)的內(nèi)容開始。20世紀(jì)90年代末期音頻與計(jì)算機(jī)和網(wǎng)絡(luò)的融合,推動(dòng)了高壓縮、低音質(zhì)的文件格式的流行與泛濫,這對(duì)于消費(fèi)者在音質(zhì)聽覺審美方面是某種倒退。第三,發(fā)展數(shù)字生態(tài)視野下的傳媒音頻傳播創(chuàng)新合作機(jī)制,例如,音頻產(chǎn)業(yè)受到其他強(qiáng)有力的行業(yè)的支持和影響,有時(shí)這種影響甚至是依賴性的。一些行業(yè)創(chuàng)造出音頻技術(shù)的新用途并開發(fā)出相關(guān)的新技術(shù),就像音樂產(chǎn)業(yè)促進(jìn)了音樂制作和新錄音格式的發(fā)展。今天,音頻產(chǎn)業(yè)更加依賴于其他產(chǎn)業(yè)來推動(dòng)它前進(jìn)。
音樂、廣播、電視、電影、游戲、現(xiàn)場(chǎng)娛樂等領(lǐng)域的內(nèi)容生產(chǎn)、技術(shù)加工和傳播所構(gòu)成的產(chǎn)業(yè)涉及廣闊,聲音成為連接這一切的線索。盡管2020年突如其來的疫情對(duì)于音頻產(chǎn)業(yè)造成巨大沖擊,但是新技術(shù)、新應(yīng)用的研究并未停止,音頻技術(shù)的性能和體驗(yàn)都得到顯著提升。與此同時(shí),媒體與娛樂業(yè)內(nèi)容生產(chǎn)與發(fā)布流程中對(duì)于高質(zhì)量音頻賦能的需求不斷增長(zhǎng),5G、語音識(shí)別和物聯(lián)網(wǎng)的進(jìn)步為音頻的連接性創(chuàng)造更加可靠的通訊條件,消費(fèi)者對(duì)于新的聲音體驗(yàn)充滿好奇與向往,這些都將推動(dòng)音頻產(chǎn)業(yè)在2021年重新回到快速增長(zhǎng)的軌道上來。
注釋:
[1]Polier, Sara.Forward-looking External Search as a Driver for Innovation: An Empirical Analysis of the Value Contribution of Different Search Strategies for Corporate Foresight[M]. Hamburg: Springer Gabler, 2018:2.
[2]Peter F. Drucker.The New Society of Organizations[EB/OL].[1992-09].https://hb r.org/1992/09/the-newsociety-of-organizations.
[3]1999 年 5 月,AES 技術(shù)委員會(huì)、董事會(huì)和 Richard Heyser 獎(jiǎng)學(xué)金基金共同設(shè)立了 Richard c. Heyser 紀(jì)念講座系列,以表彰這位杰出人士對(duì)學(xué)會(huì)做出的廣泛貢獻(xiàn)。
[4]148th Convention“Virtual Vienna”June 2-5, 2020[EB/OL].[2020-08].https://www.aes.org/events/reports/148thConvention.pdf.
[5]Emerging Technology Predictions 2021[EB/OL].[2021-02-01].https://www.forbes.com/sites/splunk/2021/02/01/emerging-technology-predictions-2021/?sh=4ae04cb86f7e.
[6]Brian Crannell, Knowles Corp.Consumer Audio: 2021 As We Hear It[EB/OL].[2021-01-19].https://www.eetimes.com/consumer-audio-2021-as-we-hear-it/.
[7]Anne-Fran?oise Pelé.Where Is the Real Value in the Audio Chain?[EB/OL].[2021-02-11].https://www.eetimes.com/where-is-the-real-value-in-the-audio-chain/.
[8]Barry Blesser, Derek Pilkington. Global Paradigm Shifts in the Audio Industry-Part 2[J]. JAES, 48(10), 2000(10): 946+948+950-952+954+956-959.