隨著大模型、數(shù)字人技術的迅猛發(fā)展,AI技術為視聽行業(yè)的不斷創(chuàng)新帶來更多可能。成立于2014年的趣丸科技,是一家集人工智能、電子競技、興趣社交等業(yè)務于一體的創(chuàng)新型科技企業(yè)。作為音頻行業(yè)的代表,趣丸科技始終站在技術前沿,積極探索和布局AI技術的研發(fā)與應用。憑借多年積累的人工智能和音頻技術,趣丸科技自主研發(fā)了集成運用音頻處理技術和集人工智能深度學習、大數(shù)據(jù)分析、音樂制作于一體的AI自動作曲技術,一站式解決音樂創(chuàng)作的全流程問題,為行業(yè)帶來了關于AI技術革新視聽體驗的新范例。
一、未來聲音的趨勢和發(fā)展
(一)聲音的重要性
聲音在人類生活、科技領域和文化領域中具有極其重要的作用。在人類生活中,聲音是一種重要的交流方式,能夠傳達情感、思想和信息。人們通過說話、歌唱、交談等方式,使用聲音溝通和表達,建立人際關系,傳遞知識和交流情感。
在科技領域,聲音被廣泛應用于語音識別、語音合成、聲音識別、聲音編輯和制作等方面,在智能家居、智能設備、虛擬現(xiàn)實和增強現(xiàn)實等方面發(fā)揮重要作用。
在文化領域,聲音藝術如音樂、配音、演講等占有重要地位,能夠傳達情感、表達思想,對人們的精神生活產(chǎn)生深遠影響。
(二)聲音技術的發(fā)展歷程
聲音技術的發(fā)展歷程是一個不斷進步和變革的過程,涵蓋了從最初的模擬技術到現(xiàn)代AI音頻技術的演變。主要時間節(jié)點包括:
1.傳統(tǒng)音頻(模擬音頻技術)。19世紀末期,最早的錄音技術誕生,托馬斯·阿爾巴·愛迪生發(fā)明了留聲機。
2.磁帶與錄音技術。1928年,磁帶錄音技術出現(xiàn),聲音可以被存儲在磁性介質(zhì)上,這種方式比留聲機的蠟筒或唱片更為靈活且易于編輯。
3.數(shù)字音頻。20世紀70年代末,數(shù)字音頻技術出現(xiàn),聲音被轉(zhuǎn)換成數(shù)字信號進行處理和存儲。1982年,CD(Compact Disc)面世,它為數(shù)字音頻的普及打下了基礎。
4.網(wǎng)絡音頻與MP3。20世紀90年代,隨著互聯(lián)網(wǎng)的普及,網(wǎng)絡音頻開始發(fā)展,MP3格式被發(fā)明并迅速流行,這使得音頻文件可以在互聯(lián)網(wǎng)上被輕松共享和下載。1993年,MP3格式標準化。
5.流媒體音頻。21世紀前10年,網(wǎng)絡帶寬的提升促使流媒體音頻服務興起,改變了人們獲取和消費音樂的方式。
6.AI音頻。21世紀10年代至今,AI技術開始被應用于音頻領域,出現(xiàn)了自動化音樂創(chuàng)作、智能音頻編輯、語音合成等技術。
近年來,深度學習技術的進步使得AI音頻技術日益成熟,比如,能夠模擬特定人聲的合成器、智能音樂推薦系統(tǒng)等。AI音頻技術的發(fā)展至今仍在繼續(xù),隨著人工智能和機器學習技術的不斷進步,我們可以預見在音頻合成、音樂生成、聲音識別和處理等方面,將有更多突破和創(chuàng)新。
(三)AI技術在音頻領域的應用
AI技術在音頻領域的應用已經(jīng)非常廣泛,并且隨著技術的進步,這些應用在不斷擴展和深化。
在音樂生成領域,AI可以用來創(chuàng)作音樂,包括生成旋律、和弦、鼓點等。一些軟件能夠根據(jù)用戶提供的參數(shù)或者學習過的海量音樂數(shù)據(jù)自動創(chuàng)作歌曲。
其中,聲音識別是AI在音頻領域的著名應用之一,包括語音識別和聲音識別。AI能夠識別和轉(zhuǎn)錄人類語音,以及識別特定的聲音模式。
在語音合成領域,AI能夠?qū)⑽谋巨D(zhuǎn)換為聽起來自然的語音,這在語音助手、自動化客服和閱讀器中得到廣泛應用。
在虛擬數(shù)字人領域,它可以提供自然、個性化和多功能的語音表達和理解能力,從而增強了虛擬數(shù)字人與用戶的交互體驗。
在聲音監(jiān)測和安全性方面,AI能夠監(jiān)測異常聲音,可用于安防系統(tǒng)或者監(jiān)測噪聲污染等。
二、音頻合成技術的應用案例
以趣丸科技的技術應用為例,我們研發(fā)了集人工智能、音頻處理、深度學習、大數(shù)據(jù)分析以及輔助作詞、作曲、編曲、混音等為一體的創(chuàng)新性AI技術。其功能包括三詞成曲、三鍵成曲、哼唱成曲等,可以自由選擇樂器、和弦組合及演奏方式,創(chuàng)作者即便不會使用樂器,也能輕松實現(xiàn)彈唱,大幅降低內(nèi)容創(chuàng)作門檻,讓專業(yè)用戶獲得靈感,讓“小白”用戶輕松邁入音樂創(chuàng)作殿堂。
AI音樂是技術與藝術的融合,既需要用戶創(chuàng)作時的靈光乍現(xiàn),也需要技術帶來的無限可能。我們的算法團隊圍繞“讓人人都能自由創(chuàng)作音樂,讓專業(yè)音樂人不再被靈感枯竭所限”的目標,在音樂創(chuàng)作流程的“作曲”“編曲”“演唱”等多個環(huán)節(jié)持續(xù)創(chuàng)新,開發(fā)了諸如“自動作曲技術”“多維織體編曲技術”“AI歌姬演唱技術”等系統(tǒng)。
同時,我們針對不同音樂風格,實現(xiàn)了多種音樂旋律生成的垂類模型(如BERT掩碼模型、GPT模型),針對用戶選擇的不同風格、情緒,實現(xiàn)從歌詞到旋律自動作曲,智能化控制每句歌詞的音高與節(jié)奏;在歌詞寫作方面,采用NLP大模型技術,實現(xiàn)歌詞自動寫作功能,用戶只需輸入關鍵詞,即可生成結(jié)構(gòu)性強的歌詞;為了保證模型生成高質(zhì)量的旋律樂譜,在自動作曲系統(tǒng)的后端,我們?nèi)诤狭嘶趶娀瘜W習、對比學習等技術方案的樂譜打分模塊,多個模塊的串并聯(lián),讓AI音樂更具備“可記憶性”“有關聯(lián)性”及“音樂前后的結(jié)構(gòu)性”,真正為AI作曲注入靈魂。
多維織體編曲技術不僅結(jié)合了編曲業(yè)內(nèi)學院派的嚴謹編曲作風,同時積極學習風格不同編曲人的自由與創(chuàng)新精神,為了讓音色選擇及樂器搭配符合不同風格需求,團隊開發(fā)了基于CNN的配器推薦模型。該模型能夠根據(jù)用戶風格、情緒、場景,甚至歌手、年代等參數(shù),推薦適配度最高的樂器。為了進一步讓和弦及樂器織體的編排符合和聲學的框架,同時讓兩者具備更多自由度與多樣性,我們開發(fā)了多維織體生成框架,包含基于Transformer的深度學習模型,以及由業(yè)內(nèi)編曲專家打造的機器學習專家系統(tǒng)。該框架為每一個織體都賦予了7至10種維度屬性,讓樂器織體與和弦能夠最大程度地匹配用戶情緒及音樂曲風。兩項核心技術共同構(gòu)筑了我們的自動編曲大框架,為用戶精準生成“心中的音樂”。
針對不善于歌唱的用戶,基于Diffusion概率擴散模型的技術方案,開發(fā)了“AI歌姬演唱”歌曲合成技術,能夠讓用戶自主選擇歌姬的音色,實現(xiàn)歌曲自動生成,極大程度降低了音樂創(chuàng)作門檻。
為了進一步提高用戶參與度,獲得音樂創(chuàng)作樂趣,在“AI歌姬演唱”技術中,引入了音色克隆技術。團隊成員借助聲紋識別、音色遷移等技術,可以實現(xiàn)Zero-shot零樣本音色克隆技術,僅需用戶極短的聲音采樣,就可以使用用戶的音色唱出用戶心中的歌曲。這個技術的研發(fā),滿足了用戶個性化歌聲音頻生成場景的需求,豐富整個產(chǎn)品的可玩性。
其中,三詞成曲又叫文生音樂,輸入三個關鍵詞,使用簡易提示,關鍵詞擴充生成完整歌詞,再使用文本輸入自由控制音樂風格,根據(jù)輸入的歌詞及音樂元素,一鍵作曲編曲混音生成歌曲,創(chuàng)作者還可以對生成結(jié)果二次調(diào)整編輯,可控性更強。創(chuàng)作者也可以錄制自己的聲音,上傳成為虛擬歌手,用自己的聲音演唱,這就是我們剛才提到的音色克隆技術。
三鍵成曲是一種作曲中用到的即興創(chuàng)作手法。在AI加持下,用戶只需根據(jù)AI提示,敲下3至6個鍵作為“動機”,AI根據(jù)你的輸入生成指定風格的完整曲目。通過這項技術,普通人也能零門檻體驗專業(yè)作曲。
哼唱成曲,用戶只需哼唱5秒鐘,AI就能捕捉這短暫的聲音,并將其擴展成一首完整的音樂作品。哼唱玩法極大簡化了音樂創(chuàng)作復雜性,使得每個人都有機會將自己的靈感轉(zhuǎn)化為音樂。無論是紀念一個特別的時刻,還是記錄一個有趣的聲音,都能讓那些有意義的聲音變成音樂作品。
AI音樂在行業(yè)中應用非常廣泛。在音樂發(fā)行方面,AI音樂可以生成大量風格各異的音樂,大大降低了音樂創(chuàng)作和制作成本,提高了音樂作品的產(chǎn)量和質(zhì)量。這對于獨立音樂人、小型音樂工作室、獨立電影制作人等音樂需求者來說,都是非常實用的工具。在短視頻BGM(Background Music)方面,AI音樂還可以根據(jù)視頻內(nèi)容自動生成適合的背景音樂,為短視頻提供更加豐富和個性化的配樂選擇。
未來,將持續(xù)布局數(shù)字經(jīng)濟新賽道,搶占數(shù)字經(jīng)濟發(fā)展高地,并持續(xù)在AI、大數(shù)據(jù)、音視頻、興趣社交等技術領域深耕。推出的TT語音平臺已成為“Z世代”圈層中流行的興趣社交平臺,累計注冊用戶超過2億。旗下電競俱樂部TT電競是華南地區(qū)唯一擁有四大頂級電競聯(lián)賽席位的俱樂部。
我們堅信,隨著AI技術不斷演進,數(shù)字化視聽內(nèi)容創(chuàng)新將展現(xiàn)更加廣闊的發(fā)展前景。唯有通過共同的努力,從業(yè)者才能夠引領這一創(chuàng)新浪潮。同時,趣丸科技將不斷創(chuàng)新,繼續(xù)深耕數(shù)字化視聽及人工智能領域,為人們帶來更多娛樂、教育、科技和文化的可能性。W
(作者任少峰系廣州趣丸網(wǎng)絡科技有限公司副總裁、總編輯)