陳潔超,段俊峰,和伶俐
(云南廣播電視臺,云南 昆明 650500)
2011 年至今,人工智能(Artificial Intelligence,AI)技術不斷蓬勃發(fā)展[1]。2022 年11 月,聊天生成預訓練轉換器(Chat Generative Pre-trained Transformer,ChatGPT)正式發(fā)布[2]。生成式人工智能(Artificial Intelligence Generated Content,AIGC)在更多領域引發(fā)討論與研究。
現(xiàn)階段,AI 技術在廣播電視行業(yè)的應用主要體現(xiàn)在以下3 個方面。第一,AI 語音識別與語音合成技術。語音識別是將聲音轉換為文本的過程。通過AI 語音識別技術,可輔助人工快速制作節(jié)目唱詞,實現(xiàn)語音文本同步編輯,極大地提高工作效率。AI 語音識別技術還被用于多語言節(jié)目的制作,為廣播電視節(jié)目的國際傳播提供助力。語音合成是將文本轉換為語音的過程,通過AI 語音合成技術,配合主持人數字語音庫,可優(yōu)化采編流程,提高新聞的時效性,同時降低主持人的工作壓力和工作強度。第二,AI 人臉識別技術,用于媒體資產管理系統(tǒng)與播出系統(tǒng)的素材審核,幫助審核人員快速定位素材中可能存在的敏感人物并進行標記,減輕審片工作人員的工作壓力,提高審片效率,保障宣傳的意識形態(tài)安全[3]。第三,AI 視覺增強技術。利用AI 技術分析和提取素材的特征信息,并進行重構,可明顯提高素材的分辨率和幀率,清除視頻中的噪點,減少視頻的細節(jié)模糊與動態(tài)目標拖尾等問題,同時增加視頻的色彩飽和度,使觀眾獲得良好的節(jié)目收視體驗。該技術被廣泛用于老電影和珍貴老舊視頻資料的修復。
盡管AI 技術在廣播電視行業(yè)有了以上應用[4],但目前這些應用主要集中在節(jié)目制作端,通過改進傳統(tǒng)的節(jié)目制作流程,為節(jié)目生產者提供更便捷快速的服務,提高節(jié)目生產效率。根據節(jié)目類型,利用AI 技術設計增加觀眾互動體驗、以良好的體驗感獲取傳播影響力、反哺節(jié)目的應用卻較少。
云南廣播電視臺以節(jié)目《絲路云裳》為背景,對AI 技術在廣播電視節(jié)目互動體驗中的應用進行了一次全新的嘗試?!督z路云裳》是云南衛(wèi)視推出的一檔致力于傳承中國傳統(tǒng)文化、發(fā)掘非物質文化遺產、展示云南民族服飾文化的節(jié)目[5]。為了讓更多的觀眾了解和感受云南少數民族的服飾文化,更大范圍地宣傳云南非遺特色,云南廣播電視臺在 “創(chuàng)意云南文化產業(yè)博覽會(2022—2023)” 上的融合創(chuàng)新科技生態(tài)鏈展區(qū)內推出了 “絲路云裳AI 換裝” ,利用AI 技術結合該節(jié)目中展示的精美少數民族服飾,給觀眾帶來一次前所未有的互動換裝體驗。只需現(xiàn)場采集一張體驗者的面部圖像,通過圖像處理技術與AI 技術就可實現(xiàn)一鍵換裝與化妝,并將結果同步顯示在現(xiàn)場的電視大屏上,使得普通大眾也可以體驗一次服飾展示秀,直觀感受少數民族精品服飾的魅力。 “絲路云裳AI 換裝” 現(xiàn)場如圖1 所示。
圖1 “絲路云裳AI 換裝” 現(xiàn)場
通過攝像頭采集一張體驗者的面部圖像,在服飾庫中選擇其想要體驗的服飾照片或視頻,經由服務器進行計算,可快速生成體驗者換裝之后的圖片或視頻。生成的圖片或視頻通過開放廣播軟件(Open Broadcaster Software,OBS)投影到現(xiàn)場的電視上進行展示,同時上傳至云存儲端,上傳成功后可實時分享,體驗者只需掃描二維碼即可進行下載?,F(xiàn)場系統(tǒng)搭建如圖2 所示。
圖2 系統(tǒng)搭建
服務器中部署了《絲路云裳AI 換裝》軟件。軟件采用Qt 5.12 進行圖形用戶界面(Graphical User Interface,GUI)的開發(fā),以Python 3.10 來進行AI計算,界面如圖3 所示。
圖3 《絲路云裳AI 換裝》軟件界面
人臉源圖的獲取方式有兩種,一是直接選擇服務器中的人臉圖片,二是調用攝像頭實時采集。實時采集人臉圖像時,由于現(xiàn)場人員較多,圖像可能包含多人的面部信息。若直接使用采集的原始圖像作為人臉源圖,AI 無法識別真正的體驗者,會將圖像中所有人的面部信息疊加在一起作為輸入源進行計算,導致輸出錯誤。為確保體驗者的面部信息正確,軟件在采集圖像時先利用OpenCV(Open Source Computer Vision Library)對圖像進行處理。OpenCV是一個開源的計算機視覺和機器學習代碼庫,由一系列C 函數和少量C++類構成,實現(xiàn)了圖像處理和計算機視覺方面的很多通用算法,輕量級且高效,在人臉識別與跟蹤和圖像分析中有廣泛的應用[6]。
開啟攝像頭后,軟件自動加載人臉跟蹤模塊,攝像頭拍攝到的所有人臉信息均可被跟蹤到,且采用小矩形框進行標識,如圖4 所示。為確保體驗者面部信息完整,軟件在小矩形框的基礎上進行擴展,結果以大矩形框標識。只需確保體驗者距離攝像頭最近,在最大的小矩形框中即可拍照。根據跟蹤到的人臉信息,軟件會對圖像進行處理,保留最大紫色線框中的人臉信息,去除其余的人臉信息和多余的背景信息。保證輸入給AI 的照片中只包含體驗者的完整面部信息,可有效提高輸出的準確性和計算生成的速度。
圖4 人臉跟蹤信息
為保證換裝的效果,點擊軟件中的人臉檢測與人臉對比按鈕,可提取體驗者的面部特征并與服飾庫中模特的面部特征進行比對,通過比對結果提前預判最適合體驗者的服飾。面部特征的比對采用Dlib 的68 點標注模型實現(xiàn)。這是一種基于深度學習的人臉關鍵點檢測技術,將人臉關鍵點分為內部關鍵點和輪廓關鍵點,內部關鍵點包含眉毛、眼睛、鼻子、嘴共計51 個關鍵點,輪廓關鍵點包含17 個關鍵點[7]。軟件根據檢測到的68 個關鍵點,生成人臉的特征值,將體驗者的特征值與模特的特征值分別通過余弦相似度和L2 歸一化后歐拉距離進行距離計算。兩個距離計算的結果可相互佐證,選出最適合體驗者的服飾。圖5 為體驗者的68 個面部關鍵點檢測結果。
圖5 面部關鍵點檢測結果
采集到體驗者的人臉圖像并確定了需要 “穿” 的少數民族服飾之后,通過軟件生成換裝后的圖像或視頻,如圖6 所示。根據體驗者需求,在進行換裝的同時可采用人臉高清修復功能進行美顏,保留面部特征的同時去除面部的小瑕疵,使體驗者與服飾更搭配;采用背景高清修復對生成的結果進行畫質增強,使生成的圖片或視頻畫質更好。在生成之前加載人臉高清修復和高清背景修復的模型,在生成的過程中同步進行美顏和畫面增強。
圖6 換裝結果
換裝結果生成后,通過OBS 將結果推送到現(xiàn)場的大屏上進行展示,體驗者可在大屏上看到換裝后的自己,如圖7 所示。同時,后臺將結果上傳至云端,上傳成功后生成一個二維碼推送到大屏上。體驗者使用手機掃描大屏上的二維碼可將換裝結果下載至本地,分享到自己的社交平臺。利用社交網絡傳播速度快、范圍廣的特性,可以提高《絲路云裳》節(jié)目品牌的知名度和影響力。
圖7 換裝結果展示
為保證體驗者的換裝體驗,需要在服飾庫建立、服務器選擇和網絡環(huán)境配置3 個方面重點注意。
服飾庫用于存放服飾圖片與視頻。這些圖片和視頻須主題突出明確,其中呈現(xiàn)的少數民族服飾要精美、具有代表性,模特儀態(tài)端莊,視頻長度適中,既能充分展示少數民族文化的特色,也可最大限度使用服務器的計算能力,減少用戶等待時間,提高用戶體驗。
《絲路云裳AI 換裝》軟件需要AI 進行人臉圖像識別與處理,且采用的圖片與視頻皆為1 080×1 920 高清格式,現(xiàn)場需要快速生成結果,所以對硬件要求較高。服務器配置了英偉達(NVIDIA)4080顯卡,顯存為16 GB。如果升級硬件配置,同時搭建服務器集群均衡分布式協(xié)同工作,實現(xiàn)線上線下同步快速生成結果并進行 “大屏” + “小屏” 的互動展示,體驗效果會更好。
生成的圖片與視頻需實時同步至云端再分享給體驗者,這一過程對網絡要求高。網絡一旦出現(xiàn)故障或帶寬不夠,導致結果不能上傳,用戶只能在現(xiàn)場利用手機拍照記錄,傳播影響力將大打折扣。
《絲路云裳AI 換裝》作為AI 技術在電視節(jié)目互動體驗中的一種探索應用,收獲體驗者的不少好評。但目前的互動體驗是在節(jié)目《絲路云裳》播出后進行,與節(jié)目的制作播出相對獨立。在節(jié)目制作與播出時引入觀眾互動,以良好的體驗感反哺節(jié)目熱度,擴大節(jié)目知名度,提高節(jié)目收視率,向更多人展示云南少數民族文化的魅力,是未來發(fā)展的方向。
未來,可將軟件部署在七彩云上,體驗者在下載并注冊七彩云端App 后,通過自己的手機采集面部圖像上傳,就可請求在云端生成換裝的圖片或視頻。生成成功后,管理員審核完成即可下發(fā)到體驗者的App 相冊中,體驗者根據需求自行下載。
錄制《絲路云裳》時,可以挑選出具有代表性、符合主題的服飾圖片和視頻加入服飾庫,提前讓觀眾 “嘗鮮” ,利用互動加強節(jié)目宣傳預熱,吸引更多觀眾關注《絲路云裳》。同時,為服飾庫中的服飾制作唯一可標識的二維碼,準備大屏互動相關內容。
在七彩云端進行播出時,觀眾可以對自己喜愛、感興趣的服飾進行標識,點擊 “我要換裝” 可實現(xiàn)實時換裝。在大屏播出端展示一些典型服飾時,屏幕中會同步彈出該服飾的二維碼,觀眾在手機上用七彩云端掃描二維碼,可輕松換裝[8]。
未來,隨著人工智能技術的快速發(fā)展,人工智能對現(xiàn)有法律及規(guī)范體系的挑戰(zhàn)在不斷擴大。在帶有人臉、聲音等隱私信息的AI 技術應用中,在保護好隱私信息的同時,結合節(jié)目類型、節(jié)目特色給觀眾帶來更美妙的視聽體驗,是未來AI 技術在廣播電視節(jié)目應用中一個新的方向。