胡小羽,孫 通,胡 康,王 磊
(1.江西省氣象服務中心,江西 南昌 330000;2.深圳市國家氣候觀象臺,廣東 深圳 518040)
隨著技術的發(fā)展,新型媒體平臺不斷增多,大眾獲取氣象信息的渠道趨于多樣化,傳統公眾氣象服務方式難以滿足日漸增長的公眾服務廣度和深度要求,融媒體氣象服務成為當前主流的發(fā)展方向。面對多平臺、多需求、多數量的新要求,融媒體氣象服務產品在產出速度和數量上都面臨新的挑戰(zhàn),依靠人力很難快速形成產品的海量輸出。機器寫作的引入可以實現氣象數據自動生成圖文和音視頻產品,有利于彌補氣象融媒體服務人力產能不足的短板。
機器寫作指的是運用算法收集、處理數據并自動生成稿件的計算機程序。理想情況下,寫作機器人可以脫離人力干涉,自動且快速地生成各種題材的文字稿件,包括并不限于新聞資訊、服務說明、詩歌文學、文字腳本等內容,且能夠不斷學習、自我迭代,從而達成輔助或代替人類寫作的目的[1]。
目前,機器寫作技術已經從理論逐步走向實踐,在國內外多個領域,尤其是傳媒領域獲得了較為廣泛的應用。國外已經使用機器寫作的媒體有紐約時報(blossom)、美聯社(WordSmith)、華盛頓郵報(Heliograf)等,國內有新華社(快筆小新)、騰訊(dreamwriter)、今日頭條(張小明)、南方都市報(小南)等,寫作內容以財經、體育、科技新聞以及每日熱點資訊為主。
隨著機器深度學習領域的拓寬,部分新聞寫作機器人涉及了部分天氣資訊的寫作,主要以天氣災害和天氣新聞播報為主,但還存在兩點不足:一方面,主流產品以抓取相關網絡數據為主,在氣象數據上的可選范圍小,難以進行更復雜和詳細的天氣描述,同質化程度高;另一方面,產品主要以文本為主,基本沒有常規(guī)運行的音視頻產品,難以適應當前的融媒體環(huán)境,大眾覆蓋面較窄[2]。
想要更好地利用氣象數據,實現多種形式產品的生產,就要用機器寫作技術實現“氣象數據-文本”,并以此為基礎,引入當下成熟的文字轉語音技術以及氣象數據可視化技術,最終以氣象數據為基礎,自動快速形成氣象融媒體產品。
機器寫作技術模仿或代替人類工作,本質上是一種自然語言處理系統(Natural Language Processing,NLP),根據不同的數據來源和產出需求,發(fā)展出了模板式、抽取式及生成式3 種模式。
抽取式機器人會對文本進行語義分析,識別冗余信息,抽取重要內容,通過摘錄或概括的方法壓縮文本,形成對于既定文字的摘要,再加以計算確保文摘的連續(xù)性,這種技術廣泛應用于新聞內容概括和文摘生成[3]。
在氣象融媒體服務當中,抽取式機器寫作可以以新聞綜述和信息匯總的生成方式,通過抓取已經存在的相關服務信息和新聞,對某種災害性天氣服務進行匯總型整理,尤其是對于已經結束的天氣過程,讓大眾有更加全面的認識。但由于氣象實況和預報主要以數據為主,該方式難以表達天氣預報及相關服務。
模板式寫稿機器人主要通過優(yōu)化算法,在預先存儲的大量寫作模板中,選擇與給定材料相匹配的模板,將信息加以組合生成文本,是目前應用最成熟、實現最容易的一種機器寫作方法,但生成的內容相對固定化。
模板式機器寫作可以較好地形成氣象融媒體服務“數據-文本”的流程,為了規(guī)避模板固定化、內容同質化的弊端,可通過加設氣象數據條件判定,即以氣象服務內容特征為依據,設置數據呈現的觸發(fā)機制,篩選當天最為突出的實況內容和預報特征,在文字用語、圖片配色上做差異化分類,能夠在一定程度上規(guī)避產品的大量同質化問題[4]。
生成式主要通過深度學習和增強學習技術實現。機器通過大量的文學作品樣本進行訓練,學習各類寫作風格、建立寫作模型,再根據輸入的文字片段獲知任務需求,預測并生成與需求相匹配的文稿,進行輸出。
在理想情況下,生成式機器寫作是比較好的解決方案,能夠通過深度學習,不斷自我迭代,但在實際操作過程中還面臨大量技術挑戰(zhàn),如樣本的補充難度、模型訓練的復雜度、同義詞的問題、情感傾向問題、歧義性問題等等,因此距離實際生產應用還有不小的距離。
筆者認為,基于氣象數據量大的特性,以及重預報、重防范的服務特性,模板式機器寫作可以更好地側重于天氣過程的發(fā)生發(fā)展,可以作為主要的機器寫作方式,從而實現數據驅動、自動生產文本的快速流程,并通過數據判定、模板更新、更替圖片配色等方式,彌補內容同質化缺陷,發(fā)揮特長。
氣象數據自動生產氣象融媒體產品的實現需要4 個模塊,即數據管理模塊、文稿生成模塊、語音合成模塊以及視頻合成模塊,如圖1 所示。數據管理模塊讀取和保存氣象實況和預報數據,文稿生成模塊主要完成將氣象數據轉化為文本的工作,語音合成模塊采用外鏈文字轉音頻技術,形成音頻產品,視頻合成模塊將選用的氣象數據生成圖片,最終結合音頻產品輸出成視頻。通過各個模塊的寫作,可以實現氣象數據對文字、音頻、圖片和視頻的自動生成,由一組數據形成整套多樣態(tài)的氣象融媒體服務產品[5]。
圖1 氣象融媒體機器智能寫作結構
機器寫作技術主要應用在文稿生成模塊,該模塊是整個體系的基礎和核心,基于模板式機器寫作方式,該部分主要通過文稿模板素材庫和數據觸發(fā)規(guī)則來實現,當氣象實況和預報數據滿足觸發(fā)條件,則對該組數據進行模板文字匹配。
機器寫作文稿生成部分的主要內容由兩大部分組成,一是數據觸發(fā)規(guī)則,二是文字模板素材?;跉庀髷祿奶匦院痛蟊妼庀蠓盏闹饕枨螅枰謩e對兩者進行細致的設定。
3.2.1 數據觸發(fā)規(guī)則
數據觸發(fā)規(guī)則需要判斷是否觸發(fā)描述該天氣,以及如何有區(qū)分、有輕重地描述此類天氣。氣象數據包含氣象實況數據和預報數據,氣象實況數據具有氣象要素、時間、不同量級定義、地理位置等復雜信息,每個時段所有站點擁有的全要素氣象實況數據,信息量大且龐雜,需要從大量的信息中篩選出對大眾生活有影響的天氣要素,有重點地進行描述。預報數據包含時間、天氣、區(qū)域等信息,同樣也需要從面到點的概括式、聚焦式說明。
數據選取規(guī)則需要根據不同氣象要素分類設定,一條規(guī)則需要包含規(guī)則的id、觸發(fā)優(yōu)先級、規(guī)則內容以及觸發(fā)動作等信息,可以讓大眾更加明確天氣的強度。比如氣溫要素,需要配置“如果文本生成時間>08 時且<14 時,且未觸發(fā)最低氣溫數據,那么就使用08 時氣溫全省平均值”。而如果是降雨,則需要配置“10 mm 以上站點占10%~30%,觸發(fā)最近24 h 累計雨量,使用降雨站點數量以及主要量級。當最高量級為大雨以上時(≥25 mm),還需調取最高量級站點數量、最高值站點名稱及其數值?!?/p>
地理分布規(guī)則,主要為了更加明確地歸納天氣發(fā)生發(fā)展的地理位置,并使用約定俗成的區(qū)域劃分方式。以江西省為例,可以劃分為贛北、贛中、贛南等區(qū)域,大眾可以更加直觀地認知該天氣的覆蓋面。
3.2.2 模板語料庫
根據細分的判定規(guī)則,需要對每一種天氣要素的不同強度分類進行細致的模板文字梳理,比如對于高溫,當全省日最高氣溫滿足“30 ℃<全省最高氣溫平均值(c)<35 ℃”這一條件時,在文字內容的分類上考慮使用一般表達強度,簡單描述現狀?!白蛱烊∽罡邭鉁仄骄校╟)℃?!倍斎兆罡邭鉁貪M足“30 ℃<全省最高氣溫平均值(c)<35 ℃,且30%以上站點數值≥35 ℃”時,文字部分需要體現熱的強度升級,如“昨天,全省熱浪席卷,日最高氣溫平均有(c)℃,(c2)個縣區(qū)出現了35 ℃以上的高溫,其中(c3)最為炎熱,高(c4)℃?!?/p>
同時,針對不同天氣對大眾生活影響的方向不同,需要有側重的服務關照提示。比如“氣溫波動大,需要關注氣溫變化,合理調整著裝”“氣溫偏高,午后雷雨多發(fā),大家出門的時候記得備一把雨傘,防曬防雨兩不誤”。不僅呼應和總結了未來天氣變化的重點,同時還在一定程度上體現了人文關懷,使文稿更具有“人味”。
根據觸發(fā)的規(guī)則,機器會選取合適的模板作為輸入,生成數據替換后的最終語句。同一個觸發(fā)規(guī)則有可能對應多個文稿模板,此時可以對文稿模板定義優(yōu)先級或者采用隨機、輪詢的方式選擇。
3.2.3 音視頻產品生成
音視頻產品的生成主要通過引入成熟的相關轉換技術來實現。在機器寫作完成數據篩選和文本生成后,音頻產品將會由文字直接轉換而來,視頻的畫面部分可以通過對觸發(fā)數據的氣象數據可視化技術實現,經過規(guī)則匹配之后,系統篩選出使用的數據種類和時次。根據這些信息,在素材庫中搜索對應的可視化圖片產品。這些圖片產品會作為素材,替換After Effects 模板中的資源,然后進行渲染,最終生成視頻。
以機器寫作技術為基礎,引入音頻和數據可視化技術,可以很好地解決氣象融媒體產品在短時間、大批量、全平臺、多樣態(tài)覆蓋的難題,能夠在一定程度上解放服務人力。主要有以下優(yōu)勢。
(1)數量多,極大豐富常規(guī)的氣象融媒體產品數量,實現多平臺、多時次的氣象融媒體產品投放,節(jié)約服務人力,可以讓公眾氣象服務人員投入在創(chuàng)造性內容以及重大氣象災害的相關服務產品上。
(2)速度快,在突發(fā)氣象災害,尤其是短時強對流天氣等生命史短暫、影響區(qū)域狹小、時空分布復雜的天氣過程時,利用機器寫作,可以快速制作并發(fā)送服務產品,特別是可補充融媒體產品制作欠缺的縣區(qū)一級。
(3)性價比高,一次投入多次使用。由于氣象內容的數據轉產品的特性,只要形成多樣化的邏輯模板、不斷抓取語料庫,后期輔助人工審核即可,可減少大量人力成本和從業(yè)人員的教育時間成本。
氣象融媒體機器寫作的應用能在一定程度上緩解目前氣象融媒體產品的產能不足和供需矛盾,但同樣面臨著一些風險,具體如下。
(1)內容同質化風險??焖佟⒋罅康哪0鍍热莩霈F,使得相關內容同質化現象明顯,很容易帶來審美疲勞,導致關注度流失,應當更多頻次地更新語言模板和產品樣態(tài)。在重大氣象服務中,更多專業(yè)且精細化的融媒體服務產品,還需更多的專業(yè)服務人員的參與。
(2)海量資訊重點模糊。當大量機器生產的融媒體產品投放時,信息呈現爆炸性的增長,容易使得真正重要的內容無法更好地傳達到大眾面前。因此,在使用和投放中應當更加慎重,尤其是面對氣象災害時,需要更加規(guī)律且克制地使用相關技術。
(3)內容導向風險。對于災害性天氣的描述很可能流于數據而缺乏人文關懷,對于災害的用詞的準確性,是否符合災情中的情感傾向,需要人工把握和審核。
機器寫作在氣象融媒體服務中的應用具有較好的技術可行性和良好的使用前景,該技術的使用將極大地豐富氣象融媒體產品的數量和更新頻次,但應將人機關系定位在協同服務的位置上,補充人力不足,輔助人工服務,形成差異化分工合作,而絕不是代替人工。機器寫作需要不斷由人工審核、審慎投放、更新模板,才能避免內容同質化、模糊焦點和內容導向的風險,更好地為大眾提供氣象服務產品。