邢旭東
摘? 要? 機器人還處在弱人工智能階段,無法思考文字含義,無法有意識地運用文字指代周圍世界,其寫作像是玩文字組合游戲,按照某些方式將文字與數(shù)據(jù)組合起來形成新聞。其寫作模式主要有三種。一是基于定制模板的數(shù)據(jù)填充模式,結(jié)構(gòu)和文字由人類設(shè)置好,部分地方留出“空格”,讓機器人抓取數(shù)據(jù)填充。二是基于自動摘要的二次創(chuàng)作模式,機器人提取同一主題下多篇報道的摘要進行整合寫作。三是基于機器學(xué)習(xí)的智能化寫作模式,全方位模仿人類,寫出有傾向性、有特色的作品。
關(guān)鍵詞? 新聞機器人;人工智能;媒體;寫作模式;定制模板;自動摘要;機器學(xué)習(xí);深度學(xué)習(xí)
中圖分類號? G2? ? ? 文獻標(biāo)識碼? A? ? ? 文章編號? 2096-0360(2019)13-0024-04
新聞機器人指的是能夠模仿人類的思考和行為方式,從事新聞采訪、寫作和編輯工作的智能化軟硬件系統(tǒng)。新聞機器人可以在特定領(lǐng)域?qū)懽鞒龊细竦男侣勛髌?,甚至在有些方面超越了人類記者。但是由于新聞機器人目前還不具有自我意識,因此不能真正的理解新聞事件對于自身、對于人類、對于世界的含義。
1? 新聞機器人的發(fā)展現(xiàn)狀
1.1? 引入新聞機器人從事采編工作已經(jīng)成為傳媒業(yè)的趨勢
紐約時報明確指出,由機器人記者主導(dǎo)的新聞行業(yè)正在迅速崛起[1]。2014年開始,華盛頓郵報、洛杉磯時報、衛(wèi)報、路透社、美聯(lián)社等國際頂級媒體分別擁有了新聞機器人系統(tǒng)。目前,美國的彭博新聞社,有1/3的新聞都是由機器人完成的。從2015年開始,國內(nèi)的新華社、騰訊、百度公司也擁有了自己的新聞機器人,目前國內(nèi)至少有數(shù)十家媒體和公司擁有了自己的新聞機器人。
1.2? 新聞機器人還處在不懂裝懂的弱人工智能
階段
新聞機器人的核心是人工智能?!叭斯ぶ悄芸赡苄枰欢螘r間才能充分發(fā)揮其潛力。這一潛力的范圍大到難以想象”[2]。依據(jù)其對人腦模仿的程度分為兩個大類:強人工智能和弱人工智能。強人工智能指的是機器人具有與人類相同的認知能力,能夠理解事物的意義。弱人工智能指的是機器人不需要具有與人類一樣完整的認知能力,只要設(shè)計的看起來像具有智慧即可[3]。
目前,機器人還處在弱人工智能階段,其寫作更多像是在玩文字組合游戲,按照某些特定的方式將文字與數(shù)據(jù)組合起來,寫出看起來有意義的新聞報道,其實就是不懂裝懂?,F(xiàn)階段的新聞機器人無法思考文字的真正含義,無法理解文字對于現(xiàn)實世界的指代關(guān)系,不能夠有意識地運用文字符號去指代周圍世界,也無法真正理解事物的意義,還處在弱人工智能階段,“機器人能夠通過編程來解釋符號,可他們無法感覺其中的含義”[4]。
2? 研究新聞機器人寫作模式的意義
2.1? 新聞機器人給人類記者帶來了挑戰(zhàn)和機遇
新聞機器人既是人類記者的競爭者,又是人類記者的有力助手。新聞機器人在一方面取代記者的部分工作,特別是機械性、重復(fù)性的材料收集、數(shù)據(jù)計算和文字校對工作,進而取代記者完成那些有著固定數(shù)據(jù)來源與寫作模板的新聞報道,記者在內(nèi)容創(chuàng)作中的獨一無二的地位正在受到機器人的挑戰(zhàn),部分新聞人會因為機器人的到來而失業(yè)。但是另外一方面它又可以使得記者從繁重而枯燥的重復(fù)勞動中解放出來,從以人為本、審美需求和社會發(fā)展的角度,進行批判式的思考,進行深度調(diào)研、深度思考,探索新聞事件深層次的價值與意義,挖掘新聞事件的情感訴求和審美價值,從事更具創(chuàng)造力、更具挑戰(zhàn)性的新聞活動,更好地理解和闡釋新聞事件對于人類社會和特定個體的意義。
2.2? 理解機器人的寫作模式可以幫助記者抓住機遇、應(yīng)對挑戰(zhàn)
新聞記者要想更好地應(yīng)對機器人帶來的挑戰(zhàn)和機遇,就必須對新聞機器人的工作方式有一個基本清晰的認識,才能更好地利用機器人的特點,揚長避短,提高工作效率,將更多的時間用于深度調(diào)研、深度思考和深度分析,更好地引導(dǎo)機器人成為自身的合作伙伴而不是競爭對手。同時,記者在理解了機器人的工作模式之后,還可以受到啟發(fā),提高自己的采寫技能。因為機器人的工作模式一定程度上是對人類工作模式的優(yōu)化,可以讓人們看到自身工作中的不足,以及提高工作流程的方式方法,記者可以從機器人的寫作模式獲得啟示,從而提高自己的新聞采寫效率。
3? 新聞機器人寫作的三種主要模式
3.1? 基于定制模板的數(shù)據(jù)填充模式
這種模式就像讓機器人做填空題一樣,新聞報道的基本結(jié)構(gòu)和文字表述都是人類記者和編輯預(yù)先設(shè)置好的,只是在文中的部分地方留出“空格”,讓機器人填充。機器人在互聯(lián)網(wǎng)上抓取數(shù)據(jù),如人名、地名和數(shù)字等,對數(shù)據(jù)進行相應(yīng)的計算或其他形式的處理,然后填充到人類預(yù)先設(shè)置好的文字模板中。針對同一個主題預(yù)先設(shè)置好的模板可以有多個,機器人會根據(jù)獲得的數(shù)據(jù)選擇使用具體的模板。
比如,機器人要寫作一篇基于模板的單只股票的報道,編輯們已經(jīng)設(shè)置好了如下模板,“**年**月**日,**股份股價進一步(拉升/下跌),上漲**,截至發(fā)稿,該股報**元每股,成交**手,換手率**,振幅**。”,“**”部分就是機器人需要從互聯(lián)網(wǎng)上抓取數(shù)據(jù)、計算并填充進入模板中的。括號中(拉升/下跌)的文字部分需要機器人對數(shù)據(jù)計算后進行選擇判斷。這種寫作模式適合于由數(shù)據(jù)驅(qū)動的財經(jīng)新聞、體育新聞和天氣新聞,對于深度報道是無能為力的。
機器人采用這種模式可以輕松的分析出一家上市公司業(yè)績變化的趨勢,以及與同行業(yè)其他公司相比其經(jīng)營狀況的優(yōu)劣。美聯(lián)社新聞機器人Wordsmith可以在一秒鐘生產(chǎn)數(shù)千篇財經(jīng),之所以能夠?qū)崿F(xiàn)這種高效的寫作,其實它就是將上市公司的數(shù)據(jù)及其處理的結(jié)果放入預(yù)制好的模板?!度A盛頓郵報》的寫稿機器人heliograf針對大選所寫的報道,也采用了這種模式?!度A盛頓郵報》的編輯,需要先設(shè)置好故事模板,“模板建立以后,可以將相應(yīng)的數(shù)據(jù)簽套到heluigraf的模板當(dāng)中?!盵5]
那種數(shù)據(jù)驅(qū)動的體育報道也比較適合這種模式。下面這條新聞由“今日頭條”的機器人AI小記者撰寫的,“北京時間8月15日07:30時,現(xiàn)世界排名第8的戴資穎在奧運會羽毛球女子單打小組賽中勝出。戴資穎本輪的對手是現(xiàn)世界排名第52的娜塔莉亞-佩米諾娃,實力不俗。但經(jīng)過28分鐘的激烈較量,最終,戴資穎還是以總比分2︰0戰(zhàn)勝對手,笑到了最后?!背巳嗣蛿?shù)字以外,其他的文字表述應(yīng)該都是事先模板里面設(shè)計好的。包括“實力不俗”“激烈較量”“笑到了最后”等帶著人類感情的詞匯,其實都是預(yù)先放進機器人寫作模板的。此種寫作模式只適合于由數(shù)據(jù)驅(qū)動的新聞報道,那種需要敘述故事情節(jié)和描寫場景細節(jié)的新聞報道顯然不能使用這種寫作方式的。
3.2? 基于自動摘要的二次創(chuàng)作模式
這種模式就是讓機器人在互聯(lián)網(wǎng)上自動獲取特定主題下的大量新聞報道,在分析處理之后,提取同一主題下多篇報道中最能表現(xiàn)主題的精華摘要,然后進行整合寫作,形成一篇新的報道,對機器人而言,可以看作是二次創(chuàng)作。記者和編輯提供的主題關(guān)鍵詞,機器人根據(jù)關(guān)鍵詞去查找和收集相關(guān)的文字報道,按照一定的算法提煉這些文字素材的摘要,然后將這些摘要進行二次加工,整合形成一篇新的報道。當(dāng)然為了體現(xiàn)創(chuàng)新性,會對語言做一些處理,比如句子的壓縮、同義詞的替換等。
自動新聞?wù)褪怯谜闹械囊恍╆P(guān)鍵語句來概括整篇新聞報道的大致內(nèi)容,用戶通過閱讀摘要就可以了解原報道的主要意思。自動摘要方法“基于一個假設(shè),一篇文章的核心思想可以用文檔中的某一句或某幾句話來概括,那么摘要的任務(wù)就變成了找到文檔中最重要的幾句話,也就是一個排序的問題”[6]。這里介紹一種文章比較常見的自動摘要模型。機器人程序?qū)蟮乐械乃芯渥哟蚍?,得分高的句子按照順序組合在一起。對句子打分的標(biāo)準(zhǔn)分為三部分。第一,句子位置。根據(jù)句子在全文中的位置給出分數(shù)。比如第1句話得分最高,第2句話次之,第3句話的得分又稍低。當(dāng)然,每段第1句話也可以賦予較高的分數(shù)。第二,文章內(nèi)容與文章標(biāo)題的關(guān)系。句子是否包含標(biāo)題詞?包含多少標(biāo)題詞?根據(jù)句子中包含標(biāo)題詞的多少以及對標(biāo)題意義的呼應(yīng)程度來打分。第三,句子關(guān)鍵詞。首先對文章進行分詞,統(tǒng)計每個詞語的頻率,將排名前5或者前10的有意義的詞語提取出來,作為關(guān)鍵詞,通過統(tǒng)計句子中包含關(guān)鍵詞的情況以及關(guān)鍵詞之間的間隔距離來打分。除了這種摘要模式,還有其他的摘要模式,都有一定的合理性與不足。
該過程涉及自然語言處理(Natural Language Processing,簡稱NLP)技術(shù),它是人工智能和語言學(xué)交叉融合下的全新研究領(lǐng)域。主要研究如何幫助計算機最佳地理解、處理和生成人類的自然語言。主要技術(shù)范疇包括自動分詞、詞性標(biāo)注、句法分析、文本分類,文本情感分析、自動摘要、語音識別與合成等。涵蓋了語言學(xué)、數(shù)學(xué)、心理學(xué)、哲學(xué)、統(tǒng)計學(xué)、計算機科學(xué)、生物學(xué)等領(lǐng)域的理論知識。這也是百度機器人writing_bots的寫作方式之一,百度機器人“在已有稿件的基礎(chǔ)上,通過內(nèi)容分析聚合生成新的文章。因為是基于己有稿件內(nèi)容創(chuàng)作的新的稿件,因此可以看作是二次創(chuàng)作”[7]。
新聞機器人在寫作體育新聞和娛樂新聞時,也經(jīng)常使用這種模式。在體育報道中,機器人獲得比賽的直播文字之后,依據(jù)關(guān)鍵詞出現(xiàn)的頻率或者其他標(biāo)準(zhǔn),對直播文字進行語句進行打分,將得分高的句子抽取出來,按照一定順序重新組合,最后生成一個比較精彩的體育報道。如果是娛樂新聞,機器人按照一定的算法標(biāo)準(zhǔn),分析明星微博中和網(wǎng)民跟帖中最具哪些語句得分高,然后把明星微博和網(wǎng)民跟帖中得分高的語句摘錄出來,同相關(guān)的背景信息組合在一塊,就可以形成一篇不錯的娛樂新聞。
3.3? 基于機器學(xué)習(xí)的智能化寫作模式
這種模式就是讓機器人全方位地學(xué)習(xí)與模仿人類記者的寫作方式,對采集到的新聞素材進行完全自主的加工處理,寫出有傾向性、有情感、有風(fēng)格特色的新聞作品。不需要預(yù)先定制好的模板引導(dǎo),也不會只是將獲得的摘要進行簡單組合,而是在對新聞素材進行語義解析的基礎(chǔ)上進行真正意義上的全新創(chuàng)作。人工智能領(lǐng)域現(xiàn)在還在對這種模式進行艱難的探索,取得了一定的成果,但是進展還不是很理想。
這個模式的核心是機器學(xué)習(xí)。機器學(xué)習(xí)“用類似于人類的方式來學(xué)習(xí),即從經(jīng)驗中學(xué)習(xí)并在獲得更多經(jīng)驗的同時繼續(xù)完善其表現(xiàn)”[8]。機器人在寫作之前,會在人類的指導(dǎo)下進行學(xué)習(xí),通過解析海量的新聞文本,掌握基本的寫作技能,這也是新聞機器人真正的魅力所在?!皺C器自己就能從大數(shù)據(jù)中尋找特征、發(fā)現(xiàn)規(guī)則、總結(jié)模型……是擅長‘發(fā)現(xiàn)套路的行家里手”[9]?!氨热绨涯橙請筮^去10年每期的所有文章標(biāo)題,以及專業(yè)人士對這些標(biāo)題的評判結(jié)果輸入給深度學(xué)習(xí)(機器學(xué)習(xí)的方式之一),它自己會琢磨出其中的規(guī)律并建立預(yù)測模型”[10],然后機器人根據(jù)挖掘出的規(guī)律和模型為文章制作出比較優(yōu)秀的標(biāo)題。
這類新聞寫作機器人的智能核心,一定程度上模仿人類的神經(jīng)網(wǎng)絡(luò),對獲取的海量的新聞報道進行深度解析,分析與梳理出新聞報道中字詞的搭配、語句的銜接以及段落的過渡方式。進而學(xué)習(xí)和模仿人類的新聞寫作模式,學(xué)習(xí)和模仿名記者的寫作風(fēng)格。在訓(xùn)練完成之后,可以實現(xiàn)完全自主的數(shù)據(jù)抓取、新聞線索發(fā)掘以及新聞寫作。此類機器人可以對平淡的原始新聞素材進行加工,使其具有某種典型的寫作風(fēng)格和情感傾向性,可以是模仿某位名記者的,也可以機器人自己獨創(chuàng)的。此類機器人也可以對某個話題下的網(wǎng)民言論進行有效的分類、總結(jié)和情感分析,從而揭示網(wǎng)絡(luò)輿論的走向。當(dāng)然,也可以揭示某些事物之間的復(fù)雜聯(lián)系,并呈現(xiàn)在新聞報道中。
當(dāng)然,人類目前對于大腦的運作機制的認識還不是很深刻,對于自我意識的本質(zhì)還沒有搞清楚,因此,人工智能的算法不能完全模擬人類的思考和行為方式,采訪寫作和編輯活動總體而言還顯得比較呆板、簡單。但是,隨著人工智能學(xué)科的快速發(fā)展,基于機器學(xué)習(xí)模式的新聞機器人在未來數(shù)十年應(yīng)該有迅猛的發(fā)展,新聞機器人在對外部環(huán)境的感知和理解方面,對新聞價值的判斷方面,以及對文字符號的運用方面,可能有一個質(zhì)的飛躍。
這三種寫作模式并不是截然分開的,很多時候是有機融合在一起的。就目前而言,前兩種寫作模式已經(jīng)投入了新聞傳媒業(yè)的實踐應(yīng)用,一定程度上替代了新聞采編人員的低端重復(fù)勞動,引導(dǎo)新聞采編人員從事更有創(chuàng)造力、更有價值的新聞活動。第三種寫作模式目前還處在探索和萌芽階段,但卻是最有發(fā)展前景的機器人寫作模式。
4? 人類記者如何應(yīng)對機器人的挑戰(zhàn)
人工智能正在深刻而迅速地改變著新聞傳媒業(yè),媒體為了應(yīng)對競爭,必然會引進機器人來提高工作效率,機器人寫新聞已經(jīng)成為無法避免的趨勢。不少新聞人已經(jīng)感受到了人工智能帶來的威脅,認為記者的飯碗會被新聞機器人搶走。在新聞寫作方面,人類記者如何應(yīng)對機器人的挑戰(zhàn)?
首先,記者應(yīng)該充分發(fā)揮自身進行現(xiàn)場采訪的優(yōu)勢,深入現(xiàn)實生活的各個領(lǐng)域、各個角落,進行深入、細致的調(diào)查采訪活動,獲得第一手的、原創(chuàng)性的新聞素材,并保證資料的真實性和可靠性,在此基礎(chǔ)上進行新聞創(chuàng)作。在采訪思維和采訪行為的創(chuàng)新方面,新聞記者都遠超機器人,很多對人類記者比較輕松的采訪活動,對于機器人而言,都是很難實現(xiàn)的。
其次,人類記者在新聞寫作中應(yīng)該充分體現(xiàn)人文關(guān)懷的意識,體現(xiàn)出對人類尊嚴、人類情感、人類自由、人類價值的重視,這種重視必須是發(fā)自內(nèi)心的、真誠的,而不是像機器人運用預(yù)設(shè)語言模板來模擬出的人本色彩。
再次,人類記者應(yīng)該通過靈活多變的寫作風(fēng)格,來同機器人相對呆板的寫作風(fēng)格競爭。機器人的寫作很大程度上受到預(yù)設(shè)模板和程序算法的限制,變化比較少,寫作風(fēng)格比較呆板,也很難運用暗喻、反諷等修辭手法。人類記者具有無窮的創(chuàng)新力,具有天馬行空的想象力,在寫作方式、寫作風(fēng)格,以及語言的表述上,可以有無窮無盡的創(chuàng)新力,可以巧喻善比,可以巧妙地運用多種修辭手法,人類記者應(yīng)該充分發(fā)揮這方面的優(yōu)勢。
5? 結(jié)束語
通過對機器人寫作模式的探析,不難看出,機器人在基于模板和基于摘要的新聞寫作中,已經(jīng)可以完成合格的作品,很大程度上可以減輕甚至是替代人類記者的工作。但是,也不必對此感到過度的悲觀。人類有很強的適應(yīng)性和無窮創(chuàng)造力,具有自我意識和情感傾向性,這些都是目前處于弱人工智能階段的新聞機器人所不具備的優(yōu)勢。即便是基于機器學(xué)習(xí)的智能化寫作模式,也無法消解人類記者在深度調(diào)查與深度思考方面的優(yōu)勢。并且,機器人可能永遠也無法具備人類的同理心和悲天憫人的情懷,哪怕發(fā)展到了強人工智能階段也是如此。人類記者應(yīng)該將機器人視作自己的合作伙伴,將重復(fù)、枯燥的低端工作留給機器人去處理,將時間和精力放在更有價值的新聞環(huán)節(jié)中,創(chuàng)作出更有深度、更有內(nèi)涵、更具有人類情感的新聞作品。
參考文獻
[1]機器人記者崛起,難道我們工作真有價值嗎[EB/OL].(2019-02-09).http://mini.eastday.com/mobile/190209120706584.html.
[2]費朗索瓦-肖萊.Python深度學(xué)習(xí)[M].北京:人民郵電出版社,2018:11.
[3]林大貴.TensorFlow+Keras深度學(xué)習(xí)人工智能實踐應(yīng)用[M].北京:清華大學(xué)出版社,2018:26.
[4]約翰普利亞諾.人工智能時代的人類生存法則[M].北京:文化發(fā)展出版社,2018:79.
[5]機器人寫新聞這件事,現(xiàn)在進展到哪一步了?[EB/OL].(2017-02-19).http://tech.qq.com/a/20170219/005801.htm.
[6]人工智能,基于深度神經(jīng)網(wǎng)絡(luò)的自動文本摘要[EB/OL].(2017-08-13).http://www.360doc.com/content/17/0831/04/37113458_683452166.shtml.
[7]你看到的文章其實都是它寫的.解密百度智能寫作機器人[EB/OL].(2017-04-12).http://www.sohu.com/a/133447139_500657.
[8]路易斯德爾.人工智能大爆炸[M].深圳:海天出版社,2019:54.
[9]王作冰.人工智能時代的教育革[M].北京:北京聯(lián)合出版公司,2017:31.
[10]王孌.深度學(xué)習(xí)給新聞行業(yè)帶來的機遇和挑戰(zhàn)[J].新聞戰(zhàn)線,2018(1):27-28.