本刊記者丨劉勝男
機(jī)器人記者在中國(guó)硅谷“編形金剛”:不僅會(huì)中文,還是翻譯大師
——訪硅新社機(jī)器人記者創(chuàng)始團(tuán)隊(duì)
本刊記者丨劉勝男
“歡迎小編機(jī)器人@編形金剛 加入我們!希望你能寫出更好更有價(jià)值的文章!”3月10日,海外媒體硅谷新聞社的新浪官方微博(@硅新社)上發(fā)布了這樣一條信息。隨后,一條條由“編形金剛”自動(dòng)編寫的“美國(guó)融資快訊”被發(fā)出。這預(yù)示著,硅谷機(jī)器人記者“編形金剛“正式登陸中國(guó)。
機(jī)器人記者的出現(xiàn),是時(shí)下傳媒界的熱點(diǎn)話題?!吨袊?guó)傳媒科技》雜志3月刊專門就此予以專題報(bào)道,在業(yè)學(xué)兩界引發(fā)了較大反響。本期,記者專訪“編形金剛”的創(chuàng)始團(tuán)隊(duì),就硅谷機(jī)器人記者的能量全面解讀。
硅新社是硅谷華人成立的一家側(cè)重于科技、財(cái)經(jīng)新聞的中文媒體,顧問(wèn)團(tuán)隊(duì)包括新華社美國(guó)資深記者、《中國(guó)日?qǐng)?bào)》資深記者和斯坦福大學(xué)訪問(wèn)學(xué)者。硅新社的內(nèi)容以短新聞、圖片新聞為主,適合移動(dòng)互聯(lián)網(wǎng)時(shí)代用戶的閱讀特點(diǎn)。機(jī)器人新聞是硅新社的重點(diǎn)項(xiàng)目。
據(jù)介紹,編形金剛由硅新社與硅谷幾位技術(shù)大牛合作開發(fā),知識(shí)產(chǎn)權(quán)歸硅新社所有。硅新社已先后在新浪微博、騰訊微信推出“美國(guó)融資快訊”,以及在Twitter上推出英文版融資快訊Funding News,內(nèi)容均由編形金剛(英文名:NewsWribot)獨(dú)立編寫。
目前,硅新社已經(jīng)拿到中國(guó)著名投資機(jī)構(gòu)的天使投資,正在為A輪投資做準(zhǔn)備。而“美國(guó)融資快訊”還只是用來(lái)向投資人做展示的雛形,關(guān)于編形金剛的潛能和成長(zhǎng)計(jì)劃,硅新社團(tuán)隊(duì)早有設(shè)計(jì),更多極富想象力的產(chǎn)品和應(yīng)用會(huì)在資金和人員到位后,結(jié)合需求逐步開發(fā)。
“機(jī)器人記者一般會(huì)用到的技術(shù)涉及數(shù)據(jù)挖掘、人工智能、機(jī)器學(xué)習(xí),而編形金剛還運(yùn)用了機(jī)器翻譯技術(shù)?!惫栊律鐖F(tuán)隊(duì)里有多名中國(guó)成員,包括編形金剛的創(chuàng)始人在內(nèi)。會(huì)寫中文、懂中英文翻譯是編形金剛的特殊技能,這使它目前在美國(guó)乃至全世界的“機(jī)器人記者圈”都與眾不同。
“因?yàn)槲覀兊臄?shù)據(jù)源是美國(guó)的英文數(shù)據(jù),編形金剛需要把它翻譯成中文,所以在微博上發(fā)布的信息,有的時(shí)候語(yǔ)句可能不太通順。我們的技術(shù)會(huì)逐漸讓翻譯更加流暢、準(zhǔn)確。另外,因?yàn)槲⒉┯?40字的限制,編形金剛除了翻譯,還需要掌握話題歸納和提煉的技藝,比如從一篇一千字的文章里找出20個(gè)字……”
“美國(guó)對(duì)機(jī)器人記者的開發(fā)有比較長(zhǎng)的時(shí)間,這些機(jī)器人做的都是英文報(bào)道,英文里面有一些單數(shù)、復(fù)數(shù)、語(yǔ)法的問(wèn)題,所以在生成新聞時(shí)也有相應(yīng)的技術(shù)在里面。我們?cè)赥witter上也發(fā)布英文信息,不用翻譯,就比較簡(jiǎn)單?!?/p>
編形金剛的語(yǔ)言優(yōu)勢(shì)能夠創(chuàng)造怎樣的價(jià)值?硅新社團(tuán)隊(duì)舉例說(shuō):“中國(guó)有很多科技媒體,他們的消息很多是來(lái)自外媒,然后翻譯成稿。所以外媒上有的內(nèi)容,他們才能翻譯,沒有的內(nèi)容就翻譯不到。而我們的信息不是來(lái)自外媒,而是直接從美國(guó)證監(jiān)會(huì)(SEC)的數(shù)據(jù)庫(kù)提取,這種做法在美國(guó)來(lái)說(shuō)也是新的。”
可見,面對(duì)中國(guó)市場(chǎng),編形金剛的潛能和商業(yè)價(jià)值有非常大的空間。
除了從文字?jǐn)?shù)據(jù)中挖掘信息,機(jī)器人挖掘的數(shù)據(jù)源類型可以更多樣,包括視頻、圖片、聲音、甚至地理位置等等。據(jù)介紹,硅新社團(tuán)隊(duì)已和樂(lè)視開展合作,正在與樂(lè)視體育討論版權(quán)許可,獲得授權(quán)后,機(jī)器人就可以把樂(lè)視體育網(wǎng)站上的視頻內(nèi)容,做成短文的形式發(fā)布,免去了人工整理寫作的麻煩。再比如專訪,“假設(shè)我們?cè)趦?yōu)酷、土豆上看到一些李開復(fù)的采訪視頻,可以用機(jī)器人把問(wèn)題及回答抓取過(guò)來(lái),進(jìn)行濃縮剪輯,就能快遞地自動(dòng)生成一篇文字專訪稿?!?/p>
而除了“寫稿”,圖像、聲音、視頻采集編輯也是機(jī)器人記者即將練就的本領(lǐng)?!氨热缭谀硤?chǎng)大會(huì)上,我們?cè)跁?huì)場(chǎng)中的不同位置安裝近景、遠(yuǎn)景等五個(gè)鏡頭,機(jī)器人可以根據(jù)聲音來(lái)源或人臉識(shí)別等自動(dòng)拍照、錄像,這樣至少可以生成圖片新聞。再比如,在一場(chǎng)足球比賽中,很多體育記者會(huì)躲在球門后面等著抓拍射門鏡頭,這也可以用機(jī)器人來(lái)代替,或許會(huì)比人更加精準(zhǔn)地抓拍到精彩畫面。另外機(jī)器人的應(yīng)用擴(kuò)展到聲音方面也是有可能的,以后它會(huì)越來(lái)越智能化?!?/p>
除此之外,在深度的數(shù)據(jù)挖掘、多數(shù)據(jù)源的信息融合方面,機(jī)器人將發(fā)揮很大的作用?!氨热鐖D片的分析。我們經(jīng)常會(huì)在報(bào)紙上看到某某公眾人物的照片,得知他去了哪些地方、會(huì)見了誰(shuí)等信息。而從信息挖掘的角度可以挖掘到更深層次的信息,比如這位公眾人物在最近六個(gè)月中,和誰(shuí)走得比較近,或者誰(shuí)消失了,為什么消失……類似這種非淺層信息,需要從很多的數(shù)據(jù)源中深度挖掘,這件事由人來(lái)做就比較累,而機(jī)器人操作起來(lái)就比較輕松。因?yàn)槿四樧R(shí)別,特別是對(duì)照片的識(shí)別,相對(duì)來(lái)說(shuō)是比較容易的,但目前還沒有實(shí)際應(yīng)用案例。”
在輿情分析上,機(jī)器人也可成為一把好手。硅新社團(tuán)隊(duì)告訴記者,美國(guó)中央情報(bào)局CIA旗下風(fēng)險(xiǎn)投資公司 I-Q-Tel投資了芝加哥的人工智能數(shù)據(jù)公司Narrative Science,在本·拉登被海豹突擊隊(duì)擊斃之后,CIA就通過(guò)機(jī)器人數(shù)據(jù)挖掘與分析檢測(cè)當(dāng)?shù)孛癖娫诰W(wǎng)上的輿論及情緒,以預(yù)測(cè)中東某國(guó)暴亂的可能性?!霸谥袊?guó)也可以用機(jī)器人來(lái)做輿情及行業(yè)情報(bào)分析,比如在一些特定人員涉嫌犯罪被抓之前,網(wǎng)絡(luò)上已經(jīng)開始傳播相關(guān)信息,機(jī)器人就可以抓取、挖掘這些信息加以分析。”
機(jī)器人記者“編形金剛”在中國(guó)的“適應(yīng)力”相當(dāng)強(qiáng),完全可以實(shí)現(xiàn)對(duì)敏感信息、違反法律法規(guī)的內(nèi)容進(jìn)行篩選和分析。比如目前新浪微博就有這一技術(shù)的應(yīng)用,自動(dòng)進(jìn)行敏感詞檢索和屏蔽。
硅新社團(tuán)隊(duì)還介紹了一個(gè)更有意思的應(yīng)用,即對(duì)歷史信息的挖掘。比如,機(jī)器人可以從圖片數(shù)據(jù)庫(kù)里面,找到在天安門廣場(chǎng)上同一個(gè)地點(diǎn)、不同人、不同時(shí)期拍攝的100張照片,看在過(guò)去的歷史長(zhǎng)河中,這個(gè)場(chǎng)景是怎么發(fā)生變化的,會(huì)像看電影一樣。
雖然機(jī)器人記者在中國(guó)傳媒業(yè)還不多見,但在美國(guó),有幾位已經(jīng)大名鼎鼎了。其中包括美聯(lián)社在去年夏天開始和科技公司AI(Automated Insights)合作的Wordsmith財(cái)報(bào)文章撰寫平臺(tái),目前Wordsmith自動(dòng)生成的文章已經(jīng)不再需要人工檢查和加工,它撰寫文章的錯(cuò)誤率比人撰寫的錯(cuò)誤率更低,而且Wordsmith每季度可以撰寫3000家公司的財(cái)報(bào),數(shù)量驚人。
上個(gè)月,美聯(lián)社宣布將再度與AI合作,用機(jī)器人撰寫體育新聞。美聯(lián)社今年春季開始,將以機(jī)器人撰寫全美大學(xué)體育聯(lián)盟(NCAA)籃球分組賽事,未來(lái)2年逐漸擴(kuò)大至足球分組。運(yùn)動(dòng)比賽和財(cái)經(jīng)新聞?lì)愃?,?bào)道包含統(tǒng)計(jì)數(shù)字,球隊(duì)賽史與排名、球員歷年表現(xiàn)、比賽結(jié)果預(yù)測(cè)等,都涉及統(tǒng)計(jì)分析,機(jī)器人執(zhí)行賽后結(jié)論的速度與正確性,高于人類。
硅新社團(tuán)隊(duì)坦言,“機(jī)器人有一定的應(yīng)用場(chǎng)景限制,并不是每篇文章都可以用機(jī)器人來(lái)寫。至少目前來(lái)看,它主要還只適用于金融、體育等數(shù)據(jù)繁多的領(lǐng)域,以及摘錄性的工作。不過(guò),人工智能、機(jī)器學(xué)習(xí)這些前沿科技本身還處在迅速發(fā)展的過(guò)程中,還沒有很完善,所以機(jī)器人記者的未來(lái)具有非常大的想象空間?!?/p>
機(jī)器人記者的出現(xiàn),讓不少人類記者開始憂慮,擔(dān)心自己的價(jià)值某一天會(huì)被機(jī)器取代。在硅新社團(tuán)隊(duì)看來(lái),創(chuàng)造機(jī)器人記者不是想要取代記者,而是為了減少人的工作,把記者解放出來(lái)去做更有創(chuàng)造性的事情。工作量巨大或突發(fā)性的緊急報(bào)道,是機(jī)器人的特長(zhǎng),而深度分析的文章,目前就是機(jī)器人做不了的。
去年3月,美國(guó)加州發(fā)生了一次4.4級(jí)地震,《洛杉磯時(shí)報(bào)》是最快通過(guò)網(wǎng)站報(bào)道該消息的媒體,這篇稿件就出自機(jī)器人之手。機(jī)器人第一時(shí)間從美國(guó)地質(zhì)勘探局的系統(tǒng)中抓取地震的相關(guān)數(shù)據(jù),從寫作到發(fā)布只用了三分鐘時(shí)間?!跋襁@樣一條資訊,記者也能寫得出來(lái),但是深更半夜的,讓記者快速反應(yīng),采訪、寫作、報(bào)道,確實(shí)挺費(fèi)力氣?!?/p>
除了解放人類,機(jī)器人記者的出現(xiàn)還有一個(gè)原因?!懊绹?guó)的人工太貴。為什么美聯(lián)合、洛杉磯時(shí)報(bào)會(huì)采用機(jī)器人記者?因?yàn)槿斯と绱税嘿F,再讓他們?nèi)懞芸菰锏摹C(jī)械性的、結(jié)構(gòu)性的報(bào)道,就是資源浪費(fèi)。”這確實(shí)是一個(gè)很實(shí)際的考慮。
如此看來(lái),機(jī)器人記者的出現(xiàn)無(wú)疑會(huì)對(duì)傳媒業(yè)的發(fā)展起到推動(dòng)作用,對(duì)于傳媒人來(lái)說(shuō),是解放而不是替換,它促使記者發(fā)揮更強(qiáng)大的創(chuàng)造力,寫出更敏銳、更有趣的新聞報(bào)道,而不是將精力放在最初的數(shù)字上。