產(chǎn)學研合作路徑下網(wǎng)紅“Xiaomingbot”的前世今生——專訪今日頭條實驗室技術總監(jiān)李磊博士
《中國傳媒科技》:里約奧運會之際,今日頭條推出了“Xiaomingbot”寫稿機器人,憑借其優(yōu)異的表現(xiàn)引起了市場和用戶的高度關注,推出這款產(chǎn)品的初衷是什么?
李磊:今日頭條是一個基于大數(shù)據(jù)與人工智能的內容創(chuàng)作與分發(fā)平臺,一邊是內容創(chuàng)作者,另一邊是讀者,連接兩邊的是人工智能推薦算法。內容創(chuàng)作是其中的重要部分,我們希望能夠通過技術來幫助更多的內容創(chuàng)作者和新聞工作者更好、更快地創(chuàng)作高質量內容?!癤iaomingbot”是內容自動創(chuàng)作或者說是輔助創(chuàng)作的一部分,我們希望“他”能夠作為記者采編工作的補充。與此同時,我們也希望“Xiaomingbot”創(chuàng)作的內容是讀者們希望看到的。
《中國傳媒科技》:“Xiaomingbot”在奧運期間的表現(xiàn)如何?
李磊:整個里約奧運會賽季,“Xiaomingbot”撰寫的稿件贏得了一百多萬的閱讀量,平均閱讀率接近整個奧運會期間體育頻道的閱讀率,甚至還略高一點。從用戶瀏覽量來看,機器創(chuàng)作出來的新聞與人寫出來的新聞持平,令人驚喜。這也說明Xiaomingbot創(chuàng)作出來的簡訊和資訊與記者寫出來的可讀性差距并不大。
《中國傳媒科技》:在創(chuàng)造“Xiaomingbot”的過程中,都有哪些人員參與其中?
李磊:傳統(tǒng)意義上的產(chǎn)品開發(fā)流程是先由產(chǎn)品經(jīng)理做調研,確立了產(chǎn)品開發(fā)方向之后,再與技術人員合作,最后將需要的配套資源加上去。然而“Xiaomingbot”的研發(fā)成型是純技術驅動的,最開始由頭條實驗室發(fā)起,我們的研發(fā)人員與北大萬小軍教授團隊都在做文本生成技術,我們具備共同的興趣和目的,因此我們在技術上有了合作。此外,參與“Xiaomingbot”產(chǎn)品研發(fā)工作的,除了頭條實驗室的研發(fā)人員外,公司內部還有體育頻道運營人員負責與奧組委對接拿到實時數(shù)據(jù);內容運營部門的同事幫助改進機器人稿件的“寫法”;頭條學院也提供了很多幫助,早期由他們試讀“Xiaomingbot”的文章,并提出修改意見。整個過程得到了多方面配合,產(chǎn)品在啟動后兩周內就上線了第一個版本,然后不斷快速迭代,奧運會之后又做了升級,直到現(xiàn)在看到的這個版本。
如果仔細閱讀,你會發(fā)現(xiàn)從8月6日開始到現(xiàn)在Xiaomingbot生成的新聞內容是不斷優(yōu)化的。因為算法在不斷改進,特別是文本生成算法做了比較大的升級,從一開始無配圖、篇幅較短的簡訊到后面篇幅可長達千字且智能配圖的資訊出現(xiàn),期間進行了大量技術創(chuàng)新和產(chǎn)品升級迭代。
《中國傳媒科技》:整個研發(fā)過程大概有多久?
李磊:前期有較長時間的研發(fā)積累,這個時間大概有大半年。但是真正的產(chǎn)品化過程很快,從7月22號開始到奧運會第一篇新聞發(fā)出來大概用了十幾天時間。
《中國傳媒科技》:目前“Xiaomingbot”做了哪些技術改進,現(xiàn)在從事什么工作?
李磊:里約奧運會結束后,我們又研發(fā)了一項新技術,即根據(jù)時間線做賽事描述。比如,足球比賽的時間比較長,中間精彩的點很多,射門、犯規(guī)等動作都可以被捕捉到,結合一部分網(wǎng)上的文字直播,最后根據(jù)比賽進程來進行總結歸納。現(xiàn)在,“Xiaomingbot”在跟進報道歐洲的足球聯(lián)賽、五大聯(lián)賽,閱讀率都還不錯。以后,我們希望把他做得更加通用。不過這存在兩方面困難,一方面是數(shù)據(jù)來源問題,體育數(shù)據(jù)比較理想,其他領域如社會新聞、娛樂新聞等未必會有比較適合的數(shù)據(jù);另一方面是技術困難,“Xiaomingbot”應用的文本生成技術還有很多進步的空間,未來我們希望可以做到專業(yè)記者的寫作水平。
《中國傳媒科技》:據(jù)一些技術媒介評價,“Xiaomingbot”是領先的第二代機器人,您是否認同這個判斷?
李磊:我本人沒有做過斷代的判斷。我理解媒體所說“第二代”的原因可能是與騰訊、《華盛頓郵報》等同時期機器人之間的區(qū)別,后兩者寫稿機器人的主要應用技術是模板生成;所謂模板生成就是先寫一個框架,里面有一些空白部分,像填空一樣把時間、地點、結果和過程數(shù)據(jù)填進去;這種方法相對簡單,但問題在于很難寫得生動。我們的寫稿機器人也應用了這項技術,但是除此之外,我們還采用了剛研發(fā)出來的新技術,能夠生成長篇幅新聞。機器人通過獲取網(wǎng)上的文字和討論,將其總結歸納成為一個相對長的賽事描述,同時還可配圖。從這一點來說,相比之前的寫稿機器人,語氣上更加人性化,信息元素更豐富,更具可讀性。
《中國傳媒科技》:您認為未來新聞機器人還有哪些研發(fā)趨勢,是否有可能做一些突發(fā)性報道或者災難性報道?
李磊:我認為是非常有可能的。做這一類新聞首先需要一些數(shù)據(jù),像災難性事件都會在微博或者其他社交網(wǎng)絡上出現(xiàn)得比較快,比如天津發(fā)生爆炸事故時,微博上第一時間就出現(xiàn)了很多線索,在早期就可以整理出來形成報道。所以在數(shù)據(jù)獲取上比以前更容易;同時還需要的技術是能夠總結歸納,把很多人在微博上發(fā)的片段,甚至圖片梳理起來變成通順的文章。這些現(xiàn)在是由人完成的事,未來可以由機器人去做。
《中國傳媒科技》:基于UGC信息做總結歸納,是否會造成時間上的滯后?
李磊:“Xiaomingbot”寫作從生成到發(fā)布再到讀者在feed流看到,整個過程平均2秒左右完成。未來的發(fā)展瓶頸并不在生成的環(huán)節(jié),而是在數(shù)據(jù)采集環(huán)節(jié)。數(shù)據(jù)采集有多快,新聞生成就有多快。
《中國傳媒科技》:機器人實現(xiàn)觀點性報道或深度報道大概會需要多久的時間可以實現(xiàn)?
李磊:在某些特殊的限定領域,如娛樂類新聞實現(xiàn)這個目標可能相對較快,在通用領域還需要比較長時間。
《中國傳媒科技》:未來觀點性的自動寫作、深度寫作,也是要按照領域去實現(xiàn),是這樣一個路徑圖嗎?
李磊:兩個方向,一個是按照領域,另一個是按照具體技術。目前“Xiaomingbot”比之前有一些進步,是因為我們有了一些技術可以生成長篇幅新聞,但還不足以實現(xiàn)生成深度新聞。我們需要研發(fā)更多技術,使機器人更具理解力,能夠閱讀歷史新聞,理解新聞事件的來龍去脈并梳理出來,就像記者搞調研一樣。
《中國傳媒科技》:未來新聞機器人的研發(fā)難點是什么?
李磊:現(xiàn)在能夠做到的是事實類新聞的報道,比如一場比賽誰參加了、比分多少,能夠講得比較清楚;還可以根據(jù)用戶的評論生成文字,講述也比較生動。但困難的是觀點類的新聞,如分析美國大選,每個人的觀點怎樣、對政治觀點進行評價,這就比較困難了。另外,在體育比賽中,分析球員打得怎么樣、是否發(fā)揮出優(yōu)勢,目前這些評價比較難以做到,是需要我們未來研發(fā)的技術方向。
《中國傳媒科技》:目前,市場上有一些機器人寫稿的產(chǎn)品,那么今日頭條的產(chǎn)品特色是什么,是否有向其它新聞機構推廣該項技術的打算?
李磊:首先我們在技術上用了依據(jù)句法結構的模板文本生成技術和最新研發(fā)的摘要式生成技術,技術上是比較領先的;其次,我們的寫稿機器人既能夠生成短的簡訊,也能夠生成比較長的資訊;第三,頭條擁有龐大圖片類資源,寫稿機器人可以自動地為新聞配上圖片,使報道圖文并茂。
二是實施組織優(yōu)化方略,推進水資源一體化管理。鑒于水資源的流動性、循環(huán)性和基礎性等特征,將隔斷的水連接起來,推進涉水事務一體化管理?;诹饔蛩Y源合理配置,完善流域一體化管理;按照統(tǒng)籌城鄉(xiāng)、以城帶鄉(xiāng)的要求,積極推進城鄉(xiāng)供水統(tǒng)籌管理。加強水管理部門內部、水管理部門同環(huán)保、城建等部門的協(xié)調,進一步提高水資源管理的一體化水平,從短期來看,推進建立水資源統(tǒng)一管理機構;從長期看,建立資源環(huán)境一體化管理機構,從根本上改變水資源管理分散和割裂的局面,改善水資源的總體功能。
如果有(推廣)需求的話,寫稿機器人完全可以形成一個產(chǎn)業(yè),但我們還是要說明寫稿機器人的目標并不是取代記者,而是幫助記者更快、更好地采編。
《中國傳媒科技》:據(jù)觀察,頭條實驗室即將推出自動問答機器人,該款產(chǎn)品將于何時發(fā)布,回答的準確率如何?與微軟小冰等同類產(chǎn)品相比有哪些不同?
李磊:頭條已經(jīng)掌握自動問答技術,在今年的國際計算語言學大會(ACL2016)上,我們發(fā)表的論文介紹了這項技術,但距離產(chǎn)品化還需要一些時間。我們希望把這個技術做得更通用一些。因為我們今年研發(fā)的這個技術是針對事實類的問題可以做自動回答。比如說:你問《北京折疊》是誰寫的,機器人可以回答出來是郝景芳。不過回答像過程類問題,如紅燒肉怎么做;觀點類問題,你對什么事情有什么看法;以及解釋性問題,比如,宇宙的外面是什么等等還是非常困難的。
目前看來,我認為技術上需要突破的還有很多。做問答最常用的技術是搜索技術和基于神經(jīng)網(wǎng)絡知識庫的問答技術,我們用的是后者。
未來如果需要回答更多的過程性、解釋性和觀點性問題,機器學習、自然語言理解方面的技術還需要做很多突破。自然語言理解和生成,一方面需要對其進行理解,到底問的是什么意思;另一方面需要用人類的語言寫出來,這就是自然語言生成。
頭條問答機器人測試的準確率是75%,這是第三方的公開數(shù)據(jù),一共有10萬個問題和答案,其中7萬拿來作為機器人的訓練學習,剩下3萬用來做測試,測試出來的結果表明數(shù)據(jù)準確率是75%,在我們之前做的最好的是Facebook,他們的準確率是62.9%,我們高出了12個百分點。
李磊:頭條實驗室的宗旨是前沿技術積累和為頭條產(chǎn)品提供技術支持。頭條實驗室是前沿研究和技術產(chǎn)品化并重,高效推進前沿技術到產(chǎn)品的快速轉化。目前頭條實驗室最關注的領域是人工智能,具體的方向是機器學習、自然語言理解和計算機視覺理解。機器學習方面,我們會關注大規(guī)模的推薦、更高效的機器學習算法以及文本分類等問題,自然語言理解方面將繼續(xù)研究包括文本的理解、文本生成、自動摘要、自動問答等領域的技術;在計算機視覺方面,我們會做一些技術去識別人臉、識別文字、識別相似的圖片以及視頻里的一些物體。未來將可以更好地為讀者推薦內容。
在產(chǎn)出成果上,一方面我們會發(fā)表一些論文在國際頂級人工智能會議、期刊上,目前為止頭條實驗室已經(jīng)在國際大會上發(fā)表了2篇論文;我們希望對學術圈做出貢獻,技術研發(fā)后開放出來,同世界分享,可以促進人工智能領域的學者們將技術推到更高的水平,也希望有其他人或機構使用,讓技術得到更多的實際價值。
《中國傳媒科技》:那么,在頭條做研發(fā)工作,有哪些優(yōu)勢?
李磊:我們最大的優(yōu)勢是數(shù)據(jù),頭條作為一個平臺已經(jīng)積累了海量文本、圖片、視頻。這些數(shù)據(jù)可以作為我們研究人工智能的最大動力;人工智能技術像一個發(fā)動機,我們的數(shù)據(jù)就是發(fā)動機的燃料。
頭條有四個方向可以與人工智能做結合。一個是創(chuàng)作;一個是分發(fā)、推薦,怎樣把好的內容推薦給用戶;還有討論,如何促進讀者對我們的內容進行討論;最后一個是審核。這四個方面都與人工智能有關。而“Xiaomingbot”會與創(chuàng)作這個環(huán)節(jié)比較有關聯(lián)。
《中國傳媒科技》:有一種觀點認為學校的東西很前沿,也很難產(chǎn)業(yè)化,那么這次與萬小軍老師的合作正好駁斥了這種觀點,可否談一談這次合作的經(jīng)驗。
李磊:這是頭條實驗室成立以來與學術界的首次緊密合作,以往很多企業(yè)與學術界的合作僅僅停留在技術研發(fā),發(fā)表幾篇論文就結束了。但頭條實驗室與北大萬小軍的合作在發(fā)表了論文的基礎上,還開發(fā)出了受到廣大用戶認可的產(chǎn)品,我們今后會多推動這種合作模式。
這次與萬小軍老師團隊的合作是基于我們的共同學術興趣,萬小軍老師對文本摘要與生成的研究是全世界領先的,所以我們邀請到萬小軍老師來我們實驗室做技術交流,合作一事也在這次交流中一拍即合。一方面,我們可以憑借各自的技術特色相互促進;另一方面,學校和企業(yè)各有優(yōu)勢。比如,我們很容易利用各種資源把用戶需要的產(chǎn)品快速落地,學校也希望能夠把技術應用到產(chǎn)品上,這種產(chǎn)學研模式是成功的。
后記:在采訪過程中,李磊博士還與記者分享了一則趣事,在奧運會期間,正值國際計算語言學大會在德國洪堡大學召開。萬小軍團隊以及頭條實驗室的技術人員一邊從事“Xiaomingbot”的運營維護工作,一邊將新研發(fā)的技術在會議上發(fā)表分享。
此次采訪中,我們看到的不僅是科技推動傳媒業(yè)進步的成功案例,還看到了在冰冷的機器人背后那些力求以先進技術分享推動廣泛應用、以科技進步改變未來人類生活的科學家們滾燙的赤子之心。