于洋
摘要:大數(shù)據(jù)與人工智能對知識生產(chǎn)非常重要,大數(shù)據(jù)可以幫助我們進(jìn)行智能選題。當(dāng)前各出版機構(gòu)選題多依賴于編輯自身的視野。他/她能否看準(zhǔn)一個方向很大程度上取決于是否有足夠多的信息。當(dāng)大家所擁有的數(shù)據(jù)、知識、信息是平等的時候,人們就可以從事深入的分析工作,而不是還要去考慮擔(dān)心怎樣搜集數(shù)據(jù),編輯們可以更加專注于如何利用這些已有數(shù)據(jù)的分析結(jié)果產(chǎn)生更有價值的知識。這是我們作為一家大數(shù)據(jù)企業(yè)對這個問題的思考。
關(guān)鍵詞:機器翻譯 出版 語言大數(shù)據(jù) 人工智能 知識服務(wù)
中譯語通科技股份有限公司成立于2013年,其母公司是中國對外翻譯有限公司,隸屬于中國出版集團(tuán)。業(yè)務(wù)發(fā)展從最早的多語言呼叫中心,到機器翻譯,再到大數(shù)據(jù)、人工智能。如何能夠真正利用大數(shù)據(jù)與人工智能反哺新聞出版業(yè),是中譯語通一直在思考和探索的課題。
中譯語通5年來的發(fā)展成就
2015年中譯語通獲批從中國出版集團(tuán)中分拆出來獨立籌劃上市,這是上級主管單位對中譯語通在科技領(lǐng)域探索的大力支持。回顧發(fā)展歷程,5年來中譯語通從最初發(fā)布多語言呼叫中心,到今天已發(fā)展成為知名的品牌。中譯語通呼叫中心提供的不僅僅是語言服務(wù),而且更深入到語言文本及語音,并應(yīng)用人工智能技術(shù)分析文本背后的數(shù)字關(guān)聯(lián)。中譯語通每周可向客戶提供數(shù)據(jù)分析報告,為客戶提供更加豐富的決策支撐。2014年中譯語通開始機器翻譯的研發(fā),至今已取得了值得驕傲的成績。在2017年國際口語機器翻譯評測大賽中,與來自全球7個國家的強勁團(tuán)隊同場競技,在全部20個語言方向的評比中,中譯語通在16個語言方向上都獲得了第一名,最終以綜合成績第一奪得大賽冠軍。
在機器翻譯領(lǐng)域,大家所熟識的公司做的基本上都是通用引擎。中譯語通努力切入垂直領(lǐng)域,如新聞、出版、科技、專利等,在這些垂直領(lǐng)域運用最新的卷積神經(jīng)網(wǎng)絡(luò)機器翻譯技術(shù),譯文質(zhì)量非常好。這是一個逐漸改進(jìn)的過程,公司每天都在投入大量人力、物力進(jìn)行算法優(yōu)化。那么機器翻譯與出版有什么關(guān)聯(lián)?很多人會講,讓機器翻譯一本小說它肯定翻譯不了。但是,我們假定一個條件,如果把楊憲益先生翻譯的《紅樓夢》版本拿給機器去做訓(xùn)練,之后再出現(xiàn)任何一個《紅樓夢》篇章,翻譯出來的就是楊先生的版本,那么我相信這可能比99.9%的人翻譯得都好。事實上不論機器翻譯還是醫(yī)療影像、癌癥的識別,它的效果優(yōu)劣取決于我們在建構(gòu)系統(tǒng)時采用何種質(zhì)量的數(shù)據(jù)集以及何種標(biāo)準(zhǔn)。
從2016年開始,中譯語通的探索從機器翻譯延伸到了大數(shù)據(jù),包括語音識別、圖像與視頻內(nèi)容的分析。中譯語通在努力探尋數(shù)據(jù)背后的邏輯關(guān)系,即知識圖譜。首先中譯語通分析的是跨語言文本信息,當(dāng)用戶搜索一個中文關(guān)鍵詞時,他/她得到的不是單一的中文結(jié)果,而是所有語言的集合。如果把所有語言符號標(biāo)識去掉的話,可想而知數(shù)據(jù)量級非常大。而除文本以外,今天互聯(lián)網(wǎng)上產(chǎn)生的信息60%以上都是視頻和音頻數(shù)據(jù),如果能讓機器理解每一幀圖像的內(nèi)容,將圖像、語音和文本內(nèi)容的含義疊加起來,進(jìn)行定性定量分析,其價值是非常巨大的。
文本、語音和圖像等數(shù)據(jù)被重塑后的價值
文本、語音和圖像這三個要素,當(dāng)這些數(shù)據(jù)被重塑,建立起知識圖譜將擁有難以想象的價值。中譯語通要探索的是如何利用大數(shù)據(jù)技術(shù)和人工智能技術(shù),來幫助用戶發(fā)現(xiàn)知識、消費知識、生產(chǎn)知識。在這個過程中語義分析技術(shù)與知識圖譜的構(gòu)建至關(guān)重要。
目前無論是通用搜索引擎,還是本地數(shù)據(jù)庫中的搜索,大部分結(jié)果仍然是篇章級的。對于真正實現(xiàn)基于大數(shù)據(jù)的知識服務(wù),篇章級的結(jié)果略顯粗糙。試想一下,面對100萬冊圖書,如果我們想要從中獲取量子力學(xué)研究相關(guān)的知識,那我們需要讀完10萬本書還是1萬本書?我們能不能將這些圖書里面的知識抽取出來,將所有全球權(quán)威的量子力學(xué)專家們在某一條知識上的觀點,精細(xì)化地抽取出來,把所有不同語言文本中的同一條知識以及針對這條知識的觀點全部抽取出來?如果可以做到,那么價值無疑是巨大的。但事實上這些知識、數(shù)據(jù)、信息已經(jīng)是結(jié)構(gòu)化的數(shù)據(jù),都存在那里,只不過仍未數(shù)據(jù)結(jié)構(gòu)化,即便數(shù)據(jù)結(jié)構(gòu)化了,也可能是英文、德文、阿拉伯文的,過去我們需要人工翻譯出來,很顯然極不現(xiàn)實。事實上數(shù)據(jù)一直是存在的,但我們沒有能力去獲取它。而大數(shù)據(jù)技術(shù)和人工智能技術(shù)能夠幫助我們將歷史數(shù)據(jù)建立知識圖譜,建構(gòu)邏輯關(guān)聯(lián),實現(xiàn)真正的知識服務(wù)。
NexMagic是中譯語通2017年12月20日發(fā)布的目前市場上基于語義分析的搜索引擎。它與所有其他搜索引擎的不同之處在于它是垂直的,目前垂直領(lǐng)域包括新聞、科技、專利、企業(yè)、體育等。每一次搜索,是圍繞這個詞以及與它語義上相關(guān)的信息來展開的,它不一定包含這個關(guān)鍵詞本身,而是基于語義的,基于你真正想要的知識。中譯語通用不同的色塊來區(qū)分基于語義搜索的結(jié)果,也體現(xiàn)了語義分析的篇章數(shù)。
中譯語通在這個引擎里也嵌入了中譯語通的機器翻譯,結(jié)果是跨語言的,在里面搜索一個中文的關(guān)鍵詞,可以得到多語文本的結(jié)果。目前支持37種語言,其中25種已經(jīng)應(yīng)用了最新卷積神經(jīng)網(wǎng)絡(luò)。筆者認(rèn)為,機器翻譯對于我們?nèi)祟愖畲蟮囊饬x在于它擴(kuò)大了人們對信息認(rèn)知的廣度和深度。試想一下,一篇文章擺在某個地方,你根本不知道它是什么語言的,何談理解呢?而機器翻譯能幫助我們快捷地發(fā)現(xiàn)我們想要的知識與信息,然后我們再去關(guān)注翻譯的質(zhì)量。
知識發(fā)現(xiàn)與知識消費
關(guān)于知識發(fā)現(xiàn),我們的目標(biāo)是要變被動為主動,實際上是通過用戶習(xí)慣,以知識為單位,發(fā)現(xiàn)最權(quán)威的專家以及其最重要的著作、觀點等一系列相關(guān)信息。從知識出發(fā),再到人,形成基于人的畫像,包括這位專家的研究領(lǐng)域、出版物、重要觀點、論文等。然后再基于機構(gòu)的主體,它有多少家子企業(yè),出版多少圖書,圖書信息如何,這其實是基于不同的點而形成的真正的大數(shù)據(jù)畫像。這些信息不僅是中文的,而且是各語種的,而這個庫一定是去掉語言符號的、定性定量分析的所有數(shù)據(jù)集合。目前基于人物畫像的關(guān)聯(lián)關(guān)系在大數(shù)據(jù)領(lǐng)域已不再是新鮮事物,通過開放的社交媒體、新聞媒體等非結(jié)構(gòu)化數(shù)據(jù)可以描畫出來,體現(xiàn)一個作家和出版社的關(guān)系,他的朋友圈關(guān)系。這同樣適用于公司之間,合作伙伴之間,圖書之間的關(guān)系,而歸根結(jié)底就是數(shù)據(jù)之間的聯(lián)系。這些畫像能夠引導(dǎo)我們找到所需要的知識。
中譯語通的數(shù)據(jù)星云(Data Galaxy)系統(tǒng)就是一個知識圖譜的可視化平臺。以全球科技數(shù)據(jù)的成果分布為例,平臺上每一個細(xì)微的點代表全球范圍內(nèi)的十萬條科技數(shù)據(jù)??梢酝ㄟ^放大,看到每一條連線,來體現(xiàn)科技成果之間的邏輯關(guān)聯(lián)。系統(tǒng)會按照新聞、期刊、單位、會議等類別分析,用知識圖譜畫出全球科技成果的呈現(xiàn)類型,形成一個看得見的知識圖譜,適用于每一條知識。對于出版單位,無論是專家資源梳理,出版物存檔,還是知識服務(wù)的歸集,都可以用知識圖譜來完美地呈現(xiàn)出來。
關(guān)于知識消費,同樣是基于建構(gòu)起來所有的知識之間的關(guān)聯(lián)關(guān)系來實現(xiàn)。同類型研究文章、圖書發(fā)布態(tài)勢,輔助選題等指標(biāo)可以通過系統(tǒng)完整地分析出來。
平臺還支持技術(shù)生命周期曲線分析,全球知名咨詢公司Gartner每年都會發(fā)布信息技術(shù)生命曲線報告。這些曲線更多是通過調(diào)查問卷的形式設(shè)計完成,由專家給出趨勢預(yù)測,和大多數(shù)行業(yè)分析報告一樣,結(jié)論偏于主觀判斷,缺少數(shù)據(jù)支持。試想一下,如果能夠把過去20年、30年所有的數(shù)據(jù)聚集起來,并將公司研發(fā)、專利申請、現(xiàn)有產(chǎn)品、孵化產(chǎn)品等各項數(shù)據(jù)都在圖譜中標(biāo)注,連接起來,那么就能得到一條真實的技術(shù)生命周期曲線,而不是一成不變、推想的一條曲線。由此可見,大數(shù)據(jù)為知識服務(wù)賦予了很大的想象空間。
大數(shù)據(jù)與人工智能對知識生產(chǎn)的重要性
大數(shù)據(jù)與人工智能對知識生產(chǎn)非常重要,大數(shù)據(jù)可以幫助我們進(jìn)行智能選題。當(dāng)前各出版機構(gòu)選題多依賴于編輯自身的視野。他/她能否看準(zhǔn)一個方向很大程度上取決于是否有足夠多的信息。當(dāng)大家所擁有的數(shù)據(jù)、知識、信息是平等的時候,人們就可以從事深入的分析工作,而不是還要去考慮擔(dān)心怎樣搜集數(shù)據(jù),編輯們可以更加專注于如何利用這些已有數(shù)據(jù)的分析結(jié)果產(chǎn)生更有價值的知識。這是我們作為一家大數(shù)據(jù)企業(yè)對這個問題的思考。
目前中譯語通的數(shù)據(jù)平臺已有全球范圍內(nèi)超過3000萬冊的圖書信息。無論是電商平臺、書評網(wǎng)站,還是社交媒體,對于每條知識、熱點討論話題都可以分析出來。當(dāng)大家都想出區(qū)塊鏈題材圖書的時候,你就要知道市場上已經(jīng)有多少相關(guān)圖書,當(dāng)你知道全球或全國的出版社中有一半以上都在出同一個主題圖書的時候,那么你可能需要大數(shù)據(jù)來幫助你進(jìn)行差異化選題了。
此外,中譯語通也在進(jìn)行新聞寫作與智能采編的研發(fā)工作。想象一下,當(dāng)互聯(lián)網(wǎng)產(chǎn)生第一條相關(guān)數(shù)據(jù)的時候,我們可以在第一時間獲取,并且迅速基于機器翻譯無障礙地理解這條數(shù)據(jù),無論其源語言為何,然后通過機器智能采編成一條觀點完整獨特的新聞。基于這些技術(shù)和創(chuàng)造出的內(nèi)容,我們又可以創(chuàng)造出很多新的知識服務(wù)的形式。這是大數(shù)據(jù)在新聞垂直領(lǐng)域中的一個切入和應(yīng)用,所以說數(shù)據(jù)啟迪未來!
中譯語通希望與新聞出版業(yè)的從業(yè)者一起去研究,在未來的知識服務(wù)中,這些大數(shù)據(jù)、語音識別、機器翻譯技術(shù)等如何去應(yīng)用。
未來已來,我們探索并期待著。
( 作者系中譯語通科技股份有限公司CEO )