文/張新智
第一代百科智能機器人“司南君”的研發(fā),既是百科社對傳統(tǒng)媒體與新興技術融合發(fā)展的一次探索,也是對“面向人工智能應用的精準百科知識數據庫”實際應用效果的檢驗。百科社正在籌劃研發(fā)縮微版的小“司南”,該版本將面向個人群體設計,其應用場景是教學和個人使用,更易于擺放和移動,小“司南”的大腦里將會存儲更多精準和有趣的知識內容。
2018年8月,中國大百科全書出版社(以下簡稱百科社)在第25屆北京國際圖書博覽會上發(fā)布了第一代百科智能機器人“司南君”,開啟了傳統(tǒng)百科全書智能化應用的序幕,同時也為出版業(yè)如何尋找在人工智能發(fā)展過程中的角色定位,點亮了一盞明燈。
百科社是以編纂出版百科全書為核心業(yè)務的大型出版機構。百科全書是概要記述人類一切門類知識或某一門類全部知識的完備的工具書。百科全書的主要作用是供人們查檢必要的知識和事實資料,其完備性在于它幾乎包容了各種工具書的成分,囊括了各方面的知識,因此,被稱為“工具書之王”。此外,百科全書還具有擴大讀者知識視野和幫助人們系統(tǒng)求知的教育作用,常被譽為“沒有圍墻的大學”。其主要使用場景就是供人們遇到疑難問題時查檢佐證。
我國現代百科全書的編纂出版肇始于1978年,百科社在40年的創(chuàng)業(yè)歷程中組織出版了紙質版的《中國大百科全書》第一版和第二版、《中國軍事百科全書》第二版、《中國兒童百科全書》《中國小學生百科全書》等上百種綜合類、專業(yè)類、地域類百科全書。其中《中國大百科全書》第一版共74卷(含索引卷),編纂歷時15年,于1993年出齊,選收條目7.8萬個,總字數1.26億字,并附有近5萬幅隨文黑白圖、線條圖和彩圖。經過14年的修訂重編后,于2009年出版了第2版,共32卷,共選收約6萬個條目,總字數6000萬字,配圖約3萬幅?!吨袊蟀倏迫珪方M織嚴密,體例嚴格,內容嚴謹。詞條由各學科領域的專家撰寫,權威準確,可以為據,并且形成一套完整復雜的知識體系。這些紙質版的百科全書,在過去的40年間,為知識的整理、積累、傳承、傳播起到了舉足輕重的作用,但同時也暴露出了天生的缺點:因卷帙浩繁而攜帶和使用不便,傳播范圍不廣難以充分發(fā)揮價值。
近20年來,百科社相繼研發(fā)推出了《中國大百科全書數據庫》光盤版、局域網版、在線版、微信版以及掌上百科APP等電子化和數字化百科內容應用產品,有效地提高了百科全書的使用效率,擴大了知識的傳播范圍。然而,當語音識別、機器學習等新技術終于達到了能夠實際運用的程度時,才真正迎來了傳統(tǒng)百科全書普及化應用的時機,才有可能運用這些技術充分展現百科全書集古納新、廣瀚博大、精準有效的特點。
近兩年來,百科社敏銳地捕捉到了人工智能技術帶來的媒體融合發(fā)展的時機,毫不猶豫地展開了對傳統(tǒng)百科全書內容與未來新技術結合應用的探索,從而觸發(fā)了研發(fā)百科智能機器人的靈感。
2017年10月,百科社正式啟動了百科全書與人工智能應用的研發(fā)項目,并列為重大創(chuàng)新項目,在社領導統(tǒng)一指揮下,委托新媒體中心成立專門項目執(zhí)行團隊承擔研發(fā)任務。在進行了廣泛的調研后,最終選定與中國科學院自動化研究所的機器人實驗室合作。雙方成立了項目聯合研發(fā)小組,由百科社負責總體統(tǒng)籌、產品策劃、外觀設計、功能設計、標準制訂、內容編輯、數據標引、服務器搭建、數據管理等工作,機器人實驗室負責軟件開發(fā)、硬件制作、技術攻關、系統(tǒng)集成等工作。
從初步設計到第一臺成品正式亮相,該機器人的研發(fā)歷時10個月。其中外觀設計、數據標引和技術攻關,是項目的三個難點所在,是花費時間最多的環(huán)節(jié)。
在外觀設計方面,百科社并沒有采取常見的“貼牌”捷徑,為了保持創(chuàng)新性、突出百科全書的特點,堅持進行自主外觀設計,反復修改了20多稿后,最終確定融合了“孔子畫像和指南針”元素的這一既有文化內涵又不失現代感的方案。機器人的名字也最終定為“司南君”。司南即古代的指南針,是中國古代四大發(fā)明之一,也是百科社的社徽元素之一。這一外觀和名稱,寓意它的博學和準確,能夠提供知識的指引。
數據標引是實現百科知識智能化應用的基礎。主要步驟和內容包括制訂標準、選取條目、文本分析、主題分析、研發(fā)工具、自動抽取、人工核驗等。項目組從百科社的存量知識數據庫里選取了一批語料,針對“司南君”的應用場景,進行整理和加工后,抽取和標引了20萬個知識點,并將其導入了機器人的“大腦”。
導入內容只是簡單的第一步,讓它能夠快速識別、學習并智能化展現出來才是真正目標。內容與技術的結合,正是該項目的核心。經過項目組的反復試驗和共同攻關,最終突破了這一難點,實現了精準百科內容與人工智能的順暢結合。實現了可以將整部百科全書裝進機器人的“大腦”,任何人都可以跟它語音交互,它可以自動從百科全書里尋找答案,迅速回答所提問的問題。另外,司南君還可以識別圖像、可以播放視頻、可以轉動腦袋、可以行走……
如果僅就這些功能來說,“司南君”可能無法被稱為是一個創(chuàng)舉。因為只從技術層面來說,常見的手機已經具備了語音交互的功能,市面上也已經出現了很多產品化的智能音箱、教育機器人、伴讀機器人等。那么作為一個傳統(tǒng)出版機構為什么還要涉足并不熟悉和擅長的人工智能領域?百科社研發(fā)的機器人與互聯網公司研發(fā)的機器人有什么不同呢?
眾所周知,互聯網能夠提供給我們海量的數據、信息,但這些數據信息質量參差不齊,很多是冗余的、無效的、錯誤的。能夠稱之為知識的,比例并不是很高。同時,信息技術提供給我們的檢索力很強大,但技術本身并沒有鑒別力,機器無法告訴我們信息的真?zhèn)?。目前,再智能的機器也只能夠照章辦事,沒有任何靈活性,達不到人們想要的智能,而這也是當下人工智能發(fā)展的真實狀態(tài)。稍有經驗的人都知道,使用手機或所謂的“智能音箱”的語音提問,大多數情況下,不會得到唯一的、準確的答案,往往是得到很多通過搜索引擎檢索返回的網頁信息。一方面,這些信息并不一定是知識,其準確率是無法保證的;另一方面,過量的冗余信息,增加了篩選鑒別的時間成本,反而降低了獲取知識的效率。所以,就必須由人類提供準確的知識給機器。
清華大學人工智能研究院院長、中國科學院院士張鈸說“對人工智能來說最重要的能力是知識,而不是數據”?!八灸暇本褪菫榻鉀Q這一矛盾而生的?!八灸暇钡暮诵脑O計理念即是基于百科全書提供精準知識。它最大的特點,就是內容準確、“思想端正”,這是國內首臺裝載有來源于《中國大百科全書》內容的機器人,這些內容都是專家撰寫、編輯加工并經過精細標引的;另外一個顯著特點是技術先進,它使用了由中國科學院自動化研究所定制研發(fā)的全語音操作系統(tǒng)、超腦智能系統(tǒng)以及綜合算法系統(tǒng),其中的降噪處理技術達到了行業(yè)領先水平?;谶@兩大特點,“司南君”回答提問時,只會提供一個標準答案,而不是去檢索大量網頁推送給提問者。
張鈸院士在2018全球人工智能與機器人峰會(CCFGAIR)上指出:“現有的機器缺乏推理能力的原因在于它沒有常識。”張鈸院士通過實驗驗證,常識的建立確實會極大程度的提升機器的性能。而為機器建立常識庫也成為進一步提升人工智能系統(tǒng)性能的第一步。百科社已經啟動了“面向人工智能應用的精準百科知識數據庫”建設,目標是構建一個百萬量級的知識庫,并計劃面向國內的人工智能研究和應用領域開放調取接口,以幫助國內人工智能產業(yè)的發(fā)展。
“司南君”高1.4米,重約80斤,頭部設置了隱藏式識別攝像頭,雙手環(huán)抱15.6英寸顯示屏,設計應用場景是學校、科技館、圖書館、展覽館、博物館等公共教育學習場所。
第一代百科智能機器人“司南君”的研發(fā),既是百科社對傳統(tǒng)媒體與新興技術融合發(fā)展的一次探索,也是對“面向人工智能應用的精準百科知識數據庫”實際應用效果的檢驗。百科社正在籌劃研發(fā)縮微版的小“司南”,該版本將面向個人群體設計,其應用場景是教學和個人使用,更易于擺放和移動,小“司南”的大腦里將會存儲更多精準和有趣的知識內容。并且下一步的發(fā)展,將會更注重知識內容質量的提升,和更多人工智能技術的使用。
當然,知識并不是智能,知識和智能是兩碼事。但是發(fā)展真正的人工智能,訓練機器人,必須用準確無誤的知識語料庫。否則機器就會犯錯誤,就會導致故障和事故。最著名的例子就是特斯拉的自動駕駛系統(tǒng),因為誤識別了前方車輛噴繪的藍天白云,而發(fā)生了撞車事故?!八灸暇辈⒎悄軌蚧卮鹑魏螁栴},但只要回答,要確保一定是準確的。只有把準確的知識賦予機器,經過系列計算和學習,機器才能獲得真正的智能屬性。
百科機器人是百科社積極擁抱人工智能的嘗試,是著眼于未來百科全書的發(fā)展與應用和國家級知識服務平臺建設,對國家政策的積極響應,是面向未來的積極探索,是對新時代的熱烈擁抱。對于出版社的融合發(fā)展、產業(yè)升級,具有重要的意義。下一步百科社將繼續(xù)堅持用優(yōu)質的知識內容為機器人賦能。同時圍繞人工智能與出版的融合,將繼續(xù)探索五方面的課題:質量控制與自我完善、多媒體內容的快速聚集與關聯、知識體系構建與擴展、內容的精準識別與輸出、內容傳播的影響與促進等。
出版的主要任務之一是傳播內容。歷次技術革命,都大大促進了出版業(yè)的發(fā)展,促成了文化的進步,文明的傳承。人工智能技術的發(fā)展,也將引發(fā)出版業(yè)的又一次大變革?!八灸暇备嬖V我們,在這場變革中,傳統(tǒng)出版社的定位并不一定要局限于人工智能技術的被動接受者、使用者或者是改造對象。恰恰相反,出版社因其獨一無二的優(yōu)質精準知識內容的組織能力,將成為人工智能進一步發(fā)展的超強助推力,甚至將成為人工智能突破發(fā)展瓶頸的關鍵動力。人工智能不僅能以新技術為出版賦能,出版也要以知識為人工智能賦能。
百科社的這種探索,已成為諸多媒體爭相報道的出版業(yè)實踐媒體融合發(fā)展的一個典型案例,值得研究,也值得成為整個出版業(yè)明確在人工智能發(fā)展中的角色定位的有益借鑒。