尹紅風(fēng), 戴汝為
(1.西南交通大學(xué)信息科學(xué)與技術(shù)學(xué)院,成都 610030; 2.中國科學(xué)院 自動化研究所 復(fù)雜系統(tǒng)與智能科學(xué)重點(diǎn)實(shí)驗室,北京 100190)
從20世紀(jì)80年代起,科學(xué)大師錢學(xué)森提出思維科學(xué)、開放復(fù)雜巨系統(tǒng)、人-機(jī)共建的智能系統(tǒng)和綜合集成的大成智慧等一系列的思想和理論,我們與他一起開展了這些研究,錢學(xué)森當(dāng)時預(yù)言:這是科學(xué)的革命,必將帶來技術(shù)的革命.今天可以更清楚地認(rèn)識到錢學(xué)森開創(chuàng)的思維與智慧科學(xué)革命,這是中國第一次在重大科學(xué)問題上領(lǐng)先突破.本世紀(jì)伊始,認(rèn)識到思維與智慧科學(xué)思想和理論正是新一代語義智能搜索引擎的理論基礎(chǔ),新一代搜索引擎就是智能計算機(jī),信息技術(shù)的新發(fā)展使得今天完全可以在工程上實(shí)現(xiàn)這些理論,從而開啟新的知識技術(shù)革命.
物質(zhì)的本質(zhì),宇宙的起源,生命的本質(zhì)和智能的產(chǎn)生是人類科學(xué)所面臨的四大挑戰(zhàn).國際上對智能的研究主要是用人工智能的方法.1956年,第一次人工智能研討會在美國的達(dá)特茅斯(Dartmouth)大學(xué)舉行,J.McCarthy,H.Simon等倡議開展人類思維活動規(guī)律的研究,并給予“人工智能”的命名,標(biāo)志著人工智能學(xué)科的誕生.人工智能的實(shí)現(xiàn)主要是基于邏輯符號處理,并且主要以機(jī)器模擬人的智能為主,但其方法論和目標(biāo)存在著問題,為后來的研究者埋下了束縛思想的桎梏.對游戲、下棋和機(jī)器定理證明等問題容易解決,1958年H.Simon曾樂觀的預(yù)計:10年之內(nèi)計算機(jī)將成為世界象棋冠軍、發(fā)現(xiàn)并證明重要數(shù)學(xué)定理、譜寫出優(yōu)秀的樂曲,到2000年,機(jī)器的智能將超過人…….但是在自然語言理解和機(jī)器翻譯研究則遇到瓶頸.80年代日本提出第五代智能計算機(jī)計劃,主要是提高邏輯運(yùn)算的能力.第五代機(jī)計劃的失敗是對傳統(tǒng)的人工智能研究的另一大的沖擊.
對智能本質(zhì)的研究,科學(xué)大師錢學(xué)森的思維科學(xué)開創(chuàng)了新的科學(xué)革命,錢學(xué)森在20世紀(jì)50年代就開始思考思維科學(xué)的研究,20世紀(jì)80年代,錢學(xué)森提出人的思維是有規(guī)律的,可以用科學(xué)的方法研究,思維科學(xué)是可以成立的,并撰寫了著名的《關(guān)于思維科學(xué)》一文[1],文中指出:從廣泛的意義上講,思維當(dāng)然有規(guī)律,因為思維也是一種客觀現(xiàn)象,而一切客觀的東西及其運(yùn)動都有自己的規(guī)律,思維當(dāng)然也不例外.可以先從思維是人的中樞神經(jīng)系統(tǒng),特別是大腦受外界各種刺激而引起的這一點(diǎn)看.外界各種刺激又是客觀世界變化和運(yùn)動的產(chǎn)物,這些變化和運(yùn)動是遵循客觀世界規(guī)律的,即自然界的和社會的規(guī)律,所以外界各種刺激也是有自己的規(guī)律,而不是無緣無故無章可循的.這樣,人的中樞神經(jīng)系統(tǒng)大腦的活動也就當(dāng)然要有規(guī)律,人的思維要有規(guī)律.思維科學(xué)只研究思維的規(guī)律和方法.
錢學(xué)森進(jìn)一步指出“思維”可以分成抽象(邏輯)思維、形象(直感)思維和靈感(頓悟)思維3個部分.特別強(qiáng)調(diào)要在“形象思維”研究方面有所突破.錢學(xué)森先生還認(rèn)為計算機(jī)模擬對研究人的思維有重要的啟發(fā),計算機(jī)模擬技術(shù)是研究思維的有效工具.
錢學(xué)森先生的思維科學(xué)也得到了人工智能之父、諾貝爾經(jīng)濟(jì)學(xué)獎和計算機(jī)圖靈獎獲得者司馬賀(Herbet Simon)的高度關(guān)注,他寫信給錢學(xué)森,希望能和錢學(xué)森直接探討思維科學(xué)的問題,并認(rèn)為可以和錢學(xué)森共同樹立一面旗幟.可惜由于各種原因,兩位東西方科學(xué)大師沒有能夠直接對話.
錢學(xué)森認(rèn)為,思維科學(xué)的研究將孕育新的科學(xué)革命,另一方面,思維科學(xué)的研究又會推動智能機(jī)的發(fā)展,肯定又將是一場技術(shù)革命.
當(dāng)時用思維科學(xué)的理論來分析日本的第五代計算機(jī)計劃,就認(rèn)識到這是一個失敗的計劃,因為它的架構(gòu)中沒有模擬形象思維的功能.
思維科學(xué)開辟了新的正確的智能研究方向,是發(fā)展智能機(jī)的理論基礎(chǔ).把錢學(xué)森思維科學(xué)的思想深入發(fā)展成科學(xué)的理論和實(shí)現(xiàn),寫了《論思維與模擬智能》一文[2],建立了一個思維的結(jié)構(gòu)模型,詳細(xì)描述了形象思維、邏輯思維和其對應(yīng)的存儲、運(yùn)算之間的關(guān)系,更進(jìn)一步實(shí)現(xiàn)了形象思維的聯(lián)想記憶數(shù)學(xué)模型和人工神經(jīng)元網(wǎng)絡(luò)的模擬[3].錢學(xué)森和我們進(jìn)行深入探討并對我們的工作給出很高的期望[4].
對于思維科學(xué)的進(jìn)一步探討,錢學(xué)森在1989年8月24日給的信中指出[5]:“作為物質(zhì)系統(tǒng)如何形容人腦?認(rèn)為應(yīng)該用系統(tǒng)學(xué)的概念,人腦是由幾萬億腦細(xì)胞組成的開放復(fù)雜巨系統(tǒng)”.錢學(xué)森在20世紀(jì)90年代初進(jìn)一步發(fā)展為開放復(fù)雜巨系統(tǒng)理論[6],認(rèn)為開放的復(fù)雜巨系統(tǒng)的主要性質(zhì)可以概括為:
a.開放性——系統(tǒng)對象及其子系統(tǒng)與環(huán)境之間有物質(zhì)、能量、信息的交換;
b.復(fù)雜性——系統(tǒng)中子系統(tǒng)的種類繁多,子系統(tǒng)之間存在多種形式、多種層次的交互作用;
c.進(jìn)化與涌現(xiàn)性——系統(tǒng)中子系統(tǒng)或基本單元之間的交互作用,從整體上演化、進(jìn)化出一些獨(dú)特的、新的性質(zhì),如通過自組織方式形成某種模式;
d.層次性——系統(tǒng)部件與功能上具有層次關(guān)系;
e.巨量性——數(shù)目極其巨大.互聯(lián)網(wǎng)正是一個“開放的復(fù)雜智能巨系統(tǒng)”: a.巨量性——已經(jīng)擁有數(shù)千億的網(wǎng)頁,數(shù)十億的網(wǎng)民,數(shù)億的關(guān)鍵詞概念;
b.復(fù)雜性——互聯(lián)網(wǎng)包括各種不同的系統(tǒng),不同的行業(yè),不同的功用;
c.開放性——用戶系統(tǒng)、網(wǎng)頁系統(tǒng)之間總是在互相作用,交換信息;
d.進(jìn)化與涌現(xiàn)性——這些元素又互相關(guān)聯(lián),這些元素之間關(guān)系也是不斷變化的,人的參與更把這些元素組織成有意義的模式;
e.層次性——概念之間不僅相關(guān),而且有各種層次,網(wǎng)頁也包含許多層次.
錢學(xué)森在1989年8月24日的信中還指出[6]:“搞模擬智能的起步該在什么地方,如何從人機(jī)結(jié)合一步一步的提高?”1991年4月18日更明確指出:“智能系統(tǒng)是非常重要的,是國家大事,關(guān)系到下一世紀(jì)我們國家的地位.如果在這個問題上有所突破,將有深遠(yuǎn)的影響.要研究的問題不是智能機(jī),而是人與機(jī)器相結(jié)合的智能系統(tǒng).不能把人排除在外,應(yīng)是一個人-機(jī)智能系統(tǒng).”
錢學(xué)森的大成智慧思想是把人的思維、思維的成果、人的知識、經(jīng)驗和智慧以及各種情報、資料、信息集成起來[7].顧名思義,稱為“大成智慧工程(Metasynthetic Engineering)”.構(gòu)思是把今天世界上千百萬人的聰明才智和智慧都綜合起來.
這樣則把智能的研究的方向從人工地模擬智能的功能轉(zhuǎn)變?yōu)檠芯咳说闹悄茉?從個體轉(zhuǎn)變?yōu)樯鐣闹腔?從簡單算法到復(fù)雜巨系統(tǒng),從以機(jī)器為主到以人為主、人-機(jī)結(jié)合的的智能系統(tǒng).
計算機(jī)的發(fā)明給人類帶來了信息技術(shù)和信息革命,互聯(lián)網(wǎng)的發(fā)展將信息革命推向新的高潮,信息存儲、運(yùn)算和通訊能力都成指數(shù)性增長,人們同時也面臨許多垃圾、有害、虛假等信息,現(xiàn)有的信息技術(shù)已使人無法有效使用已有的信息,信息技術(shù)革命已到了尾聲.
以信息檢索理論為原理的搜索引擎是目前主要的信息尋找方法,它主要是通過網(wǎng)絡(luò)蜘蛛盡可能搜集互聯(lián)網(wǎng)網(wǎng)頁,然后用超鏈分析等方法給出網(wǎng)頁排名,再用關(guān)鍵詞來索引所有的網(wǎng)頁,最后對用戶輸入的關(guān)鍵詞,搜索引擎從索引數(shù)據(jù)庫中找到匹配該關(guān)鍵詞的網(wǎng)頁提供給用戶.搜索引擎通常能夠涵蓋非常大的互聯(lián)網(wǎng)范圍,但是經(jīng)常返回大量的低質(zhì)量網(wǎng)頁.盡管過去幾年里在搜索引擎技術(shù)和系統(tǒng)上有許多改進(jìn),但是人們搜索網(wǎng)上信息時還經(jīng)常有很大的挫折感,很多時候,想要的信息不能夠找到或者需要花很多時間才能找到,給出的網(wǎng)頁的數(shù)量通常也很大,并且只能夠給那些它包含搜索詞的網(wǎng)頁.另外,現(xiàn)在的搜索引擎對所有的人幾乎給出同樣的搜索結(jié)果.雖然過去十年互聯(lián)網(wǎng)發(fā)生巨大的變化,但搜索引擎還是和十年前幾乎相同.
近幾年,終端設(shè)備如智能手機(jī)、平板電腦和電子書等迅猛發(fā)展,特點(diǎn)是小屏幕、移動、聯(lián)網(wǎng)和個性化.通訊、計算機(jī)和媒體的結(jié)合越來越密切.
在后臺,云計算是計算平臺的革命,通過Hadoop開放平臺實(shí)現(xiàn)的Map/Reduce算法,可以用數(shù)萬臺機(jī)器來完成一項工作,幾乎有無限的計算、存儲和通訊能力.并且Amazon AWS等提供了硬件服務(wù).可以以低價格、迅速、靈活地租用.在內(nèi)容方面,用戶產(chǎn)生的內(nèi)容急劇增加:如博客、微搏、社交網(wǎng)絡(luò)等.視頻、圖象等多媒體內(nèi)容也越來越重要.
互聯(lián)網(wǎng)的用戶大規(guī)模增加,中國已有4億多互聯(lián)網(wǎng)用戶和將近4億移動互聯(lián)網(wǎng)用戶.
而這些技術(shù)浪潮還主要是硬件和環(huán)境的改變,需要通過一個新的系統(tǒng)才能把這些資源有機(jī)地整合起來,最大發(fā)揮新技術(shù)的潛力,從而轉(zhuǎn)化為新的技術(shù)革命.錢學(xué)森的思想和理論正是這場新技術(shù)革命的核心和基礎(chǔ),而這些新的計算、設(shè)備、通訊、互聯(lián)網(wǎng)和媒體的新發(fā)展也為實(shí)現(xiàn)錢學(xué)森的大成智慧工程提供了必要的條件.
21世紀(jì)伊始,我們認(rèn)識到錢學(xué)森的思維、智慧科學(xué)思想和理論正是新一代語義智能搜索引擎的理論基礎(chǔ),新一代搜索引擎就是智能計算機(jī)[8].其目標(biāo)是要建立類似人的世界知識庫,從而可以提供基于知識的搜索,或者說是知識引擎.只有像人一樣,理解所有的信息,將巨大的信息轉(zhuǎn)變成有用的知識,才能最好的利用信息,這將開啟從信息技術(shù)向知識技術(shù)的巨大轉(zhuǎn)變,從以數(shù)據(jù)為中心向以人為中心的轉(zhuǎn)變.就探索這些技術(shù)的實(shí)現(xiàn),克服算法和工程方面許多難題.
那么信息和知識之間的主要區(qū)別是什么呢?表1列出了信息與知識的比較.
表1 信息與知識的比較Tab.1 The comparisons of information and knowledge
人工生成的知識系統(tǒng),如維基百科、網(wǎng)頁目錄等等很好建立,但這些系統(tǒng)盡管參與者眾多但容納的詞條到底有限,只有區(qū)區(qū)幾百萬條.目前國際上語義搜索引擎還是處在概念化階段,其它的語義搜索引擎如 Wolfram Alpha、Hakia、Powerset、Maholo等只能在較少的領(lǐng)域或較小范圍內(nèi)搜索.最近,Freebase和DBpedia已經(jīng)把大量的網(wǎng)上信息結(jié)構(gòu)化,從而建立關(guān)鍵詞之間的可以用語言描述的關(guān)系,我們則用算法計算出關(guān)鍵詞之間的聯(lián)系的數(shù)字強(qiáng)度關(guān)系,從而可以對知識庫的結(jié)果進(jìn)行排序,兩者結(jié)合起來則可提供用戶搜索更精確的、更直接的答案.目前,DBpedia知識庫已經(jīng)建立了關(guān)于290萬事物的4億8千萬條信息.這樣關(guān)于這些上百萬的事物的上億的詢問,就可以給出直接答案.對中文的這樣詳細(xì)描述關(guān)鍵詞之間關(guān)系的知識庫,還需要建立.
我們的目標(biāo)是建立任何事物的知識庫,從而可以對大部分的搜索,都可以給出直接答案.那么,怎樣建立一個這樣的人工的開放復(fù)雜巨系統(tǒng)?需要應(yīng)用錢學(xué)森的人機(jī)共建的綜合集成理論.目前,互聯(lián)網(wǎng)提供了實(shí)現(xiàn)大成智慧的幾乎所有必要的條件,網(wǎng)上有幾乎人類所有的知識、數(shù)據(jù)、資料、信息和巨大的用戶,但是都是分散的、無組織的,我們則可以把這些同各種算法、系統(tǒng)、技術(shù)和設(shè)備集成起來,運(yùn)用云計算的巨大能力,構(gòu)建一個海量的知識庫和智慧平臺,從而可以提供各樣的智慧服務(wù).圖1顯示建立海量的知識庫的綜合集成方法.
圖1 建立海量世界知識庫的綜合集成方法Fig.1 Metasynthesis method for building massive world's knowlege system
4.2.1 集成信息、數(shù)據(jù)和系統(tǒng)
首先可以從大量的互聯(lián)網(wǎng)頁中抽取有用的、結(jié)構(gòu)化的信息,對所有的網(wǎng)頁都可抽取重要的鏈接、關(guān)鍵詞信息,對某些特殊的領(lǐng)域和主要的網(wǎng)站,則可抽取更加精確和結(jié)構(gòu)化的信息,如地址、電話、電影、圖書、生日等.這樣就可把網(wǎng)上的信息轉(zhuǎn)化為知識,這些知識使得智能搜索可以回答一些經(jīng)過推理、綜合才能回答的問題,如一個人的年齡,某個市的主要醫(yī)生等問題.這些問題是傳統(tǒng)的搜索引擎所不能解決的.
互聯(lián)網(wǎng)上還有許多公司的專業(yè)知識庫和數(shù)據(jù),如天氣、股票、旅游等,我們則可把這些數(shù)據(jù)和系統(tǒng)直接集成到建立的智慧平臺里.
4.2.2 集成人的智慧
人腦也是一個復(fù)雜巨系統(tǒng),有超過100億神經(jīng)細(xì)胞,云計算技術(shù)的發(fā)展可建立一個人工的這樣大規(guī)模的復(fù)雜巨系統(tǒng),如果每臺服務(wù)器可以處理100萬單元的信息,那么1萬臺務(wù)器組成的云計算則可以處理100億單元的信息,相當(dāng)于人腦的運(yùn)算能力,因此云計算可使有和人腦同等量級的運(yùn)算能力.因此,今天能夠在技術(shù)上實(shí)現(xiàn)開放復(fù)雜巨系統(tǒng),這為進(jìn)一步定量研究開放復(fù)雜巨系統(tǒng)理論提供了實(shí)驗基礎(chǔ).同時通過模擬也是了解、認(rèn)識復(fù)雜巨系統(tǒng)一個重要途徑.
人使用互聯(lián)網(wǎng)行為如搜索的詞、點(diǎn)擊的網(wǎng)頁、瀏覽的網(wǎng)頁等包含了大量信息,可以用算法處理和分析,從而得到集體的智慧,其結(jié)果可以用于內(nèi)容、關(guān)鍵詞推薦等.對個人的行為分析、處理則可為每個用戶建立知識庫,提供個性化的服務(wù)和搜索.例如統(tǒng)計所有人搜索詞的頻率和個人搜索詞的頻率,則可用于建立高效的、個性化的輸入法.
數(shù)億用戶的直接輸入是知識庫的重要來源,象百科、復(fù)雜問題解答、博客等已經(jīng)是互聯(lián)網(wǎng)重要內(nèi)容來源,用戶的知識是用人的智能解決精確的問題和復(fù)雜問題.目前這些信息還不是結(jié)構(gòu)化的信息,我們則可以設(shè)計結(jié)構(gòu)化的界面,從而得到結(jié)構(gòu)化的信息,則可以使用戶輸入的信息的搜索和使用的功效大大增加.
數(shù)億互聯(lián)網(wǎng)用戶也可以看作巨大計算和智力資源,雖然每個人運(yùn)算速度不快、記憶有限,但是幾億的用戶的計算量積聚起來可以是巨量的,像圖像識別、語音識別、機(jī)器翻譯、復(fù)雜問題回答等,機(jī)器是無法和人相比的.因此,這是一個以人為主,人-機(jī)結(jié)合的系統(tǒng).
機(jī)器是要把所有人的智慧綜合集成起來、把其潛力發(fā)掘出來.
4.2.3 集成自然語言處理
機(jī)器算法可以處理上萬億條詞目,自動產(chǎn)生知識.到目前為止,人工生成的知識庫與機(jī)器生成知識庫之間主要的區(qū)別在于后者不如前者精確.自然語言處理最終可以用機(jī)器把大部分網(wǎng)頁里的文字信息轉(zhuǎn)化為知識.這還需要相當(dāng)長的時間研究才能實(shí)現(xiàn),但是我們可以一步一步的來實(shí)現(xiàn)這個目標(biāo),先理解一些簡單的問題,抽取一部分知識豐富知識庫,或?qū)σ恍┨囟ǖ念I(lǐng)域處理,逐步擴(kuò)大到多較復(fù)雜的問題和多領(lǐng)域.另外通過海量知識庫提高對網(wǎng)頁自然語言理解的能力,從而抽取更多的知識豐富知識庫.
4.2.4 集成數(shù)據(jù)挖掘結(jié)果
互聯(lián)網(wǎng)上早就產(chǎn)生海量數(shù)據(jù),但是幾年前,分析和處理海量數(shù)據(jù)是一個巨大的工程,往往要耗費(fèi)數(shù)十人,數(shù)個月甚至一、兩年時間.研究數(shù)據(jù)挖掘算法大部分時間是用在產(chǎn)生數(shù)據(jù)上.云計算提供了方便、快速處理海量數(shù)據(jù)的平臺.可把產(chǎn)生數(shù)據(jù)的時間從幾個月縮小到幾天、甚至幾個小時,這是繼個人計算機(jī)后計算平臺的一次革命.
海量數(shù)據(jù)還使得許多過去算法如機(jī)器翻譯、圖象分類、自然語言處理等都會有新的方法和結(jié)果的突破,把過去一些規(guī)則、學(xué)習(xí)和分析的方法變?yōu)楹A繕颖镜乃阉骱捅葘?
怎樣從海量數(shù)據(jù)中用數(shù)據(jù)挖掘算法產(chǎn)生知識、自動產(chǎn)生分類、聚類等結(jié)果?互聯(lián)網(wǎng)數(shù)據(jù)有以下特點(diǎn):
特點(diǎn)1 數(shù)億至數(shù)萬億條以上信息,如個人行為信息、網(wǎng)頁信息、關(guān)鍵詞信息等.
特點(diǎn)2 數(shù)據(jù)特征維數(shù)可達(dá)百萬以上,如對文本,如果每個關(guān)鍵詞都可看作一個特征.數(shù)據(jù)非常稀疏.
特點(diǎn)3 可以來自多個數(shù)據(jù)源,如人行為數(shù)據(jù)有:搜索詞、瀏覽的網(wǎng)頁、看到和點(diǎn)擊的廣告、購買的產(chǎn)品等.
因為數(shù)據(jù)挖掘一般都是非常大的工程項目,并且有很重要的商業(yè)目標(biāo),涉及許多人和各種資源,即使是在工業(yè)界,成功的也是很少.數(shù)據(jù)挖掘項目的成功取決于如下重要因素:
因素1 選擇數(shù)據(jù).因為現(xiàn)代信息技術(shù)可以產(chǎn)生巨量的數(shù)據(jù),有不同的數(shù)據(jù)源,但是要用什么樣的數(shù)據(jù)參與挖掘?數(shù)據(jù)與目標(biāo)的相關(guān)性如何?成本如何?有時數(shù)據(jù)量巨大但含的有效信息較少,有時數(shù)據(jù)極為有效但量太少.怎樣取舍?需要事先有定性的分析和判斷,這往往需要很多數(shù)據(jù)挖掘的經(jīng)驗和專業(yè)知識的經(jīng)驗.同時也需要先用少量數(shù)據(jù)進(jìn)行分析和驗證大的設(shè)想.
因素2 探索數(shù)據(jù).當(dāng)選擇好要用的數(shù)據(jù)后,還需對數(shù)據(jù)本身進(jìn)行認(rèn)真仔細(xì)觀察、分析、探索、統(tǒng)計結(jié)果和每一特征的分布等,研究數(shù)據(jù)的可靠性和穩(wěn)定性等,及早發(fā)現(xiàn)數(shù)據(jù)可能存在的問題.并且數(shù)據(jù)還需要進(jìn)行變換以符合算法的要求.從數(shù)據(jù)中發(fā)現(xiàn)新的思想.
因素3 產(chǎn)生訓(xùn)練樣本.需要從海量數(shù)據(jù)中選擇一定量的學(xué)習(xí)數(shù)據(jù)和評價數(shù)據(jù)的進(jìn)行建模,選擇多少和選擇哪些樣本數(shù)據(jù)對模型的結(jié)果有很大影響.
因素4 運(yùn)用算法.通常各種數(shù)據(jù)挖掘的算法得出的結(jié)果差別并不是特別大,對許多實(shí)際問題,結(jié)果如能滿足客戶的主要要求,我們主張盡可能用簡單的算法,如線性回歸算法(Linear Regression)或Logistic Regression,KNN,神經(jīng)元網(wǎng)絡(luò)算法等.
因素5 熟悉運(yùn)算和系統(tǒng)平臺.要了解云運(yùn)算Hadoop平臺和其他的相關(guān)的系統(tǒng),才能有效地產(chǎn)生數(shù)據(jù),把訓(xùn)練好的模型集成到實(shí)際運(yùn)行的系統(tǒng)中,要考慮和實(shí)現(xiàn)運(yùn)算速度、系統(tǒng)集成等要求.
因素6 了解市場需求.另外,還需了解市場的實(shí)際效果和需求,不斷改進(jìn),設(shè)計和開發(fā)新一代產(chǎn)品.
通過各種方法產(chǎn)生海量知識后,還需要對這些知識有效地管理,主要有以下幾個方面:
a.知識的更新.對從網(wǎng)頁中抽取的知識要跟據(jù)網(wǎng)頁內(nèi)容變化的頻率自動下載更新.對數(shù)據(jù)挖掘算法和自然語言處理算法產(chǎn)生的知識要根據(jù)需要每個星期或每天運(yùn)行算法.也可以設(shè)置界面讓用戶直接更新.
b.知識的排序.為了能夠?qū)A康闹R有效地查尋,需要進(jìn)行排序,對每條知識根據(jù)其來源、用戶關(guān)注度、搜索頻率以及內(nèi)容的大小等打分,將來也可通過學(xué)習(xí)算法打分.根據(jù)分?jǐn)?shù)可對搜索結(jié)果進(jìn)行排序.
c.知識的歧義和同義.對一個名稱可能有不同的含義,如蘋果可以是公司或水果,同一人名可以是不同的人.另外,對于同一內(nèi)容也可以有不同的名稱,如北大和北京大學(xué)多是指同一內(nèi)容.
d.知識推理.綜合多條知識或數(shù)據(jù)根據(jù)一定的規(guī)則、科學(xué)公式或訓(xùn)練的數(shù)學(xué)模型給出結(jié)果,如從生日給出年齡,數(shù)學(xué)運(yùn)算.
當(dāng)建立了這樣的海量知識庫和智慧平臺后,就可以用于不同的方面如圖2所示,首先可以提供快速而準(zhǔn)確的語義智能搜索服務(wù).并且可以自動產(chǎn)生數(shù)億的高質(zhì)量的內(nèi)容.也可以進(jìn)行自動內(nèi)容分析,并最終實(shí)現(xiàn)人機(jī)自然對話.
由于在云計算的平臺上實(shí)現(xiàn)優(yōu)質(zhì)的服務(wù),有足夠的存儲空間、計算能力和網(wǎng)路帶寬滿足系統(tǒng)的需要,因為云計算是根據(jù)實(shí)際的用量來收費(fèi),這也大大降低了費(fèi)用.
圖2 海量知識庫和智慧平臺的各種應(yīng)用Fig.2 Applications of massive world's knowledge and intellgence platform
可以看到,錢學(xué)森晚年的思維科學(xué)、開放復(fù)雜巨系統(tǒng)、人機(jī)共建的智能系統(tǒng)和綜和集成的大成智慧等研究對人工智能、計算機(jī)科學(xué)、信息科學(xué)等的新發(fā)展有著奠基性的指導(dǎo)意義,是中國第一次在重大科學(xué)問題上領(lǐng)先突破.目前互聯(lián)網(wǎng)終端和云計算技術(shù)的發(fā)展終于可以實(shí)現(xiàn)他的這些的理論和思想,建立海量的知識庫和智慧平臺.這將是一個用云計算集成幾十億終端、和幾乎所有人類信息和數(shù)據(jù)以及幾十億的網(wǎng)民行為和智慧的開放復(fù)雜的海量系統(tǒng),從而帶來從信息到知識的技術(shù)革命.錢學(xué)森的研究將對人類的思想、科學(xué)和技術(shù)作出偉大的貢獻(xiàn).
[1] 錢學(xué)森.關(guān)于思維科學(xué)[M].上海:上海人民出版社,1986.
[2] 尹紅風(fēng),戴汝為.論思維及模擬智能[J].計算機(jī)研究與發(fā)展,1990(4):1-16.
[3] 尹紅風(fēng),戴汝為.一種聯(lián)想記憶模型及附加節(jié)點(diǎn)方法[J].計算機(jī)學(xué)報,1990,13(5):331-340.
[4] 錢學(xué)森.致戴汝為——1989年5月14日[M]//涂元季.錢學(xué)森書信(4).北京:國防工業(yè)出版社,2010: 484-487.
[5] 錢學(xué)森.致戴汝為——1989年8月24日[M]//涂元季.錢學(xué)森書信(5).北京:國防工業(yè)出版社,2010: 23-26.
[6] 錢學(xué)森,于景元,戴汝為.一個科學(xué)新領(lǐng)域——開放的復(fù)雜巨系統(tǒng)及其方法論[J].自然雜志,1990(1): 1-10.
[7] 戴汝為.錢學(xué)森論大成智慧工程[J].中國工程科學(xué), 2001,3(2):14-20.
[8] 戴汝為,尹紅風(fēng).從思維科學(xué)到知識技術(shù)革命[N].科學(xué)時報,2009-12-29(A2).