王國胤 李帥 楊潔
信息技術(shù)的迅猛發(fā)展開啟了人類通往信息時代的大門,人類進(jìn)入了大數(shù)據(jù)時代,并正在向智能時代邁進(jìn)。隨著信息技術(shù)的發(fā)展以及各個領(lǐng)域的數(shù)字化和信息化推進(jìn),每天都在不同的領(lǐng)域產(chǎn)生大量的數(shù)據(jù),如醫(yī)院、工廠、礦山、政府機(jī)構(gòu)、學(xué)校、社交網(wǎng)站、電子商務(wù)等。據(jù)估計(jì),人類從發(fā)明文字到公元2006年之間共積累了180 EB(1 EB等于 10億GB)的數(shù)據(jù),另據(jù)互聯(lián)網(wǎng)數(shù)據(jù)中心(IDC)估計(jì),2011年全球數(shù)據(jù)總量已經(jīng)達(dá)到0.7 ZB(1 ZB等于1萬億GB),2015年全球數(shù)據(jù)總量達(dá)到 8.6 ZB,目前全球數(shù)據(jù)的增長速度在每年40%左右,預(yù)計(jì)到 2020年全球的數(shù)據(jù)總量將達(dá)到40 ZB。數(shù)據(jù)的爆炸式增長潛藏著重大的科學(xué)價值和巨大的經(jīng)濟(jì)利益:一方面,對大數(shù)據(jù)的分析處理可以促進(jìn)人類對自然世界的認(rèn)識:另一方面,對大數(shù)據(jù)的挖掘利用可以轉(zhuǎn)化為經(jīng)濟(jì)價值的來源。例如,智能交通系統(tǒng)中,使用先進(jìn)的智能技術(shù)對地面交通網(wǎng)絡(luò)進(jìn)行實(shí)時、準(zhǔn)確、高效的綜合運(yùn)輸管理:醫(yī)療診斷中,建立包括患者過敏史、用藥史、家族病史和基因在內(nèi)的醫(yī)療大數(shù)據(jù)檔案,為醫(yī)生診斷提供詳細(xì)的參考,幫助醫(yī)生開具準(zhǔn)確的處方:金融領(lǐng)域中,大數(shù)據(jù)的分析和挖掘能夠幫助投資者獲取新的市場機(jī)遇和預(yù)測。此外,跨行業(yè)、多領(lǐng)域的大數(shù)據(jù)關(guān)聯(lián)分析與挖掘產(chǎn)生的價值更加顯著,顯示出了大數(shù)據(jù)強(qiáng)大的生命力。對大數(shù)據(jù)進(jìn)行充分的挖掘與分析已經(jīng)成為各國政府、金融界和學(xué)界關(guān)注的焦點(diǎn):早在2007年,美國國家航空航天局(NASA)就在向美國能源部和美國國家科學(xué)基金會的建議中提到,在大規(guī)模跨領(lǐng)域、異構(gòu)數(shù)據(jù)中有巨大的機(jī)會發(fā)現(xiàn)新知識,并能提供有效的新方法幫助判斷和決策。2012年,世界經(jīng)濟(jì)論壇將數(shù)據(jù)列為了與貨幣和黃金同等重要的一種新經(jīng)濟(jì)資產(chǎn)。2016年,美國政府啟動了聯(lián)邦大數(shù)據(jù)研究和發(fā)展戰(zhàn)略計(jì)劃,旨在開發(fā)大數(shù)據(jù)技術(shù),開展大數(shù)據(jù)應(yīng)用,并培養(yǎng)下一代大數(shù)據(jù)科學(xué)家。近年來,我國也逐漸加大對該領(lǐng)域的研究投入。2017年,國務(wù)院發(fā)布《新一代人工智能發(fā)展規(guī)劃》,要求以加快人工智能與經(jīng)濟(jì)、社會、國防為主線,以提升新一代人工智能科技創(chuàng)新能力為主攻方向,構(gòu)建開放協(xié)同的人工智能科技創(chuàng)新體系,把握人工智能技術(shù)屬性和社會屬性高度融合的特征,堅(jiān)持人工智能研發(fā)攻關(guān)、產(chǎn)品應(yīng)用和產(chǎn)業(yè)培育“三位一體”推進(jìn),全面支撐科技、經(jīng)濟(jì)、社會發(fā)展和國家安全,隨后,工信部發(fā)布《促進(jìn)新一代人工智能產(chǎn)業(yè)發(fā)展三年行動計(jì)劃(2018—2020年)》,從推動產(chǎn)業(yè)發(fā)展的角度,結(jié)合“中國制造2025”,以信息技術(shù)與制造技術(shù)深度融合為主線,推動新一代人工智能技術(shù)的產(chǎn)業(yè)化與集成應(yīng)用,發(fā)展高端智能產(chǎn)品,夯實(shí)核心基礎(chǔ),提升智能制造水平,完善公共支撐體系。
人工智能有3大學(xué)派:符號主義、聯(lián)結(jié)主義和行為主義。人工智能誕生之初,符號主義方法以專家知識驅(qū)動,模擬人類邏輯推演,在定理證明、國際象棋等復(fù)雜的智能活動中展現(xiàn)了巨大優(yōu)勢,但由于對專家知識的過分依賴,符號主義往往只能解決特定問題,泛化能力弱,在人工智能中的主導(dǎo)地位逐漸被聯(lián)結(jié)主義所取代。特別是進(jìn)入大數(shù)據(jù)時代,隨著計(jì)算能力的飛速提升,以深度學(xué)習(xí)為代表的聯(lián)結(jié)主義方法廣泛地應(yīng)用在各領(lǐng)域,被認(rèn)為是處理大數(shù)據(jù)的最有效方法。聯(lián)結(jié)主義方法認(rèn)為模擬人的智能要依靠仿生學(xué),特別是要模擬人腦建立腦模型。認(rèn)知科學(xué)對這一領(lǐng)域的發(fā)展起到了至關(guān)重要的作用,啟發(fā)了許多有效的機(jī)器學(xué)習(xí)模型。從不同層次逐級認(rèn)識世界是人類固有的一種認(rèn)知機(jī)制,在認(rèn)知計(jì)算中,被稱為粒計(jì)算。粒度最初是物理學(xué)的一個概念,指的是實(shí)質(zhì)粒子大小的平均度量。在這里,它被用來度量從不同層次結(jié)構(gòu)空間中分析和處理數(shù)據(jù)的信息量。作為處理的對象,??梢允侨腥我庾蛹?、對象、聚類和元素通過可辨識性、相似性和功能性聚集而成的單元。在粒計(jì)算中,所有結(jié)構(gòu)化的或其誘導(dǎo)出的對象都稱為粒。而用來表示和解釋問題或系統(tǒng)的結(jié)構(gòu)稱為粒結(jié)構(gòu),Layerk表示最細(xì)粒度層,其中的每一個點(diǎn)表示數(shù)據(jù)。粒計(jì)算具有廣闊的應(yīng)用背景,如特征選擇和時間序列預(yù)測等。
隨著數(shù)據(jù)的爆炸式增長,機(jī)器學(xué)習(xí)也面臨著許多挑戰(zhàn)。其中,最大的問題就是如何解決大數(shù)據(jù) 5V(volume, velocity, variety, value,veracity)特性導(dǎo)致的挑戰(zhàn)。例如,在數(shù)據(jù)獲取階段,原始數(shù)據(jù)中就包含大量的異質(zhì)數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)以及不確定性數(shù)據(jù)等。尤其是在處理不確定性數(shù)據(jù)方面,傳統(tǒng)的機(jī)器學(xué)習(xí)往往認(rèn)為不確定性是一個隨機(jī)現(xiàn)象,而忽略了人類的模糊認(rèn)知機(jī)制,只能挖掘到確定知識,無法對不確定知識進(jìn)行概括;在處理大型數(shù)據(jù)方面,傳統(tǒng)機(jī)器學(xué)習(xí)往往只注重對整體數(shù)據(jù)挖掘,而忽略了人類的分層認(rèn)知機(jī)制,只能挖掘到底層特征,不能挖掘到高層特征。此外,當(dāng)前的機(jī)器學(xué)習(xí)研究,還沒能夠把不確定性這一物理世界與認(rèn)知過程的基本特征作為基礎(chǔ)問題進(jìn)行深入研究,無法解決不確定性顯著、數(shù)據(jù)來源和分布廣泛(“獨(dú)立同分布”假設(shè)不再適用)等問題。
深度學(xué)習(xí)框架提供了一個解決以上問題的新方向。首先,它通過組合低層特征形成更加抽象的高層表示屬性類別或特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。這種分層結(jié)構(gòu)從全局上能夠解釋神經(jīng)網(wǎng)絡(luò)相鄰層之間的關(guān)系,以提高訓(xùn)練效果,但不能從局部上解釋每一個參數(shù)的物理意義:而在多層邏輯神經(jīng)網(wǎng)絡(luò)中,盡管局部上每一個神經(jīng)元的邏輯關(guān)系都可解釋,但全局上不能達(dá)到深度學(xué)習(xí)的規(guī)模。回歸問題的本原,本文從粒認(rèn)知計(jì)算的角度出發(fā),融合人類智能問題求解的多粒度思維機(jī)制、人類大腦“大范圍優(yōu)先”的認(rèn)知機(jī)制和智能控制系統(tǒng)中“智能計(jì)算前置”的信息處理機(jī)制,介紹一種知識與數(shù)據(jù)雙向驅(qū)動的多粒度認(rèn)知計(jì)算——數(shù)據(jù)驅(qū)動的粒認(rèn)知計(jì)算(data-driven granular cognitive computing, DGCC)。它結(jié)合了人類“大范圍優(yōu)先”的認(rèn)知機(jī)制,即“由粗到細(xì)”認(rèn)知過程,和機(jī)器學(xué)習(xí)系統(tǒng)“由細(xì)到粗”的信息處理機(jī)制。
本文組織如下:第1節(jié)介紹認(rèn)知計(jì)算和粒計(jì)算的基本概念;第2節(jié)詳細(xì)介紹數(shù)據(jù)驅(qū)動的粒認(rèn)知計(jì)算模型(DGCC),討論DGCC模型中需要研究的科學(xué)問題;第3節(jié)分析幾個多粒度認(rèn)知計(jì)算的應(yīng)用案例;最后一節(jié)總結(jié)全文。
認(rèn)知科學(xué)是揭示人類智能和行為的學(xué)科,重點(diǎn)研究在神經(jīng)系統(tǒng)和腦機(jī)制中,信息的表達(dá)、處理和轉(zhuǎn)化。認(rèn)知計(jì)算研究與人類思維方式一致的、統(tǒng)一的、普遍的計(jì)算方式,因此,認(rèn)知計(jì)算可以被認(rèn)為是建立在人工智能和信號處理基礎(chǔ)之上的學(xué)科。為了處理復(fù)雜的現(xiàn)實(shí)世界問題,通過對一些特殊的智能現(xiàn)象(如思維現(xiàn)象、生物現(xiàn)象、自然現(xiàn)象和社會現(xiàn)象等)的觀察,研究者開發(fā)出了許多智能計(jì)算模型和機(jī)器學(xué)習(xí)模型:模糊邏輯使得計(jì)算機(jī)能夠像人類那樣理解自然語言和進(jìn)行邏輯推理:人工神經(jīng)網(wǎng)絡(luò)能夠模仿人腦的機(jī)制從經(jīng)驗(yàn)數(shù)據(jù)中學(xué)習(xí)知識:演化計(jì)算模仿自然界的選擇和進(jìn)化來尋找最優(yōu)解:群體智能算法模仿生物系統(tǒng)通過系統(tǒng)內(nèi)協(xié)同合作的方式尋找最優(yōu)解:人工免疫算法模仿生物免疫機(jī)制對多峰值函數(shù)進(jìn)行多峰值搜索和全局尋優(yōu):粒計(jì)算試圖模擬人類在不同層次上對現(xiàn)實(shí)世界進(jìn)行感知的機(jī)制。另有一些研究者試圖對人的思維模式和認(rèn)知機(jī)制設(shè)計(jì)出一套統(tǒng)一的計(jì)算模式。相較于傳統(tǒng)系統(tǒng)而言,基于認(rèn)知科學(xué)設(shè)計(jì)的系統(tǒng)能夠構(gòu)建知識、學(xué)習(xí)知識、理解自然語言、邏輯推理、并與人類進(jìn)行更加自然地交互。
隨著人工智能和認(rèn)知科學(xué)的不斷發(fā)展,研究者們發(fā)現(xiàn)了人類智能的一個公認(rèn)特點(diǎn):在對現(xiàn)實(shí)世界問題的認(rèn)知和處理時,人類往往采取從不同層次觀察和分析問題的策略,從不同層面上觀察和分析同一問題。從哲學(xué)的觀點(diǎn)上來看,人類在對任何事物進(jìn)行認(rèn)知、度量、形成概念和推理時,粒度思想都貫穿其中。圖靈獎、諾貝爾經(jīng)濟(jì)學(xué)獎獲得者赫伯特·西蒙教授認(rèn)為,自然世界和人類社會中,復(fù)雜任務(wù)通常以層次結(jié)構(gòu)形式存在,即復(fù)雜任務(wù)由相互關(guān)聯(lián)的子任務(wù)組成,每個子任務(wù)亦具有層次結(jié)構(gòu),直到最低層次的基本任務(wù)。1997年,Zadeh教授就指出粒計(jì)算是模糊信息?;?、粗糙集理論和區(qū)間計(jì)算的超集,是粒數(shù)學(xué)的子集。粗糙集等理論提供了具體的粒計(jì)算模型,將粒與認(rèn)知計(jì)算中的分類、學(xué)習(xí)緊密聯(lián)系起來,使得粒計(jì)算成為一種快速增長的智能計(jì)算范例。粒計(jì)算通常被認(rèn)為是在解決復(fù)雜問題中,所使用的?;碚?、方法、技術(shù)和工具的總稱。Bargiela和Pedrycz將粒計(jì)算視為用于分析和設(shè)計(jì)人工智能系統(tǒng)的一個概念和算法平臺。Jankowski用粗糙近似對語法、語義等信息粒進(jìn)行建模。全集和鄰域系統(tǒng)的層次結(jié)構(gòu)能夠誘導(dǎo)出多粒度結(jié)構(gòu)。模仿人類在不同粒度層次上感受現(xiàn)實(shí)世界的能力,張鈴和張鈸提出了商空間理論,該理論能夠?yàn)榱藵M足特定問題的求解需要,對對象進(jìn)行不同粒度層的抽象與轉(zhuǎn)換。形式概念分析能夠從一組對象中自動推導(dǎo)出本體,概念格的粒結(jié)構(gòu)是該理論中知識約簡的重要手段。姚一豫在上述研究成果基礎(chǔ)上,將粒計(jì)算歸納為相互補(bǔ)充、互為依賴的三角形關(guān)系?;诙ㄐ愿拍詈投繑?shù)據(jù)之間的關(guān)系,王國胤基于云模型提出了一種雙向認(rèn)知計(jì)算模型(BCC),用于表示和處理不確定概念的映射關(guān)系,將樣本視為概念的外延,使用云模型的3個參數(shù)(期望、熵、超熵)來表示概念的內(nèi)涵:徐計(jì)和王國胤提出了生成分層樹的一種自適應(yīng)聚類方。
模擬人類認(rèn)知過程,使計(jì)算機(jī)具備智能處理能力,既可以依賴專家知識,使用形式化的邏輯系統(tǒng)進(jìn)行推導(dǎo),也可以從數(shù)據(jù)出發(fā),用數(shù)學(xué)模型和算法進(jìn)行計(jì)算。但人類的認(rèn)知與計(jì)算機(jī)的數(shù)據(jù)計(jì)算之間不一定是完全吻合的。因此,需要研究二者的原理與差異,融合優(yōu)勢,開發(fā)符合人腦認(rèn)知要求(解決實(shí)際問題)的智能計(jì)算模型。
計(jì)算機(jī)的信息處理機(jī)制與人類的粒認(rèn)知機(jī)制有著巨大的不同。計(jì)算機(jī)的信息處理是以集合論、離散數(shù)學(xué)等一系列數(shù)學(xué)理論為基礎(chǔ)的,因此經(jīng)典的智能計(jì)算方法都是通過對原始數(shù)據(jù)分析和計(jì)算,提取有價值的信息,解決實(shí)際問題。計(jì)算機(jī)在圖像識別過程中,從單個像素出發(fā),提取圖像特征,輸出分類結(jié)果。從粒計(jì)算的角度來看,像素(數(shù)據(jù))是最細(xì)粒度的,而特征(知識)是粗粒度的。傳統(tǒng)的機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘和知識發(fā)現(xiàn)模型都是一個“從細(xì)粒度到粗粒度(由細(xì)到粗)”的數(shù)據(jù)、信息和知識的轉(zhuǎn)變過程,存在語義代溝的缺陷。如:Olshausen使用一種稀疏編碼網(wǎng)絡(luò)模擬人腦視覺感受野 V1層對人臉圖片的簡單特征提取。深度神經(jīng)網(wǎng)絡(luò)通過使用更復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)和更多的連接層數(shù)解決更復(fù)雜的問題,能夠?qū)W習(xí)到更高層的特征。2015年,Google公司推出的FaceNet,通過直接學(xué)習(xí)圖像到歐式空間中點(diǎn)的映射,進(jìn)行人臉識別、人臉驗(yàn)證和人臉聚類,識別率高達(dá) 99.63%。雖然深度學(xué)習(xí)取得的效果很明顯,但是其花費(fèi)的代價非常高。
中國科學(xué)院生物物理研究所陳霖院士等通過實(shí)驗(yàn)研究發(fā)現(xiàn),人類認(rèn)知具有“大范圍優(yōu)先”的規(guī)律,視覺系統(tǒng)對全局拓?fù)涮匦杂葹槊舾??!按蠓秶鷥?yōu)先”的人類認(rèn)知規(guī)律,是一個“從粗粒度到細(xì)粒度(由粗到細(xì))”的變換過程。人類可以通過寥寥數(shù)筆的漫畫來認(rèn)出一個動物。人類通常將復(fù)雜問題分解成不同粒度層次上的子問題,通過“大范圍優(yōu)先”的認(rèn)知機(jī)制,首先在粗粒度層次上對問題求解,實(shí)現(xiàn)對復(fù)雜問題的整體把握,再根據(jù)問題求解的需要進(jìn)行逐步的細(xì)化,逐步切換到較細(xì)粒度上進(jìn)行更加深入的分析求解,這一過程稱為多粒度漸進(jìn)式分解求解機(jī)制。分解求解機(jī)制可以將復(fù)雜問題轉(zhuǎn)化為簡單問題,將抽象問題轉(zhuǎn)化為具體問題,不確定性問題轉(zhuǎn)化為確定性問題。復(fù)雜問題轉(zhuǎn)化為簡單問題,就是將一個復(fù)雜問題表示為多個相對簡單問題的組合。抽象問題轉(zhuǎn)化為具體問題,就是將一個問題在高層粒度空間的抽象表示,轉(zhuǎn)化為在低層粒度空間的具體表示。人類的這種“由粗到細(xì)”的漸進(jìn)式認(rèn)知機(jī)制,是一種決策行動分解機(jī)制,即將對一個問題的認(rèn)知行為分解成不同階段,在每一個階段都能得到一個相應(yīng)的認(rèn)知結(jié)果。目前,人類的這種“由粗到細(xì)”的漸進(jìn)式認(rèn)知機(jī)制研究,在許多領(lǐng)域取得了成功。Choi等人設(shè)計(jì)了一種長文檔快速查詢的方法,用一個快速的、粗粒度的模型找到查詢的相關(guān)區(qū)域,再使用遞歸神經(jīng)網(wǎng)絡(luò)(RNN)詳細(xì)分析,得出精確的結(jié)果。Fang等人提出了一種融合全局特征和重要局部特征的多粒度框架,處理智能交通系統(tǒng)中車輛識別的問題,通過粗粒度特征上的車輛分類,再從細(xì)粒度特征上對車輛進(jìn)行識別,提高了車輛識別的速度和準(zhǔn)確度。Pavlakos等人使用一種“由粗到細(xì)”的監(jiān)督框架,融合高維數(shù)據(jù)特征,進(jìn)行迭代運(yùn)算,實(shí)現(xiàn)單張圖片預(yù)測三維人體姿態(tài)。張凱兵等人提出了一種“由粗到細(xì)”的方法對單幅圖像進(jìn)行超分辨率重建。呂健勤等人提出了一種基于粗粒度搜索的人臉對齊框架,對包含不同形狀的形狀空間進(jìn)行粗略的搜索,并使用粗粒度結(jié)果來約束后續(xù)細(xì)粒度上的搜索方案,通過漸進(jìn)式分解和自適應(yīng)搜索機(jī)制,避免了優(yōu)化中陷入局部最優(yōu)的情況。Cao等人提出了一種“由粗到細(xì)”的潛在指紋匹配算法,平衡了準(zhǔn)確性和魯棒性。鄧偉輝和王國胤等提出了一種二維高斯云的時間序列粒化表示方法,將一個復(fù)雜的時間序列相似性度量任務(wù)分解成若干個“求解一維高斯云相似性”的子任務(wù),實(shí)現(xiàn)了計(jì)算復(fù)雜度低、可理解性強(qiáng)的復(fù)雜任務(wù)多粒度分解求解。隨著人工智能的發(fā)展和社會需求的不斷提升,機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘和知識發(fā)現(xiàn)已經(jīng)從處理單一的、簡單的、確定的實(shí)際問題轉(zhuǎn)變?yōu)樘幚矶嘣?、?fù)雜的、不確定的問題。因此,如何借鑒人類在觀察、分析和求解問題時的“由粗到細(xì)”的漸進(jìn)式分解求解機(jī)制,建立滿足時限約束條件的逐步細(xì)化的漸進(jìn)式多粒度計(jì)算模型,逐漸成為人工智能面對的關(guān)鍵問題。
在某些條件的限制下(如時間、經(jīng)濟(jì)等),人類往往不能一開始就認(rèn)識到實(shí)際問題的全貌,轉(zhuǎn)而從問題的某個局部出發(fā)求解,再根據(jù)限制條件的變化繼續(xù)求解,最終求得全局解。這一“由局部到全局”“由細(xì)到粗”的漸進(jìn)式問題求解機(jī)制,也是人類的一種自然行為模式。例如,在醫(yī)療診斷中,醫(yī)生碰到急診病人,往往先根據(jù)初步的局部檢查結(jié)果采取應(yīng)急手段穩(wěn)定病人病情,然后再對病人進(jìn)行全面檢查,準(zhǔn)確判斷病情,進(jìn)一步對癥下藥。這一求解機(jī)制可以保證在限制條件下,得到當(dāng)前的局部最優(yōu)解,很大程度上降低了決策代價。生物學(xué)上的“非條件反射”、自動化領(lǐng)域的“智能計(jì)算前置”和機(jī)器學(xué)習(xí)中的“貪心算法”都是這類“由細(xì)到粗”的求解機(jī)制。除此之外,如果從相互不依賴的局部開始對問題進(jìn)行求解,又不會影響彼此的結(jié)果,這將使得“并行計(jì)算”成為可能,從而更大限度降低決策的時間代價。一些領(lǐng)域的研究工作中已經(jīng)成功借鑒了“由細(xì)到粗”的粒度計(jì)算思想。Aluru用智能計(jì)算前置的思想,提出了一種適用于序列比較的平行算法,將任務(wù)分配到每個處理器上進(jìn)行計(jì)算,降低了空間復(fù)雜度。Marcu提出了一種數(shù)據(jù)驅(qū)動的、自下而上的文本處理方法,該方法通過修辭關(guān)系的局部一致性約束實(shí)現(xiàn)文本的全局一致性。Ferragina提出了一種對字符串前綴編碼進(jìn)行漸進(jìn)式匹配的預(yù)搜索算法,提高了搜索效率。Oh等人提出了一種新的S3D圖像質(zhì)量評估算法,該算法在一個深度卷積神經(jīng)網(wǎng)絡(luò)模型中加入一個聚合層,將局部模型訓(xùn)練出的特征自動聚合到全局上,克服了已有方法的局限性。在處理時態(tài)數(shù)據(jù)的異常檢測問題中,Benkabou等人提出了一種聚類與檢測同時進(jìn)行的嵌入式方法,對局部聚類實(shí)例加權(quán)處理后進(jìn)行異常檢測,再將檢測結(jié)果推廣到全局。徐計(jì)和王國胤等人提出了一種基于密度峰值聚類的多粒度聚類模型,為用戶高效地提供當(dāng)前有效解,并且提供了一種基于局部密度粒度尋優(yōu)的算法,該算法的復(fù)雜度與數(shù)據(jù)集的規(guī)模呈線性關(guān)系,提高了粒度尋優(yōu)的效率。由此可見,通過這種“由局部到全局”“由細(xì)到粗”的漸進(jìn)式問題求解機(jī)制,可以在當(dāng)前條件的限制下求出問題的可行解,提供決策和指導(dǎo)行為。面對如今快速增長的大數(shù)據(jù)環(huán)境,數(shù)據(jù)信息是不完備的、動態(tài)的,需要在一定時限下做出相應(yīng)決策,及時提供滿足客戶需要的有效解。因此,如何借鑒這種“由細(xì)到粗”“由局部到全局”的漸進(jìn)式問題求解機(jī)制,研究滿足時限約束條件的多粒度漸進(jìn)式擴(kuò)張計(jì)算模型,也將成為未來大數(shù)據(jù)研究的重要發(fā)展方向。
解決計(jì)算機(jī)“由細(xì)到粗”信息處理機(jī)制與人類“由粗到細(xì)”認(rèn)知機(jī)制的矛盾,將是研究新型認(rèn)知啟發(fā)的智能計(jì)算模型需要解決的一個關(guān)鍵問題。數(shù)據(jù)驅(qū)動的粒認(rèn)知計(jì)算(DGCC)實(shí)際上是從數(shù)據(jù)出發(fā),以人類認(rèn)知事物的分層(多粒度)機(jī)制為基礎(chǔ)的計(jì)算框架。從認(rèn)知計(jì)算來看,數(shù)據(jù)是知識的外延,知識是數(shù)據(jù)的內(nèi)涵,兩者之間是抽象與具象的關(guān)系:從粒計(jì)算來看,數(shù)據(jù)是知識在最細(xì)粒度上的表現(xiàn),知識是數(shù)據(jù)在粗粒度上的描述,兩者之間是粒度層次切換的關(guān)系。
對事物認(rèn)知和問題求解,人類具有定性和定量雙向推理的能力,特別是對于不確定性信息的處理,人類的邏輯推理比計(jì)算機(jī)的處理更為靈活和高效。張鈸院士指出,人類在問題求解中具有天生的知識驅(qū)動能力、對不確定性問題的處理優(yōu)勢和對全局整體的感知能力,傳統(tǒng)機(jī)器學(xué)習(xí)具有在數(shù)據(jù)分析處理中的數(shù)據(jù)驅(qū)動能力、高速計(jì)算的優(yōu)勢以及對誤差的泛化能力,二者結(jié)合是未來信息處理的發(fā)展趨勢。人機(jī)系統(tǒng)理論創(chuàng)建者之一的Fitts教授對人和機(jī)器內(nèi)在的優(yōu)缺點(diǎn)進(jìn)行詳細(xì)分析,發(fā)現(xiàn)二者的優(yōu)缺點(diǎn)呈一種互補(bǔ)關(guān)系,指出通過融合二者優(yōu)點(diǎn)可以產(chǎn)生性能更優(yōu)良的人機(jī)系統(tǒng)。潘云鶴院士認(rèn)為將數(shù)據(jù)驅(qū)動機(jī)器學(xué)習(xí)方法與人類的常識先驗(yàn)與隱式直覺有效結(jié)合,可以實(shí)現(xiàn)可解釋、更魯棒和更通用的人工智能。鄭南寧院士指出由于人類面臨的許多問題具有不確定性、脆弱性和開放性,任何智能程度的機(jī)器都無法完全取代人類,這就需要將人的作用或人的認(rèn)知模型引入到人工智能系統(tǒng)中,形成混合—增強(qiáng)智能的形態(tài),這種形態(tài)是人工智能或機(jī)器智能的可行的、重要的成長模式。早在2000年,Dubois就提出了一種處理數(shù)據(jù)與知識的雙模態(tài)邏輯系統(tǒng),并給出了完備性證明,從而實(shí)現(xiàn)了模糊邏輯框架下數(shù)據(jù)驅(qū)動與知識驅(qū)動的融合。Skowron提出了一種基于感知計(jì)算的交互式信息系統(tǒng),建立了基于交互式粒計(jì)算(interactive granular computing,IRGC)的不完備、不確定信息處理模型。Todorovski提出了一種融合知識驅(qū)動和數(shù)據(jù)驅(qū)動的動態(tài)系統(tǒng)模型框架,將專家知識轉(zhuǎn)化到對候選模型進(jìn)行選擇。在電力系統(tǒng)檢測中,Zhou將部分專家知識與配電網(wǎng)絡(luò)數(shù)據(jù)融合,建立了一種新型的事件檢測方法,將未標(biāo)記數(shù)據(jù)和部分標(biāo)記數(shù)據(jù)相結(jié)合,彌補(bǔ)了監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和學(xué)習(xí)隱藏結(jié)構(gòu)之間的差距。盡管人類的邏輯推演、抽象化等能力強(qiáng)于計(jì)算機(jī),知識驅(qū)動能夠彌補(bǔ)數(shù)據(jù)驅(qū)動中某些缺陷,但囿于人類的思維定勢及心理狀況,人類知識往往伴隨一定程度的主觀性(如模糊),不能全面、客觀地反映數(shù)據(jù)自身所表現(xiàn)出的特征,因此,人機(jī)系統(tǒng)還應(yīng)融合客觀反映數(shù)據(jù)特征的知識。
人機(jī)模型中知識與數(shù)據(jù)共同驅(qū)動的認(rèn)知計(jì)算與DGCC中二者的雙向認(rèn)知計(jì)算有本質(zhì)不同。在知識與數(shù)據(jù)共同驅(qū)動的人機(jī)模型中,知識來自人類的總結(jié),知識和數(shù)據(jù)呈現(xiàn)一種平行結(jié)構(gòu),二者在認(rèn)知過程中是互補(bǔ)關(guān)系。在DGCC中,知識與數(shù)據(jù)是一種層次結(jié)構(gòu),從低粒度層次向高粒度層次的變換由數(shù)據(jù)驅(qū)動,而從高粒度層次向低粒度層次的變換由知識驅(qū)動。
建立數(shù)據(jù)驅(qū)動的粒認(rèn)知計(jì)算模型,實(shí)現(xiàn)數(shù)據(jù)與知識雙向驅(qū)動和變換,有下述3個方面的科學(xué)問題需要研究。
2.1.1 數(shù)據(jù)、信息與知識的多粒度表達(dá)在傳統(tǒng)的多粒度認(rèn)知計(jì)算模型中,數(shù)據(jù)、信息和知識是被區(qū)別對待的,數(shù)據(jù)在最底層,信息在中間層,知識在高層。而在數(shù)據(jù)驅(qū)動的粒認(rèn)知計(jì)算中,將數(shù)據(jù)作為知識的一種編碼格式,需要構(gòu)造一個通用的多粒度結(jié)構(gòu)對數(shù)據(jù)、信息和知識進(jìn)行表達(dá),形成一個分層的多粒度空間對三者進(jìn)行編碼。
2.1.2 多粒度空間中的不確定性變換一般來說,高粒度層上的概念(信息和知識)比低粒度層上的概念(信息和知識)更具有不確定性。在大數(shù)據(jù)環(huán)境下,由于低粒度層是對對象的局部進(jìn)行描述,在低粒度層數(shù)據(jù)抽象為高粒度層信息的過程中,通常伴隨著不確定性的增長。反之,在從高粒度層向低粒度層變換的問題求解過程中,解的不確定性也可能相應(yīng)增加。
2.1.3 多粒度信息知識空間的動態(tài)演化機(jī)制現(xiàn)實(shí)世界的系統(tǒng)往往是動態(tài)的。智能信息系統(tǒng)的數(shù)據(jù)、信息和知識也是動態(tài)的。因此,需要研究多粒度知識空間中的動態(tài)演化機(jī)制來處理動態(tài)數(shù)據(jù)、信息和知識。
2.2.1 多粒度聯(lián)合計(jì)算模型與問題求解機(jī)制數(shù)據(jù)、信息和知識在同一個多粒度空間中進(jìn)行編碼,可以并行地解決問題。例如,一個公司每天都在不同粒度層上同時作決策。對于不同粒度層上獨(dú)立或者相互依賴的決策,需要構(gòu)造多粒度空間聯(lián)合計(jì)算和決策機(jī)制。
2.2.2 變粒度有效漸進(jìn)式計(jì)算方法通常,在高粒度層上花費(fèi)較小的時間代價能夠形成“較粗”的解,而在低粒度層上形成“更精確”的解則要花費(fèi)較大的時間代價。因此,許多復(fù)雜問題可以首先在高粒度層上求出“較粗”的解,再在低粒度層上求出較精確解,這一有效的方法被稱為變粒度漸進(jìn)式計(jì)算。
2.2.3 智能計(jì)算前置在一些實(shí)際應(yīng)用中,并不是所有數(shù)據(jù)在開始時就全部可用,此時,需要根據(jù)低粒度層上僅有的部分?jǐn)?shù)據(jù)做出初步的局部決策,再根據(jù)更多的數(shù)據(jù)輸入,在較高粒度層上形成改善的全局決策。
2.2.4 多粒度分布式機(jī)器學(xué)習(xí)數(shù)據(jù)、信息和知識在同一個多粒度空間中進(jìn)行編碼,因此,可以進(jìn)行并行和分布式的學(xué)習(xí),而不需要逐層學(xué)習(xí)。
2.3.1 人類認(rèn)知機(jī)制與機(jī)器信息處理機(jī)制的融合向上算子和向下算子是數(shù)據(jù)驅(qū)動的粒認(rèn)知計(jì)算中的兩種基本算子,分別模擬了人類“由粗到細(xì)”的認(rèn)知機(jī)制和計(jì)算機(jī)“由細(xì)到粗”的信息處理機(jī)制,作為雙向認(rèn)知計(jì)算的一種推廣,需要設(shè)計(jì)一種融合雙向算子功能、便于多粒度空間層次轉(zhuǎn)換的計(jì)算模型。
2.3.2 帶遺忘的多粒度聯(lián)想記憶機(jī)制計(jì)算機(jī)的信息儲存機(jī)制是機(jī)械的,信息在刪除后不能使用。而人腦中存在著遺忘與回憶的機(jī)制,可以通過一類雙向認(rèn)知計(jì)算模型實(shí)現(xiàn)。在數(shù)據(jù)驅(qū)動的多粒度認(rèn)知計(jì)算中,向上算子能夠通過信息從低粒度層到高粒度層的轉(zhuǎn)換來模擬人類的遺忘過程,向下算子能夠通過信息從高粒度層到低粒度層的轉(zhuǎn)換來模擬人類的聯(lián)想回憶過程。
不確定性是人類認(rèn)知過程的一個主要特性。云模型是一種重要的不確定性知識表示模型,它使用了3個參數(shù)(期望、熵、超熵)對知識進(jìn)行描述,融合人類認(rèn)知過程中隨機(jī)與模糊這兩種不確定性,實(shí)現(xiàn)知識內(nèi)涵與外延的相互轉(zhuǎn)換。相較于概率模型中的高斯混合模型(GMM),云模型的優(yōu)勢在于使用含混度刻面知識的穩(wěn)定性,使得聚類過程能夠仿照人類的認(rèn)知,生成不同粒度層上的知識,并通過含混度的約束選擇統(tǒng)一的、被廣泛接受的知識。通過云模型對 ArnetMiner平臺上988645位用戶年齡數(shù)據(jù)形成的多粒度概念??梢钥闯觯诘谝粚由闲纬傻?個概念相互之間重疊嚴(yán)重、含混度高,而在第三層上形成的3個概念重疊少、含混度低,符合人類對年齡概念的認(rèn)知。
聚類是一種重要的數(shù)據(jù)?;侄?,層次聚類方法能夠充分反映數(shù)據(jù)的多粒度結(jié)構(gòu),不同粒度層上的數(shù)據(jù)聚類能夠模仿人類的認(rèn)知模式,形成不同粒度層上的概念。密度峰值方法是一種高效的聚類算法,它通過計(jì)算數(shù)據(jù)點(diǎn)的局部密度和高密度點(diǎn)間距離的乘積,選擇聚類中心點(diǎn)進(jìn)行聚類。相較于傳統(tǒng)聚類算法,該算法的聚類過程不需要進(jìn)行迭代運(yùn)算,在線性復(fù)雜度下能夠?qū)崿F(xiàn)數(shù)據(jù)的快速聚類,可以應(yīng)用在流媒體圖像識別、動態(tài)網(wǎng)絡(luò)識別等許多在線學(xué)習(xí)的場景。此外,它也能對任意形狀數(shù)據(jù)進(jìn)行層次聚類。對人工數(shù)據(jù)集5Spiral上的層次聚類結(jié)果,可以看出,選擇不同的“階躍”點(diǎn),能夠形成不同粒度層上的聚類,并且根據(jù)聚類結(jié)果能夠形成新的數(shù)據(jù)點(diǎn),該結(jié)果與人工聚類結(jié)果基本一致。這一過程對數(shù)據(jù)的描述本質(zhì)上是“由細(xì)到粗”數(shù)據(jù)驅(qū)動的認(rèn)知過程,而對知識的表達(dá)則是“由粗到細(xì)”的知識驅(qū)動認(rèn)知過程。
三支聚類(three-way clustering)是符合人類不確定性認(rèn)知的一種聚類方法。它將傳統(tǒng)聚類問題中元素與集合的關(guān)系拓展為屬于、不屬于以及不確定3種情況,模仿人類在限制條件(時間、經(jīng)濟(jì)等)下,用不確定性聚類結(jié)果代替?zhèn)鹘y(tǒng)的確定性聚類結(jié)果的行為,從而提高聚類效率。從DGCC的角度看,三支聚類是一種“由細(xì)到粗”的計(jì)算方式。隨著網(wǎng)絡(luò)信息技術(shù)的發(fā)展,各行各業(yè)產(chǎn)生的海量高維復(fù)雜數(shù)據(jù)越來越多,屬性維度的上升導(dǎo)致計(jì)算量呈現(xiàn)指數(shù)級增長,于洪等人提出了面向高維數(shù)據(jù)的動態(tài)隨機(jī)投影三支聚類模型。它利用動態(tài)高斯隨機(jī)投影方法,將原始數(shù)據(jù)集投影到多個不同粒度子空間中進(jìn)行三支聚類,再將各粒度層的聚類結(jié)果進(jìn)行匯總,得到全局聚類。由于不同粒度空間中,高斯隨機(jī)投影的數(shù)據(jù)聚類與全局?jǐn)?shù)據(jù)聚類的誤差不同,多粒度動態(tài)投影三支聚類有效地平衡不同子空間的聚類結(jié)果與聚類時間。
在工業(yè)流程管控中,企業(yè)的各級管理層時刻都要面對不同的決策問題。面對工業(yè)流程中的大量數(shù)據(jù),各級管理者往往根據(jù)個人經(jīng)驗(yàn)做出決策,這不僅忽視了流程中的全局信息,也使得決策過分依賴個人經(jīng)驗(yàn),缺乏統(tǒng)一標(biāo)準(zhǔn)。通過多粒度知識表達(dá)模型構(gòu)建流程工業(yè)知識的多粒度結(jié)構(gòu)和動態(tài)演化模型,利用多源、深度信息構(gòu)建多粒度聯(lián)合決策模型,可以實(shí)現(xiàn)不同粒度層次的協(xié)同決策,完成流程工業(yè)知識的自動化。例如,在工業(yè)電解鋁過程控制中,對工業(yè)大數(shù)據(jù)的屬性進(jìn)行不同粒度層的約簡,通過粒度尋優(yōu)方法找出最優(yōu)粒度層屬性。
水質(zhì)檢測是衡量水資源質(zhì)量的一項(xiàng)重要方法。依據(jù)水質(zhì)檢測數(shù)據(jù)預(yù)測水質(zhì)變化趨勢是與人類生活休戚相關(guān)的一項(xiàng)工程。目前,水質(zhì)檢測的關(guān)鍵數(shù)據(jù)是來自于陸、水、空等多方位檢測平臺,因此,水質(zhì)預(yù)測是一個跨領(lǐng)域、多層次的系統(tǒng)工程?;谒|(zhì)檢測大數(shù)據(jù),嚴(yán)胡勇等人提出多維云粗糙集混合模型對數(shù)據(jù)進(jìn)行多粒度建模和預(yù)測。該方法能夠降低數(shù)據(jù)規(guī)模,提取定性規(guī)則,定量分析水體富營養(yǎng)化的平均值、均勻性和穩(wěn)定性,相較于其他方法,該模型在對云貴高原湖泊富營養(yǎng)化的預(yù)測中獲得了更準(zhǔn)確的預(yù)測結(jié)果,是水富營養(yǎng)化信息系統(tǒng)的一個很有前景的替代方案,為公用事業(yè)管理部門和操作人員提供了水質(zhì)富營養(yǎng)化的一個定量預(yù)測方法。
時間序列預(yù)測是一種基于歷史觀測數(shù)據(jù)時序統(tǒng)計(jì)的規(guī)律,對事物發(fā)展趨勢做出預(yù)測判斷的方法。在股票市場預(yù)測、天氣預(yù)報和交通流量預(yù)測等領(lǐng)域有著廣泛的運(yùn)用。相較于傳統(tǒng)時間預(yù)測模型,模糊時間預(yù)測模型能夠更加方便地處理內(nèi)涵模糊以及不完整數(shù)據(jù),適應(yīng)性更強(qiáng)。結(jié)合多粒度聯(lián)合求解機(jī)制的模糊時間序列預(yù)測,首先通過自動聚類算法在數(shù)據(jù)的主因子和其他次要因子上形成不同長度的聚類區(qū)間,然后針對每個因子,采用模糊趨勢邏輯關(guān)系類(FTLRG)構(gòu)建模糊趨勢矩陣預(yù)測每個粒度層上的模糊趨勢。最后,使用粒子群優(yōu)化(PSO)算法將每個粒度層上的趨勢預(yù)測結(jié)果進(jìn)行整合,得到數(shù)據(jù)的全局趨勢預(yù)測。它能夠在不確定性問題中得到高精度的預(yù)測結(jié)果。用多粒度模糊時間序列分別對1991年至1999年間的臺灣加權(quán)股價指數(shù)(TAIEX)進(jìn)行預(yù)測,其結(jié)果在目前流行的時間序列預(yù)測方法中均方根誤差(RMSE)最小,最為合理。
模仿人類的認(rèn)知機(jī)制,構(gòu)造智能計(jì)算模型是人工智能研究的重要方法。本文介紹了一種基于人類認(rèn)知機(jī)制的知識與數(shù)據(jù)雙向驅(qū)動的多粒度計(jì)算模型——數(shù)據(jù)驅(qū)動的粒認(rèn)知計(jì)算模型(DGCC),將兩種相互矛盾的認(rèn)知機(jī)制,即“大范圍優(yōu)先”的人類認(rèn)知機(jī)制和數(shù)據(jù)驅(qū)動的“由細(xì)到粗”的計(jì)算機(jī)信息處理機(jī)制相結(jié)合。并從 3個方面分析討論了數(shù)據(jù)與知識雙向驅(qū)動、雙向變換的 9個科學(xué)問題。從實(shí)際應(yīng)用案例分析中可以看到,對于多粒度空間描述(3.1~3.3)和聯(lián)合求解(3.4~3.6)方面已經(jīng)有一些較為成熟的研究結(jié)果,但對于人機(jī)認(rèn)知機(jī)制結(jié)合方面仍有待進(jìn)一步研究。人類認(rèn)知除了具有多粒度認(rèn)知機(jī)制外,還具有復(fù)雜信息轉(zhuǎn)化、經(jīng)驗(yàn)學(xué)習(xí)、概念化、直覺、聯(lián)想記憶等特點(diǎn),如何使智能系統(tǒng)具備和人類相似的認(rèn)知行為能力,將是未來人工智能發(fā)展的方向。知識與數(shù)據(jù)雙向驅(qū)動的多粒度認(rèn)知計(jì)算為大數(shù)據(jù)的知識發(fā)現(xiàn)研究提供了一個有效的粒認(rèn)知計(jì)算框架,目前已經(jīng)應(yīng)用在一些實(shí)際生活問題中,如聚類、圖像處理、時間序列預(yù)測等。本文所討論的知識與數(shù)據(jù)雙向驅(qū)動的多粒度認(rèn)知計(jì)算模型將有助于研究者提出新的大數(shù)據(jù)智能計(jì)算模型與系統(tǒng)。?
(摘自《西北大學(xué)學(xué)報(自然科學(xué)版)》2018年第4期)