高劍波,劉飛燕,張建方
(1.北京師范大學(xué)地理數(shù)據(jù)與應(yīng)用分析中心,北京 100875;2.杭州城市大數(shù)據(jù)運營有限公司,杭州 310000;3.中國科學(xué)院大學(xué)經(jīng)濟與管理學(xué)院,北京 100190)
我們生活在一個信息時代嗎?若把增加知識和減少不確定性的任何東西都視為信息,那么答案顯然是肯定的,以下事件也無疑支持了這個答案:
(1)存儲設(shè)備從144KB 的軟盤,100MB 和250MB的Zip驅(qū)動器,發(fā)展到幾十個GB的優(yōu)盤;
(2)Google,Amazon,以及Facebook 等新興社交網(wǎng)絡(luò)公司的巨大成功;
(3)互聯(lián)網(wǎng)上越來越多的免費音頻、文本和圖像;
(4)互聯(lián)網(wǎng)上呈指數(shù)增長的基因組學(xué)、蛋白質(zhì)組學(xué)、地球物理學(xué)、天體物理學(xué)、和其它科學(xué)的數(shù)據(jù)正在給科學(xué)和技術(shù)的眾多領(lǐng)域帶來革命性變化;
(5)Google Books 項目把過去人類出版書籍的4%數(shù)字化了[1?3],GDELT(Global Database of Events,Language,and Tone)項目則把全世界所有英語和非英語的新聞媒體的數(shù)據(jù)收入其中[4]。
信息熵的概念對以上所有事件的發(fā)生都起了重要作用。特別是,通過遙感技術(shù)(尤其是人造衛(wèi)星)獲得的地球物理數(shù)據(jù)對天氣預(yù)報的日益準(zhǔn)確起了主要作用。
信息熵是重要且普遍存在的,這也使好奇之士不禁要問,信息熵與Boltzmann(波爾茲曼)和Gibbs (吉布斯)的熱力學(xué)熵之間有什么關(guān)系。由于熱力學(xué)熵的概念最初是被發(fā)明出來用于描述氣體粒子的運動,所以討論信息熵和熱力學(xué)熵之間的關(guān)系似乎限定在非生命和唯物論的科學(xué)范疇才比較好(如文獻(xiàn)[5])。然而,這個策略不太可行,科學(xué)和技術(shù)都在向更小和更大的尺度發(fā)展,而且世界內(nèi)部的關(guān)聯(lián)越來越緊密。為了更好地解決新興的科學(xué)、技術(shù)和環(huán)境問題,需要討論信息熵的起源,找出信息熵和熱力學(xué)熵的關(guān)鍵區(qū)別,理解信息熵在復(fù)雜性理論(包括混沌理論和分形理論)中的作用,推測信息熵可能會起重要作用的新領(lǐng)域。這些都將是本文的主要話題。為方便非專業(yè)人士理解本文,我們將聚焦于對概念的討論。然而,為使本文對經(jīng)驗豐富的研究者同樣有用,我們也不回避一些數(shù)學(xué)上的討論。
信息熵最早是由克勞德·香農(nóng)(Claude Shannon)提出來作為通信(即各種信息傳輸)的一個理論模型[6]。在通信中有兩個技術(shù)問題:1)源信息如何被量化和表達(dá)?2)系統(tǒng)容量是多少,即在給定時間內(nèi)系統(tǒng)能傳輸或處理多少信息?
在通信中,第一個關(guān)鍵發(fā)現(xiàn)是需將訊息視為隨機的,即在接收前對接收者是未知。實際上,如果聽眾總是能確切地知道講話者接下來會說什么,那么他們之間的交流就毫無意義。因此,自然就引出下面的通信方案:1)收集通過某信道發(fā)送來的所有訊息{Yi,j,j=1,2,…,Ns,i=1,2,…,M},并將它們記作一個隨機事件集(A1,A2,…,An);2)記第i條訊息可能出現(xiàn)的概率為pi≥0,滿足=1。
在概率論中,(A1,A2,…,An)被稱作是一個事件的完備系統(tǒng)[7]。若扔一顆骰子,則它們對應(yīng)于(1,2,3,4,5,6);若拋一枚硬幣,則它們對應(yīng)于(正面,反面)。若骰子和硬幣是均勻的,則得到等概率的分布分別為(pi=16,i=1,2,…,6)和(pi=12,i=1,2);若骰子或硬幣不是均勻的,那么概率將取不同值。在通信中,拋硬幣相當(dāng)于一個二元問題(比如是或否,黑或白,紅或藍(lán),等等)。當(dāng)一條訊息被接收,則從通信方案A=中得到的平均信息量可由信息熵給出,其定義為:
為了方便,若pj=0,則pjlogpj=0.公式(1)有很多性質(zhì),尤其是取對數(shù)時,它為信息量的定量化提供了一個方便的單位。當(dāng)對數(shù)的底為2時,這個單位就叫做比特(bit):對于一個等概率的二元問題,是或否、對或錯的概率均為0.5,不論什么情形,信息量都剛好為一個比特。比特是任何計算機中數(shù)據(jù)存儲和處理的基本單位。
如果僅有一個pj為1 而其它pj均為0,那么H=1.此時,我們面對的是一個確定性體系,在讀取由通信設(shè)備發(fā)送的訊息時得不到任何知識。另一個極端是所有事件發(fā)生的概率均為1/n,這時信息熵H達(dá)到最大值logn.由四個核苷酸A(腺嘌呤)、T(胸腺嘧啶)、C(胞嘧啶)、G(鳥嘌呤)組成的一個DNA 序列接近于均勻分布,于是,每個堿基平均約包含2 比特信息[8]。
通過使用冗余的思想,數(shù)十年的努力獲得了很多優(yōu)秀的糾錯碼來有效地表達(dá)通過信道傳輸?shù)挠嵪?。因此,第一個問題“源信息如何被量化和表達(dá)”已經(jīng)完全解決了。(MIT 的著名數(shù)學(xué)家Peter Shor 通過一個巧妙的方法把冗余的思想推廣到量子計算,并開發(fā)了一個量子糾錯設(shè)計[9]。)
第二個問題“信道的容量是多少”,其答案也已經(jīng)由Shannon 在其經(jīng)典文章中給出。通過使用信息熵概念的一個自然引申—互信息(mutual information),信道容量可由下面的公式精確地給出:
其中,B是以赫茲為單位的信道帶寬,是信噪比?;バ畔⒈举|(zhì)上是對如何比較信道上接收到的訊息與發(fā)送的訊息進(jìn)行衡量。
雖然這里不去證明公式(2),我們還是解釋一下其原理以加深對通信的理解。已知信號和噪聲的功率分別為S和N,那么總功率為P=S+N。在模擬信號情況下,我們把一個信號波劃分成若干段,每段代表一條訊息。這里必須為信道考慮最壞的情形,即所有訊息是等可能的,因此信道在連續(xù)地傳輸新訊息。最大可能的段數(shù)由下面的公式給出:
在這里,每條訊息由b個比特來表達(dá)。如果我們在時間T內(nèi)對b比特水平做M次測量,那么收集到的信息的總比特數(shù)為:
信息傳輸率(I每單位時間比特)為:
注意到的最大可能值就是最高的實際采樣率2B.自然就得到公式(2)。
值得注意的是,當(dāng)B→∞,容量C不會變?yōu)闊o限大,因為噪聲的功率也與B成比例。記N=μB,其中μ為每單位帶寬的噪聲功率,由于
所以得到:
毫無疑問,“熵”這個詞最早出現(xiàn)在經(jīng)典熱力學(xué)中。經(jīng)典熱力學(xué)探討整個系統(tǒng)的狀態(tài)變量,比如氣體的壓力、體積和溫度,其經(jīng)常出現(xiàn)的一個數(shù)學(xué)方程是
其中,dQ為溫度,T時熱轉(zhuǎn)移的量,dH是熵的變化。熱力學(xué)第二定律斷言,在一個封閉系統(tǒng)中,dH不可能減小。經(jīng)典熱力學(xué)對相關(guān)材料精細(xì)的微觀結(jié)構(gòu)不做任何假定。
相反地,經(jīng)典統(tǒng)計力學(xué)則設(shè)法對材料的精細(xì)結(jié)構(gòu)進(jìn)行建模,并從這些模型來預(yù)測經(jīng)典熱力學(xué)的規(guī)律。舉個例子,氣壓可以解釋成氣體分子朝墻壁作勻速沖撞,這些分子如同小而硬的理想彈性球體。即使少量氣體,其包含的粒子數(shù)N仍巨大。事實上,N可由作為原始量級的阿伏伽德羅常數(shù)(the Avogadro constant,NA=6.022 × 1023)得到。想象一個相空間,其坐標(biāo)由每個粒子的位置和速度確定,于是,這些氣體粒子的相空間就是6N維空間的一個子區(qū)域。假定對于一個確定的能量,相空間中每個小區(qū)域都有相同的概率,則Boltzmann(波爾茲曼)發(fā)現(xiàn)下面的量就是熵:
其中,P是給定能量的相空間中任何等可能小區(qū)域的概率,kB是Boltzmann常數(shù)。
在設(shè)法處理能量不確定的系統(tǒng)時,吉布斯(Gibbs)提出了“巨正則系統(tǒng)”,其本質(zhì)是具有不同能量的Boltzmann 相空間的全體。吉布斯(Gibbs)推導(dǎo)出熵的公式為:
其中,p(i)是各相空間的概率。在表達(dá)上,公式(5)與公式(1)相同。因此,一些研究者會把信息熵看作是一個多余的術(shù)語也就不奇怪了。
然而,數(shù)學(xué)形式相同并不意味著含義相同,就像理查德·哈明(Richard Hamming)在其很有意思的一本書《The Art of Probability》中所強調(diào)的[10],信息熵和熱力學(xué)的熵最根本的不同是:信息熵是通過一組具有任意概率的事件集合來計算的,而在熱力學(xué)中,一般假定氣體粒子等概率地占據(jù)容器的任何區(qū)域。因此,信息熵是比熱力學(xué)熵更廣義的一個概念。為幫助進(jìn)一步理解,記住這點非常有幫助:邁倫·崔巴士(My‐ron Tribus)從信息熵中推導(dǎo)出了熱力學(xué)的所有基本定律[11]。更重要的是,熱力學(xué)熵可能不太適合描述基因組學(xué)和蛋白質(zhì)組學(xué)的序列以及很多涌現(xiàn)的復(fù)雜行為,而信息熵是復(fù)雜理論的一個基本組成部分[12,13,14],自然能夠量化生物學(xué)序列中的信息量[8,13]。
熵的一個最重要應(yīng)用是,通過最大化熵來確定與科學(xué)和工程中眾多現(xiàn)象相聯(lián)系的初始分布。均勻分布就是這樣一種分布,然而它不是唯一的。依賴于約束,其它分布也可以最大化熵。為便于討論,我們首先需要把基于離散概率的信息熵推廣到基于概率密度函數(shù)的信息熵,后者由下面定義的微分熵(differen‐tial entropy)給出:
為簡單起見,這里僅列出兩種在相應(yīng)約束下可以最大化熵的初等分布。
(1)指數(shù)分布,其概率密度函數(shù)為:
在隨機變量X的期望為1/λ的約束下,最大化熵的分布是指數(shù)分布。
指數(shù)分布能最大化熵的這個特性也許是為什么在數(shù)學(xué)和物理中經(jīng)常遇到指數(shù)分布的主要原因之一。例如,用來定義泊松過程的時間或空間間隔服從指數(shù)分布,而馬爾可夫過程的逗留次數(shù)也服從指數(shù)分布[12]。指數(shù)分布與遍歷的混沌系統(tǒng)也很相關(guān),因為混沌系統(tǒng)的重現(xiàn)次數(shù)服從指數(shù)分布[15,16]。指數(shù)律在物理學(xué)中扮演了一個更為基本的角色,因為統(tǒng)計力學(xué)和量子力學(xué)中的基本定律都可表達(dá)為指數(shù)分布,而有限自旋玻璃系統(tǒng)就等價于馬爾可夫鏈。
(2)均值μ和方差σ2給定時,最大化熵的分布是正態(tài)分布N(μ,σ2)。
正態(tài)分布能最大化熵的根本原因是中心極限定理——正態(tài)分布可以被認(rèn)為是一個吸引子,因為充分多的具有有限期望和方差的獨立隨機變量的樣本均值將漸近地服從正態(tài)分布。
廣義來說,任何既不完全規(guī)則也不完全隨機的行為都可以被稱為涌現(xiàn)復(fù)雜行為(emerging complex be‐havior)。代表性的復(fù)雜行為包括混沌運動和分形行為,后者包括具有長程相關(guān)的隨機過程,這個過程是迷人的1現(xiàn)象的一個子類[17,18]。
為了方便下面的討論,我們首先把不同形式的運動按其復(fù)雜性從低到高排列:定點運動,周期運動,準(zhǔn)周期運動,混沌運動,湍流,隨機運動。有趣的是,在固體材料中能觀察到一個類似的序列:晶體,準(zhǔn)晶體,分形,和非周期隨機形式。尤其是丹.舍特曼(Dan Shechtman)因為發(fā)現(xiàn)了準(zhǔn)晶體而獲得了2011年的諾貝爾化學(xué)獎。在動力學(xué)界,準(zhǔn)周期運動是早已熟知的,根據(jù)這兩個序列的相似性,可能有人早已經(jīng)預(yù)測過準(zhǔn)晶體的存在。從豐富程度上來看,分形形狀要比準(zhǔn)晶體豐富得多。
歐幾里德幾何是關(guān)于線、平面、三角形、正方形、圓錐體、球體,等等。這些不同對象的一個共同特點就是規(guī)則性,沒有一個是不規(guī)則的。然而,云是球體嗎?山是圓錐體嗎?島嶼是圓嗎?答案顯然是否定的。為尋找這些問題的答案,曼德勃羅(Mandelbrot)開創(chuàng)了一個新的科學(xué)分支——分形幾何[19]。
目前,分形的一個直覺性定義是令人滿意的:一個不規(guī)則但在很多或者所有尺度上具有自相似特性的集合。自相似性意味著對象的一個部分和其它部分或全體都是相似的。也就是說,如果我們用顯微鏡觀察一個不規(guī)則對象,不管我們把物體放大10 倍,100 倍,甚至1000 倍,我們總能發(fā)現(xiàn)類似的對象。為了更好地理解,想象我們正在觀察空中漂浮的一片白云,我們的眼睛保持不動,總是一直盯著同一個方向。一段時間過后,我們盯著的那片云有一部分已經(jīng)飄走了,看到的是那片云的不同部分,然而我們感覺或多或少還是原來的那片云。
在數(shù)學(xué)上,自相似或分形可以用冪律關(guān)系來刻畫,冪律關(guān)系在log?log尺度中可以變換成一個線性關(guān)系。要理解冪律關(guān)系是如何構(gòu)成自相似感知的基礎(chǔ),設(shè)想在空中有大量氣球飛來飛去,不同尺寸氣球的數(shù)量服從一個重尾的冪律分布:
見圖1,作為人類,我們本能地聚焦于那些大小適合于眼睛的球——太小的看不到,而太大的又妨礙我們的視野?,F(xiàn)在假定最適合我們的尺寸是r0.當(dāng)然,我們的眼睛不可能敏銳到能區(qū)分r0與r0+dr的不同,其中 |dr|?r0.然而我們有能力分辨如2r0,r0和r0/2等尺寸的飛球。氣球的哪個方面會決定我們的感知呢?這本質(zhì)上取決于尺寸為2r0,r0和r0/2 的氣球之間的相關(guān)豐度:
圖1 大小服從帕累托分布P[ X ≥x ]=( 1.8x)1.8的盤片的隨機分形
注意到上面的比率獨立于r0.現(xiàn)在假設(shè)我們通過顯微鏡來看球,把所有的球都放大100 倍。現(xiàn)在我們的眼睛聚焦于尺寸為2r0/100,r0/100和r0/200的氣球,我們的感知仍將由這些尺寸的氣球的相對豐度所決定。由于是冪律分布,相對豐度仍是相同的——我們的感知也是這樣。
解釋冪律和分形行為普遍性的一個引人注目的方法就是最大化Tsallis熵。Tsallis熵是根據(jù)巴西杰出的物理學(xué)家Tsallis的名字命名的[20,21]。為解釋其思想,我們先把Shannon的信息熵推廣到由下式定義的Renyi熵:
在Renyi 熵中引入?yún)?shù)q是為了調(diào)整概率的大小。比如,當(dāng)q?0 或q?0 時,大或小的概率值決定了公式(9)的右邊。Tsallis熵由下面的公式定義:
通過一些簡單關(guān)系,Tsallis 熵可以與Renyi 熵和Shannon熵聯(lián)系起來:
然而,Tsallis 熵的關(guān)注點不同——它是為了找出一個明確的q值(一般不等于1)來很好地描述既不規(guī)則又不完全混沌或隨機的現(xiàn)象。對于包含兩個獨立子系統(tǒng)的復(fù)合系統(tǒng),Tsallis熵是非廣延的,該復(fù)合系統(tǒng)的Tsallis熵不等于兩個子系統(tǒng)的Tsallis熵之和。迄今為止,已經(jīng)組織過很多研討會和學(xué)術(shù)會議來討論Tsl‐lis非廣延統(tǒng)計學(xué)。
對于連續(xù)概率密度函數(shù),通過最大化Tsallis 熵,可以得到Tsallis分布[22]:
其中,Zq是標(biāo)準(zhǔn)化參數(shù),β與二階矩相關(guān)。當(dāng)53 圖2.用Tsallis分布擬合海雜波雷達(dá)回波數(shù)據(jù)的代表性結(jié)果.這里,(q,β)分別為(1.34,43.14)和(1.51,147.06)(參見[21]) 分形行為不局限于幾何對象,它們還可以表示時間上波動(比如股市價格波動)和混沌運動?;煦绲暮x與直覺理解一致,這里,我們將把混沌限定在嚴(yán)格的數(shù)學(xué)含義中,即指數(shù)分岔: 其中,d(0)表示在0時刻任意兩個軌跡之間的一個很小的距離,d(t)是它們在t時刻的平均距離,λ1>0是最大的正李雅普諾夫(Lyapunov)指數(shù)。這個性質(zhì)也被稱作對初始條件的敏感依賴性,這也是迷人的蝴蝶效應(yīng)的起源:由于波士頓的一只蝴蝶拍動了翅膀,紐約的晴天可能在不久后的某時被雨天取代。這個性質(zhì)在圖3 中生動地表現(xiàn)出來:在混沌洛侖茲吸引子中初始很接近的點迅速分開并很快分布在吸引子的周圍。 圖3 混沌洛侖茲系統(tǒng)中的整體預(yù)測:粉紅色的是2500個初始點,在2,4,6個時間單位后變成紅色,綠色,藍(lán)色 為了更好地理解對初始條件的敏感依賴性,我們考慮在圓上的映射: 其中,xn是正數(shù),mod 1 表示把2xn的小數(shù)部分保留下來作為xn+1.這個映射也可以看成是一個貝努利變換或二進(jìn)制變換。假如把初始條件x0用二進(jìn)制表示: 其中,各個數(shù)字aj為1或0。于是 等等。因此,一開始遠(yuǎn)離小數(shù)點右邊的一個數(shù)字,比如第40位數(shù)(對應(yīng)于2-40≈10-12),它對初始值x0的大小影響非常小,然而它最終將升為第一個,也是最重要的數(shù)字。 一個混沌運動通??擅枋鰹橐粋€奇怪吸引子。所謂“奇怪”是指指數(shù)分岔;所謂“吸引子”是指運動的有限性。在相空間中,這種無休止的延展和折回經(jīng)常導(dǎo)致潛在吸引子的分形結(jié)構(gòu)。這個吸引子的分形或容量的維數(shù)可由以下決定:把含有這個吸引子的相空間分成具有線性尺寸ε的眾多單元,記其中非空的單元數(shù)為n(ε),則 這里,D0稱作盒維數(shù)(box?counting dimension)。 這個盒維數(shù)的概念可以被一般化,即得到一個稱之為廣義維譜(generalized dimension spectrum)的維數(shù)序列。通過把概率pi分配給第i個非空單元就得到了這個維數(shù)序列。計算pi的一個簡單方法就是用niN,其中ni是第i個非空單元中點的數(shù)量,N是吸引子的總點數(shù)。設(shè)非空單元數(shù)為n,則: 其中q為實數(shù)。一般地,Dq是q的非增函數(shù)。當(dāng)q=0 時,=n,D0其實就是盒維數(shù)或容量維度。D1給出了信息維度(Information Dimension)DI: 以上考察可以推廣到監(jiān)測一個混沌吸引子的詳細(xì)時間演化。我們所需要做的就是把相空間分為大小為ε的小盒子,計算非空盒子i被軌跡經(jīng)過的概率pi,從而計算出Shannon熵。對于很多系統(tǒng),當(dāng)ε→0,信息隨時間線性增加[23]: 其中I0是初始的熵,為了簡單起見可取為0,這里的K是柯爾莫哥洛夫‐西奈(Kolmogorov?Sinai(KS))熵。 為了加深理解,我們考慮動力系統(tǒng)的三種情形:(i)確定性且非混沌的系統(tǒng);(ii)確定性的混沌系統(tǒng);(iii)隨機系統(tǒng)。對于情形(i),在系統(tǒng)演化過程中,相軌跡一直是很接近的;在時間T后,鄰近相點仍非常接近,并且能一起被分進(jìn)相空間的其他小區(qū)域。因此,在信息上沒有改變。對于情形(ii),由于指數(shù)分岔,在時間T后,系統(tǒng)可用的相空間區(qū)域數(shù)N∝e(∑λ+)T,其中λ+是正的Lyapunov指數(shù)。假定所有這些區(qū)域均是等可能性的,于是,pi(T)~1,信息方程變?yōu)椋?/p> 因此,K=.更一般地,如果這些相空間區(qū)域未被等概率地經(jīng)過,則: 然而,Grassberger 和Procaccia[24]認(rèn)為等概率一般是成立的。最后,對于情形(iii),容易預(yù)見,在短時間后,整個相空間都會被經(jīng)過。因此,I~lnN;當(dāng)N→∞,有K=∞。 以上討論說明:盡管熱力學(xué)熵對描述分形和混沌行為也許不是很有用,但Shannon 的信息熵始終是一個基本組成部分。容易理解,KS 熵的精確定義仍將基于Shannon的信息熵,只需把公式(18)中的pi(T)替換為在隨后d個時刻軌跡分別落在盒子i1,i2,…,id內(nèi)的聯(lián)合概率。 很久以來,有限的柯爾莫哥洛夫(Kolmogorov)熵經(jīng)常被認(rèn)為是確定性混沌的標(biāo)志,在很多應(yīng)用中一直被遵循。這方面的混沌研究可以用一個比方來總結(jié):很多研究者正在野沙灘上追逐混沌這只野獸,一個人叫喊“這里有一個足印”;另一個回應(yīng)“這里有另一個”……,一段時間后,一些仔細(xì)的人發(fā)現(xiàn)那些只是他們自己的足印。在計數(shù)器例子中,1f隨機過程最有說服力,它們有分形的維度和有限的Kolmogorov 熵,因此被誤認(rèn)為是確定性混沌[25,26]。 如果思考更深入一些,就容易知道,通過有限的隨機數(shù)據(jù)是不可能得到一個無窮大的KS 熵。這就是為什么從噪聲中識別混沌一直被認(rèn)為是一個經(jīng)典且困難的問題[27?29]。要根本解決這個問題,除了求助于多尺度方法,別無他法。解決該問題最顯而易見的方法之一是依賴尺度的Lyapunov 指數(shù)(SDLE).SDLE 是尺度參數(shù)的函數(shù),因此完全不同于普通的Lyapunov 指數(shù),后者是一個數(shù)。在多尺度的復(fù)雜性測量中,SDLE 擁有最豐富的尺度規(guī)則(scaling laws)。例如,對于混沌運動,SDLE 是一個常數(shù),表明了確實的指數(shù)分岔。然而,對于1過程,SDLE是一個冪律。因此,從噪聲中識別混沌不再是個問題。而且,通過一個整體預(yù)測方法,SDLE 可以把動力系統(tǒng)中很多不同種類的熵聯(lián)系起來。更多的細(xì)節(jié)可以參考[30?32]。 最后我們指出,由于能對隨機性程度進(jìn)行量化,因此信息熵是一個確定性的復(fù)雜性測度。有時在描述一類既不規(guī)則又不完全隨機的行為上,它被認(rèn)為是不理想的。作為一個替代選擇,統(tǒng)計復(fù)雜性已經(jīng)提出來,對于既不高又不低的隨機性[33,34],它能被最大化。有趣的是,在這個積極演進(jìn)的領(lǐng)域,信息熵仍是一個重要組成部分[35,36]。 盡管混沌動力系統(tǒng)有分形的性質(zhì),但分形行為還有一個重要的子集——隨機分形行為,它完全不同于確定性混沌動力系統(tǒng)。認(rèn)識到隨機分形行為的基礎(chǔ)是隨機,并且很多非混沌但隨機的行為也許可以用隨機分形來建模,高劍波等主張:(1)綜合地運用混沌和隨機分形的理論來解決一系列真實世界碰到的問題;(2)用多尺度方法在一個廣泛的尺度范圍內(nèi)同時描述復(fù)雜信號的行為[12]。 多尺度方法有很多,其中就包括隨機分形理論,其關(guān)鍵原理是尺度不變性,即信號的統(tǒng)計行為獨立于時間或空間的間隔長度。使用尺度不變性,在分形尺度規(guī)則(scaling laws)起作用的廣泛尺度上,只要一個或幾個參數(shù)就足以描述信號的復(fù)雜性。因為參數(shù)個數(shù)少,所以分形分析是最節(jié)約的多尺度方法之一[12]。其它多尺度方法包括:在前面已做過簡要討論的SDLE;有限大小的Lyapunov 指數(shù)[37?39];(ε,τ)熵[40];多尺度熵[41]。對單一的時間序列數(shù)據(jù)進(jìn)行分析和建模,這些方法可認(rèn)為是足夠的。比較缺乏的是研究兩個或更多系統(tǒng)(包括兩個或多個時間序列數(shù)據(jù))之間詳細(xì)的交互作用的工具。 雖然物理學(xué)基本定律中時間都是可逆的(即如果把所有方程中的時間t都替換成-t,關(guān)系依然成立),但時間不可逆的過程是普遍存在的。從冷熱水的混合,到火柴燃燒和玻璃打碎,普通現(xiàn)實世界的經(jīng)驗告訴我們,不考慮基本物理定律的數(shù)學(xué)公式,時間之矢只指向一個方向。 為了解決這個悖論,Boltzman發(fā)展了Boltzman熵的概念和H定理。正如我們討論的,Boltzman 熵是所有可能的微觀狀態(tài)數(shù)(或相空間容量)的對數(shù)。H定理支配著(負(fù))熵的時間演化,意味著熵必須是常量或隨時間增加。這兩個概念一并考慮得出了關(guān)于時間方向性的一個約束。 Boltzman 的設(shè)計盡管非常成功,但也出現(xiàn)了爭議[42,43]。歷史上,Ernst Zermelo提出了堅決的反對,基于Poincaré 的重現(xiàn)定理,他指出一個封閉的動力系統(tǒng)最終必然要返回到任意接近初始狀態(tài)。因此,最終每個系統(tǒng)將是可逆的,熵不可能總是增加。 在直覺上,一個封閉系統(tǒng)回復(fù)到初始狀態(tài)的Poincaré 重現(xiàn)時間肯定長得難以想象。Richard Feyn‐man(理查德·費曼)證明,“在一百萬年內(nèi),這將是不可能發(fā)生”[44]。Vladimir Arnold 認(rèn)為這將比太陽系的年齡更長[45]。據(jù)說Boltzmann 自己也說:“你要長久等待!”[46]。近來,這個時間長度的一個定量估計已經(jīng)由高劍波給出[15],如下: 其中,τ是抽樣時間,r是相空間中要被再次經(jīng)過的子域的大小,DI是已經(jīng)討論過的信息維度。對于完全隨機的氣體運動,正如我們討論的,DI可取與6NA的相同量級,其中NA是阿伏伽德羅常數(shù)。因此,如果取r~1/10,那么重現(xiàn)時間的量級約為1036×1023τ。這個時間實在長得與現(xiàn)實毫不相關(guān)了! 盡管對Boltzmann方案的反對與現(xiàn)實并不完全相關(guān),但相反的研究卻更有成效—C′edric Villani,一位天才的法國數(shù)學(xué)家,同時也是2010年菲爾茲獎得主,能從Boltzmann 方程中計算熵的產(chǎn)生,并找到了平衡的收斂速率[47]。 非常不幸的是,Boltzmann 自殺了。不過,一個與Boltzmann 同時代的冷靜智者Willard Gibbs 沒有把自己拴在熱力學(xué)第二定律令人沮喪的含義中。Gibbs沉著地得出了重現(xiàn)時間肯定非常長的結(jié)論,但可能有機會觀察到將違反熱力學(xué)第二定律的過程。實際上,這樣的過程在短時間內(nèi),在小納米尺度系統(tǒng)中能輕易地被觀察到[48]。其可能性事實上與公式(20)有很大關(guān)系——指數(shù)是DI-1 而不是DI.當(dāng)DI很大時,DI與DI-1 本質(zhì)上沒有差別;但當(dāng)系統(tǒng)很小時,DI-1 取代DI將使重現(xiàn)時間更短。 在一個封閉的自然系統(tǒng)中,違反熱力學(xué)第二定律的情況也許不容易觀察到。負(fù)熵流與其說是在生命之外,倒不如說是在支配生命——正如Erwin Schr?dinge 所斷言“生命需要負(fù)熵”[49]。Lila Gatlin 認(rèn)為在生命系統(tǒng)中,只要信息被存儲,熵就會減少[13]。更準(zhǔn)確地,我們也許會說,當(dāng)基因密碼被精確執(zhí)行,外部刺激被神經(jīng)元適當(dāng)處理,生命就產(chǎn)生作用。正如杰出的數(shù)學(xué)家和理論物理學(xué)家Roger Penrose 在他的暢銷科學(xué)讀物《The Emperor′s New Mind》中所討論的,這種負(fù)熵的根源是太陽[50]。 正如預(yù)期的,信息熵已經(jīng)在科學(xué)和工程的幾乎每一個領(lǐng)域都找到了有意思的應(yīng)用。在最后一節(jié),我們將解釋熵如何應(yīng)用于復(fù)雜數(shù)據(jù)的分析,并推測信息熵會在哪些前沿領(lǐng)域起關(guān)鍵作用。 當(dāng)一個復(fù)雜系統(tǒng)的概率分布已知時,通過使用公式(1)可以很容易計算出信息熵。如果只有一條時間序列數(shù)據(jù),那么如何計算熵?答案是通過Lempel?Ziv(LZ)復(fù)雜度[51,52]。 LZ 復(fù)雜度及其導(dǎo)數(shù)方便快速計算,并且與Kol‐mogorov 復(fù)雜度密切相關(guān)[53,54],在刻畫復(fù)雜數(shù)據(jù)的隨機性方面已有許多應(yīng)用。 為了計算LZ 復(fù)雜度,首先需要把數(shù)值序列變換成符號序列。最常用的方法就是通過把信號與某個閾值Sd比較[55],進(jìn)而把信號轉(zhuǎn)變?yōu)??1 序列。也就是說,當(dāng)信號值大于Sd,就把信號映射為1,否則就映射為0.一個較好的選擇是把信號的中位數(shù)作為Sd[54]。當(dāng)使用多個閾值時,可以把數(shù)值序列映射為一個多符號的序列。值得說明的是,如果原始的數(shù)值序列是一個非平穩(wěn)的隨機游走類過程,那么應(yīng)該分析其平穩(wěn)的差分序列而非原始的非平穩(wěn)序列。 得到符號序列后,然后可以對該序列進(jìn)行解析以獲得不同的詞,并對這些詞編碼。令L(n)為這些詞的編碼的序列長度,LZ復(fù)雜度可以這樣來定義: 這與Kolmogorov復(fù)雜度的內(nèi)涵一致[53,54]。 有很多方法可以用來對符號序列做解析。一個常用的方案是由LZ 復(fù)雜度的原作者提出[51,52]。為方便起見,我們稱之為方案一。另一個常用的方案是Cover和Thomas提出的[57],我們稱之為方案二。為方便起見,我們在二項式序列背景下描述它們。 方案一:令S=s1s2…sn代表一個有限長的0?1 符號序列;S(i,j)表示S的一個從位置i開始在位置j結(jié)束的子序列,其中i≤j,S(i,j)=sisi+1…sj,且當(dāng)i>j時,S(i,j)={},即空集。令V(S)代表序列S的詞典,即所有子序列S(i,j)的集合(即所有的S(i,j),i=1,2,…,n;j≥i)。比如,令S=001,那么V(S)={0,1,00,01,001},這里,解析的過程是從左到右掃描序列。子序列S(i,j)與由截止到位置j-1 的S的所有子序列組成的詞典V(S( 1,j-1))比較。如果S(i,j)已經(jīng)出現(xiàn)在了V(S( 1,j-1))中,那么就把S(i,j)和V(S( 1,j-1))分別更新為S(i,j+1)和V(S(1,j)),過程重復(fù)一次。如果子序列S(i,j)沒有出現(xiàn)在詞典中,那么在S(j)后打一個點,以顯示新元素的結(jié)尾,把S(i,j)和V(S( 1,j-1))分別更新為S(j+1,j+1)和V(S(1,j)),過程繼續(xù)。這個解析操作從S(1,1)開始,直到j(luò)=n結(jié)束,n是符號序列的總長度。比如,有一個序列是1011010100010,可以解析為1?0?11?010?100?010?.按照慣例,有一個點置于符號序列最后一個元素的后面。在這個例子中,不同的詞的個數(shù)是6. 方案二:序列S=s1s2…sn被逐步掃描,并被改寫為一個詞的級聯(lián)w1w2…。wk這樣被選出來的:w1=s1,wk+1是之前未出現(xiàn)的最短的詞。換句話說,wk+1是某個詞wj的擴展,wk+1=wjs,這里0 ≤j≤k,s 要么是0要么是1.上面序列的例子,1011010100010被解析為1?0?11?01?010?00?10.因此,總共有7個不同的詞。這個數(shù)字比方案一中的數(shù)字要大1. 通過方案二得到的詞很容易編碼。一個簡單方法是[57]:令c(n)表示在解析原序列時的詞的數(shù)量。對每個詞,我們分別用log2c(n)個比特去描述這個詞的前綴的位置和1個比特去描述最后一個位置。針對上面的例子,令000 來描述一空的前綴,那么序列可以被描述為:( 000,1)( 000,0)( 001,1)( 010,1)( 100,0)( 010,0)(001,0)編碼序列的總長度為L(n)=c(n)[ log2c(n)+1 ].因此公式(21)變?yōu)椋?/p> 當(dāng)n非常大時,c(n) ≤nlog2n.[51,57]把公 式(22)中的c(n)用nlog2n替換,可以得到: 除了c(n)可由方案一得到,CLZ的常規(guī)定義就是依據(jù)公式(23)中的函數(shù)。特別地,由方案一得到的c(n)比由方案二得到的值小。然而,編碼由方案一得到的詞要比方案二使用更多的比特。我們推測由公式(21)定義的復(fù)雜度對兩種方案是相似的。其實,從數(shù)值上,我們發(fā)現(xiàn)CLZ對n的函數(shù)依賴性(基于公式(22)和(23))對兩種方案是相似的。 對于無限長度的序列,LZ 復(fù)雜度等于Shannon熵。特別地,對于無限長的周期序列,LZ 復(fù)雜度為0。然而,當(dāng)一個周期序列的長度是有限的,LZ 復(fù)雜度比0要大。在大部分的應(yīng)用中,信號是有限長的。因此,要找到一個合適的方法來保證一個有限長的周期序列的LZ 復(fù)雜度為0,并且一個完全隨機序列的LZ 復(fù)雜度為1.這個問題最早由Rapp 等人研究[58]。近來,Hu 等人使用分析學(xué)的方法再度來考慮這個問題[59]。特別地,他們?yōu)殡S機等概率序列以及任意周期m的周期性序列推導(dǎo)出了LZ 復(fù)雜度的公式,并提出了一個做標(biāo)準(zhǔn)化的簡單公式。圖4 顯示了把LZ 復(fù)雜度用于癲癇發(fā)作檢測的腦電圖(EEG)數(shù)據(jù)分析。我們觀察到,LZ 復(fù)雜度盡管簡單,但與混沌理論中的相關(guān)熵和相關(guān)維一樣有效,可用于檢測癲癇發(fā)作。有關(guān)更多詳細(xì)信息,請參見[59]。此外,為了更深入地了解腦電圖分析中不同復(fù)雜性測度之間的聯(lián)系,請參見[60]。 圖4 一位病人的EEG信號中LZ復(fù)雜度(a1,a2),標(biāo)準(zhǔn)化LZ復(fù)雜度(b1,b2),相關(guān)熵(c1,c2),相關(guān)維(d1,d2)隨時間的變化。(a1?d1)是通過把EEG信號分成500個點的小窗口得到的;(a2?d2)是使用2000個點的窗口。(a1,a2)中的垂直虛線是由醫(yī)學(xué)專家確定的癲癇發(fā)作時間。 信息熵在哪里必不可少呢?我們相信肯定是那些與人類行為有聯(lián)系的領(lǐng)域。在那些情形中,作為第一步,使用信息熵主要不是提供一個公式來對不確定性進(jìn)行量化;而是將幫助研究者全面理解一個重要問題,即為了應(yīng)用信息熵而去定義一個完整的事件系統(tǒng)。對于數(shù)據(jù)驅(qū)動的復(fù)雜數(shù)據(jù)的多尺度分析[12],綜合性是指導(dǎo)原則,也是產(chǎn)生長期持續(xù)影響的先決條件。 在推測之前我們注意到,隨著科學(xué)的發(fā)展,目前不確定或未知的事物將來可能會部分或完全地知曉,于是信息熵的作用將會減小。這情形與普渡大學(xué)謝越寧教授(Yuch?Ning Shien)在與作者高劍波私人交談中所深思的相似:“當(dāng)暗物質(zhì)的某種明確形式在未來被發(fā)現(xiàn)時,那么暗物質(zhì)的數(shù)量就會減少?!睘榱烁玫乩斫膺@一點,我們把從DNA 序列中估計信息熵作為一個具體的例子:基于核苷酸基的分布[8],熵接近2比特;而若把序列相關(guān)關(guān)系考慮進(jìn)來的話,熵會顯著小于2比特[61]。 一個更復(fù)雜的情形是在心理學(xué)中使用信息熵。在上世紀(jì)五六十年代,信息理論在心理學(xué)中一度很流行,之后就影響不再,因為對神經(jīng)元處理信息有了日益深刻的理解[62]。但近來,在心理學(xué)中對信息論的興趣開始復(fù)蘇,目的是更好地理解與不確定性相關(guān)的焦慮[63]。這個新模型聚焦于作為人類主觀經(jīng)歷的潛在活動和知覺的加權(quán)分布,并把較低的熵分派給較強的目標(biāo)。本質(zhì)上來說,這個模型是分層的,神經(jīng)科學(xué)在最底層工作,主觀決策牽涉多個層。用Erwin Schr?dinger 的話說,一個層級模型在本質(zhì)上就是“次序基于次序”[49]。 現(xiàn)在考慮信息熵在環(huán)境科學(xué)和工程上的潛在應(yīng)用。具體來說,讓我們從中國普遍的PM2.5 污染開始。首先,我們來考慮PM2.5 污染的物理學(xué)。已知PM2.5 硫酸鹽在大氣中會停留三到五天。根據(jù)平均風(fēng)速,比如5米/秒,幾天的停留時間產(chǎn)生了“長距離傳送”和更均勻的空間圖樣。平均來說,PM2.5 顆粒從最初形成它們的氣體中能被傳送到直至1000 多公里以外。這也是導(dǎo)致香港冬天PM2.5 污染的主要原因[64]。因此,從物理上看,系統(tǒng)研究PM2.5 污染,包括在源頭的形成速率、PM2.5 水平隨風(fēng)速的變化、大氣傳送,等等,將非常有意思,從而決定應(yīng)該采取什么措施才能把PM2.5 污染控制在一定范圍內(nèi)。當(dāng)然,這項研究工作將有很多不確定性。但信息熵甚至熱力學(xué)熵都應(yīng)該會起一定的重要作用。 接下來,我們考慮嚴(yán)重PM2.5 污染的后果。首先是對健康的負(fù)面影響,這已經(jīng)在媒體中被廣泛討論過。西方研究者發(fā)表的關(guān)于PM2.5 污染影響的醫(yī)學(xué)研究只是普通地考慮了較低濃度PM2.5 顆粒的影響。而在中國的很多城市,PM2.5 濃度經(jīng)常連續(xù)很多天都超標(biāo)。因此每一個人不禁會問一個問題:PM2.5 顆粒對健康的負(fù)面影響與PM2.5 顆粒的濃度是線性關(guān)系還是非線性關(guān)系?如果是非線性的,那么某種分岔可能發(fā)生,也就是說,當(dāng)PM2.5 濃度超過一定水平,健康問題將急劇增加。接下來的問題是這種污染所導(dǎo)致的健康問題的醫(yī)療費用。更進(jìn)一步,PM2.5 污染對戶外動物,尤其是鳥的危害有多大?它們沒有任何措施保護(hù)自己免受有害的且分散在很大空間范圍的PM2.5顆粒的危害。 這種費用不只是簡單地停留在醫(yī)療水平上。嚴(yán)重的污染導(dǎo)致霧霾天氣更頻繁。霧霾天氣使可見度降低,迫使公路關(guān)閉,惡化了交通堵塞,引起更多的交通事故和傷亡,影響購物,使成千的航班取消,等等。顯然,這種混亂可能與熵的急劇增加有關(guān)。為了說服政府責(zé)任機構(gòu)采取果斷行動來減少PM2.5 污染,綜合地考慮PM2.5污染問題將是關(guān)鍵。 接下來,我們討論一些經(jīng)濟發(fā)展與熵的產(chǎn)生之間的關(guān)系。盡管許多國家的GDP 取得了顯著進(jìn)步,但必須指出的是,到目前為止,在開發(fā)經(jīng)濟增長模型時很少關(guān)注熵的概念。這些模型包括包括馬克思的經(jīng)濟理論[65]及贏得了諾貝爾經(jīng)濟學(xué)獎的Solow?Swan 的新古典增長模型[66,67]。隨著我們的生存環(huán)境正面臨著日益加重的危險,現(xiàn)在正是認(rèn)真解決可持續(xù)性增長這一關(guān)鍵問題的時候了。 為更好地把握上述問題,我們必須討論熵在經(jīng)濟學(xué)中究竟意味著什么。一般的理解就是把熵與經(jīng)濟數(shù)據(jù)的一些分布聯(lián)系起來[68]。的確,負(fù)收入分布的熵能非常好地預(yù)測經(jīng)濟下滑,包括近來巨大的金融危機[69]。一個新興領(lǐng)域——經(jīng)濟物理學(xué)(Econophys‐ics),正嘗試著為經(jīng)濟學(xué)開發(fā)一個類似于熱力學(xué)的學(xué)科,其中,能量和熵分別與資本和生產(chǎn)函數(shù)相聯(lián)系[70]。然而,這樣的觀點還太僵硬,因為同樣數(shù)量的錢,用法不同,會導(dǎo)致完全不同的結(jié)果。例如在2012年,億萬富翁、高爾夫球球手泰格.伍茲的前妻決定把新買的1200萬美元的別墅拆毀重建,因為她認(rèn)為這幢別墅對她來說太小。還是在2012年,超級颶風(fēng)桑迪剛剛過去,紐約市的一些窮人由于缺少食物正在為生存掙扎。一些富人則為其它不同目的而抗?fàn)帯驗轱Z風(fēng)桑迪把他們的地下室給淹沒了,所以他們正忙于消費那1000 美元一瓶的葡萄酒。本文的觀點是,要在經(jīng)濟學(xué)中巧妙地討論熵,必須綜合評價所有可能性以及它們帶來的積極和消極結(jié)果。某一增長過程的浪費和破壞的結(jié)果應(yīng)該和熵的大量增加相聯(lián)系。 這是一個信息爆炸的時代。這里的關(guān)鍵是巧妙地利用數(shù)據(jù)——據(jù)麥肯錫估計[71],如果美國衛(wèi)生保健部門能夠創(chuàng)造性地有效利用大數(shù)據(jù)來提高工作效率和質(zhì)量,則該部門每年能創(chuàng)造3000 億美元以上的價值;在歐洲發(fā)達(dá)國家,僅僅通過使用大數(shù)據(jù),政府管理者就能在運營效率改進(jìn)上節(jié)省1490 多億美元,這還不包括使用大數(shù)據(jù)減少詐騙、差錯和增加稅收的收入;如果利用好私人服務(wù)數(shù)據(jù),就能獲得大約6000 億美元的消費盈余。為了人類的幸福,從大數(shù)據(jù)中最大化地利用有用信息將非常關(guān)鍵。 致謝 作者感謝中國科學(xué)院力學(xué)所鄭哲敏院士的引導(dǎo)和啟發(fā)。5.3 混沌
5.4 從噪聲中識別混沌
5.5 統(tǒng)計復(fù)雜性
5.6 多尺度分析
6.時間之矢
7 內(nèi)部關(guān)聯(lián)世界的熵
7.1 估計復(fù)雜數(shù)據(jù)的信息熵:Lempel?Ziv復(fù)雜度
7.2 未來展望