• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      人類通信行為中的標度律

      2013-09-28 09:45:58王春娟林振權
      復雜系統(tǒng)與復雜性科學 2013年3期
      關鍵詞:冪指數(shù)冪律字數(shù)

      王春娟,林振權

      (溫州大學物理與電子信息工程學院,浙江 溫州 325035)

      人類通信行為中的標度律

      王春娟,林振權

      (溫州大學物理與電子信息工程學院,浙江 溫州 325035)

      對錢學森書信的響應時間和信件長度進行統(tǒng)計分析,發(fā)現(xiàn)信件長度服從系數(shù)為0.005的負指數(shù)分布,同時信件響應時間和信件長度在一定范圍內存在標度關系。該結果揭示了人類通信行為的一個內在規(guī)律,為通信機制的進一步挖掘提供了實證依據(jù)。

      人類動力學;通信模式;冪律分布;標度特性

      0 引言

      最近幾年里,通過對人類活動歷史(包括通訊、工作和娛樂)的海量數(shù)據(jù)庫的分析,越來越多的證據(jù)顯示人類許多行為的時間統(tǒng)計特性無法用泊松分布刻畫。2005年,Barabási和他的同事對3 188位用戶收發(fā)的共129 135封電子郵件進行了統(tǒng)計分析,發(fā)現(xiàn)用戶相繼發(fā)送兩封郵件的間隔時間服從的不是指數(shù)分布,而是冪函數(shù)分布。表現(xiàn)為郵件發(fā)送會密集出現(xiàn)在一段很短的時間內,然后會有很長一段時間沒有任何郵件發(fā)出[1]。Oliveira和Barabási,以及Vázquez等[2-3]對達爾文、愛因斯坦和弗洛伊德的書信通信記錄的研究發(fā)現(xiàn),一封信在τ天被回復的概率可用指數(shù)為α=1.5的冪律尾衰減分布很好地近似。

      而針對電子郵件的研究顯示,人們發(fā)送電子郵件的間隔時間和響應時間服從α=1的冪律尾衰減分布。Vázquez等[3]經過研究指出人類動力學存在兩大普適類,分別對應冪指數(shù)為α=1和α=1.5。緊接著許多學者就人類系統(tǒng)的普適性發(fā)生了激烈的爭辯,認為在人類系統(tǒng)中提出的重尾分布的漸近冪律行為是否有足夠的統(tǒng)計證據(jù)?簡單地根據(jù)冪指數(shù)劃分普適類的假設合理嗎?對于有爭議的普適類討論話題和冪律問題,人類通信是很好的范例,在文獻中被廣泛關注。2008年,李楠楠等[4]對錢學森、魯迅書信進行統(tǒng)計,發(fā)現(xiàn)錢學森信件的響應時間分布也服從冪律分布,但冪指數(shù)為2.1,據(jù)此對普適類的說法提出了質疑。2009年,曹盼盼等[5]選取了中國近代的茅盾、傅雷、陶行知和胡適等文化名人的書信,分析他們的通信行為同樣得到了時間特性的冪律分布,且提出了社會環(huán)境對冪指數(shù)的影響。與此同時,Malmgren等[6]對16位作家、演員、政治家、科學家的電郵和通信數(shù)據(jù)進行分析,認為冪律的時間間隔是人類行為周期性、重復性和需求量變化的結果,隨著年齡增長和社會角色的確定,人們趨向于每天周期性的重復某些活動,不會有太大程度的改變,并由此建立了一種級聯(lián)式的非齊次泊松過程來描述這種行為的產生。該模擬結果對16位用戶的電子郵件和書面通信行為有個很好的解釋,揭示了不同通信活動可能存在著相似的驅動機制,為人類通信行為的研究提供了方向。

      對于人類各種行為表現(xiàn)出來的冪律特性的起源,眾多學者從不同的角度進行了嘗試。Barabási等率先給出了基于個人決策的排隊論解釋,通過改變模型參數(shù)的取值使其適應不同的情況,盡管該模擬結果對于電子郵件和書面通信的重尾分布有個很好的解釋,但還是存在著部分缺陷,該模型的核心與實質是把人類的行為看做執(zhí)行一系列的任務,然而任務選擇型機制并不能解釋真實生活中全部的人類活動,比如瀏覽網頁[7],在線電影點播[8],手機短信[9]等等。但是這些活動也展現(xiàn)出一些相類似的統(tǒng)計規(guī)律(胖尾時間間隔分布)。同時所研究的數(shù)據(jù)中也并沒有包括一個人所參與的所有任務,于是有學者又在排隊論的基礎上提出了其他交互模型[10]。Kentsis等[11]注意到一封電子郵件或者書面信件的響應時間還依賴于通信發(fā)生時的社會內容,個體信件語義內容,任務的難度和社會關系等一系列復雜的影響機制。由此對Barabási的排隊模型進行了深入探討,隨后根據(jù)許多實際情況國內學者提出了自身的生理活動[12]、興趣[13]、截止時間[14]、記憶[15]等諸多影響機制,但始終沒有得到統(tǒng)一共識。這些研究工作表明人類行為潛在的規(guī)律性和復雜性。

      書面通信有別于人們在網絡上的通信行為,它更能反映出人在社會中與人交流的真實情況,為進一步挖掘其內在統(tǒng)計規(guī)律,除研究信件的發(fā)信時間間隔和響應時間統(tǒng)計分布規(guī)律外,本文還提出信件長度這一屬性,以反映人們在寫信時難以察覺的心境和外部事件的影響。因此本文中將結合信件長度和響應時間兩方面分析人類通信行為,并且將全部信件按其字數(shù)分為不同長度段,分析各不同長度段信件的響應時間分布之間的關系,為建立人類通信行為模型提供實證依據(jù)。

      1 數(shù)據(jù)分析

      本文采用了錢學森從1955年至2000年的通信數(shù)據(jù),其中有1 782封信標注了信件的收信時間和回復時間,把它定義為響應時間τ,以天為單位。當同一個人在一段時間內發(fā)送了幾封信件時,以最近一封信為收錄時間計算響應時間,假設最后一封信激起回復,前面的信件并沒有得到真正的回復,把它看做是信件的遺棄,以避免響應尺度的大量重疊。舉個例子,在發(fā)短信時你收到了很多條來自同一個人的信息,人們不會逐條進行回復,而是就上一封內容做出回應,連帶著告知前面信息有收到。然而在研究短信、郵件的時間特性時,由于個人隱私受法律保護,無法了解個體信件的語義內容,以至于無法明確是否是對此封信件的響應,導致不清楚是上段話題未完還是已經開始下一個話題,故等待時間不明確,把話題的完結當做長時間的響應做了處理[16]。而本文研究的錢學森書信中內容已經公開,且都標有收錄時間,如10月4日的信收讀,通過語義分析也能明確是否是對上封信件的響應,使響應時間的計算更精確。

      以往學者在確定冪指數(shù)時,用了極大似然估計方法,結果一般依賴最小值的選取,在數(shù)據(jù)量有限的情況下冪指數(shù)會偏離真實值。本文對響應時間分布使用了補函數(shù)[17-20]。

      對于冪律分布(1),在α>1時有

      補分布不僅可以消除尾部波動,還可以避免對數(shù)裝箱方法中難以準確確定裝箱寬度的問題,不丟失任何信息,在數(shù)據(jù)點較少的情況下,補分布統(tǒng)計更準確,對冪律特性有較好的表達[19],在大量的實證研究中被廣泛使用[5-6,12,17,20-21]。

      2 實證結果

      由于間隔時間分布受個人決策的優(yōu)先級影響[1-3],不能作為人類動力學的適當量度,因此要實現(xiàn)最終成功預測響應的統(tǒng)計性質,本文將注意力放在響應時間的統(tǒng)計上。首先是對錢學森信件的響應時間分布采用補分布函數(shù),如圖1所示,響應時間分布在雙對數(shù)坐標下為冪律衰減尾分布,τ表示響應時間的橫坐標,以天為單位??v坐標用p(t≥τ)表示響應時間所對應的補分布概率。直線是對數(shù)據(jù)點的線性擬合,其中5≤τ≤100,負相關系數(shù)R=-0.996,響應時間的冪律衰減尾分布形式(1),其冪指數(shù)為α=2.6±0.02。與[4]相比偏大,這與本文收集數(shù)據(jù)和處理的方法有關,回信機制在整體上較快,隨著統(tǒng)計方法的發(fā)展,其精確度會略有波動。而響應時間大于100天的只有17封信,只占大約總量的1%。

      在分析人們在互聯(lián)網上的行為時,認為傳輸文件大小分布屬于帕累托分布,從而導致互聯(lián)網上通信量的胖尾特性[21]。對此,本文對錢學森具有確切響應時間的信件按信件長度進行統(tǒng)計分析。信件長度數(shù)據(jù)來源于人工計數(shù),為避免人為誤差影響,數(shù)據(jù)以20字為統(tǒng)計字數(shù)段,每個統(tǒng)計字數(shù)段內各信件字數(shù)的加權平均值作為該字數(shù)段內信件的長度k。圖2畫出長度在63≤k≤1 490范圍的通信量分布N(k),在數(shù)據(jù)中除去下垂頭部的影響作線性擬合,結果在單對數(shù)坐標下為指數(shù)衰減分布。

      其中λ=0.005。在圖2的插圖中給出了相應的補分布圖,補分布線性擬合指數(shù)值與直接擬合結果一致??梢赃@樣解釋,在早期人們基于寫信習慣和交流條件的限制,會按照相對穩(wěn)定的模式進行書信往來,交流中輕易不會長篇大論。該結果與當前人們在即時交流通訊中表現(xiàn)出的規(guī)律并不相同,例如QQ群用戶在線交流行為中每次發(fā)送QQ消息的字符數(shù)呈現(xiàn)出冪律尾分布[22],類似地人們在互聯(lián)網上傳輸文件的大小分布也是冪律形式[21]??梢姮F(xiàn)代通信的便利性使得人們的交流方式在不斷改變。

      圖1 錢學森書信響應時間的補分布Fig.1 Response time complementary cumulative distribution function of Qian Xuesen’s correspondence

      圖2 信件字數(shù)長度分布Fig.2 Empirical response size distribution of Qian Xuesen’s correspondence

      進一步考察不同長度段信件的響應時間分布,并分析各不同長度段信件的響應時間分布之間的關系。以錢學森書信的響應時間分布為例,本文將錢學森有確切回復時間記錄的全部信件按其字數(shù)分為不同長度段,其中72%的信件字數(shù)在165~572字之間,將此范圍的信件分成4個字數(shù)長度段,每個統(tǒng)計字數(shù)段內各信件字數(shù)的加權平均值kc代表該字數(shù)段內信件的長度,如表1所示。

      通過對k1~k4區(qū)間內錢學森寫信響應時間的統(tǒng)計,分別得到其書信響應時間服從冪律尾分布,且冪指數(shù)與總體分布都接近α=2.6,隨k的增大依次向下,如圖3所示。說明在k1~k4區(qū)間的信件對響應時間的冪律尾分布做出了主要的貢獻,而大于k4的范圍由于數(shù)據(jù)不足沒有明顯的分布關系,除去這部分信件對整體的響應時間分布幾乎沒有影響。

      在圖4中,通過重新定標揭示了不同長度段信件的響應時間分布之間存在標度律,它們在相同的有特定標度指數(shù)的曲線上塌縮。橫坐標為響應時間,縱坐標為累計通信量與信件長度補函數(shù)的比值。該結果可以表示為

      表1 各字數(shù)段范圍及kc取值Tab.1 The every word scope and kcvalue

      這里排除了偶爾寫短信和長信的概率,假設個體寫信內容長度是穩(wěn)定地控制在k1~k4范圍內。不同長度段信件的響應時間分布之間存在的標度律(5)反映了在統(tǒng)計范圍中的信件存在一個特征字數(shù)長度,s=200,對應圖2中的峰值。

      圖3 不同信件長度下的響應時間補分布Fig.3 Response time distribution for communication scales

      圖4 信件長度與響應時間的標度關系Fig.4 Collape of I distributions for correspondence pattern

      3 總結和討論

      本文統(tǒng)計了錢學森一生中與人交流的通信數(shù)據(jù),發(fā)現(xiàn)信件長度服從系數(shù)λ=0.005的負指數(shù)分布,其特征字數(shù)長度約200字。該結果不同于快捷的群用戶聊天中字符數(shù)的分布[22]或者互聯(lián)網傳輸文件的大小分布[21],書信較注重思想上的交流,字數(shù)跨度大多集中在165~572字的范圍內,而QQ即時通訊在交流時可以簡單的回復“Yes”或者“No”,使得字符少的占總體比重較大,對于錢學森書信字數(shù)一般不少于63個字,這更類似于人們寫日記的長度。通過對錢學森書信響應時間的分析,發(fā)現(xiàn)響應時間的冪律尾分布受多方面因素影響,如地理位置、節(jié)假日、出差、由他處轉來、任務難度等。舉個例子,錢學森在1985年2月11日給夏振坤的一封信中寫到:“您在去年5月14日寫給我的信和兩篇尊著收到后就細讀過,但您提出的問題我也一時說不出來什么,所以就放下了。一放就是九個月!請您原諒!”。這也符合Oliveira等對通信模式復雜性的探討[2-3,11]。

      本文還分析了在不同信件長度下信件的響應情況,發(fā)現(xiàn)在信件長度相對穩(wěn)定的區(qū)間分別表現(xiàn)出依次向下的冪律尾分布,且冪指數(shù)與總的響應時間分布近乎一致,也就是說在這段穩(wěn)定的交流中人們趨向于相似的通信機制,信件響應時間的冪律特性主要由字數(shù)在165~572的信件貢獻,大的信件長度對響應時間的分布幾乎沒有影響。通過重訂標得到了數(shù)據(jù)的塌縮,暗示了響應時間和信件長度之間潛在的標度關系,對文獻[1]中電子郵件大小和等待時間關系的探討給予進一步的實證依據(jù)。相信隨著信息挖掘的發(fā)展,在足夠的信息量情況下,可能會有更豐富的標度關系。那么設想在紛繁多樣的個體行為模式下可能隱藏著某種共同的人類通信機制,并且這種潛在的模式可能不區(qū)分古今時代,對不同的個體和通信方式普遍適用,是一種潛在的人類通信普適模式。對它的深入研究將有利于優(yōu)化資源配置,便于商家制定商業(yè)決策,如郵政通信行業(yè)可以采取相應的策略提高其性能指標。其應用價值和商業(yè)潛質在不斷興起的新型服務行業(yè)中也會不斷地體現(xiàn)。對于其他通信領域這只是一個初探,有待于有興趣的學者們進一步挖掘。

      [1]Barabási A L.The origin of bursts and heavy tails in human dynamics[J].Nature,2005,435(7039):207-211.

      [2]Oliveira J G,Barabási A L.Human dynamics:Darwin and Einstein correspondence patterns[J].Nature,2005,437(7063):1251-1253.

      [3]Vázquez A,Oliveira J G,Dezs?Z,et al.Modeling bursts and heavy tails in human dynamics[J].Physical Review E,2006,73(3):036127.

      [4]李楠楠,張寧,周濤.人類通信模式中基于時間統(tǒng)計的實證研究[J].復雜系統(tǒng)與復雜性科學,2008,5(3):43-47.

      Li Nannan,Zhang Ning,Zhou Tao.Empirical analysis on temporal statistics of human correspondence patterns[J].Complex Systems and Complexity Science,2008,5(3):43-47.

      [5]曹盼盼,閻春宇.人類通信模式的冪律分布和Zipf定律[J].復雜系統(tǒng)與復雜性科學,2009,6(4):51-56.

      Cao Panpan,Yan Chunyu.The power law and Zipf's law in human communication patterns[J].Complex Systems and Complexity Science,2009,6(4):51-56.

      [6]Malmgren R D,Stouffer D B,Campanharo A S L O,et al.On universality in human correspondence activity[J].Science,2009,325:1696-1705.

      [7]趙庚升,張寧,周濤.網頁瀏覽中的標度行為研究[J].統(tǒng)計與決策,2009(1):18-19.

      Zhao Gengsheng,Zhang Ning,Zhou Tao.Study on scaling behavior in webpage visiting[J].Statistics and Decision,2009(1):18-19.

      [8]Zhou T,Kiet H A T,Kim B J,et al.Role of activity in human dynamics[J].Europhys Letters,2008,82(2):28002.

      [9]Hong W,Han X P,Zhou T,et al.Heavy-tailed statistics in short-message communication[J].Chinese Physics Letters,2009,26(2):028902.

      [10]Rybsli R,Buldyrev S V,Havlin S,et al.Scaling laws of human interaction activity[J].PNAS,2009,106(31):12640-12645.

      [11]Oliveira J G,Barabási A L.Correspondence patterns:mechanisms and models of human dynamics(replay)[J].Nature,2006,441:E5-E6.

      [12]Nakamura T,Kiyono K,Yoshiuchi K,et al.Universal scaling law in human behavioral organization[J].Physical Review Letters,2007,999(13):138103.

      [13]韓筱璞,周濤,汪秉宏.基于自適應調節(jié)的人類動力學模型[J].復雜系統(tǒng)與復雜性科學,2007,4(4):1-5.

      Han Xiaopu,Zhou Tao,Wang Binghong.The model of human dynamics based on adaptive interest[J].Complex Systems and Complexity Science,2007,4(4):1-5.

      [14]鄧竹君,張寧,李季明.截止時間對人類動力學模型的影響[C]//郭近利,周濤,張寧,等.人類行為動力學模型.香港:上海系統(tǒng)科學出版社.2008:29-34.

      Deng Zhujun,Zhang Ning,Li Jiming.The impact of deadline on human dynamics model[C]//Guo Jinli,Zhou Tao,Zhang Ning,et al.The Dynamics of Human Behavior.Hongkong:Shanghai system science press,2008:29-34.

      [15]Vázquez A.Impact of memory on human dynamics[J].Physica A,2007,373(1):747-752.

      [16]Wu Y,Zhou C S,Xiao J H,et al.Evidence for a bimodal distribution in human communication[J].PNAS,2010,107(44):18803-18808.

      [17]Ethan P W,Brian J E,Jessica L G.On estimating the exponent of power-law frequency distribution[J].Ecology,2008,89(4):905-912.

      [18]Clauset A,Shalizi C R,Newman M E J.Power-law distribution in empirical data[J].SIAM Review,2009,51(4):661-703.

      [19]史定華.網絡度分布理論[M].北京:高等教育出版社,2011:34-40.

      [20]Newman M E J.Power laws,Pareto distribution and Zipf's law[J].Contemporary Physics,2005,46(5):323-351.

      [21]Crovella M E,Bestavros A.Self-similarity in world wide web traffic:evidence and possible causes[J].IEEE/ACM Trans Networking,1997,5(6):834-846.

      [22]王洪川,郭進利,樊超.基于群聊天記錄的人類行為動力學分析[J].計算機應用與軟件,2012,29(7):9-10.

      Wang Hongchuan,Guo Jinli,F(xiàn)an Chao.Group chat records based human behavior dynamics analysis[J].Computer Applications and Software,2012,29(7):9-10.

      Scaling Law in Human Communication Pattern

      WANG Chun-juan,LIN Zhen-quan
      (School of Physics and Electronic Information Engineering,Wenzhou University,Wenzhou 325035,China)

      Through the statistics from Qian Xuesen's communication,we present that the size distribution of the letters obeys an exponent distribution with the best fitting exponentλ=0.005.In addition,we reveal a scaling law relating response time and the size of replied letter within a certain range.It is possible to characterize inherently statistical regularities in communication behavior.Our findings provide theoretical evidence for the future excavation of the communication mechanism.

      human dynamics;communication pattern;power-law distribution;scaling-law

      N94

      A

      1672-3813(2013)03-0025-06

      2012-12-12

      國家自然科學基金(10875086,11175131)

      王春娟(1987-),女,吉林榆樹人,碩士研究生,主要研究方向為人類動力學。

      (責任編輯 耿金花)

      猜你喜歡
      冪指數(shù)冪律字數(shù)
      源于學生試題疑問的數(shù)學建模例談
      字數(shù)變多 有妙招
      部分相干冪指數(shù)相位渦旋光束的傳輸特性研究*
      物理學報(2022年1期)2022-01-19 04:44:04
      基于逼近理想點冪指數(shù)評估的防空導彈型譜分析與研究
      一類度互質的無標度網絡研究
      考試周刊(2016年99期)2016-12-26 10:54:30
      四川地區(qū)降水冪律指數(shù)研究
      冪律流底泥的質量輸移和流場
      “字數(shù)多”不等于“具體”
      快樂語文(2016年32期)2016-04-10 10:47:25
      對抗冪律
      填字數(shù)獨游戲
      龙川县| 甘孜| 西乌珠穆沁旗| 绥宁县| 靖远县| 军事| 桑植县| 昌平区| 兴国县| 巢湖市| 工布江达县| 睢宁县| 林州市| 淄博市| 淮阳县| 永安市| 化州市| 大竹县| 竹北市| 牙克石市| 河西区| 同江市| 马鞍山市| 休宁县| 威海市| 吉林省| 达拉特旗| 郁南县| 利辛县| 慈溪市| 康平县| 滨州市| 香河县| 新闻| 满洲里市| 苍南县| 崇文区| 炉霍县| 周宁县| 酉阳| 江安县|