趙倩文,吳 曄,王勝烽
(北京郵電大學理學院 北京 海淀區(qū) 100876)
一直以來,人們都對日常生活中隱含的自身行為特性抱著強烈的好奇心,并不停地展開探索和研究[1-7]。在大數(shù)據(jù)時代,人們的電子足跡越來越容易被各種電子產(chǎn)品所捕捉。電信、金融、交通及媒體等領域每時每刻都產(chǎn)生著大量數(shù)據(jù)。人們通過各種數(shù)據(jù)分析技術搜集、分析這些數(shù)據(jù),試圖挖掘出有意義的信息,以加深對自身的了解,促進行業(yè)發(fā)展。
運營商所擁有的海量通訊數(shù)據(jù)一直是科研人員研究人類行為模式的重要來源。通過分析這些通話數(shù)據(jù),人們不僅發(fā)現(xiàn)了不為人知的人類行為特性,如人的行為不是一個泊松過程,而是間隔時間是冪率分布的復雜過程。這個發(fā)現(xiàn)得到了廣泛的認可和應用[8-9]。同時有些學者還通過數(shù)據(jù)分析的方式佐證了部分社會學和心理學領域的研究論點,如文獻[10]用facebook數(shù)據(jù)驗證了鄧巴觀點,文獻[11-12]分別提出和驗證了弱鏈接、強作用的理論。
關于人類如何構建和維系自己的社交關系網(wǎng)絡同樣也備受關注,國內(nèi)外已有很多文章就此展開討論。如文獻[13]認為手機用戶的聯(lián)系人通話頻次排名反映了用戶特有的個人屬性,而且這種屬性不輕易受到網(wǎng)絡動蕩的影響;文獻[14]通過分析用戶通話的時間間隔模式對社交網(wǎng)絡中的用戶行為進行了分類;文獻[15]觀察了某在線游戲中男女玩家的不同游戲表現(xiàn),證實男女玩家無論在個人層面還是網(wǎng)絡層面,溝通模式都有很大的差別。通訊行為是人與人之間的典型社交行為之一,在一定程度上可以體現(xiàn)人與人之間的情感交互特點。本文通過中國某城市的運營商提供的用戶之間的通訊數(shù)據(jù),從通話行為的角度分析用戶在維護社交關系中的資源投入和分配行為,并研究了性別、年齡等因素的影響,從而加深人們對復雜社會行為模式的理解。
本文的數(shù)據(jù)來源于中國某地區(qū)電信運營商提供的33萬手機用戶的基本屬性信息,主要關注其年齡和性別,以及他們在2012年2月期間的所有通話數(shù)據(jù)(用戶作為撥打者),包括主叫號碼、被叫號碼、通話開始時間、通話時長。在不失一般性的前提下,對這些手機用戶數(shù)據(jù)進行了以下處理:
1)由于20歲以下和60歲以上的人群中手機普及率比較低(在對33萬手機用戶的年齡統(tǒng)計后證實了此觀點),因此本文只關注年齡在20~60歲之間的用戶。
2)通過觀察用戶的聯(lián)系人數(shù)量,發(fā)現(xiàn)有少量用戶在1個月內(nèi)與數(shù)千名聯(lián)系人有電話聯(lián)系,根據(jù)“鄧巴數(shù)字”[16](即“150定律”:人類智力允許人類擁有穩(wěn)定社交網(wǎng)絡的人數(shù)是148人,四舍五入大約是150人)、社會經(jīng)驗等,這些用戶被認為是機器人用戶、詐騙用戶等異常用戶[14]。本文研究人們在日常生活中維持社交關系的資源投入和分配行為特性,所以只選取了在這個月期間,聯(lián)系人數(shù)在5~200人之間的手機用戶的數(shù)據(jù)。
經(jīng)過以上數(shù)據(jù)處理,最后被采用的數(shù)據(jù)集包括253 037名用戶的信息及其1個月內(nèi)的通話數(shù)據(jù),其中包括男性用戶170 906名,女性用戶82 131名,年齡跨度為20~60歲。其中各年齡段男、女性人數(shù)所占比例如圖1所示。
圖1 各年齡段的男女人數(shù)比例
人們通過不同的社會關系構成了一個復雜的社會網(wǎng)絡[17-18]。本文在鄧巴數(shù)的基礎上進一步分析了由于個人精力的局限性所引起的每個人在社交網(wǎng)絡中資源投入的差異性,研究不同年齡、性別個體在資源投入模式方面的差異。
為了研究人在社交網(wǎng)絡中的資源投入模式,本文認為人們的平均通話次數(shù)
圖2
此外,圖2還顯示了
圖3 隨機兩位用戶通話頻次圖
前文主要討論了不同性別、年齡的人在維系社交關系時的資源投入差別;本節(jié)將主要討論個體在精力有限的前提下,對資源的分配模式差異。如有的人選擇將精力均勻分配給所有朋友,有的人選擇將資源集中分配給少數(shù)好友。如用戶A與10個好友通話100次,通話次數(shù)序列為:80,8,4,2,1,1,1,1,1,1,而用戶B與6個好友通話100次,通話次數(shù)序列為:25,20,18,17,10,10,這兩人對資源分配就存在著明顯差異。為了定量地研究性別和年齡對這種資源分配的影響,本文首先把該用戶與所有好友的通話次數(shù)按從大到小排序,得到通話次數(shù)的序列Xi,i=1,2,3,…。本文隨機挑選了兩名用戶的通話頻次情況,發(fā)現(xiàn)通話次數(shù)與排名的關系為冪率分布,滿足Zipf定律[19],如圖3所示。這一定律在文獻[20-22]的相關研究中也有類似發(fā)現(xiàn)。不同的人的Zipf定律的冪指數(shù)不一樣,冪指數(shù)的大小在一定程度上體現(xiàn)了該人對資源的分配模式。冪指數(shù)越大,說明該人傾向于把大部分精力分配給少數(shù)的人;而冪指數(shù)越小,說明該人傾向與把自己的資源平均分配給朋友。
Zipf定律是在分析自然語言的語料庫里單詞出現(xiàn)頻次時發(fā)現(xiàn)的,由于單詞量的龐大,可以比較清楚地觀察到冪律分布現(xiàn)象,然而在本研究1個月的通話數(shù)據(jù)中,人們的聯(lián)系人數(shù)比較有限,且部分聯(lián)系人的聯(lián)系頻次一樣。為了更準確細致地理解人們資源分配的模式,本文提出了一個基于熵的刻畫分配均勻性的指標Q。熵是一種簡潔但是十分有效的計算指標[23],在一些人類行為動力學研究的文章中被廣泛應用。如文獻[24]利用相對熵刻畫輿論傳播中的信息變化;文獻[25]通過熵指標來度量會話對象的可預測性。本文引用了文獻[25]中的兩種熵:隨機熵和獨立熵。隨機熵為:
式中,i表示用戶的標號;ki表示該用戶的聯(lián)系人數(shù)量。獨立熵為:
式中,Ni表示用戶i的聯(lián)系人所構成的集合,集合中聯(lián)系人的總數(shù)量就是式(1)中的ki;Pi(j)表示用戶i與所有聯(lián)系人打電話的總次數(shù)中,與用戶j打電話的次數(shù)所占的比例。因此,且均為非負數(shù)。
本文主要考慮人們在維持朋友關系中的成本投入和資源分配模式,前者通過用戶的朋友數(shù)ki以及其通話的總次數(shù)Mi來刻畫,后者在的基礎上提出一個新的衡量指標Qi??梢宰C明,當用戶與每名聯(lián)系人通話次數(shù)一樣,即資源精力分配均勻時,達到最大值,此時與相等,而分配越不均勻的時候,越小。但是對比不同的用戶的資源分配行為時,僅僅比較是不夠的,其原因就在于:對于不同的用戶,聯(lián)系人數(shù)(即ki)在大多數(shù)情況下是不相等的。因此,本文提出了一個定義資源分配均勻性的指標:
不難看出,Q的大小可以體現(xiàn)出用戶的資源分配傾向性模式。Qi越小,表示該名用戶在維系朋友關系時,資源分配越平均;反之,Qi越大,表示用戶在聯(lián)系朋友時傾向性越明顯。
圖4 隨年齡的變化
圖4反映了隨年齡的變化情況,并對當前年齡下的男女對應的
做了兩個分布是否具有統(tǒng)計顯著性的t檢驗,拒絕概率P=0.05??梢园l(fā)現(xiàn):無論男性、女性,其平均的資源分配傾向性在20~28歲左右期間逐漸增強,之后減弱,但是在50歲左右時有一個小強度的增強,之后又緩慢減弱。20~28歲期間隨著年齡的增加、個性發(fā)展的增強、以及尋找異性伴侶的需要,人的資源分配逐漸聚集到少數(shù)人身上,以求達到個人利益的最大化,隨著這種伴侶關系的穩(wěn)定,工作關系的拓寬需要,分配的傾向性逐漸減弱。
在人們50歲左右的時候,子女一般處于20~25歲左右,這正是他們初遇人生各種挑戰(zhàn)機會的黃金時期。于是在這段時期,父母溝通傾向性又明顯地偏向于孩子,和孩子之間的交流會格外頻繁,顯得分配不均勻[26]。從圖4還可以看出,在50歲左右,女性對資源的分配比男性更不均勻,這個是由于男女在祖父母關系中具有資源分配的差異性。
本文通過分析20余萬手機用戶的通信數(shù)據(jù),從通話行為的角度分析人類在社交關系中的投資行為,發(fā)現(xiàn)人們在社交網(wǎng)絡的資源投入方面具有這樣的特點:平均層面上,男性比女性的資源投入更多,而且都是在35歲左右時投入達到最高峰。進一步的研究發(fā)現(xiàn),男性的成本投入存在明顯的異質(zhì)性(45歲之前),相當比例的男性或者極少投入,或者投入極大,而女性則穩(wěn)定得多;而在資源分配方面,女性的資源分配傾向性更加明顯,而且,隨著年齡的增長,無論男性、女性,在25~28歲期間,傾向性會達到巔峰,之后逐漸減弱,但在50歲左右時,會有小階段的增強。需要指出的是,本文所采用的通話數(shù)據(jù)只是人們社交生活中的一部分,只能在一定層面上刻畫人們的情感交互行為,如能結合微博,微信等其他社交數(shù)據(jù),會更好地體現(xiàn)人與人之間的情感交互規(guī)律。本文的貢獻在于提出了從資源投入和資源分配兩個角度分析人們在社交網(wǎng)絡中的資源整合模式。此外,還提出了一個基于熵的資源分配性指標Q,以便于定量分析。本文的研究有助于理解人作為一種群居性動物的內(nèi)在復雜性。
[1]BARABASI A L.The origin of bursts and heavy tails in human dynamics[J].Nature, 2005, 435(7039): 207-211.
[2]OLIVEIRA J G, BARABási A L.Human dynamics: Darwin and Einstein correspondence patterns[J].Nature, 2005,437(7063): 1251.
[3]WEI H, XIAO P H, TAO Z, et al.Heavy-tailed statistics in short-message communication[J].Chinese Physics Letters,2009, 26(2): 028902.
[4]ZHAO Z D, XIA H, SHANG M S, et al.Empirical analysis on the human dynamics of a large-scale short message communication system[J].Chinese Physics Letter, 2011,28(6): 68901.
[5]JO H H, KARSAI M, KERTéSZ J, et al.Circadian pattern and burstiness in mobile phone communication[J].New Journal of Physics, 2012, 14(1): 013055.
[6]ZHOU T, KIET H A T, KIM B J, et al.Role of activity in human dynamics[J].Euro Physics Letters, 2008, 82(2):28002.
[7]KARSAI M, KASKI K, KERTéSZ J.Correlated dynamics in egocentric communication networks[J].Plos One, 2012,7(7): e40612.
[8]BARABáSI A L, ALBERT R.Emergence of scaling in random networks[J].Science, 1999, 286(5439): 509-512.
[9]BARABASI A, FRANGOS J.Linked: the new science of networks science of networks[J].Physics Today, 2002, 6(5):243-270.
[10]CAMERON M.Maintained relationships on facebook[EB/OL].[2009-03-09].http://overstated.net/2009/03/09/aintained-relationships-on-facebook.
[11]GRANOVETTER M S.The strength of weak ties[J].Social Networks, 1973, 78(6): 1360-1380.
[12]BURT R S.Structural holes: the social structure of competition[M].Cambridge, MA: Harvard University Press, 2010.
[13]SARAM?KI J, LEICHT E A, LóPEZ E, et al.Persistence of social signatures in human communication[J].Proceedings of the National Academy of Sciences, 2014,111(3): 942-947.
[14]JIANG Z Q, XIE W J, LI M X, et al.Calling patterns in human communication dynamics[J].Proceedings of the National Academy of Sciences, 2013, 110(5): 1600-1605.
[15]SZELL M, THURNER S.How women organize social networks different from men[J].Scientific Reports, 2013,3(7435): 1214.
[16]Wikipedia.Dunbar’s number[EB/OL].[2017-12-06].http://en.wikipedia.org/wiki/Dunbar%27s_number.
[17]SCOTT J.Social network analysis[M].LA: Sage Publications, 2012.
[18]LAZER D, PENTLAND A S, ADAMIC L, et al.Life in the network: the coming age of computational social science[J].Science, 2009, 323(5915): 721.
[19]RIEMER S.Book review: Human behavior and the principle of least effort.An introduction to human ecology George K Zipf[J].American Journal of Sociology, 1949,110(110): 306.
[20]ZHANG Z K, Lü L, LIU J G, et al.Empirical analysis on a keyword-based semantic system[J].The European Physical Journal B, 2008, 66(4): 557-561.
[21]Lü L, ZHANG Z K, ZHOU T.Zipf's law leads to Heaps'law: Analyzing their relation in finite-size systems[J].Plos One, 2010, 5(12): e14139.
[22]Lü L, ZHANG Z K, ZHOU T.Deviation of Zipf's and heaps' laws in human languages with limited dictionary sizes[J].Scientific Reports, 2013, 3: 1082.
[23]Wikipedia.Entropy(information theory)[EB/OL].[2016-12-10].http://en.wikipedia.org/wiki/Entropy_ (information_theory).
[24]BORGE-HOLTHOEFER J, PERRA N, GON?ALVES B,et al.The dynamics of information-driven coordination phenomena: a transfer entropy analysis[J].Science advances, 2016, 2(4): e1501158.
[25]TAKAGUCHI T, NAKAMURA M, SATO N, et al.Predictability of conversation partners[J].Physical Review X, 2011, 1(1): 011008.
[26]PALCHYKOV V, KASKI K, KERTéSZ J, et al.Sex differences in intimate relationships[J].Scientific Reports,2012, 2(7394): 370.