宋恩梅 朱夢嫻
(1.武漢大學(xué)信息管理學(xué)院,武漢,430072; 2.武漢科技大學(xué)圖書館,武漢,430081)
互聯(lián)網(wǎng)上以博客、論壇、社交網(wǎng)站為代表的Web2.0變革發(fā)展十分迅速,用戶注冊數(shù)和用戶創(chuàng)造內(nèi)容的規(guī)模急劇膨脹。隨著互聯(lián)網(wǎng)向社會化的升級,網(wǎng)絡(luò)的社交功能開始受網(wǎng)民所看重,一種全新的網(wǎng)絡(luò)媒體發(fā)展趨勢——社會化媒體(Social Media)逐漸成為人們獲取與創(chuàng)造信息的主要載體。社會化媒體是基于互聯(lián)網(wǎng)技術(shù)產(chǎn)生的一種區(qū)別于傳統(tǒng)媒體的新型在線媒體[1],如今互聯(lián)網(wǎng)上的具體實例有Email、論壇、即時通訊、博客、播客、百科、問答、SNS、微博、團(tuán)購等[2]。
社會化媒體不斷創(chuàng)造新的功能以滿足用戶的需求,隨著其在人們生活中的作用日益增強(qiáng),媒體上的信息呈現(xiàn)出許多不同于傳統(tǒng)媒體的分布規(guī)律。本文以豆瓣電影和新浪微博兩個社會化媒體平臺為例,對兩個平臺上的電影評論信息分布規(guī)律進(jìn)行深入研究,希望能為研究類似平臺的信息分布規(guī)律提供參考。
社會化媒體的概念產(chǎn)生于信息科學(xué)領(lǐng)域,研究者使用該概念對由社會性網(wǎng)絡(luò)服務(wù)(SNS)產(chǎn)生的新型網(wǎng)絡(luò)空間進(jìn)行概括性表述。社會化媒體概念的提出是作為一種在Web2.0環(huán)境中以超文本和超鏈接為基礎(chǔ)進(jìn)行傳播的工具,以一種積少成多、用戶創(chuàng)造內(nèi)容的方式賦予了公眾“全民記者”的權(quán)利,比其他媒體初現(xiàn)時產(chǎn)生的社會影響更為顯著,將大眾帶入了雙向交流與對話階段,給傳統(tǒng)的單向傳播的媒體時代帶來了幾乎顛覆性的變革。
網(wǎng)絡(luò)信息資源分布具有與傳統(tǒng)信息資源類似卻有些差異的分布規(guī)律。馬費(fèi)成[3]等的研究表明網(wǎng)絡(luò)環(huán)境下信息分布不夠穩(wěn)定、更為分散、信息組織能力變化很快,其分布規(guī)律滿足:集中與分散規(guī)律,隨時間的分布上表現(xiàn)為增長和老化速度加快,在著者與發(fā)布信息的關(guān)系上發(fā)現(xiàn)著者的集中程度較傳統(tǒng)文獻(xiàn)低、信息分布更加廣泛。網(wǎng)絡(luò)信息分布廣、不均衡的分布特點(diǎn)使得在信息傳播過程中交流方式更加多元化,且馬太效應(yīng)更加明顯[4]。
國外學(xué)者在研究社會化媒體時,對其分布規(guī)律進(jìn)行了深入的分析。Maya[5]發(fā)現(xiàn)信息在三個時期(前網(wǎng)絡(luò)時代、Web1.0和 Web2.0)中的分布均可以用指數(shù)模型表示,“網(wǎng)絡(luò)口碑”在信息分布和傳播中起主導(dǎo)力量;Daniel[6]等人發(fā)現(xiàn)IBM論壇中針對圖書的博客數(shù)量呈現(xiàn)一定的冪律分布;Mel[7]在對Facebook用戶的一項調(diào)查中發(fā)現(xiàn),用戶的年齡和思想分布影響了信息分布方式;Sitaram[8]等人揭示了Twitter中電影信息的靜態(tài)和動態(tài)分布規(guī)律:在靜態(tài)層面上,Twitter用戶與Tweets數(shù)量之間呈現(xiàn)冪律分布,在隨時間動態(tài)分布上,某影片上映前一周關(guān)于其的Tweets數(shù)量最多,轉(zhuǎn)發(fā)數(shù)量及每日每位用戶發(fā)布的Tweets呈平穩(wěn)分布。
國外學(xué)者對社會化媒體信息分布的研究主要集中在對Twitter、Facebook以及博客的研究上,國內(nèi)學(xué)者卻對微博有著特別的感情。在CNKI[9]數(shù)據(jù)庫中,發(fā)現(xiàn)含有主題詞“社會化媒體”的文獻(xiàn)共有553篇,其中228篇文獻(xiàn)研究微博,比率高達(dá)41.2%。王曉光[10]指出微博分布傳播規(guī)律分布符合“二八法則”;田占偉等[11]的研究發(fā)現(xiàn),信息在微博網(wǎng)絡(luò)中大體呈現(xiàn)負(fù)相關(guān)性,即度小的節(jié)點(diǎn)傾向于與度大的節(jié)點(diǎn)相連;姜楊[12]通過研究證明新浪微博上的信息分布具有一些社會化網(wǎng)絡(luò)特性,如度具有冪律分布的特征,用戶間關(guān)系存在“150法則”等;袁紅等[13]研究表明表征博文特征的數(shù)據(jù)和表征用戶特征的數(shù)據(jù)之間具有很強(qiáng)的相關(guān)性,例如轉(zhuǎn)發(fā)數(shù)與評論數(shù)、關(guān)注數(shù)與粉絲數(shù)、關(guān)注數(shù)與博文數(shù)、粉絲數(shù)與博文數(shù)等。
綜合目前國內(nèi)外成果來看,關(guān)于社會化媒體信息的研究日益豐富,但大多集中于單一的社會化媒體平臺,對于用戶自身情感表達(dá)的分布也涉及不多。本文立足于電影這一社會化媒體上的熱門領(lǐng)域,選擇豆瓣電影和新浪微博這兩個性質(zhì)不同卻又在各自領(lǐng)域具有代表性的社會化媒體平臺進(jìn)行比較分析,力圖在平臺的多樣性和情感分布等方面的研究上有所探求。
近年來,“文化組學(xué)”(culturomics)的概念開始興起,它是一個由“文化(culture)”和“基因組學(xué)(genomics)”合成的合并詞,是指利用數(shù)學(xué)方法分析來自網(wǎng)絡(luò)的海量數(shù)據(jù),從而分析人類文化的發(fā)展和演變,在語言進(jìn)化、技術(shù)進(jìn)步、人的“成名軌跡”等領(lǐng)域都有所應(yīng)用[14],目前研究者們正借助于“Google Books”項目中龐大的圖書數(shù)據(jù)庫來進(jìn)行海量文本數(shù)據(jù)的處理和挖掘[15]。本文中,筆者利用相關(guān)工具對社會化媒體上的電影評論數(shù)據(jù)進(jìn)行定量處理,在此基礎(chǔ)上研究人們在社會化媒體上的影評行為和心理,從而將此作為對“文化組學(xué)”這一新興研究方法的一種探索性實踐。
(1)平臺選擇
本文選取的社會化媒體研究平臺為“豆瓣電影”[16]和“新浪微博”[17]。
國內(nèi)最大的兩個電影社區(qū)為“豆瓣電影”和“時光網(wǎng)”,兩者的機(jī)制非常相似,對24部影片評分進(jìn)行分析發(fā)現(xiàn)兩平臺評分相似性高達(dá)0.940,但“時光網(wǎng)”的評分人數(shù)較“豆瓣電影”少很多(見圖1),說明“豆瓣電影”社區(qū)更成熟、用戶活躍度更高,故在此兩個類似平臺中選擇了“豆瓣電影”作為研究平臺之一。“豆瓣電影”是中國最大與最權(quán)威的電影分享與評論社區(qū),收錄了百萬條影片和電影人的資料,有2600多家電影院加盟,更匯聚了數(shù)千萬熱愛電影的人[18]。其中每部電影都有一個主頁面,包含了該電影的所有自身信息和用戶的標(biāo)識信息等,其電影資源集中,匯聚各種電影信息和網(wǎng)絡(luò)口碑,易形成意見領(lǐng)袖,是電影行業(yè)的風(fēng)向標(biāo)。
“新浪微博”是國內(nèi)擁有用戶數(shù)最多的社會化媒體?!吨袊旅襟w發(fā)展報告(2013卷)》[19]指出中國微博成為活躍度極高的信息傳播空間,網(wǎng)民中微博使用率為45.5%[20],而“新浪微博”是中國最活躍的微博網(wǎng)站,93.18%的微博用戶使用微博來放松心情和打發(fā)時間[21]。與Twitter和Facebook相比,新浪微博用戶更喜歡看電影,在消費(fèi)的每個環(huán)節(jié),用戶都習(xí)慣通過新浪微博來輔助決策[22]?!靶吕宋⒉笔且粋€相對“豆瓣電影”信息更分散更全面的電影信息研究平臺,故本文選擇其作為研究平臺之一。
圖124 部影片在“豆瓣電影”和“時光網(wǎng)”的評分及評分人數(shù)比較
(2)影片選擇
本文共選取2012年7月至2012年12月上映的24部影片,每月選取4部,體現(xiàn)以下多樣性的原則:影片上映時間覆蓋節(jié)假日、周末和平日,有原集和續(xù)集,有國產(chǎn)影片和引進(jìn)影片,且影片涵蓋所有類型。除此之外,電影片名的非歧義性也是一個重要因素,因為在“新浪微博”上采集數(shù)據(jù)時,若是電影片名容易和其他詞義混淆(例如影片名:“搜索”),檢索時就會出現(xiàn)大量和該影片無關(guān)的內(nèi)容,故在選擇影片時需保證片名的唯一性,可減少后期數(shù)據(jù)處理的復(fù)雜程度,提高分析的準(zhǔn)確性。按照以上標(biāo)準(zhǔn),選取的影片信息見表1。
(3)數(shù)據(jù)采集
“豆瓣電影”中影片的用戶數(shù)據(jù)分為影評和短評兩類,影評較長,通常是用戶抒發(fā)情感及改寫劇本之類,而短評和“新浪微博”的博文類似,都不能超過140字,非常簡明,具有較強(qiáng)的可分析性。兩個數(shù)據(jù)集的這一相似特性使得可以將兩者進(jìn)行結(jié)合研究,這也是最終選擇“豆瓣電影”中的短評以及“新浪微博”博文這兩種電影評論信息作為主要研究對象的原因。
結(jié)合已有的研究[23-25]及實際電影上映周期,本文數(shù)據(jù)采集的時間段設(shè)置為每部電影上映前2周至上映后4周,總共六周(42天)。運(yùn)用自編程序進(jìn)行相關(guān)數(shù)據(jù)抓取,具體數(shù)據(jù)項見表2。
本文采集的數(shù)據(jù)分為社會化媒體數(shù)值數(shù)據(jù)和情感文本數(shù)據(jù)兩類。社會化媒體數(shù)據(jù)指“豆瓣電影”中每日的短評數(shù)、評分按時間的分布情況等以及“新浪微博”中每日博文/轉(zhuǎn)發(fā)/評論數(shù)等;情感文本數(shù)據(jù)指兩個平臺中用戶短評及微博文這類評論信息對電影的情感量化。處理方法如下:
表1 24部影片信息列表
表2 “豆瓣電影”和“新浪微博”平臺影片數(shù)據(jù)項說明
(1)社會化媒體數(shù)值數(shù)據(jù)的處理
根據(jù)采集的數(shù)據(jù)項,可以統(tǒng)計處理得到每部電影的每日短評/博文/轉(zhuǎn)發(fā)/評論數(shù)、“豆瓣電影”短評總數(shù)量和“新浪微博”博文總數(shù)量、豆瓣電影中的評分按時間的分布情況等數(shù)據(jù)。其中每日短評/博文/轉(zhuǎn)發(fā)/評論數(shù)以及評分分布等數(shù)據(jù)過大,本文不詳細(xì)列出。
(2)情感文本數(shù)據(jù)的處理
文本情感分析又稱意見挖掘,是指對帶有情感色彩的主觀性文本進(jìn)行分析、處理、歸納和推理的過程[26],它屬于數(shù)據(jù)挖掘的一個新興領(lǐng)域,它的一個重要應(yīng)用領(lǐng)域是對互聯(lián)網(wǎng)上出現(xiàn)的大量產(chǎn)品評論進(jìn)行挖掘與分析,主要目的是能夠比較精確地發(fā)現(xiàn)產(chǎn)品的優(yōu)缺點(diǎn),進(jìn)行市場分析與決策[27]。對于輿論信息的情感分析也較為普遍,通過對新聞評論的情感分析可以了解民眾對新聞人物和新聞事件的總體評價,掌握當(dāng)前的輿情信息,特別是熱點(diǎn)事件的輿情信息。
假設(shè)在電影口碑傳播中存在“從眾心理”和“專家效應(yīng)”,即人們會根據(jù)之前看過電影的朋友對其的評價,來決定是否去觀看此部電影,其他用戶的影響和判斷也會影響自身對影片的評價?;谝陨霞僭O(shè),本文采用武漢大學(xué)互聯(lián)網(wǎng)科學(xué)研究中心ROST虛擬團(tuán)隊開發(fā)的ROST Emotion Analysis Tool情感傾向分析工具(工具介紹和下載來源于武大沈陽的博客文章,見參考文獻(xiàn)[28]),用來進(jìn)行“豆瓣電影”短評和“新浪微博”博文數(shù)據(jù)的文本情感分析和情感比例的計算,該軟件基于一定的詞表來進(jìn)行情感判斷。筆者還邀請了三個不同學(xué)科領(lǐng)域的學(xué)者進(jìn)行自定義情感詞表及情感值的構(gòu)建,進(jìn)行綜合后得到評價電影的自定義詞表和詞語的情感分?jǐn)?shù)。
運(yùn)行ROST Emotion Analysis Tool對每條評價進(jìn)行情感值計算后得到每條評價分值,將其分為積極情緒(5分以上)、消極情緒(-5分以下)或者中性情緒(-5分至5分間)。參照相關(guān)學(xué)者的研究[8],將情感主觀性Z定義為積極情緒和消極情緒之和與中性情緒的比值(公式1),將情感比例Q定義為積極情緒與消極情緒的比值(公式2)。
Z=(積極情緒+消極情緒)/中性情緒(1)
Q=(積極情緒數(shù)/消極情緒數(shù)) (2)運(yùn)用ROST Emotion Analysis Tool軟件和以上計算公式,得到24部影片在“豆瓣電影”和“新浪微博”兩個平臺上上映前2周和上映后4周每周這5個時間段的情感主觀性和情感比例。
在“豆瓣電影”中,除去無法識別或已注銷的用戶的短評,24部影片共有506,113條有效短評,平均每個用戶發(fā)表2.28條;在“新浪微博”中,除去不相關(guān)微博以及已注銷或用戶名無法識別的用戶微博后,得到24部影片的有效微博總數(shù)共有844,397條,平均每個用戶發(fā)表1.22條(見表3),計算得到平均每條微博被轉(zhuǎn)發(fā)2.47次,被評論4.61次。
表3 “豆瓣電影”和“新浪微博”平臺短評/博文基本數(shù)據(jù)
分別對兩平臺中的用戶發(fā)表短評/微博數(shù)量(y)及對應(yīng)的用戶數(shù)量(x)進(jìn)行統(tǒng)計,而后分別對其做回歸分析并取對數(shù),得到兩平臺的回歸方程分別為y=126143x-2.427(R2=0.9434)和y=25361x-2.148(R2=0.8831),方程擬合效果均較好(見圖2),說明用戶與其發(fā)短評/微博的數(shù)量之間滿足冪律分布,即少量的用戶發(fā)布了大量的短評/微博文,大部分用戶僅發(fā)布了1、2條,這與大多數(shù)研究揭示的社會化媒體的信息分布符合冪律分布這一顯著特征相一致[3,4,6,8,10,13]。
圖2 豆瓣電影及新浪微博平臺用戶與發(fā)文數(shù)量間的關(guān)系
值得一提的是,將“新浪微博”的所有博文和用戶進(jìn)行統(tǒng)計后發(fā)現(xiàn),發(fā)文較多的大多是電影院、電影公司等官方微博賬號,表4列出六周內(nèi)發(fā)微博總數(shù)排名前20的微博賬號。這些賬號在電影上映前會對即將上映的影片進(jìn)行預(yù)告宣傳,以此來吸引大家的關(guān)注和傳播,這是電影院和電影發(fā)行商在微博這類社會化媒體平臺上進(jìn)行微博營銷的一種很好的方式。而這種營銷手段在豆瓣上卻不常見,發(fā)文數(shù)較多的豆瓣用戶也并非官方賬號,但在豆瓣上“水軍”這一群體的存在隱形地為電影在上映前期和初期做了一定的營銷宣傳。說明在營銷的方式上,面對不同的平臺,以發(fā)文用戶身份出現(xiàn)的營銷者有著不同的策略選擇。
表4 發(fā)微博數(shù)排名前20的微博賬號
(1)豆瓣短評分布規(guī)律
24部影片共有506,462條豆瓣短評,每部影片每日的短評數(shù)分布見圖3(圖3中系列1~24分別代表編號1~24的影片,下文同)。在影片上映之前極少有人會對該影片作評論,除了個別國外引進(jìn)且在國外上映日期早于國內(nèi)上映日期的影片,會有少數(shù)觀看過盜版或者在境外看過影片的用戶寫短評,基本上所有的影片都從上映之日起短評數(shù)迅速上升。分析發(fā)現(xiàn),上映后影片短評隨時間的分布規(guī)律可分為以下三種:多高峰型、多低峰型和單低峰型。
①多高峰型,指短評均勻連續(xù)兩次或以上出現(xiàn)高峰,且最高峰短評數(shù)不低于1500,峰值隨時間推移不斷下降,代表影片序號有4、5、6、8、9、10、12、16、19、22。多高峰型的影片往往在某個周末出現(xiàn)小高峰,受到持續(xù)關(guān)注。多高峰型影片示例見圖4。
圖3 影片在“豆瓣電影”中的每日短評數(shù)分布
②多低峰型,指短評連續(xù)兩次或以上出現(xiàn)高峰,且最高峰短評數(shù)不高于1500,峰值隨時間推移不斷下降,代表影片序號有2、11、13、14、15、17、20、23。多低峰型影片一般在周末出現(xiàn)小高峰的情況較多,但峰值的出現(xiàn)并未呈現(xiàn)太強(qiáng)的規(guī)律性,往往有小幅度多次波動。多低峰型影片示例見圖5。
③單低峰型,指短評僅出現(xiàn)一次高峰(在此處忽略在50范圍以內(nèi)波動出現(xiàn)的峰值),且這一次高峰的短評數(shù)不高于1500,代表影片序號有1、3、7、18、21、24。單低峰型影片往往屬于小眾影片,關(guān)注人群較少,且僅僅在剛上映時受到部分關(guān)注,關(guān)注程度迅速下滑,缺乏持續(xù)性。單低峰型影片示例見圖6。
(2)豆瓣評分分布規(guī)律
“豆瓣電影”的評分機(jī)制是五分制,本研究中也采取五分制來計算用戶對電影的評分,即一星(很差)為1分,五星(力薦)為5分。
在電影未上映之前,很多用戶都未對影片進(jìn)行打分,評分出現(xiàn)了很多空值,從影片上映之日起,每部影片的評分顯現(xiàn)出一定的規(guī)律性。將24部影片上映后連續(xù)4周(28天)的日均評分進(jìn)行統(tǒng)計,發(fā)現(xiàn)上映后大部分電影評分基本上保持在穩(wěn)定范圍內(nèi),有的呈現(xiàn)小幅度(1分以內(nèi))波動,例如“銅雀臺(系列11)”,有的幾乎保持不變,例如“麥兜當(dāng)當(dāng)伴我心(系列2)”;“人在囧途之泰囧(系列22)”等大片雖在小幅度范圍內(nèi)呈現(xiàn)平穩(wěn)下降的趨勢,但卻都一直維持著4分左右較高的分?jǐn)?shù)。這或許與大片本身的性質(zhì)(造勢、期望過高、容易引起爭議等)有關(guān),但不容忽視的是,這些大片依然是全國電影市場上無法取代的光芒。圖7為23部影片的評分隨時間分布情況(由于“萬箭穿心(系列18)”這部影片的評分?jǐn)?shù)較少,不具研究價值,故此處將其省略)。
圖4 多高峰型影片示例
圖5 多低峰型影片示例
圖6 單低峰型影片示例
圖7 “豆瓣電影”中影片評分平均分隨時間的分布規(guī)律
分別統(tǒng)計上文中按短評走勢分成的三類影片的短評總數(shù)平均值和日評分平均值,得到表5。三種類別的影片的短評數(shù)和評分均有很大差異,多高峰型的影片受到持續(xù)大量關(guān)注,短評數(shù)多,評分也相對較高;多低峰型影片持續(xù)受到少量關(guān)注,影片本身有一定價值,但一直無法突破更高點(diǎn),短評量相對較小,評分中庸,剛好及格;單低峰型影片關(guān)注度較小,短評量和評分都最低,推測是由于其影片本身價值受限所致。
(1)微博博文分布規(guī)律
24部影片共有848,258條相關(guān)微博,計算每部影片每日的微博數(shù)得到圖8??梢钥吹剑⒉┎┪碾S時間的走勢情況與“豆瓣電影”短評走勢有不同之處,在上映之前的一周時間,在“新浪微博”上的相關(guān)博文開始出現(xiàn)且有不斷增長的趨勢,但數(shù)量較少,分析發(fā)現(xiàn)這部分的微博數(shù)據(jù)大多是電影公司、影院或者該影片的官方微博所發(fā),用微博營銷的方式來吸引大眾的目光。和豆瓣電影短評數(shù)據(jù)一樣,在電影上映之后,微博數(shù)量呈現(xiàn)大幅增長,大多數(shù)影片在上映第1周內(nèi)微博數(shù)量達(dá)到峰值。
表5 三類別影片的短評數(shù)及評分平均值
圖8 影片在“新浪微博”中的每日微博文數(shù)分布
由于“新浪微博”和“豆瓣電影”兩個社會化媒體在用戶使用方式、使用時間、使用頻率等因素上都具有一定的差異性,“新浪微博”上博文隨時間的走勢情況與“豆瓣電影”也存在些許差異,具體表現(xiàn)為:“新浪微博”的博文峰值出現(xiàn)頻率更多且更無規(guī)律性,上下波動幅度更明顯,數(shù)量上比“豆瓣電影”更多。除了“太極2英雄崛起(系列15)”和“少年派的奇幻漂流(系列19)”這兩部影片在上映第2周時達(dá)到最高峰值外,其余影片均在上映第1周內(nèi)出現(xiàn)一個或以上峰值,博文出現(xiàn)的峰值并不與周末等時間因素相關(guān),更為隨機(jī)和自由,這也和“新浪微博”本身利用人們碎片化時間以及移動端的便捷性有關(guān)。
明顯的是,“新浪微博”的博文在時間走勢上,大體呈現(xiàn)信息生命周期曲線,即快速達(dá)到最高點(diǎn),后續(xù)緩慢下降。某些大片(例如“人再囧途之泰囧”(系列22))即使在第4周結(jié)束時的博文數(shù)也超過了2,000,說明后續(xù)還有較長的長尾,其持續(xù)性也是這些影片具有優(yōu)秀特性且受高度關(guān)注的表現(xiàn)。
(2)“新浪微博”轉(zhuǎn)發(fā)數(shù)/評論數(shù)分布規(guī)律
“新浪微博”的博文轉(zhuǎn)發(fā)數(shù)和評論數(shù)也是本文的研究對象。從圖9(a)中可見,大部分影片的博文轉(zhuǎn)發(fā)數(shù)在上映之日前后達(dá)到峰值,前后均較低,只有少部分大片在上映后受到關(guān)注較多,轉(zhuǎn)發(fā)數(shù)也較多,另外有少部分影片上映后受關(guān)注較小,反而在上映前轉(zhuǎn)發(fā)數(shù)達(dá)到峰值。
“新浪微博”評論數(shù)隨時間的走勢情況與博文數(shù)目更為相似,均呈現(xiàn)上映后迅速增長,且波動頻率較大,緩慢下降等趨勢,見圖9(b)。
圖9 影片在“新浪微博”中的博文轉(zhuǎn)發(fā)數(shù)及評論數(shù)隨時間的分布
運(yùn)用SPSS分析工具,對博文數(shù)、轉(zhuǎn)發(fā)數(shù)和評論數(shù)隨時間的分布作相關(guān)性分析,發(fā)現(xiàn)時間維度上動態(tài)的博文數(shù)與評論數(shù)之間的相關(guān)系數(shù)為0.891,動態(tài)的博文數(shù)與轉(zhuǎn)發(fā)數(shù)之間的相關(guān)系數(shù)為0.780,相關(guān)性分析的結(jié)果與圖中的現(xiàn)象一致,即博文數(shù)與評論數(shù)的走勢更為一致(見圖8和圖9(b)),說明在微博中評論的分布更為平穩(wěn),與博文數(shù)呈較強(qiáng)的相關(guān)性,而轉(zhuǎn)發(fā)數(shù)相對來說較為波動,信息的擴(kuò)散較為不穩(wěn)定,這也與微博中存在“僵尸粉”經(jīng)常轉(zhuǎn)發(fā)不認(rèn)識的人的微博等有關(guān)。
根據(jù)前文2.2中的公式1,計算出“豆瓣電影”和“新浪微博”兩個平臺上24部電影的情感主觀性數(shù)值,圖10和圖11分別為兩個平臺上24部電影的情感主觀性隨時間分布柱狀圖(每部電影的時間段分為5個:上映前2周以及上映第1-4周)。
24部電影在兩個平臺上主觀性得分都較為平穩(wěn),除少數(shù)影片外,大部分影片的用戶主觀性保持平穩(wěn),且每部影片上映前后的主觀性差別不大。對此現(xiàn)象作如下初步分析:
第一,在電影上映之前,用戶通過影片預(yù)告、宣傳等途徑了解影片信息,對影片已有一定的預(yù)期,主觀性意愿已經(jīng)達(dá)到一定的程度;第二,觀眾在觀影后,對影片的情緒表達(dá)并未特別鮮明,特別是中國人的表達(dá)習(xí)慣相對于國外來說較為中庸,在影片上映后主觀性并未像國外研究那樣迅速增長[8],而是一直保持著平穩(wěn)態(tài)勢。
根據(jù)前文2.2中的公式2,計算出“豆瓣電影”和“新浪微博”兩個平臺上24部電影的情感比例數(shù)值(見圖12和圖13)。
可以看出,兩個平臺上24部電影的情感比例差異都較大,且電影在上映前后的情感比例也有所變化。分析幾部前后變化較大的影片,可以發(fā)現(xiàn)這些影片各自有其不同的情感走勢及原因。
首先是上映后情感比例顯著下降的影片為例,以“大武當(dāng)之天地密碼(系列1)”這部影片為例,上映前的情感值大于1,說明其在上映前造勢比較大,人們期望較高,這部影片的演員為近年比較火的明星,所以引起人們的關(guān)注度也高??墒巧嫌持罂戳擞捌挠脩舭l(fā)現(xiàn)影片本身“沒有邏輯”、“沒有內(nèi)涵”等問題,導(dǎo)致對其失去信心,情感比例迅速降低,導(dǎo)致這部影片的情感比例逐漸下降。
圖10 “豆瓣電影”中用戶情感主觀性隨時間分布圖
圖11 “新浪微博”中用戶情感主觀性隨時間分布圖
圖12 豆瓣電影中用戶情感比例隨時間分布圖
再來分析上映后情感比例明顯上升的“冰川時代4(系列4)”。由于這部影片是續(xù)集的原因,上映前的情感比值已經(jīng)處在較高點(diǎn)(3分左右),而上映后影片的表現(xiàn)明顯要高于人們的預(yù)期,人們發(fā)現(xiàn)這部影片具有“歡樂”、“3D效果不錯”等吸引人的特性,情感比例高于預(yù)期。
圖13 “新浪微博”中用戶情感比例隨時間分布圖
可以發(fā)現(xiàn),無論是上升還是下降,情感比例的變化主要集中在影片上映后的第1周,后續(xù)3周的變化則相對平穩(wěn),說明用戶真實觀影行為之后的評價對于影片上映前的過度造勢仍然具有修正的作用。與情感主觀性相比,情感比例這一指標(biāo)更為鮮明地表達(dá)了用戶對影片的好惡態(tài)度,這種口碑效應(yīng)是否會影響到電影的票房收入,我們將在后續(xù)研究中進(jìn)行專門討論。
本文對“豆瓣電影”和“新浪微博”兩個社會化媒體平臺上的電影評論信息分布規(guī)律進(jìn)行了研究,主要結(jié)論如下:
(1)在“豆瓣電影”和“新浪微博”兩個平臺上,用戶和評論發(fā)文數(shù)均呈現(xiàn)較明顯的冪率分布特征;而兩平臺上發(fā)文較多的用戶則是不同的群體,“豆瓣電影”發(fā)文較多的主要集中在看電影資深人士以及“水軍”這樣的用戶群體中,“新浪微博”則主要集中在電影院和制片商等官方賬號,由此反映出影片營銷方在兩平臺上營銷策略選擇的差異。
(2)從信息隨時間的動態(tài)分布中發(fā)現(xiàn),兩個平臺上的相關(guān)數(shù)據(jù)都在電影上映后呈現(xiàn)出迅速增加的態(tài)勢;“豆瓣電影”的短評和評分分布較為平穩(wěn),而“新浪微博”中的博文、轉(zhuǎn)發(fā)和評論的波動更為強(qiáng)烈和無序,這與該平臺的用戶使用時間碎片化、移動端的便捷性、信息傳播更加分散等有關(guān);“新浪微博”動態(tài)的博文數(shù)-評論數(shù)、博文數(shù)-轉(zhuǎn)發(fā)數(shù)之間都具有較強(qiáng)的相關(guān)性,而前者的相關(guān)度更高。
(3)在情感分布方面,兩個平臺上的用戶情感主觀性較為平穩(wěn),電影上映前后用戶的情感主觀性變動不大,筆者分析,這是由于在電影上映前人們就通過宣傳片等方式對影片有一定的預(yù)期,且上映后人們的情感表達(dá)也較為中庸;而在情感比例分布上,每部電影的差別比較明顯,且在上映前后也有所變化,這種變化主要集中在上映后的第1周,說明用戶真實觀影行為之后的評價對于影片上映前的過度造勢仍然具有修正作用。
在本文的研究中,由于數(shù)據(jù)獲取難度等因素,只選取了24部影片作為研究對象,存在數(shù)據(jù)樣本受限、數(shù)據(jù)抓取不全面以及情感分析計算不精確等問題。在后續(xù)研究中,將選取更多的電影和更多的平臺進(jìn)行研究,在情感分析的精確度方面也力求做進(jìn)一步改進(jìn)。
正如喜鵲好結(jié)群活動,且鳴聲響亮,人們利用社會化媒體發(fā)表言說,由無數(shù)個體匯聚而成的“群鳴”凝結(jié)成為一股強(qiáng)大的力量。與傳統(tǒng)媒體相比,社會化媒體上的信息分布與傳播更具有群體效應(yīng)和影響力。在本文研究的基礎(chǔ)上,我們還將結(jié)合電影票房數(shù)據(jù),研究社會化媒體上電影評論信息對電影票房的指示性作用,進(jìn)而探討挖掘其所衍生出的商業(yè)價值。
[1]劉蔚,胡昌龍.關(guān)于中國當(dāng)前社會化媒體的應(yīng)用研究[J].前沿,2012(8):98-99
[2]游恒振.社會化媒體的演進(jìn)研究[D].北京:北京郵電大學(xué),2012:8
[3]馬費(fèi)成,裴雷.網(wǎng)絡(luò)信息資源的分布規(guī)律[J].情報科學(xué),2003(11):1121-1124,1169
[4]張磊磊.網(wǎng)絡(luò)學(xué)術(shù)信息交流模式與信息分布研究[D].南京:南京航空航天大學(xué),2010:67-69
[5]Oluseyi,M.V,Gallop,J.D.Self-service and social media:Communication hierarchy and message diffusion in participatory media[C]//Professional Communication Conference(IPCC),2010IEEE International,2010:243-254
[6]Gruhl D,Guha R,Kumar R,et al.The predictive power of online chatter[C]//KDD’05Proceedings of the eleventh ACM SIGKDD international conference on Knowledge discovery in data mining.New York:ACM Press,2005:78-87
[7]Taylor M,Wells G,Howell G,et al.The role of social media as psychological first aid as a support to community resilience building[J].The Australian Journal of Emergency Management,2012,27(1):20-26
[8]Sitaram A,Huberman B A.Predicting the Future With Social Media[C]//Web Intelligence and Intelligent Agent Technology(WI-IAT),2010IEEE/WIC/ACM International Conference,2010,9(1):492-499
[9]CNKI.中 國 知 網(wǎng) 數(shù) 據(jù) 庫 [EB/OL].[2012-10-31].http://iras.lib.whu.edu.cn:8080/rewriter/CNKI32/http/dota9bmjh9mds/grid2008/index/zkcald.htm
[10]王曉光.微博社區(qū)交流結(jié)構(gòu)及其特征研究[D].上海:華東師范大學(xué),2011:20
[11]田占偉,隋玚.基于復(fù)雜網(wǎng)絡(luò)理論的微博信息傳播實證分析[J].圖書情報工作,2012,56(8):42-46
[12]姜楊.基于社會化媒體節(jié)點(diǎn)屬性的信息預(yù)測研究——以新浪微博為對象[D].北京:北京郵電大學(xué),2012:57
[13]袁紅,趙磊.微博社區(qū)信息交流網(wǎng)絡(luò)結(jié)構(gòu)與交流模式研究[J].現(xiàn)代情報,2012,32(9):48-56
[14]文化組學(xué)-百度百科[EB/OL].[2013-03-10].http://baike.baidu.com/view/4926826.htm
[15]Michel J B,Shen Y K,et al.Quantitative Analysis of Culture Using Millions of Digitalized Books.Science,2011,1(331):176-182
[16]豆瓣電影[EB/OL].[2013-03-10].http://movie.douban.com/
[17]新浪微博[EB/OL].[2013-03-10].http://weibo.com/
[18]豆瓣電影-百度百科[EB/OL].[2013-03-10]http://baike.baidu.com/view/306024.htm
[19]唐緒軍.中國新媒體發(fā)展報告[R].北京:中國社會科學(xué)院新聞與傳播研究所,2013:11-13
[20]CNNIC.2013年第32次中國互聯(lián)網(wǎng)發(fā)展?fàn)顩r統(tǒng)計報告:網(wǎng)民互聯(lián)網(wǎng)應(yīng)用狀況[EB/OL].[2014-01-26].http://www.199it.com/archives/132781.html.
[21]2013微博用戶及市場行為分析報告[EB/OL].[2014-01-26].http://www.sootoo.com/content/438887.shtml
[22]2012年新浪微博用戶發(fā)展報告[EB/OL].[2013-03-10].http://data.weibo.com/report/detail/report?_key=INEzny&
[23]Hadida A L.Motion picture performance:A review and research agenda[J].International Journal of Management Reviews,2009,11(3):297-335
[24]Liu Y.Word of mouth for movies:Its dynamics and impact on box office revenue[J].Journal of Marketing,2006(70):74-89
[25]張琳.2009-2011進(jìn)口片網(wǎng)絡(luò)口碑與票房[D].北京:清華大學(xué),2012:22
[26]趙妍妍,秦兵,劉挺.文本情感分析[J].軟件學(xué)報,2010(8):1834-1848
[27]陸文星,王燕飛.中文文本情感分析研究綜述[J].計算機(jī)應(yīng)用研究,2012(6):2014-2017
[28]發(fā)布ROST Emotion Analysis Tool情感傾向分析工具 [2013-03-10].http://hi.baidu.com/whusoft/item/abf387d44548f64ddcf9be58