任 彬,車萬(wàn)翔,劉 挺
(哈爾濱工業(yè)大學(xué) 社會(huì)計(jì)算與信息檢索研究中心,黑龍江 哈爾濱 150001)
正經(jīng)歷爆發(fā)式增長(zhǎng)的社會(huì)媒體數(shù)據(jù)對(duì)社會(huì)科學(xué)的影響越來(lái)越大[1-2]。通過(guò)挖掘社會(huì)媒體文本獲得信息,相比于社會(huì)學(xué)研究中傳統(tǒng)的問(wèn)卷調(diào)查方式,有著更真實(shí)、數(shù)據(jù)量大、費(fèi)用低等優(yōu)點(diǎn),因而越來(lái)越被廣泛使用。通過(guò)社會(huì)媒體文本挖掘,可以預(yù)測(cè)一個(gè)人的性別、年齡、個(gè)性等[3],甚至可以預(yù)測(cè)股票價(jià)格或是電影票房[4]。在本文中,我們則嘗試挖掘新浪微博的內(nèi)容文本,來(lái)進(jìn)行飲食習(xí)慣特色的分析。
目前在社會(huì)媒體文本挖掘中,基于詞表的方法使用得最為普遍。其本質(zhì)是將待分析文本與給定詞表中的詞相匹配。例如,“鼻子”、“皮膚”、“手”等詞語(yǔ)會(huì)被放進(jìn)一個(gè)“身體”詞表中,通過(guò)統(tǒng)計(jì)外向的人和內(nèi)向的人誰(shuí)的語(yǔ)言中這些詞出現(xiàn)得更頻繁,就可以探究哪種人更常討論“身體”這個(gè)話題[3]?;谠~表的文本挖掘方法簡(jiǎn)單易用,應(yīng)用廣泛。LIWC (Linguistic Inquiry and Word Count)[5-6],就提供了涉及詞性、常見話題等不同方面的英文詞表,得以讓研究者利用不同詞典,開展興趣、情緒、思維方式、個(gè)體差異等方面的研究[7]。
然而,這種基于詞表的文本挖掘方法有較明顯的缺點(diǎn)。只基于詞表,相當(dāng)于只應(yīng)用詞本身的信息,而不考慮詞的多義性和其在句子中有上下文時(shí)的特定含義。這樣就會(huì)使得結(jié)果混入較多噪聲,準(zhǔn)確率較低。例如,“蘋果”這個(gè)詞既有可能指食品蘋果,也可能指蘋果手機(jī)。當(dāng)利用微博文本研究飲食習(xí)慣特色時(shí),如果簡(jiǎn)單地應(yīng)用基于詞表的方法,一旦出現(xiàn)詞表中的某個(gè)詞就算作一次飲食行為。那么,如果食品詞表包含“蘋果”,就會(huì)把談到蘋果手機(jī)的微博也算作吃蘋果出現(xiàn)一次。
另一方面,中文的自然語(yǔ)言處理(NLP)技術(shù)實(shí)際分為分詞、詞性標(biāo)注、句法分析等多個(gè)層次?;谠~表的文本挖掘方法只應(yīng)用詞本身的信息,相當(dāng)于只用分詞層次的結(jié)果,詞性以及句法分析信息都沒得到有效利用。而NLP技術(shù)的發(fā)展,已經(jīng)使得詞性標(biāo)注、句法分析等技術(shù)相當(dāng)成熟且容易使用。句法分析就已經(jīng)廣泛用于機(jī)器翻譯、自動(dòng)問(wèn)答、信息抽取等應(yīng)用。
因此,我們提出了基于依存句法分析的文本挖掘方法,嘗試把詞性標(biāo)注、依存句法分析技術(shù)等深層NLP技術(shù)應(yīng)用到對(duì)社會(huì)媒體文本的挖掘上,使得對(duì)社會(huì)媒體文本的分析更加準(zhǔn)確有效。這種方法在對(duì)微博文本進(jìn)行分詞處理的基礎(chǔ)上,進(jìn)一步進(jìn)行詞性標(biāo)注和依存句法分析,然后根據(jù)任務(wù)需求設(shè)定具體的一個(gè)或一系列規(guī)則,來(lái)挖掘文本語(yǔ)料中的信息。還是用剛才關(guān)于蘋果的例子來(lái)說(shuō)明這種方法能帶來(lái)的進(jìn)步和好處。當(dāng)進(jìn)行了詞性標(biāo)注和依存句法分析以后,可以用觸發(fā)詞“吃”和動(dòng)賓搭配的規(guī)則過(guò)濾出真正吃蘋果的行為。因?yàn)椋苊黠@,如果你提到的是蘋果手機(jī),你肯定不會(huì)說(shuō)“我吃了蘋果”?;谝来婢浞ǚ治龅奈谋就诰蚍椒?,就是用這樣的方式,利用更多的上下文信息,減少對(duì)文本內(nèi)容的誤讀,提高數(shù)據(jù)利用的準(zhǔn)確性。我們還設(shè)計(jì)并進(jìn)行了實(shí)驗(yàn),證明了在社會(huì)媒體文本挖掘上,基于依存句法分析的方法,的確比基于詞表的方法準(zhǔn)確率更高。
利用這種基于依存句法分析的文本挖掘方法,我們對(duì)微博用戶進(jìn)行了飲食習(xí)慣特色分析。做法是對(duì)微博文本的依存句法分析結(jié)果,通過(guò)設(shè)定特定的識(shí)別規(guī)則,從中分析出每條微博是否反映了真實(shí)的飲食行為,如果確實(shí)反映飲食行為,相應(yīng)的食品是什么。再把微博相應(yīng)飲食行為的食品與微博本身的屬性,如發(fā)微博時(shí)間、發(fā)微博人的性別、地區(qū)等對(duì)應(yīng)起來(lái)進(jìn)行分析,就能得到關(guān)于不同性別、不同地區(qū)、不同時(shí)間段的飲食習(xí)慣特色。
本文的貢獻(xiàn)主要在于: 第3節(jié)提出了一種基于依存句法分析的方法,能更準(zhǔn)確地進(jìn)行社會(huì)媒體文本挖掘;第4節(jié)將這種基于依存句法分析的文本挖掘方法與基于詞表的文本挖掘方法進(jìn)行了實(shí)驗(yàn)對(duì)比,證明了前者在準(zhǔn)確率上有顯著提高;第5節(jié)用基于依存句法分析的文本挖掘方法,對(duì)社會(huì)媒體新浪微博上的文本,進(jìn)行飲食習(xí)慣特色分析,獲得了不同性別、不同地區(qū)、不同時(shí)間段的飲食習(xí)慣特色。這是用社會(huì)媒體文本進(jìn)行社會(huì)信息挖掘的一種新的嘗試。
在用基于詞表的方法進(jìn)行文本分析時(shí),使用最廣泛的就是Linguistic Inquiry and Word Count (LIWC)[5-6]。2007年版本的LIWC,包含了將近 4 500個(gè)詞,這些詞被64個(gè)不同的類別組織起來(lái),即提供了64個(gè)詞表,如其中包括涉及情感傾向性分析的積極情緒(positive emotion)詞表和消極情緒(negative emotion)詞表。
當(dāng)一個(gè)研究者,想要了解一段文本是有積極情緒的傾向還是消極情緒的傾向時(shí),只需把待分析文本輸入給LIWC工具,它就能統(tǒng)計(jì)出這段文本中詞語(yǔ)分屬于兩個(gè)詞表的比例,進(jìn)而確定這段文本的情感傾向性。如果屬于積極情緒詞表的詞語(yǔ)比例高,則文本傾向積極;反之則傾向消極。
所以,基于詞表的文本挖掘方法本質(zhì)上就是通過(guò)將待分析文本與給定詞表進(jìn)行匹配,進(jìn)而獲得信息。
由于我們提出的是基于依存句法分析的文本挖掘方法,因而有必要闡述依存句法分析的基本概念。
例如,對(duì)句子“我剛才吃了一個(gè)蘋果?!边M(jìn)行依存句法分析的結(jié)果如圖1所示。
圖1 依存句法分析結(jié)果示例
依存分析的結(jié)構(gòu)中,詞與詞之間直接發(fā)生依存關(guān)系,構(gòu)成一個(gè)依存對(duì)。一個(gè)依存對(duì)的兩個(gè)詞中,其中一個(gè)是核心詞,也稱為支配詞;另一個(gè)是修飾詞,也稱為從屬詞。依存關(guān)系用一個(gè)有向弧表示,稱為依存弧。在本文中,規(guī)定依存弧的方向?yàn)橛蓮膶僭~指向支配詞。在上圖中,每個(gè)依存弧上有一個(gè)標(biāo)記,叫做關(guān)系類型,表示該依存對(duì)中的兩個(gè)詞之間存在什么樣的依存關(guān)系[8]。本文研究中在依存句法分析過(guò)程中使用了哈爾濱工業(yè)大學(xué)LTP開源工具[9]提供的依存句法分析功能,因而依存關(guān)系的規(guī)定與劃分也就默認(rèn)遵循哈工大LTP所使用的依存規(guī)則。
據(jù)我們所知,目前尚未有基于社會(huì)媒體文本對(duì)飲食習(xí)慣特色進(jìn)行分析的研究。但有一些基于社會(huì)媒體數(shù)據(jù)挖掘社會(huì)信息的研究,與我們的研究貼近。Golder利用Twitter數(shù)據(jù)探究工作、睡眠、晝長(zhǎng)對(duì)個(gè)體情緒的影響,發(fā)現(xiàn)了人們?cè)谥苣└_心[10]。Dodds利用社會(huì)媒體文本分析研究社會(huì)層面的幸福感[11]。Hannak利用大量Twitter上的文本數(shù)據(jù),研究了天氣和時(shí)間對(duì)群體情緒的影響[12]。這些工作也都是利用社會(huì)媒體文本進(jìn)行社會(huì)學(xué)統(tǒng)計(jì)信息的挖掘。
首先,對(duì)這些微博文本進(jìn)行分詞、詞性標(biāo)注和依存句法分析。接下來(lái)我們需要利用依存句法分析結(jié)果判斷微博是否反映了真實(shí)的飲食行為。我們使用了規(guī)則匹配的方法。我們都知道,當(dāng)談到飲食行為時(shí),“我吃/喝了某種食品”是最常見的句式。
所以,當(dāng)給定一條微博,要判斷是否反映了真實(shí)的飲食行為時(shí),我們可以對(duì)微博內(nèi)容的句法分析結(jié)果應(yīng)用這樣一條簡(jiǎn)單規(guī)則:
含詞語(yǔ)“吃”/“喝”且以“吃”/“喝”為支配詞的句法關(guān)系為動(dòng)賓關(guān)系(VOB) 且 “吃”/“喝”的賓語(yǔ)為名詞(n)
以此規(guī)則來(lái)過(guò)濾。如果微博內(nèi)容符合這個(gè)有三個(gè)條件的規(guī)則,則判定其反映了真實(shí)的飲食行為,且提取出來(lái)的“吃”/“喝”的賓語(yǔ)就是飲食行為所對(duì)應(yīng)的食品。
例如,對(duì)“我剛才吃了一個(gè)蘋果”這句話,句法分析結(jié)果如圖1所示。其符合: 含“吃”;以“吃”為支配詞的句法關(guān)系為VOB關(guān)系;“吃”的賓語(yǔ)“蘋果”詞性為名詞。我們就可以說(shuō)這條微博反映了真實(shí)的飲食行為,且其對(duì)應(yīng)的食品是“蘋果”。
而對(duì)于“新一代蘋果手機(jī)即將亮相?!边@句話,由于其中不含“吃”或“喝”,更無(wú)以“吃”或“喝”為支配詞的VOB關(guān)系,明顯不符合我們?cè)O(shè)定的規(guī)則,因而不會(huì)被算作飲食行為。所以用我們?cè)O(shè)定的規(guī)則進(jìn)行匹配,可以從語(yǔ)義上過(guò)濾掉那些“蘋果”并非以食品的義項(xiàng)出現(xiàn)的微博。
再比如“我喝了一瓶蘋果味汽水。”這個(gè)句子。在基于詞表匹配的文本挖掘方法中,只要食品詞表中包含“蘋果”和“汽水”,就會(huì)導(dǎo)致“蘋果”和“汽水”都被當(dāng)做飲食行為涉及的食品各計(jì)算一次。但實(shí)際上這里談到的是喝“汽水”,并非吃“蘋果”。通過(guò)句法分析分析,可以得到結(jié)果如圖2所示。
圖2 與吃蘋果無(wú)關(guān)微博的句法分析結(jié)果
用我們?cè)O(shè)定的規(guī)則可以很容易地得到這句話描述的飲食行為所對(duì)應(yīng)的真實(shí)食品“汽水”,而不會(huì)把“蘋果”也誤算一次。這也是利用上下文信息來(lái)理解詞語(yǔ)在句子中的實(shí)際含義。
首先,我們要界定好“飲食習(xí)慣特色”的概念。在我們的分析中,“飲食習(xí)慣特色”主要指既有一定規(guī)模、又要有特色的食品。舉例來(lái)說(shuō),想獲得北京地區(qū)的飲食習(xí)慣特色,那么即使北京地區(qū)最常吃的是“飯”、最常喝的是“水”,這也不能算作北京地區(qū)的飲食習(xí)慣特色,因?yàn)榭赡苷麄€(gè)中國(guó)都在吃“飯”喝“水”,“飯”和“水”并不能體現(xiàn)北京地區(qū)飲食習(xí)慣的特色。
為了滿足我們對(duì)“飲食習(xí)慣特色”的限定,我們引入互信息值(PMI)進(jìn)行評(píng)價(jià)如式(1)所示。
PMI(word,category) 就代表食品word在類別category下的特色程度。例如,PMI(烤鴨,北京)就代表烤鴨在北京地區(qū)的特色程度;PMI(烤鴨,男)就代表男性飲食習(xí)慣中烤鴨的特色程度;而PMI(烤鴨,晚上)代表晚上飲食習(xí)慣中烤鴨的特色程度。要表示某類別的飲食習(xí)慣特色,只需取與該類別PMI值最高的數(shù)個(gè)食品詞語(yǔ)即可。
PMI同樣也可以表示交叉條件下的飲食習(xí)慣特色。例如,PMI(烤鴨,男and北京)表示烤鴨在北京男性飲食習(xí)慣中的特色程度。而在實(shí)際操作中只需令category滿足性別男且地區(qū)是北京市,即北京市男性所發(fā)飲食微博即可。
為了對(duì)比基于詞表的方法和基于依存句法分析的方法在社會(huì)媒體文本挖掘上的效果差別,我們?cè)O(shè)計(jì)了實(shí)驗(yàn),將兩者在微博用戶飲食行為分析任務(wù)上的表現(xiàn)相對(duì)比。在本文所進(jìn)行的實(shí)驗(yàn)中,用到的分詞工具均是面向微博語(yǔ)料的分詞工具[14],以期獲得更好的分詞效果。
將基于詞表的文本挖掘方法應(yīng)用在飲食行為分析任務(wù)上的具體做法,就是利用待分析文本與已有的食品詞表相匹配,當(dāng)文本中出現(xiàn)詞表中的某個(gè)詞時(shí),就認(rèn)為發(fā)生了一次關(guān)于這個(gè)詞的飲食行為。
可以看出,影響這種方法效果的一個(gè)重要因素就是詞表的質(zhì)量。為了使得對(duì)比實(shí)驗(yàn)真正有意義和有說(shuō)服力,我們建立了一個(gè)質(zhì)量較高的詞表。首先我們獲得了百度百科截止2012年的全部詞條數(shù)據(jù)500萬(wàn)條,并以此為基礎(chǔ)提取詞表。百度百科是最大的在線中文百科,但有個(gè)需要我們考慮的特點(diǎn),就是其詞條標(biāo)簽是開放性的,也就是說(shuō)所有編輯者都可以為某個(gè)詞條添加某個(gè)標(biāo)簽。因此,通過(guò)“食品”單個(gè)標(biāo)簽來(lái)過(guò)濾詞條獲得詞表就會(huì)效果較差。因?yàn)橛袝r(shí)某個(gè)食品的詞條恰好就會(huì)沒有“食品”這一標(biāo)簽,而是有“飲食”等其他標(biāo)簽。所以,我們先通過(guò)人工篩選的方式,獲得500個(gè)食品詞匯,再通過(guò)提煉這500個(gè)食品詞匯的所有標(biāo)簽,構(gòu)成一個(gè)與飲食相關(guān)的標(biāo)簽候選集,對(duì)這個(gè)標(biāo)簽候選集再進(jìn)行人工篩選后,獲得與飲食相關(guān)的標(biāo)簽集。如果一個(gè)詞條只含一個(gè)標(biāo)簽集中標(biāo)簽,就把詞條對(duì)應(yīng)的詞算作食品,則會(huì)引入較多如“哈爾濱工業(yè)大學(xué)食品學(xué)院”之類的噪聲。因而只有當(dāng)某個(gè)詞條含有2個(gè)或2個(gè)以上在飲食標(biāo)簽集中的標(biāo)簽時(shí),我們才認(rèn)為該詞條是食品。用這樣的方式,對(duì)百度百科500萬(wàn)詞條數(shù)據(jù)進(jìn)行篩選,我們獲得了一個(gè)有76 754詞大小的食品詞表。這個(gè)食品詞表整體質(zhì)量較高,但也摻雜有少量與飲食相關(guān)、但非食品的詞語(yǔ)。
在獲得食品詞表以后,對(duì)每條經(jīng)過(guò)分詞處理后的微博文本,我們用飲食詞表進(jìn)行匹配,一旦詞表中的某個(gè)食品詞在微博中出現(xiàn),我們就認(rèn)為這條微博對(duì)應(yīng)了一次該食品的飲食行為。
要評(píng)價(jià)兩種方法效果的差別主要有兩方面的困難。一方面是沒有標(biāo)準(zhǔn)測(cè)試集,需要人工標(biāo)注數(shù)據(jù);另一方面與飲食行為相關(guān)的微博在所有微博中所占比例很低,對(duì)所有微博進(jìn)行標(biāo)注則標(biāo)注工作量過(guò)大。受限于此,Schwartz在對(duì)基于詞表的文本挖掘方法進(jìn)行評(píng)價(jià)時(shí),就只考慮了準(zhǔn)確率的指標(biāo),而沒考慮召回率[15]。
對(duì)此,我們采取的辦法是,隨機(jī)抽取10萬(wàn)條微博,用這兩種方法分別識(shí)別反映飲食行為的微博,將兩種方法識(shí)別的結(jié)果合并作為候選集。再由三個(gè)人對(duì)候選集進(jìn)行人工標(biāo)注,判斷結(jié)果是否正確,進(jìn)而獲得標(biāo)準(zhǔn)結(jié)果集。在本實(shí)驗(yàn)中兩種方法識(shí)別出的記錄總數(shù)即候選集大小為3 371條,因而只需要對(duì)這些記錄進(jìn)行人工標(biāo)注,而不是對(duì)原始的10萬(wàn)條微博,這就使得標(biāo)注和評(píng)價(jià)變得可行。并且,在這樣的評(píng)價(jià)方法下,我們也能夠計(jì)算召回率。
人工標(biāo)注的具體任務(wù)為每次給定包含一個(gè)詞語(yǔ)和對(duì)應(yīng)原始微博的詞語(yǔ)-微博對(duì),標(biāo)注人員要判斷這條微博是否反映了真實(shí)的飲食行為和這個(gè)詞語(yǔ)是否是飲食行為對(duì)應(yīng)的食品。只有正確識(shí)別出飲食行為和對(duì)應(yīng)食品,才算識(shí)別正確。需要多人標(biāo)注的原因是,有些微博很難判斷究竟是否發(fā)生了飲食行為,例如,“我買了一個(gè)蘋果回家吃”這種句子,需要進(jìn)行簡(jiǎn)單的推斷,判斷發(fā)生飲食行為和沒發(fā)生均有一定道理,因而需要多人標(biāo)注。
一共有三名標(biāo)注人員分別對(duì)候選集進(jìn)行人工標(biāo)注。為了評(píng)價(jià)標(biāo)注結(jié)果的一致性,我們計(jì)算了用于統(tǒng)計(jì)多類多標(biāo)注人員標(biāo)注一致性的Fleiss Kappa指標(biāo)[13],最終三人標(biāo)注一致性為75.53%。獲得人工標(biāo)注數(shù)據(jù)后,對(duì)三人標(biāo)注有差異的數(shù)據(jù)用投票的方法確定結(jié)果。
用人工標(biāo)注結(jié)果獲得標(biāo)準(zhǔn)結(jié)果集后,即可評(píng)價(jià)基于詞表的文本挖掘方法和基于依存句法分析的方法在候選集上的表現(xiàn),如表1所示。
表1 兩種方法的準(zhǔn)確率、召回率、F值
可見,基于依存句法分析的文本挖掘方法,在準(zhǔn)確率上要比基于詞表的文本挖掘方法顯著提高,但召回率略低,F(xiàn)值也有大幅提升。
而基于詞表的文本挖掘方法召回率雖然高于基于依存句法分析的方法,但也并不是很高的原因,并非食品詞表質(zhì)量不好,而是無(wú)論構(gòu)建多大的食品詞表,考慮到日常生活中的食品種類和說(shuō)法之多,我們都很難窮盡食品詞語(yǔ)。例如,百度百科擁有數(shù)百萬(wàn)詞條,卻尚未收錄“甜筒”。日新月異的食品種類和新的稱呼,也使得食品詞表即使構(gòu)建得很大,也很難達(dá)到很高的覆蓋率。而基于句法分析的方法,則不受限于詞表的限制,可以識(shí)別出關(guān)于新食品或食品新表達(dá)的飲食行為。
并且,在微博用戶飲食習(xí)慣特色分析中,準(zhǔn)確率其實(shí)比召回率更重要。因?yàn)槲覀兺ǔ?梢垣@得大量的微博文本數(shù)據(jù),這時(shí)只要有較高的準(zhǔn)確率,即使召回率較低,通過(guò)足夠的數(shù)據(jù)量,也能正確地挖掘出飲食習(xí)慣特色。而如果是召回率較高、但準(zhǔn)確率較低的方法,就相當(dāng)于在飲食習(xí)慣特色統(tǒng)計(jì)中摻入了較多錯(cuò)誤結(jié)果帶來(lái)的噪聲,雖然符合條件的數(shù)據(jù)多了一些,但結(jié)果卻沒有說(shuō)服力。
所以,通過(guò)實(shí)驗(yàn)評(píng)價(jià)和分析,我們可以說(shuō),使用基于依存句法分析的文本挖掘方法,相比于基于詞表的方法,能夠更準(zhǔn)確地挖掘文本的真實(shí)含義,在本文中則體現(xiàn)為能更準(zhǔn)確地識(shí)別一條微博是否反映了真實(shí)的飲食行為。
應(yīng)用上文介紹的基于依存句法分析的社會(huì)媒體文本挖掘方法,我們對(duì)大規(guī)模微博文本數(shù)據(jù)進(jìn)行處理,以獲得飲食習(xí)慣特色分析結(jié)果。
我們隨機(jī)爬取了新浪微博5千萬(wàn)條,時(shí)間跨度為2009年至2011年。使用這部分?jǐn)?shù)據(jù)的原因是2009年至2011年新浪微博剛剛興起,虛假用戶較少。而現(xiàn)在微博上虛假用戶及其產(chǎn)生的微博數(shù)量則大大增加。如何識(shí)別真實(shí)用戶本身就是一個(gè)研究問(wèn)題,但并不是我們要研究的重點(diǎn)。我們選用這段時(shí)間內(nèi)的新浪微博數(shù)據(jù),以便較大限度地剔除虛假用戶對(duì)我們研究結(jié)果的影響。每條微博,我們除了微博本身的內(nèi)容,還獲得了微博發(fā)布的時(shí)間,以及發(fā)微博用戶的性別、地區(qū)信息。
對(duì)這些微博文本應(yīng)用第3節(jié)中的規(guī)則匹配,最終獲得了與飲食相關(guān)的記錄45萬(wàn)余條。再將識(shí)別出的對(duì)應(yīng)食品與原微博的性別、地區(qū)和時(shí)間屬性結(jié)合起來(lái),即可計(jì)算出每個(gè)類別下的飲食習(xí)慣特色。
由于我們對(duì)飲食習(xí)慣特色的研究涉及多個(gè)維度,且每個(gè)維度下的結(jié)果是由多個(gè)食品詞語(yǔ)組成,只用列表的方式展現(xiàn)就顯得有些不夠直觀。我們選擇用詞云(word cloud)的形式展示我們的研究結(jié)果。在一般的詞云使用中,詞云中詞語(yǔ)的大小只是由詞語(yǔ)的頻率決定。而我們則用詞語(yǔ)大小來(lái)展示PMI,即這個(gè)詞語(yǔ)與該類別的相關(guān)性大小,用顏色來(lái)表示詞語(yǔ)的頻率。在結(jié)果的展示過(guò)程中,我們對(duì)明顯的錯(cuò)誤予以了過(guò)濾,最終在詞云中展示的詞語(yǔ)是PMI高的食品詞語(yǔ)。
5.3.1 性別維度下的結(jié)果
如圖3所示,不同性別的飲食習(xí)慣特色有很大區(qū)別。例如,男性的特色飲食有茅臺(tái)、啤酒、二鍋頭等,以酒類為主;女性則偏好巧克力、冰淇淋、甜食、芒果等食品,這比較符合我們的常識(shí)認(rèn)識(shí)。
5.3.2 地區(qū)維度下的結(jié)果
如圖4所示,不同地區(qū)的飲食習(xí)慣特色也有很大區(qū)別。偏南的廣東省的飲食與偏北的北京市距離很遠(yuǎn),飲食習(xí)慣特色差別也很大。香鍋、 烤鴨、 春餅等都是北京著名特色食品且在北京很常見。對(duì)于廣東省的結(jié)果,M記是對(duì)麥當(dāng)勞的別稱,從麥當(dāng)勞中國(guó)官網(wǎng)上,我們也可以看到廣東是麥當(dāng)勞門店數(shù)最多的省份。
圖3 男性飲食習(xí)慣(左)與女性飲食習(xí)慣特色(右)對(duì)比
圖4 北京市飲食習(xí)慣特色(左)與廣東省飲食習(xí)慣特色(右)對(duì)比
5.3.3 時(shí)間維度下的結(jié)果
為了更直觀地展現(xiàn)時(shí)間維度的結(jié)果,我們將一天劃分為四個(gè)時(shí)間段。6:00~10:59為早上/上午;11:00~13:59為中午;14:00~17:59為下午;18:00~次日5:59為晚上。
時(shí)間維度下的結(jié)果,也可以很好地反映飲食習(xí)慣特色,如圖5所示。例如,晚上時(shí)間段的宵夜、烤肉、啤酒等,確實(shí)能反映晚上的飲食習(xí)慣特色;而在早上/上午,除了早飯、早點(diǎn)、早餐外,豆?jié){、油條、包子等也主要為早餐食品,與我們的日常認(rèn)識(shí)很接近。
圖5 早上/上午飲食習(xí)慣特色(左)與晚上飲食習(xí)慣特色(右)對(duì)比
圖6 北京市男性晚上的飲食習(xí)慣特色(左)與北京市女性晚上的飲食習(xí)慣特色(右)
5.3.4 交叉條件下的結(jié)果
除了上文提到的三個(gè)維度,我們的分析還能得到交叉條件下的飲食習(xí)慣特色分析結(jié)果。例如,可以查看北京市男性晚上的飲食習(xí)慣特色,也可以分析北京市女性晚上的飲食習(xí)慣特色。也就是說(shuō),我們可以分析出性別、地區(qū)、時(shí)間這三個(gè)維度交叉所可能形成的所有特定群體的飲食習(xí)慣特色。
我們提出了一種基于依存句法分析的文本挖掘方法,能更準(zhǔn)確地挖掘社會(huì)媒體文本中的信息。并應(yīng)用這種方法,從性別、地區(qū)、時(shí)間三個(gè)維度對(duì)微博用戶的飲食習(xí)慣特色進(jìn)行分析和交叉分析, 用詞云的形式可視化地展現(xiàn)了結(jié)果。實(shí)驗(yàn)也證明了在社會(huì)媒體文本挖掘上,基于依存句法分析的方法的確要比基于詞表的方法有更高的準(zhǔn)確率,因而能獲得更有說(shuō)服力的飲食習(xí)慣特色分析結(jié)果。并且,基于依存句法分析的方法,可以不受限于詞表內(nèi)的食品進(jìn)行飲食行為的識(shí)別和食品的提取,甚至可以識(shí)別出新食品或是食品的新說(shuō)法。
同時(shí),用微博語(yǔ)料分析特定群體的飲食習(xí)慣特色,也有著重要意義。用傳統(tǒng)的問(wèn)卷調(diào)查等方法,很難獲得關(guān)于飲食習(xí)慣的有效結(jié)果,但應(yīng)用我們的方法,可以得到有一定說(shuō)服力的結(jié)果。并且,我們經(jīng)過(guò)分析獲得的關(guān)于特定群體的飲食習(xí)慣結(jié)果,不僅是社會(huì)信息的統(tǒng)計(jì)結(jié)果, 還可以進(jìn)一步應(yīng)用于為食品企業(yè)或餐飲行業(yè)的細(xì)分市場(chǎng)營(yíng)銷提供信息等方面。
當(dāng)然,我們也注意到了用微博文本進(jìn)行飲食習(xí)慣的挖掘,所獲得的結(jié)果,會(huì)與現(xiàn)實(shí)有一定偏差。這是由于微博數(shù)據(jù)相對(duì)于真實(shí)社會(huì)的偏置所造成。我們的工作,目前只限于盡可能準(zhǔn)確地理解微博文本內(nèi)容,使分析結(jié)果更貼近微博的真實(shí)含義。而對(duì)于微博數(shù)據(jù)和真實(shí)社會(huì)之間的偏置,還有待進(jìn)一步研究。
接下來(lái),我們進(jìn)一步的研究工作主要有兩方面: 一方面,用基于依存句法分析的方法,其實(shí)還可以細(xì)化規(guī)則,從而更準(zhǔn)確地識(shí)別飲食行為。按照目前的規(guī)則,他人的飲食行為,例如,“他吃了一個(gè)蘋果?!币脖凰阕靼l(fā)微博的人的飲食行為。通過(guò)細(xì)化規(guī)則,可以設(shè)定當(dāng)主語(yǔ)不是“我”時(shí)不識(shí)別為飲食行為,就能過(guò)濾掉這種錯(cuò)誤。另外,還有類似“我沒吃飯”這樣的否定句或者疑問(wèn)句,也可以用通過(guò)細(xì)化規(guī)則如限制“吃”的修飾語(yǔ)挖掘出真實(shí)含義并處理,從而較少錯(cuò)誤。
另一方面,我們目前設(shè)定的規(guī)則只有一條,只是匹配單一的由三個(gè)條件組成的規(guī)則。本文證明了,即使只用這一個(gè)最簡(jiǎn)單的規(guī)則,我們的方法也比基于詞表的文本挖掘方法在準(zhǔn)確率上有大幅提高。但實(shí)際上,還可以設(shè)定更多規(guī)則從文本中挖掘信息。例如,針對(duì)飲食行為的識(shí)別,除了“我吃/喝了某種食品”,“某種食品很好吃/好喝”也很常見。擴(kuò)充規(guī)則的方法,可以人工制定,也可以用機(jī)器學(xué)習(xí)的方式進(jìn)行擴(kuò)充。通過(guò)擴(kuò)充規(guī)則,可以進(jìn)一步提高依存基于句法分析方法進(jìn)行社會(huì)媒體文本挖掘時(shí)的召回率,這也是我們未來(lái)的一個(gè)研究方向。
[1] Miller G. Social scientists wade into the tweet stream[J]. Science, 2011, 333(6051): 1814-1815.
[2] Lazer D, Pentland A S, Adamic L, et al. Life in the network: the coming age of computational social science[J]. Science (New York, NY), 2009, 323(5915): 721.
[3] Schwartz H A, Eichstaedt J C, Kern M L, et al. Personality, Gender, and Age in the Language of Social Media: The Open-Vocabulary Approach[J]. PloS one, 2013, 8(9): e73791.
[4] Asur S, Huberman B A. Predicting the future with social media[C]//Proceedings of Web Intelligence and Intelligent Agent Technology (WI-IAT), 2010 IEEE/WIC/ACM International Conference on. IEEE, 2010, 1: 492-499.
[5] P Pennebaker J W, Francis M E, Booth R J. Linguistic inquiry and word count: LIWC 2001[J]. Mahway: Lawrence Erlbaum Associates, 2001, 71: 2001.
[6] Pennebaker J W, Chung C K, Ireland M, et al. The development and psychometric properties of LIWC2007[OL]www.liwc.net.
[7] Tausczik Y R, Pennebaker J W. The psychological meaning of words: LIWC and computerized text analysis methods[J]. Journal of Language and Social Psychology, 2010, 29(1): 24-54.
[8] 李正華. 依存句法分析統(tǒng)計(jì)模型及樹庫(kù)轉(zhuǎn)化研究[D]. 哈爾濱工業(yè)大學(xué)碩士學(xué)位論文,2008.
[9] Che W, Li Z, Liu T. Ltp: A chinese language technology platform[C]//Proceedings of the 23rd International Conference on Computational Linguistics: Demonstrations. Association for Computational Linguistics, 2010: 13-16.
[10] Golder S A, Macy M W. Diurnal and seasonal mood vary with work, sleep, and daylength across diverse cultures[J]. Science, 2011, 333(6051): 1878-1881.
[11] Dodds P S, Harris K D, Kloumann I M, et al. Temporal patterns of happiness and information in a global social network: Hedonometrics and Twitter[J]. PloS one, 2011, 6(12): e26752.
[12] Hannak A, Anderson E, Barrett L F, et al. Tweetin’in the Rain: Exploring Societal-Scale Effects of Weather on Mood[C]//Proceedings of ICWSM. 2012.
[13] Fleiss J L. Measuring nominal scale agreement among many raters[J]. Psychological bulletin, 1971, 76(5): 378.
[14] Liu Y, Zhang M, Che W, et al. Micro blogs Oriented Word Segmentation System[J]. CLP 2012, 2012: 85.
[15] Schwartz H A, Eichstaedt J, Dziurzynski L, et al. Choosing the Right Words: Characterizing and Reducing Error of the Word Count Approach[C]//Proceedings of SEM-2013,2013:296-305.