肖銳,劉明義,涂志瑩,王忠杰
基于社交媒體文本挖掘的個(gè)人事件檢測方法
肖銳,劉明義,涂志瑩,王忠杰*
(哈爾濱工業(yè)大學(xué) 計(jì)算學(xué)部,哈爾濱 150001)(?通信作者電子郵箱rainy@hit.edu.cn)
用戶的社交媒體中蘊(yùn)含著他們過去的個(gè)人經(jīng)歷和潛在的生活規(guī)律,研究其規(guī)律對(duì)預(yù)測用戶未來的行為以及對(duì)用戶進(jìn)行個(gè)性化推薦有很大的價(jià)值。通過收集微博數(shù)據(jù),定義了11種類型的事件,并提出了一個(gè)三階段的Pipeline的系統(tǒng),利用BERT預(yù)訓(xùn)練模型,分別在三個(gè)階段使用BERT+BiLSTM+Attention、BERT+FullConnect、BERT+BiLSTM+CRF方法進(jìn)行個(gè)人事件檢測。從微博文本中抽取出該文本是否包含定義的事件、包含的事件類型、每種事件包含的元素等信息,具體元素為Subject(事件主語)、Object(事件元素)、Time(事件發(fā)-生時(shí)間)、Place(事件發(fā)生的地點(diǎn))和Tense(事件發(fā)生的時(shí)態(tài)),從而探究用戶個(gè)人時(shí)間軸上的事件變化規(guī)律來預(yù)測個(gè)人事件。在收集的真實(shí)用戶微博數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),并與邏輯回歸、樸素貝葉斯、隨機(jī)森林、決策樹等分類算法進(jìn)行對(duì)比分析。實(shí)驗(yàn)結(jié)果表明,三個(gè)階段中的BERT+BiLSTM+Attention、BERT+FullConnect和BERT+BiLSTM+CRF方法均取得了最高的F1值,驗(yàn)證了所提方法的有效性。最后根據(jù)所提方法抽取出的事件和其中的時(shí)間信息可視化地構(gòu)建了用戶的個(gè)人事件時(shí)間軸。
社交媒體;個(gè)人事件;事件檢測;BERT模型;個(gè)人事件時(shí)間軸
隨著移動(dòng)互聯(lián)網(wǎng)的迅速發(fā)展,越來越多的人使用一些社交媒體平臺(tái)例如微信朋友圈、微博等分享生活日志,他們發(fā)布的博文中可能包含了該人物發(fā)生的事件以及時(shí)間和位置等信息,而通過研究個(gè)人的歷史數(shù)據(jù)可以針對(duì)個(gè)人進(jìn)行未來事件預(yù)測以及服務(wù)推薦。這些社交媒體提供了大量的生活事件數(shù)據(jù),這些數(shù)據(jù)中包含了吃過喝過的東西、看過的電影等平常的事件,還包含諸如結(jié)婚、畢業(yè)等重大事件,本文將這些都稱為個(gè)人事件。通過研究個(gè)人的歷史數(shù)據(jù),可以針對(duì)個(gè)人去預(yù)測其未來可能發(fā)生的事件;還可以根據(jù)預(yù)測到的用戶事件對(duì)個(gè)人進(jìn)行服務(wù)推薦。這樣,就可以從個(gè)人用戶自身經(jīng)歷的事件變化,有針對(duì)性地給予用戶匹配個(gè)性化的服務(wù)需求。
本文主要研究用戶在較長一段時(shí)間線上的事件變化,因此,收集了微博用戶從2011年到2020年期間發(fā)布的個(gè)人微博數(shù)據(jù),定義了11種生活事件類型,并對(duì)數(shù)據(jù)進(jìn)行了人工標(biāo)注,標(biāo)注內(nèi)容是微博文本是否包含定義的這11種生活事件,包含的事件類型有哪些以及事件包含的元素;然后使用Pipeline系統(tǒng)抽取事件,從中抽取出事件類型和事件具體的元素后,構(gòu)建用戶的生活事件時(shí)間軸。如圖1所示的一個(gè)例子,它表示用戶到廣州游玩和觀看表演的一條生活事件時(shí)間線,里面包含了事件發(fā)生的時(shí)間和地點(diǎn)信息。通過分析用戶在較長時(shí)間線上的事件變化,可以從中獲取某些事件之間的相關(guān)性,然后根據(jù)用戶在時(shí)間軸上的事件之間的相關(guān)性預(yù)測用戶未來可能發(fā)生的事件,從而針對(duì)用戶自身的變化選擇外部的海量服務(wù)進(jìn)行推薦,例如打車服務(wù)和飲食服務(wù)的推薦。
表1表示從用戶微博抽取的事件結(jié)果,這些微博可能包含或不包含本文定義的事件:如果不包含,則不對(duì)其進(jìn)行事件抽?。蝗绻袛喑霭录?,則判斷文本所包含的事件有哪些,它可能有一種或多種事件。如表1的第二條微博,表示用戶看電影這一事件,抽取出(audiovisual)?(User,盲山,昨天,?,過去)的結(jié)構(gòu)出來,這是一個(gè)視聽(audiovisual)的事件類型,主體是用戶,看的內(nèi)容是“盲山”,然后觀看時(shí)間是昨天,時(shí)態(tài)是過去時(shí)態(tài)。還有可能有多種事件,如表1的第三條微博,其中包含了兩個(gè)事件,分別是birth和eat,然后分別對(duì)應(yīng)不同的事件抽取出了(birth)?(老爸,生日,?,?,現(xiàn)在)和(eat)?(我們,羊肚菌、黑松露,今天,?,現(xiàn)在)兩種事件和對(duì)應(yīng)的事件元素.它們分別表示了“老爸生日”和“今天我們吃羊肚菌、黑松露”兩個(gè)事件。
圖1 個(gè)人事件時(shí)間線以及預(yù)測推薦示例
表1 微博文本抽取結(jié)果示例
本文提出了一個(gè)Pipeline系統(tǒng)檢測微博文本里面包含的事件,此系統(tǒng)分為三個(gè)階段。對(duì)于一個(gè)給定的用戶文本,第一個(gè)階段判斷是文本是否包含所定義的事件,把這個(gè)階段作為一個(gè)短文本的二分類;第二個(gè)階段是判斷包含事件的微博里的事件類型有哪些,把這個(gè)階段作為一個(gè)短文本的多標(biāo)簽分類;第三個(gè)階段是根據(jù)第二個(gè)階段得到的事件類型,從文本中抽取每個(gè)事件類型的元素Subject(事件主語)、Object(事件元素)、Time(事件發(fā)生時(shí)間)和Place(事件發(fā)生的地點(diǎn)),并使用匹配的方法判斷時(shí)態(tài),從而將文本中的信息抽象表示為事件類型加事件元素的形式。
本文工作的主要挑戰(zhàn)在于用戶發(fā)布的微博內(nèi)容通常是簡短的,并且經(jīng)常使用非正式的文本,如果使用基于句子成分的語法分析的方法進(jìn)行抽取,會(huì)導(dǎo)致詞語之間的依賴關(guān)系出錯(cuò),抽取效果差。因此,本文對(duì)其進(jìn)行前期的數(shù)據(jù)清洗,然后通過深度學(xué)習(xí)模型將事件類型和事件元素抽取出來,從而刻畫事件的主體內(nèi)容,避免其他文本內(nèi)容的干擾,提高抽取結(jié)果的準(zhǔn)確率。
在事件檢測的相關(guān)工作中,常用詞袋模型來描述文本特征,di Eugenio等[1]和Dickinso等[2]發(fā)現(xiàn)使用?gram模型構(gòu)建的特征對(duì)于文本分類任務(wù)有較好的作用,但是?gram模型非常容易引起維度災(zāi)難,因?yàn)榫S度可能上升到很大,導(dǎo)致很多的?gram不會(huì)出現(xiàn)在訓(xùn)練集中。Choudhury等[3-4]通過研究推特上用戶的數(shù)據(jù)去提取生活事件,他們都是使用unigram和詞袋的模型,然后使用傳統(tǒng)的機(jī)器學(xué)習(xí)方法,例如支持向量機(jī)(Support Vector Machine, SVM)、隨機(jī)森林等對(duì)文本分類從而判斷事件類別。Khodabakhsh等[5]使用了skip?gram的模型,其中實(shí)驗(yàn)所用的事件類型有6個(gè),他們將6種類別的距離度量作為該條推文的特征去使用機(jī)器學(xué)習(xí)模型訓(xùn)練分類模型。這些傳統(tǒng)的機(jī)器學(xué)習(xí)方法主要針對(duì)的是事件類別的分類,無法提取文本中具體的實(shí)體屬性,而且還需要繁瑣的特征提取、文本處理獲取文本的關(guān)鍵內(nèi)容、構(gòu)建特征向量等處理,工作量大且無法像本文方法那樣獲取結(jié)構(gòu)化的事件信息。
Li等[6]使用了Pipeline的方法來抽取生活事件,他們定義了42種事件類型,經(jīng)過三個(gè)階段來對(duì)文本中的事件及事件元素進(jìn)行提取。其中使用了潛在狄利克雷分配(Latent Dirichlet Allocation, LDA)[7]模型,通過文本聚類的方法進(jìn)行事件分類,然后使用句子依賴分析和命名實(shí)體識(shí)別抽取事件的具體成分。該方法使用句子依賴分析對(duì)文本中的具體屬性關(guān)系做標(biāo)注,針對(duì)正式文本會(huì)很有用,但人們?nèi)粘I钪械目谡Z化文本則不適用于句子依賴分析,因此其提取出的結(jié)果會(huì)不夠準(zhǔn)確。Choudhury等[8]分別使用activity和attention作為特征對(duì)人生中的11種重大事件類型作了分類。Li等[9]提出一個(gè)無監(jiān)督的框架來抽取文本中的個(gè)人生活事件,其中涉及的是一些重大的個(gè)人事件,例如畢業(yè)、就業(yè)等。這個(gè)方法僅針對(duì)比較重大的事件分類,沒有涉及日?;氖录捌渚唧w屬性的提取。
同時(shí),在文本挖掘中,長短期記憶(Long Short?Term Memory, LSTM)[10]被廣泛應(yīng)用于序列數(shù)據(jù)任務(wù)。為了提高LSTM的性能,Schuster等[11]提出了雙向LSTM(Bi?directional LSTM, BiLSTM)網(wǎng)絡(luò),Zhou等[12]提出了卷積加LSTM神經(jīng)網(wǎng)絡(luò)(CNNLSTM)。單純地使用LSTM網(wǎng)絡(luò)雖然能夠獲取文本的上下文信息,但是它在分類時(shí)會(huì)干擾關(guān)鍵詞和信息,從而導(dǎo)致性能較差。Yen等[13]使用多任務(wù)的LSTM網(wǎng)絡(luò)對(duì)文本的單詞和詞性的特征進(jìn)行結(jié)合,同時(shí)使用多任務(wù)學(xué)習(xí)的方法判斷推文的類型和推文包含的內(nèi)容。Yen等[14-15]從推特的文本加圖片中去抽取事件及事件元素,他們通過多模態(tài)的聯(lián)合學(xué)習(xí)方法抽取文本中的表征事件的觸發(fā)詞,使用預(yù)訓(xùn)練模型BERT(Bidirectional Encoder Representations from Transformers)抽取事件類型的觸發(fā)詞和事件類型的具體元素。但是該方法抽取的事件結(jié)構(gòu)過多地提取了實(shí)體屬性,導(dǎo)致抽取時(shí)效果變差,其實(shí)只需要將事件屬性作為類別進(jìn)行事件分類即可描述事件信息,同時(shí)提升抽取效果。
如圖2所示,本文的研究主要分為三個(gè)階段:第一個(gè)階段是檢測微博中是否包含個(gè)人生活事件,然后把檢測出來的包含事件的文本送到第二個(gè)階段;在第二個(gè)階段中,判斷文本所包含的事件類型有哪些,它將輸出文本包含的所有事件類型;在第三個(gè)階段,將輸入的文本和第二階段的事件類型多標(biāo)簽分類結(jié)果輸入進(jìn)去,得到每一種事件類型的元素Subject、Object、Time、Place,最后通過匹配的方法判斷事件的時(shí)態(tài)Tense。本文使用BERT[16]預(yù)訓(xùn)練語言模型對(duì)文本進(jìn)行詞嵌入,同時(shí)還使用了BiLSTM+Attention(注意力機(jī)制)[17]和條件隨機(jī)場(Conditional Random Field, CRF)[18]等網(wǎng)絡(luò)作為BERT詞嵌入后的網(wǎng)絡(luò)層進(jìn)行模型的訓(xùn)練。
圖2 個(gè)人事件抽取模型框架
如圖3所示,使用BERT+BiLSTM+Attention方法進(jìn)行文本分類。先使用BERT對(duì)輸出的文本進(jìn)行詞嵌入的過程,然后經(jīng)過BiLSTM網(wǎng)絡(luò)輸出到Attention層得到類別的打分值,最后通過softmax函數(shù)輸出預(yù)測的結(jié)果。BERT是一種預(yù)訓(xùn)練模型,它將輸入的文本詞序列進(jìn)行詞嵌入后變?yōu)檩斎朐~向量表征,在經(jīng)過多層Transformer結(jié)構(gòu)的堆疊后,會(huì)在最后一個(gè)Transformer輸出它提取的文本上下文信息,可以使用該輸出進(jìn)行下游的其他任務(wù),例如序列標(biāo)注、問答任務(wù)和情感分類任務(wù)。
BiLSTM的作用是它可以更好地捕捉到較長距離的依賴關(guān)系,同時(shí),雙向的網(wǎng)絡(luò)可以更好地捕捉雙向的語義依賴。Attention層可以對(duì)信息進(jìn)行權(quán)重的分配,最后進(jìn)行帶權(quán)求和,這相當(dāng)于對(duì)文本中的重要信息進(jìn)行突出,因此它對(duì)分類任務(wù)更加有效。
圖3 BERT+BiLSTM+Attention分類模型
如圖4所示,使用BERT+FullConnect的方法進(jìn)行文本多標(biāo)簽分類。在經(jīng)過BERT詞嵌入之后,將BERT的最后一層連接到一個(gè)全連接層上,然后使用一個(gè)sigmoid函數(shù)輸出概率大小,該輸出是一個(gè)11維大小的數(shù)組,之后再通過設(shè)置閾值來判斷是否包含該類事件。同樣的,本文先用BERT預(yù)訓(xùn)練模型獲取句子表征的詞向量,將其輸出到全連接層網(wǎng)絡(luò)中進(jìn)行多標(biāo)簽分類,該全連接層的作用是擬合非線性多標(biāo)簽分類器的參數(shù),最后使用Focal loss函數(shù)作為損失函數(shù)去訓(xùn)練參數(shù),以解決在多標(biāo)簽分類中正負(fù)樣本比例失衡的問題。
圖4 BERT+FullConnect 分類模型
如圖5所示,使用BERT+BiLSTM+CRF的結(jié)構(gòu)進(jìn)行序列標(biāo)注任務(wù)。將BERT的輸出后面接一個(gè)BiLSTM網(wǎng)絡(luò),之后將前向和后向的LSTM求和送到CRF層中進(jìn)行概率計(jì)算得到預(yù)測的實(shí)體標(biāo)簽類型。
BERT+BiLSTM+CRF模型的前兩層的網(wǎng)絡(luò)結(jié)構(gòu)是BERT+BiLSTM模型,也是為了將輸入的文本序列進(jìn)行詞嵌入后變?yōu)檩斎朐~向量,然后通過BiLSTM網(wǎng)絡(luò)獲取上下文語義依賴關(guān)系。如果直接將BiLSTM網(wǎng)絡(luò)輸出的結(jié)果取值概率最大進(jìn)行分類的話,分類結(jié)果不會(huì)很好,因?yàn)樗鼪]有考慮到相鄰句子之間的關(guān)系;而使用CRF層之后,可以通過轉(zhuǎn)移矩陣獲取相鄰句子之間的信息,從而獲得全局的最優(yōu)序列解。
圖5 BERT+BiLSTM+CRF分類模型
本文使用匹配的方法來對(duì)抽出來的事件進(jìn)行時(shí)態(tài)判斷,通過選取實(shí)體附近的詞和列表進(jìn)行匹配??梢詮膬蓚€(gè)方面來對(duì)事件的時(shí)態(tài)進(jìn)行判斷:
首先,在階段3中可以獲得事件的時(shí)間實(shí)體,通過將時(shí)間實(shí)體與我們構(gòu)建的時(shí)間時(shí)態(tài)詞列表去匹配,從而判斷事件是過去、現(xiàn)在還是未來的時(shí)態(tài)。對(duì)于未來時(shí)態(tài),構(gòu)建未來時(shí)態(tài)詞列表如[“明”,“后”,“下周”,…]和過去的時(shí)態(tài)詞列表[“昨天”,“去年”,“前天”,…]等,如果匹配上就為該時(shí)態(tài),否則為現(xiàn)在時(shí)態(tài)。
然后通過一些時(shí)態(tài)關(guān)鍵詞進(jìn)行判斷,對(duì)于將來的時(shí)態(tài)構(gòu)建詞列表[“將”,“要”,…],對(duì)于過去的時(shí)態(tài),構(gòu)建[“曾經(jīng)”,“已經(jīng)”,…]列表,跟哪個(gè)列表匹配上就為哪個(gè)時(shí)態(tài),否則為現(xiàn)在時(shí)態(tài)。
本文選取了5位微博用戶從2011年到2020年之間發(fā)布的微博內(nèi)容,一共8 180條數(shù)據(jù),對(duì)其進(jìn)行人工的標(biāo)注,標(biāo)注了包含11種事件類型的微博數(shù)量為3 202條,而另外的有4 978條是沒有定義的11種生活事件類型的數(shù)據(jù)。定義的11種事件類型分別是eat、audiovisual、motion、ill、sport、wedding、work、birth、buy、graduate、study。在8 180條微博數(shù)據(jù)中劃分訓(xùn)練集、驗(yàn)證集和測試集為8∶1∶1的比例來對(duì)微博做是否包含定義事件類型的二分類.同樣,在包含定義事件類型的3 202條數(shù)據(jù)中按照8∶1∶1來劃分訓(xùn)練集、驗(yàn)證集和測試集,做微博文本的多標(biāo)簽分類和事件元素的提取。
圖6 數(shù)據(jù)集中部分?jǐn)?shù)據(jù)的示例
如圖6所示,它是本文使用的部分?jǐn)?shù)據(jù)的展示,使用json格式存儲(chǔ)標(biāo)注好的數(shù)據(jù),其中:text表示微博文本,label表示文本是否包含事件,event_list表示標(biāo)注的事件類型和其中的實(shí)體,這是一個(gè)包含字典類型的列表,每一個(gè)字典表示對(duì)應(yīng)的一個(gè)事件,labelc表示事件類型,label_p表示事件動(dòng)作在原文的起止位置,labels表示事件元素在原文的起止位置,例如“清湯豌雜面”在原文下標(biāo)2至7的位置。time和place分別表示發(fā)博的事件和地點(diǎn),user_id則表示用戶的ID。
實(shí)驗(yàn)中使用的訓(xùn)練環(huán)境是GPU:2*TITAN V,Python 3.7.10,Tensorflow 1.13.1。
本節(jié)主要評(píng)估Pipeline系統(tǒng)的第一個(gè)階段,即判斷微博文本是否包含生活事件。以傳統(tǒng)的機(jī)器學(xué)習(xí)算法樸素貝葉斯和邏輯回歸作為baseline,然后使用BERT預(yù)訓(xùn)練模型實(shí)現(xiàn)了三種方法:BERT+FullConnect、BERT+BiLSTM和BERT+BiLSTM+Attention的方法。
表2 個(gè)人事件檢測結(jié)果 單位: %
表3 個(gè)人事件多標(biāo)簽分類結(jié)果 單位: %
在前面兩個(gè)階段抽取出文本包含的事件類型之后,本節(jié)主要介紹從微博中抽取事件元素Subject、Object、Time、Place的效果。本節(jié)使用CRF和BiLSTM+CRF作為baseline,比較它們與使用預(yù)訓(xùn)練模型BERT之間的性能。
表4 個(gè)人事件元素抽取的詞級(jí)別結(jié)果 單位: %
表5 個(gè)人事件元素抽取的實(shí)體級(jí)別結(jié)果 單位: %
綜上所述,可以看出本文使用的BERT+BiLSTM+Attention、BERT++FullConnect和BERT+BiLSTM+CRF在每個(gè)階段都會(huì)得到相比其他方法的最好結(jié)果。
表6 整個(gè)Pipeline系統(tǒng)的抽取結(jié)果 單位: %
本章使用前端頁面的方式展現(xiàn)用戶發(fā)生的事件在時(shí)間軸上的展示效果。如圖7所示,一共有5個(gè)用戶,分別是P0、P1、P2、P3、P4和P5,每人都有一條事件時(shí)間線,他們所對(duì)應(yīng)的時(shí)間線顏色不同,可以從括號(hào)中看到每個(gè)用戶發(fā)生的事件的總數(shù),上面的刻度是年份的時(shí)間線,下面部分則是在可視時(shí)間范圍內(nèi)的事件數(shù)量。
同時(shí)還可以放大或者縮小刻度線來細(xì)致地觀察事件,圖中展示的是將事件放大后的結(jié)果。每一個(gè)事件用一個(gè)原點(diǎn)的形式表示,不同用戶的事件用不同的顏色表示,還可以拖動(dòng)鼠標(biāo)來移動(dòng)時(shí)間軸,查看不同的時(shí)間區(qū)間內(nèi)的事件信息展示。點(diǎn)擊表示每一個(gè)事件的小圓點(diǎn),就可以展開該點(diǎn)表示的事件信息,如圖中所示該點(diǎn)發(fā)生的事件類型為“eat”,也就是“吃”類型的事件。里面包含了“吃”這一事件發(fā)生的具體位置為“成都大象花園泰式海鮮料理航空路店”,以及吃的具體內(nèi)容“冬陰功”,事件發(fā)生的時(shí)間為“2020.12.13 22:39”。
圖7 事件時(shí)間軸展示
未來將研究時(shí)間軸上用戶所發(fā)生事件之間的相關(guān)性,通過事件相關(guān)性之間的規(guī)律預(yù)測用戶未來可能發(fā)生的事件,并基于結(jié)果給用戶推薦個(gè)性化的服務(wù)。目前初步的探索構(gòu)建用戶事件圖譜的方式,將每一個(gè)事件作為一個(gè)點(diǎn),通過圖譜的演化來建立事件之間的聯(lián)系。本文的研究不僅適用于微博這樣的數(shù)據(jù)集,還可以用到諸如朋友圈這樣的社交媒體文本上。
社交媒體上個(gè)人事件的挖掘與識(shí)別對(duì)于針對(duì)用戶的個(gè)性化服務(wù)推薦有著重大的作用,本文實(shí)現(xiàn)了一個(gè)Pipeline的事件抽取系統(tǒng),根據(jù)事件的特點(diǎn),使用事件類型加事件元素的方法來刻畫一個(gè)事件,使后續(xù)的抽取目標(biāo)落到事件類型的分類和事件元素的分類中去,不僅使實(shí)驗(yàn)結(jié)果更直觀,也可以使用結(jié)構(gòu)化的方式刻畫出事件并存儲(chǔ)起來。
近年來,針對(duì)個(gè)人的服務(wù)推薦,一些人使用外部存在的服務(wù),使用諸如協(xié)同過濾的方法對(duì)同類型用戶或者同興趣的用戶進(jìn)行推薦,但是這僅僅從多用戶共性的層面對(duì)個(gè)人做出了推薦,沒有考慮到用戶自身的行為習(xí)慣規(guī)律,導(dǎo)致用戶可能不喜歡推薦的服務(wù)。本文從用戶自身出發(fā),通過用戶自身的事件變化信息,抽取出用戶的事件信息結(jié)合其時(shí)間刻度構(gòu)建出一條用戶的個(gè)人事件時(shí)間軸,從這個(gè)新的角度對(duì)個(gè)人服務(wù)推薦進(jìn)行了探究,后續(xù)通過探究用戶個(gè)人時(shí)間軸上的時(shí)間變化規(guī)律,可以對(duì)用戶未來可能發(fā)生的事件進(jìn)行預(yù)測,從而為個(gè)性化的服務(wù)推薦提供新思路。
[1] DI EUGENIO B, GREEN N, SUBBA R. Detecting life events in feeds from Twitter[C]// Proceedings of the IEEE 7th International Conference on Semantic Computing. Piscataway: IEEE, 2013: 274-277.
[2] DICKINSON T, FERNáNDEZ M, THOMAS L A, et al. Identifying prominent life events on Twitter[C]// Proceedings of the 8th International Conference on Knowledge Capture. New York: ACM, 2015: No.4.
[3] CHOUDHURY S, ALANI H. Personal life event detection from social media[C]// Late?breaking Results, Doctoral Consortium and Workshop Proceedings of the 25th ACM Hypertext and Social Media Conference. Aachen: CEUR?WS.org, 2014: No.SP2014_04.
[4] DHILLON P S, FOSTER D, UNGAR L. Multi?view learning of word embeddings via CCA[C]// Proceedings of the 24th International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2011: 199-207.
[5] KHODABAKHSH M, KAHANI M, BAGHERI E, et al. Detecting life events from twitter based on temporal semantic features[J]. Knowledge?Based Systems, 2018, 148: 1-16.
[6] LI J W, RITTER A, CARDIE C, et al. Major life event extraction from twitter based on congratulations/condolences speech acts[C]// Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2014: 1997-2007.
[7] BLEI D M, NG A Y, JORDAN M I. Latent Dirichlet allocation[J]. Journal of Machine Learning Research, 2003, 3: 993-1022.
[8] CHOUDHURY S, ALANI H. Detecting presence of personal events in Twitter streams[C]// Proceedings of the 2014 International Conference on Social Informatics, LNCS 8852. Cham: Springer, 2015: 157-166.
[9] LI J W, CARDIE C. Timeline generation: tracking individuals on twitter[C]// Proceedings of the 23rd International Conference on World Wide Web. New York: ACM, 2014: 643-652.
[10] HOCHREITER S, SCHMIDHUBER J. Long short?term memory[J]. Neural Computation, 1997, 9(8): 1735-1780.
[11] SCHUSTER M, PALIWAL K K. Bidirectional recurrent neural networks[J]. IEEE Transactions on Signal Processing, 1997, 45(11): 2673-2681.
[12] ZHOU C T, SUN C L, LIU Z Y, et al. A C?LSTM neural network for text classification[EB/OL]. (2015-11-30)[2021-09-10].https://arxiv.org/pdf/1511.08630.pdf.
[13] YEN A?Z, HUANG H?H, CHEN H?H. Detecting personal life events from Twitter by multi?task LSTM[C]// Proceedings of the 2018 Web Conference Companion. Republic and Canton of Geneva, Switzerland: International World Wide Web Conferences Steering Committee, 2018: 21-22.
[14] YEN A Z, HUANG H H, CHEN H H. Personal knowledge base construction from text?based lifelogs[C]// Proceedings of the 42nd International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2019: 185-194.
[15] YEN A Z, HUANG H H, CHEN H H. Multimodal joint learning for personal knowledge base construction from Twitter?based lifelogs[J]. Information Processing and Management, 2020, 57(6): No.102148.
[16] DEVLIN J, CHANG M W, LEE K, et al. BERT: pre?training of deep bidirectional transformers for language understanding[C]// Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). Stroudsburg, PA: ACL, 2019: 4171-4186.
[17] ZHOU P, SHI W, TIAN J, et al. Attention?based bidirectional long short?term memory networks for relation classification[C]// Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers). Stroudsburg, PA: ACL, 2016: 207-212.
[18] LAFFERTY J D, McCALLUM A, PEREIRA F C N. Conditional random fields: probabilistic models for segmenting and labeling sequence data[C]// Proceedings of the 18th International Conference on Machine Learning. San Francisco: Morgan Kaufmann Publishers Inc., 2001: 282-289.
Personal event detection method based on text mining in social media
XIAO Rui, LIU Mingyi, TU Zhiying, WANG Zhongjie*
(,,150001,)
Users’ social media contains their past personal experiences and potential life patterns, and the study of their patterns is of great value for predicting users’ future behaviors and performing personalized recommendations for users. By collecting Weibo data, 11 types of events were defined, and a three?stage Pipeline system was proposed to detect personal events by using BERT (Bidirectional Encoder Representations from Transformers) pre?trained models in three stages respectively, including BERT+BiLSTM+Attention, BERT+FullConnect and BERT+BiLSTM+CRF. The information of whether the text contained defined events, the event types of events contained, and the elements contained in each event were extracted from the Weibo, and the specific elements are Subject (subject of the event), Object (event element), Time (event occurrence time), Place (place where the event occurred) and Tense (tense of the event), thereby exploring the change law of user’s personal event timeline to predict personal events. Comparative experiments and analysis were conducted with classification algorithms such as logistic regression, naive Bayes, random forest and decision tree on a collected real user Weibo dataset. Experimental results show that the BERT+BiLSTM+Attention, BERT+FullConnect, BERT+BiLSTM+CRF methods used in three stages achieve the highest F1?score, verifying the effectiveness of the proposed methods. Finally, the personal event timeline was visually built according to the extracted events with time information.
social media; personal event; event detection; BERT (Bidirectional Encoder Representations from Transformers) model; personal event timeline
This work is partially supported by National Natural Science Foundation of China (61772155).
XIAO Rui, born in 1997, M. S. candidate. His research interests include service computing.
LIU Mingyi, born in 1995, Ph. D. His research interests include service computing.
TU Zhiying, born in 1983, Ph. D., associate professor. His research interests include software engineering, service computing, knowledge engineering, enterprise business modeling.
WANG Zhongjie, born in 1978, Ph. D., professor. His research interests include service computing, software engineering.
TP391.1
A
1001-9081(2022)11-3513-07
10.11772/j.issn.1001-9081.2022010106
2022?01?27;
2022?03?20;
2022?04?02。
國家自然科學(xué)基金資助項(xiàng)目(61772155)。
肖銳(1997—),男,重慶人,碩士研究生,主要研究方向:服務(wù)計(jì)算;劉明義(1995—),男,安徽宣城人,博士,CCF會(huì)員,主要研究方向:服務(wù)計(jì)算;涂志瑩(1983—),男,福建龍巖人,副教授,博士,CCF會(huì)員,主要研究方向:軟件工程、服務(wù)計(jì)算、知識(shí)工程、企業(yè)業(yè)務(wù)建模;王忠杰(1978—),男,山東龍口人,教授,博士,CCF高級(jí)會(huì)員,主要研究方向:服務(wù)計(jì)算、軟件工程。