鄧文君,袁 華,錢 宇
(電子科技大學(xué) 經(jīng)濟(jì)與管理學(xué)院,四川 成都 611731)
社交媒體作為目前最重要的信息源之一,在社會輿論、信息傳播、企業(yè)營銷等方面發(fā)揮著其他媒介所不可替代的作用。據(jù)新浪《2016微博企業(yè)白皮書》統(tǒng)計,截至2016年12月底,企業(yè)賬號注冊量已達(dá)到130萬,越來越多的企業(yè)利用社交媒體平臺塑造企業(yè)品牌、產(chǎn)品營銷推廣、客戶關(guān)系管理。相對傳統(tǒng)的信息傳播方式,企業(yè)加入社交媒體,不僅可以通過平臺獲取及時有用的信息,更重要的是還可以發(fā)布大量與企業(yè)經(jīng)營活動相關(guān)的信息,而這些信息具有重要的商業(yè)和研究價值。
近年來,自然語言處理領(lǐng)域的研究卓有成效。相對于其他信息類型,文本在實(shí)際生活中使用頻繁、用途廣泛、表達(dá)豐富,而社交媒體中企業(yè)信息主要也是以文本形式呈現(xiàn),且內(nèi)容簡潔、傳播迅速、相對真實(shí)且系統(tǒng)地記錄了企業(yè)各方面信息[1]。這些特性非常有利于企業(yè)行為識別及其演化分析。
然而,有效識別企業(yè)行為并研究企業(yè)行為演化規(guī)律面臨巨大挑戰(zhàn)。第一,社交媒體數(shù)據(jù)為短文本,具有表達(dá)類型多樣、噪音多、主題多等特點(diǎn);第二,傳統(tǒng)自然語言處理方法,如字典、統(tǒng)計、標(biāo)注等不能有效表征企業(yè)行為;第三,企業(yè)行為由動詞刻畫,人工標(biāo)注耗時費(fèi)力,且易忽略詞語語境。
為了克服這些挑戰(zhàn),本文提出利用淺層神經(jīng)網(wǎng)絡(luò)有效識別企業(yè)行為的方法。它不僅可以將企業(yè)行為刻畫成可以計算的高維向量,而且還保留詞語間部分語義和位置關(guān)系。然后,再基于企業(yè)行為的識別結(jié)果,分析企業(yè)行為演化,對比基于企業(yè)大事件等傳統(tǒng)角度分析企業(yè)演化。本文通過社交媒體中企業(yè)信息分析行為演化過程,落腳點(diǎn)更小,針對性更強(qiáng)。
對本文提出的企業(yè)行為識別及其演化分析,更通俗的研究領(lǐng)域為事件識別及話題演化。前人在這個領(lǐng)域做過很多研究,主要從傳統(tǒng)數(shù)據(jù)源識別事件,比如Zhiwei Li等人[2]在2005年提出了利用概率模型將新聞內(nèi)容和時間信息統(tǒng)一作為事件識別的要素從而識別新聞事件。隨著微博、推特等社交媒體發(fā)展,越來越多的研究聚焦于社交媒體,Wayne Xin Zhao等人在2013年提出一個針對突發(fā)事件文本表征模型,將突發(fā)事件的特征映射為向量[3]。對于突發(fā)事件,學(xué)者關(guān)注疾病爆發(fā)事件、經(jīng)濟(jì)危機(jī)事件、總統(tǒng)選舉、恐怖事件等,Becker等人[4]利用聚類算法去識別社交媒體數(shù)據(jù)中的事件;Qian等人[5]提出了BMM-SLDA模型,通過整合有監(jiān)督主題模型提高事件分類框架;Ritter等人[6]提取四組元素去匹配重要事件;Becker等人[7]還提出學(xué)習(xí)多特征相似矩陣的識別技術(shù);Young等人在2014年設(shè)計了一個生成模型,可以識別時間、位置以及緊急情況和非緊急情況不同性質(zhì)的事件;Rozenshtein等人在2014年提出使用兩個圖模型來形式化事件檢測的問題;Dong等人[8]提出了一種使用社交媒體數(shù)據(jù)進(jìn)行多尺度事件檢測的新方法。
對于話題演化方面的研究,傳統(tǒng)的方法如TFIDF(Term Frequency-Inverse Document Frequency),僅僅通過詞頻表征文檔,忽略了詞語的語義和位置關(guān)系;或者是利用矩陣的奇異值分解技術(shù)對文本降維,從而處理文本數(shù)據(jù);其中,最為有名的是Blei等人[9]提出的概率生成模型LDA(Latent Dirichlet Allocation)以及其他學(xué)者在LDA基礎(chǔ)上提出的概率模型。本文是利用淺層神經(jīng)網(wǎng)絡(luò)Word2Vec訓(xùn)練詞表征,從而識別企業(yè)行為,然后再對識別結(jié)果進(jìn)行企業(yè)行為演化分析。詞表征訓(xùn)練的優(yōu)點(diǎn)不僅是將文本語料轉(zhuǎn)化為可計算的向量,更重要的是結(jié)合了詞語之間的語義和位置關(guān)系。
企業(yè)行為(Enterprise Behavior)是指企業(yè)為了追求一定目標(biāo)而進(jìn)行的相關(guān)商業(yè)或社會活動,主要包括生產(chǎn)行為、分配行為、營銷行為、金融行為、創(chuàng)新行為等。而本文中的企業(yè)行為指企業(yè)利用社交媒體平臺發(fā)布企業(yè)相關(guān)信息從而達(dá)到產(chǎn)品發(fā)布、銷售、推廣以及粉絲關(guān)系管理等目標(biāo)的一系列行為,主要包括了發(fā)售(產(chǎn)品的發(fā)布和銷售)、推廣(產(chǎn)品的營銷推廣)、招募(招募粉絲及粉絲關(guān)系管理)、研發(fā)(產(chǎn)品技術(shù)創(chuàng)新和產(chǎn)品研發(fā))、合作(企業(yè)與其他企業(yè)或社交媒體的大V合作)等等。
本文使用的企業(yè)行為標(biāo)簽是邀請志愿者結(jié)合企業(yè)行為定義和對語料庫中前500個高頻動詞的理解,最終確定的企業(yè)行為類別標(biāo)簽。根據(jù)實(shí)驗需要,本文形成了發(fā)售、推廣、招募、研發(fā)、合作五類和銷售、推廣、研發(fā)、合作四類企業(yè)行為標(biāo)簽。
2.2.1 問題定義
首先用Weibos表示語料庫所有文檔,如式(1)所示。
(1)
企業(yè)通過社交媒體平臺發(fā)布企業(yè)相關(guān)信息,而這些信息中隱含了大量企業(yè)行為。為了識別企業(yè)行為,假設(shè)企業(yè)行為共有n類,用集合E表示,如式(2)所示。
E={e1,e2,…,ei,…,en}
(2)
上述每一類行為都能被一組k維向量表示,如式(3)所示。
ei=[vi1,vi2,…,vij,…,vik]
(3)
其中向量的元素vij表示事件的一個觸發(fā)詞。
由于社交媒體平臺信息多為短文本(限定140字),本文假定每一篇文檔最多包含一類行為。因此,本文需要解決的問題是,識別出一篇新文檔Weiboj中的企業(yè)行為ei,然后分析帶有時間戳的企業(yè)行為如何演化。
2.2.2 企業(yè)行為識別研究框架
本文提出的企業(yè)行為識別框架主要分為兩部分:構(gòu)建企業(yè)行為識別分類器,以及利用分類器來識別新文檔中的潛在事件。完整的流程如圖1所示。
圖1 企業(yè)行為識別框架
構(gòu)建企業(yè)行為識別分類器流程如下:(1)對語料庫數(shù)據(jù)進(jìn)行預(yù)處理; (2)利用Word2Vec訓(xùn)練詞表征; (3)人工標(biāo)注部分企業(yè)行為標(biāo)簽,形成種子數(shù)據(jù); (4)對種子數(shù)據(jù)進(jìn)行動詞抽取,并基于詞表征計算種子數(shù)據(jù)集中企業(yè)行為向量seedei; (5)根據(jù)企業(yè)行為seedei對語料庫中剩余動詞進(jìn)行相似度識別形成觸發(fā)器; (6)基于觸發(fā)器形成企業(yè)行為向量ei進(jìn)行企業(yè)行為識別。
對于一篇新的文檔weiboj,首先進(jìn)行數(shù)據(jù)預(yù)處理,再抽取動詞,然后用動詞向量表征新文檔。
2.2.3 數(shù)據(jù)預(yù)處理
本文使用了Python+scrapy的爬蟲框架,抓取了國內(nèi)知名手機(jī)廠商(主要有華為、小米、魅族、中興、聯(lián)想、酷派、OPPO、VIVO、HTC、TCL)的官方微博。
數(shù)據(jù)預(yù)處理主要包括以下幾方面:
? 數(shù)據(jù)清洗:使用Python的庫Beautifulsoup對數(shù)據(jù)集中html5標(biāo)簽進(jìn)行解析,然后再刪除重復(fù)數(shù)據(jù)。
? 分詞處理:將文本分成有意義的單元,本文使用Jieba對文本進(jìn)行分詞。
? 刪除無意義詞:由于文本中經(jīng)常包含一字詞和停用詞,為了獲得更好的實(shí)驗效果,所以需要刪除無意義詞。
數(shù)據(jù)預(yù)處理后,文檔由k個有序詞元素組成,如式(4)所示。
weiboi=wi1,wi2,…,wik
(4)
其中,wij表示weiboi中第j個位置上的詞。
2.2.4 詞表征
對于詞表征,即是將詞語表征為向量,如式(5)所示。
(5)
近年來,從海量非結(jié)構(gòu)化文本數(shù)據(jù)中訓(xùn)練詞表征,已經(jīng)取得了卓有成效的研究。尤其Mikolov等人[10]提出Skip-gram模型,Skip-gram模型訓(xùn)練詞表征主要是通過輸入當(dāng)前詞語來預(yù)測詞語周圍出現(xiàn)的詞語,簡單來講,它的數(shù)學(xué)模型就是給定文檔的訓(xùn)練詞組ws=ws1,ws2,…,wsT,訓(xùn)練對象的最大概率,如式(6)所示。
(6)
其中wst表示ws中第t個詞,pwsj|wst表示出現(xiàn)詞wst條件下出現(xiàn)wsj的概率,b表示第t個詞前后b個詞,即訓(xùn)練窗口大小。
2.2.5 觸發(fā)器及企業(yè)行為識別
Ritter等人提出利用觸發(fā)器識別社交媒體中人的行為,本文將其觸發(fā)器思想運(yùn)用到企業(yè)行為識別中,觸發(fā)器及企業(yè)行為識別如下:
(1) 種子行為表征:利用種子數(shù)據(jù)中同一類企業(yè)行為中所有動詞的平均詞向量來表示這種子企業(yè)行為,如式(7)所示。
(7)
其中,seedei表示種子數(shù)據(jù)中企業(yè)行為向量,用seedei=vi1,vi2,…,vij,…,vim表示,i表示標(biāo)簽類型,Ri表示i類標(biāo)簽中的動詞總數(shù),vec(seedij)表示種子數(shù)據(jù)中第i類企業(yè)行為中第j個動詞的向量。
(2) 同義詞識別:淺層神經(jīng)網(wǎng)絡(luò)訓(xùn)練詞表征,使得詞向量保留了詞語部分語義和位置關(guān)系。本文利用詞向量的這個特性,進(jìn)行同義詞識別。根據(jù)cosine計算兩個動詞相似度。如式(8)所示。
(8)
(3) 觸發(fā)器識別:在本文中假定語料庫中動詞都能在一定程度上觸發(fā)某類企業(yè)行為。
第一步:利用(1)種子行為向量對剩余前top個高頻動詞進(jìn)行同義詞識別,如式(9)所示。
(9)
其中vi表示剩余的前top個動詞詞組中的第i個動詞,vec(vi)是利用詞表征得到的動詞向量。
第二步: 取相似度值最大。如果最大值大于等于閾值u0,則動詞的企業(yè)行為標(biāo)簽e*為最大相似度值;如果最大值小于u0,動詞會被當(dāng)成噪音過濾掉。如式(10)所示。
(10)
(4) 企業(yè)行為表征:利用觸發(fā)器動詞詞組(triggerv)的平均向量表征企業(yè)行為,如式(11)所示。
(11)
其中,vec(triggervij)表示觸發(fā)企業(yè)行為i中的j個動詞,Ri為觸發(fā)動詞總數(shù),由此得到企業(yè)行為向量表示為ei=vi1,vi2,…,vij,…,vik。
(5) 分類器:第一步:通過觸發(fā)器表征企業(yè)行為ei;新文檔向量用vec(weiboi)表示,利用cosine計算兩者相似度。如式(12)所示。
(12)
第二步: 本文給sim(vec(weibok),ei)設(shè)定閾值用u1表示。如果sim(vec(weibok),ei)的最大值小于閾值u1,這將此篇文檔標(biāo)為NULL,反之,將此文檔標(biāo)注為相似度最高的企業(yè)行為標(biāo)簽。如式(13)所示。
(13)
其中,i*表示企業(yè)行為標(biāo)簽。
綜上所述,對新文檔的企業(yè)行為識別算法如表1所示。
表1 企業(yè)行為識別算法
基于識別結(jié)果進(jìn)行企業(yè)行為演化建模,演化分析包括兩個維度:(1)企業(yè)在某一時間段的行為演化; (2)競爭型企業(yè)間行為的對比演化。演化分析的兩個維度不僅可以研究企業(yè)自身行為趨勢,而且可以對比競爭企業(yè)的市場走勢。
基于以上兩個維度,假設(shè)企業(yè)用集合C表示,即C=c1,c2,…,ci,…,ck,某一區(qū)間設(shè)為T=tx~ty,時間粒度設(shè)置為t個月,企業(yè)行為用E=e1,e2,…,ei,…,en表示。
對于某一企業(yè)ck(常量)的企業(yè)行為ei在時間區(qū)間T,時間粒度為t月的所對應(yīng)的企業(yè)行為數(shù)量如式(14)所示。
(14)
因此,企業(yè)在時間區(qū)間為T,時間粒度為t月,企業(yè)ck所對應(yīng)的所有企業(yè)行為ei占比如式(15)所示,其中Ratio主要用于衡量某一企業(yè)在時間粒度t發(fā)布信息的重點(diǎn)(即該階段企業(yè)行為占比情況)。
(15)
同理,對于企業(yè)行為em(常量)在時間區(qū)間T,時間粒度為t月,某企業(yè)ci對應(yīng)企業(yè)行為em數(shù)量表示如式(16)所示,
(16)
因此,在時間區(qū)間為T,時間粒度為t月,針對特定企業(yè)行為em所對應(yīng)的k家企業(yè)的占比如式(17)所示,這里Ratio主要用于衡量在同一時間段,各個企業(yè)發(fā)布信息的重點(diǎn)(即該階段不同企業(yè)的同一行為的占比情況)。
(17)
所以,通過以上兩個模型,可以求得針對特定企業(yè)的某些企業(yè)行為占比情況,以及針對特定企業(yè)中某些企業(yè)的特定行為占比情況。由于企業(yè)行為都帶有時間戳進(jìn)而可以得到企業(yè)行為的演化情況。
本次實(shí)驗數(shù)據(jù)來自新浪微博[注]http://weibo.com,數(shù)據(jù)對象是國內(nèi)知名手機(jī)企業(yè)的官方微博(包括華為、小米、魅族、中興、聯(lián)想、酷派、OPPO、VIVO、HTC和TCL等十家企業(yè)),圖2為企業(yè)賬號發(fā)布原始數(shù)據(jù)樣式。
圖2 微博原始數(shù)據(jù)樣例
本次實(shí)驗一共爬取數(shù)據(jù)88 874條(數(shù)據(jù)量12.2MB),每條數(shù)據(jù)包括微博ID、賬號名、發(fā)布時間、發(fā)布內(nèi)容四個屬性值。通過對語料庫進(jìn)行數(shù)值統(tǒng)計(表2),可以看到語料庫中動詞總數(shù)為1 397 726個。人工難以將所有動詞進(jìn)行準(zhǔn)確標(biāo)注,所以本文提出的觸發(fā)器識別具有重要的意義。
表2 預(yù)處理后數(shù)據(jù)統(tǒng)計
續(xù)表
對語料庫中所有動詞進(jìn)行統(tǒng)計,得到語料庫中前100個高頻動詞詞頻統(tǒng)計,如圖3所示。
另外,本文對微博賬號的數(shù)據(jù)分布進(jìn)行統(tǒng)計(表3),包括了每個賬號名(ID號)、微博總數(shù)以及時間間隔。由于社交媒體平臺系統(tǒng)記錄了企業(yè)信息,非常有利于后續(xù)研究企業(yè)行為演化過程。
本次實(shí)驗需要用到種子數(shù)據(jù)和基準(zhǔn)數(shù)據(jù),種子數(shù)據(jù)的主要目的是用于對企業(yè)行為進(jìn)行分類,所以種子數(shù)據(jù)中每篇文檔都被標(biāo)注企業(yè)行為標(biāo)簽?;鶞?zhǔn)
表3 微博數(shù)據(jù)分布統(tǒng)計
圖3 語料庫中剩余動詞前100個高頻動詞
數(shù)據(jù)主要用于對分類器的準(zhǔn)確率、召回率以及F值進(jìn)行評估。為了標(biāo)注數(shù)據(jù),本文邀請志愿者隨機(jī)讀取文檔,并根據(jù)對文檔的理解給其標(biāo)注對應(yīng)的企業(yè)行為標(biāo)簽,第一份種子數(shù)據(jù)的標(biāo)簽類別分別是推廣、發(fā)售、研發(fā)、合作、招募五類。第二份的標(biāo)簽分別是銷售、研發(fā)、合作、推廣四類。每組種子數(shù)據(jù)包括1 000篇文檔,每一類型總數(shù)一致,基準(zhǔn)數(shù)據(jù)集中包括300篇文檔,每一類型總數(shù)一致,一共標(biāo)注了兩組基準(zhǔn)數(shù)據(jù)。
對于詞表征,本文通過Word2Vec訓(xùn)練詞向量表征文檔,可以通過Python調(diào)用Gensim[注]Genism來源:https://radimrehurek.com/gensim/完成的語料訓(xùn)練。
Word2Vec包括了兩個模型,分別是Skip-gram和CBOW(Continuous Bag of Words),其中主要的參數(shù)是窗口、模型、維度。為了驗證最佳窗口以及最佳模型,本文對數(shù)據(jù)集data_1和data_2進(jìn)行分類評估,選擇維度size=100(即將詞映射成100維的向量);對于窗口以及模型參數(shù),窗口參數(shù)取值列表window=2,3,4,5,6,7,8,模型參數(shù)列表sg=[0,1],sg=0表示選擇CBOW,sg=1表示選擇skip-gram,對比評價指標(biāo)F_值如圖4所示。
從圖4可以明顯看出,對于兩組數(shù)據(jù)集,skip-gram模型都比COBW更好;而窗口選擇window=7效果最好。
因此,本文選擇的參數(shù)如下所示:
? 向量維度size=100;
? 內(nèi)容的窗口大小window=7;
? 選擇模型sg=1,即選擇Skip-gram。
3.3.1 觸發(fā)器參數(shù)實(shí)驗
觸發(fā)器參數(shù)實(shí)驗主要針對參數(shù)top(表示高頻動詞取值)。本文對剩余動詞中前top個 高 頻 詞 進(jìn)行觸發(fā)器識別,通過對高頻動詞和種子數(shù)據(jù)中企業(yè)行為進(jìn)行相似度計算。如果最大相似度小于閾值,則此高頻動詞無法觸發(fā)企業(yè)行為,如果相似度最大值大于等于閾值,那么詞高頻動詞觸發(fā)了企業(yè)行為,將此動詞加入到觸發(fā)對應(yīng)企業(yè)行為的觸發(fā)器中。
圖4 基于F_值指標(biāo)的詞向量訓(xùn)練窗口及模型趨勢
基于數(shù)據(jù)集data_1,研究隨著前top個動詞變化(top=[100,200,300,400,500,600,700,800,900]),分類器的準(zhǔn)確率、召回率和F_值的變化如圖5所示,其中觸發(fā)器閾值設(shè)定u0=0.3,分類器閾值設(shè)定u1=0.3
圖5 Data_1高頻動詞對觸發(fā)器影響
從圖5明顯看出隨著top變化,識別效果會在某一個點(diǎn)達(dá)到峰值,data_1中峰值為top=400。實(shí)驗表明,隨著top增加,觸發(fā)器識別能夠提高企業(yè)行為識別。但隨著top增加,噪音也會增加,觸發(fā)器會降低企業(yè)行為識別準(zhǔn)確性。
表4展示了觸發(fā)器中每一類企業(yè)行為對應(yīng)的前五個觸發(fā)動詞。根據(jù)觸發(fā)器參數(shù)實(shí)驗,在此觸發(fā)器識別參數(shù)選擇分別為:top=100,u0=0.3。
從表4中可以看出“發(fā)售”行為的觸發(fā)器動詞組識別效果較好,而其他企業(yè)行為都相應(yīng)地加入了噪音動詞。此結(jié)果說明觸發(fā)器單憑閾值u0設(shè)置,不能夠有效地過濾掉高頻動詞中的噪音動詞,觸發(fā)器識別導(dǎo)致企業(yè)行為加入了相應(yīng)的噪音動詞。
綜上,對觸發(fā)器參數(shù)識別中參數(shù)選擇如下:
? 剩余動詞中高頻動詞:top=400;
? 相似度閾值:u0=0.3
3.3.2 分類器識別效果
為了驗證我們提出的企業(yè)行為識別模型的有效性,我們比較了其他四種表征詞向量的方法,分別是詞袋(Bag of Words,BOW)[11]、TFIDF+BOW、TFIDF加權(quán)以及LDA。LDA是一個無監(jiān)督學(xué)習(xí)算法,將文檔集中每一篇文檔的主題以概率分布的形式給出;BOW假設(shè)文檔中詞匯是獨(dú)立的,基于文檔中的詞匯來構(gòu)建詞典,最后用詞典向量表征一篇文檔;TFIDF+BOW則需計算數(shù)據(jù)集中每個詞的TFIDF值,選擇高頻的TFIDF值的詞形成詞袋向量,從而表征文檔;而TFIDF加權(quán)選擇詞的方式與TFIDF+BOW一致,只是向量每一維的值等于對應(yīng)詞語在該句中的TFIDF值,以它作為加權(quán)值,從而表征文檔。它的主要缺點(diǎn)是忽略文本語法和語序關(guān)系導(dǎo)致識別效果不佳。對于四種方法,對比實(shí)驗結(jié)果如下:
從圖6可以看出基于Word2Vec表征文檔向量的分類效果,明顯優(yōu)于其他四種表征文檔的方法。其主要原因是:Skip-gram模型是一個淺層神經(jīng)網(wǎng)絡(luò)。它的每個詞與其上下文建立聯(lián)系(窗口控制),通過對語料庫的訓(xùn)練使得參數(shù)得到優(yōu)化,最終使得相關(guān)或者相似的詞更接近,用于觸發(fā)器以及企業(yè)行為識別的效果自然更優(yōu)。但是,本文的方法也存在局限性,比如不能有效地識別出NULL,即識別出每一篇文檔都具有企業(yè)行為。
圖6 分類器對比實(shí)驗結(jié)果
本文對于分類器識別,相似度閾值參數(shù)選擇如下:u1=0.3。
根據(jù)演化模型,針對維度一,本文分別選取了華為、VIVO、中興三家企業(yè)在2015年1月到2016年6月的數(shù)據(jù),用于研究這三家企業(yè)五類企業(yè)行為上的演化過程。其中參數(shù)分別表示為T=2015.1~2016.6,t=1個月,ck=[“華為”,“中興”,“VIVO”],E=[“發(fā)售”,“推廣”,“研發(fā)”,“合作”,“招募”],最后得到了三家企業(yè)的演化過程。(如圖7~圖9所示)。
圖7 2015.1~2016.6華為公司行為演化
圖8 2015.1~2016.6VIVO公司行為演化
圖9 2015.1~2016.6中興公司行為演化
針對維度一,可以看出不同企業(yè)的行為分布差異明顯,不同企業(yè)利用社交媒體平臺的側(cè)重點(diǎn)也不同。如圖7和8,可以看出華為注重在社交媒體中發(fā)布企業(yè)“合作”和“研發(fā)”行為等相關(guān)的企業(yè)信息,而VIVO則是側(cè)重將社交媒體平臺作為一個營銷推廣平臺,發(fā)布“招募”類信息。圖9展示出中興各類行為都有涉及,而“發(fā)售”行為占比很低。
針對維度二,分別取了華為、VIVO、中興、小米四家企業(yè)在2015年1月到2016年6月的數(shù)據(jù)中“發(fā)售”、“研發(fā)”、“合作”、“推廣”、“招募”五類企業(yè)行為。參數(shù)表示為T=2015.1~2016.6,t=1個月,C=[“華為”,“中興”,“VIVO”,“小米”],em=[“發(fā)售”,“研發(fā)”,“合作”,“推廣”,“招募”],五類企業(yè)行為具體演化如圖10~圖14所示。
圖10 2015.1~2016.6四家企業(yè)“發(fā)售”行為演化
圖11 2015.1~2016.6 四家企業(yè)“研發(fā)”行為演化
圖12 2015.1~2016.6 四家企業(yè)“合作”行為演化
圖13 2015.1~2016.6 四家企業(yè)“推廣”行為演化
圖14 2015.1~2016.6 四家企業(yè)“招募”行為演化
針對維度二,對于同一類的企業(yè)行為,競爭型企業(yè)之間具有不同的演化過程。通過分析競爭型企業(yè)間演化過程,能夠了解預(yù)測對手的情況。圖10針對“發(fā)售”行為,可以看出華為發(fā)布的“發(fā)售”信息較少甚至沒有,而小米和VIVO兩家以營銷起家的企業(yè)明顯更加側(cè)重于在社交媒體平臺進(jìn)行營銷,而中興則是走“中庸路線”;圖11針對“研發(fā)”行為,四家企業(yè)每月發(fā)布“研發(fā)”行為各有規(guī)律,其中華為的占比相對較高;圖12針對“合作”行為,其中中興和華為兩家企業(yè)合作行為表現(xiàn)明顯,而小米和VIVO發(fā)布關(guān)于“合作”行為的博文則相對較少;圖13針對“推廣”行為,其中VIVO和小米穩(wěn)居高位,且呈現(xiàn)對抗趨勢,即強(qiáng)競爭關(guān)系。而中興、華為在社交媒體上發(fā)布“推廣”信息明顯低于前兩家企業(yè);圖14針對“招募”行為,VIVO作為營銷型企業(yè),VIVO的招募行為明顯高于其他三家企業(yè)。
社交媒體中海量的用戶生成數(shù)據(jù)(User-generated Content,UGC)免費(fèi)且易獲取。這類數(shù)據(jù)具有重要的商業(yè)和研究價值,但傳統(tǒng)的統(tǒng)計分析和自然語言處理方法不能有效地處理這些數(shù)據(jù)。因此,本文提出了利用深度學(xué)習(xí)工具Word2Vec和動詞觸發(fā)器有效識別企業(yè)行為的方法,然后再基于識別方法分析企業(yè)行為的演化過程。
研究結(jié)果表明:本文基于神經(jīng)網(wǎng)絡(luò)模型挖掘企業(yè)行為的方法明顯優(yōu)于傳統(tǒng)方法,但是未來仍需要改進(jìn)對NULL(空類)以及多類主題的識別。對于企業(yè)行為的演化分析,不僅可以用于分析企業(yè)自身演化,也可以分析競爭對手間對比演化,未來可以用于對企業(yè)發(fā)展規(guī)律、企業(yè)關(guān)系抽取、企業(yè)知識圖譜等方向的研究。