丁行碩,李 翔*,謝 乾
(1.淮陰工學院計算機與軟件工程學院,江蘇淮安 223003;2.江蘇卓易信息科技股份有限公司,江蘇宜興 214200;3.南京百敖軟件有限公司,南京 210032)
近年來,隨著知識圖譜與大數(shù)據(jù)的快速發(fā)展,畫像技術(shù)受到工業(yè)界和學術(shù)界廣泛的關(guān)注。目前比較流行的企業(yè)畫像在電子商務、風險評估、市場監(jiān)管等方面有著廣泛的應用,其網(wǎng)站不僅具備傳統(tǒng)門戶網(wǎng)站的信息服務功能,還能提供許多與標簽相關(guān)的服務如熱點分析和企業(yè)推薦等。作為一種新型的畫像技術(shù)應用,企業(yè)畫像中不僅包含大量企業(yè)、位置等多模實體,還擁有大量的異質(zhì)關(guān)系和文本特征,比如企業(yè)位置關(guān)系、企業(yè)競爭合作關(guān)系以及企業(yè)研究者發(fā)表的論文專利關(guān)系。企業(yè)畫像的實質(zhì)是基于企業(yè)結(jié)構(gòu)化和半結(jié)構(gòu)數(shù)據(jù),抽取出標簽化的企業(yè)模型,這些大量數(shù)據(jù)混合在一起形成了非常復雜的結(jié)構(gòu)特征。
企業(yè)文本是企業(yè)向社會展示企業(yè)基本信息和綜合實力的載體。通過畫像技術(shù)對不同維度信息篩選整合,以不同的形式向企業(yè)、政府提供服務。在企業(yè)畫像中,標簽體系建設是畫像研究的重要部分,是通過企業(yè)基礎的統(tǒng)計類標簽,以及行為產(chǎn)生的規(guī)則類標簽,最后是數(shù)據(jù)挖掘產(chǎn)生的挖掘類標簽共同構(gòu)建而成。然而,由于大量不同維度企業(yè)信息過于雜亂,導致信息處理、標簽提取等任務難度較大,因此標簽建模的合理性以及標簽抽取的精確程度直接影響到畫像的表達能力及畫像應用效果。目前,在傳統(tǒng)的標簽建模領域已有許多成果,總體上看,現(xiàn)階段主流的標簽建模方法大致有3 種:基于傳統(tǒng)模式的方法、基于機器學習的方法和基于神經(jīng)網(wǎng)絡的方法等。一方面,這些方法雖然能準確地發(fā)現(xiàn)文本標簽,但都存在的問題是僅適用于同一實體或單一關(guān)系,特別是對于企業(yè)文本這種既有多模實體,又有因多維度實體形成的異質(zhì)關(guān)系,比如企業(yè)在行為空間活躍形成發(fā)展趨勢主題,還在結(jié)構(gòu)空間由多源信息形成趨勢點,上述標簽建模方法顯然無法有效地融合多維實體和異質(zhì)關(guān)系;另一方面,信息的多樣性給數(shù)據(jù)處理、分析帶來挑戰(zhàn),在傳統(tǒng)標簽建模過程中易出現(xiàn)模糊標簽集合,但較少有學者關(guān)注于企業(yè)模糊標簽特點,例如批發(fā)業(yè)、零售業(yè)等無法完整概括企業(yè)特點的標簽。自然語言處理(Natural Language Processing,NLP)和數(shù)據(jù)挖掘能夠從非結(jié)構(gòu)化數(shù)據(jù)中得到具有高度概括能力的標簽,并呈現(xiàn)語義化和短文本兩個主要特征,為標簽建模提供新的思路,但這些方法仍未能準確、真實反映企業(yè)特點和關(guān)聯(lián)性。因此,為了更好地對復雜信息標簽建模,多源信息融合與NLP 相結(jié)合成為新的標簽建模方式。
本文針對以上問題提出了一種基于標簽分層延深建模的企業(yè)畫像構(gòu)建方法EPLLD(Enterprise Portrait of Label Layering and Deepening)。首先,基于企業(yè)畫像指標體系建立模糊標簽指標體系;然后,闡述模糊標簽處理和EPLLD 建模的過程;最后,以企業(yè)信息文本作為實驗數(shù)據(jù),根據(jù)實驗結(jié)果分析EPLLD 的優(yōu)勢以及未來工作。概括來看,本文的主要工作如下:
1)提出了一種基于標簽分層延深建模的企業(yè)畫像構(gòu)建方法,該方法對模糊標簽進行模糊標簽延深,然后使用關(guān)鍵詞提取實現(xiàn)標簽分層延深建模,可以形象展示企業(yè)特點。
2)以企業(yè)標簽指標體系為基線,建立企業(yè)模糊標簽指標體系,由此展示模糊標簽在畫像維度上的分布與規(guī)律。
3)本文使用特征融合的方法對多源文本進行向量拼接,并充分利用BERT(Bidirectional Encoder Representation from Transformers)語言模型和深度學習抽取企業(yè)文本的多特征信息,最后通過TF-IDF(Term Frequency-Inverse Document Frequency)、TextRank、隱含狄利克雷分布(Latent Dirichlet Allocation,LDA)模型進行標簽抽取。在真實企業(yè)數(shù)據(jù)集上的實驗結(jié)果表明本文所提的EPLLD 方法在標簽延深和標簽體系結(jié)構(gòu)上都具有最好的表示效果。
現(xiàn)有畫像技術(shù)研究工作主要有三大類:面向應用畫像的研究發(fā)現(xiàn)、面向標簽體系建設的研究發(fā)現(xiàn)以及面向NLP 的標簽建模。
在面向應用畫像的研究發(fā)現(xiàn)中,大多數(shù)的畫像研究都是基于用戶畫像而產(chǎn)生,Alan 在1999 年提出Persona 的概念,它是一種建立在真實數(shù)據(jù)之上的目標用戶模型,被作為一種交互設計工具;2006 年Chun 等提出了Corporate Character Scale的相關(guān)概念,討論了Agreeableness、Competence、Enterprise、Ruthlessness、Chic 五個主要維度和Informality、Machismo 兩個次要維度,用于評估企業(yè)聲譽對員工和客戶的影響;2015 年Ma?ová 等在Corporate Character Scale 的概念上進行擴展,仍使用七個維度標簽對兩個著名零售企業(yè)進行調(diào)查,分析和揭示它們的企業(yè)形象;2019 年楊沛安等將畫像技術(shù)應用于網(wǎng)絡安全,通過分析威脅情報從而提高網(wǎng)絡攻擊識別的效率與準確性;2021 年李曉敏等通過了解用戶認知需求以及用戶畫像在圖書館的應用實踐,提出了一種面向用戶認知需求的圖書館用戶畫像推薦模型,促進了用戶畫像的構(gòu)建與完善。
在面向標簽體系建設的研究發(fā)現(xiàn)中,其關(guān)鍵問題是如何有效地融合多模實體和多維關(guān)系。劉海鷗等對用戶畫像研究成果進行細致的梳理,揭示了用戶畫像建模的不同方法,總結(jié)出了各類建模方法的特點與發(fā)展趨勢;Che 等對多標簽任務中的標簽相關(guān)性進行了深入研究,并提出了一種新 的FL-MLC(Feature distribution-based Label correlation in Multi-Label Classification)方法,描述特征變量和標簽變量之間的關(guān)系;Lin 等提出了一種消費者需求標簽提取方法,將電子口碑與信息技術(shù)結(jié)合在一起,提高企業(yè)市場競爭力。從已有的研究成果來看,標簽體系建設又可分為兩種維度:一種是使用標簽分類建設標簽體系,例如Pan 等提出了一種社交標簽擴展模型,利用標簽之間的關(guān)系擴展標簽,緩解標簽稀疏問題;黃曉斌等融合多源數(shù)據(jù)進行企業(yè)競爭對手畫像構(gòu)建,通過整合數(shù)據(jù)類型和增加權(quán)重,使用多種聚類算法對企業(yè)進行競爭者推薦;另一種是標簽分層建設標簽體系,標簽分層因具有高效、具體化優(yōu)勢,逐漸受到研究者們的廣泛關(guān)注。例如An 等使用交互式設計技術(shù),基于對社交媒體數(shù)據(jù)的自動分析,實現(xiàn)了對畫像內(nèi)容的層次性更新;Zhang 等利用數(shù)據(jù)驅(qū)動構(gòu)建畫像,提出了一種從下至上的定量數(shù)據(jù)驅(qū)動方法,并結(jié)合混合模型更新畫像內(nèi)容。此外,還可以通過融合結(jié)構(gòu)信息進行特征擴展,提高標簽準確率。
在面向NLP 的標簽建模中,研究者通常會采用NLP 來發(fā)現(xiàn)企業(yè)文本的隱藏特征,而傳統(tǒng)的文本處理方法會導致文本特征稀疏和語義敏感等問題。為更精準地建立全方面、多維度的企業(yè)畫像,多源信息融合為企業(yè)畫像構(gòu)建提供了新的思路,神經(jīng)網(wǎng)絡依據(jù)出色的自適應和實時學習特點成為畫像構(gòu)建的常用方法,關(guān)鍵詞提取因其適應性強廣泛應用于畫像標簽構(gòu)建。Mikolov 等提出Word2Vec 證明了在向量空間中單詞表示的有效性;Pennington 等和Peters 等提出的全局向量(Global Vectors,GloVe)和 ELMo(Embeddings from Language Models)取得了很大成功,解決了Word2Vec 只考慮詞的局部特征問題;Du 等提出了一種多級用戶畫像模型,通過集成標簽和評分來實現(xiàn)個性化推薦,反映用戶的喜好特點。在關(guān)鍵詞提取中,能把非結(jié)構(gòu)化文本中包含的信息進行結(jié)構(gòu)化處理,并將提取的信息以統(tǒng)一形式集成在一起。有監(jiān)督的關(guān)鍵詞提取精度高,需大量標注數(shù)據(jù),人工成本過高,無監(jiān)督提取應用廣泛,有基于統(tǒng)計特征的TF-IDF 算法、基于詞圖模型的TextRank 算法和基于主題的LDA 主題模型算法等。不同類型文本中,同一算法應用效果存在差異,因此組合算法的應用彌補了單算法不足。
綜上可知,目前學者研究中,基于機器學習模型和深度學習模型的標簽抽取、標簽分類任務已經(jīng)取得了很高的成就,但較少有學者關(guān)注企業(yè)模糊標簽特點,建立自上而下的標簽分層延深建模體系。雖然已有一些研究嘗試采用集成方法來融合多維信息,但這些方法都存在局限性,有些方法忽略了多源文本的交互關(guān)系或關(guān)聯(lián)性,而另一些方法則無法充分發(fā)現(xiàn)企業(yè)文本特征,容易丟失重要信息。針對標簽體系建設特別是標簽建模中存在的標簽概括能力差、模糊標簽處理難、標簽提取不合理等問題,本文結(jié)合數(shù)據(jù)特點和企業(yè)特性來規(guī)約數(shù)據(jù)實體,依據(jù)企業(yè)領域?qū)I(yè)術(shù)語進行企業(yè)詞庫特征拓展,提出了一種EPLLD 方法。首先,利用分布式爬蟲爬取企業(yè)信息并進行數(shù)據(jù)清洗,標注和構(gòu)建企業(yè)標簽、詞庫,對企業(yè)模糊標簽進行統(tǒng)計和篩選,篩選出如批發(fā)業(yè)、零售業(yè)等不能完整概括企業(yè)特點的標簽信息;接著,通過對各企業(yè)類別、標簽等要素分析進行多源信息融合,并將整合后的特征信息使用BERT 語言模型進行字嵌入表示,利用注意力(Attention)機制發(fā)現(xiàn)文本信息長距離依賴關(guān)系;然后,將處理后的向量序列傳入雙向長短期記憶(Bi-directional Long Short-Term Memory,BiLSTM)網(wǎng)絡,依據(jù)企業(yè)特征信息和企業(yè)標簽進行模糊標簽延深;最后,使用綜合抽取算法從多特征信息中提取關(guān)鍵詞,將處理后的關(guān)鍵詞作為更深層的企業(yè)延深標簽。EPLLD 方法能夠挖掘深層次的標簽信息,并進行由淺入深的標簽體系構(gòu)建,從而解決企業(yè)標簽建模難度大和標簽分層效果差等問題。
標簽體系建設是企業(yè)畫像建設中的基本任務,本文以企業(yè)數(shù)據(jù)指標體系為基線,建立企業(yè)模糊標簽指標體系,通過EPLLD 實現(xiàn)模糊標簽的自動延深。即結(jié)構(gòu)化標簽無法概括企業(yè)特點,從企業(yè)網(wǎng)絡文本提取具有實際意義的標簽來表示企業(yè)形象。
相較于基線體系,企業(yè)模糊標簽指標體系在標簽的類型劃分和模糊標簽的處理上有很大改變。本文依據(jù)標簽抽取方法的不同來劃分標簽類型,該指標體系能夠?qū)μ幚矸椒ㄏ嗤钠髽I(yè)數(shù)據(jù)進行數(shù)據(jù)分群,從而有效篩選和處理模糊標簽,企業(yè)模糊標簽指標體系如表1 所示,共包含三種標簽類型:1)統(tǒng)計類標簽,包括基本信息、科研信息以及其他信息;2)規(guī)則類標簽,包含企業(yè)規(guī)模、企業(yè)價值以及風險等級;3)挖掘類標簽,包含企業(yè)需求、企業(yè)特點等,其中x
、y
為二級標簽。第二類中的規(guī)則類標簽抽取主要為統(tǒng)計學方法,能夠避免模糊標簽出現(xiàn),而統(tǒng)計類和挖掘類標簽中的結(jié)構(gòu)化數(shù)據(jù)易出現(xiàn)標簽表達不明確的現(xiàn)象,本方法對其進行了模糊標記。同時,本文針對二級指標的直觀表達展開研究,依據(jù)數(shù)據(jù)的差異對一級指標和二級指標進行微調(diào)。表1 模糊標簽指標體系Tab 1 Fuzzy label index system
基于模糊標簽指標體系存在的相關(guān)問題,本文建立的企業(yè)標簽分層延深模型如圖1所示。分為以下三部分:1)基于多源異構(gòu)分布式爬蟲獲取企業(yè)網(wǎng)絡文本,并對內(nèi)部數(shù)據(jù)和網(wǎng)絡文本進行數(shù)據(jù)清洗,包括去重、去空以及缺失值填補等;2)使用特征融合的方法進行向量拼接,將多源企業(yè)信息融合為多特征語料,基于融合的多特征語料進行特征抽取,將抽取的隱藏特征傳入BiLSTM獲取模糊標簽延深結(jié)果;3)結(jié)合模糊標簽延深信息實現(xiàn)進一步的標簽抽取延深,完成EPLLD建模。
圖1 EPLLD建模過程Fig.1 EPLLD modeling process
在明確企業(yè)畫像指標體系后,進一步獲取各指標數(shù)據(jù)。獲取指標數(shù)據(jù)的方式主要分為兩種:一種是通過企業(yè)內(nèi)部數(shù)據(jù)源得到企業(yè)基本信息、企業(yè)資質(zhì)信息和企業(yè)交易數(shù)據(jù)等;另一種是通過分布式爬蟲爬取各信息網(wǎng)站中的網(wǎng)絡文本,間接獲得如專利信息、招聘信息和企業(yè)評價信息等。本文結(jié)合兩種方法獲得指標數(shù)據(jù),首先從企業(yè)內(nèi)部得到企業(yè)核心數(shù)據(jù);其次使用Scrapy 爬蟲框架建立分布式爬蟲,從社交平臺、招聘網(wǎng)站和門戶網(wǎng)站等進一步得到指標數(shù)據(jù)。
獲取各維度的指標數(shù)據(jù)后,對其進行數(shù)據(jù)清洗,本文數(shù)據(jù)清洗包含:重復數(shù)據(jù)的檢測及消除、缺失數(shù)據(jù)的統(tǒng)計及填補以及異常值的篩選和清理。
S
=T
,T
,…,T
,其中n
為字向量序列長度,將此向量表示作為深度神經(jīng)網(wǎng)絡的輸入。BERT 模型是基于雙向Transformer 編碼器構(gòu)建的語言模型,能夠發(fā)現(xiàn)詞語間的相互關(guān)系,此過程如圖2 所示。Transformer 是由編碼器和解碼器堆疊而成,在經(jīng)過6 個編碼器處理后在傳入6 個解碼器進行解碼。而編碼器和解碼器的核心是注意力機制,它能聚焦句子中的關(guān)鍵點,并整合到Value 上,從而計算其價值。通過不斷進行這樣的注意力機制層和非線性層交疊來得到最終的文本表達,更容易地捕獲長距離依賴信息。
圖2 BERT語言模型Fig.2 BERT language model
注意力機制的定義如式(1)所示,其計算流程如圖3所示:
圖3 Attention計算流程Fig.3 Attention calculation flow
d
為向量的維度,Q
、K
、V
為輸入的字向量矩陣。此語言模型將兩個單詞直接計算并將其相互聯(lián)系,通過將所有單詞表示加權(quán)求和,縮短特征間距離,提高特征的有效利用率。循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network,RNN)是一種用于處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡。相較于一般的神經(jīng)網(wǎng)絡模型,能夠有效處理序列變化的數(shù)據(jù)。LSTM 是一種特殊的RNN,LSTM 的提出解決了普通RNN 在訓練過程中出現(xiàn)的梯度消失和梯度爆炸問題。LSTM 通過簡單的網(wǎng)絡結(jié)構(gòu),使用門控機制保留序列中的長期信息,引入遺忘門、輸入門、輸出門3 個門控單元,來實現(xiàn)模型的有效訓練。
本文采用LSTM 處理文本多特征向量信息,其內(nèi)部結(jié)構(gòu)如圖4 所示。圖4中,σ
是為Sigmoid 激勵函數(shù);C
表示細胞狀態(tài);h
表示隱藏層狀態(tài);x
表示t
時刻網(wǎng)絡輸入。在LSTM 網(wǎng)絡中,f
、i
、o
分別表示遺忘門、輸入門和輸出門,W
和b
分別表示權(quán)重矩陣和偏置項,LSTM 網(wǎng)絡首先需要計算它的遺忘程度,即將t
時刻的記憶狀態(tài)乘以一個記憶衰減系數(shù)f
,衰減系數(shù)f
是根據(jù)t
時刻網(wǎng)絡輸入x
和t
-1 時刻的網(wǎng)絡輸入f
所決定,定義如式(2)所示:圖4 LSTM結(jié)構(gòu)Fig.4 LSTM structure
i
,它是由t
-1 時刻的h
和t
時刻的x
所決定,定義如式(3)所示:t
時刻記憶C
ˉ是經(jīng)過線性變換所得到,它也是由t
-1 時刻的h
和t
時刻的x
所決定,定義如式(4)所示:t
時刻的新記憶乘以衰減系數(shù)i
得到此時刻的學習記憶,然后計算保留的t
-1 時刻記憶f
*C
,將兩者相加作為t
時刻的記憶狀態(tài),定義如式(5)所示:t
-1 時刻的h
和t
時刻網(wǎng)絡輸入中的x
計算輸出門o
,定義如式(6)所示:最終網(wǎng)絡經(jīng)過tanh 轉(zhuǎn)化并輸出結(jié)果,由式(7)所計算:
ω
、υ
、b
分別為正向輸出權(quán)重矩陣、反向輸出權(quán)重矩陣和偏置。在標簽體系構(gòu)建中,經(jīng)常會得到不能完整表示企業(yè)形象的模糊標簽,而較少有學者關(guān)注模糊標簽的規(guī)范表示。本文設計了一種模糊標簽延深算法(Fuzzy Label Deepening Algorithm),在基于多源信息融合和專業(yè)領域詞庫的多特征選擇上,使用BiLSTM 網(wǎng)絡并添加注意力機制,得到企業(yè)的延深標簽信息。模糊標簽延深結(jié)構(gòu)如圖5 所示。
圖5 模糊標簽延深結(jié)構(gòu)Fig.5 Fuzzy label deepening structure
算法1 模糊標簽延深算法。
輸入 字向量特征表示x
,x
,…,x
,BiLSTM 網(wǎng)絡參數(shù)。輸出 模糊標簽延深序列Y
,Y
,…,Y
。待處理文本固定為統(tǒng)一長度L
令i
=1,依據(jù)統(tǒng)一長度進行向量標準化通過符號分割得到融合全文語義信息的向量表示T
,T
,…,T
通過式(1)對向量進行編碼和解碼
REPEAT
通過式(2)傳入h
和x
計算遺忘門f
值C
通過式(6)~(7)計算輸出門o
和正向輸出結(jié)果通過式(9)進行反向編碼
N
,讓待延深文本依次傳入三種算法抽取標簽,從不同維度獲取企業(yè)核心詞匯;最后,對抽取到的標簽進行劃分,相同標簽作為標簽延深的重要標簽,其余標簽作為重要的補充標簽,實現(xiàn)EPPLD 建模,其中label_number
≤3N
,label_number
為標簽延深后的標簽數(shù)量。通過多算法綜合提取,能夠發(fā)現(xiàn)文本的特征與聯(lián)系,使得整個模型獲得更好的效果。同時綜合提取算法主要面向企業(yè)經(jīng)營范圍和專利等信息進行提取,這些信息一般具有較強的企業(yè)特點和興趣偏好,因此延深后的標簽可以避免模糊標簽情況出現(xiàn)。實驗數(shù)據(jù)本文使用行業(yè)網(wǎng)站收集的企業(yè)文本作為實驗數(shù)據(jù),由于沒有現(xiàn)有的公共數(shù)據(jù)集,本文構(gòu)建了企業(yè)網(wǎng)絡文本數(shù)據(jù)集,數(shù)據(jù)集公開地址:https://github.com/Dingxingshuo/Corporate-portrait,其中包含244 890 篇企業(yè)文檔,共1 682 萬個漢字。使用2 880 條中英文企業(yè)領域關(guān)鍵詞進行特征擴展。將244 890 篇企業(yè)文檔以6∶2∶2 的比例分為訓練集、驗證集和測試集,數(shù)據(jù)描述如表2 所示。
表2 實驗數(shù)據(jù)集詳細信息Tab 2 Detail information of experimental datasets
Acc
)、精確率(P
)、召回率(R
)和F
1_
score 來評價模型效果。準確率是文本問題中最基本的評價指標;精確率是預測正確的數(shù)據(jù)量與被預測為正確的數(shù)據(jù)量之比,衡量的是查準率;召回率是預測為正確的數(shù)據(jù)量與實際類別為正確的數(shù)據(jù)量之比,衡量的是查全率;F
1_
score 是精確率和召回率的調(diào)和平均數(shù)。各個評價指標的計算公式如式(11)~(14)所示:TP
表示將正類預測為正類的數(shù)量;TN
表示將負類預測為負類的數(shù)量;FP
表示將負類預測為正類的數(shù)量;FN
表示將正類預測為負類的數(shù)量。實驗使用百分比表示本文模型的延深結(jié)果,通過對2 880 條中英文企業(yè)領域關(guān)鍵詞進行特征擴展,以BiLSTM 為基線加入特征提取算法進行測試,模型通過多特征提取隨機生成向量作為神經(jīng)網(wǎng)絡模型的輸入,所有模型若超過1 000 batch 效果沒有提升,則提前結(jié)束模型訓練。
為了驗證模型的優(yōu)越性,將本文所提EPLLD 與傳統(tǒng)標簽構(gòu)建算法K 近鄰(K-NearestNeighbor,KNN)、樸素貝葉斯分類器(Naive Bayesian Classifier,NBC)、卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)、Deep CNN、BiGRU(Bidirectional Gated Recurrent Unit)、RNN+CNN、BiLSTM+Attention 和BERT+Deep CNN 在企業(yè)數(shù)據(jù)集上分別進行實驗,實驗結(jié)果如表3 所示。相較于其他標簽處理的機器學習和神經(jīng)網(wǎng)絡模型,EPLLD 的結(jié)果最好。EPLLD 的F1_score 值達到91.08%,高于其他機器學習和深度學習模型。
表3 對比實驗結(jié)果 單位:%Tab 3 Comparative experimental results unit:%
為直觀表示各模型優(yōu)劣,挑選傳統(tǒng)深度學習模型使用驗證集進行迭代測試,結(jié)果如圖6 所示。由圖6 可以看出,隨著迭代次數(shù)的增加,所有模型損失值都在減小,損失值的大小表明模型訓練中的收斂情況。EPLLD 模型使用雙向Transformer 生成特征向量傳入神經(jīng)網(wǎng)絡不僅能夠獲得字嵌入特征,還能夠發(fā)現(xiàn)文本的層級特征和上下文特征,因此可以在較少的迭代中實現(xiàn)較好的收斂效果,而其他模型在EPLLD模型收斂后損失值依舊波動較大,易出現(xiàn)過擬合的情況。
圖6 驗證集損失值變化曲線Fig.6 Validation set loss value change curve
同時,挑選不同維度的4 種模型:能夠發(fā)現(xiàn)局部特征的Deep CNN 模型,發(fā)現(xiàn)上下文特征并聚焦關(guān)鍵點的BiLSTM+Attention 模型,發(fā)現(xiàn)上下文特征后在池化層進行最大池化的RNN+CNN 模型,以及多特征融合的EPLLD 模型,記錄4 種模型驗證集在每輪epoch 后的準確率變化,結(jié)果如圖7 所示。由圖7 可以看出,EPLLD 從第一輪迭代開始,準確率明顯高于其他模型,且在第二輪后準確率一直穩(wěn)定在90%以上。由此可見,雙向transformer 具備更強的學習能力,能夠發(fā)現(xiàn)長距離依賴關(guān)系和企業(yè)文本中的隱藏特征,說明EPLLD 方法對企業(yè)模糊標簽延深的有效性。
圖7 驗證集準確率變化曲線Fig.7 Validation set accuracy change curve
實驗最終使所有模型趨于平穩(wěn),學習能力達到飽和。為進一步說明這種快速收斂是由于模型的優(yōu)劣,本實驗給出了訓練集的損失值變化曲線,如圖8 所示。由圖8 可以看出,訓練集損失值一直在合理范圍上下波動,因此驗證集的快速收斂不是過早陷入局部最優(yōu)引起的。
圖8 訓練集損失值變化曲線Fig.8 Training set loss value change curve
將EPLLD 與傳統(tǒng)數(shù)據(jù)分析處理方法進行對比,在畫像的體系建設中存在明顯差異。以連云港市H 有限公司為例,建立標簽詞云圖,結(jié)果如圖9 所示。由圖9(a)可知,在傳統(tǒng)的數(shù)據(jù)分析處理標簽主題中僅有工程和化工標簽較為突出,此標簽無法直觀表示企業(yè)形象,且沒有表達出最重要的批發(fā)和商貿(mào)公司的特點。由圖9(b)可知,在EPLLD 標簽主題中,企業(yè)所屬的批發(fā)業(yè)標簽最為突出,在經(jīng)過多特征模糊標簽延深后獲得商貿(mào)標簽,然后使用綜合提取算法得到化工、鋼材以及工程等標簽,最后是普通標簽。因此,相較于傳統(tǒng)數(shù)據(jù)分析處理方法,EPLLD具有標簽層次好和概括能力強的優(yōu)點。
圖9 傳統(tǒng)數(shù)據(jù)分析處理方法與EPLLD的標簽主題Fig.9 Label themes of traditional data analysis and processing and EPLLD
EPLLD 標簽分層延深建模和傳統(tǒng)分析處理方法的對比結(jié)果如表4 所示。由表4 可知,EPLLD 能夠?qū)ζ髽I(yè)模糊標簽進行延深,形成分級表示的多特征標簽,具有標簽層次好、概括能力強的特點,同時表明EPLLD 在標簽處理和關(guān)鍵詞提取方面具有很好的效果。
表4 標簽建模對比結(jié)果Tab 4 Label modeling comparison results
本文所提出的基于標簽分層延深建模的企業(yè)畫像構(gòu)建方法EPLLD,在分析處理標簽的同時,能夠?qū)δ:畔⒔⒂蓽\入深的標簽延深。該方法通過分析處理多維度信息來融合企業(yè)特征,采用BiLSTM 網(wǎng)絡完成模糊標簽延深;接著基于多源信息融合后的企業(yè)數(shù)據(jù),通過TF-IDF、TextRank、LDA主題模型提取算法,完成標簽分層延深建模。使用企業(yè)數(shù)據(jù)集實驗,結(jié)果表明EPLLD 能有效提高企業(yè)畫像標簽建模準確率;并以連云港市H 有限公司為例,構(gòu)建標簽主題來展示由淺入深的標簽建模體系。
在多特征抽取中不同的特征融合方法對后續(xù)特征選擇存在影響,因此,在標簽分層延深建模之后,如何利用特征間的關(guān)系進行特征分析,使得標簽建模具有關(guān)聯(lián)性是日后的研究重點。