韓泓霖,單麗莉,孫承杰,劉秉權(quán)
(1. 傳播內(nèi)容認(rèn)知國(guó)家重點(diǎn)實(shí)驗(yàn)室 人民網(wǎng),北京 100733;2. 哈爾濱工業(yè)大學(xué) 計(jì)算學(xué)部,黑龍江 哈爾濱 150001)
當(dāng)代中國(guó)正處在百年未有之大變局中,國(guó)家、社會(huì)和個(gè)人三個(gè)層面都面臨著價(jià)值重塑的問(wèn)題。因此,對(duì)主流價(jià)值觀(guān)的傳播是對(duì)中國(guó)特色社會(huì)主義的自我理解與自我建構(gòu),直接切中中國(guó)特色社會(huì)主義實(shí)踐最深層次的問(wèn)題。2020年3月,國(guó)家互聯(lián)網(wǎng)信息辦公室發(fā)布《網(wǎng)絡(luò)信息內(nèi)容生態(tài)治理規(guī)定》[1],提出鼓勵(lì)網(wǎng)絡(luò)信息內(nèi)容生產(chǎn)者制作、復(fù)制、發(fā)布含有“弘揚(yáng)社會(huì)主義核心價(jià)值觀(guān),宣傳優(yōu)秀道德文化和時(shí)代精神,充分展現(xiàn)中華民族昂揚(yáng)向上精神風(fēng)貌”等內(nèi)容的信息,并且引導(dǎo)網(wǎng)絡(luò)信息內(nèi)容服務(wù)平臺(tái)“堅(jiān)持主流價(jià)值導(dǎo)向,優(yōu)化信息推薦機(jī)制,加強(qiáng)版面頁(yè)面生態(tài)管理”,這將主流價(jià)值觀(guān)內(nèi)容的認(rèn)知和傳播推向前臺(tái)。具體地,如何構(gòu)建主流價(jià)值觀(guān)理論知識(shí)體系和計(jì)算模型、如何從多個(gè)維度識(shí)別并測(cè)量主流價(jià)值觀(guān)內(nèi)容等問(wèn)題成為科學(xué)研究的新趨勢(shì),也是實(shí)踐的迫切需求。
同時(shí),隨著互聯(lián)網(wǎng)行業(yè)的飛速發(fā)展,網(wǎng)絡(luò)上的用戶(hù)和文本數(shù)量日益增長(zhǎng),每天有數(shù)億篇文章被發(fā)表[2],海量數(shù)據(jù)觸手可及,各種類(lèi)型的數(shù)據(jù)層出不窮、豐富多樣,極大地改變了人們的生產(chǎn)、生活方式。然而,互聯(lián)網(wǎng)的自由性、便捷性也使得惡意的負(fù)向信息幾乎可以無(wú)成本地在網(wǎng)絡(luò)上大量傳播,充斥于互聯(lián)網(wǎng)上。因此,識(shí)別這些網(wǎng)文的價(jià)值觀(guān)傾向顯得尤為重要。
目前,針對(duì)網(wǎng)文的審核,大多數(shù)網(wǎng)站還采用人工審核的方式,效率很低,長(zhǎng)時(shí)間審核后,審核準(zhǔn)確率也會(huì)下降;極少數(shù)采用自動(dòng)計(jì)算的方式幫助審核,但往往僅可以識(shí)別出正或負(fù)兩個(gè)粗粒度分類(lèi),缺少更細(xì)粒度的劃分。因此,本文的目標(biāo)是給定文本,為文本自動(dòng)標(biāo)注細(xì)粒度的價(jià)值觀(guān)標(biāo)簽,實(shí)現(xiàn)文本的價(jià)值觀(guān)傾向分析。例如,圖1中的文本的目標(biāo)是能為其自動(dòng)標(biāo)注細(xì)粒度的價(jià)值觀(guān)標(biāo)簽“敬業(yè)樂(lè)群”“愛(ài)崗敬業(yè)”和“愛(ài)國(guó)敬業(yè)”等。
圖1 價(jià)值觀(guān)標(biāo)注示例該文本貼的價(jià)值觀(guān)標(biāo)簽為: “敬業(yè)樂(lè)群”“愛(ài)崗敬業(yè)”“干一行愛(ài)一行,專(zhuān)一行精一行的敬業(yè)精神”“愛(ài)國(guó)敬業(yè)”
本文將為文本自動(dòng)標(biāo)注價(jià)值觀(guān)標(biāo)簽的任務(wù),視為多標(biāo)簽文本分類(lèi)問(wèn)題來(lái)解決,并定義如下: 用TEXT表示樣本空間,C={c1,c2,c3,…,cl}為有限標(biāo)簽集合,即候選標(biāo)簽集,假設(shè)TEXT中的樣本實(shí)例text∈TEXT和C的一個(gè)子集Y∈2C相關(guān),這個(gè)子集稱(chēng)作該實(shí)例text的標(biāo)注標(biāo)簽(簡(jiǎn)稱(chēng)標(biāo)簽),同時(shí)補(bǔ)集C/Y被認(rèn)為與text不相關(guān)。一個(gè)多標(biāo)簽分類(lèi)器h是一個(gè)映射TEXT→Y,對(duì)每一個(gè)實(shí)例text∈TEXT分配一個(gè)標(biāo)簽子集Y?C,Y中所有的標(biāo)簽就是text的標(biāo)注標(biāo)簽。
不同于單標(biāo)簽分類(lèi)和多類(lèi)別分類(lèi)問(wèn)題,多標(biāo)簽分類(lèi)問(wèn)題為每條文本數(shù)據(jù)關(guān)聯(lián)多個(gè)標(biāo)簽,從多個(gè)標(biāo)簽角度理解概括文本語(yǔ)義,是自然語(yǔ)言處理研究領(lǐng)域的重要子課題之一,在現(xiàn)實(shí)生活中有許多實(shí)際應(yīng)用,例如,主題識(shí)別[3]、情感分析[4]、問(wèn)答系統(tǒng)[5]等。在有限的計(jì)算資源下,多標(biāo)簽文本分類(lèi)任務(wù)仍面臨著許多挑戰(zhàn),首先,對(duì)文本進(jìn)行多標(biāo)簽標(biāo)注需要耗費(fèi)大量的人力,標(biāo)注成本較高,這導(dǎo)致標(biāo)注數(shù)據(jù)較少且極易標(biāo)注不全面,給標(biāo)簽的準(zhǔn)確預(yù)測(cè)帶來(lái)挑戰(zhàn);其次是類(lèi)別樣本不均衡問(wèn)題,我們把具有稀少標(biāo)注樣本的標(biāo)簽稱(chēng)為“尾標(biāo)簽”,由于樣本稀少,使得“尾標(biāo)簽”自動(dòng)標(biāo)注更加困難。針對(duì)上述問(wèn)題,目前研究人員主要聚焦如下問(wèn)題: 如何提高分類(lèi)模型結(jié)果的召回率,盡可能預(yù)測(cè)出更多的標(biāo)簽,覆蓋人工標(biāo)注標(biāo)簽;如何處理標(biāo)簽樣本分布不均情況、緩解“尾標(biāo)簽”問(wèn)題。
為了解決上述問(wèn)題,本文提出了一種融合標(biāo)簽語(yǔ)義知識(shí)的價(jià)值觀(guān)多標(biāo)簽文本分類(lèi)方法(Multi-Label Classification Combining Value Knowledge, MCVK),首先,通過(guò)在分類(lèi)模型中融合標(biāo)簽的語(yǔ)義知識(shí),獲取標(biāo)簽間的相關(guān)性,更好地學(xué)習(xí)標(biāo)簽與文本之間的語(yǔ)義交互信息,緩解因標(biāo)注不全面帶來(lái)的副作用,進(jìn)而提升多標(biāo)簽分類(lèi)的準(zhǔn)確度;其次,通過(guò)將候選標(biāo)簽與文本的語(yǔ)義相似度融合到多標(biāo)簽文本分類(lèi)模型,降低分類(lèi)模型對(duì)標(biāo)注數(shù)據(jù)量的依賴(lài),提升了“尾標(biāo)簽”的標(biāo)注準(zhǔn)確率,尤其有利于解決具有零標(biāo)注樣本的新標(biāo)簽的自動(dòng)標(biāo)簽問(wèn)題;最后,為了有效地獲取、組織和管理價(jià)值觀(guān)標(biāo)簽的語(yǔ)義知識(shí),我們還構(gòu)建了一個(gè)價(jià)值觀(guān)知識(shí)圖譜。
本文的主要?jiǎng)?chuàng)新點(diǎn)及貢獻(xiàn)如下:
(1) 構(gòu)建了價(jià)值觀(guān)知識(shí)圖譜,經(jīng)調(diào)研,是首個(gè)公開(kāi)發(fā)表的規(guī)模最大的價(jià)值觀(guān)知識(shí)圖譜。包含四級(jí)價(jià)值觀(guān)理論知識(shí)體系,49個(gè)子類(lèi),470個(gè)價(jià)值觀(guān)標(biāo)簽詞匯,7 182個(gè)價(jià)值觀(guān)標(biāo)簽的近義詞匯,共173 465條三元組。
(2) 構(gòu)建了一個(gè)價(jià)值觀(guān)方向的細(xì)粒度多標(biāo)簽文本分類(lèi)數(shù)據(jù)集,既包含粗粒度的正、負(fù)和中性三類(lèi)極性標(biāo)簽,也包含細(xì)粒度的價(jià)值觀(guān)詞匯標(biāo)簽。其中,細(xì)粒度的價(jià)值觀(guān)標(biāo)簽共471個(gè),數(shù)據(jù)集共包含5 916條標(biāo)注樣本。
(3) 提出了一種多標(biāo)簽文本分類(lèi)方法,通過(guò)兩種策略利用標(biāo)簽語(yǔ)義知識(shí)提升多標(biāo)簽文本分類(lèi)性能。其一是利用標(biāo)簽語(yǔ)義知識(shí)進(jìn)行文本表示學(xué)習(xí),既融合了標(biāo)簽之間的語(yǔ)義相關(guān)性,又得到了每個(gè)標(biāo)簽對(duì)于文本中不同詞的重要程度。其二是利用標(biāo)簽語(yǔ)義知識(shí)進(jìn)行候選標(biāo)簽與文本的相似度計(jì)算,并將結(jié)果融合到多分類(lèi)模型,從而有效地緩解了“尾標(biāo)簽”問(wèn)題。
(4) 本文設(shè)計(jì)了多組實(shí)驗(yàn),與經(jīng)典的多標(biāo)簽文本分類(lèi)方法進(jìn)行比較,在構(gòu)造的價(jià)值觀(guān)特定領(lǐng)域的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)對(duì)比,實(shí)驗(yàn)結(jié)果表明,本文提出的方法要優(yōu)于基線(xiàn)算法,驗(yàn)證了所提出方法的有效性。
多標(biāo)簽文本分類(lèi)一直是自然語(yǔ)言處理領(lǐng)域一個(gè)十分重要的任務(wù),多年來(lái),眾多國(guó)內(nèi)外學(xué)者在該問(wèn)題上投入了大量研究,主要可以分為傳統(tǒng)機(jī)器學(xué)習(xí)方法和基于深度學(xué)習(xí)的方法。
傳統(tǒng)機(jī)器學(xué)習(xí)方法傳統(tǒng)機(jī)器學(xué)習(xí)方法依據(jù)解決問(wèn)題的角度不同,可以分為問(wèn)題轉(zhuǎn)化和算法適應(yīng)兩種方法。問(wèn)題轉(zhuǎn)化方法將多標(biāo)簽問(wèn)題轉(zhuǎn)化為一個(gè)或一組單標(biāo)簽問(wèn)題,使其能夠使用已經(jīng)成熟的算法來(lái)解決。例如,Boutell等人[6]提出的二元相關(guān)(Binary Relevance, BR)方法為每個(gè)標(biāo)簽單獨(dú)構(gòu)建一個(gè)獨(dú)立的二分類(lèi)器,非常直接但完全忽略了標(biāo)簽之間的相互關(guān)系。為了捕獲標(biāo)簽之間的相關(guān)性,Tsoumakas等人[7]提出了標(biāo)簽冪集分解(Label Powerset, LP)方法,基于所有可能的標(biāo)簽組合,將任務(wù)轉(zhuǎn)換為針對(duì)多個(gè)標(biāo)簽組合的多分類(lèi)問(wèn)題,但容易產(chǎn)生樣本不平衡問(wèn)題,且增加了模型復(fù)雜度。后來(lái),Read等人[8]提出了分類(lèi)器鏈(Classifier Chain, CC)方法,將多標(biāo)簽問(wèn)題轉(zhuǎn)化為鏈上的二分類(lèi)問(wèn)題,鏈上后面的分類(lèi)器預(yù)測(cè)要基于前面的分類(lèi)結(jié)果,當(dāng)前面的標(biāo)簽預(yù)測(cè)錯(cuò)誤時(shí),該錯(cuò)誤會(huì)一直沿著鏈保留并傳遞下去,影響后面的標(biāo)簽分類(lèi)結(jié)果,且受鏈的順序影響較大,失去了并行實(shí)現(xiàn)的可能。
算法適應(yīng)方法改進(jìn)傳統(tǒng)的單標(biāo)簽分類(lèi)算法,通過(guò)對(duì)單標(biāo)簽分類(lèi)問(wèn)題的研究學(xué)習(xí)為多標(biāo)簽分類(lèi)任務(wù)提供經(jīng)驗(yàn),進(jìn)而直接解決多標(biāo)簽分類(lèi)問(wèn)題。Clare等人[9]提出了多標(biāo)簽決策樹(shù)(Multi-Label Decision Tree, MT-DT)方法,利用決策樹(shù)的思想處理多標(biāo)簽數(shù)據(jù),并通過(guò)計(jì)算熵的信息增益方式,遞歸構(gòu)建決策樹(shù)。André等人[10]提出排名支持向量機(jī)(Ranking Support Vector Machine, Rank-SVM)方法,基于SVM的思想,優(yōu)化線(xiàn)性分類(lèi)器以最小化經(jīng)驗(yàn)排序損失。Zhang等人[11]提出了多標(biāo)簽K最近鄰(Multi-LabelK-Nearest-Neighbor, ML-KNN)方法,基于KNN的思想,對(duì)于每一個(gè)實(shí)例,先獲取距離最近的K個(gè)實(shí)例,再通過(guò)最大后驗(yàn)(Maximum a Posteriori, MAP)概率推理得到該實(shí)例的預(yù)測(cè)標(biāo)簽集合。
基于深度學(xué)習(xí)的方法隨著深度學(xué)習(xí)飛速發(fā)展,深度神經(jīng)網(wǎng)絡(luò)在多標(biāo)簽文本分類(lèi)任務(wù)上也取得了很好的效果。Zhang等人[12]提出了多標(biāo)簽學(xué)習(xí)的反向傳播(Backpropagation for Multilabel Learning, BP-MLL)算法,該算法來(lái)源于傳統(tǒng)的反向傳播[13](Backpropagation, BP)方法,使用一種新的誤差函數(shù)提取特征,預(yù)測(cè)單個(gè)樣本時(shí),對(duì)應(yīng)該樣本的標(biāo)簽要比未對(duì)應(yīng)該樣本的標(biāo)簽排名高,從而實(shí)現(xiàn)多標(biāo)簽分類(lèi)。Liu等人[14]提出了大規(guī)模多標(biāo)簽卷積神經(jīng)網(wǎng)絡(luò)(Extreme Multi-Label Convolutional Neural Network, XML-CNN)模型,為了獲取文檔中不同部分更細(xì)粒度的特征,在CNN[15]模型上加入了動(dòng)態(tài)的最大池化策略,使模型能夠處理大的標(biāo)簽空間。Kurata[16]考慮了標(biāo)簽之間的聯(lián)系,在模型的初始化參數(shù)上優(yōu)化模型。為了更好地捕獲標(biāo)簽間更高階的相關(guān)性,Chen等人[17]將CNN和RNN[18]結(jié)合,由CNN抽取語(yǔ)義信息,再經(jīng)過(guò)LSTM[19]以生成的方式預(yù)測(cè)標(biāo)簽。
在實(shí)際應(yīng)用中,標(biāo)簽通常是有語(yǔ)義信息的,但之前的多數(shù)研究?jī)H將標(biāo)簽視為了一個(gè)類(lèi)別,或者僅考慮標(biāo)簽之間的層次關(guān)系,而沒(méi)有考慮標(biāo)簽本身具有的語(yǔ)義信息。因此,Wang等人[20]便考慮了標(biāo)簽的語(yǔ)義信息,對(duì)標(biāo)簽語(yǔ)義和上下文語(yǔ)義進(jìn)行建模。Du[21]通過(guò)之前訓(xùn)練得到的詞向量模型,將標(biāo)簽轉(zhuǎn)化為詞嵌入,映射到同一特征空間,交互學(xué)習(xí)標(biāo)簽和文本中單詞的語(yǔ)義表示,獲得每個(gè)單詞和標(biāo)簽的匹配分?jǐn)?shù),但卻沒(méi)有考慮依靠標(biāo)簽語(yǔ)義進(jìn)一步學(xué)習(xí)特定文檔的文本表示。因此,本文主要提出了一種融合標(biāo)簽語(yǔ)義知識(shí)來(lái)幫助文本表示的方式,同時(shí)結(jié)合標(biāo)簽-文本相似度計(jì)算的方式來(lái)實(shí)現(xiàn)價(jià)值觀(guān)領(lǐng)域的多標(biāo)簽分類(lèi)任務(wù)。
為了構(gòu)建價(jià)值觀(guān)知識(shí)圖譜支持文本價(jià)值觀(guān)多標(biāo)簽分類(lèi),首先,需要挖掘多維度和多粒度的價(jià)值觀(guān)知識(shí),構(gòu)建科學(xué)的知識(shí)體系,設(shè)計(jì)合理的數(shù)據(jù)模式(圖2)。其中,價(jià)值觀(guān)理論知識(shí)體系是典型的專(zhuān)家知識(shí),為四層的層次結(jié)構(gòu),頂層是中國(guó)文化和中國(guó)精神兩個(gè)大類(lèi)。第二層,中國(guó)文化又分為三個(gè)子類(lèi),中國(guó)精神又分為46種精神子類(lèi),例如,“長(zhǎng)征精神”“奧運(yùn)精神”等,前兩層的大類(lèi)和子類(lèi)統(tǒng)稱(chēng)為價(jià)值觀(guān)概念。第三層為每個(gè)子類(lèi)包含的價(jià)值觀(guān)內(nèi)涵,形式為具體的價(jià)值觀(guān)描述詞匯,稱(chēng)為價(jià)值觀(guān)核心主詞,例如,“自強(qiáng)不息”“大公無(wú)私”等,共計(jì)正向詞254個(gè)。人工為每個(gè)正向詞標(biāo)注了一個(gè)負(fù)向詞,共216個(gè),例如,“自暴自棄”“自私自利”等。最后一層即第四層為更細(xì)粒度的價(jià)值觀(guān)詞匯,稱(chēng)為核心詞,用于解釋對(duì)應(yīng)第三層核心主詞的語(yǔ)義內(nèi)涵。為了豐富核心主詞和核心詞的語(yǔ)義知識(shí),我們還收集了釋義、出處、例句、主體、層級(jí)和極性等屬性知識(shí),其中主體指價(jià)值觀(guān)主體,共有七種,為“個(gè)人”“家庭”“團(tuán)體”“組織”“社會(huì)”“國(guó)家”“世界”,層級(jí)指六種社群,其值域?yàn)椤皞€(gè)人”“家庭”“社會(huì)”“國(guó)家”“世界”和“自然”。
圖2 價(jià)值觀(guān)知識(shí)圖譜的數(shù)據(jù)模式
價(jià)值觀(guān)知識(shí)圖譜的構(gòu)建采用典型的人機(jī)合作模式,通過(guò)專(zhuān)家標(biāo)注、審核和校對(duì)保證知識(shí)的準(zhǔn)確性,又通過(guò)機(jī)器自動(dòng)知識(shí)抽取和自動(dòng)標(biāo)注提升知識(shí)獲取的效率。綜合運(yùn)用機(jī)器自動(dòng)抓取、網(wǎng)頁(yè)內(nèi)容解析、去噪、信息抽取等技術(shù)從在線(xiàn)詞典中自動(dòng)抽取詞的屬性信息,并運(yùn)用知識(shí)去重、聚合和補(bǔ)全等技術(shù)對(duì)獲取的知識(shí)進(jìn)行融合。
最后,再人工設(shè)計(jì)規(guī)則進(jìn)行知識(shí)校驗(yàn)和糾錯(cuò),將最終的知識(shí)條目存儲(chǔ)到數(shù)據(jù)庫(kù)。具體構(gòu)建流程如圖3所示,其中梯形框是人工過(guò)程,矩形框是機(jī)器自動(dòng)完成過(guò)程。
圖3 價(jià)值觀(guān)知識(shí)圖譜的構(gòu)建流程圖
圖4給出了價(jià)值觀(guān)核心主詞“守禮知節(jié)”在知識(shí)圖譜中的部分屬性以及關(guān)聯(lián)的其他實(shí)體和邏輯關(guān)系。特別地,矩形框表示實(shí)體,帶箭頭的線(xiàn)條表示關(guān)系或?qū)傩?橢圓形表示屬性值。
圖4 核心主詞“守禮知節(jié)”在知識(shí)圖譜中的關(guān)聯(lián)節(jié)點(diǎn)以及屬性示例
圖5 不同長(zhǎng)度的樣本數(shù)量分布圖如橫坐標(biāo)為100表示樣本包含字?jǐn)?shù)大于50且小于或等于100個(gè)字的樣本數(shù)量
圖6 不同標(biāo)簽樣本數(shù)統(tǒng)計(jì)圖例如,橫坐標(biāo)為10表示樣本個(gè)數(shù)大于5且小于或等于10的標(biāo)簽數(shù)量
我們選取基礎(chǔ)詞表中的第三層知識(shí),即價(jià)值觀(guān)核心主詞作為文本分類(lèi)的正向候選標(biāo)簽詞,負(fù)向候選標(biāo)簽詞來(lái)源于正向標(biāo)簽詞的反向詞;使用第四層更細(xì)粒度的核心詞作為候選標(biāo)簽詞的近義詞屬性,用于豐富候選標(biāo)簽詞的語(yǔ)義知識(shí)。
本文構(gòu)建了一個(gè)價(jià)值觀(guān)領(lǐng)域的多標(biāo)簽文本分類(lèi)數(shù)據(jù)集。數(shù)據(jù)集包含5 916條樣本,共471個(gè)價(jià)值觀(guān)候選標(biāo)簽。具體包括254個(gè)正向標(biāo)簽,2 153條正向樣本;216個(gè)負(fù)向標(biāo)簽,2 757條負(fù)向樣本;1個(gè)中性標(biāo)簽,1 006條中性樣本。平均每條樣本標(biāo)注1.53個(gè)標(biāo)簽,每個(gè)標(biāo)簽有19.20條樣本。
標(biāo)注文本數(shù)據(jù)來(lái)源于權(quán)威性的官方主流網(wǎng)站: 人民網(wǎng)、新華網(wǎng)、中國(guó)新聞網(wǎng)、人民公安報(bào)等。正向數(shù)據(jù)為新聞篇章中有代表性的段落,負(fù)向數(shù)據(jù)為新聞篇章中描述不良行為的段落,中性數(shù)據(jù)多為新聞報(bào)道中對(duì)某一事件、通知或規(guī)定的客觀(guān)陳述。我們采用文本和候選標(biāo)簽字符串相似度計(jì)算以及人工審核確認(rèn)相結(jié)合的方式,為文本標(biāo)注標(biāo)簽,并對(duì)標(biāo)注數(shù)據(jù)集按照6∶2∶2的比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,具體數(shù)量統(tǒng)計(jì)如表1所示。
表1 正負(fù)中類(lèi)別劃分后的數(shù)據(jù)集數(shù)量
據(jù)調(diào)研統(tǒng)計(jì),我們的數(shù)據(jù)集是國(guó)內(nèi)首個(gè)價(jià)值觀(guān)方向的包含正負(fù)向數(shù)據(jù)的細(xì)粒度多標(biāo)簽文本數(shù)據(jù)集。同時(shí),我們還統(tǒng)計(jì)了數(shù)據(jù)集的樣本長(zhǎng)度屬性,如圖 5所示,以及各個(gè)標(biāo)簽所具有的樣本個(gè)數(shù),如圖 6所示。
由統(tǒng)計(jì)結(jié)果可見(jiàn),樣本長(zhǎng)度主要集中在100~300字;絕大多數(shù)的標(biāo)簽有5~15個(gè)樣本;總體來(lái)看,數(shù)據(jù)集的樣本長(zhǎng)度比較適宜,數(shù)據(jù)集標(biāo)簽粒度比較精細(xì),覆蓋價(jià)值觀(guān)范圍廣并且比較全面,但有超過(guò)30個(gè)正向和超過(guò)100個(gè)負(fù)向標(biāo)簽的標(biāo)注樣本數(shù)不超過(guò)10個(gè),對(duì)這些樣本稀少的“尾標(biāo)簽”進(jìn)行正確自動(dòng)標(biāo)注比較困難。
受Wang等人[20]利用標(biāo)簽信息的注意力機(jī)制思想的啟發(fā),本文為了充分利用價(jià)值觀(guān)候選標(biāo)簽自身的語(yǔ)義信息和標(biāo)簽近義詞知識(shí),重新學(xué)習(xí)文本表示,使用了兩種策略構(gòu)造模型。我們提出了一種融合標(biāo)簽語(yǔ)義知識(shí)的多標(biāo)簽分類(lèi)方法,模型結(jié)構(gòu)框架如圖7所示。模型通過(guò)兩種策略融合標(biāo)簽語(yǔ)義知識(shí)提升多標(biāo)簽文本分類(lèi)的性能,見(jiàn)圖7中由價(jià)值觀(guān)知識(shí)圖譜射出的兩條連線(xiàn)。第一種策略是利用標(biāo)簽語(yǔ)義幫助進(jìn)行文本表示學(xué)習(xí),如圖中標(biāo)注①處?;谧⒁饬C(jī)制,融入標(biāo)簽語(yǔ)義知識(shí),獲取標(biāo)簽對(duì)于文本中每個(gè)詞的重要程度,經(jīng)變換和文本嵌入相乘得到該文本的表示學(xué)習(xí)向量,再經(jīng)全連接層得到不同標(biāo)簽的預(yù)測(cè)結(jié)果;第二種策略是融合標(biāo)簽語(yǔ)義知識(shí)進(jìn)行標(biāo)簽與文本的相似度計(jì)算,并將結(jié)果融合到主模型輸出結(jié)果輔助進(jìn)行分類(lèi),如圖中標(biāo)注②處。本文將上述方法稱(chēng)為融合價(jià)值觀(guān)語(yǔ)義知識(shí)的多標(biāo)簽分類(lèi)(Multi-Label Classification Combining Value Knowledge, MCVK)。
具體來(lái)講,一段文本text可以經(jīng)過(guò)分詞表示為n個(gè)詞的序列,text={w1,w2,w3,…,wn},其中,wi∈dim為某個(gè)詞的向量表示,候選標(biāo)簽集表示為C={c1,c2,c3,…,cl},其中,ci∈dim為每個(gè)標(biāo)簽的詞向量表示,l是候選標(biāo)簽總個(gè)數(shù)。
對(duì)于待分類(lèi)文本,直接在預(yù)訓(xùn)練詞向量表中查詢(xún)文本分詞后對(duì)應(yīng)的詞向量wi構(gòu)成矩陣即可表示文本,對(duì)于標(biāo)簽詞,任一標(biāo)簽ci可經(jīng)過(guò)分詞轉(zhuǎn)換為k個(gè)細(xì)粒度的子詞,再使用預(yù)訓(xùn)練詞向量模型獲得所有子詞的標(biāo)簽嵌入wj,然后對(duì)所有子詞嵌入取平均,即得到每個(gè)標(biāo)簽的向量表示,如式(1)所示。本文使用基于人民日?qǐng)?bào)數(shù)據(jù)訓(xùn)練好的Word2Vec預(yù)訓(xùn)練模型[22]獲得詞向量。
(1)
這樣可以將文本和標(biāo)簽表示映射到同一空間,且使用預(yù)訓(xùn)練詞向量模型可以很好地利用標(biāo)簽的語(yǔ)義信息,而不僅僅將標(biāo)簽視為一個(gè)二元類(lèi)別,從而隱式地學(xué)習(xí)了標(biāo)簽之間的相關(guān)性,有利于提升分類(lèi)的性能。
為了捕獲標(biāo)簽和文本中各個(gè)詞的隱藏語(yǔ)義關(guān)系,我們基于注意力機(jī)制,計(jì)算得到所有標(biāo)簽和文本中不同詞的語(yǔ)義相似性,獲得詞-標(biāo)簽注意力得分矩陣A,如式(2)所示。
A=CTtext
(2)
為了更好地捕獲文本段落中的連續(xù)單詞(稱(chēng)作短語(yǔ))信息,我們將詞-標(biāo)簽注意力得分轉(zhuǎn)換為短語(yǔ)和標(biāo)簽的注意力得分。具體地,我們考慮長(zhǎng)度為2*r+1的短語(yǔ),文本首尾長(zhǎng)度不足以截取短語(yǔ)的占位補(bǔ)足,通過(guò)卷積的方式,并引入相似度度量方法的非線(xiàn)性變換,獲取到了短語(yǔ)-標(biāo)簽的注意力得分矩陣U,如式(3)所示。
U=relu(conv1d(Ai-r: i+r))
(3)
同時(shí),通過(guò)最大池化操作抽取對(duì)于每個(gè)短語(yǔ)的最重要標(biāo)簽權(quán)重,再經(jīng)Softmax獲得該篇文本的所有短語(yǔ)的注意力權(quán)重值β,如式(4)所示。
β=Softmax(max-pooling(U))
(4)
在得到文本中所有短語(yǔ)的權(quán)重之后,對(duì)文本段落中的每個(gè)詞進(jìn)行加權(quán),可以很簡(jiǎn)單的得到加權(quán)后的文本序列表示V,如式(5)所示,即利用了標(biāo)簽語(yǔ)義知識(shí)幫助文本表示學(xué)習(xí)。
V=mul(text,β)
(5)
為了給價(jià)值觀(guān)多標(biāo)簽分類(lèi)提供更多的補(bǔ)充知識(shí),幫助模型提升價(jià)值觀(guān)內(nèi)容智能認(rèn)知的能力,我們利用了價(jià)值觀(guān)知識(shí)圖譜中候選標(biāo)簽的近義詞屬性,將標(biāo)簽及其近義詞列表和待預(yù)測(cè)文本進(jìn)行相似度計(jì)算,為每個(gè)候選標(biāo)簽計(jì)算一個(gè)相似度得分MatchScore,如式(6)所示。
MatchScore=sim(concat(label,synonyms),text)
(6)
其中,label表示候選標(biāo)簽,synonyms表示該標(biāo)簽的所有近義詞集合,concat為對(duì)標(biāo)簽及其近義詞的字符串連接操作,sim為計(jì)算兩個(gè)字符串的相似度操作,本文使用了Levenshtein 相似度。
最終,我們將學(xué)習(xí)到的文本表示序列經(jīng)過(guò)兩個(gè)全連接層和一個(gè)非線(xiàn)性層,得到深度學(xué)習(xí)模型下每個(gè)標(biāo)簽的預(yù)測(cè)結(jié)果概率P,如式(7)所示。最后再與融合價(jià)值觀(guān)知識(shí)的標(biāo)簽-文本語(yǔ)義相似度得分MatchScore進(jìn)行加權(quán)求和,輸出最終的預(yù)測(cè)結(jié)果O,如式(8)所示。
其中,α為兩個(gè)預(yù)測(cè)結(jié)果之間的權(quán)重參數(shù)。經(jīng)過(guò)多輪測(cè)試得到相對(duì)應(yīng)的取值。
我們的模型使用BCEWithLogitsLoss作為損失函數(shù),它在多標(biāo)簽分類(lèi)任務(wù)中被廣泛使用,可分割為Sigmoid和BCELoss函數(shù),如式(9)所示。
(9)
其中,lossi表示第i個(gè)標(biāo)簽的損失loss,共l個(gè)標(biāo)簽,yi為該標(biāo)簽的標(biāo)準(zhǔn)結(jié)果,xi為該標(biāo)簽的預(yù)測(cè)結(jié)果,σ(xi)即Sigmoid操作。最后對(duì)BCEWithLogitsLoss所有標(biāo)簽的損失求和即為該輪訓(xùn)練的模型損失。
本任務(wù)為多標(biāo)簽分類(lèi)任務(wù),我們選用微平均(Micro-Average)、宏平均(Macro-Average)和平均精度均值(Mean Average Precision, MAP)作為模型性能的評(píng)價(jià)指標(biāo)。其中,公式中的P、R、F分別指預(yù)測(cè)結(jié)果的精確率(Precision)、召回率(Recall)和F1值(調(diào)和平均值),且全部為針對(duì)預(yù)測(cè)的前k個(gè)結(jié)果計(jì)算,即Precision@k、Recall@k和F1@k。
進(jìn)一步地,微平均指對(duì)預(yù)測(cè)的每個(gè)樣本取平均,具體可分為Micro-P、Micro-R、Micro-F,定義如式(10)~式(12)所示。
TP表示模型返回的k個(gè)結(jié)果中正確的個(gè)數(shù);FP表示模型返回的k個(gè)結(jié)果中錯(cuò)誤的個(gè)數(shù);FN表示標(biāo)準(zhǔn)正確結(jié)果中沒(méi)有被模型前k個(gè)返回的個(gè)數(shù)?!癬_”表示對(duì)所有樣本取平均。
宏平均指對(duì)于預(yù)測(cè)的結(jié)果,針對(duì)每個(gè)標(biāo)簽類(lèi)別取平均,具體可分為Macro-P、Macro-R、Macro-F,定義如式(13)~式(15)所示。
其中,Pi、Ri、Fi分別指預(yù)測(cè)結(jié)果第i個(gè)標(biāo)簽的P、R、F1值,L表示標(biāo)簽總個(gè)數(shù)。
平均精度均值(MAP)表示多個(gè)文本的平均精度,AP(Average Precision,)衡量模型的所有正確結(jié)果是否都有較高的排序,考慮了模型輸出的所有正確結(jié)果。具體定義如式(16)、式(17)所示。
其中,k表示模型輸出的結(jié)果個(gè)數(shù);nums表示模型的輸出結(jié)果中正確的個(gè)數(shù),即在標(biāo)準(zhǔn)結(jié)果中的個(gè)數(shù);rel(j)是一個(gè)指示函數(shù),當(dāng)前的第j個(gè)輸出結(jié)果是正確的時(shí)為1,否則為0。式(17)中,text表示某個(gè)待預(yù)測(cè)文本;AP(text)表示文本text預(yù)測(cè)的所有正確的標(biāo)簽的平均精度。
最后,由于數(shù)據(jù)集候選標(biāo)簽數(shù)量較多,存在語(yǔ)義相似情況,例如,“自強(qiáng)不息”和“剛健自強(qiáng)”“不怕?tīng)奚?不畏艱險(xiǎn)”和“不屈不撓”等。同時(shí),文本數(shù)據(jù)的標(biāo)簽標(biāo)注也存在漏標(biāo)問(wèn)題,給預(yù)測(cè)結(jié)果的評(píng)價(jià)帶來(lái)挑戰(zhàn)。因此,為了保證評(píng)價(jià)結(jié)果的合理性,我們將模型預(yù)測(cè)標(biāo)簽與標(biāo)準(zhǔn)答案標(biāo)簽作語(yǔ)義相似度計(jì)算,當(dāng)兩詞的語(yǔ)義相似度超過(guò)0.7時(shí),認(rèn)為預(yù)測(cè)正確。
我們采用基于12GB新聞?wù)Z料、20GB百度百科語(yǔ)料以及90GB小說(shuō)語(yǔ)料訓(xùn)練的64維中文Word2Vec模型計(jì)算標(biāo)簽相似度,如表2所示。
實(shí)驗(yàn)基于PyTorch深度學(xué)習(xí)框架,使用基于人民日?qǐng)?bào)數(shù)據(jù)訓(xùn)練好的Word2Vec預(yù)訓(xùn)練模型[22]獲得文本及標(biāo)簽的嵌入表示,詞向量維度dim=300,抽取文本段落中連續(xù)的單詞時(shí)取r=30,文本的最大長(zhǎng)度限制為max_len=512,長(zhǎng)度不足的補(bǔ)全,長(zhǎng)度超過(guò)的在末尾截?cái)?訓(xùn)練過(guò)程中使用的優(yōu)化器為Adam[23],學(xué)習(xí)率為0.001,Dropout設(shè)定為0.3。
為了驗(yàn)證我們提出算法的有效性,我們選擇FastText[24]、Transformer[25]和BERT[26]三種十分經(jīng)典的模型作為對(duì)比算法。
FastText[24]使用淺層網(wǎng)絡(luò)卻往往能取得和深度網(wǎng)絡(luò)相媲美的精度,通過(guò)詞袋模型和n-gram方式表征語(yǔ)句,還使用了子字信息,通過(guò)隱藏表征學(xué)習(xí)類(lèi)別間的共享信息,得到文本分類(lèi)標(biāo)簽。
Transformer[25]使用Encoder-Decoder結(jié)構(gòu),在文本分類(lèi)任務(wù)中,只使用了Encoder部分,通過(guò)Attention機(jī)制,捕獲文本的上下文信息,最后經(jīng)全連接層輸出分類(lèi)預(yù)測(cè)結(jié)果。
BERT[26]采用masked語(yǔ)言模型對(duì)雙向Transformer進(jìn)行預(yù)訓(xùn)練,以生成雙向語(yǔ)言表征,后續(xù)只需要添加一個(gè)額外的輸出層進(jìn)行微調(diào),就可以在各種下游任務(wù)中取得的較好結(jié)果。
在實(shí)驗(yàn)中,我們還比對(duì)了TextRCNN[27]方法,該方法在樣本數(shù)據(jù)充足、標(biāo)簽數(shù)量較少的情況經(jīng)常能取得很好的結(jié)果,但在本實(shí)驗(yàn)的數(shù)據(jù)集上,結(jié)果十分糟糕,分析原因,這可能是因?yàn)樵摲椒P徒Y(jié)構(gòu)較為復(fù)雜,每個(gè)標(biāo)簽都需要大量的訓(xùn)練數(shù)據(jù)來(lái)捕獲標(biāo)簽特征。
4.4.1 對(duì)比實(shí)驗(yàn)結(jié)果及分析
在我們構(gòu)建的價(jià)值觀(guān)數(shù)據(jù)集上,分別測(cè)試了我們的模型MCVK和三個(gè)對(duì)比模型,并取top@3和top@1的兩種結(jié)果計(jì)算評(píng)估指標(biāo),表3是對(duì)比實(shí)驗(yàn)結(jié)果。
表3 對(duì)比實(shí)驗(yàn)結(jié)果 (單位: %)
由實(shí)驗(yàn)結(jié)果可以看出我們的模型的有效性。在比較top@3和top1的結(jié)果時(shí),我們發(fā)現(xiàn)模型在top@1的預(yù)測(cè)精確率還是有一定保障的,對(duì)于共471個(gè)價(jià)值觀(guān)細(xì)粒度標(biāo)簽,我們的模型最終在top@1指標(biāo)上能達(dá)到62.44%的精確率,在top@3上達(dá)到66.92%的召回率。同時(shí),隨著預(yù)測(cè)個(gè)數(shù)的增多,top@3的精確率明顯下降,但相應(yīng)地,召回率有了明顯的提升,這是符合常識(shí)的。
我們的MCVK模型的預(yù)測(cè)結(jié)果明顯優(yōu)于FastText和Transformer模型。其中,FastText模型優(yōu)于Transformer模型,這表明FastText可以較好地處理少樣本問(wèn)題,但其并沒(méi)有利用標(biāo)簽語(yǔ)義信息,使其幫助文本表示,僅將標(biāo)簽視為一個(gè)類(lèi)別,這也是導(dǎo)致其結(jié)果低于我們的MCVK模型的原因,在微平均F1值上平均低了11.44%。
我們的模型在所有的評(píng)價(jià)指標(biāo)上均遠(yuǎn)遠(yuǎn)超過(guò)了Transformer模型,這可能是因?yàn)門(mén)ransformer模型較為復(fù)雜,且沒(méi)有用類(lèi)似BERT模型的大規(guī)模數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,只用Transformer來(lái)處理我們的標(biāo)注數(shù)據(jù)較少的數(shù)據(jù)集能力還是較弱,較深層的神經(jīng)網(wǎng)絡(luò)往往需要更多更龐大的數(shù)據(jù)來(lái)學(xué)習(xí)訓(xùn)練。相比之下,FastText模型則十分簡(jiǎn)單,使用了淺層網(wǎng)絡(luò),因此在我們的數(shù)據(jù)集上結(jié)果較為不錯(cuò)。
和BERT模型相比,我們的MCVK方法在top@1上的結(jié)果略顯不足,平均低了1.18%,但隨著預(yù)測(cè)標(biāo)簽的數(shù)量增多,我們的模型效果逐步超過(guò)了BERT模型,在top@3上的結(jié)果上平均高出了3.11%,尤其是宏平均結(jié)果,提升明顯。這表明在價(jià)值觀(guān)方向的數(shù)據(jù)集上,BERT模型在單分類(lèi)任務(wù)上的結(jié)果較好,但在多標(biāo)簽任務(wù)上,我們的模型要略?xún)?yōu)于BERT模型,可以更好地緩解標(biāo)簽分布不均的問(wèn)題。
4.4.2 消融實(shí)驗(yàn)結(jié)果及分析
我們還針對(duì)第二種融合標(biāo)簽知識(shí)的方式——標(biāo)簽-文本相似度計(jì)算進(jìn)行了消融實(shí)驗(yàn),表4是消融實(shí)驗(yàn)結(jié)果。
表4 消融實(shí)驗(yàn)結(jié)果 (單位: %)
通過(guò)消融實(shí)驗(yàn)的對(duì)比結(jié)果能看出,融合標(biāo)簽-文本相似度得分后,我們的模型結(jié)果有了明顯提升,所有指標(biāo)平均提升 13.57%,尤其是宏平均結(jié)果提升最多,即受標(biāo)簽樣本分布不均的影響減弱。融合價(jià)值觀(guān)標(biāo)簽知識(shí)進(jìn)行文本語(yǔ)義相似度方法完全不受樣本分配不均的影響,這對(duì)于少樣本標(biāo)簽的預(yù)測(cè)有很大的幫助。
4.4.3 尾標(biāo)簽實(shí)驗(yàn)結(jié)果及分析
我們還針對(duì)具有較少標(biāo)注樣本的“尾標(biāo)簽”進(jìn)行了實(shí)驗(yàn),表5是選取具有劃分前數(shù)據(jù)集樣本數(shù)小于等于10的標(biāo)簽進(jìn)行實(shí)驗(yàn)的結(jié)果,選取的標(biāo)簽數(shù)占所有標(biāo)簽的32.70%。
表5 具有樣本數(shù)小于等于10的“尾標(biāo)簽”結(jié)果 (單位: %)
由結(jié)果可以看出,我們的模型在融合了價(jià)值觀(guān)知識(shí)標(biāo)簽,進(jìn)行標(biāo)簽-文本語(yǔ)義相似度計(jì)算后,尾標(biāo)簽的結(jié)果均有很大的提升,可以較好地緩解“尾標(biāo)簽”問(wèn)題。尤其是宏平均結(jié)果,最終top@1的F1值平均提升了10.59%,top@3的F1值平均提升了10.65%。
在當(dāng)前全媒體融合時(shí)代,針對(duì)傳播內(nèi)容的主流價(jià)值觀(guān)精準(zhǔn)傳播的迫切需求,面向基于主流價(jià)值觀(guān)內(nèi)容精準(zhǔn)認(rèn)知的任務(wù),本文提出了一種融合標(biāo)簽語(yǔ)義知識(shí)的文本價(jià)值觀(guān)多標(biāo)簽分類(lèi)方法MCVK。本文首先構(gòu)建了包含價(jià)值觀(guān)理論知識(shí)體系和擴(kuò)展語(yǔ)義知識(shí)的價(jià)值觀(guān)知識(shí)圖譜,并構(gòu)建了一個(gè)價(jià)值觀(guān)分析方向的細(xì)粒度多標(biāo)簽文本分類(lèi)數(shù)據(jù)集,最終設(shè)計(jì)實(shí)驗(yàn)驗(yàn)證了本文方法在數(shù)據(jù)集上解決文本價(jià)值觀(guān)多標(biāo)簽分類(lèi)問(wèn)題的有效性。
本文方法采用了兩種方式融合標(biāo)簽語(yǔ)義知識(shí),第一,在進(jìn)行文本表示學(xué)習(xí)時(shí)使用了標(biāo)簽本身的語(yǔ)義信息,隱式地獲得標(biāo)簽之間的相關(guān)性;第二,利用標(biāo)簽在價(jià)值觀(guān)知識(shí)圖譜中相關(guān)聯(lián)的價(jià)值觀(guān)知識(shí),將其融入標(biāo)簽與預(yù)測(cè)文本的相似度計(jì)算中,較好地緩解了“尾標(biāo)簽”樣本不足的問(wèn)題,實(shí)驗(yàn)結(jié)果表明,我們的方法可以較好地解決價(jià)值觀(guān)多標(biāo)簽分類(lèi)問(wèn)題,最終在top@1結(jié)果上能達(dá)到62.44%的精確率,在top@3上達(dá)到66.92%的召回率,融合標(biāo)簽知識(shí)相似度得分后,所有指標(biāo)平均提升 13.57%,較好地利用了知識(shí)圖譜知識(shí)。
本文在篇章級(jí)通過(guò)價(jià)值觀(guān)標(biāo)簽的自動(dòng)標(biāo)注實(shí)現(xiàn)了文本的價(jià)值觀(guān)分析,對(duì)于來(lái)源廣、解析難、傳播快和影響大的網(wǎng)絡(luò)多媒體信息,實(shí)現(xiàn)主流價(jià)值觀(guān)的內(nèi)容認(rèn)知和精準(zhǔn)傳播,對(duì)于凈化網(wǎng)絡(luò)空間、維系和諧穩(wěn)定的社會(huì)環(huán)境具有重大的現(xiàn)實(shí)意義;也為未來(lái)價(jià)值觀(guān)計(jì)算方向的深入研究和發(fā)展創(chuàng)立了良好的開(kāi)端。然而,價(jià)值觀(guān)分析是十分復(fù)雜的問(wèn)題,往往涉及不同的價(jià)值觀(guān)主體,未來(lái)可以對(duì)文本中價(jià)值觀(guān)主體進(jìn)行識(shí)別,針對(duì)不同的價(jià)值觀(guān)主體進(jìn)行更精準(zhǔn)的分析;另外,聊天和微博等短文本的價(jià)值觀(guān)分析由于上下文信息有限,給價(jià)值觀(guān)分析帶來(lái)更大的挑戰(zhàn)。這些都需要更多的研究工作來(lái)應(yīng)對(duì)和解決。