田悅霖,黃瑞章*,任麗娜
(1.公共大數(shù)據(jù)國家重點(diǎn)實(shí)驗(yàn)室(貴州大學(xué)),貴陽 550025;2.貴州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,貴陽 550025)
截至2022 年1 月31 日,世界互聯(lián)網(wǎng)滲透率達(dá)66.2%,2000—2022 年增長1 355%[1]。信息技術(shù)迅速發(fā)展,萬維網(wǎng)信息量暴增,網(wǎng)頁資源或成為信息獲取第一選擇。全球?qū)<覍W(xué)者數(shù)量眾多,且大部分學(xué)者在網(wǎng)站中建立個(gè)人主頁并定期維護(hù)更新,主頁中記錄的學(xué)者的研究方向、工作履歷、所獲成就等信息可作為學(xué)者畫像[2]、人才引進(jìn)[3-4]、公司專家資源庫的建立[5]等任務(wù)的重要支撐。因此,精確地提取學(xué)者主頁細(xì)粒度信息至關(guān)重要。
學(xué)者個(gè)人主頁廣泛分布于不同站點(diǎn),如采用人工方式進(jìn)行信息整合,需要提取每個(gè)頁面中的有效信息,再重新組織整理獲得的大量數(shù)據(jù)。顯然,這種工作非常繁瑣且隨著頁面信息的不斷變化,成本逐漸提高。因此,使用機(jī)器學(xué)習(xí)的方法進(jìn)行學(xué)者主頁信息抽取的任務(wù)具有必要性且持續(xù)存在。根據(jù)抽取的頁面內(nèi)容,學(xué)者主頁信息抽取可以分為細(xì)粒度信息抽取和粗粒度信息抽取。粗粒度信息的抽取主要是抽取網(wǎng)頁中除導(dǎo)航欄、推薦欄等噪聲之外的有效信息,如網(wǎng)頁新聞?wù)某槿?。?xì)粒度信息的抽取主要是抽取感興趣的屬性、部分標(biāo)簽信息等多種類型。細(xì)粒度信息應(yīng)用范圍更廣泛,如學(xué)者畫像的生成等均需要學(xué)者的細(xì)粒度信息,細(xì)粒度信息提取比粗粒度信息提取明顯更符合人們的需要與個(gè)性化需求。因此本文將提取學(xué)者細(xì)粒度對象,將學(xué)者主頁原始數(shù)據(jù)轉(zhuǎn)換并映射到更結(jié)構(gòu)化的格式。在學(xué)者頁面中,學(xué)者的細(xì)粒度對象即學(xué)者的研究方向、工作履歷、社會兼職等信息,同組細(xì)粒度對象具有語義相似、結(jié)構(gòu)相似等特征。
傳統(tǒng)方法普遍將頁面信息抽取問題描述為樹節(jié)點(diǎn)的標(biāo)記任務(wù),高度依賴于HTML(HyperText Mark-up Language)模板。但學(xué)者信息頁面廣泛分布于不同站點(diǎn),隨著HTML 標(biāo)準(zhǔn)的不斷更新與不同站點(diǎn)HTML 風(fēng)格的變化,抽取效果會出現(xiàn)不同程度的降低,去除HTML 依賴后單一的語句語義分析常會導(dǎo)致信息判斷失誤。一般學(xué)者個(gè)人主頁通常僅包含一位學(xué)者信息,但學(xué)者可能會對他的學(xué)生的基本信息、入學(xué)情況等內(nèi)容進(jìn)行介紹,也會出現(xiàn)存在其他教師推薦欄的情況,此類情況的上文往往會有“碩博情況”“相似導(dǎo)師推薦”等提示信息,融合局部語義信息能夠有效排查錯(cuò)誤。另外,在學(xué)者信息提取任務(wù)中,一類細(xì)粒度信息往往處于頁面相近位置,它的上文常出現(xiàn)有效提示信息“教育經(jīng)歷”“社會服務(wù)”等。本文重點(diǎn)研究對文本的局部上下文結(jié)構(gòu)與語義信息進(jìn)行建模以豐富目標(biāo)句特征,從而提升學(xué)者細(xì)粒度信息的抽取效果。
本文提出一種融合局部語義特征的學(xué)者細(xì)粒度信息提取方法。該方法通過數(shù)據(jù)預(yù)處理獲取網(wǎng)頁純文本,解除HTML DOM(Document Object Model)樹依賴,經(jīng)預(yù)訓(xùn)練模型RoBERTa-wwm-ext[6]微調(diào)獲得更高層次的語義表征,充分考慮頁面中句子前后語義關(guān)系,使單句向量融合局部上下文特征共同輸入卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)得到更豐富的語義表示,增強(qiáng)細(xì)粒度信息提取的效果,最終實(shí)現(xiàn)學(xué)者主頁細(xì)粒度信息的獲取。由于學(xué)者主頁信息提取粒度為由單句構(gòu)成的文本行,文本行平均字符數(shù)為39,文本長度較短。面對短文本,淺層語義表征可以達(dá)到更好的提取效果,因此,本文設(shè)計(jì)一種簡化的CNN,僅使用單層文本卷積層與全連接層實(shí)現(xiàn)語義特征的融合,因池化操作無參數(shù),無法對特征向量進(jìn)一步學(xué)習(xí),反而會導(dǎo)致特征降維,丟失目標(biāo)文本語義信息,故去掉結(jié)構(gòu)中的池化層。簡化CNN 的使用提高了學(xué)者細(xì)粒度信息抽取的效率與效果。另外,本文提出一個(gè)新的學(xué)者信息抽取數(shù)據(jù)集Scholars 用于驗(yàn)證在學(xué)者信息抽取領(lǐng)域中融合局部上下文語義特征的有效性。
自網(wǎng)頁出現(xiàn)以來,網(wǎng)頁信息的抽取研究一直是信息技術(shù)領(lǐng)域的熱點(diǎn),許多研究都闡明了如何從頁面中提取所需信息[7]。目前較成熟的網(wǎng)頁信息抽取方法有基于統(tǒng)計(jì)信息的方法、基于視覺分塊的方法和基于模板的信息抽取方法。
基于統(tǒng)計(jì)信息的方法包括統(tǒng)計(jì)文本密度、標(biāo)簽密度和行塊分布等。文獻(xiàn)[8]中提出基于文本密度的內(nèi)容抽取方法,首先統(tǒng)計(jì)HTML 文檔的每行的文本數(shù),分析后給出一個(gè)正文所在行數(shù)的閾值,然后抽取正文。之后文獻(xiàn)[9]又在文獻(xiàn)[8]的基礎(chǔ)上增加視覺特征來對DOM 樹節(jié)點(diǎn)進(jìn)行特征值計(jì)算,最后再根據(jù)節(jié)點(diǎn)信息作信息提取。文獻(xiàn)[10]中提出了一種基于后綴樹的信息抽取方法:首先從Web 頁面的標(biāo)記路徑中提取一個(gè)標(biāo)識符序列,然后在此序列構(gòu)建一個(gè)后綴樹,并提出4 個(gè)精煉過濾器來篩選可能不包含數(shù)據(jù)記錄的數(shù)據(jù)區(qū)域?qū)崿F(xiàn)信息抽取。文獻(xiàn)[11]中通過將頁面劃分信息塊,對信息塊中純文本及超鏈接進(jìn)行統(tǒng)計(jì)的方法判別正文內(nèi)容。文獻(xiàn)[12]中提出一種基于文本塊密度和標(biāo)簽路徑特征的網(wǎng)頁文本提取算法,利用正文與標(biāo)簽路徑和文本塊密度的潛在相關(guān)性,設(shè)計(jì)了一種融合策略解決網(wǎng)頁文本提取準(zhǔn)確率低的問題。文獻(xiàn)[13]中提出一種提取簡歷信息的端到端框架,從簡歷文檔提取原始數(shù)據(jù)并使用語言學(xué)模式將它分割為語義一致部分,之后對各段落使用命名實(shí)體識別(Named Entity Recognition,NER)算法進(jìn)一步處理,最終獲取人力資源專家所需信息。文獻(xiàn)[14]中提出一種基于多特征融合的網(wǎng)頁內(nèi)容提取方法,根據(jù)網(wǎng)頁的文本信息特征,以DOM 節(jié)點(diǎn)為基本提取單元設(shè)計(jì)多個(gè)統(tǒng)計(jì)特征并根據(jù)啟發(fā)式策略設(shè)計(jì)高階特征。該方法具有良好的網(wǎng)頁文本提取能力,能夠避免需人工閾值確定的問題,但仍需人工設(shè)計(jì)統(tǒng)計(jì)特征。目前基于統(tǒng)計(jì)的方法需要人工提取文本特征,但是細(xì)粒度信息種類較多、結(jié)構(gòu)多樣,因此人工特征提取復(fù)雜度較高。
文獻(xiàn)[15]中提出了基于視覺分塊的VIPS(VIsion-based Page Segmentation)算法,利用網(wǎng)頁中的視覺特征并結(jié)合啟發(fā)式規(guī)則將網(wǎng)頁分塊,從而識別網(wǎng)頁正文塊來獲取網(wǎng)頁主要內(nèi)容。文獻(xiàn)[16]中使用一個(gè)呈現(xiàn)引擎來獲取Web 頁面的圖像,獲取該圖像的最小呈現(xiàn)元素后使用定制算法進(jìn)行集群,并生成給定粒度的一組平面片段,從而實(shí)現(xiàn)網(wǎng)頁分割。文獻(xiàn)[17]中將DOM 樹與CNN 相結(jié)合,提出了一種基于視覺的VBF 方法,通過獲取網(wǎng)頁的HTML 代碼和截圖,建立DOM樹,計(jì)算神經(jīng)網(wǎng)絡(luò)和表單識別、匹配、生成,從網(wǎng)頁中提取信息表單。文獻(xiàn)[18]中通過假設(shè)網(wǎng)頁的中心內(nèi)容最重要,將網(wǎng)頁劃分網(wǎng)格并從質(zhì)心逐步展開直到主內(nèi)容核心中的子樹包含整個(gè)主內(nèi)容的方法來提取主內(nèi)容。文獻(xiàn)[19]中應(yīng)用卷積與長短期記憶(Long Short-Term Memory,LSTM)深度學(xué)習(xí)網(wǎng)絡(luò)實(shí)現(xiàn)Web 數(shù)據(jù)提取,使用YOLO 算法和Tesseract LSTM 算法提取網(wǎng)頁的圖像來對比頁面差異等內(nèi)容,實(shí)現(xiàn)自動(dòng)網(wǎng)頁檢測從而提取數(shù)據(jù)。學(xué)者主頁信息一般會實(shí)時(shí)更新,基于視覺分塊的方法往往需要先進(jìn)行頁面渲染,這會耗費(fèi)大量資源。
基于模板的信息抽取方法包含傳統(tǒng)機(jī)器學(xué)習(xí)方法與神經(jīng)網(wǎng)絡(luò)算法。早期的手工構(gòu)造模板的方法主要用來解決特定網(wǎng)站的信息抽取問題,使用該類方法不需要構(gòu)建數(shù)據(jù)集,但是需要大量的人工分析且不同的站點(diǎn)需要不同模板,費(fèi)時(shí)費(fèi)力且通用性較差。于是大量研究集中于如何自動(dòng)生成模板的方法上,文獻(xiàn)[20]中提出了一種全自動(dòng)生成模板的算法,利用網(wǎng)頁鏈接分類算法和網(wǎng)頁結(jié)構(gòu)分離算法,經(jīng)過大量計(jì)算后抽取出網(wǎng)頁中各個(gè)信息單元,從而生成模板,但是該算法需要對同類網(wǎng)站進(jìn)行觀察,計(jì)算量較大。文獻(xiàn)[21]中通過對網(wǎng)頁DIV(DIVision)塊進(jìn)行分類,篩選出待抽取的DIV塊并構(gòu)建DIV 塊模板,再對塊內(nèi)的文本定位建立關(guān)鍵信息模板。此類方法的預(yù)處理部分過于繁雜,且仍需要人工構(gòu)建可擴(kuò)展標(biāo)記語言(Extensible Markup Language,XML)模板。文獻(xiàn)[22]中提出可擴(kuò)展的網(wǎng)頁關(guān)鍵信息抽取方法,它的核心是全自動(dòng)模板生成技術(shù),其中的生成算法需要訓(xùn)練預(yù)先準(zhǔn)備的數(shù)據(jù)集,而且通用性依賴于訓(xùn)練集的覆蓋率,如果一個(gè)訓(xùn)練集覆蓋較窄,則可能導(dǎo)致對某些頁面的抽取失敗。文獻(xiàn)[23]中采用網(wǎng)頁分隔和逆向解析DOM 樹,得到相應(yīng)的Xpath(XML path language)抽取規(guī)則,實(shí)現(xiàn)新聞網(wǎng)頁中新聞內(nèi)容、標(biāo)題、新聞代理和發(fā)布時(shí)間等信息的抽取,由于該方法是針對新聞網(wǎng)頁,在異構(gòu)Web 中信息提取效果不佳。隨著網(wǎng)頁結(jié)構(gòu)的不斷變化,越發(fā)顯現(xiàn)出傳統(tǒng)機(jī)器學(xué)習(xí)方法的局限性。隨著神經(jīng)網(wǎng)絡(luò)的興起,現(xiàn)有方法開始結(jié)合HTML 模板節(jié)點(diǎn)與神經(jīng)網(wǎng)絡(luò)進(jìn)行信息抽取任務(wù),降低對人工定義特征的依賴。文獻(xiàn)[24]中使用BERT(Bidirectional Encoder Representation form Transformers)獲取詞的通用語義表征,之后輸入雙向長短期記憶(Bidirectional Long Short-Term Memory,BiLSTM)網(wǎng)絡(luò)對上下文進(jìn)行編碼,使用條件隨機(jī)場(Conditional Random Field,CRF)進(jìn)行標(biāo)簽標(biāo)注獲取學(xué)者主頁信息。文獻(xiàn)[25]中利用簡化的DOM 樹結(jié)構(gòu)有效地檢索每個(gè)節(jié)點(diǎn)的上下文,將節(jié)點(diǎn)的文本特征分別由LSTM 和CNN 在單詞級別和字符級別進(jìn)行編碼,通過分類器最終獲取目標(biāo)屬性。文獻(xiàn)[26]中提出一種基于HTML 中DOM 節(jié)點(diǎn)的網(wǎng)頁結(jié)構(gòu)信息提取方法,為每個(gè)DOM 節(jié)點(diǎn)設(shè)計(jì)HTML 標(biāo)記并與文本標(biāo)記構(gòu)建豐富的注意力模式,利用主頁的頁面布局進(jìn)行注意力權(quán)重計(jì)算最終獲取頁面結(jié)構(gòu)化信息。文獻(xiàn)[27]中提出了一種基于DOM 樹中節(jié)點(diǎn)的信息熵的新聞網(wǎng)頁自動(dòng)提取方法,首先對網(wǎng)頁標(biāo)簽進(jìn)行分類選取影響頁面結(jié)構(gòu)的標(biāo)簽,之后考慮DOM 樹節(jié)點(diǎn)的內(nèi)容與結(jié)構(gòu)特征進(jìn)行節(jié)點(diǎn)融合獲得分割結(jié)果,從而實(shí)現(xiàn)對網(wǎng)頁新聞內(nèi)容的提取。文獻(xiàn)[28]中提供了一個(gè)站點(diǎn)級模板提取器,結(jié)合了站點(diǎn)級模板檢測方法TeMex 與內(nèi)容提取方法ConEx,在TeMex 中進(jìn)行預(yù)處理去除頁面級ConEx 推斷的主要內(nèi)容從而進(jìn)行站點(diǎn)模板提取。
使用基于模板的信息抽取方法,隨著HTML 標(biāo)準(zhǔn)及風(fēng)格的變化會導(dǎo)致模型提取效果降低;而使用基于統(tǒng)計(jì)信息的方法與基于視覺分塊的方法一般需要人工進(jìn)行部分特征提取,耗費(fèi)資源且復(fù)雜度高。因此,本文不再對HTML 模板進(jìn)行建模,而建立文本分類模型重點(diǎn)分析文本語義特征,針對頁面純文本信息進(jìn)行細(xì)粒度信息提取。然而文本分類模型通常只需對單一語義信息進(jìn)行建模,但學(xué)者信息抽取任務(wù)中上下文具有語義與結(jié)構(gòu)上的相關(guān)性,因此,本文對傳統(tǒng)的分類方法加以改進(jìn),提出基于局部語義融合的學(xué)者主頁細(xì)粒度信息提取模型,引入提取目標(biāo)外局部上下文語義信息,豐富目標(biāo)語義表征,實(shí)現(xiàn)了學(xué)者主頁細(xì)粒度信息提取。
本文方法由學(xué)者主頁純文本信息提取模塊、語義編碼層、局部語義特征融合層、細(xì)粒度信息計(jì)算層組成。模型體系結(jié)構(gòu)如圖1 所示。
圖1 模型體系結(jié)構(gòu)Fig.1 Model architecture
原始數(shù)據(jù)為學(xué)者主頁超鏈接。根據(jù)鏈接獲取對應(yīng)的HTML 文檔,利用HTML 中普遍存在的
與其他具有換行功能的標(biāo)簽對文檔內(nèi)容進(jìn)行換行處理,之后使用Python 庫BeautifulSoup 去除標(biāo)簽,提取頁面純文本信息,在此過程中,純文本對應(yīng)行數(shù)與HTML 文檔相對位置保持一致。最終進(jìn)行長段落分句換行,獲取網(wǎng)頁文本語料S={s1,s2,…,sn},S中的每個(gè)元素表示網(wǎng)頁文本中的一個(gè)行塊,即為處理后的頁面純文本的一行,以此粒度為基本單位實(shí)現(xiàn)對學(xué)者主頁細(xì)粒度信息的提取。在文本語料S中的每個(gè)元素的開頭添加特殊符號“[CLS]”,經(jīng)預(yù)訓(xùn)練模型訓(xùn)練后該無明顯語義信息的特殊符號能夠更公平地融合句子中各個(gè)詞的語義信息,從而更好地表示每個(gè)行塊的語義。圖1 中sk-1,sk,sk+1為輸入預(yù)訓(xùn)練模型的文本語料示例,設(shè)文本語料sk為提取目標(biāo),則sk-1和sk+1為提取目標(biāo)局部上下文信息。
純文本信息提取與處理完成后,將行塊輸入語義編碼層使用中文RoBERTa-wwm-ext[6]預(yù)訓(xùn)練模型學(xué)習(xí)語義表征。學(xué)者主頁以行塊為單位進(jìn)行抽取,RoBERTa-wwm-ext 能夠很好地對中文文本中句子級別的語義信息及相對位置信息進(jìn)行建模,而行塊通常為一個(gè)自然句,因此,本文使用該模型實(shí)現(xiàn)行塊粒度上的語義編碼。RoBERTa-wwm-ext 由哈工大訊飛聯(lián)合實(shí)驗(yàn)室發(fā)布的BERT 模型演化而來,嵌入層使用中文維基百科與新聞、問答等作為預(yù)訓(xùn)練語料,哈工大語言技術(shù)平臺(Language Technology Platform,LTP)分詞工具進(jìn)行分詞實(shí)現(xiàn)全詞mask,使它能夠獲取更精準(zhǔn)豐富的語義信息。
RoBERTa-wwm-ext 結(jié)合了中文全詞掩碼技術(shù)與RoBERTa 的優(yōu)勢,相較于經(jīng)典BERT 模型,具有以下特點(diǎn):
1)使用全詞掩碼(Whole Word Masking,WWM)策略。在以詞為最小造句單位的中國語言體系中,詞語的識別與使用很有必要。WWM 將經(jīng)典模型中以字為單位的mask 方法轉(zhuǎn)換為更符合中文文本特點(diǎn)的以詞為單位的mask 方式。表1為WWM 的示例,通過符合中文結(jié)構(gòu)特點(diǎn)的全詞掩碼策略,有效提升了文本表征的效果。
表1 掩碼方式示例Tab.1 Examples of masking modes
2)模型訓(xùn)練階段的訓(xùn)練數(shù)據(jù)量規(guī)模增大、模型參數(shù)量增加、batch_size 增大,且直接使用max_length=512 的訓(xùn)練序列進(jìn)行訓(xùn)練。訓(xùn)練步數(shù)延長,共計(jì)訓(xùn)練106步。
3)去除下句預(yù)測(Next Sentence Prediction,NSP)任務(wù)。在保證模型預(yù)訓(xùn)練最終效果的基礎(chǔ)上,NSP 任務(wù)的去除提高了計(jì)算效率。
RoBERTa-wwm-ext 由12 層Transformer 構(gòu)建,輸入為分類任務(wù)中的單文本或文本匹配任務(wù)的文本對,如圖2 所示。
圖2 RoBERTa-wwm-ext模型結(jié)構(gòu)Fig.2 Structure of RoBERTa-wwm-ext model
因RoBERTa-wwm-ext 預(yù)訓(xùn)練模型在中文語義編碼上的特殊優(yōu)勢與自然語言處理任務(wù)中較好的實(shí)驗(yàn)效果,本文選擇它進(jìn)行文本語義編碼。語義編碼層包括嵌入層與表征層。網(wǎng)頁文本語料S通過嵌入層將字序列{[ CLS],W1,W2,…,Wn}映射為包含字向量信息、位置向量信息與輸入序列向量信息的多維空間向量(E[CLS],E1,E2,…,En),用RoBERTa-wwm-ext的多個(gè)雙向Transformer 自編碼器(圖1 中簡寫為Trm)。對上述多維空間向量進(jìn)行編碼操作,處于低層次的自編碼器獲取字向量的短語級別的信息,中層次自編碼器獲取單句的語法特征,高層次的自編碼器獲取單句語義特征,最后一層將文本語料映射到高維語義空間得到文本表征向量。每個(gè)行塊的特殊符號“[CLS]”對應(yīng)輸出的特征向量(C1,C2,…,Cn)為局部語義特征融合層的輸入。
局部語義特征融合層使用簡化的卷積神經(jīng)網(wǎng)絡(luò)(CNN)進(jìn)行局部上下文特征提取。CNN 的原理在于捕捉信息的局部相關(guān)信息,具體到此任務(wù)可以用來捕捉目標(biāo)句局部上下文的關(guān)鍵信息。CNN 通常由五層組成:數(shù)據(jù)輸入層、卷積層、激勵(lì)層、池化層與全連接層。本文的目標(biāo)句通常為短句,池化層會導(dǎo)致特征降維從而丟失目標(biāo)文本語義信息,故去掉池化層,并且讓模型深度盡可能淺。在對短文本進(jìn)行特征提取時(shí),深層神經(jīng)網(wǎng)絡(luò)獲取的特征更抽象,同樣會導(dǎo)致語義信息的丟失。因此本文使用簡化的CNN,僅使用它的數(shù)據(jù)輸入層、單層文本卷積操作層、激勵(lì)層、單層全連接層實(shí)現(xiàn)局部語義特征的融合提取。主要利用CNN 中卷積層能夠有效提取上下文的特性對目標(biāo)句及它的上下文進(jìn)行乘積求和,豐富提取目標(biāo)句語義特征。
將語義編碼層的輸出(C1,C2,…,Cn)作為卷積層的輸入,進(jìn)行局部語義融合,得到目標(biāo)句更豐富的高維度語義信息。在學(xué)者主頁細(xì)粒度信息抽取任務(wù)中,經(jīng)過詞向量表達(dá)的文本為一維數(shù)據(jù),因此通過一維卷積操作對局部信息進(jìn)行語義融合,卷積層的輸入維度為(N,Gin,Lin),輸出維度為(N,Gout,Lout),卷積層的輸出值為:
其中:*表示有效的互相關(guān)操作;N為更新模型參數(shù)之前通過網(wǎng)絡(luò)傳播的樣本數(shù)量;G表示通道的個(gè)數(shù);L為輸入信號序列的長度。在神經(jīng)網(wǎng)絡(luò)卷積過程中可調(diào)節(jié)感受野,即在適宜范圍內(nèi)融合目標(biāo)局部上下文語義信息,使目標(biāo)語義表示更加豐富。本文將感受野大小設(shè)置為7,即將目標(biāo)行塊與它的局部范圍內(nèi)6 個(gè)行塊進(jìn)行融合,原因在實(shí)驗(yàn)部分說明。
傳統(tǒng)分類方法因一般不需要參考上下文信息,不會進(jìn)行局部上下文特征與目標(biāo)句特征的交互運(yùn)算。但是考慮到學(xué)者細(xì)粒度信息抽取任務(wù)局部語義相關(guān)聯(lián)的結(jié)構(gòu)性,本文提出融合局部語義特征的方法,將一個(gè)CNN 卷積核設(shè)置為Ki∈Wl×d,其中,Ki表示第i個(gè)卷積核,每個(gè)卷積核都是一個(gè)l×d大小的矩陣,l表示卷積核的窗口大小,d表示輸入句子的維度;W是指卷積層的卷積核集合代表一個(gè)l個(gè)句子的窗口,窗口覆蓋目標(biāo)行塊與局部上下文向量,通過卷積層生成一個(gè)語義更豐富的目標(biāo)行塊表征向量H=(h1,h2,…,hl)。
將卷積層的輸出H=(h1,h2,…,hl)輸入全連接層(Linear),將目標(biāo)句表征向量從高維度空間映射到低維度標(biāo)簽空間,返回未經(jīng)過歸一化的概率Logits={z1,z2,…,zl}。細(xì)粒度信息計(jì)算層主要進(jìn)行Softmax 操作。使用Softmax 進(jìn)行歸一化文本分類,計(jì)算出目標(biāo)句在細(xì)粒度信息標(biāo)簽中的概率P=(p1,p2,…,p11),選擇最大值代表的細(xì)粒度信息標(biāo)簽作為最終輸出的細(xì)粒度信息標(biāo)簽。細(xì)粒度信息計(jì)算層表述公式如下:
其中:zl為Logits的第i個(gè)元素,l為Logits向量的長度。
本文所用數(shù)據(jù)集由AMiner 平臺獲取。該數(shù)據(jù)集為學(xué)者個(gè)人主頁,共2 149 個(gè)頁面,其中高校官網(wǎng)、網(wǎng)絡(luò)百科全書、學(xué)術(shù)機(jī)構(gòu)網(wǎng)站、醫(yī)院官網(wǎng)、公司網(wǎng)站的頁面占比分別為86%、8%、3%、2%與1%。研究學(xué)者普遍在高校官網(wǎng)中建立個(gè)人主頁,因此該類占比最高。本文將學(xué)者個(gè)人主頁分為11 類細(xì)粒度信息,包含學(xué)者基本信息、教育經(jīng)歷、研究方向等,其中“other”非學(xué)者信息,為頁面導(dǎo)航欄、版權(quán)內(nèi)容等噪聲信息。詳細(xì)信息如表2 所示。
表2 學(xué)者主頁的細(xì)粒度信息詳解Tab.2 Detailed explanation of fine-grained information on scholar homepage
學(xué)者主頁數(shù)據(jù)集Scholars 由人工標(biāo)注并逐句進(jìn)行二次復(fù)核以確定分類的正確性。本文將2 149 個(gè)學(xué)者主頁頁面作為數(shù)據(jù)集,按8∶1∶1 的比例隨機(jī)劃分1 719 個(gè)頁面作為訓(xùn)練集,驗(yàn)證集與測試集各215 個(gè)頁面。對所有頁面中各類細(xì)粒度信息的數(shù)量進(jìn)行統(tǒng)計(jì),除“other”內(nèi)容噪聲信息外,10 類學(xué)者細(xì)粒度信息樣本分布如圖3 所示,其中每個(gè)類別標(biāo)簽具有3項(xiàng),第1 項(xiàng)為類別名稱,第2 項(xiàng)為類別樣本數(shù),第3 項(xiàng)為該類別在全部類別中的占比。
圖3 學(xué)者主頁的細(xì)粒度信息樣本分布Fig.3 Samples distribution of scholar homepage fine-grained information
為了評價(jià)學(xué)者細(xì)粒度信息提取實(shí)驗(yàn)的效果,本文采用評價(jià)指標(biāo)精確率P(Precision)、召回率R(Recall)和加權(quán)調(diào)和平均值F1(F1-score)對模型效果進(jìn)行評估。公式如下:
令細(xì)粒度信息所屬類別原本為X,則TP(True Positive)表示細(xì)粒度信息所屬類別被正確預(yù)測為X的樣本數(shù)量;FP(False Positive)表示細(xì)粒度信息原本不屬于類別X,但被錯(cuò)誤預(yù)測為X的樣本數(shù)量;FN(False Negative)表示細(xì)粒度信息被錯(cuò)誤預(yù)測的樣本數(shù)量;TN(True Negative)表示細(xì)粒度信息所屬類別本來不是X,預(yù)測出的結(jié)果也不是X的樣本數(shù)量。
本文需要根據(jù)所有細(xì)粒度信息分類情況整體評估模型效果,因此還使用宏平均精確率(Pmacro)、宏平均召回率(Rmacro)、宏平均F1 值(F1macro)作為整體評價(jià)指標(biāo):
宏平均評價(jià)指標(biāo)為每種細(xì)粒度信息類別評價(jià)指標(biāo)的均值。
本文實(shí)驗(yàn)使用基于CUDA 11.4 的深度學(xué)習(xí)框架PyTorch1.9.0 構(gòu)建神經(jīng)網(wǎng)絡(luò)模型。在模型訓(xùn)練過程中使用交叉熵?fù)p失函數(shù)、Adam 優(yōu)化器。Epoch 設(shè)置為動(dòng)態(tài)數(shù)值,達(dá)到最優(yōu)效果之后繼續(xù)運(yùn)行6 次保持不變則實(shí)驗(yàn)停止。模型訓(xùn)練過程中超參數(shù)設(shè)置如表3 所示。
表3 超參數(shù)設(shè)置Tab.3 Hyperparameter setting
3.4.1 對比實(shí)驗(yàn)
為了驗(yàn)證局部語義特征融合方法的有效性,本文采用以下4 種基線模型與融合局部語義特征的模型進(jìn)行對比實(shí)驗(yàn)。對比實(shí)驗(yàn)中超參數(shù)一致部分均設(shè)置為相同數(shù)值。
1)BERT[29]:傳統(tǒng)的預(yù)訓(xùn)練語言表征模型。
2)ELECTRA(Efficiently Learning an Encoder that Classifies Token Replacements Accurately)[30]:生成判別模型。
3)RoBERTa-wwm-ext(后文簡寫為RoBERTa)[6]:基于全詞掩碼及強(qiáng)優(yōu)化的BERT 方法。
4)RoBERTa-wwm-ext-TextCNN(后文簡寫為RoBERTa-TextCNN)[31-32]:近期取得顯著效果的文本分類模型。
由于本文方法為保留短文本語義豐富性,采用無池化層以降低擬合性,在對比實(shí)驗(yàn)中本文方法使用K-Fold 交叉驗(yàn)證,其中K為子集個(gè)數(shù)。將本文數(shù)據(jù)集劃分為5 個(gè)子集,每部分大小相等,選取其中1 個(gè)子集作為驗(yàn)證集,其余4 個(gè)子集用作訓(xùn)練集,重復(fù)5 次,直到每個(gè)子集均用作驗(yàn)證集,其余子集用作訓(xùn)練集。模型最終精度取使用5-Fold 方法訓(xùn)練出的5個(gè)模型的驗(yàn)證集數(shù)據(jù)的平均精度。使用宏平均值評價(jià)指標(biāo)來評估本文方法,實(shí)驗(yàn)結(jié)果如表4 所示。
表4 學(xué)者信息提取結(jié)果對比 單位:%Tab.4 Comparison of scholar information extraction results unit:%
表4 中“Ours”表示本文融合局部語義特征的方法;“Ours+ELECTRA-CNN”表示使用局部語義特征融合方法的ELECTRA-CNN 模型;“Ours+RoBERTa-CNN”表示使用局部語義特征融合方法的RoBERTa-wwm-ext-CNN 模型。通過對ELECTRA、BERT、RoBERTa3 種預(yù)訓(xùn)練模型提取效果進(jìn)行對比,發(fā)現(xiàn)RoBERTa 預(yù)訓(xùn)練模型效果最優(yōu),因此選取RoBERTa作為本實(shí)驗(yàn)的語義表征模型。
實(shí)驗(yàn)結(jié)果表明,使用此融合局部語義特征的方法進(jìn)行學(xué)者細(xì)粒度信息提取F1macro達(dá)到93.43%。對比發(fā)現(xiàn)RoBERTa-TextCNN 模型的F1macro值比RoBERTa 模型降低1.10 個(gè)百分點(diǎn),說明效果顯著的純文本分類模型在學(xué)者信息提取任務(wù)上并不能取得很好的效果。融合局部語義特征的RoBERTa-CNN 方法與未融合局部語義的最優(yōu)純文本分類方法RoBERTa-TextCNN 相比,F(xiàn)1macro提高了8.60 個(gè)百分點(diǎn)。由此可見,在學(xué)者細(xì)粒度信息抽取實(shí)驗(yàn)中,使用融合局部語義特征的方法對學(xué)者細(xì)粒度信息提取具有顯著效果。
3.4.2 學(xué)者主頁細(xì)粒度信息提取實(shí)驗(yàn)結(jié)果
使用上述K-Fold 交叉驗(yàn)證方法進(jìn)行實(shí)驗(yàn),融合局部語義特征的學(xué)者主頁細(xì)粒度信息提取模型在Scholars 數(shù)據(jù)集上提取結(jié)果如表5 所示。共提取了10 種學(xué)者相關(guān)細(xì)粒度信息,其中,頁面噪聲信息other 包含頁面導(dǎo)航欄、版權(quán)信息、學(xué)生介紹等內(nèi)容。實(shí)驗(yàn)結(jié)果表明,本文模型在細(xì)粒度信息的提取中取得了較好的效果。achievement 類別的提取效果相對較差,因?yàn)閷W(xué)者所獲成就范圍較廣且沒有穩(wěn)定的格式,之后將對此項(xiàng)加以改進(jìn);提取結(jié)果中other 的F1 達(dá)到98.55%,說明本文方法對學(xué)者主頁整體的學(xué)者信息的提取效果同樣顯著。
3.4.3 消融實(shí)驗(yàn)
1)感受野范圍對模型效果的影響評估。
本文重點(diǎn)在于局部語義特征的融合,選定一個(gè)合適的局部語義融合范圍至關(guān)重要。模型的感受野范圍控制了局部語義特征融合的范圍。本文實(shí)驗(yàn)在CNN 卷積過程中逐步擴(kuò)大感受野范圍,從而增加目標(biāo)局部上下文語義信息融合范圍,并查看模型提取效果。感受野大小由卷積過程中的卷積窗口控制,即卷積層中的kernel_size 控制。當(dāng)kernel_size=0時(shí),僅卷積當(dāng)前目標(biāo)句;當(dāng)kernel_size=3 時(shí),將融合目標(biāo)句及其上句與下句的語義特征,以此類推。
實(shí)驗(yàn)結(jié)果如表6 所示。當(dāng)kernel_size=1 時(shí),僅對目標(biāo)句進(jìn)行卷積,沒有融合局部語義特征,F(xiàn)1marco明顯較低,說明了融合局部語義特征的重要性;當(dāng)kernel_size=3 時(shí),融合了局部上下文,提取效果開始具有明顯的提升。此時(shí)繼續(xù)擴(kuò)大感受野范圍,效果繼續(xù)提升;直到kernel_size=7 后,模型趨于平穩(wěn),評估指標(biāo)波動(dòng)范圍控制在1 個(gè)百分點(diǎn)以內(nèi),不再有明顯的提升或降低;當(dāng)kernel_size=13 時(shí),得到最優(yōu)提取結(jié)果為93.03%。顯而易見,本文提出的融合局部語義特征的方法對學(xué)者細(xì)粒度信息抽取具有明顯效果。因?yàn)閗ernel_size=7時(shí)F1marco達(dá)到了第一個(gè)穩(wěn)定峰值,之后開始波動(dòng),波動(dòng)范圍較小,而卷積核越小運(yùn)算速度越快,根據(jù)時(shí)間效率本文將kernel_size=7 設(shè)置為模型感受野大小。
表6 感受野大小與模型效果間的關(guān)系Tab.6 Relationship between receptive field size and model effect
2)池化層影響評估。
為了驗(yàn)證簡化的CNN 模型的效果,本文將無池化層模型(No-pooling)、在一維卷積后添加最大池化層的模型(+maxpooling)與在一維卷積后添加平均池化層的模型(+avgpooling)這3 個(gè)模型進(jìn)行學(xué)者主頁細(xì)粒度信息抽取對比,實(shí)驗(yàn)結(jié)果如表7 所示。顯然,本文無池化層的模型綜合指標(biāo)F1macro優(yōu)于具有池化層的模型,因此,本文使用無池化層的簡化CNN 進(jìn)行學(xué)者細(xì)粒度信息抽取。
表7 池化層效果對比 單位:%Tab.7 Effect comparison of pooling layer unit:%
3.4.4 通用性實(shí)驗(yàn)
本文在公開數(shù)據(jù)集上驗(yàn)證所提模型與方法的通用性。因任務(wù)特殊,較難得到公開個(gè)人信息數(shù)據(jù)集,但本文模型為基于分類模型上的改進(jìn)模型,因此選擇情感分析公開數(shù)據(jù)集NLPCC2014、waimai_10k 與新聞文本分類公開數(shù)據(jù)集toutiaonews38w 數(shù)據(jù)集進(jìn)行驗(yàn)證,結(jié)果如表8 所示。實(shí)驗(yàn)發(fā)現(xiàn),在情感分析與分類任務(wù)上,本文模型(Ours+RoBERTa-CNN)與近期取得顯著效果的文本分類模型相比仍具有優(yōu)勢,實(shí)驗(yàn)效果略好。且因CNN 滑動(dòng)窗口相對較少、執(zhí)行效率高,使用本文模型在保證精確率的同時(shí)也能提高任務(wù)的完成速度,說明了本文模型的通用性。但因waimai_10k、toutiaonews38w 數(shù)據(jù)集不具備局部上下文語義相關(guān)聯(lián)的特征,未能利用模型的最大優(yōu)勢。NLPCC2014 為情感分析數(shù)據(jù)集,本文實(shí)驗(yàn)對微博每條評論中每句的情感進(jìn)行分析,情感分為7 類,任務(wù)難度較高,微博同一條評論的每句話上下文相關(guān)聯(lián),雖語義與結(jié)構(gòu)聯(lián)系不緊密,但在此任務(wù)上F1macro仍有明顯提高,由此驗(yàn)證了本文方法與模型的通用性與有效性。
表8 不同數(shù)據(jù)集上不同模型的通用性實(shí)驗(yàn)結(jié)果對比 單位:%Tab.8 Experimental results of universality of different models on different datasets unit:%
學(xué)者主頁廣泛分布于不同站點(diǎn),為了避免學(xué)者主頁信息提取過程受到站點(diǎn)HTML 風(fēng)格變化的影響,本文進(jìn)行學(xué)者頁面純文本語義分析與頁面相對位置分析,從而進(jìn)行細(xì)粒度信息提取。分析發(fā)現(xiàn),同種粒度信息常處于頁面相近位置,因此本文提出一種基于局部語義融合的學(xué)者細(xì)粒度信息提取方法,通過融合句外局部語義信息豐富目標(biāo)語義,使目標(biāo)語義特征更飽滿,更有利于學(xué)者主頁細(xì)粒度信息的提取。在自建Scholars 數(shù)據(jù)集上進(jìn)行驗(yàn)證,實(shí)驗(yàn)結(jié)果表明本文方法在學(xué)者信息提取任務(wù)上取得了顯著效果。但是本文方法對學(xué)者所獲成就信息的提取效果相對一般,因?yàn)閷W(xué)者所獲成就具有范圍較廣且形式多樣化的特點(diǎn),未來的工作將對此項(xiàng)加以改進(jìn)。