• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      面向招投標(biāo)領(lǐng)域的遠(yuǎn)程監(jiān)督實體關(guān)系抽取研究

      2020-09-04 03:16:20陳雨婷劉旭紅劉秀磊
      計算機工程與應(yīng)用 2020年17期
      關(guān)鍵詞:知識庫示例實體

      陳雨婷 ,劉旭紅 ,劉秀磊

      1.北京信息科技大學(xué) 網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點實驗室,北京 100101

      2.北京信息科技大學(xué) 計算機學(xué)院,北京 100101

      1 引言

      近年來,我國招標(biāo)投標(biāo)(簡稱招投標(biāo))行業(yè)發(fā)展迅速。招投標(biāo)已成為企業(yè)間對接工程項目的常規(guī)交易方式。與此同時,各大招投標(biāo)網(wǎng)站相繼出現(xiàn),Web 中積累了規(guī)模龐大的企業(yè)交易數(shù)據(jù)。但目前,招投標(biāo)信息化程度還相對滯后,如何更好地利用這些非結(jié)構(gòu)化的Web文本資源,從中快速獲取企業(yè)間的交易關(guān)系并實現(xiàn)信息結(jié)構(gòu)化管理,受到了業(yè)內(nèi)人士的廣泛關(guān)注。

      隨著信息抽取技術(shù)的快速發(fā)展,相關(guān)研究開始采用基于遠(yuǎn)程監(jiān)督的實體關(guān)系抽取方法。該方法無需人工構(gòu)建語料庫,而是借助知識庫對齊文本實現(xiàn)自動標(biāo)注數(shù)據(jù),降低了信息抽取任務(wù)的成本,但引入了噪聲數(shù)據(jù)的干擾問題。此外,招投標(biāo)領(lǐng)域中缺乏較為完善的中文知識庫,導(dǎo)致面向中文資源的遠(yuǎn)程監(jiān)督實體關(guān)系抽取研究目前尚未能滿足該專業(yè)領(lǐng)域的特定需求。

      針對上述問題,本文將選取招投標(biāo)網(wǎng)站的交易數(shù)據(jù)作為研究對象,圍繞信息抽取方法展開相關(guān)技術(shù)研究工作。

      本文的主要貢獻如下:

      (1)利用Web中非結(jié)構(gòu)化的招投標(biāo)領(lǐng)域企業(yè)歷史交易數(shù)據(jù)及企業(yè)名稱語料集構(gòu)建企業(yè)關(guān)系知識庫,實現(xiàn)自動標(biāo)注原始語料中的企業(yè)關(guān)系實例,并按本文方法實現(xiàn)企業(yè)關(guān)系實例抽取的迭代擴充。

      (2)為有效減弱遠(yuǎn)程監(jiān)督方法引入的噪聲干擾,提出結(jié)合領(lǐng)域規(guī)則的知識融合方法以優(yōu)化實體抽取質(zhì)量,在此基礎(chǔ)上,進一步提出基于負(fù)例數(shù)據(jù)學(xué)習(xí)的降噪方法。

      (3)結(jié)合招投標(biāo)領(lǐng)域語義特征,提出基于因子圖模型的遠(yuǎn)程監(jiān)督實體關(guān)系抽取方法,可有效判別企業(yè)間的關(guān)系,具有一定的領(lǐng)域拓展性。

      2 遠(yuǎn)程監(jiān)督實體關(guān)系抽取研究現(xiàn)狀

      將海量非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)是文本信息抽取的一項重要任務(wù),實體關(guān)系抽取是其重要步驟之一。傳統(tǒng)的實體關(guān)系抽取方法可分為監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。其中,監(jiān)督學(xué)習(xí)方法的研究成果顯著。近些年,基于神經(jīng)網(wǎng)絡(luò)的監(jiān)督學(xué)習(xí)實體關(guān)系抽取研究受到了廣泛關(guān)注,現(xiàn)已應(yīng)用在生物醫(yī)學(xué)、煤礦安全生產(chǎn)等諸多領(lǐng)域。但該類方法需要借助大量標(biāo)注語料,在Web數(shù)據(jù)日益增長的情況下,該類方法的應(yīng)用受到了制約。半監(jiān)督學(xué)習(xí)方法在迭代過程中易產(chǎn)生“語義漂流”問題,而無監(jiān)督學(xué)習(xí)方法在映射過程中易出現(xiàn)實例聚合錯誤等連帶問題。目前,這三類實體關(guān)系抽取方法都遇到了一定困難。

      為此,Mintz 等[1]在2009 年首次提出基于遠(yuǎn)程監(jiān)督的實體關(guān)系抽取方法。該方法通過非結(jié)構(gòu)化文本與外部知識庫(Knowledge Base,KB)對齊操作,自動化構(gòu)建大量訓(xùn)練數(shù)據(jù),大大降低了模型構(gòu)建過程對人工標(biāo)注數(shù)據(jù)的依賴,提高了模型跨領(lǐng)域的可移植性。但該方法在獲取標(biāo)注數(shù)據(jù)時基于如下假設(shè):若非結(jié)構(gòu)化句子中所包含的兩個實體在知識庫中存在某種關(guān)系,則該句蘊含這一潛在關(guān)系。由于該假設(shè)過于理想,導(dǎo)致自動標(biāo)注數(shù)據(jù)過程中可能會產(chǎn)生大量噪聲數(shù)據(jù)或忽略掉重要信息。為此,2010年Riedel等[2]提出一種相對松弛的假設(shè):若已知某實體對存在某種實體關(guān)系,則至少有一個包含該實體對的句子潛在地表達了這種實體關(guān)系。文獻[2]基于該假設(shè),得到了更為準(zhǔn)確的標(biāo)注數(shù)據(jù)。

      在此基礎(chǔ)上,為更好地降低噪聲數(shù)據(jù)對關(guān)系抽取效果的影響,Roth等[3]提出結(jié)合主題模型和判別學(xué)習(xí)方法識別噪聲數(shù)據(jù),以優(yōu)化抽取結(jié)果的排序質(zhì)量。Fan 等[4]通過將一個由文本特征矩陣和標(biāo)簽矩陣逐項聯(lián)合而得的稀疏矩陣,分解為最小秩矩陣,再經(jīng)矩陣填充恢復(fù)底層低秩矩陣,以此擬合噪聲分布,進而擬合真實分布。Ru 等[5]通過在詞向量中結(jié)合語義JacCard,對知識庫中的關(guān)系短語與句子中兩個實體之間的依賴短語進行語義相似度測量,以過濾錯誤的標(biāo)簽。Qin 等[6]提出一種新的深度強化學(xué)習(xí)框架,基于RL Agent 策略自動識別數(shù)據(jù)集中的假正例,并放回負(fù)例集以減少噪聲數(shù)據(jù),同時保證了遠(yuǎn)程監(jiān)督關(guān)系抽取的性能及模型魯棒性。

      上述研究主要針對英文文本進行處理,近些年,針對中文資源的遠(yuǎn)程監(jiān)督關(guān)系抽取的技術(shù)研究也在不斷發(fā)展,但還僅以人物關(guān)系抽取方向為主。潘云等[7]利用互動百科中文數(shù)據(jù)構(gòu)建人物關(guān)系知識庫,以自動標(biāo)記關(guān)系抽取訓(xùn)練數(shù)據(jù),并引入標(biāo)簽傳播算法匹配部分未標(biāo)記人名對的關(guān)系。該方法未對噪聲數(shù)據(jù)進行處理,準(zhǔn)確率在68.2%左右。黃蓓靜等[8]針對人物實體關(guān)系抽取任務(wù),利用詞向量及句子模式聚類、模式評分的方法,通過過濾原始訓(xùn)練集中的噪聲句子,實現(xiàn)數(shù)據(jù)集降噪的目的。黃楊琛等[9]提出在訓(xùn)練數(shù)據(jù)生成階段,引入多示例學(xué)習(xí)的思想,并基于TF-IDF 的關(guān)系指示詞發(fā)現(xiàn)的方法對遠(yuǎn)程監(jiān)督產(chǎn)生的數(shù)據(jù)進行去噪處理,具有較好的可拓展性。

      綜上所述,相比針對英文文本進行關(guān)系抽取的研究,在處理中文文本上,遠(yuǎn)程監(jiān)督方法的噪音問題仍然沒有較好的解決方案,原因之一是中文表達在句式和語義上更為復(fù)雜,增加了關(guān)系抽取和降噪處理的難度。本文針對以上問題,研究面向遠(yuǎn)程監(jiān)督數(shù)據(jù)標(biāo)注的降噪方法,提出融入語義特征的因子圖模型,并將其應(yīng)用于招投標(biāo)領(lǐng)域的企業(yè)關(guān)系抽取,最后進行了實驗驗證。

      3 遠(yuǎn)程監(jiān)督實體關(guān)系抽取及降噪研究

      通過遠(yuǎn)程監(jiān)督方法對齊領(lǐng)域關(guān)系知識庫和自然語言文本語料獲得候選關(guān)系實體對,并引入領(lǐng)域知識作為規(guī)則,將這些候選關(guān)系實體對標(biāo)記為匹配正確關(guān)系的企業(yè)對(正例)、匹配錯誤關(guān)系的企業(yè)對(負(fù)例)和未匹配上關(guān)系的企業(yè)對(未知實例),作為關(guān)系抽取模型學(xué)習(xí)的輸入,共同構(gòu)建特征模型,以提高后續(xù)分類性能。

      因子圖能夠?qū)崿F(xiàn)對隨機變量之間的復(fù)雜關(guān)系進行概率建模[10],有助于區(qū)分具有相似特征的關(guān)系實體對。目前,該模型已有效應(yīng)用于事件關(guān)聯(lián)分析[11]、用戶群組識別[12]、社區(qū)發(fā)現(xiàn)[13-14]等任務(wù)。因此,本文為準(zhǔn)確識別候選關(guān)系實體對的關(guān)系,提出結(jié)合候選關(guān)系實體對的詞法和語義特征共同構(gòu)建因子圖模型,用于實體關(guān)系分類。

      3.1 招投標(biāo)領(lǐng)域的遠(yuǎn)程監(jiān)督實體關(guān)系抽取框架

      結(jié)合招投標(biāo)領(lǐng)域數(shù)據(jù)的特點,通過Web文本挖掘技術(shù)實現(xiàn)信息抽取,有效抽取招標(biāo)人、招標(biāo)代理機構(gòu)和中標(biāo)人所對應(yīng)的項目單位及其間發(fā)生的“委托”關(guān)系(招標(biāo)人-招標(biāo)代理機構(gòu))和“承辦”關(guān)系(招標(biāo)人-中標(biāo)人)。

      通過觀察招投標(biāo)網(wǎng)頁內(nèi)容,可將招投標(biāo)網(wǎng)頁內(nèi)容分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。為保證抽取效果,需對兩種數(shù)據(jù)類型采用不同的信息抽取方法。

      招標(biāo)代理機構(gòu)會幫助招標(biāo)人評定一個或多個最終中標(biāo)人,常借助二維表格公示該結(jié)果。本文利用結(jié)構(gòu)化數(shù)據(jù)的上下位關(guān)系定位實體,以獲取“承辦”關(guān)系。而招標(biāo)人和招標(biāo)代理機構(gòu)的“委托”關(guān)系普遍蘊含在自然語言描述的非結(jié)構(gòu)化文本數(shù)據(jù)中。本文引入實體關(guān)系抽取技術(shù)獲取“委托”關(guān)系。遠(yuǎn)程監(jiān)督實體關(guān)系抽取框架如圖1所示。

      圖1 結(jié)合降噪處理的遠(yuǎn)程監(jiān)督實體關(guān)系抽取框架

      處理非結(jié)構(gòu)化數(shù)據(jù)時,獲取招標(biāo)人-招標(biāo)代理機構(gòu)間發(fā)生的“委托”關(guān)系的方法及思路:

      (1)對招投標(biāo)網(wǎng)站中各篇文檔進行數(shù)據(jù)清洗。

      (2)對文檔進行詞法和句法分析,包括中文分詞、詞性標(biāo)注、命名實體識別、依賴性解析等序列標(biāo)注處理。

      (3)根據(jù)步驟(2)的NER 等序列標(biāo)注結(jié)果,抽取句中候選實體,并結(jié)合領(lǐng)域知識庫進行實體鏈接,以實現(xiàn)知識融合。

      (4)對各句中的候選實體進行笛卡爾積運算,結(jié)合限制條件,得到對應(yīng)的候選實體對集合V。實體對(A,B)∈V,其中A為招標(biāo)人,B為招標(biāo)代理機構(gòu)。

      (5)根據(jù)步驟(2)和(4)的結(jié)果,提取基于候選實體對上下文的語義特征。

      (6)采用遠(yuǎn)程監(jiān)督方法構(gòu)建訓(xùn)練數(shù)據(jù),即通過與招投標(biāo)領(lǐng)域知識庫對齊,為候選實體對匹配關(guān)系標(biāo)簽,并引入領(lǐng)域規(guī)則提高標(biāo)注質(zhì)量。

      (7)以步驟(5)和(6)的結(jié)果作為輸入,構(gòu)建因子圖模型,統(tǒng)計推理候選實體對間具備指定關(guān)系的置信度;其間迭代使用吉布斯采樣和隨機梯度下降算法學(xué)習(xí)得到候選實體對的特征權(quán)重及邊界概率,最終抽取置信度高于規(guī)定閾值的候選實體對,即為具有“委托”關(guān)系的招標(biāo)人和招標(biāo)代理機構(gòu)。

      (8)基于步驟(7)的結(jié)果,并結(jié)合由表格上下位關(guān)系抽取所得的“承辦”關(guān)系構(gòu)建企業(yè)關(guān)系網(wǎng)絡(luò)并完善知識庫,用于后續(xù)研究與分析。

      上述步驟中,利用遠(yuǎn)程監(jiān)督方法構(gòu)建訓(xùn)練語料,可降低數(shù)據(jù)標(biāo)注對人工的依賴,但同時會引入噪聲數(shù)據(jù),易導(dǎo)致因子圖模型的推理和判別效果不佳。為此,本文在自動標(biāo)注關(guān)系標(biāo)簽前,引入知識融合技術(shù)優(yōu)化實體抽取質(zhì)量,以提升遠(yuǎn)程監(jiān)督標(biāo)注數(shù)據(jù)的有效性;在自動標(biāo)注關(guān)系標(biāo)簽后,再引入領(lǐng)域知識作為規(guī)則,以提高遠(yuǎn)程監(jiān)督標(biāo)注數(shù)據(jù)的準(zhǔn)確性,并利用由正例、負(fù)例和未知實例組成的關(guān)系抽取訓(xùn)練語料作為輸入分別學(xué)習(xí),由此降低噪聲數(shù)據(jù)對因子圖模型學(xué)習(xí)效果的影響。下面展開詳細(xì)論述。

      3.2 基于知識融合優(yōu)化招投標(biāo)領(lǐng)域?qū)嶓w抽取

      正確抽取原始語料中所含實體,是減少遠(yuǎn)程監(jiān)督方法引入噪聲數(shù)據(jù)的重要前提。但在招投標(biāo)交易公告中,普遍存在同一主體(主要涉及招標(biāo)方、招標(biāo)代理機構(gòu)和中標(biāo)方)具有“多重指稱”的情況,會直接影響實體抽取的效果。

      為提高實體抽取質(zhì)量,本文從語言學(xué)角度將“多重實體指稱項”問題分為:情況①單位全稱-別稱,情況②特定指稱項,其中情況①又分為無歧義別稱、含歧義別稱兩類。

      知識融合技術(shù)是解決這類問題的有效方法,實體鏈接和知識合并是知識融合的兩個重要子任務(wù)。實體鏈接(Entity Linking)[15]旨在對實體抽取結(jié)果進行實體消歧和共指消解處理,并將處理結(jié)果鏈接到知識庫中對應(yīng)的正確實體對象。經(jīng)實體鏈接后,將知識元素加入知識庫,從而實現(xiàn)知識合并,有效剔除抽取結(jié)果中冗余和錯誤的實體。因此,本文首先通過實體消歧方法確定含歧義別稱所指代實體,再引入共指消解方法解決上述兩種情況中對應(yīng)的問題。

      針對情況①,以圖2所示情況為例,招投標(biāo)領(lǐng)域知識庫中含有兩個實體概念“榆林市田浩商貿(mào)有限公司”和“上海田浩商貿(mào)有限公司”,公告標(biāo)題包含實體“榆林市田浩商貿(mào)有限公司”,但公告內(nèi)容中出現(xiàn)公司別稱“田浩商貿(mào)有限公司”,這類含有歧義的公司別稱在鏈接到知識庫后可能得到錯誤結(jié)果,降低知識融合質(zhì)量。

      圖2 招投標(biāo)領(lǐng)域知識融合示例

      由此,本文引入基于實體共現(xiàn)的實體消歧方法,通過從公告標(biāo)題和內(nèi)容中識別出的實體對象迭代進行實體匹配,若兩個匹配實體存在公共字符串,則采用具有更完整命名信息的實體名稱命名兩個實體。上述實例由于公告標(biāo)題中實體命名更加完整,故通過該方法可確定公司實體“田浩商貿(mào)有限公司”實指“榆林市田浩商貿(mào)有限公司”。

      針對情況②,表1 對出現(xiàn)特定指稱詞(如公司簡稱、該公司、我公司、招標(biāo)人、招標(biāo)方、null 等)的常見句式進行了總結(jié)(②-a、b、c情況)。由此,基于情況①的處理結(jié)果,并針對當(dāng)前句S2中僅含有一個實體指稱詞的情況,提出針對特定指稱詞的共指消解算法(見算法1),將企業(yè)實體的指稱詞還原為企業(yè)全稱,即標(biāo)準(zhǔn)化命名實體。

      表1 “多重指稱項”情況

      算法1共指消解算法

      輸入:S2,含有實體指稱詞的當(dāng)前句;S1,指稱詞所在句S2的上一句;comp_title,公告標(biāo)題中的實體;pron_word,S2中指稱詞;comp_b,S2中的唯一企業(yè)實體;feature_word,特征詞(如[招標(biāo)人,招標(biāo)方…]);target_word,S1中的先行詞(如A公司)

      輸出:comp_a:指稱詞指向的原實體

      1.初始化數(shù)據(jù):comp_a←null;

      2.當(dāng)comp_title 未含有comp_b,并且S2含有唯一指稱詞pron_word時,判別該篇文檔標(biāo)題comp_title中是否含有S2中的唯一企業(yè)實體comp_b;

      3.如果S1含有先行詞target_word:

      當(dāng)S1中含有指定特征詞feature_word 時,令 omp_a←target_word,以解決示例②-a情況;

      而當(dāng)S1中未含指定特征詞feature_word 時,令comp_a←comp_title,以解決示例②-c情況;

      4.如果S1未含有先行詞target_word,令comp_a←comp_title,以解決示例②-b情況。

      綜合上述解決方案,將實體消歧和共指消解后的各命名實體鏈接到招投標(biāo)領(lǐng)域知識庫中對應(yīng)的正確實體;再通過知識合并,統(tǒng)一以公司全稱進行命名。該方法不僅能夠降低實體抽取結(jié)果的冗余度和歧義性,保證最終獲取信息的質(zhì)量,還有助于提高候選實體對與領(lǐng)域知識庫對齊時的匹配效果,為后續(xù)實體關(guān)系抽取、噪聲處理等任務(wù)提供更為準(zhǔn)確的知識基礎(chǔ)。

      3.3 面向遠(yuǎn)程監(jiān)督數(shù)據(jù)標(biāo)注的負(fù)例學(xué)習(xí)降噪方法

      本文首先利用Web 上半結(jié)構(gòu)化的招投標(biāo)領(lǐng)域企業(yè)歷史交易數(shù)據(jù)及企業(yè)名稱語料集構(gòu)建企業(yè)關(guān)系知識庫,以保證在遠(yuǎn)程監(jiān)督標(biāo)注關(guān)系數(shù)據(jù)時,準(zhǔn)確獲取更多的企業(yè)關(guān)系實例。再借助上述企業(yè)關(guān)系知識庫自動對齊招投標(biāo)公告文本中具有對應(yīng)交易關(guān)系的企業(yè)實體對。此時,新的關(guān)系抽取語料集中包括含有“噪聲”的關(guān)系企業(yè)對和未匹配上關(guān)系的企業(yè)對。然后根據(jù)噪聲數(shù)據(jù)情況提出降噪方法,從而得到最終訓(xùn)練語料。

      根據(jù)“遠(yuǎn)程監(jiān)督”易引入多實例問題和多標(biāo)簽問題這兩類“噪聲”,結(jié)合招投標(biāo)領(lǐng)域數(shù)據(jù)情況加以分析。本節(jié)待解決問題是與外部知識庫對齊后得到的關(guān)系企業(yè)實體對并不具有指定關(guān)系,即產(chǎn)生了多實例問題。本文將該類數(shù)據(jù)記為“負(fù)例”。

      招投標(biāo)企業(yè)關(guān)系知識庫中存在具有“委托”關(guān)系的實體對集,記為relation<A,B>,A表示招標(biāo)方,B表示招標(biāo)代理機構(gòu)。通過遠(yuǎn)程監(jiān)督方法獲得的新語料集中含有噪聲數(shù)據(jù),如表2 中示例b、c、d 所示。其中示例d可采用3.2 節(jié)中還原指代項的方法加以解決,獲得正確關(guān)系標(biāo)簽。

      表2 遠(yuǎn)程監(jiān)督實體關(guān)系抽取噪聲數(shù)據(jù)示例

      多實例情況易產(chǎn)生由關(guān)系指向錯誤(如示例b)和關(guān)系誤判錯誤(如示例c中的非“委托”關(guān)系誤判為“委托”關(guān)系)等問題所引入的噪聲數(shù)據(jù),從而影響分類模型的判別效果。

      為減少噪聲數(shù)據(jù)的影響,本文通過分析和統(tǒng)計大量招投標(biāo)公告文書的語言特征,并結(jié)合領(lǐng)域?qū)<医?jīng)驗的引導(dǎo)與驗證,構(gòu)建和完善領(lǐng)域知識規(guī)則。并結(jié)合實驗的準(zhǔn)確率和召回率(實驗結(jié)果見4.2 節(jié)),完善領(lǐng)域知識規(guī)則的構(gòu)建,以保證其合理性和完備性。

      領(lǐng)域知識規(guī)則的符號含義如下:

      (A,B):表示公告中含有的候選實體對。

      relation(A,B):表示經(jīng)判斷候選實體對(A,B)具有“委托”關(guān)系。

      before(A) 、between(A,B)、behind(B):分別表示實體A之前、實體A和實體B之間的分詞結(jié)果集合。

      KeyWord={委托,…},kw∈KeyWord:表示關(guān)系詞集合。

      PassiveWord={受,被,…},pw∈PassiveWord:表示被動詞集合。

      comma={',',','},wd∈comma:表示中、英文逗號集合。

      領(lǐng)域知識規(guī)則如下:

      規(guī)則1識別示例a中“委托”關(guān)系的情況。

      若pw∈before(A)、wd∈between(A,B),并且kw∈between(A,B),則滿足relation(A,B)。

      規(guī)則2修正示例b中“關(guān)系指向錯誤”的情況。

      若pw∈between(A,B),并且kw∈behind(B),則滿足relation(B,A) 。

      規(guī)則3識別示例c中“非委托關(guān)系”的情況。

      若kw?before(A) 、kw?between(A,B),并且kw?behind(B),則一定不存在relation(A,B)。

      通過領(lǐng)域知識規(guī)則可有效區(qū)別出由遠(yuǎn)程監(jiān)督方法構(gòu)建的訓(xùn)練數(shù)據(jù)集中的有效標(biāo)注數(shù)據(jù)和噪聲數(shù)據(jù),有利于后續(xù)因子圖模型的構(gòu)建及推理學(xué)習(xí)。

      3.4 基于因子圖模型的實體關(guān)系抽取方法

      經(jīng)遠(yuǎn)程監(jiān)督數(shù)據(jù)標(biāo)注后,新的關(guān)系抽取語料集中還存在部分待匹配關(guān)系的企業(yè)實體對。針對該部分?jǐn)?shù)據(jù),本文借助因子圖模型進行概率建模,解決隨機變量之間的復(fù)雜關(guān)系。面向招投標(biāo)領(lǐng)域的因子圖模型構(gòu)建主要基于兩類節(jié)點:變量節(jié)點和因子節(jié)點。關(guān)鍵元素及公式定義如下。

      定義1(變量節(jié)點)模型中可觀測到的候選關(guān)系實體對集合V={v1,v2,…,vn},每個實體對vi作為變量節(jié)點。每個vi都具有關(guān)系標(biāo)簽label(vi)∈{0,1,null},其中0為負(fù)標(biāo),1為正標(biāo),null為待預(yù)測標(biāo)簽。

      定義2(特征因子)模型中每個變量節(jié)點都具有一個或多個句內(nèi)特征項,各特征項作為特征因子節(jié)點fi,即有特征因子節(jié)點集合F={f1,f2,…,fm}。

      句內(nèi)特征項包含該句分詞后的詞語、詞性、命名實體等序列標(biāo)注特征。

      當(dāng)且僅當(dāng)變量節(jié)點vi是特征因子節(jié)點fi的自變量(即實體對具有某一特征)時,對應(yīng)的變量節(jié)點vi和特征因子節(jié)點fi相連,其連線作為因子圖的邊集E={e1,e2,…,en}。

      定義3(關(guān)聯(lián)權(quán)重因子)模型中各邊ei具有關(guān)聯(lián)權(quán)重因子wi,構(gòu)成關(guān)聯(lián)權(quán)重因子集W={w1,w2,…},是由各特征因子經(jīng)過函數(shù)映射獲得的實數(shù)集,即wi=func(fi)。在構(gòu)建因子圖模型過程中,關(guān)聯(lián)權(quán)重因子wi經(jīng)多次迭代學(xué)習(xí)完成權(quán)值優(yōu)化,直至模型學(xué)習(xí)完成。關(guān)聯(lián)權(quán)重因子wi反映了變量節(jié)點間的關(guān)聯(lián)程度。

      定義4(possible world模型)用以描述不確定性數(shù)據(jù)的通用模型,常記為Iσ。Iσ中包含若干個實例Ii={vi1,vi2,…,vin},每個實例發(fā)生的概率為該實例中各變量發(fā)生的概率之積,即。

      為方便理解,本文中Iσ的實例Ii由各變量節(jié)點vi及其關(guān)系標(biāo)簽label(vi)表示為Ii:{vi→label(vi)}。

      本文基于招投標(biāo)公告數(shù)據(jù)構(gòu)建因子圖模型,根據(jù)各實體對共享不同特征的情況,計算實體對具有的某種關(guān)系的邊界概率。不同的變量節(jié)點vi,通過共享fi而關(guān)聯(lián)。若兩個變量節(jié)點共享fi數(shù)量越多,則兩個變量節(jié)點屬于同類關(guān)系的概率就越大。因此,需要定義求解邊緣概率的相關(guān)公式。

      各特征因子fi在當(dāng)前Iσ實例上的聚合值:

      Iσ所有實例的聚合概率:

      Iσ實例各變量和先驗變量的關(guān)系標(biāo)簽label(vi)一致的實例集合為τe,其中關(guān)系標(biāo)簽為1 的集合label(vi)=1},關(guān)系標(biāo)簽為0的集合由此計算變量vi的關(guān)系標(biāo)簽取值為1的邊緣概率:

      但由于Iσ中存在2n種實例情況,若按上述方法求解,計算復(fù)雜度很高。因此采用吉布斯采樣進行參數(shù)估計,以降低計算維度,提高算法的運行效率,并采用隨機梯度下降進行迭代學(xué)習(xí),直至模型收斂。算法思想見算法2。

      算法2因子圖模型參數(shù)學(xué)習(xí)算法

      結(jié)合本文所采用的因子圖模型構(gòu)建思路,給出一個因子圖模型的局部示例,如表3所示。假設(shè)局部任務(wù)中有4 個候選實體對(Ai,Bi),i=1,2,3,4,4 個變量節(jié)點構(gòu)成實例I0:{v1→ null,v2→ 0,v3→ 1,v4→ null} ,各變量節(jié)點vi分別具有多種序列化標(biāo)注特征fi:feature。

      表3 變量節(jié)點-特征示例

      根據(jù)表3,變量因子間共享不同的特征因子fi,i=1,2,3,4,特征經(jīng)函數(shù)映射轉(zhuǎn)化為關(guān)聯(lián)權(quán)重因子wi,統(tǒng)計特征因子的共享情況(見表4)。

      表4 特征因子-特征函數(shù)示例

      由此可根據(jù)表4中的示例數(shù)據(jù)構(gòu)建因子圖模型(見圖3)?,F(xiàn)已知先驗候選關(guān)系實體對v2、v3關(guān)系標(biāo)簽分別為0、1,Iσ的實例Ii應(yīng)在和先驗變量對應(yīng)的關(guān)系標(biāo)簽值保持一致的條件下,根據(jù)算法2 分別計算label(v1)和label(v4)取值為1的概率,進而可依次判別v1和v4是否具有“委托”關(guān)系。

      圖3 因子圖模型示例

      本文借助因子圖模型良好的統(tǒng)計和推理性能,并按照上述步驟,計算獲得招標(biāo)人和招標(biāo)代理機構(gòu)之間具有“委托”關(guān)系的邊界概率,該值高于預(yù)定閾值的對應(yīng)候選實體對即具有“委托”關(guān)系。

      4 實驗結(jié)果與分析

      4.1 實驗描述

      本文實驗使用語料來源于中國招投標(biāo)網(wǎng)、中國采購與招標(biāo)網(wǎng)2019 年首季度建筑工程類項目招標(biāo)信息;為提高關(guān)系抽取模型訓(xùn)練效率,進一步篩選出由招標(biāo)代理機構(gòu)開展公開競標(biāo)的公告,共計4 000 篇。本文實驗訓(xùn)練語料和測試語料比例為4∶1。針對抽取招標(biāo)人-招標(biāo)代理機構(gòu)間的“委托”關(guān)系,實驗基于命名實體標(biāo)注結(jié)果和知識融合技術(shù),抽取得到實體458例,包括256家招標(biāo)方和202家招標(biāo)代理機構(gòu);實體經(jīng)笛卡爾積組成候選實體對8 284 條;結(jié)合遠(yuǎn)程監(jiān)督學(xué)習(xí)和啟發(fā)式規(guī)則為候選實體對自動標(biāo)注關(guān)系類型。

      文本特征提取采用候選實體對上下文的語義特征。通過分析招投標(biāo)領(lǐng)域詞匯統(tǒng)計特征和語言學(xué)特征,以句為單位,提取句內(nèi)候選實體對(A,B)前-中-后的窗口特征,窗口特征選擇詞匯、詞性(POS)、命名實體(NER)、依存語法關(guān)系(DP)、詞匯長度(LENGTH)這5個序列標(biāo)注信息(見表5)。

      表5 特征類型-特征提取結(jié)果示例

      基于以上步驟,實驗采用吉布斯采樣和隨機梯度下降方法迭代學(xué)習(xí)模型參數(shù),優(yōu)化因子圖模型,并通過多次實驗,確定關(guān)系判別的閾值α(如α=0.5)。

      4.2 實驗分析

      為驗證本文方法的有效性,設(shè)計了不同去噪強度下的實驗對比和不同關(guān)系抽取方法下的實驗對比。

      本文首先設(shè)計了3 個實驗:實驗1 采用基于因子圖模型的遠(yuǎn)程監(jiān)督實體關(guān)系抽取方法抽取實體關(guān)系,并未做任何降噪處理;實驗2 在實驗1 的基礎(chǔ)上,采用3.2 節(jié)提出的解決公告文本中的“多重指稱項”問題的知識融合方法進行降噪;實驗3 在實驗2 的基礎(chǔ)上,采用3.3 節(jié)基于領(lǐng)域知識和負(fù)例學(xué)習(xí)的降噪方法,以進一步提高抽取質(zhì)量。最后,對3 次迭代優(yōu)化的實驗結(jié)果進行比較(如表6和圖4所示)。

      表6 不同去噪強度下的實驗數(shù)據(jù)

      圖4 不同去噪強度下的實驗結(jié)果

      由圖表數(shù)據(jù)可知,實驗2 引入知識融合方法后,識別出了實驗1 中遺漏的314 例實體對,但抽取性能略有下降。這是由于候選實體對增多的同時,遠(yuǎn)程監(jiān)督數(shù)據(jù)標(biāo)注也產(chǎn)生大量負(fù)例未能去除。

      實驗3 的精準(zhǔn)率(P)和F1 值顯著提高,主要是由于實驗3 通過負(fù)例學(xué)習(xí),有效判別出在實驗2 中未能剔除的2 196例具有錯誤關(guān)系指向的實體對。

      此外,為對比不同關(guān)系抽取方法的抽取效果,選擇已被廣泛應(yīng)用于信息抽取任務(wù)中的兩種判別式模型,分別是經(jīng)典算法條件隨機場(Conditional Random Field,CRF)和研究熱點雙向長短期記憶(Bi-directional Long Short-Term Memory,Bi-LSTM)神經(jīng)網(wǎng)絡(luò)。與本文采用的因子圖方法進行對比,實驗統(tǒng)一以經(jīng)本文降噪方法處理后的遠(yuǎn)程監(jiān)督數(shù)據(jù)標(biāo)注結(jié)果作為模型的輸入,實驗結(jié)果如圖5所示。

      圖5 不同關(guān)系抽取方法的實驗結(jié)果

      由圖5可見,本文提出的基于因子圖模型的關(guān)系抽取方法在F1值上均略高于CRF方法和Bi-LSTM方法。

      上述兩組實驗結(jié)果驗證了本文方法具有更好的抽取性能。此外,針對招投標(biāo)網(wǎng)站每日更新擴增的海量公告,采用本文方法可比傳統(tǒng)監(jiān)督學(xué)習(xí)方法大幅減少標(biāo)注數(shù)據(jù)的工作量,從而提高關(guān)系抽取效率。圖6示意了通過本文的關(guān)系抽取方法構(gòu)建的企業(yè)關(guān)系知識庫的局部圖譜。針對新增招投標(biāo)公告信息,可循環(huán)迭代采用本文方法更新知識庫中的知識,在一定程度上解決了招投標(biāo)領(lǐng)域中文知識庫匱乏的問題。

      5 結(jié)束語

      本文提出了一種基于因子圖模型的遠(yuǎn)程監(jiān)督實體關(guān)系抽取方法,并借助知識融合、負(fù)例學(xué)習(xí)及領(lǐng)域知識等方法,解決了招投標(biāo)領(lǐng)域知識庫“遠(yuǎn)程監(jiān)督”標(biāo)注數(shù)據(jù)時出現(xiàn)的“噪聲”干擾問題;借助因子圖模型良好的性能,實現(xiàn)了招投標(biāo)領(lǐng)域?qū)嶓w關(guān)系自動抽取任務(wù)。本文提出的信息抽取方法具有較好的可拓展性,可以移植于其他領(lǐng)域。

      對比實驗結(jié)果說明本文方法能夠在一定程度降低人工標(biāo)注數(shù)據(jù)的高額成本,減少冗余、歧義信息,提高招投標(biāo)領(lǐng)域?qū)嶓w關(guān)系抽取的準(zhǔn)度與精度,進而保證了獲取重要信息的質(zhì)量和時效性。本文方法所獲關(guān)系實例可迭代擴充現(xiàn)有招投標(biāo)領(lǐng)域知識庫,可有效協(xié)助和支持相關(guān)項目單位、企業(yè)制定管理決策等活動,也可以協(xié)助招標(biāo)方客觀選擇招標(biāo)代理機構(gòu),便于監(jiān)管部門及時查看招投標(biāo)參與主體的交易情況。

      本文聚焦于信息抽取技術(shù),能否同步抽取多類關(guān)系及屬性等多維信息,如關(guān)系關(guān)聯(lián)抽取、事件抽取方法等是下一階段的研究重點。

      猜你喜歡
      知識庫示例實體
      大還是小
      2019年高考上海卷作文示例
      前海自貿(mào)區(qū):金融服務(wù)實體
      中國外匯(2019年18期)2019-11-25 01:41:54
      常見單位符號大小寫混淆示例
      山東冶金(2019年5期)2019-11-16 09:09:22
      基于TRIZ與知識庫的創(chuàng)新模型構(gòu)建及在注塑機設(shè)計中的應(yīng)用
      “全等三角形”錯解示例
      實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
      兩會進行時:緊扣實體經(jīng)濟“釘釘子”
      振興實體經(jīng)濟地方如何“釘釘子”
      高速公路信息系統(tǒng)維護知識庫的建立和應(yīng)用
      奉贤区| 石嘴山市| 太原市| 高淳县| 靖安县| 宝兴县| 章丘市| 永善县| 集贤县| 绥芬河市| 上栗县| 资溪县| 新蔡县| 蒙山县| 灌云县| 镇赉县| 公主岭市| 安顺市| 湘乡市| 修水县| 甘南县| 安岳县| 绵竹市| 灵川县| 长乐市| 台州市| 沧州市| 花垣县| 营山县| 安多县| 明溪县| 乾安县| 平山县| 土默特右旗| 德格县| 芦溪县| 宿迁市| 尼玛县| 务川| 沿河| 九龙坡区|