孫克強(qiáng) 張嘉鴻 伍震 胡振中
(1.廣東省路橋建設(shè)發(fā)展有限公司,廣州 510623;2.清華大學(xué) 土木工程系,北京 100084;3. 清華大學(xué) 深圳國際研究生院,深圳 518055)
隨著社會經(jīng)濟(jì)的高速發(fā)展以及設(shè)計施工水平的提升,我國公路工程建設(shè)項目數(shù)量不斷增加、規(guī)模不斷擴(kuò)大。為了提高建設(shè)項目規(guī)范化水平、保證工程質(zhì)量以及降低工程風(fēng)險,國家與地方出臺了一系列法律法規(guī)與規(guī)范標(biāo)準(zhǔn),行業(yè)與企業(yè)也制定了相應(yīng)的標(biāo)準(zhǔn)與規(guī)定。
這些規(guī)范類文件在公路工程的建設(shè)階段起到重要的規(guī)范、指導(dǎo)與約束作用,為公路工程領(lǐng)域提供了大量的知識。隨著近年來國家大力推進(jìn)建筑產(chǎn)業(yè)的現(xiàn)代化進(jìn)程,學(xué)界也對建筑信息化技術(shù)進(jìn)行了大量研究[1],形成了數(shù)字化的工程數(shù)據(jù)與知識。而在公路工程規(guī)范類文件中,非結(jié)構(gòu)化數(shù)據(jù)以自然語言的形式存儲,目前行業(yè)對這類數(shù)據(jù)的獲取、檢索仍然處于較低水平,造成了知識的低效率應(yīng)用。這種低效率的知識提取與應(yīng)用方法阻礙了公路工程標(biāo)準(zhǔn)化、信息化與智能化水平的提升。因此,如何能夠從大量文本中獲取領(lǐng)域知識,并在公路工程項目建設(shè)管理過程中實現(xiàn)高效應(yīng)用,成為了當(dāng)前公路工程建設(shè)領(lǐng)域的一個重要課題。
針對上述問題,本研究以公路工程領(lǐng)域規(guī)范類文本為研究對象,對詞語粒度、語段粒度以及語句粒度進(jìn)行了多粒度特征分析,以此為基礎(chǔ)提出基于規(guī)則的信息提取方法。本研究還面向中江高速改擴(kuò)建工程的建設(shè)管理,建立了公路改擴(kuò)建工程知識圖譜,開發(fā)了公路工程安全信息檢索與應(yīng)用系統(tǒng),實現(xiàn)了對規(guī)范文本的知識提取與應(yīng)用。
信息抽?。↖nformation Extraction, IE)作為一種自然語言處理技術(shù)(Natural Language Processing, NLP)[2],是指從非結(jié)構(gòu)化的自然語言文本中抽取所需要的信息,并形成結(jié)構(gòu)化輸出[3],主要包含三個子任務(wù):命名實體識別(Named Entity Recognition,NER),關(guān)系抽?。≧elation Extraction,RE)及事件抽?。‥vent Extraction,EE)。知識圖譜(Knowledge Graph,KG)[4]是一種高效的知識結(jié)構(gòu)化存儲與知識表達(dá)方式,在識別命名實體、關(guān)系以及事件后,可以將知識儲存于知識圖譜中[5,6]。
IE 目前主要有兩類解決方案:基于規(guī)則和基于學(xué)習(xí)的方法?;谝?guī)則的IE 一般是根據(jù)詞法與句法特征設(shè)計信息抽取方法,這種方法的特點是先推理規(guī)則再進(jìn)行信息抽取[7],抽取效果高度依賴規(guī)則設(shè)計,需要專家知識與規(guī)則支撐,在專業(yè)領(lǐng)域或語言特征突出的文本中效果較好?;趯W(xué)習(xí)尤其是基于深度學(xué)習(xí)的IE是過去十年的熱門研究課題,其中包括LSTM 模型[8]、GPT 模型[9]和BERT 模型[10]等,此類方法的效果高度依賴模型的設(shè)計與標(biāo)注數(shù)據(jù)集的規(guī)模和質(zhì)量。在建筑行業(yè)中,信息抽取技術(shù)也得到了一定的應(yīng)用[11,12]。
對于公路工程領(lǐng)域信息抽取技術(shù)的研究,目前尚未提出較為完備的IE 方法,也沒有實現(xiàn)領(lǐng)域大體量信息提取的案例。主要存在以下問題:
(1)基于規(guī)則的IE 需要根據(jù)文本特征設(shè)計抽取規(guī)則,目前尚未有研究對公路工程領(lǐng)域文本特征進(jìn)行系統(tǒng)分析,也沒有提出合理的抽取規(guī)則;
(2)基于學(xué)習(xí)的IE 需要大規(guī)模的標(biāo)注數(shù)據(jù)集,目前公路工程領(lǐng)域內(nèi)尚未有合適可用的數(shù)據(jù)集。
與一般文本相比,公路工程領(lǐng)域規(guī)范類文本篇章結(jié)構(gòu)完整、語句邏輯規(guī)律,用詞統(tǒng)一精確,適用基于規(guī)則的IE 方法。因此,對于公路工程領(lǐng)域規(guī)范類文本的IE,可以首先分析文本的結(jié)構(gòu)特征,再以此為依據(jù)設(shè)計提取方法,以此提高IE 的效率與準(zhǔn)確性。
對于IE 技術(shù)在工程領(lǐng)域規(guī)范文本中的應(yīng)用,學(xué)者們在基于規(guī)則和基于學(xué)習(xí)的方法都取得了一定的進(jìn)展。RASE 定義是Hjelseth 和Nisbet[13]提出的一種規(guī)范文本句子成分標(biāo)記方法。此方法在英文規(guī)范文本的處理中卓有成效,但是在中文規(guī)范中,部分語句無法被RASE定義。姜韶華等[14]在中文規(guī)范中應(yīng)用了RASE 方法,由研究人員使用RASE 對少量規(guī)范文本進(jìn)行手動標(biāo)記,并生成相應(yīng)的用于合規(guī)性檢查的規(guī)則。周育丞等[15]針對建筑設(shè)計規(guī)范,提出了一種基于深度學(xué)習(xí)的規(guī)范條文命名實體識別方法。Zheng 等[16]以本體為基礎(chǔ),提出了一種將規(guī)則自動轉(zhuǎn)換為SPARQL 查詢語句的算法。
也有部分學(xué)者對于可計算約束展開研究。Zhang 和El-Gohary[17]以及陳遠(yuǎn)等[18]提出了可計算約束的結(jié)構(gòu),并以此進(jìn)行合規(guī)性自動檢查。但是在實際的規(guī)范文本中,可計算約束的占比較低[19,20],此方法無法應(yīng)用于規(guī)范信息的全文提取。
綜上所述,雖然學(xué)界在信息抽取領(lǐng)域進(jìn)行了很多研究,但是對于公路工程領(lǐng)域規(guī)范類文本的IE,目前的研究并不成熟。由于此類文本具有更規(guī)律的結(jié)構(gòu)特征和語言特征,使用基于規(guī)則的IE 方法可以高效、準(zhǔn)確地提取信息。國外學(xué)者提出的RASE 方法通過對句子成分先行定義,成功將規(guī)范類文本轉(zhuǎn)換為結(jié)構(gòu)化信息。但是由于語言的差異性,RASE 方法并不能直接應(yīng)用在中文規(guī)范中。
公路工程的規(guī)范類文本主要包括:國家法律(如《中華人民共和國公路法》)、國家標(biāo)準(zhǔn)(如GB/T 18226-2015《公路交通工程鋼構(gòu)件防腐蝕技術(shù)條件》)、行業(yè)標(biāo)準(zhǔn)(如JTG/T F30—2014《公路水泥混凝土路面施工技術(shù)細(xì)則》)、地方標(biāo)準(zhǔn)(如《廣東省高速公路工程施工安全標(biāo)準(zhǔn)化指南》)以及企業(yè)標(biāo)準(zhǔn)(如《省交通集團(tuán)高速公路建設(shè)項目路面施工階段交叉施工及交通安全指引》)等。主要介紹以下三部分內(nèi)容。
在對文本進(jìn)行特征分析與知識提取等處理前,需要首先確定研究對象的范圍,構(gòu)造公路工程規(guī)范類文本清單,并形成項目數(shù)據(jù)源。
從知識來源的角度上看,應(yīng)當(dāng)包含國家法律、國家標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)、地方標(biāo)準(zhǔn)以及企業(yè)標(biāo)準(zhǔn)[21]。從知識邊界的角度上看,不僅要涵蓋狹義公路工程領(lǐng)域,還需要包含廣義公路工程領(lǐng)域的規(guī)范類文本。比如,在國家規(guī)范GB 50545-2010《110kV ~750kV 架空輸電線路設(shè)計規(guī)范》中,規(guī)定了輸電線路與公路的交叉或接近的基本要求,這是公路工程與交叉行業(yè)的規(guī)范要求,屬于廣義公路工程領(lǐng)域。從知識應(yīng)用的角度上看,本課題的研究成果將應(yīng)用于廣東省內(nèi)的某項公路改擴(kuò)建工程,因此應(yīng)包括公路改擴(kuò)建工程領(lǐng)域的相關(guān)規(guī)范類文本。
基于上述分析,本研究通過人工篩選并邀請專家校對的方式,最終確定規(guī)范類文本清單共967 本。根據(jù)清單獲取對應(yīng)的文本文件后,有部分文件為不可編輯文本,無法直接進(jìn)行數(shù)據(jù)處理。因此,本研究采用光學(xué)字符識別(Optical Character Recognition,OCR)技術(shù)將文件轉(zhuǎn)換為可編輯文本的形式。由于此類源文件多為印刷文本,因此OCR 識別結(jié)果通常較為準(zhǔn)確,表格和圖片也都能正常識別。但是對于文本中一些復(fù)雜公式,仍然需要進(jìn)行人工審查和糾正。至此,完成了本研究的數(shù)據(jù)源獲取。
對上述公路工程規(guī)范類文本進(jìn)行分析,與一般文本相比,語言特征主要有以下幾點:
(1)語言統(tǒng)一精確。公路工程規(guī)范類文本使用專業(yè)術(shù)語,如路基、路床及橋墩等,使用標(biāo)準(zhǔn)化語言,避免出現(xiàn)含糊不清或引起歧義的表達(dá)。遵循國家和行業(yè)的相關(guān)語言規(guī)定,不同文本中關(guān)于同一對象的表達(dá)大多相同,保證了語言的一致性和統(tǒng)一性,有助于文本命名實體與關(guān)系的識別;
(2)篇章結(jié)構(gòu)完整。公路工程規(guī)范類文本按照一定的結(jié)構(gòu)和格式組織內(nèi)容,使之成為系統(tǒng)完整的技術(shù)文件。如規(guī)范JTG F90-2015《公路工程施工安全技術(shù)規(guī)范》,在章節(jié)結(jié)構(gòu)上以總則、術(shù)語、基本規(guī)定以及各部分工程或作業(yè)的技術(shù)要求構(gòu)成,并配有目錄、附錄以及條文說明等輔助材料;
(3)語句邏輯規(guī)律。在公路工程規(guī)范類文本中,子句內(nèi)部遵循若干種句法構(gòu)成,子句之間按一定的范式結(jié)合,并使用恰當(dāng)?shù)倪B接詞或標(biāo)點符號形成規(guī)律的語段。
經(jīng)過上述分析,文本數(shù)據(jù)的信息抽取任務(wù)可以劃分為兩部分:結(jié)構(gòu)信息抽取和語義信息抽取。其中,結(jié)構(gòu)信息是指由特定的結(jié)構(gòu)化標(biāo)識方法表述的章節(jié)組織信息,語義信息是指由自然語言構(gòu)成的具體描述。結(jié)構(gòu)信息可以通過設(shè)計列表模式提取,并使用有序樹結(jié)構(gòu)進(jìn)行存儲。語義信息可以根據(jù)語段范式和子句句法設(shè)計語義提取與信息存儲方法。
進(jìn)行語義信息抽取前,需要首先構(gòu)建公路工程領(lǐng)域詞庫,作為后續(xù)語段語句拆解和識別的基礎(chǔ)。領(lǐng)域詞庫的生成主要基于以下兩類來源:
(1)公路工程規(guī)范類文本。部分規(guī)范類文本中,有專門的篇幅對術(shù)語進(jìn)行定義,如標(biāo)準(zhǔn)JTG B01—2014《公路工程技術(shù)標(biāo)準(zhǔn)》的第二章為術(shù)語部分,列舉了“公路改擴(kuò)建”、“公路功能”等領(lǐng)域術(shù)語及其釋義。此外,還有專門介紹專業(yè)術(shù)語的規(guī)范類文本,如標(biāo)準(zhǔn)JTJ 002-87《公路工程名詞術(shù)語》,共收錄了924 條公路工程領(lǐng)域的名詞術(shù)語及其釋義。從公路工程規(guī)范類文本中獲取的術(shù)語構(gòu)成了基于文檔的公路工程領(lǐng)域詞庫,該詞庫的特點是專業(yè)性高,且每個術(shù)語均有對應(yīng)的釋義;
(2)公開詞庫。從網(wǎng)絡(luò)上可以獲取公開詞庫,如搜狗細(xì)胞詞庫中收錄了“公路工程專業(yè)術(shù)語”、“公路工程施工與監(jiān)理詞庫”和“橋梁隧道”等領(lǐng)域詞庫。從網(wǎng)站獲取源文件后,通過解碼、合并等方式即可生成基于公開詞庫的公路工程領(lǐng)域詞庫,該詞庫的特點是詞語覆蓋面較廣。
公路工程規(guī)范類文本由一系列復(fù)雜語段構(gòu)成,這些語段具有以下三個特征:
(1)語段可能由若干句子及段落構(gòu)成,內(nèi)部以句號或換行符等符號分割;
(2)部分句子結(jié)構(gòu)復(fù)雜,由若干子句構(gòu)成,并以分號或逗號等標(biāo)點符號分割;
(3)子句之間一般以特定的范式結(jié)合。
因此,提出公路規(guī)范復(fù)雜語段的拆分與重構(gòu)方法,即先提出子句之間的結(jié)合范式,再把復(fù)雜語段拆分為結(jié)構(gòu)清晰、語義分明的簡單子句,以便后續(xù)的語義抽取工作。以下主要介紹子句成分的定義方法TEARS,基于TEARS 進(jìn)行子句成分識別并生成標(biāo)準(zhǔn)三元組。
對于規(guī)范文本的子句結(jié)合范式,Hjelseth 和Nisbet提出了RASE 定義方法[13],該方法通過定義規(guī)范語句的構(gòu)成成分,實現(xiàn)從規(guī)范性語句向規(guī)則的轉(zhuǎn)換,并被成功應(yīng)用于BIM 模型的自動合規(guī)性檢查中。在RASE定義中,規(guī)范語句被拆分為四個基礎(chǔ)組成成分:約束要求、個并列或選擇成分、應(yīng)用范圍及例外條件。
但是在中文公路工程規(guī)范類文本中,被標(biāo)點符號分割的子句不一定能被RASE 的定義所描述。例如,在標(biāo)準(zhǔn)JTG B01-2014《公路工程技術(shù)標(biāo)準(zhǔn)》第10.2.4條“高速公路和作為干線的一級公路,整體式斷面中間帶寬度小于或等于12m 時,必須連續(xù)設(shè)置中央分隔帶護(hù)欄”中,“高速公路和作為干線的一級公路”是規(guī)范的應(yīng)用對象,無法被RASE的四個基礎(chǔ)組成部分定義。
因此,本研究基于RASE 定義擴(kuò)展提出TEARS的定義: 應(yīng)用對象(T, Target)、 例外條件(E,Exception)、應(yīng)用范圍(A, Application)、約束要求(R,Requirement)及并列或選擇成分(S, Selection)。應(yīng)用于上述條文,可以對各子句進(jìn)行成分識別:“高速公路和作為干線的一級公路”為T 成分,“整體式斷面中間帶寬度小于或等于12m 時”為A 成分,“必須連續(xù)設(shè)置中央分隔帶護(hù)欄”為R 成分。
應(yīng)用對象(T)的識別可以通過判定子句是否為名詞性從句進(jìn)行,即判定子句是否符合式(1),如“八車道及以上的高速公路”即為名詞性從句。在式(1)中,“ATT(attribute)”指代定中關(guān)系,“HED(head)”指向句子核心,“n”表示名詞節(jié)點。引入第2.3 節(jié)中構(gòu)建的公路工程領(lǐng)域詞庫對名詞節(jié)點進(jìn)行識別,先使用規(guī)模較小但專業(yè)性較高的基于文檔的公路工程領(lǐng)域詞庫,再使用覆蓋面較廣的基于公開詞庫的公路工程領(lǐng)域詞庫,以此提高識別的效率與準(zhǔn)確率。
應(yīng)用范圍(A)與例外條件(E)的識別可以根據(jù)關(guān)鍵詞進(jìn)行正則匹配,例如在子句中匹配到“除”、“不”或“反之”等字詞時,可以將此子句識別為例外條件(E),應(yīng)用范圍(A)的判定同理。表1 展示了二者的正則匹配模板及判定樣例。
表1 成分識別正則表達(dá)表
TEAR 成分均可有對應(yīng)的并列或選擇成分(S),S成分在復(fù)雜語段中可能以顯式或隱式的形式存在。對于隱式的S 成分,可以根據(jù)前述的TEA 識別方法獲得,即得到相應(yīng)的T(S)、E(S)或A(S)成分。例如,前序子句中已有E 成分,則后續(xù)符合E 成分識別方法的子句將判定為E(S)成分。若S 成分為顯式形式,可以采用正則匹配方法識別,正則匹配模板如表1 所示。將子句判斷為S 成分后,根據(jù)順次前序子句的成分歸屬進(jìn)行歸類,如順次前序子句為應(yīng)用對象(T),則目標(biāo)子句判定為T(S)。此時,語段中剩余的子句將被認(rèn)定為R 或R(S)成分。至此,完成TEARS 框架下的成分識別。
在成分識別工作完成后,將TEAR 成分對S 成分做笛卡爾積,可以獲得若干并列組合,將這些組合以形如式(2)的標(biāo)準(zhǔn)TEAR 三元組結(jié)構(gòu)進(jìn)行存儲。
在標(biāo)準(zhǔn)三元組結(jié)構(gòu)中,應(yīng)用對象(T)、應(yīng)用范圍(A)與例外條件(E)是可以缺省的。例如,在語句 “不同形式的護(hù)欄相接時應(yīng)進(jìn)行過渡設(shè)計”中,由于單個子句成分完整,可以直接歸為約束要求(R),其他成分缺省。在條文“整體拼接橋梁的橋下凈空,不應(yīng)小于原設(shè)計標(biāo)準(zhǔn)”中,兩個子句可以分別歸為應(yīng)用對象(T)與約束要求(R)。TEARS 的識別與重構(gòu)算法流程圖如圖1 所示。
圖1 TEARS 成分識別與重構(gòu)算法流程圖
將語段轉(zhuǎn)換為標(biāo)準(zhǔn)三元組后,還需要提取各子句的語義信息。通過對公路規(guī)范的子句句法進(jìn)行分析總結(jié),本研究定義了四種基本句法結(jié)構(gòu):核心結(jié)構(gòu)、修飾結(jié)構(gòu)、協(xié)同結(jié)構(gòu)及并列結(jié)構(gòu)。在解析句法結(jié)構(gòu)時,需要用到分詞和詞性標(biāo)注等NLP 技術(shù)。目前,應(yīng)用較為廣泛的中文NLP 技術(shù)包括Jieba、HanLP 和LTP等。本項目應(yīng)用的是由哈工大開發(fā)的語言技術(shù)平臺(Language Technology Platform, LTP)。這是一套面向中文NLP 的開源基礎(chǔ)技術(shù)平臺,與其他常用的中文NLP技術(shù)包相比,此平臺功能較全面,能夠?qū)崿F(xiàn)分詞、詞性標(biāo)注、命名實體識別以及依存句法分析等任務(wù)。為了增強(qiáng)對公路工程領(lǐng)域術(shù)語的識別效率與準(zhǔn)確性,本研究將第2.3 節(jié)中生成的領(lǐng)域詞庫以特征方式加入機(jī)器學(xué)習(xí)算法。四種結(jié)構(gòu)的例句與對應(yīng)的通用信息表達(dá)式如圖2 所示,本章將詳細(xì)介紹句法特征及語義信息提取方法。
圖2 基本句法結(jié)構(gòu)通用信息表達(dá)式與例句圖
核心結(jié)構(gòu)是指忽略修飾成分后的句子主干,一般為“主謂賓”結(jié)構(gòu)或“動賓”結(jié)構(gòu)。圖2 中的核心結(jié)構(gòu)例句為“水泥混凝土面層應(yīng)具有足夠的強(qiáng)度”,屬于“主謂賓”結(jié)構(gòu)。
對于“主謂賓”結(jié)構(gòu),可以直接使用語義三元組存儲信息;對于“動賓”結(jié)構(gòu),將主語部分設(shè)置為空(null)即可適用。對于有情態(tài)副詞修飾的謂語,以列表的形式將情態(tài)副詞順序儲存。此時,核心結(jié)構(gòu)可由語義三元組及謂語的情態(tài)副詞列表(若存在)共同表示。
修飾結(jié)構(gòu)存在于對句子成分的修飾。在依存句法樹中,修飾結(jié)構(gòu)可以分為定語修飾結(jié)構(gòu)與狀語修飾結(jié)構(gòu)。圖2 中的修飾結(jié)構(gòu)例句為“公路鋼混組合橋梁的設(shè)計”,屬于定語修飾結(jié)構(gòu)。
修飾結(jié)構(gòu)的獲取需要對當(dāng)前節(jié)點的所有依存句法子樹進(jìn)行遍歷,并把所有符合修飾結(jié)構(gòu)的通量以列表的形式以序號順序儲存。此時,修飾結(jié)構(gòu)以當(dāng)前節(jié)點及對應(yīng)的修飾列表共同表示。
協(xié)同結(jié)構(gòu)用于表示兩個或多個對象的共同作用,一個典型的協(xié)同結(jié)構(gòu)是“甲與乙的間距”,在此結(jié)構(gòu)中,在“甲”和“乙”的共同作用下間距的意義才能被準(zhǔn)確表達(dá)。圖2 中的協(xié)同結(jié)構(gòu)例句為“瀝青層與水泥混凝土路面之間的粘結(jié)”。
協(xié)同結(jié)構(gòu)的獲取同樣通過遍歷依存句法子樹進(jìn)行,把當(dāng)前節(jié)點的協(xié)同關(guān)系依存子節(jié)點以列表的形式順序儲存,并獲取作用對象。此時,協(xié)同結(jié)構(gòu)以當(dāng)前節(jié)點、作用對象以及協(xié)同節(jié)點列表共同表示。
并列結(jié)構(gòu)用于表示兩個或多個對象的并列,與協(xié)同結(jié)構(gòu)的區(qū)別在于并列結(jié)構(gòu)的并列對象之間沒有協(xié)同作用關(guān)系,與作用對象之間并非以定中關(guān)系連接。圖2 中的并列結(jié)構(gòu)例句為 “合理設(shè)置出入口、交叉和構(gòu)造物”。類似于協(xié)同結(jié)構(gòu),獲取當(dāng)前節(jié)點對應(yīng)的并列子節(jié)點列表。并列結(jié)構(gòu)以當(dāng)前節(jié)點與并列節(jié)點列表共同表示。
本研究提出的公路規(guī)范文本多粒度知識提取方法實現(xiàn)了從文本到知識的信息流轉(zhuǎn),依托于中江高速改擴(kuò)建工程,本研究開發(fā)了公路工程安全信息檢索與應(yīng)用系統(tǒng),可以實現(xiàn)知識生成與知識應(yīng)用等功能。
中江高速是廣東省境內(nèi)連接中山市與江門市的高速公路,建成于2005 年,原道路設(shè)計為雙向四車道。隨著社會經(jīng)濟(jì)的快速發(fā)展,中江高速的交通容量逐漸不能滿足人民日益增長的需求,擁堵現(xiàn)象常有發(fā)生。為了解決交通承載量不足的問題,廣東省政府提出了中江高速改擴(kuò)建項目,由原有的雙向四車道增至雙向八車道。中江高速的擴(kuò)建方案如圖3 所示。
圖3 中江高速擴(kuò)建方案示意圖
本項目為既有高速公路的改擴(kuò)建工程,建設(shè)環(huán)境復(fù)雜、建設(shè)難度較高,在全生命周期中會涉及到大量與工程安全有關(guān)的法律、規(guī)范及標(biāo)準(zhǔn)。如何使項目各參與方更高效地獲取需要的安全信息是本項目工程管理中面臨的一個重大問題。
基于本研究提出的方法,可以對項目相關(guān)的公路工程規(guī)范類文本進(jìn)行信息的自動提取。其中,將核心結(jié)構(gòu)中的關(guān)系標(biāo)識為Predicate,將連接成分R 與成分A/E 的關(guān)系標(biāo)識為Condition,將連接成分與成分T的關(guān)系標(biāo)識為Target,將修飾結(jié)構(gòu)的修飾關(guān)系標(biāo)識為AttrOn,將協(xié)同結(jié)構(gòu)與并列結(jié)構(gòu)中的協(xié)同或等效關(guān)系標(biāo)識為JoinOn。以967 本公路規(guī)范類文本為數(shù)據(jù)源,轉(zhuǎn)換為標(biāo)準(zhǔn)三元組結(jié)構(gòu)。以圖結(jié)構(gòu)存儲上述三元組,圖結(jié)構(gòu)中的基本組成為“實體-關(guān)系-實體”或“實體-屬性-屬性值”。此時,便獲得了能完整表示語義的知識子圖。再對規(guī)范文本產(chǎn)生的所有知識子圖進(jìn)行知識融合,即可完成知識圖譜的構(gòu)建。
為了驗證本研究所提出方法的正確性,以BERT+resCNN 方法為比較對象,對上述的五類關(guān)系進(jìn)行評估。將原始語料切分為7:2:1 的比例,分別用作BERT+resCNN 方法訓(xùn)練集、驗證集、測試集。最終,正確率對比結(jié)果如表2 所示。測試結(jié)果標(biāo)識,在各類關(guān)系中,本研究提出的方法均優(yōu)于BERT+resCNN 方法,且在Predicate,AttrOn 和JoinOn 關(guān)系中的表現(xiàn)較好。Condition 與Target 正確率較低的原因是部分語句復(fù)合關(guān)系過于復(fù)雜,在TEARS 成分識別中出錯了。
表2 關(guān)系提取正確率對比表
知識圖譜中公路橋梁工程的二級展開示意圖如圖4所示,其中的子節(jié)點可以繼續(xù)展開,如“橋梁工程-下部結(jié)構(gòu)-橋墩”繼續(xù)展開,可以得到墩柱、蓋梁、墩帽等子節(jié)點。對于存在于基于文檔的公路工程領(lǐng)域詞庫中的實體節(jié)點,系統(tǒng)還提供了術(shù)語的釋義。
圖4 知識圖譜示例圖(以公路橋梁工程為例)
在此系統(tǒng)中,用戶可以通過知識圖譜進(jìn)行高效的語義化檢索,并通過知識節(jié)點之間的關(guān)聯(lián)尋找其他相關(guān)知識,也可以根據(jù)關(guān)鍵詞查詢規(guī)范文本,還可以根據(jù)關(guān)聯(lián)路徑快速定位至規(guī)范原文。用戶可以通過檢索知識圖譜,獲取對應(yīng)的規(guī)范條文,還可以逐級展開查看規(guī)范原文。系統(tǒng)應(yīng)用示例如圖5 所示。
圖5 系統(tǒng)應(yīng)用示例圖
在實際工程實踐中,本系統(tǒng)可以服務(wù)于工程全過程中的多參與方。在設(shè)計階段,設(shè)計人員可以通過語義檢索,快速獲取所需的規(guī)范條文,用于輔助指導(dǎo)設(shè)計;在施工階段,對某一施工對象的技術(shù)要求不確定時,可以通過此系統(tǒng)進(jìn)行快速檢索,具有以下優(yōu)勢:
(1)保證現(xiàn)場的施工效率;
(2)檢索結(jié)果可溯源,保障檢索結(jié)果的準(zhǔn)確性;
(3)基于知識圖譜的關(guān)聯(lián)特征,能夠快速且較全面地獲取關(guān)聯(lián)知識,如可快速獲取關(guān)于某一對象的跨規(guī)范、全專業(yè)的相關(guān)條文。
(4)在后續(xù)開發(fā)過程中,還可以考慮與物聯(lián)網(wǎng)技術(shù)結(jié)合,將傳感器的實時數(shù)據(jù)傳輸?shù)较到y(tǒng)中,以知識圖譜為基礎(chǔ),實現(xiàn)工程隱患排查、風(fēng)險評估、風(fēng)險預(yù)警以及突發(fā)事件決策輔助等功能。
本研究提出了一種面向公路工程規(guī)范類文本的多粒度知識提取與知識應(yīng)用方法。該方法以公路工程規(guī)范類文本為研究對象,在詞語粒度、語段粒度和子句粒度進(jìn)行多粒度特征分析。針對每個粒度的特征,設(shè)計了信息的提取與組織方法,形成了一套基于規(guī)則的IE 技術(shù)。對于詞語粒度,基于公路工程規(guī)范類文本以及基于公開詞庫構(gòu)建了公路工程領(lǐng)域詞庫;對于語段粒度,提出針對中文公路規(guī)范的TEARS 定義,并給出對應(yīng)的識別與重構(gòu)算法;對于子句粒度,總結(jié)了四種句法特征,并各自設(shè)計了語義信息的抽取方法?;谏鲜黾夹g(shù),本研究構(gòu)建了公路工程建設(shè)領(lǐng)域知識圖譜,開發(fā)了公路工程安全信息檢索與應(yīng)用系統(tǒng),并成功應(yīng)用于中江高速改擴(kuò)建工程中,實現(xiàn)了對公路規(guī)范文本的知識提取與應(yīng)用。
相較于前人的研究,本研究在多粒度上分析了公路規(guī)范的文本特征,準(zhǔn)確且高效地對公路工程建設(shè)領(lǐng)域的知識進(jìn)行提取與應(yīng)用,與深度學(xué)習(xí)方法相比,本方法也有較高的正確率。對于大規(guī)模的規(guī)范文本數(shù)據(jù),本方法依然有效且自動化程度高,極大地提升了知識利用效率。
本研究深入探討了基于文本的知識提取方法,但是并沒有針對規(guī)范中的公式、圖片與表格等非純文本內(nèi)容的提取方法進(jìn)行研究,導(dǎo)致了從規(guī)范到知識的轉(zhuǎn)化過程中可能會發(fā)生歧義或缺失等情況。在知識應(yīng)用方面,本研究主要聚焦于知識檢索與知識表達(dá)。在未來的研究中,可以探索更豐富的知識應(yīng)用,如自動合規(guī)性檢查、智能知識問答等。