關(guān)鍵詞:依存分析;信息技術(shù);項目管理;知識圖譜;文本挖掘;知識抽取
中圖分類號:E92 文獻(xiàn)標(biāo)志碼:A DOI:10.12305/j.issn.1001506X.2024.12.16
0引言
在信息技術(shù)項目管理過程中,大量的文本數(shù)據(jù)被產(chǎn)生和存儲,對這些數(shù)據(jù)進(jìn)行深入分析和挖掘是提高組織對信息技術(shù)體系發(fā)展管理和規(guī)劃水平的關(guān)鍵。由于信息技術(shù)領(lǐng)域技術(shù)更新迭代快、信息資源密度高,對于該領(lǐng)域科技項目的管理和決策特別強(qiáng)調(diào)組織內(nèi)部的統(tǒng)籌協(xié)作和知識共享[13]。傳統(tǒng)上,建立適當(dāng)?shù)男畔⒓夹g(shù)體系結(jié)構(gòu),是協(xié)調(diào)組織內(nèi)部協(xié)作和知識共享的一種常用手段[46]。信息技術(shù)體系結(jié)構(gòu)可以為組織重大決策提供支持,對信息技術(shù)發(fā)展可能存在的缺陷和重大機(jī)遇提供早期預(yù)警信號,并且為根據(jù)可能的機(jī)會和威脅做出政策調(diào)整提供了可能性。
信息技術(shù)體系結(jié)構(gòu)強(qiáng)調(diào)自上而下地建立一整套業(yè)務(wù)框架,例如開放式架構(gòu)框架(The Open Group ArchitectureFramework,TOGAF)[7]、美國聯(lián)邦政府體系架構(gòu)(FederalEnterpriseArchitecture,FEA)[8]等。受限于當(dāng)時的技術(shù)手段,這些業(yè)務(wù)管理框架中鮮有關(guān)于自動化構(gòu)建的方法,這也導(dǎo)致其構(gòu)建的成本過于高昂,實現(xiàn)過程的人力和時間成本與信息技術(shù)的快速發(fā)展不匹配。隨著語義技術(shù)的發(fā)展,研究人員對如何應(yīng)用語義技術(shù)增強(qiáng)信息技術(shù)體系結(jié)構(gòu)的管理和應(yīng)用投入大量的研究[911]。近年來,知識圖譜作為一種新興的知識表示和管理方法,逐漸受到項目知識管理領(lǐng)域研究的重視[1213]。利用知識圖譜技術(shù)對信息技術(shù)領(lǐng)域相關(guān)知識進(jìn)行挖掘和分析[14],可以幫助企業(yè)或組織更好地理解其信息技術(shù)領(lǐng)域的體系結(jié)構(gòu),加快信息技術(shù)的開發(fā)和部署速度,同時保證整體的信息技術(shù)投資效益和風(fēng)險控制水平,將有助于推進(jìn)信息技術(shù)領(lǐng)域自下而上的管理和發(fā)展。
知識圖譜是一種語義網(wǎng)絡(luò),通過圖形結(jié)構(gòu)展示關(guān)鍵信息,用于描述現(xiàn)實世界中的實體、概念及其關(guān)系。知識抽取是構(gòu)建知識圖譜的基礎(chǔ),主要指從非結(jié)構(gòu)化和半結(jié)構(gòu)化的文本數(shù)據(jù)中提取出實體、關(guān)系和屬性等關(guān)鍵信息,這些信息是構(gòu)建知識圖譜所必須的。因此,知識抽取在知識圖譜構(gòu)建中具有非常重要的作用和地位,只有經(jīng)過準(zhǔn)確、有效的文本信息抽取,這些信息才能轉(zhuǎn)化為機(jī)器可理解和處理的形式,并生成可靠的知識圖譜。同時,知識抽取也是知識圖譜自動化構(gòu)建的關(guān)鍵技術(shù)之一,可自動從文本數(shù)據(jù)中發(fā)現(xiàn)、提取和組織知識,提高知識的獲取和利用效率。然而,在垂直領(lǐng)域知識圖譜構(gòu)建過程中,知識圖譜的自動化構(gòu)建依然面臨許多挑戰(zhàn)。首先是垂直領(lǐng)域的數(shù)據(jù)量有限,與通用領(lǐng)域相比,垂直領(lǐng)域的知識抽取需要的先驗知識無法從通用領(lǐng)域數(shù)據(jù)中獲取,通用領(lǐng)域訓(xùn)練的模型并不適合垂直領(lǐng)域知識圖譜構(gòu)建。其二是領(lǐng)域?qū)I(yè)性強(qiáng),不同的垂直領(lǐng)域具有不同的專業(yè)詞匯、概念、術(shù)語等,需要進(jìn)行專門的處理和抽取。作為一種手段,依存分析[1516]能夠提供文本的句法和語義信息,可為知識圖譜自動化構(gòu)建提供相關(guān)的語義結(jié)構(gòu)信息[1719]。
本文提出一種面向英文信息技術(shù)項目文本的基于依存句法規(guī)則的知識抽取和知識圖譜構(gòu)建方法。該方法以非結(jié)構(gòu)化文本數(shù)據(jù)作為抽取對象,通過依存分析建立文本信息的依存句法結(jié)構(gòu),構(gòu)建實體之間的上下位關(guān)系,從而在語法結(jié)構(gòu)的基礎(chǔ)上實現(xiàn)知識圖譜的自動化構(gòu)建。針對信息技術(shù)項目的領(lǐng)域特點,本文構(gòu)建了一種集成元模型的概念參考模型(metamodelintegrationconceptualreference,MI-CRM),以描述該領(lǐng)域文本中的各類型專業(yè)知識,并利用帶有超邊的圖結(jié)構(gòu)描述實體之間的多元關(guān)系。最后,通過案例實驗驗證了本文所提算法的有效性。
1基于依存句法規(guī)則的知識抽取
知識抽取,也被稱為命名實體識別(namedentityrecog-nization,NER),是指運用自然語言處理技術(shù)從自然語言中抽取實體和關(guān)系的過程。知識抽取包括多種方法,例如字典查找、基于統(tǒng)計的語言處理,以及機(jī)器學(xué)習(xí)等方法。
依存分析是實體抽取和關(guān)系抽取中常用的一種方法,又稱依存句法分析,是指通過分析句子的語法結(jié)構(gòu),找出相關(guān)詞語及其關(guān)系類型的過程。依存分析假設(shè)語句通常由二元非對稱的單詞關(guān)系組成,稱為依存關(guān)系。每種關(guān)系有一個頭部和一個修飾頭部的依賴項,并根據(jù)頭部和依賴項之間的依賴關(guān)系性質(zhì)進(jìn)行標(biāo)記。
本文提出的基于依存分析的實體抽取和上下位關(guān)系抽取方法如圖1所示,包括以下3個主要步驟。
步驟1 構(gòu)建依存句法結(jié)構(gòu)與實體擴(kuò)展
首先,在對句子進(jìn)行分詞后,得到句子的詞元,并以詞元作為節(jié)點構(gòu)建原始文本的依存句法結(jié)構(gòu)。接下來,根據(jù)詞元的詞性選擇詞性為名詞的單詞或詞組作為候選中心詞,通過一系列規(guī)則對這些候選中心詞進(jìn)行擴(kuò)展。對于每個候選中心詞,通過匹配依存句法結(jié)構(gòu)和擴(kuò)展規(guī)則集,判斷其是否可以進(jìn)行擴(kuò)展,并將擴(kuò)展后的實體作為候選實體。
步驟2 候選實體融合
考慮到擴(kuò)展后的實體可能存在交叉,需要對其進(jìn)行融合和重組。本文采用線段排序算法對擴(kuò)展后的實體進(jìn)行融合處理,根據(jù)實體在原文中的位置得到實體的起點和終點,通過該算法可以得到無交叉、重復(fù)的實體信息。
步驟3 上下位關(guān)系生成
在過濾和重組后的實體集合上重構(gòu)原始文本的語法依存結(jié)構(gòu)樹,得到實體及其上下位關(guān)系;通過人工檢查生成的實體及其上下位關(guān)系,選擇是否需要添加新的實體擴(kuò)展規(guī)則,滿足要求的實體將通過一個實體關(guān)系解析器來生成資源描述框架(resourcedescriptionframework,RDF)格式的三元組。
依存分析是自然語言處理的經(jīng)典任務(wù),傳統(tǒng)方法主要采用基于轉(zhuǎn)移的思路,通過在部分解析樹上使用“移進(jìn)—規(guī)約”算法計算概率分布并遞歸地預(yù)測每個單詞的依存關(guān)系。近年來,基于深度神經(jīng)網(wǎng)路的方法在依存分析中得到了廣泛應(yīng)用。文獻(xiàn)[20]提出使用雙仿射注意力機(jī)制計算單詞的依賴詞及其依賴關(guān)系的表示,從而可以在深度神經(jīng)網(wǎng)絡(luò)進(jìn)行并行計算和預(yù)測每對單詞之間的依存關(guān)系。文獻(xiàn)[21]結(jié)合預(yù)訓(xùn)練語言模型,在雙仿射注意力機(jī)制的基礎(chǔ)上進(jìn)一步提升了依存分析的關(guān)系預(yù)測精度。在工業(yè)界,許多自然語言處理工具庫,如spaCy、nltk、corenlp和HanLP 等都提供了依存分析的接口以供方便使用。為了兼顧運行速度,這些工具庫大多采用傳統(tǒng)的基于轉(zhuǎn)移的方法,在預(yù)測準(zhǔn)確率上有一定損失。為了方便說明文本的方法,本文使用spaCy作為示例性工具對文本進(jìn)行處理。
1.1依存結(jié)構(gòu)定義與實體擴(kuò)展
定義一組基于依存分析的依存句法結(jié)構(gòu)參數(shù),用于對抽取的實體進(jìn)行擴(kuò)展,如表1所示。首先,通過分詞處理得到若干詞元。對每個詞元,通過依存結(jié)構(gòu)參數(shù)來判斷該詞是否為候選詞。由于信息技術(shù)項目文本包含大量的技術(shù)名詞和詞組,這里主要選擇名詞和名詞性詞組作為候選詞。
對于每個候選詞,采用一系列規(guī)則組合來判斷是否需要進(jìn)行實體擴(kuò)展。在需要擴(kuò)展時,以該候選詞為中心,向前或向后尋找擴(kuò)展后的詞組邊界。規(guī)則組合由多個簡單規(guī)則組成,簡單規(guī)則包括以下幾種類型。
(1)關(guān)系規(guī)則。該規(guī)則通過表1 中的ij和jk 參數(shù)定義,描述當(dāng)前詞與上級詞或上上級詞的語法依賴關(guān)系。例如,圖1中的“with”通過“prep”關(guān)系指向“provides”,表明其是上級詞的介詞;而“provides”通過“nsubj”關(guān)系指向“Thisproject”,表明其上級詞是名詞性主語。通過關(guān)系規(guī)則可以判斷詞元在句子中的語法成分,表2 列舉了部分依賴關(guān)系的含義。
(2)詞性規(guī)則。該規(guī)則通過表1中的ii、jj和kk?yún)?shù)定義,描述當(dāng)前詞、上級詞和上上級詞的詞性。常用的詞性定義如表2所示。
(3)位置規(guī)則。該規(guī)則通過表1 中的犻、犼和犽?yún)?shù)定義,記錄當(dāng)前詞、上級詞和上上級詞在句子中的位置,每個句子的詞元從0開始編號。通過位置規(guī)則可以判斷詞元在句子中的位置以及詞元間的距離。
(4)特殊規(guī)則。該規(guī)則用于定義一些特定的詞組或固定搭配,例如“is_of”規(guī)則用于提取介詞為of的詞組。設(shè)計這一類別規(guī)則的原因是有時對提取的實體有一些特定的需求,需要設(shè)計一些針對性比較強(qiáng)的規(guī)則。
規(guī)則組合使用上述4種簡單規(guī)則的組合來判斷實體是否需要進(jìn)行擴(kuò)展,以及如何擴(kuò)展。每一項規(guī)則組合用于提取具有特定語法結(jié)構(gòu)的實體。為了解決規(guī)則之間的沖突問題,對每一項規(guī)則組合賦予一定的優(yōu)先級,從0開始,數(shù)值越大,優(yōu)先級越低,當(dāng)實體同時滿足多項規(guī)則組合時,將按照優(yōu)先級最高的規(guī)則組合進(jìn)行擴(kuò)展。使用規(guī)則優(yōu)先級為規(guī)則集為進(jìn)一步擴(kuò)充提供了靈活性。當(dāng)創(chuàng)建一個新的規(guī)則組合時,只需要調(diào)整其優(yōu)先級即可。
1.2候選實體融合
在提取到實體后,需要進(jìn)行擴(kuò)展和融合,如圖2所示。對于相鄰的和有交叉的實體,需要將其擴(kuò)展,并進(jìn)一步使其融合,以得到不重復(fù)和不存在交叉的實體。
1.3上下位關(guān)系生成
根據(jù)融合實體之間的語法依存關(guān)系來確定其在句子中的上下位關(guān)系。根據(jù)依存分析的定義,任何詞元都可以通過有限次依存關(guān)系與句子的根詞ROOT 建立聯(lián)系。而對于融合實體,可以使用spaCy提供的接口獲取該實體的中心詞ROOT,并以中心詞作為詞元來復(fù)現(xiàn)上下位關(guān)系。這樣,不論是單個詞元,還是融合后實體,都可以通過依存關(guān)系來建立其到根詞的距離關(guān)系。
如圖3所示,以兩個詞元之間的單步依存關(guān)系作為一跳,將每個詞元與根詞建立聯(lián)系所需的跳數(shù)記為hops,并以hops作為判斷上下位關(guān)系的依據(jù)。其中,hops值為1代表該中心詞只需通過一次依存關(guān)系即可到達(dá)根詞。同時,規(guī)定每個句子的根詞的hops值為0,句子的主語hops值為-1,而其他實體的hops值則由其中心詞到根詞的距離所決定。實體的hops值越小,表示該實體與根詞的語法距離越近,而hops值越大,則表示語法距離越遠(yuǎn)。為了計算實體中心詞的hops值,首先將其初始化為0,每經(jīng)過一跳則增加1。需要注意的是,若兩個詞元之間在語法上是并列關(guān)系,其所處的語法上下位關(guān)系應(yīng)屬于同一層。因此,算法在判斷每一跳的依存關(guān)系時,需要額外判斷是否為并列關(guān)系(表2中的conj),若是,則hops值無需遞增。
1.4三元組生成
根據(jù)第1.3節(jié)得到的實體間的上下位關(guān)系生成形如<subject,predicate,object>的三元組,具體步驟如算法2所示。
首先,根據(jù)hops確定實體的上下位關(guān)系,以參數(shù)level表示。主語的level為0,其他實體根據(jù)語法距離依次遞增編號,同一層級的實體level相同。
然后,對于實體列表E中的元素,從level1 開始創(chuàng)建三元組。擴(kuò)展實體列表犈中的每個實體犲犻都被賦予一個獨一無二的標(biāo)識符uri。若實體的level為1,則以項目名稱作為頭實體;對于level大于1的實體,則按照其上下位關(guān)系依次構(gòu)建三元組,每個實體以其上位實體eupper作為頭實體,并使用該實體的根詞的head作為三元組的謂詞。
2多元關(guān)系知識圖譜構(gòu)建
在信息技術(shù)項目文本中,抽取的實體之間通常存在復(fù)雜的多元關(guān)系,而非簡單的二元關(guān)系。二元關(guān)系指僅存在于兩個實體之間的關(guān)系。傳統(tǒng)的三元組形式能以簡潔的語言形式來建模二元關(guān)系,但對于多元關(guān)系,這種方法面臨著各種挑戰(zhàn)。例如,某項目A 研究某項關(guān)鍵技術(shù)B,該技術(shù)可用于解決問題C,這里的3 個實體構(gòu)成了一組多元關(guān)系。傳統(tǒng)的三元組形式只能描述A、B和C 之間的兩兩關(guān)系,而難以描述〈A→B〉→C這樣的多元關(guān)系。
知識圖譜的多元關(guān)系建模問題近年來越來越受到重視。針對知識圖譜的多元關(guān)系建模問題,目前通常有以下幾種處理方式:① 使用屬性圖模型[2223]進(jìn)行建模。② 引入超圖模型[2426],利用超圖模型來處理多元關(guān)系。在超圖模型中,實體和關(guān)系被視為節(jié)點,其關(guān)系被視為超邊。因此,多元關(guān)系可以直接表示為超邊。③ 使用命名圖[2729]。命名圖是一種基于RDF的可命名的圖形結(jié)構(gòu),也被稱為四元組,通過向三元組中添加斷言擴(kuò)展RDF 的語法和語義,將三元組擴(kuò)充為四元組〈subject,predicate,object,graph〉,為RDF三元組增加一個可以描述上下文或主題的斷言屬性。以上方法在知識圖譜構(gòu)建和應(yīng)用方面各有側(cè)重,需要根據(jù)具體問題選擇不同的方法。
本文注重對信息技術(shù)項目文本進(jìn)行挖掘和知識圖譜構(gòu)建。為此,本文考慮利用基于超圖中的超邊來建模已經(jīng)抽取的知識實體。在超圖中,超邊[30]是連接多個頂點的一條邊。與傳統(tǒng)的二元邊不同,超邊可以連接任意數(shù)量的頂點(包括兩個頂點)。超邊可以用于表示大量的非二元關(guān)系,從而捕捉到復(fù)雜的結(jié)構(gòu)和關(guān)系。同時,為了清晰地表達(dá)信息技術(shù)項目文本中抽取出的各種實體,本文采用了多架構(gòu)元模型來建立知識圖譜的本體。
2.1基于多架構(gòu)元模型的知識本體構(gòu)建
在信息技術(shù)項目文本中,實體與實體之間存在多種關(guān)系類型。為了更好地建模這些關(guān)系,需要設(shè)計一個層次分明、分類合理的本體?;谛畔⒓夹g(shù)項目本身的領(lǐng)域知識特點,國際上通常采用企業(yè)架構(gòu)來進(jìn)行概念建模和描述[3133]。常用的企業(yè)架構(gòu)框架如FEA 體系架構(gòu)、TOGAF體系架構(gòu)和美國國防部架構(gòu)框架(DepartmentofDefenseArchitectureFramework,DoDAF)[34],都是基于元模型提供對現(xiàn)實世界中事物的抽象描述。這些元模型利用類似于本體的結(jié)構(gòu)定義了事物的抽象概念及事物與事物之間的關(guān)系。
在本文中,通過參考多種架構(gòu)的元模型,結(jié)合自上而下和自底向上的方法構(gòu)建了MI-CRM。該本體中的抽象概念取自多種企業(yè)架構(gòu)元模型,并且被劃分為4個概念組,分別是方法/手段域、組織域、能力域和使命域。MI-CRM 使用概念組為本體提供一個分類參考,用于從多種架構(gòu)的元模型中選擇與其具有相近內(nèi)涵的本體概念并組合在一起,這樣可以從一個最簡單的結(jié)構(gòu)開始構(gòu)建本體。同時,為了盡可能地減少本體結(jié)構(gòu)的復(fù)雜性,通過嚴(yán)格定義概念之間的關(guān)系來對概念進(jìn)行歸并,如圖4 所示。設(shè)計MI-CRM 的目標(biāo)是最小化擴(kuò)展本體的需求。當(dāng)MI-CRM 無法提供符合相應(yīng)概念的本體時,首先檢查新概念是否可以用上述7 種謂詞連接到相應(yīng)的概念類型上,并在原有概念的基礎(chǔ)上添加歸并概念。通過has_type謂詞引入與實體相關(guān)的定制概念類型,而不是生成新的概念,以確保知識圖譜最大限度地向后兼容。
2.2以超邊作為載體的知識超圖構(gòu)建
第2.1節(jié)構(gòu)建了MI-CRM 本體,可以對實體之間簡單的二元關(guān)系進(jìn)行建模。這里,基于超邊作為載體,使用RDF架構(gòu)(RDFschema,RDFS)規(guī)范來構(gòu)建實體間的多元關(guān)系。在RDFS規(guī)范框架下,一個三元組的謂詞可以作為另一個三元組的主語出現(xiàn)。通過將謂詞實例化,并引入一個超邊將其進(jìn)一步連接到其他實體,可以有效地解決多元關(guān)系建模問題。參考文獻(xiàn)[24]和文獻(xiàn)[35]的方法將基于依存分析提供的上下位關(guān)系建立知識超圖。
(1)基于超邊的知識超圖構(gòu)建。首先,在已有MICRM 本體的基本圖結(jié)構(gòu)基礎(chǔ)上進(jìn)一步定義超圖。在傳統(tǒng)圖結(jié)構(gòu)中,每條邊只能連接兩個實體節(jié)點,表示為三元組〈subject,edge,object〉。而在超圖中,引入新的超邊,可以連接實體節(jié)點和一條邊,表示為三元組〈edge,hyperedge,object〉。在關(guān)系抽取環(huán)節(jié),根據(jù)實體及其上下位關(guān)系對識別出的謂詞進(jìn)行判斷,如果符合相應(yīng)的規(guī)則,那么在抽取時將其標(biāo)注為超邊并保存與其連接的相關(guān)實體及謂詞。
(2)基于超邊的RDFS圖數(shù)據(jù)生成。這一階段將來自同一句子的三元組轉(zhuǎn)換為含有超邊的RDFS 圖,對于需要改寫的三元組,通過一個超邊解析器來自動地生成RFDS三元組。超邊解析器首先判斷一條邊的頭實體的類型,如果連接的是邊,則首先把這條邊實例化,然后建立三元組。例如,假設(shè)一個三元組是〈edge,hyperedge,object〉,那么首先邊edge 會被實例化為edge1,即〈edge1,type Of,edge〉,然后向數(shù)據(jù)中添加新的三元組〈edge1,hyperedge,object〉以取代〈edge,hyperedge,object〉。
舉例來說,對于類似于“AsupportBbyprovidingC”這樣的句法結(jié)構(gòu),通過依存分析可以得到3 個實體之間的上下位關(guān)系為(levelA=0,levelB=1,levelC=2)。因此,可以建立以下三元組:〈A,support,B〉,〈support,byProviding,C〉。顯然,三元組〈support,byProviding,C〉的頭實體是〈A,support,B〉的邊,需要進(jìn)行實例化。由于RDF格式允許使用uri表示任何資源,因此只需要賦予support一個獨一無二的uri即可實現(xiàn)實例化,這樣三元組就可以改寫為〈A,support1,B〉,〈support1,byProviding,C〉,〈support1,typeOf,support〉。
3實驗與案例分析
在實驗部分,以項目文本為例進(jìn)行案例研究。實驗收集了信息科技項目的立項申報摘要文本作為知識抽取和關(guān)聯(lián)的數(shù)據(jù)源。為了說明所提出的方法,首先演示了知識抽取的過程,并給出一個具體的例子。隨后,利用上下位關(guān)系構(gòu)建該例子的知識超圖。最后,使用SPARQL 查詢語句對生成的知識圖譜進(jìn)行查詢,通過返回的結(jié)果判斷圖譜生成的正確性。
3.1知識抽取實驗及分析
本節(jié)給出知識抽取部分的實驗與分析,例如以下取自某航空信息系統(tǒng)項目的文本:“Thisprojectprovidestheanalystwiththeabilitytorapidlyfindandfusemultipleintelligencesourcesofbattlespaceinformationforimprovedsituationalawareness,andtobetterdetectandfindanomalies”。根據(jù)表1中定義的依存結(jié)構(gòu),通過文本處理得到其依存句法結(jié)構(gòu),如表3所示。
表3中最后一列列出了每個實體符合的規(guī)則編號,按照規(guī)則,標(biāo)記為-1 的實體不會作為候選詞。對于同時符合多個規(guī)則的實體,根據(jù)規(guī)則優(yōu)先級來確定其擴(kuò)展的具體原則。例如,“anomalies”同時符合編號為6 和20 的規(guī)則,而規(guī)則6的優(yōu)先級高于規(guī)則20的優(yōu)先級,因此該實體將按照規(guī)則6進(jìn)行擴(kuò)展。
根據(jù)規(guī)則設(shè)計,算法將按照不同的方向?qū)嶓w進(jìn)行擴(kuò)展。例如,表3中“battlespaceinformation”對應(yīng)的規(guī)則優(yōu)先級為2,該規(guī)則將向前尋找到“multipleintelligencesources”并將其作為擴(kuò)展邊界,從而提取出“multipleintelligencesourcesofbattlespaceinformation”并將其作為新的實體。這一步提取的初始實體如表4所示。
表4給出了提取的7 個實體在句子中的位置參數(shù),通過位置參數(shù)可以判斷出提取的實體是否存在鄰接或交叉。根據(jù)算法1,將存在鄰接或交叉的實體進(jìn)行融合,得到的實體如表5所示。表5 還列出了每個實體的中心詞ROOT,以及中心詞與句子根詞ROOT 的距離,將根據(jù)其距離來確定該實體在句子中的上下位關(guān)系。
3.2知識圖譜構(gòu)建及查詢
在知識圖譜構(gòu)建環(huán)節(jié),將根據(jù)上下位關(guān)系構(gòu)建具有超邊的超圖。以實體“betterdetectandfindanomalies”為例,根據(jù)算法2,將生成以下三元組:〈Thisprojects,provide,theanalyst〉〈theanalyst,with,theability〉〈theability,to,betterdetectandfindanomalies〉。3個三元組頭實體的上下位關(guān)系依次為0、1、2,這里引入“provideWith”超邊,并讓其連接到實例化后的邊“provide1”上,構(gòu)建以下新的三元組:〈Thisprojects,provide1,theanalyst〉〈provide1,provideWith,theability〉〈theability,to,betterdetectandfindanomalies〉。最后,依據(jù)第2.2節(jié)的方法生成ttl格式的RDFS文件。將超邊“provideWith”定義為RDF 的屬性,而邊“provide1”則被定義為一類標(biāo)記為relation的實體。這樣,實例化后的邊與其他實體使用不同的本體概念(使用onto定義),可以在查詢中對其進(jìn)行區(qū)別。
4結(jié)束語
本文面向英文信息技術(shù)項目文本提出了一種基于依存句法規(guī)則的知識抽取和知識圖譜構(gòu)建方法。這種基于句法結(jié)構(gòu)和規(guī)則模板的知識抽取方法不需要大量的數(shù)據(jù)訓(xùn)練模型,尤其適合于在沒有預(yù)先訓(xùn)練模型的前提下提取特定領(lǐng)域的專業(yè)知識?;谠摲椒?,在獲取一定數(shù)量的實體和關(guān)系后,結(jié)合監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)方法,訓(xùn)練適合于該領(lǐng)域特色的抽取模型,可以進(jìn)一步提高知識圖譜自動化構(gòu)建水平。此外,針對信息技術(shù)項目的領(lǐng)域特點,本文構(gòu)建了MICRM,該本體結(jié)構(gòu)具有較好的可擴(kuò)展性和向后兼容性,案例實驗結(jié)果表明,使用該本體結(jié)合RDF的多元關(guān)系建模,可以豐富查詢結(jié)果的語義。接下來,將在該本體結(jié)構(gòu)的基礎(chǔ)上研究如何結(jié)合語義理解、自動化地生成新的本體概念以及本體融合,進(jìn)一步提高知識圖譜構(gòu)建的自動化程度。
作者簡介
林木(1983—),男,工程師,博士研究生,主要研究方向為自然語言處理、戰(zhàn)略管理與數(shù)字化決策。
束哲(1989—),男,助理研究員,博士,主要研究方向為體系工程與體系仿真。
李童心(1995—),女,博士研究生,主要研究方向為戰(zhàn)略管理評估、知識圖譜表示學(xué)習(xí)。
王維平(1963—),男,教授,博士研究生導(dǎo)師,博士,主要研究方向為裝備體系論證與仿真評估。