于碧輝,孫 思,2,李 岳,2
1(中國科學(xué)院 沈陽計算技術(shù)研究所,沈陽 110004)
2(中國科學(xué)院大學(xué),北京 100049)
本體原本是一個哲學(xué)概念,隨著人工智能領(lǐng)域的發(fā)展,被賦予了新的定義,領(lǐng)域內(nèi)學(xué)者對此進(jìn)行了深入的研究,對本體的定義也在不斷發(fā)展變化,目前被廣泛認(rèn)可的是1998年Studer 對本體的定義:“本體是共享概念模型的明確的形式化規(guī)范說明”.本體主要依靠概念、概念之間的關(guān)系以及公理來發(fā)揮作用,其中關(guān)系又包括層次關(guān)系以及非層次關(guān)系[1,2].
關(guān)于本體的研究與應(yīng)用主要圍繞3 個方面:(1)對本體概念以及分類等等理論上的研究.(2)應(yīng)用在信息系統(tǒng)中,包括信息組織、信息檢索以及異構(gòu)系統(tǒng)互操作問題.(3)應(yīng)用在語義網(wǎng)中,在知識層提供知識重用和共享的依據(jù).本體可以分為3 個層次:上位本體、領(lǐng)域本體和面向應(yīng)用的本體.上位本體是可跨領(lǐng)域復(fù)用的本體,為不同本體之間的邏輯組織提供保證.領(lǐng)域本體針對某一個特定的學(xué)科、專業(yè)或領(lǐng)域,表述適用于這一范圍內(nèi)廣泛使用的概念和關(guān)系.面向應(yīng)用的本體是為了特定應(yīng)用構(gòu)建的本體知識庫.
如今,本體構(gòu)建主要有3 種方法,由領(lǐng)域?qū)<液捅倔w專家參與的手動構(gòu)建方法;使用機(jī)器學(xué)習(xí)、深度學(xué)習(xí)或者自然語言處理的自動構(gòu)建方法;融合了上述兩種方法的半自動本體構(gòu)建方法.然而,手動構(gòu)建本體方法中本體概念的抽取以及概念之間的關(guān)系均通過人工來定義,依賴于本體專家的意見耗費大量人力,時間,而且依賴于人的主觀性,具有高度局限性.因此,手工構(gòu)建方法逐漸被半自動化、自動化構(gòu)建方法取代,自動構(gòu)建本體方法可以方便的和其他機(jī)器學(xué)習(xí)、自然語言處理領(lǐng)域相結(jié)合,可以使用不同的數(shù)據(jù)源來進(jìn)行構(gòu)建,文本數(shù)據(jù)具有數(shù)據(jù)來源廣泛、便于獲取等特點[3].鑒于此,本文采用電力安全相關(guān)文本作為數(shù)據(jù)源進(jìn)行領(lǐng)域本體的自動構(gòu)建并對構(gòu)建出來的本體進(jìn)行評估.
文獻(xiàn)[4] 采用形式概念分析FCA 來進(jìn)行本體構(gòu)建,基于概念格的相關(guān)理論,但是構(gòu)造過程中計算代價大,適用于小規(guī)模本體的構(gòu)建研究.文獻(xiàn)[5]以敘詞表為依據(jù),針對敘詞表等級結(jié)構(gòu)及其包含的概念間關(guān)系開展基于敘詞表的本體構(gòu)建方法研究,但是僅適合應(yīng)用于醫(yī)學(xué)領(lǐng)域.文獻(xiàn)[6]提出基于模板識別的SSE_CMM領(lǐng)域本體自動構(gòu)建技術(shù).文獻(xiàn)[7]基于維基百科等開放知識庫進(jìn)行本體構(gòu)建,但由于這些開放知識庫的異構(gòu)性,關(guān)于此類本體構(gòu)建方法還處于初級階段.在概念抽取方面,文獻(xiàn)[8]采用TF-IDF 公式進(jìn)行相關(guān)性的判斷,得到術(shù)語在領(lǐng)域的相關(guān)程度,篩選出相關(guān)性高的作為領(lǐng)域內(nèi)概念.文獻(xiàn)[9]采用LDA (Latent Dirichlet Allocation)主題模型將語料中最核心的概念提取出來.
依據(jù)電力行業(yè)相關(guān)規(guī)定,結(jié)合電力監(jiān)控系統(tǒng)的實際需求,本文采用了電力監(jiān)控系統(tǒng)網(wǎng)絡(luò)安全管理平臺基礎(chǔ)支撐功能規(guī)范以及中國知網(wǎng)中電力監(jiān)控系統(tǒng)網(wǎng)絡(luò)安全相關(guān)論文作為數(shù)據(jù)集.通過以下步驟對輸入的文本數(shù)據(jù)進(jìn)行處理,從而實現(xiàn)領(lǐng)域本體文件的自動構(gòu)建:
第1 步.文本數(shù)據(jù)預(yù)處理,該過程將成段的文本進(jìn)行分詞并去除停用詞;
第2 步.本體概念抽取,該過程將中文詞匯轉(zhuǎn)換為本體的基本元素——本體概念;
第3 步.本體概念間關(guān)系抽取,該過程抽取并建立本體概念間的相互關(guān)系以完成本體網(wǎng)絡(luò)的構(gòu)建.
圖1為本文所建立的領(lǐng)域本體自動構(gòu)建流程圖,圖解本文自動構(gòu)建領(lǐng)域本體的整體過程.
圖1 領(lǐng)域本體自動構(gòu)建流程圖
下文將對各步驟中所涉及的設(shè)計細(xì)節(jié)進(jìn)行詳盡的介紹.
主要有3 種常用的概念抽取方法:基于規(guī)則的方法、基于統(tǒng)計的方法和規(guī)則與統(tǒng)計的混合方法[10].本文采用基于統(tǒng)計的方法,因為該方法易于擴(kuò)展、不受具體領(lǐng)域語言學(xué)限制,易于實現(xiàn).
首先,對文本數(shù)據(jù)進(jìn)行預(yù)處理,采用開源的Jieba中文分詞工具對文本進(jìn)行分詞,本文使用Jieba 分詞時加載自行定義的電網(wǎng)安全監(jiān)控詞典來提高分詞的效果.自定義的電網(wǎng)安全監(jiān)控詞典由搜狗細(xì)胞詞庫中電力詞匯表、計算機(jī)詞匯表以及網(wǎng)絡(luò)工程詞匯表等組成.
使用百度停用詞表、哈工大停用詞表、四川大學(xué)停用詞表等中文停用詞表組成的停用詞表進(jìn)行過濾.
目前,已有多種成熟的統(tǒng)計學(xué)方法可實現(xiàn)從文本數(shù)據(jù)中抽取本體概念.TF-IDF (Term Frequency-Inverse Document Frequency)是一種基于統(tǒng)計的方法,衡量一個詞語在文檔中的重要程度,詞語的重要性與出現(xiàn)在文檔中的次數(shù)成正比,與出現(xiàn)在語料庫里的其他文檔中的頻率成反比.TextRank 算法是一種用于文本的基于圖的排序算法,它的思想來源于PageRank 算法,把文本分為若干部分,建立圖模型,使用投票機(jī)制對文本中的重要詞匯進(jìn)行排序.不同于TF-IDF、LDA 等方法,該算法是一種無監(jiān)督的學(xué)習(xí)算法,不強(qiáng)烈依賴語料庫,不需要對多篇文檔進(jìn)行學(xué)習(xí)訓(xùn)練,能夠有效地處理本文所使用的文本資源.因此,本文采用TextRank 算法實現(xiàn)本體概念的抽取.在該算法中,單詞的TextRank權(quán)重計算公式如下:
其中,d是一個人為設(shè)置的可調(diào)整參數(shù),經(jīng)過實驗調(diào)整,本文將上式中的d設(shè)置為0.85.In(Vi)為每個單詞i在單句內(nèi)成線性關(guān)系排列的單詞的集合,單詞i的權(quán)重WS(Vi)取決于在i之前的各點j組成的(j,i)邊的權(quán)重,以及j點到其他各邊的權(quán)重之和.形如wji的權(quán)重值由計算兩個不同的文本單元同時出現(xiàn)在同一個文本窗口中的比率而得,該權(quán)重的取值通常為2.初始化時,每個單詞的權(quán)重統(tǒng)一初始為1,經(jīng)過多次計算后所有權(quán)重整體達(dá)到一致性,分別以單個文檔、單句為單位進(jìn)行權(quán)重排名,取權(quán)重排名最高的單詞為關(guān)鍵詞.
現(xiàn)有的TextRank 算法主要基于統(tǒng)計學(xué)獲取權(quán)重排名,在部分情況下,對文本資源中出現(xiàn)頻次低卻包含領(lǐng)域內(nèi)關(guān)鍵概念的詞匯抽取效果較差.實驗表明,在應(yīng)用中時常造成關(guān)鍵概念的遺漏,從而導(dǎo)致抽取準(zhǔn)確度存在較大的提升空間.針對上述問題,改進(jìn)TextRank算法將原本單一的權(quán)重排名隊列擴(kuò)大為3 個隊列組成的多重權(quán)重排名隊列.通過計算權(quán)重得到原始隊列后,基于電網(wǎng)安全監(jiān)控詞典以及上下文語義關(guān)系,統(tǒng)計各詞語與領(lǐng)域內(nèi)的關(guān)鍵詞匯的關(guān)聯(lián)度.直接在詞典中出現(xiàn)的關(guān)鍵詞關(guān)聯(lián)度置1,與詞典中關(guān)鍵詞產(chǎn)生語義關(guān)系的依照關(guān)系強(qiáng)弱置為[0.2,0.9)區(qū)間內(nèi)的值.從隊尾反向搜索,設(shè)定關(guān)聯(lián)度閾值,將高關(guān)聯(lián)的詞匯認(rèn)定為領(lǐng)域關(guān)鍵詞升至上位隊列.從隊首正向搜索,將低關(guān)聯(lián)詞匯認(rèn)定為高頻次的非關(guān)鍵詞匯降入下位隊列.通過添加上述過程,能夠有效地提升概念抽取的準(zhǔn)確率,并在關(guān)系抽取過程之前過濾非關(guān)鍵詞,從而提高了算法整體的運行效率.
本體概念間關(guān)系主要劃分為兩種:層次關(guān)系與非層次關(guān)系.層次關(guān)系主要是概念之間的父子關(guān)系[11];非層次關(guān)系是指除了層次關(guān)系之外的關(guān)系,包括整體與部分之間的關(guān)系、屬性關(guān)系等.所以先進(jìn)行層次關(guān)系的抽取,再此基礎(chǔ)上對非層次關(guān)系進(jìn)行抽取.例如USB 是設(shè)備的子類,USB 和設(shè)備之間具有層次關(guān)系;設(shè)備的名稱和設(shè)備的編號是設(shè)備的數(shù)據(jù)屬性,設(shè)備與設(shè)備名稱和設(shè)備編號具有非層次關(guān)系.
2.2.1 層次關(guān)系抽取
本體概念之間關(guān)系的抽取方法主要包括:基于模板的方法、基于關(guān)聯(lián)規(guī)則的方法、基于詞典的方法以及層次聚類的方法.聚類方法的思想在于根據(jù)事物的屬性最小化類內(nèi)距離,最大化類間距離,將一組具有異同特征的對象數(shù)據(jù)集依據(jù)特征的相似性分類為相似的對象類,同一分類下的對象具有相對的高度相似性,這一思想適用于本文中對本體概念進(jìn)行層次關(guān)系的抽取過程.層次聚類根據(jù)不同的聚類策略又分為自頂向下的分裂方式和自底向上的凝聚方式,凝聚方式將每個概念作為一個簇,計算概念之間的相似度不斷的進(jìn)行合并,將簇不斷擴(kuò)大直到所有概念都合并為一個簇;而分裂的方式和他相反,初始情況將所有概念作為一簇,依據(jù)相似度將概念細(xì)分,不停迭代直到概念各成一簇為止.兩種不同方式如下圖所示.本文采用凝聚的層次聚類方法將1.1 小節(jié)得到的領(lǐng)域內(nèi)概念向量化,根據(jù)向量之間的相似度對概念進(jìn)行聚類,抽取它們之間的層次關(guān)系,方法的核心思路如圖2所示意.
圖2 基于凝聚的自底向上層次聚類方法示意圖
使用空間向量模型,定義概念-文檔矩陣,領(lǐng)域本體概念用W表示,特征項用t表示,其中t使用tf-idf權(quán)值表示.公式如下:
其中,表示第i個概念tij:
tfij表示抽取出的概念出現(xiàn)在文檔集中的頻率,n表示數(shù)據(jù)集中文檔總數(shù),ni表示出現(xiàn)概念i的文檔數(shù).按照上述公式構(gòu)建向量空間模型,建立相似度矩陣步驟如下:
Step 2.計算兩兩概念之間的相似度:
Step 3.構(gòu)建概念相似度矩陣Sij,其定義如下:
簇間平均距離的定義如下:
其中,X,Y表示兩個簇,|X|和|Y|表示兩個簇內(nèi)元素的個數(shù).
概念層次關(guān)系抽取步驟如下:
Step 1.將抽取出的每個概念單獨作為一簇.
Step 2.計算兩個簇之間的相似度即davg(X,Y).
Step 3.取相似度最大的兩簇進(jìn)行合并,若所有對象合并成一簇則跳轉(zhuǎn)到Step 4,否則跳轉(zhuǎn)至Step 2.
Step 4.結(jié)束.
在初始階段,將每個領(lǐng)域本體概念作為一簇,根據(jù)相似度矩陣,逐一將相似度大于規(guī)定閾值threshold 的兩簇合成一簇,直到簇內(nèi)平均距離小于給定閾值為止.
聚類的方法可以將本體概念分為多個簇,但是簇內(nèi)父概念和子概念的劃分需要進(jìn)一步定義,使用簇內(nèi)平均相似度來劃分.計算簇內(nèi)概念兩兩之間的相似度,若某一個概念的簇內(nèi)平均相似度越大,則說明此概念與其他概念聯(lián)系廣泛,更有可能為簇內(nèi)的父概念.簇內(nèi)平均相似度定義如下:
通過上述方法抽取的部分層次關(guān)系如圖3所示.
圖3 部分層次關(guān)系示意圖
2.2.2 本體概念非層次關(guān)系抽取
本體概念之間的非層次關(guān)系主要包括:部分與整體之間的關(guān)系、概念與屬性之間的關(guān)系如對象屬性和數(shù)據(jù)屬性等.本文基于統(tǒng)計學(xué)方法進(jìn)行構(gòu)建,具有可移植性強(qiáng),對語言依賴性低等優(yōu)點.采用關(guān)聯(lián)規(guī)則方法,該方法可發(fā)現(xiàn)事物之間的相互依存性和關(guān)聯(lián)性.普通的關(guān)聯(lián)規(guī)則方法只能得出概念之間確實存在非層次關(guān)系,但無法得出具體的關(guān)系名稱,而概念之間的非層次關(guān)系可以用(主語,謂語,賓語)三元組表示,所以用動詞可以作為概念之間的非層次關(guān)系改進(jìn)關(guān)聯(lián)規(guī)則.概念Wi和Wj之間具有關(guān)系Rt的關(guān)聯(lián)強(qiáng)度可以用支持度和置信度來衡量.支持度Support表示兩個概念出現(xiàn)在同一個句子里的概率,置信度Confidence表示在Wi出現(xiàn)的情況下Wj出現(xiàn)的概率,定義如下:
使用以下改進(jìn)的關(guān)聯(lián)規(guī)則進(jìn)行非層次關(guān)系抽取的步驟如下:
Step 1.從抽取到的本體概念中選取概念Wi和Wj.
Step 2.根據(jù)上述公式計算Support(Wi→Wj)和Con fidence(Wi→Wj).
Step 3.給定支持度和置信度閾值min_Support和min_Confidence,如果S upport(Wi→Wj)>min_Support且Con fidence(Wi→Wj)>min_Confidence則概念Wi和Wj具有非層次關(guān)系,進(jìn)行Step 4,否則轉(zhuǎn)到Step 1.
Step 4.統(tǒng)計出現(xiàn)在Wi和Wj中的所有動詞及其共現(xiàn)頻率.如果概念與該動詞的共現(xiàn)頻率大于給定閾值,則把該動詞定義為概念之間的非層次關(guān)系.
Step 5.驗證所有動詞之后結(jié)束.
以上方法抽取的部分非層次關(guān)系如表1所示.
表1 部分非層次關(guān)系
通過上述兩種本體概念間關(guān)系的抽取,完成概念間的分類關(guān)系、分層關(guān)系,以及跨層次的歸屬關(guān)系等關(guān)系的羅列,歸納得到本體構(gòu)建所需的連接方式.根據(jù)領(lǐng)域概念和概念間的關(guān)系,可在Protégé工具軟件中構(gòu)建樹狀的領(lǐng)域本體.Protégé是由斯坦福大學(xué)開發(fā)的本體開發(fā)工具,該軟件提供圖形化界面可用于模擬概念類之間的關(guān)系以及屬性.本文對于層次關(guān)系的抽取結(jié)果可以在Classes 選項卡定義,并且可以生成樹狀關(guān)系圖,如圖4所示.非層次關(guān)系抽取的結(jié)果主要包括對象屬性和數(shù)據(jù)屬性[12],可以在Protégé中的object properties選項卡和data properties 選項卡中完成定義.
圖4 本體概念抽取對比實驗結(jié)果
基于上文中提出的自動化構(gòu)建方法,本文針對性地搭建了完整的實驗環(huán)境以驗證本文所提出方法的有效性.數(shù)據(jù)方面,采取了電力監(jiān)控系統(tǒng)網(wǎng)絡(luò)安全監(jiān)測裝置技術(shù)規(guī)范以及電力監(jiān)控相關(guān)論文作為實驗的文本數(shù)據(jù)源,與之相配套的開發(fā)環(huán)境及使用到的工具軟件列舉如表2所示.
本體的評價一般可以從兩個角度來進(jìn)行:從應(yīng)用的角度和從本體自身的角度.基于應(yīng)用的角度是比較是否使用本體對應(yīng)用效果的影響,依賴于具體的應(yīng)用,不夠直觀,所以本文采用基于本體自身的評價.使用搜狗細(xì)胞詞庫中電力行業(yè)與計算機(jī)行業(yè)專業(yè)詞匯表作為數(shù)據(jù)源,手工構(gòu)建本體作為參照本體,其中包括87 個概念類,64 條數(shù)據(jù)屬性以及49 條對象屬性.為了提高實驗評價的客觀性在手工構(gòu)建本體時使用《知網(wǎng)》(HowNet)詞匯相似度計算工具進(jìn)行概念以及概念之間關(guān)系的建立,并且增加適當(dāng)?shù)娜斯ば拚?提高評價的可信度.
表2 實驗環(huán)境
(1) 本體概念抽取實驗
在實驗的本體概念抽取環(huán)節(jié)中,本文基于相同的文本數(shù)據(jù)源開展了多種本體概念抽取方法的對比實驗,包括現(xiàn)有的TF-IDF 算法、TextRank 算法、LDA 主題模型,與本文提出的TextRank 改進(jìn)算法進(jìn)行橫向?qū)Ρ?實驗結(jié)果如圖4所示.
通過實驗對比可以看出,本文所提出的TextRank改進(jìn)算法能夠在相同的文本數(shù)據(jù)源中正確地抽取到更多的概念,本體概念的抽取能力有顯著的提升.LDA 主題模型在短文本數(shù)據(jù)上進(jìn)行概念抽取的效果不佳,而TF-IDF 算法以及一般的TextRank 算法本質(zhì)上是依據(jù)詞頻,當(dāng)領(lǐng)域核心概念出現(xiàn)頻次較低時,容易產(chǎn)生遺漏,效果一般.
(2) 概念間層次關(guān)系抽取實驗
在層次關(guān)系抽取過程中,采用了準(zhǔn)確率Precision、召回率Recall以及F1 值等3 種衡量指標(biāo)來多角度地衡量關(guān)系抽取結(jié)果.準(zhǔn)確率為正確抽取出的關(guān)系與實際抽取出的關(guān)系總數(shù)的比值,召回率為正確抽取出的關(guān)系與數(shù)據(jù)集中抽取出的所有關(guān)系總數(shù)的比值,F1 值為準(zhǔn)確率與召回率的調(diào)和平均值.上述3 個衡量指標(biāo)具體的計算方式如下:
在層次關(guān)系抽取過程中,選取不同的相似度閾值threshold 對上述衡量指標(biāo)的影響如表3所示.
表3 Threshold 對實驗結(jié)果的影響
將本文使用的層次聚類算法與文獻(xiàn)[1]中使用的形式概念分析法FCA,以及一種基于Beta 分布的聚類算法BRT (Bayesian Rose Tree)進(jìn)行對比,如圖5所示.
圖5 層次關(guān)系抽取對比實驗結(jié)果
使用形式概念分析法得到的準(zhǔn)確率、召回率和F值分別是0.65、0.61 和0.63;BRT 聚類算法的準(zhǔn)確率、召回率和F值分別是0.62、0.57、0.59;本文采用的層次聚類算法的準(zhǔn)確率、召回率和F值分別是0.74、0.69 和0.71.可以看出本文使用的方法具有較好的抽取效果.原因如下:當(dāng)句子中的概念存在并列關(guān)系時,層次聚類方法可以將這些概念歸并到一個簇中,有效防止簇內(nèi)概念被分開,而BRT 算法需要計算概念之間的合并概率,容易產(chǎn)生誤差.
(3) 概念間非層次關(guān)系抽取實驗
在非層次關(guān)系抽取中,使用式(8)和式(9)計算概念之間支持度和置信度,當(dāng)支持度和置信度的閾值min_Support和min_Confidence取不同值時,對非層次關(guān)系結(jié)果的影響如表4所示,根據(jù)結(jié)果進(jìn)行閾值選取.
使用詞典的方法進(jìn)行非關(guān)系抽取得到的非層次關(guān)系種類少,而傳統(tǒng)的關(guān)聯(lián)規(guī)則方法無法得到非層次關(guān)系的名稱,所以上述方法無法進(jìn)行實驗對比.本文采用基于模板的方法,定義主語、謂語、賓語形式作為非層次關(guān)系的獲取模板,與本文提出的改進(jìn)關(guān)聯(lián)規(guī)則方法進(jìn)行實驗對比,結(jié)果如圖6所示.
表4 不同支持度與置信度閾值情況下的準(zhǔn)確度(%)
圖6 非層次關(guān)系抽取對比實驗結(jié)果
可以看出隨著使用的文檔數(shù)量的增加,兩種方法的準(zhǔn)確率均有所提高.基于模板的方法由于篩選條件簡單,抽取到的非層次關(guān)系數(shù)量較多,但是準(zhǔn)確率較低;本文提出的改進(jìn)關(guān)聯(lián)規(guī)則方法準(zhǔn)確率較高.
通過統(tǒng)計結(jié)果可以看出,本文所提出的領(lǐng)域本體構(gòu)建方法準(zhǔn)確率、召回率達(dá)到實際應(yīng)用中的可用性要求,能夠為本體的自動化構(gòu)建提供可靠的本體概念數(shù)據(jù).自動化抽取得到本體概念后,依次進(jìn)行了本體概念間層次關(guān)系、非層次關(guān)系的抽取.最終,依據(jù)概念、概念間的關(guān)系,在Protégé中構(gòu)建了SafeAgent 本體.構(gòu)建的本體(部分)如圖7所示.
本文基于上述自動構(gòu)建的電力監(jiān)控安全本體開展進(jìn)一步的實際應(yīng)用,開發(fā)一套電網(wǎng)網(wǎng)絡(luò)安全智能監(jiān)控系統(tǒng)軟件.該系統(tǒng)以SafeAgent 本體作為后臺的邏輯內(nèi)核,對電網(wǎng)監(jiān)測設(shè)備采集的監(jiān)測數(shù)據(jù)進(jìn)行實時語義標(biāo)注,后續(xù)處理中依據(jù)數(shù)據(jù)語義特征實施不同操作.在實際運行過程中,對比于早期由開發(fā)人員手動構(gòu)建的領(lǐng)域本體,采用本文提出的方法進(jìn)行自動化構(gòu)建的本體具有可觀的準(zhǔn)確率、可靠性,可以實現(xiàn)對人工構(gòu)建本體的初步替代應(yīng)用.實驗證明,在確保替代不影響系統(tǒng)整體性能的前提下,自動化構(gòu)建本體方法可以切實有效地節(jié)省開發(fā)過程中的人力、物力,并且在大規(guī)模、多領(lǐng)域的語義網(wǎng)建設(shè)中保持高度的可擴(kuò)展特性.
圖7 電力監(jiān)控安全本體(部分)
本文針對電力監(jiān)控系統(tǒng)網(wǎng)絡(luò)安全方面的實際需求,開展了領(lǐng)域本體的自動化構(gòu)建研究,在現(xiàn)有的本體自動化構(gòu)建方法基礎(chǔ)之上,針對文本數(shù)據(jù)到領(lǐng)域本體概念的轉(zhuǎn)化、本體概念間層次關(guān)系的抽取、非層次關(guān)系的抽取等多個必要步驟進(jìn)行了改進(jìn),并初步實現(xiàn)了該領(lǐng)域本體的自動化構(gòu)建過程.經(jīng)實驗驗證,本文能夠以較高的效率、準(zhǔn)確率完成領(lǐng)域本體的自動化構(gòu)建,避免了耗費大量人力、物力的領(lǐng)域本體的人工構(gòu)建過程,從而實現(xiàn)對電力監(jiān)控系統(tǒng)的網(wǎng)絡(luò)安全行為進(jìn)行快速的語義標(biāo)注,為未來的電力監(jiān)控系統(tǒng)中的物聯(lián)網(wǎng)設(shè)備標(biāo)準(zhǔn)化、智能化奠定了基礎(chǔ).