□ 周文杰 □ 余軍合 □ 王 瑞 □ 鄧慧君 □ 范存慶
1.寧波大學(xué) 機(jī)械工程與力學(xué)學(xué)院 浙江寧波 3152112.寧波大學(xué) 信息科學(xué)與工程學(xué)院 浙江寧波 315211
在信息化發(fā)展過(guò)程中,企業(yè)的工程案例數(shù)據(jù)隨著時(shí)間的推移越來(lái)越龐大。這些知識(shí)資源是企業(yè)極具價(jià)值的財(cái)富,有效利用這些知識(shí)資源有助于驅(qū)動(dòng)企業(yè)產(chǎn)品創(chuàng)新設(shè)計(jì),使企業(yè)在不斷變化的市場(chǎng)中保持競(jìng)爭(zhēng)力。隨著企業(yè)工程業(yè)務(wù)的不斷發(fā)展,知識(shí)資源的復(fù)雜性不斷提高,側(cè)重點(diǎn)分散,各自針對(duì)單一問(wèn)題。而工程機(jī)械應(yīng)用場(chǎng)景具有多樣化特點(diǎn),需要采用非結(jié)構(gòu)化模式進(jìn)行存儲(chǔ)表達(dá),如文本、圖像等。傳統(tǒng)的存儲(chǔ)表達(dá)方式在面對(duì)高復(fù)雜性知識(shí)資源和非結(jié)構(gòu)化模式時(shí)無(wú)法適應(yīng),導(dǎo)致知識(shí)資源得不到有效、統(tǒng)一表征,嚴(yán)重影響知識(shí)重用率。
隨著大數(shù)據(jù)、云計(jì)算、人工智能的迅猛發(fā)展,采用大數(shù)據(jù)手段解決知識(shí)重用及知識(shí)挖掘問(wèn)題成為主流。其中,知識(shí)圖譜技術(shù)是研究熱點(diǎn),在知識(shí)統(tǒng)一表征方面日益受到關(guān)注和青睞。知識(shí)圖譜的本質(zhì)是構(gòu)建具備語(yǔ)義處理能力和開(kāi)放互聯(lián)能力的知識(shí)庫(kù),對(duì)現(xiàn)實(shí)世界的概念、關(guān)系等進(jìn)行形式化描述[1],已成為各領(lǐng)域廣泛使用的一種提高知識(shí)重用率的方法。李秀玲等[2]提出一種面向工藝重用的工藝知識(shí)圖譜構(gòu)建方法,用于解決工藝知識(shí)重用和共享方面的難題。楊玉基等[3]提出四步法構(gòu)建領(lǐng)域知識(shí)圖譜,將其應(yīng)用于基礎(chǔ)學(xué)科教育,構(gòu)建地理學(xué)科知識(shí)圖譜。Long Jiawei等[4]構(gòu)建股票市場(chǎng)及其交易信息知識(shí)圖譜,通過(guò)深度學(xué)習(xí)對(duì)股價(jià)進(jìn)行預(yù)測(cè)。Zhang Chao等[5]提出一種基于知識(shí)圖譜的知識(shí)重用方法,用于支持新產(chǎn)品開(kāi)發(fā)過(guò)程中的知識(shí)驅(qū)動(dòng)決策。Yuan Jianbo等[6]提出一種基于非結(jié)構(gòu)化生物醫(yī)學(xué)領(lǐng)域特定上下文的最小監(jiān)督知識(shí)圖譜構(gòu)建通用方法。劉梓權(quán)等[7]提出利用現(xiàn)有電力設(shè)備缺陷記錄語(yǔ)料,構(gòu)建電力設(shè)備缺陷知識(shí)圖譜的方法。張海濤等[8]提出構(gòu)建重大突發(fā)事件領(lǐng)域的事理圖譜,研究并揭示重大突發(fā)事件演變的規(guī)律與邏輯。Fang Weili等[9]將計(jì)算機(jī)視覺(jué)算法與本體模型相結(jié)合,開(kāi)發(fā)出能夠在遵守安全法規(guī)的同時(shí)自動(dòng)準(zhǔn)確識(shí)別危險(xiǎn)的知識(shí)圖譜。郭榕等[10]基于電網(wǎng)故障處置文本,提出一種自頂向下和自底向上相結(jié)合的電網(wǎng)故障處置知識(shí)圖譜構(gòu)建方法,實(shí)現(xiàn)了可視化,并對(duì)其在智能信息檢索和輔助故障診斷中的應(yīng)用進(jìn)行了分析。
從以上各領(lǐng)域知識(shí)圖譜的構(gòu)建和應(yīng)用中可以看到,隨著信息技術(shù)的不斷發(fā)展,知識(shí)圖譜技術(shù)日趨成熟,越來(lái)越多的高質(zhì)量領(lǐng)域知識(shí)圖譜被構(gòu)建和應(yīng)用。構(gòu)建知識(shí)圖譜,一般采用自頂向下或自底向上的方法。自頂向下的方法指預(yù)先定義模式層本體模型,然后從數(shù)據(jù)源中抽取實(shí)體關(guān)系屬性,填充至本體模型。自底向上的方法指先從數(shù)據(jù)源中抽取實(shí)體關(guān)系屬性,在對(duì)所得的知識(shí)類型定義審查之后加入知識(shí)庫(kù)。在工程機(jī)械裝備領(lǐng)域,案例庫(kù)數(shù)據(jù)規(guī)模較小且封閉,工程機(jī)械裝備使用場(chǎng)景不一,業(yè)務(wù)關(guān)系復(fù)雜,知識(shí)結(jié)構(gòu)復(fù)用難度較高,知識(shí)圖譜的構(gòu)建有一定難度。筆者擬采用自頂向下和自底向上相結(jié)合的方法來(lái)構(gòu)建工程機(jī)械裝備案例庫(kù)知識(shí)圖譜,研究基于案例庫(kù)的業(yè)務(wù)查詢及可視化、基于知識(shí)圖譜推薦兩個(gè)應(yīng)用點(diǎn)。自頂向下和自底向上相結(jié)合的方法指在模式層中采用自頂向下的方法,在數(shù)據(jù)層中采用自底向上的方法,用模式層中定義的本體模型映射數(shù)據(jù)源中抽取的知識(shí)類型,進(jìn)而構(gòu)建工程機(jī)械裝備案例庫(kù)知識(shí)圖譜。
工程機(jī)械裝備案例庫(kù)知識(shí)圖譜屬于特定領(lǐng)域知識(shí)圖譜,是企業(yè)工程案例庫(kù)數(shù)據(jù)基于概念節(jié)點(diǎn)及關(guān)系的實(shí)體擴(kuò)充與豐富,是一種結(jié)構(gòu)化語(yǔ)義知識(shí)庫(kù)。工程機(jī)械裝備案例庫(kù)存儲(chǔ)工程案例知識(shí),一般意義上的工程案例知識(shí)范圍很廣,內(nèi)容也非常豐富。為保證工程案例知識(shí)能夠被精準(zhǔn)表示和重用,將工程案例知識(shí)分為三類。
第一類為工程場(chǎng)景類知識(shí),指描述工程場(chǎng)景的知識(shí),是融合多種要素、多項(xiàng)知識(shí)的綜合規(guī)劃知識(shí),主要來(lái)源是工程項(xiàng)目中的外部知識(shí),如工程領(lǐng)域、工程地理位置、施工單位、施工對(duì)象等,是工程案例知識(shí)中較為宏觀的部分。
第二類為工程業(yè)務(wù)類知識(shí),指在工程施工中產(chǎn)生的業(yè)務(wù)知識(shí),主要來(lái)源是工程項(xiàng)目中的各項(xiàng)數(shù)據(jù),如項(xiàng)目名稱、設(shè)備名稱、設(shè)備參數(shù)等,是工程項(xiàng)目中真實(shí)發(fā)生的知識(shí)數(shù)據(jù),目前主要存儲(chǔ)于企業(yè)文本表格或數(shù)據(jù)庫(kù)中,其本質(zhì)是個(gè)性化實(shí)例知識(shí)。
第三類為工程規(guī)則類知識(shí),是基于技術(shù)角度描述工程業(yè)務(wù)得以實(shí)現(xiàn)的依據(jù),代表工程項(xiàng)目中的技術(shù)準(zhǔn)則,主要來(lái)源是技術(shù)指導(dǎo)手冊(cè)、業(yè)內(nèi)常識(shí)、專家經(jīng)驗(yàn)知識(shí)等,是已經(jīng)驗(yàn)證過(guò)的正確的知識(shí),目前主要依賴于人工總結(jié),對(duì)工程決策具有重要的指導(dǎo)意義。
工程機(jī)械裝備案例庫(kù)知識(shí)圖譜從語(yǔ)義角度出發(fā),以三元組形式描述工程案例知識(shí)。工程機(jī)械裝備案例庫(kù)知識(shí)圖譜在邏輯上可以分為模式層和數(shù)據(jù)層兩個(gè)層次。模式層是工程機(jī)械裝備案例庫(kù)知識(shí)圖譜的核心,其本質(zhì)是建立工程機(jī)械裝備案例庫(kù)知識(shí)模式,存儲(chǔ)的是實(shí)體、關(guān)系、屬性三者之間的關(guān)聯(lián)關(guān)系。數(shù)據(jù)層對(duì)工程機(jī)械裝備案例庫(kù)中的知識(shí)進(jìn)行處理,在模式層的引導(dǎo)下,轉(zhuǎn)換為結(jié)構(gòu)化知識(shí)圖譜。
工程機(jī)械裝備案例庫(kù)知識(shí)圖譜構(gòu)建流程如圖1所示,主要包括三個(gè)核心步驟。
第一步,模式層構(gòu)建采用自頂向下的方法,對(duì)三類工程案例知識(shí)通過(guò)領(lǐng)域本體設(shè)計(jì)的方法進(jìn)行梳理,對(duì)業(yè)務(wù)和功能需求進(jìn)行分析,預(yù)先定義模式層中的實(shí)體集合、實(shí)體屬性集合、實(shí)體關(guān)系集合,形成清晰明確的層次結(jié)構(gòu)。
第二步,數(shù)據(jù)層構(gòu)建采用自底向上的方法,對(duì)數(shù)據(jù)庫(kù)數(shù)據(jù)、云平臺(tái)數(shù)據(jù)、文本表格數(shù)據(jù)、專家知識(shí)進(jìn)行清洗和預(yù)處理,并對(duì)目標(biāo)數(shù)據(jù)進(jìn)行實(shí)體、屬性、關(guān)系抽取,對(duì)抽取得到的形式化知識(shí)進(jìn)行實(shí)體對(duì)齊、鏈接、消歧,在模式層的引導(dǎo)下完成構(gòu)建。
第三步,生成工程機(jī)械裝備案例庫(kù)知識(shí)圖譜,具體包括設(shè)計(jì)知識(shí)圖譜的存儲(chǔ)方式,建立多層次實(shí)體關(guān)聯(lián)關(guān)系,實(shí)現(xiàn)模式層到數(shù)據(jù)層的映射。
工程機(jī)械裝備案例庫(kù)知識(shí)圖譜模式層的本質(zhì)是建立工程機(jī)械裝備案例庫(kù)知識(shí)模式,相當(dāng)于關(guān)系數(shù)據(jù)庫(kù)的表結(jié)構(gòu),存儲(chǔ)經(jīng)過(guò)提煉的工程知識(shí)實(shí)體及實(shí)體間的關(guān)聯(lián)關(guān)系,是工程機(jī)械裝備案例庫(kù)知識(shí)圖譜中的核心部分。為了保證模式層能夠準(zhǔn)確、完整地表達(dá)工程案例知識(shí),使用自頂向下的方法,從宏觀角度出發(fā)進(jìn)行模式定義。模式層概念關(guān)系如圖2所示。
針對(duì)三類工程案例知識(shí),確定本體的專業(yè)領(lǐng)域和范疇,了解應(yīng)用的背景和需求,明確模式定義的目的、范圍、用途等??紤]復(fù)用現(xiàn)有模式的可能性,基于三類工程案例知識(shí),逐步向下進(jìn)行細(xì)化,以形成準(zhǔn)確的層次結(jié)構(gòu)。分析業(yè)務(wù)邏輯,包括對(duì)象梳理、流程梳理、業(yè)務(wù)優(yōu)化、邏輯建模四個(gè)部分,核心是以業(yè)務(wù)場(chǎng)景為分析對(duì)象,理清場(chǎng)景和業(yè)務(wù)對(duì)象的關(guān)聯(lián)關(guān)系,可以充分運(yùn)用專家知識(shí),結(jié)合場(chǎng)景目標(biāo),梳理業(yè)務(wù)對(duì)象和業(yè)務(wù)流程,并對(duì)業(yè)務(wù)進(jìn)行優(yōu)化,最終對(duì)業(yè)務(wù)場(chǎng)景實(shí)現(xiàn)邏輯建模和本體建模,根據(jù)業(yè)務(wù)需求完成實(shí)體集合定義和實(shí)體屬性定義。圖2中,實(shí)體類概念部分為模式層中的概念層,基于三類工程案例知識(shí)進(jìn)行擴(kuò)展得到。實(shí)體屬性值部分為定義實(shí)體概念的屬性值。通過(guò)評(píng)估分析,選擇擁有迫切需求、知識(shí)基礎(chǔ)良好、業(yè)務(wù)邏輯清晰明了的業(yè)務(wù)場(chǎng)景,規(guī)避基礎(chǔ)較差、非結(jié)構(gòu)數(shù)據(jù)多、信息化不完善的場(chǎng)景,從整體角度進(jìn)行功能需求解讀,完成關(guān)系集合的定義。
模式層概念關(guān)系圖譜模型如圖3所示。
工程機(jī)械裝備案例庫(kù)知識(shí)圖譜數(shù)據(jù)層的作用是在模式層的引導(dǎo)下,將工程案例知識(shí)轉(zhuǎn)換為結(jié)構(gòu)化的工程機(jī)械裝備案例庫(kù)知識(shí)圖譜。數(shù)據(jù)層采用自底向上的方法構(gòu)建,主要包括知識(shí)抽取、知識(shí)融合、知識(shí)存儲(chǔ)表達(dá)三個(gè)步驟。
基于錯(cuò)綜復(fù)雜的數(shù)據(jù)庫(kù)數(shù)據(jù)、云平臺(tái)數(shù)據(jù)、文本表格數(shù)據(jù)、專家知識(shí)構(gòu)建工程機(jī)械裝備案例庫(kù)知識(shí)圖譜,首先要進(jìn)行知識(shí)抽取,目的是從源數(shù)據(jù)中提取特定類型的信息,如實(shí)體、屬性、關(guān)系,并將特定類型的信息以特定的形式進(jìn)行表示和存儲(chǔ)。以上三類特定類型的信息是工程案例知識(shí)的重要組成元素,工程機(jī)械裝備案例庫(kù)知識(shí)圖譜的優(yōu)劣由知識(shí)抽取結(jié)果直接決定。數(shù)據(jù)在整體上表現(xiàn)出多源異構(gòu)多模態(tài)特征,因此要將結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)分開(kāi)處理。結(jié)構(gòu)化數(shù)據(jù)包括數(shù)據(jù)庫(kù)數(shù)據(jù)、云平臺(tái)數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)包括文本表格數(shù)據(jù)、專家知識(shí)。
數(shù)據(jù)庫(kù)數(shù)據(jù)和云平臺(tái)數(shù)據(jù)是工程案例知識(shí)中的顯性知識(shí),描述了工程機(jī)械裝備的應(yīng)用場(chǎng)景,具體如設(shè)備庫(kù)、設(shè)備數(shù)據(jù)、項(xiàng)目信息等,屬于結(jié)構(gòu)化數(shù)據(jù),具有固定的格式和顯式表達(dá)結(jié)構(gòu),邏輯清晰,知識(shí)表達(dá)好,存儲(chǔ)類型一般為關(guān)系型數(shù)據(jù)庫(kù)、鏈?zhǔn)酱鎯?chǔ)結(jié)構(gòu)等。對(duì)于關(guān)系型數(shù)據(jù)庫(kù),知識(shí)抽取方法為建立數(shù)據(jù)庫(kù)中概念與模式層中本體的對(duì)應(yīng)關(guān)系,實(shí)現(xiàn)自動(dòng)獲取實(shí)體、屬性、關(guān)系。使用D2RQ平臺(tái)將數(shù)據(jù)庫(kù)中的各個(gè)表映射為知識(shí)圖譜的某個(gè)類型,同時(shí)將表格中的列設(shè)置為對(duì)應(yīng)類型的屬性,每一行代表一個(gè)實(shí)體,實(shí)體間的相互關(guān)系通過(guò)表鏈接模式來(lái)表達(dá)。對(duì)于鏈?zhǔn)酱鎯?chǔ)結(jié)構(gòu),使用圖映射的方法即可完成轉(zhuǎn)換。
文本表格數(shù)據(jù)和專家知識(shí)是工程案例知識(shí)中的隱性知識(shí),描述了工程機(jī)械裝備的應(yīng)用規(guī)則,具體如技術(shù)手冊(cè)、專家報(bào)告、施工說(shuō)明書(shū)等,屬于非結(jié)構(gòu)化數(shù)據(jù)。對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行知識(shí)抽取,關(guān)鍵在于從目標(biāo)文本表格數(shù)據(jù)和專家知識(shí)中對(duì)命名實(shí)體進(jìn)行檢測(cè)并分類,挖掘?qū)嶓w之間的關(guān)聯(lián)關(guān)系,搭建實(shí)體與實(shí)體之間的語(yǔ)義橋梁,并識(shí)別出實(shí)體的屬性,對(duì)實(shí)體進(jìn)行補(bǔ)充,使實(shí)體更加完整。一般采用監(jiān)督學(xué)習(xí)的知識(shí)抽取方法,通過(guò)已知的實(shí)體對(duì)未知的實(shí)體進(jìn)行自動(dòng)標(biāo)注,但文本表格數(shù)據(jù)和專家知識(shí)通常較為封閉、稀疏,傳統(tǒng)的知識(shí)抽取方法并不適用,因此還需要設(shè)計(jì)合適的知識(shí)抽取方法對(duì)文本表格數(shù)據(jù)和專家知識(shí)進(jìn)行實(shí)體、屬性、關(guān)系的抽取。
通過(guò)知識(shí)抽取,初步實(shí)現(xiàn)從數(shù)據(jù)庫(kù)數(shù)據(jù)、云平臺(tái)數(shù)據(jù)、文本表格數(shù)據(jù)、專家知識(shí)中抽取實(shí)體、屬性,以及實(shí)體與實(shí)體的關(guān)系。當(dāng)然,工程案例知識(shí)繁雜,質(zhì)量良莠不齊,不同數(shù)據(jù)源的實(shí)體容易產(chǎn)生歧義,并且實(shí)體間的關(guān)系較為模糊,想要得到合理的數(shù)據(jù)層,還需要進(jìn)行知識(shí)融合,對(duì)近義詞進(jìn)行整合,對(duì)歧義詞實(shí)現(xiàn)消除,確保知識(shí)的質(zhì)量。
知識(shí)融合主要包括實(shí)體鏈接和實(shí)體對(duì)齊兩個(gè)步驟。實(shí)體鏈接指將知識(shí)抽取之后的實(shí)體鏈接至正確的實(shí)體類別中的方法,如將“沖擊錘”鏈接至“鉆頭名稱”這一實(shí)體類別中。工程機(jī)械裝備案例庫(kù)知識(shí)圖譜使用構(gòu)建語(yǔ)義模型的方法,構(gòu)造基于語(yǔ)義特征的實(shí)體和實(shí)體分類集合的特征向量,計(jì)算實(shí)體和實(shí)體分類集合間的余弦相似度,得到精確的相似度,再基于實(shí)體與實(shí)體分類集合的相似度進(jìn)行實(shí)體鏈接[11]。
在現(xiàn)實(shí)世界中,一個(gè)實(shí)體往往有多種稱呼,例如“西紅柿”和“番茄”,代表著同樣的客觀事物。在工程機(jī)械裝備案例庫(kù)知識(shí)圖譜中,也會(huì)存在這種現(xiàn)象,引發(fā)實(shí)體沖突、指向不明問(wèn)題。通過(guò)實(shí)體對(duì)齊,可以消除異構(gòu)數(shù)據(jù)中實(shí)體沖突、指向不明的問(wèn)題。工程機(jī)械裝備案例庫(kù)知識(shí)圖譜采用局部集體實(shí)體對(duì)齊的方式,通過(guò)pagerank算法計(jì)算實(shí)體間的權(quán)重,加權(quán)求和后獲得實(shí)體間的相似度,基于實(shí)體間的相似度進(jìn)行實(shí)體對(duì)齊。
知識(shí)融合后,可以得到初步的本體雛形。要形成高質(zhì)量的知識(shí),還需要進(jìn)一步進(jìn)行知識(shí)加工。工程機(jī)械裝備案例庫(kù)知識(shí)圖譜屬于領(lǐng)域知識(shí)圖譜,數(shù)據(jù)具有一定的封閉性,大部分?jǐn)?shù)據(jù)未公開(kāi)公布。對(duì)此,使用人工編輯的方法,將獲取的知識(shí)映射至模式層,再由數(shù)據(jù)層完成工程機(jī)械裝備案例庫(kù)知識(shí)圖譜的構(gòu)建,采用基于圖模型的Neo4j數(shù)據(jù)庫(kù)進(jìn)行知識(shí)存儲(chǔ)表達(dá)。
選擇某鉆井公司樁基施工案例庫(kù)進(jìn)行工程機(jī)械裝備案例庫(kù)知識(shí)圖譜的應(yīng)用分析。這一鉆井公司需要針對(duì)不同鉆井場(chǎng)景,選擇合適裝備和工藝參數(shù)進(jìn)行鉆井操作。在樁基施工案例庫(kù)中,將鉆井裝備、鉆頭、施工案例的數(shù)據(jù)作為試驗(yàn)數(shù)據(jù),主要涉及鉆頭、項(xiàng)目信息、地層信息、控制參數(shù)、施工工效等。試驗(yàn)數(shù)據(jù)在結(jié)構(gòu)上呈現(xiàn)多源異構(gòu)形式。
該鉆井公司的業(yè)務(wù)場(chǎng)景主要為樁基施工。針對(duì)業(yè)務(wù)場(chǎng)景,確定將鉆頭作為工程機(jī)械裝備案例庫(kù)知識(shí)圖譜的核心,構(gòu)建鉆頭名稱、鉆頭類別、項(xiàng)目、地層信息、控制參數(shù)、施工工效的業(yè)務(wù)耦合關(guān)系。因?yàn)榈貙犹卣餍畔㈦s亂冗余且不規(guī)范,所以將地層信息分為多個(gè)地層屬性,主要包括顏色、結(jié)構(gòu)、硬度、塑性、韌性等,然后自頂向下構(gòu)建本體模型作為模式層。模式層構(gòu)建結(jié)果如圖4所示,模式層節(jié)點(diǎn)包括鉆頭名稱、鉆頭類別、項(xiàng)目、地層信息、地層屬性。鉆頭名稱的節(jié)點(diǎn)屬性有鉆頭特征、鉆頭種類、適用范圍,地層信息的節(jié)點(diǎn)屬性有地層詳描、施工工效。模式層的關(guān)系包括鉆頭名稱和鉆頭類別名稱的歸屬關(guān)系、鉆頭名稱和項(xiàng)目的應(yīng)用關(guān)系、項(xiàng)目和地層信息的包含關(guān)系、鉆頭名稱和地層信息的施工關(guān)系、地層屬性和地層信息的構(gòu)成關(guān)系。
在試驗(yàn)數(shù)據(jù)中,鉆頭名稱、鉆頭類別、項(xiàng)目等為結(jié)構(gòu)化數(shù)據(jù),在數(shù)據(jù)庫(kù)中已有定義,因此以模式層為基礎(chǔ),應(yīng)用D2RQ平臺(tái)將其轉(zhuǎn)換為鉆頭名稱集合、鉆頭類別集合、項(xiàng)目集合、鉆頭名稱與鉆頭類別關(guān)系集合、鉆頭名稱與項(xiàng)目關(guān)系集合、地層詳描屬性集合、施工工效屬性集合。
地層信息為非結(jié)構(gòu)化數(shù)據(jù),并且描述不規(guī)范,有大量雜質(zhì)和冗余,因此需要設(shè)計(jì)合適的知識(shí)抽取方法對(duì)地層信息進(jìn)行實(shí)體、關(guān)系、屬性抽取。實(shí)體抽取的任務(wù)主要包括:提取地層信息的主體特征,作為地層信息的節(jié)點(diǎn)名稱;提取地層信息的部分特征,作為地層屬性節(jié)點(diǎn);提取地層信息與地層屬性的關(guān)系。對(duì)地層信息文本表格數(shù)據(jù)進(jìn)行分詞處理和詞性標(biāo)注,構(gòu)建地層信息集合、地層屬性集合、地層信息與地層屬性關(guān)系集合、項(xiàng)目與地層信息關(guān)系集合。知識(shí)抽取的部分實(shí)體見(jiàn)表1,知識(shí)抽取的部分關(guān)系見(jiàn)表2,知識(shí)抽取的部分屬性見(jiàn)表3。
表1 知識(shí)抽取的部分實(shí)體
表2 知識(shí)抽取的部分關(guān)系
表3 知識(shí)抽取的部分屬性
通過(guò)Neo4j數(shù)據(jù)庫(kù)實(shí)現(xiàn)三元組數(shù)據(jù)的存儲(chǔ),通過(guò)可視化的方式構(gòu)建出最終的工程機(jī)械裝備案例庫(kù)知識(shí)圖譜,部分內(nèi)容如圖5所示。
工程機(jī)械裝備案例庫(kù)知識(shí)圖譜構(gòu)建規(guī)范、結(jié)構(gòu)簡(jiǎn)潔、數(shù)據(jù)質(zhì)量高,因此相較于傳統(tǒng)的查詢搜索,基于工程機(jī)械裝備案例庫(kù)知識(shí)圖譜的業(yè)務(wù)查詢提供了更為豐富的語(yǔ)義特征和結(jié)構(gòu)化的表示形式,可以對(duì)項(xiàng)目或者鉆頭名稱等實(shí)體進(jìn)行可視化查詢。Cypher語(yǔ)言是基于Neo4j數(shù)據(jù)庫(kù)的一種描述性圖形查詢語(yǔ)言,具有豐富的表現(xiàn)力和較高的查詢效率。在進(jìn)行業(yè)務(wù)查詢時(shí),將Cypher語(yǔ)言轉(zhuǎn)換為查詢子圖,與整個(gè)工程機(jī)械裝備案例庫(kù)知識(shí)圖譜進(jìn)行匹配。工程機(jī)械裝備案例庫(kù)知識(shí)圖譜識(shí)別檢索式中的實(shí)體,并對(duì)實(shí)體間的結(jié)構(gòu)關(guān)系進(jìn)行查詢擴(kuò)展與推理。最后,工程機(jī)械裝備案例庫(kù)知識(shí)圖譜對(duì)檢索處理的結(jié)果進(jìn)行相關(guān)性排序,向用戶返回圖形化知識(shí)結(jié)構(gòu)。
基于工程機(jī)械裝備案例庫(kù)知識(shí)圖譜的業(yè)務(wù)查詢過(guò)程如圖6所示。針對(duì)給定的項(xiàng)目“陽(yáng)江風(fēng)電”,利用文本分類模型識(shí)別出給定的實(shí)體,規(guī)范實(shí)體名稱。利用Cypher語(yǔ)言對(duì)已確定的實(shí)體名稱進(jìn)行搜索,可以查詢出與該項(xiàng)目相關(guān)的實(shí)體,如“截齒筒鉆”“球齒滾刀鉆頭”“全風(fēng)化花崗巖”等。通過(guò)點(diǎn)擊節(jié)點(diǎn),多級(jí)擴(kuò)展圖譜信息,形成以“陽(yáng)江風(fēng)電”為核心的知識(shí)網(wǎng)絡(luò),向關(guān)聯(lián)知識(shí)擴(kuò)展,擴(kuò)大業(yè)務(wù)查詢的范圍??梢暬瘶I(yè)務(wù)查詢結(jié)果如圖7所示。
個(gè)性化推薦是工程機(jī)械裝備案例庫(kù)知識(shí)圖譜在工程領(lǐng)域的應(yīng)用場(chǎng)景之一,可以根據(jù)用戶的檢索請(qǐng)求提供相關(guān)對(duì)應(yīng)實(shí)體的建議,以幫助用戶更好地獲取所需要的知識(shí)。在新的項(xiàng)目工程中,面對(duì)新的施工條件,鉆頭的選型依賴于設(shè)計(jì)人員的專業(yè)知識(shí)和設(shè)計(jì)經(jīng)驗(yàn)。應(yīng)用工程機(jī)械裝備案例庫(kù)知識(shí)圖譜,可以在鉆頭選型過(guò)程中根據(jù)所存儲(chǔ)的知識(shí)和關(guān)聯(lián)關(guān)系,給予當(dāng)前的業(yè)務(wù)進(jìn)程輔助推薦和決策,降低對(duì)設(shè)計(jì)人員的強(qiáng)依賴性,提高選型效率,降低選型風(fēng)險(xiǎn)。
將鉆頭與地層信息的業(yè)務(wù)關(guān)系轉(zhuǎn)換為鉆頭名稱與地層屬性的業(yè)務(wù)關(guān)系,利用向量空間模型K1~Kn形式化表示鉆頭名稱與地層屬性的業(yè)務(wù)關(guān)系,為:
(1)
式中:ti為第i個(gè)地層屬性;si為第i個(gè)鉆頭名稱;ωi為ti相對(duì)于si的重要程度;n為實(shí)體數(shù)量;m為樁基施工案例數(shù)量。
ωi的計(jì)算采用詞頻-逆文本頻率方法得到,計(jì)算式為:
ωi=Tilog(S/t+β)
(2)
式中:Ti為第i個(gè)地層屬性與鉆頭名稱的業(yè)務(wù)頻率,即該地層屬性與鉆頭名稱產(chǎn)生業(yè)務(wù)的次數(shù)與鉆頭名稱總業(yè)務(wù)數(shù)量之比;S為地層屬性與鉆頭名稱業(yè)務(wù)關(guān)系總量;t為地層屬性業(yè)務(wù)數(shù)量;β為經(jīng)驗(yàn)常數(shù),通常情況取0.01、0.1、1。
通過(guò)式(2)可以得到施工條件與設(shè)備名稱基于業(yè)務(wù)的關(guān)聯(lián)矩陣Kn×m,為:
(3)
為解決矩陣稀疏性,還要對(duì)其進(jìn)行歸一化處理,最終基于迪杰斯特拉算法進(jìn)行路徑計(jì)算,根據(jù)需求查詢與檢索節(jié)點(diǎn)最短路徑的節(jié)點(diǎn),完成節(jié)點(diǎn)的推薦。由于迪杰斯特拉算法是從一個(gè)頂點(diǎn)到其余各頂點(diǎn)的最短路徑算法,解決的是有權(quán)圖中最短路徑問(wèn)題,而歸一化后的權(quán)重體現(xiàn)的是相關(guān)性,因此還要用1減去歸一化后的權(quán)重,成為不相關(guān)性,再將其輸入工程機(jī)械裝備案例庫(kù)知識(shí)圖譜。最終得到的不相關(guān)矩陣R為:
(4)
不相關(guān)矩陣的行表示地層屬性,列表示鉆頭名稱,不相關(guān)矩陣中的內(nèi)容表示地層屬性相對(duì)于鉆頭名稱的反向重要度。將構(gòu)建的不相關(guān)矩陣轉(zhuǎn)換為鉆頭名稱-權(quán)重-地層屬性三元組,存儲(chǔ)至Neo4j數(shù)據(jù)庫(kù)。
基于工程機(jī)械裝備案例庫(kù)知識(shí)圖譜的鉆頭推薦過(guò)程如圖8所示。面對(duì)新的地層信息時(shí),可以通過(guò)簡(jiǎn)單的人工抉擇,將地層信息分為多個(gè)地層屬性輸入推薦條件,如“厚層狀”“砂質(zhì)結(jié)構(gòu)”“裂隙發(fā)育”等。使用迪杰斯特拉算法對(duì)地層屬性與所有鉆頭的權(quán)重進(jìn)行計(jì)算,通過(guò)排序得到最相關(guān)的一個(gè)或多個(gè)鉆頭,為施工人員提供選擇,完成推薦。
鉆頭推薦示例如圖9所示,圖中數(shù)字為地層屬性與鉆頭名稱的權(quán)重。
在各個(gè)領(lǐng)域的知識(shí)重用中,知識(shí)圖譜已成為舉足輕重的角色。目前,知識(shí)圖譜在互聯(lián)網(wǎng)、醫(yī)療、金融等領(lǐng)域都具有不俗的表現(xiàn)。領(lǐng)域知識(shí)圖譜具有行業(yè)壁壘高、專業(yè)性強(qiáng)的特點(diǎn),針對(duì)工程領(lǐng)域知識(shí),提出工程機(jī)械裝備案例庫(kù)知識(shí)圖譜的構(gòu)建方法,分析基于某鉆井公司樁基施工案例庫(kù)的工程機(jī)械裝備案例庫(kù)知識(shí)圖譜應(yīng)用,嘗試工程機(jī)械裝備案例庫(kù)知識(shí)圖譜在工程領(lǐng)域垂直深化的可能性,為工程案例知識(shí)重用提供新的解決方向。在工程領(lǐng)域,對(duì)大量非結(jié)構(gòu)化數(shù)據(jù)、表單、圖片進(jìn)行自動(dòng)化識(shí)別處理,以及將知識(shí)圖譜更好融入業(yè)務(wù)場(chǎng)景,仍然存在挑戰(zhàn),相信在不久的將來(lái),知識(shí)圖譜在工程領(lǐng)域的應(yīng)用會(huì)越來(lái)越可靠和成熟。