李承桓, 張莉, 何學東, 常利建, 于喻
(1.國家電網(wǎng)有限公司客戶服務中心, 天津 300304;2.北京中電普華信息技術有限公司, 北京 100085)
供電公司是我國經(jīng)濟社會發(fā)展的能源保障,供電服務專業(yè)學生為供電公司提供人才支持,是供電公司的后備軍。供電服務專業(yè)屬于技術型專業(yè),需要采用先進的教學手段,促使學生充分理解供電服務專業(yè)的知識。許多學者研究供電服務知識標簽體系,因構建知識標簽的方法使用不當,導致學習效果一般[1]。
在構建供電服務知識標簽體系的過程中,銀宇堃等[2]提出了圖案的方法,以圖案為基礎實現(xiàn)知識標簽體系構建,該方法受圖像信噪比影響,導致標簽呈現(xiàn)效果不佳;張璞等[3]提出了標簽傳播構建方法,采用選取種子詞與候選詞相結合的方法,實現(xiàn)知識標簽體系構建,由于計算過程復雜,導致知識標簽體系構建效率低。
以向量的衡量指標為維度,多種維度一起生成的被稱為多維,而為了滿足不同人群的需求維度,將知識實施差異化維度分類,即可得出最優(yōu)的匹配維度。由于要保障不同主體知識需求,因此多維本體是構建以多個本體為基礎的知識標簽體系構建方法,這種方法已廣泛應用在各個領域。因此本文以多維本體驅(qū)動為主構建供電服務專業(yè)多維知識標簽體系,增強供電服務專業(yè)知識框架的科學性,提高供電服務專業(yè)知識學習效率。
多維本體分為多語言、多領域、多層次的空間模型。領域知識、通用知識、動態(tài)知識組成層次維,在層次維對供電服務專業(yè)知識實施本體建模,動態(tài)知識表示實體對象的形式化[4],領域知識和通用知識表示靜態(tài)知識實施形式化處理,供電服務專業(yè)知識涵蓋多領域多語言的知識共享。在本體知識上構建多維本體空間模型,如圖1所示。
圖1 多維本體空間模型
圖1中,3種本體的具體構建方法如下。
(1) 依據(jù)用戶的實際需求構建動態(tài)知識的本體,采用以往網(wǎng)絡信息資源與知識,由機器實現(xiàn)構建。動態(tài)知識的本體構建過程,如圖2所示。
圖2 動態(tài)知識的本體構建過程
圖2中,按照需求得出關鍵詞集,在互聯(lián)網(wǎng)搜尋與之關聯(lián)的信息資源,在開放資源庫內(nèi)存入預處理后信息資源。在本體選擇中[5],采用中文分詞的方式完成語料切分,經(jīng)匹配語言模板獲取候選術語,并采用TFIDF技術求解領域相關性得出本體概念。
利用模板匹配方法得出預定義關系集,再與領域知識、通用知識相聯(lián)系構建關系集[6]。通過任務對象完成對動態(tài)知識的響應,提高動態(tài)擴展。
(2) 通用知識是供電服務專業(yè)中最基礎的概念知識,可以提高特定場景和領域知識構建效率。通用知識的適用性很強[7],從三大本體的通用概念知識體系中篩選通用概念。
(3) 領域知識是專業(yè)領域的知識,各領域?qū)崿F(xiàn)共享。領域知識本體構建,通過以往的敘詞表生成各領域的概念分類體系,結合網(wǎng)絡維基的頂層知識修正分類體系,選取網(wǎng)絡維基內(nèi)實例知識,構建包含大規(guī)模概念知識、實例知識、關系知識的各領域知識體系。
以三個多維主體為基礎構建供電服務專業(yè)原始多維知識標簽體系,如圖3所示。
圖3 原始多維標簽體系結構
由圖3可知,在明確頂層維度后,針對三大主體分析原始多維標簽體系結構。體系中包括領域知識需求、通用知識需求、動態(tài)知識需求。動態(tài)知識需求從組織維度、管理客體兩方面分析[8]。
為提高標簽體系的精準度,在多維本體驅(qū)動下應用在供電服務專業(yè)多維知識標簽體系構建方法,其標簽體系構建的流程,如圖4所示。
圖4 多維知識標簽體系構建方法的流程
由圖4可知,為了生成新的供電服務專業(yè)多維知識標簽體系,將原始標簽作為導航標簽,經(jīng)數(shù)據(jù)處理得到標簽網(wǎng)頁文本和豐富標簽語義[9],分別采用上下位映射、等同映射篩選出標簽集中相同標簽,融合新的標簽樹,完成新的知識標簽體系構建。
在數(shù)據(jù)處理環(huán)節(jié),采用逆文檔與詞頻匹配方法完成標簽關鍵詞的提取。標簽關鍵詞權重計算如式(1)所示:
wi=gidt×gti
(1)
其中,逆文檔頻率用gidt描述,候選詞i在文本里的詞頻用gti描述。
逆文檔頻率,如式(2)所示:
(2)
其中,候選詞i的文本數(shù)用Di描述,文本總數(shù)用D描述。
等同關系標簽映射主要以附加語義的方法,判斷標簽間的關系[10],用句子向量描述模型,將各標簽相對的網(wǎng)頁標題用k表示,標簽向量經(jīng)網(wǎng)頁文本語義求出。各標題的句子向量用x1,x2,…,xn描述,標簽用式(3)描述:
(3)
其中,標簽用Xlabel描述。
余弦相似度如式(4):
(4)
其中,基準標簽B的向量用XB描述,待融合標簽A的向量用XA描述。兩者呈等同關系,在閾值小于余弦相似度的條件下呈現(xiàn)。
上下位標簽映射用來判斷標簽間的關系。求解全部XB、XA的相關性,兩者呈上下位關系是在閾值小于極大相關性。子標簽的余弦相似度用C(XA,XB),C(XA,XB1),…,C(XA,XBn)描述,則標簽AB相關性用式(5)描述:
(5)
標簽判斷可通過網(wǎng)頁標簽實現(xiàn),B表示基準標簽,網(wǎng)頁標題個數(shù)用p描述,包含比例用式(6)描述:
(6)
其中,標題用q描述。
A、B兩個標簽有上下位關系,當閾值小于包含率時,提取具體關鍵詞,結合圖4,即可完成供電服務專業(yè)多維知識標簽體系構建。
本文以某高校供電服務專業(yè)課程為實驗對象,構建了其知識標簽體系。在該高校原始標簽體系內(nèi),選取多個不同類型供電服務專業(yè)知識標簽實施分組,得出測試標簽體系,供電服務專業(yè)知識標簽類型分別用A、B、C、D、E表示,實驗數(shù)據(jù)如表1所示。
表1 標簽體系中原始及測試標簽數(shù)
測試指標如下。
(1) 標簽樹枝數(shù)量用MT描述,上下位關系重合度用式(7)描述:
(7)
其中,測試標簽體系中樹枝數(shù)量用MT描述,兩個體系內(nèi)相同的樹枝數(shù)量用Msame描述。
(2) 設置融合標簽體系中標簽數(shù)量用NL表示,標簽內(nèi)容相似度指標為標簽重合度,如式(8)所示:
(8)
其中,相同的標簽數(shù)量用Nsame描述。
實驗對比方法為文獻[2]圖案標簽體系構建方法、文獻[3]標簽傳播的構建方法。在實驗數(shù)據(jù)相同的條件下,測試3種方法的標簽重構性能,通過求解上述測試指標,比較本文構建的測試標簽體系即本文方法,比較結果如表2、表3所示。
表2 3種方法的測試指標比較
表3 3種方法時間頻率比較 單位:s
由表3可知,3種方法的時間頻率沒有太大差異。由表2可知,與其他2種方法比較,本文方法性能較優(yōu),其標簽重合度均值為91.66%、上下位重合度為92.44%,比其他2種方法的測試指標分別高出10%、15%,說明本文方法的準確性較高。
測試3種方法的本體特性,比較結果如表4所示。
表4 3種方法的本體特性
由表4可知,本文方法的本體特性明顯優(yōu)于其他2種方法,其概念規(guī)模最大、構建方式比較靈活、適用度高、擴展能力好、語言覆蓋范圍全面,說明本文方法的本體特性性能優(yōu)良。
比較3種方法隨標簽數(shù)量變化的正確率變化情況,比較結果如圖5所示。
圖5 3種方法隨標簽數(shù)量變化曲線
由圖5可知,文獻[2]方法隨標簽數(shù)量變化正確率波動較大,平均正確率為75%,文獻[3]方法隨標簽數(shù)量變化正確率呈下降趨勢,而本文方法隨著標簽數(shù)量增多,其正確率在92%以上且呈較穩(wěn)定趨勢,說明本文方法的魯棒性較優(yōu)。
將供電服務專業(yè)課程作為輸入文本,分別采用3種方法對候選標簽詞匯實施標簽關鍵詞提取,比較結果如表5所示。
由表5可知,本文方法的標簽關鍵詞提取效果較好,因為其將供電服務專業(yè)課程按照關鍵詞的權重進行優(yōu)化,選取并分類了重要的標簽關鍵詞,對比諧波源與諧波2個候選詞,按照其逆文檔與詞頻匹配權重去除源字,保留諧波作為標簽。
表5 3種方法的標簽關鍵詞提取結果
本文構建多語言、多領域、多層次的多維本體空間模型,以多維本體空間模型三個多維主體為基礎,構建供電服務專業(yè)原始多維知識標簽體系,經(jīng)數(shù)據(jù)處理、標簽映射、數(shù)據(jù)融合等方法實現(xiàn)新的知識體系構建,其概念規(guī)模最大、構建方式比較靈活、適用度高、擴展能力好、語言覆蓋范圍全面,本體特性較好,標簽構建準確性高。