摘要 在隱性語義標(biāo)引法的理論基礎(chǔ)上,從企業(yè)知識(shí)共享角度出發(fā),基于角色知識(shí)需求驅(qū)動(dòng),研究知識(shí)主動(dòng)推送過程中的知識(shí)匹配;分析隱性語義標(biāo)引法特征詞-文檔矩陣的構(gòu)建以及相似度的計(jì)算;并以產(chǎn)品成本控制相關(guān)知識(shí)文本作為測(cè)試文檔,測(cè)試結(jié)果表明基于隱性語義標(biāo)引法能夠有效地對(duì)相關(guān)的知識(shí)進(jìn)行匹配,實(shí)現(xiàn)角色知識(shí)的推送,達(dá)到知識(shí)共享的目的。
關(guān)鍵詞 知識(shí)管理 知識(shí)推送 隱性語義標(biāo)引法 知識(shí)匹配
中圖分類號(hào):G252.7 文獻(xiàn)標(biāo)識(shí)碼:A
一、引言
知識(shí)管理的一個(gè)最基本的問題就是促進(jìn)組織成員之間的知識(shí)共享 。然而,對(duì)一個(gè)普通的用戶來說,從知識(shí)庫中搜索知識(shí)是一件很耗時(shí)和耗精力的事情。因此,企業(yè)的知識(shí)管理平臺(tái)有必要為員工提供一種更加便捷的模式,而知識(shí)推送系統(tǒng)就是這樣一個(gè)“知識(shí)找人”,而非“人找知識(shí)”的系統(tǒng)。
在產(chǎn)品的全生命周期過程中,設(shè)計(jì)過程、制造過程、銷售過程中,不同角色所需的知識(shí)不同 。員工根據(jù)自己的崗位的角色需求,從企業(yè)知識(shí)資源庫中搜索自己需要的知識(shí),然后由知識(shí)主動(dòng)推送系統(tǒng)將知識(shí)返回給員工 - 。要將員工的需求信息主動(dòng)的推送給需要知識(shí)的角色,關(guān)鍵是實(shí)現(xiàn)員工的知識(shí)需求與知識(shí)資源庫中對(duì)應(yīng)的角色知識(shí)的準(zhǔn)確匹配。為了使知識(shí)能夠在適當(dāng)?shù)臅r(shí)候主動(dòng)地傳遞給適當(dāng)?shù)膯T工,本文基于隱性語義標(biāo)引技術(shù)建立了知識(shí)推送的主動(dòng)匹配模型,探討知識(shí)匹配模型算法的實(shí)現(xiàn),實(shí)現(xiàn)企業(yè)知識(shí)有效流動(dòng)和全面共享的目的。
二、隱性語義標(biāo)引法的基本思想
隱性語義標(biāo)引法(Latent Semantic Indexing, LSI)是由Dumais S T.等五位學(xué)者共同提出的一種自然語言處理方法 。LSI采用向量空間模型的表示方法,首先,將全部的知識(shí)文檔集中生成一個(gè)特征詞-文檔矩陣,矩陣中的每一個(gè)分量與某個(gè)特定的特征詞在某個(gè)特定文檔中出現(xiàn)的次數(shù)及位置相關(guān)。然后將該矩陣進(jìn)行奇異值分解(Singular Value Decomposition, SVD),較小的奇異值被剔除 。再將文檔向量和查詢向量映射到經(jīng)奇異值分解后的子空間中,在該空間中,原來的特征詞-文檔矩陣的語義關(guān)系被保留,同時(shí)特征詞用法的變異被抑制。最后可以通過標(biāo)準(zhǔn)化的內(nèi)積來計(jì)算查詢向量與文檔向量之間的夾角余弦相似度,根據(jù)相似度的大小,將按照相關(guān)性排序后的文檔知識(shí)返回給用戶。SVD分解的過程如圖1所示。
三、基于隱性語義標(biāo)引法的知識(shí)匹配
在知識(shí)的主動(dòng)推送中,系統(tǒng)的主要功能之一就是根據(jù)角色需求驅(qū)動(dòng)的知識(shí)匹配模型,實(shí)現(xiàn)角色與職責(zé)的匹配[2]。知識(shí)主動(dòng)推送體系框架包括用戶層、需求匹配啟動(dòng)層和知識(shí)資源層。用戶根據(jù)自己的崗位需求,提出知識(shí)查詢請(qǐng)求,知識(shí)推送系統(tǒng)根據(jù)用戶的角色行為分析和任務(wù)情境分析,對(duì)知識(shí)資源庫的知識(shí)進(jìn)行匹配、過濾,將結(jié)果信息根據(jù)自己的崗位需求,提出知識(shí)查詢請(qǐng)求,知識(shí)推送系統(tǒng)根據(jù)用戶的角色行為分析和任務(wù)情境分析,對(duì)知識(shí)資源庫的知識(shí)進(jìn)行匹配、過濾,將結(jié)果信息推送給用戶。這樣相應(yīng)的任務(wù)處理人員就可以利用推送的相關(guān)經(jīng)驗(yàn)、技能、原理等有關(guān)知識(shí)進(jìn)行快速地決策和推理,從而更加快速、有效地完成自身承擔(dān)的任務(wù)。
現(xiàn)從知識(shí)資源層中提取關(guān)于“成本構(gòu)成要素”的5個(gè)文檔及文檔的關(guān)鍵詞,記作Doc1-Doc5,員工根據(jù)自己的角色需求在知識(shí)推送平臺(tái)中輸入相應(yīng)的請(qǐng)求,文檔內(nèi)容及關(guān)鍵詞見表1.
(一)特征值——文檔矩陣的構(gòu)建。
LSI模型中,知識(shí)文檔集合中共有m個(gè)不同的特征詞t1,t2,...,tm和n個(gè)文檔d1,d2,...,dn,構(gòu)成一個(gè)m€譶的特征-文檔矩陣,用X={}表示,其中每一行表示一個(gè)特征詞的向量,每一列代表一個(gè)文檔向量。計(jì)算方法為: