肖小平,周光輝,張超,白權(quán)棟
1. 湖南省計量檢測研究院,湖南 長沙 410014 2. 西安交通大學(xué) 機(jī)械工程學(xué)院,陜西 西安 710049
以特高壓電氣裝備、智能電力裝備等為代表的高端裝備制造業(yè)是我國裝備制造業(yè)的高端領(lǐng)域,是典型的知識密集、技術(shù)密集和多學(xué)科交叉集成的高科技產(chǎn)業(yè)。隨著技術(shù)的進(jìn)步,當(dāng)前高端裝備制造業(yè)正從以產(chǎn)品為中心的制造環(huán)節(jié)轉(zhuǎn)向以知識為中心的產(chǎn)品創(chuàng)新設(shè)計環(huán)節(jié),以知識為中心的產(chǎn)品創(chuàng)新設(shè)計正成為企業(yè)價值增值的核心因素。在高端裝備制造企業(yè)歷史知識庫中,有大量成功的設(shè)計案例和設(shè)計經(jīng)驗(yàn)可供設(shè)計人員參考。因而有效的設(shè)計知識重用服務(wù)能大幅度縮短產(chǎn)品設(shè)計周期、提高產(chǎn)品質(zhì)量。盡管如此,高端裝備企業(yè)由于缺乏合適的知識服務(wù)工具,導(dǎo)致企業(yè)知識庫中的知識無法適時、準(zhǔn)確地傳遞給需要的設(shè)計人員,從而制約了新產(chǎn)品的設(shè)計開發(fā)效率。
為克服上述問題,近幾年來已在知識工程領(lǐng)域涌現(xiàn)出了一批知識服務(wù)通用解決方案。這些通用解決方案可分為知識檢索和知識推送兩大類。知識檢索作為知識應(yīng)用的一種最基本的方法,是實(shí)現(xiàn)知識推送及知識資源集成的基礎(chǔ),目前知識檢索技術(shù)主要有語義網(wǎng)[1]、語境檢索[2-3]、知識可視化[4]、本體檢索[5-7]等。知識檢索往往需要設(shè)計人員對當(dāng)前所需要的知識有明確的認(rèn)識才能獲得較好的檢索結(jié)果。而當(dāng)設(shè)計人員只有模糊的知識需求,或者甚至不知道自己的知識需求時,則很難通過被動檢索得到合適的知識。為解決這個問題,出現(xiàn)了以知識推送為核心的知識主動服務(wù)方法。在知識推送方面,Zhang等[8]建立了多層次和多粒度的知識模型,利用語義檢索方法來實(shí)現(xiàn)設(shè)計過程中的知識服務(wù)。Christ等[9]通過建立產(chǎn)品結(jié)構(gòu)特征信息模板,并以此為基礎(chǔ)根據(jù)當(dāng)前產(chǎn)品的設(shè)計特征進(jìn)行知識主動服務(wù)。Wang等[10]建立了形式化的包含目標(biāo)功能、約束條件和用戶興趣領(lǐng)域的設(shè)計意圖模型,并根據(jù)機(jī)械概念設(shè)計階段的各類相關(guān)知識的特點(diǎn)對其進(jìn)行了規(guī)范化的組織管理,提出了一種基于機(jī)械設(shè)計意圖建模的知識主動推送服務(wù)方法。Xu等[11]針對產(chǎn)品概念設(shè)計階段提出了基于設(shè)計意圖的協(xié)同設(shè)計知識主動推送服務(wù)模型。徐榮振等[12]利用頻繁序列模式挖掘技術(shù)分析知識的歷史使用數(shù)據(jù),識別設(shè)計任務(wù)所對應(yīng)的頻繁知識序列;在產(chǎn)品設(shè)計過程中,結(jié)合設(shè)計師的知識使用行為、頻繁知識序列的支持度和當(dāng)前任務(wù)知識序列與頻繁知識序列的相似度實(shí)現(xiàn)知識的推送。余紳達(dá)等[13]提出了一種根據(jù)用戶興趣特征進(jìn)行篩選實(shí)現(xiàn)設(shè)計知識推送的方法,以彌補(bǔ)產(chǎn)品設(shè)計過程中知識檢索方式的不足和因需求不明確導(dǎo)致知識推送的盲目性。
上述知識服務(wù)通用解決方案對高端裝備設(shè)計知識服務(wù)具有一定的參考價值。但幾乎所有的現(xiàn)有方案都是從信息檢索的角度出發(fā),利用信息檢索的技術(shù)來實(shí)現(xiàn)知識檢索,或針對較為通用的知識資源研究相應(yīng)的知識推送方法,未充分考慮知識產(chǎn)生及應(yīng)用的場景、設(shè)計人員的興趣和高端裝備產(chǎn)品知識資源自身的特點(diǎn)。為更好地服務(wù)于高端裝備產(chǎn)品的設(shè)計階段,本文提出將產(chǎn)品設(shè)計過程與知識產(chǎn)生及利用的情景信息集成到知識服務(wù)技術(shù)中,并根據(jù)設(shè)計人員不同的知識需求,提供靈活的多模式知識服務(wù)方法。
在高端裝備產(chǎn)品設(shè)計過程中,因?yàn)樵O(shè)計人員自身知識掌握程度及從事設(shè)計任務(wù)上的差異,會形成不同的知識需求層次。基于對國內(nèi)某典型高端裝備企業(yè)的調(diào)研和已有的相關(guān)研究,本文將設(shè)計人員的知識需求分為如圖1所示的3個層次,其中各知識需求層次的詳細(xì)解釋如下。
圖1 不同知識需求層次
1)知識服務(wù)需求明確
該層次通常適用于設(shè)計人員在執(zhí)行設(shè)計任務(wù)時,因?qū)θ蝿?wù)較為熟悉,非常明確完成該任務(wù)時需要用到的知識。處于該知識需求層次的設(shè)計人員可以通過關(guān)鍵詞檢索得到所需的知識資源。
2)知識服務(wù)需求模糊
該層次通常指剛接觸產(chǎn)品設(shè)計工作的設(shè)計人員或在完成某一具體設(shè)計任務(wù)之初,由于任務(wù)信息相對較少,而造成設(shè)計人員不清楚應(yīng)該利用哪些知識來完成設(shè)計任務(wù)。處于該知識服務(wù)需求層次的設(shè)計人員需結(jié)合其執(zhí)行的任務(wù)的情景進(jìn)行知識推送。
3)知識服務(wù)需求呈現(xiàn)興趣偏好
該層次通常指高端裝備設(shè)計人員在執(zhí)行設(shè)計任務(wù)時,由于在一定時間通常從事著相對固定的設(shè)計任務(wù),解決著相同或者相似的設(shè)計問題,在知識需求上有一定的個性傾向和主題聚集性。處于該知識服務(wù)需求層次的設(shè)計人員需通過獲取設(shè)計人員的興趣為其推送相關(guān)知識。
針對高端裝備設(shè)計過程中不同的知識服務(wù)需求,本文研究建立了知識檢索、基于設(shè)計任務(wù)知識需求情境推理和基于用戶興趣的知識主動推送3種不同知識服務(wù)方法,滿足了高端裝備產(chǎn)品設(shè)計過程中不同需求層次的設(shè)計人員的知識服務(wù)需求。鑒于知識檢索可以通過成熟的Lucene全文檢索工具[14]實(shí)現(xiàn),本文不再贅述。
本章節(jié)針對知識服務(wù)需求模糊這一層次,對高端裝備產(chǎn)品設(shè)計過程中的設(shè)計任務(wù)進(jìn)行了分析,建立了設(shè)計任務(wù)情境模型。并結(jié)合課題組已有研究實(shí)現(xiàn)了高端裝備設(shè)計知識的有效獲取、存儲、表達(dá),形成了相應(yīng)的高端裝備產(chǎn)品設(shè)計知識庫。
2.1.1 設(shè)計任務(wù)情境模型
設(shè)計任務(wù)情境是指在完成產(chǎn)品設(shè)計過程及執(zhí)行具體設(shè)計任務(wù)中需要的設(shè)計人員、使用工具、使用知識資源等要素。通常相似的設(shè)計任務(wù)擁有相似的情境,設(shè)計任務(wù)情境隨著設(shè)計過程不斷的向前推進(jìn)而變化,通過情境可理清不同設(shè)計任務(wù)之間的區(qū)別與聯(lián)系,分析知識資源和設(shè)計任務(wù)之間的關(guān)系。故本文提出了利用情境來對設(shè)計任務(wù)進(jìn)行建模,為基于設(shè)計任務(wù)情境的知識服務(wù)提供指導(dǎo)。
高端裝備產(chǎn)品設(shè)計過程中的設(shè)計任務(wù)通常都是圍繞某一具體的產(chǎn)品或零部件而展開。每一項(xiàng)任務(wù)有明確的任務(wù)內(nèi)容和任務(wù)完成人員,為此本文從任務(wù)對象、任務(wù)內(nèi)容和任務(wù)人員3個維度對設(shè)計任務(wù)的情境進(jìn)行分析。
任務(wù)對象:任務(wù)對象主要是以高端裝備產(chǎn)品結(jié)構(gòu)樹為基礎(chǔ),從產(chǎn)品、部件和零件3個層次對任務(wù)對象進(jìn)行描述。
任務(wù)內(nèi)容:從任務(wù)的輸入、輸出、完成任務(wù)所需要的工具及相關(guān)的知識實(shí)現(xiàn)對任務(wù)內(nèi)容的描述。
任務(wù)人員:是根據(jù)企業(yè)現(xiàn)有的組織結(jié)構(gòu),從部門、車間和個人3個層次對執(zhí)行任務(wù)的人員進(jìn)行描述。
基于以上分析,建立設(shè)計任務(wù)情景模型,該模型將任務(wù)情景分為3個層次。第1層任務(wù)情景層:用于表示某一任務(wù)的情境;第2層情景要素層,包括了任務(wù)對象、任務(wù)內(nèi)容和設(shè)計人員3個情景要素;第3層為情景要素的屬性。
建立的設(shè)計任務(wù)情境模型可形式化的表示為
Context={E1,E2,E3}
Ei={Pi1,Pi2,…,Pin} (i=1,2,3)
式中:Context表示設(shè)計任務(wù)情境,Ei表示第i個情境要素,Pij表示第i個情境要素的第j個屬性,ni為第i個情境要素的屬性個數(shù)。
情境要素及其屬性定義如表 1所示。
表1 設(shè)計任務(wù)情境要素
2.1.2 任務(wù)情境的相似度計算
任務(wù)情境相似度是不同任務(wù)情境間相似程度的度量,為研究相似度的計算方法,首先作以下定義。
定義1 任務(wù)情境相似度指給定的任務(wù)情境SContext與情境庫中的任務(wù)情境TContext的相似程度,用函數(shù)Sim(SContext,TContext)表示;其中,SContext為當(dāng)前任務(wù)情境,對應(yīng)的任務(wù)情境要素SEi(i=1,2,3)和屬性spij(j=1,2,…,n)為當(dāng)前任務(wù)情境要素和當(dāng)前屬性,TContext為目標(biāo)任務(wù)情境,對應(yīng)的任務(wù)情境要素TEi(i=1,2,3)和屬性tpij(j=1,2,…,n)為目標(biāo)任務(wù)情境要素和目標(biāo)屬性;函數(shù)Sim(SEi,TEi)和Sim(spij,tpij)分別表示SContext與TContext的任務(wù)情境要素相似度和屬性相似度。
定義2 任務(wù)情境結(jié)構(gòu)樹由任務(wù)情境、任務(wù)情境要素、任務(wù)情境要素屬性構(gòu)成的樹狀層次結(jié)構(gòu)(如圖2所示)。其中,根結(jié)點(diǎn)為任務(wù)情境,除根結(jié)點(diǎn)外的非葉節(jié)點(diǎn)為要素節(jié)點(diǎn),葉節(jié)點(diǎn)為屬性節(jié)點(diǎn)。
圖2 情境結(jié)構(gòu)樹
因此,任務(wù)情境相似度可看作是當(dāng)前任務(wù)情境結(jié)構(gòu)樹與目標(biāo)任務(wù)情境結(jié)構(gòu)樹的相似程度。對于當(dāng)前任務(wù)情境和目標(biāo)任務(wù)情境來說,總相似度依賴于各個任務(wù)情境要素的相似度,而任務(wù)情境要素的相似度依賴于要素包含的各個屬性的相似度。文中將總?cè)蝿?wù)情境相似度的計算視為一個多層多指標(biāo)決策問題,其算法流程如圖3所示。
圖3 任務(wù)情境相似度算法流程
該算法采用深度遍歷算法實(shí)現(xiàn),遍歷任務(wù)情境結(jié)構(gòu)樹中每一個任務(wù)情境要素及其屬性節(jié)點(diǎn)。對于某個任務(wù)情境要素,分別計算出該任務(wù)情境要素所包含的各個屬性相似度后,得到加權(quán)后的任務(wù)情境要素相似度,再由所有任務(wù)情境要素相似度計算得到加權(quán)后的任務(wù)情境相似度。
根據(jù)課題組已有研究[14]結(jié)合高端裝備產(chǎn)品設(shè)計知識的特點(diǎn), 利用建立的知識資源分類、獲取、存儲體系,對收集到的知識進(jìn)行逐條獲取,然后按照設(shè)計的知識存儲模板進(jìn)行存儲,形成了具有1 500余條知識的知識庫,其中部分知識條目如圖4所示。
圖4 部分知識條目
在實(shí)際的高端裝備產(chǎn)品設(shè)計過程中,對于剛接觸設(shè)計工作的設(shè)計人員或因設(shè)計之初諸多設(shè)計信息未確定,設(shè)計人員往往并不明確自己需要檢索的內(nèi)容,縱然有知識庫,依然無法有效地獲取到相關(guān)知識來完成設(shè)計任務(wù)。針對該問題,結(jié)合企業(yè)調(diào)研,考慮到高端裝備產(chǎn)品的設(shè)計工作總是按照一定的流程進(jìn)行,知識資源也在具體的設(shè)計任務(wù)中不斷地被利用,歷史的設(shè)計任務(wù)會積累大量的知識利用情境。因此本文提出了將知識被利用的設(shè)計情境信息應(yīng)用于知識服務(wù)方法研究中,利用當(dāng)前設(shè)計人員執(zhí)行的設(shè)計任務(wù)與歷史設(shè)計任務(wù)的相似性和設(shè)計任務(wù)與知識產(chǎn)生的設(shè)計情境的相似性為設(shè)計人員推送相關(guān)的知識,以解決設(shè)計人員在設(shè)計過程中存在的知識服務(wù)需求模糊的問題。
針對高端裝備產(chǎn)品設(shè)計過程中設(shè)計人員存在的知識服務(wù)需求模糊的問題,設(shè)計了如圖5所示的基于知識需求情境的知識服務(wù)方案。該知識服務(wù)流程主要包含2方面,一是對當(dāng)前知識需求情境的獲取,以建立設(shè)計人員的設(shè)計任務(wù)知識需求情境;二是根據(jù)建立的知識需求情境與歷史設(shè)計任務(wù)情境和知識庫中的知識情境進(jìn)行匹配,從而為設(shè)計人員提供知識服務(wù)。
圖5 基于設(shè)計任務(wù)知識需求情境的知識服務(wù)方案
在基于知識需求情境的知識服務(wù)流程中,其關(guān)鍵在于知識需求情境的建模和知識需求情境與歷史設(shè)計任務(wù)及知識的情境相似度計算,并設(shè)計相應(yīng)的推薦策略。
針對高端裝備設(shè)計知識總在具體設(shè)計任務(wù)中被產(chǎn)生和利用這一特點(diǎn),結(jié)合高端裝備產(chǎn)品的任務(wù)執(zhí)行特點(diǎn)和已建立的基于框架的知識表達(dá)模型及設(shè)計任務(wù)情境表達(dá)模型,建立包含設(shè)計任務(wù)對象、任務(wù)內(nèi)容及任務(wù)人員等情境要素的設(shè)計任務(wù)情境模型,用于表達(dá)歷史設(shè)計任務(wù)和知識需求任務(wù)情境,通過該模型可以清晰地表示設(shè)計人員執(zhí)行當(dāng)前任務(wù)的產(chǎn)品對象、任務(wù)輸入、任務(wù)輸出等信息,實(shí)現(xiàn)對當(dāng)前設(shè)計任務(wù)知識需求的詳細(xì)描述。
為完成知識需求情境的建模,首先應(yīng)獲取建立情境的相關(guān)信息。在情境信息獲取方面,本文采用了半自動獲取的方式,具體如下:知識需求情境模型中的設(shè)計人員信息根據(jù)用戶在企業(yè)中的角色進(jìn)行自動獲取,設(shè)計對象及完成該任務(wù)需要的輸入和輸出信息采用用戶輸入的獲取模式。完成情境信息獲取后,進(jìn)一步利用建立的知識需求情境表達(dá)模型對其進(jìn)行表達(dá),從而形成知識需求情境結(jié)構(gòu)樹。
設(shè)計任務(wù)知識需求情境建模實(shí)例如圖6、7所示。針對圖6所示的彈簧操動機(jī)構(gòu)在方案設(shè)計的任務(wù),根據(jù)設(shè)計任務(wù)情境模型及情境信息的獲取步驟,建立了彈簧操動機(jī)構(gòu)方案設(shè)計任務(wù)知識需求情境結(jié)構(gòu)樹如圖7所示。彈簧操動機(jī)構(gòu)由機(jī)構(gòu)支架、分閘組件、合閘組件、儲能組件和指示組件5部分組成。彈簧操動機(jī)構(gòu)采用彈簧儲能過程中快速釋放原理,通過齒輪/凸輪聯(lián)合傳動帶動輸出軸轉(zhuǎn)動,完成分、合閘動作。其結(jié)構(gòu)簡單、適用范圍廣、動作可靠。
圖6 彈簧操動機(jī)構(gòu)
圖7 彈簧操動機(jī)構(gòu)方案設(shè)計任務(wù)知識需求情境結(jié)構(gòu)樹
基于建立的設(shè)計任務(wù)知識需求情境與規(guī)劃的如圖5所示的設(shè)計知識服務(wù)方案,分別闡述了知識需求情境與設(shè)計知識匹配,以及知識需求情境和歷史設(shè)計任務(wù)情境匹配2種知識服務(wù)方式。
3.3.1 基于知識需求情境與設(shè)計知識匹配的知識
服務(wù)
基于知識需求情境與設(shè)計知識匹配的知識服務(wù)主要包括如下步驟:首先,知識服務(wù)系統(tǒng)采用Luence全文檢索引擎計算任務(wù)需求情境中相關(guān)節(jié)點(diǎn)與知識庫中知識的相似度;然后,系統(tǒng)根據(jù)計算的相似度為設(shè)計人員推薦相關(guān)的知識;最后由設(shè)計人員根據(jù)任務(wù)的特點(diǎn)選擇需要的知識進(jìn)行查閱以獲得任務(wù)的解決思路。
利用上述知識推薦方法,基于構(gòu)建的高端裝備設(shè)計知識庫,通過獲取彈簧操動機(jī)構(gòu)方案設(shè)計、斷路器需求分析的知識需求情境,得到了如表2所示的知識推薦結(jié)果。
表2 部分知識需求情境與知識設(shè)計情景匹配知識推薦示例
由推薦結(jié)果可知,推薦的知識可為任務(wù)的執(zhí)行提供很好的參考。由此可見,該推薦策略可較好地為設(shè)計人員執(zhí)行時任務(wù)提供需要的知識。
3.3.2 基于知識需求情境與歷史設(shè)計任務(wù)情境匹配的知識服務(wù)
在產(chǎn)品設(shè)計過程中,同類產(chǎn)品在完成相似設(shè)計任務(wù)時,在知識的利用上具有一定的相似性。為此,本文提出基于知識需求情境與歷史設(shè)計任務(wù)情境匹配的知識服務(wù)。其核心是通過本文提出的情景相似度計算方法完成當(dāng)前的設(shè)計任務(wù)知識需求情境與歷史任務(wù)情境的匹配,從而獲得相似的歷史設(shè)計任務(wù)情境的知識標(biāo)簽,然后利用知識標(biāo)簽觸發(fā)知識檢索,得到當(dāng)前設(shè)計任務(wù)情境下的知識資源。
通過將彈簧操動機(jī)構(gòu)方案設(shè)計這一設(shè)計任務(wù)知識需求情境與歷史任務(wù)情景進(jìn)行匹配,可得到如表3所示的結(jié)果。
表3 彈簧操動機(jī)構(gòu)方案設(shè)計任務(wù)匹配知識推薦結(jié)果
通過對推薦結(jié)果的分析可知,該方法因利用了設(shè)計任務(wù)情境中的知識標(biāo)簽這一預(yù)定義屬性來獲取相關(guān)知識,提高了推薦知識與當(dāng)知識需求情境的相關(guān)性。同時設(shè)計人員在獲取需要知識的同時還能從中獲知更多的相近設(shè)計任務(wù),為今后的設(shè)計積累經(jīng)驗(yàn)。
不同高端裝備設(shè)計人員在執(zhí)行設(shè)計任務(wù)時,由于在一定時間通常從事著相對固定的設(shè)計任務(wù),解決著相同或者相似的設(shè)計問題,在知識需求上有一定的個性傾向和主題聚集性。為更好地提供個性化的知識服務(wù),本文提出根據(jù)設(shè)計人員自定義的興趣標(biāo)簽與近期瀏覽的知識提取出的興趣主題作為用戶興趣層面的知識需求,利用興趣需求為設(shè)計人員主動推薦相關(guān)的知識,幫助設(shè)計人員更方便、快捷地獲得自己感興趣的知識,從而更加高效地完成設(shè)計工作。
用戶興趣是指高端裝備設(shè)計人員在進(jìn)行產(chǎn)品設(shè)計過程中主要關(guān)心的知識主題,其可分為設(shè)計人員根據(jù)從事的設(shè)計任務(wù)特點(diǎn)及專長的自定義興趣和在完成設(shè)計工作時根據(jù)近期的知識瀏覽記錄進(jìn)行數(shù)據(jù)挖掘分析而提取出的興趣。用戶興趣主要用知識標(biāo)簽或主題詞表示。
自定義用戶興趣主要通過設(shè)計人員手動添加或修改。由近期的知識瀏覽記錄分析提取的用戶興趣主要通過數(shù)據(jù)挖掘算法完成。用戶知識瀏覽記錄興趣的提取,從自然語言處理的角度來看和文章摘要或關(guān)鍵詞的概括非常相似。摘要及關(guān)鍵詞概括方面的研究很多,但卻很少有學(xué)者將其運(yùn)用到產(chǎn)品設(shè)計知識服務(wù)中。在眾多方法中文檔主題生成模型(latent dirchlet alloction, LDA)非常具有代表性,該模型于2003年由Blei等[16]提出,是基于概率圖的三層貝葉斯模型,其結(jié)構(gòu)模型更為完整清晰,采用高效的概率推斷算法處理大規(guī)模數(shù)據(jù)。LDA主題模型因其完備的數(shù)學(xué)模型和良好的語義挖掘性能,在新聞推薦、微博興趣發(fā)現(xiàn)方面有較好的利用。根據(jù)該模型理論特征和應(yīng)用現(xiàn)狀,可知該方法能勝任與設(shè)計過程中用戶興趣的提取,因而本文在原始的LDA模型基礎(chǔ)上進(jìn)行了一定的改進(jìn),從而實(shí)現(xiàn)了基于用戶知識瀏覽記錄的用戶興趣主題詞的提取。
本文建立的LDA主題模型的邏輯結(jié)構(gòu)如圖8所示,即認(rèn)為每條知識文本內(nèi)容(文檔)的每個詞都是通過以一定概率選擇了某個主題,并從這個主題中以一定概率選擇某個詞語,其中主要包含了以下3個矩陣。
圖8 LDA主題模型的邏輯結(jié)構(gòu)
文檔—詞語矩陣表示每條知識文本內(nèi)容中每個單詞的詞頻,即出現(xiàn)的概率;
主題—詞語矩陣表示每個主題中每個單詞的出現(xiàn)概率;
文檔—主題矩陣表示每條知識中每個主題出現(xiàn)的概率。
基于上述思想,要完成用戶興趣的LDA主題模型建立,需要解決以下2個問題:一是對知識的文本內(nèi)容進(jìn)行分詞,計算各條知識文本內(nèi)容中每個單詞的詞頻就可以得到左邊“文檔-詞語”矩陣;二是通過一定的方法得到“主題-詞語”和“文檔-主題”2個矩陣。建立用戶興趣LDA主題模型的關(guān)鍵就是解決如何由 “文檔-詞語”矩陣進(jìn)行訓(xùn)練,學(xué)習(xí)出右邊2個矩陣。
LDA模型的數(shù)學(xué)推導(dǎo)非常嚴(yán)密而復(fù)雜,涉及了Gamma函數(shù)、Dirichlet分布、Dirichlet-Multinomial共軛、Gibbs Sampling、貝葉斯文本建模等內(nèi)容[16],由于其理論已經(jīng)非常成熟,這里不再贅述,只對其中最為關(guān)鍵的主題模型訓(xùn)練過程進(jìn)行簡要敘述。
用戶興趣LDA主題模型一般用如圖9所示的概率圖模型進(jìn)行表示,模型中相關(guān)內(nèi)容的解釋及訓(xùn)練過程如下。
圖9 LDA的概率圖模型
θ是一條知識的主題分布,φk表示第k個主題的詞分布。
共有m篇文章,一共涉及了K個主題。
每條知識文本內(nèi)容(長度為Nm)都有各自的主題分布,主題分布是多項(xiàng)分布,該多項(xiàng)分布的參數(shù)服從Dirichlet分布,該Dirichlet分布的參數(shù)為α。
每個主題都有各自的詞分布,詞分布為多項(xiàng)分布,該多項(xiàng)分布的參數(shù)服從Dirichlet分布,該Dirichlet分布的參數(shù)為β。
對于某條知識文本內(nèi)容中的第n個詞,首先從該知識的主題分布中采樣一個主題,然后在這個主題對應(yīng)的詞分布中采樣一個詞。不斷重復(fù)這個隨機(jī)生成過程,直到m條知識全部完成上述過程。
在上述對用戶知識瀏覽記錄興趣定義及興趣LDA主題模型分析的基礎(chǔ)上,研究了用戶興趣的挖掘和用戶興趣預(yù)測。
為完成語料生成及用戶興趣主題提取,首先需生成用于建立興趣主題模型的語料文檔和用于進(jìn)行興趣預(yù)測的興趣文檔。在語料文檔生成方面,由于知識名稱、摘要及主體內(nèi)容包含知識語義信息,首先需對知識庫中所有知識的名稱、摘要和主體內(nèi)容進(jìn)行抽取,再進(jìn)行中文分詞,進(jìn)而得到語料文檔;而興趣文檔生成方面,則根據(jù)用戶近期瀏覽的知識按照相似的方法進(jìn)行生成。
在完成了語料文檔和興趣文檔生成之后,進(jìn)一步按照主題模型的訓(xùn)練過程對語料文檔進(jìn)行訓(xùn)練,并利用興趣文檔對用戶的興趣進(jìn)行預(yù)測。在訓(xùn)練和預(yù)測方面,本文在開源代碼“LDA4j”[17]的基礎(chǔ)上,根據(jù)本文在用戶興趣提取和預(yù)測上的需求,在興趣主題生成模型及主題顯示等功能上進(jìn)行了擴(kuò)展,實(shí)現(xiàn)了用戶的興趣主題預(yù)測。如圖10所示為對用戶“baiquandong”的興趣主題預(yù)測主要過程及結(jié)果。
圖10 根據(jù)用戶瀏覽歷史記錄的LDA興趣主題預(yù)測
由圖10可以看出預(yù)測的主題詞很好地反映了用戶的興趣,為基于用戶興趣的知識主動服務(wù)奠定基礎(chǔ)。
根據(jù)用戶的興趣主題,進(jìn)一步利用全文檢索引擎推薦用戶關(guān)心的知識。在具體實(shí)現(xiàn)上,結(jié)合了基于Luence的全文檢索方法,利用得到的主題詞及用戶自定義的興趣標(biāo)簽作為關(guān)鍵詞進(jìn)行知識的檢索和過濾,從而完成知識推薦,其中針對用戶“baiquandong”的興趣進(jìn)行知識推薦的過程及結(jié)果如圖11所示。
圖11 基于用戶瀏覽記錄興趣主題及自定義興趣的知識推薦實(shí)例
用戶興趣知識推薦結(jié)果包括了2方面:一是由用戶自定義的“斷路器”、“高端裝備”和“結(jié)構(gòu)設(shè)計”等興趣標(biāo)簽為用戶推薦了“高壓斷路器的結(jié)構(gòu)與種類”、“鉚接結(jié)構(gòu)設(shè)計的原則”等知識;二是由用戶近期瀏覽記錄—彈簧操動機(jī)構(gòu),由LDA主題模型訓(xùn)練得到了“彈簧”、“操動機(jī)構(gòu)”、“介紹”等主題詞,并通過上述主題詞為用戶推薦了“彈簧操動機(jī)構(gòu)的組成”、“液壓彈簧操動機(jī)構(gòu)的總體結(jié)構(gòu)”等知識。同時,用戶還可以根據(jù)主題詞檢索得到更多的知識信息。
本文在充分分析高端裝備設(shè)計人員三層次知識服務(wù)需求的基礎(chǔ)上,依托Lucene全文檢索引擎,建立了包括基于設(shè)計任務(wù)知識需求情境的知識服務(wù)方法和基于用戶興趣的知識服務(wù)方法的多模式融合的知識服務(wù)方法,并開發(fā)了相應(yīng)的知識服務(wù)系統(tǒng)。得出以下結(jié)論:
1)在基于設(shè)計任務(wù)知識需求情境的知識服務(wù)方面,以產(chǎn)品設(shè)計過程任務(wù)為導(dǎo)向,通過建立當(dāng)前設(shè)計任務(wù)的知識需求情境模型,利用提出的情境匹配算法,通過匹配歷史設(shè)計知識或歷史設(shè)計任務(wù)情境2種方式為設(shè)計人員實(shí)時提供相關(guān)的知識資源。
2)在用戶興趣知識服務(wù)方面,利用用戶自定義興趣的方法和基于LDA的用戶興趣實(shí)時提取與預(yù)測的方法建立用戶興趣詞匯,觸發(fā)基于Lucene的全文檢索引擎,從而為用戶推薦潛在的興趣知識。
3)本文闡述的知識服務(wù)案例驗(yàn)證了提出的多模式知識服務(wù)方法及開發(fā)的知識服務(wù)系統(tǒng)在高端裝備產(chǎn)品設(shè)計過程中的有效性與實(shí)用性,具有一定的理論與應(yīng)用價值。