馬金鵬
摘 要 知識服務(wù)是一種新興的目標(biāo)驅(qū)動型服務(wù)方式,是將用戶的精準(zhǔn)需求與清晰的使用場景相結(jié)合,研究提出人性化的智慧服務(wù)解決方案。本文以新聞出版行業(yè)為例,利用工具書結(jié)構(gòu)化特性進(jìn)行知識點(diǎn)的梳理抽取,應(yīng)用信息檢索與數(shù)據(jù)挖掘加權(quán)(TF-IDF)算法,測算出知識與資源之間的關(guān)系強(qiáng)度,構(gòu)建出涵蓋圖書、圖片、視頻、知識點(diǎn)等多形態(tài)的知識庫,通過對知識服務(wù)平臺的建設(shè),探索和挖掘知識與資源之間的互聯(lián)關(guān)系,提供知識內(nèi)容檢索、關(guān)聯(lián)資源推薦及深入學(xué)習(xí)的支持服務(wù)。通過深入挖掘行業(yè)縱深領(lǐng)域的真實(shí)需求,形成知識服務(wù)的實(shí)踐工作流程,總結(jié)知識服務(wù)的共性技術(shù)、工具和系統(tǒng),在其他行業(yè)內(nèi)起到示范和推廣的作用,為知識服務(wù)之路開創(chuàng)新里程。
關(guān)鍵詞 數(shù)據(jù)處理;知識服務(wù);示范推廣
本文主要是利用現(xiàn)有知識服務(wù)技術(shù),嘗試設(shè)計(jì)一套基于新聞出版行業(yè)的知識服務(wù)平臺,內(nèi)容主要涵蓋三個部分:①知識加工,以現(xiàn)有資源為依據(jù),以人工編輯為主,采用可視化構(gòu)建工具完成知識體系框架建設(shè),形成知識圖譜文件;②知識儲備,以知識體系為依托,對原始資料中的結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行科學(xué)抽取,然后進(jìn)行數(shù)據(jù)清洗、關(guān)聯(lián),形成知識點(diǎn),并進(jìn)行知識關(guān)系強(qiáng)度計(jì)算,計(jì)算出知識點(diǎn)與知識點(diǎn)、圖片與圖書等元素的關(guān)系;③知識利用,平臺搭建遵循質(zhì)量管理規(guī)范體系,采用多種編程語言、數(shù)據(jù)庫等開發(fā)工具,搭建面向?qū)I(yè)領(lǐng)域的知識服務(wù)平臺,實(shí)現(xiàn)知識檢索、知識呈現(xiàn)和關(guān)聯(lián)知識、關(guān)聯(lián)資源推薦服務(wù)。
1 總體設(shè)計(jì)
系統(tǒng)實(shí)現(xiàn)的總體過程:知識加工過程采用手工加算法輔助的方式,輸出知識內(nèi)容和關(guān)系強(qiáng)度給知識存儲過程,知識存儲后,提供多個應(yīng)用程序編程接口為知識利用服務(wù)作為支撐;知識應(yīng)用環(huán)節(jié),以知識庫為內(nèi)容支撐,以部分外部服務(wù)輔助,將用戶與知識通過簡單的檢索,有效的連接起來[1]。
2 知識加工
知識加工過程中,專家參與確定知識體系形成結(jié)果輸出,使用可視化手工構(gòu)建工具形成知識體系圖譜;將從工具書中抽取的知識點(diǎn)結(jié)構(gòu)文本、圖示和停用詞等共同輸入,經(jīng)過核心算法的計(jì)算,完成關(guān)鍵詞的抽取,通過分詞、相似度的計(jì)算以及排序,形成關(guān)系強(qiáng)度的計(jì)算結(jié)果值[2]。主要步驟設(shè)計(jì)如下:
(1)根據(jù)已確認(rèn)的知識體系表格,建設(shè)專業(yè)領(lǐng)域知識體系,形成知識體系文件。知識體系即為知識點(diǎn)的分類。
(2)選定專業(yè)領(lǐng)域內(nèi)的權(quán)威辭典、辭書為知識點(diǎn)抽取的來源,先抽取知識點(diǎn),以根據(jù)知識體系中的屬性抽取三元組的類型,每個知識點(diǎn)由多個知識三元組組成,抽取的每個知識點(diǎn),系統(tǒng)自動生成唯一標(biāo)識。
(3)知識點(diǎn)抽取完成后,人工進(jìn)行數(shù)據(jù)的清洗和校驗(yàn),從知識點(diǎn)的重要程度、知識點(diǎn)抽取的正確與否兩個角度篩選,最終保留少量的知識點(diǎn)關(guān)鍵詞,以備計(jì)算關(guān)系強(qiáng)度使用。
(4)整理現(xiàn)有版權(quán)的可用資源,圖書、圖片、視頻資源分別進(jìn)行批量加工、標(biāo)引,提供完整的、符合規(guī)范的數(shù)據(jù)內(nèi)容,圖書包括封面、元數(shù)據(jù)和內(nèi)容文件。圖片包括元數(shù)據(jù)、瀏覽級圖片和高精度大圖,視頻包括元數(shù)據(jù)和音視頻文件。
(5)通過信息檢索與數(shù)據(jù)挖掘的加權(quán)計(jì)算出知識點(diǎn)與知識點(diǎn)、知識點(diǎn)與圖書、知識點(diǎn)與圖片、知識點(diǎn)與視頻間的關(guān)系強(qiáng)度,形成規(guī)范的帶有唯一標(biāo)識的結(jié)果文本,以備建立知識庫使用。加工流程如下圖:
3 知識存儲
知識存儲即為知識庫的建立過程,是知識數(shù)據(jù)、知識關(guān)聯(lián)結(jié)果、各類型資源的入庫過程。知識存儲過程中,將知識加工形成的結(jié)果文件以及圖書、圖片、視頻資源,全部入庫到關(guān)系型數(shù)據(jù)庫中,同時將知識相關(guān)的數(shù)據(jù)入到搜索應(yīng)用服務(wù)器庫中,知識存儲的過程就是所有資源入庫的過程。該過程提供多個應(yīng)用程序編程接口,為知識利用提供數(shù)據(jù)支撐[3]。
系統(tǒng)采用關(guān)系型數(shù)據(jù)庫和搜索應(yīng)用兩個數(shù)據(jù)庫作為數(shù)據(jù)支撐,使用搜索應(yīng)用服務(wù)器提供索引服務(wù)。知識數(shù)據(jù)、圖書、圖片、視頻,所有的資源匯總到關(guān)系型數(shù)據(jù)庫管理系統(tǒng)進(jìn)行結(jié)構(gòu)化存儲,知識三元組、知識點(diǎn)和知識體系同步入庫到搜索應(yīng)用服務(wù)器中,建立索引庫,提升檢索的性能。知識存儲的架構(gòu)圖如下圖:
知識儲備需要支持將已經(jīng)加工標(biāo)引完成的圖書、圖片、視頻、知識點(diǎn)以及知識關(guān)系統(tǒng)一組織,建立便捷知識庫。所有的資源入庫后,需要按資源類型分別存儲,提供各種檢索查詢服務(wù),使得各類別資源具備可獨(dú)立建庫服務(wù)的能力,知識建庫完成后,還需要同時完成索引庫的創(chuàng)建,用以提升用戶檢索的性能[4]。
4 知識利用
在知識利用過程中,用戶登錄認(rèn)證后便可實(shí)現(xiàn)通過檢索服務(wù),進(jìn)行知識的獲取和利用,繪制的知識圖譜可呈現(xiàn)知識點(diǎn)與知識點(diǎn)間的關(guān)系強(qiáng)度,通過在線瀏覽器的接口調(diào)用,進(jìn)行關(guān)聯(lián)圖書中段落內(nèi)容的閱讀,包括下載和播放與之相關(guān)聯(lián)的圖片和視頻。
由專業(yè)領(lǐng)域知識服務(wù)平臺來提供終端用戶的注冊、登錄,知識檢索,知識圖譜的呈現(xiàn),知識關(guān)聯(lián)資源的推薦,以及知識的學(xué)習(xí)等服務(wù)。利用依托于知識點(diǎn)和知識點(diǎn)之間的關(guān)系強(qiáng)度,進(jìn)行知識圖譜相關(guān)的展示;利用知識點(diǎn)和資源的關(guān)系強(qiáng)度,為用戶推薦與該知識點(diǎn)相關(guān)聯(lián)的圖書、圖片、視頻資源。在關(guān)系強(qiáng)度的計(jì)算過程中,可點(diǎn)擊推薦圖書直接跳轉(zhuǎn)到內(nèi)容進(jìn)行學(xué)習(xí)使用[5]。
5 結(jié)束語
研究認(rèn)為,在專業(yè)知識服務(wù)平臺建設(shè)上,還有很多亟須完善和持續(xù)深入的地方:首先,在資源內(nèi)容方面,知識點(diǎn)的范圍局限限制了持續(xù)建設(shè)擴(kuò)充的可能性,知識點(diǎn)的錄入還應(yīng)充分考慮對時下熱點(diǎn)的關(guān)注;其次,在知識加工方法上,現(xiàn)有知識體系還可以依據(jù)某一個細(xì)分應(yīng)用場景進(jìn)一步細(xì)化,使得維度更多,體系更加精準(zhǔn);再次,還應(yīng)持續(xù)深入得研究文本抽取技術(shù),對于結(jié)構(gòu)化不好的數(shù)據(jù),依然可以依據(jù)知識體系的屬性抽取出三元組信息,同時增加對于三元組數(shù)據(jù)的置信度計(jì)算,以確保數(shù)據(jù)的可用性。希望通過此次對專業(yè)知識體系、知識庫的構(gòu)建以及應(yīng)用場景的設(shè)計(jì)中積累的經(jīng)驗(yàn),可以有效促進(jìn)專業(yè)知識服務(wù)在具體行業(yè)中應(yīng)用于發(fā)展進(jìn)程,更好的體現(xiàn)專業(yè)知識服務(wù)的應(yīng)用價值與現(xiàn)實(shí)意義。
參考文獻(xiàn)
[1] 馮宏聲.新聞出版業(yè)“十三五”時期的科技工作思考[J].科技與出版,2016,(06):28-35.
[2] 吳赟,孫夢如.中國出版業(yè)發(fā)展知識服務(wù)的路徑思考——從愛思唯爾ClinicalKey超級醫(yī)學(xué)平臺談起[J].出版廣角,2017,(13):13-16.
[3] 劉涵宇.如何有效的向用戶傳遞信息[EB/OL]. https://wenku.baidu.com/view/bd30a447844769eae109ed2a.html,2014-05-09.
[4] 王海艷.基于領(lǐng)域本體的可信服務(wù)組合[J].計(jì)算機(jī)應(yīng)用研究,2012, 29(11):4193-4198.
[5] 梁瑩.大數(shù)據(jù)分析在出版中的應(yīng)用與展望[J].出版廣角,2015,(2): 15-17.