馬海云,薛 翔
(南京大學(xué)信息管理學(xué)院,南京 210093)
隨著學(xué)科領(lǐng)域的發(fā)展,尋找普遍適用的方法來組織全人類的知識已不可行,知識組織正在走向領(lǐng)域知識組織的時代[1]。領(lǐng)域知識結(jié)構(gòu)作為領(lǐng)域知識組織的研究基礎(chǔ),與此相關(guān)的研究逐漸成為知識管理、圖書情報等學(xué)科的重要研究內(nèi)容[2]?,F(xiàn)有研究主要集中在如何通過技術(shù)手段和文獻(xiàn)數(shù)據(jù)揭示學(xué)科領(lǐng)域內(nèi)的知識關(guān)聯(lián)和知識分布結(jié)構(gòu)。關(guān)于領(lǐng)域知識結(jié)構(gòu)的理論研究較為零散,相關(guān)研究可梳理為兩類:一類是參照社會網(wǎng)絡(luò)分析的方法,認(rèn)為知識節(jié)點(diǎn)及其關(guān)系組成的網(wǎng)絡(luò)即為知識結(jié)構(gòu)[3];另一類則根據(jù)知識內(nèi)容的粒度大小,將知識結(jié)構(gòu)分為宏觀層面、中觀層面和微觀層面[4]。這兩類研究各有側(cè)重,張發(fā)亮等[2]將其綜合起來,提出了基于文獻(xiàn)數(shù)據(jù)的學(xué)科領(lǐng)域金字塔知識結(jié)構(gòu)模型。但不同于以結(jié)構(gòu)化數(shù)據(jù)或文獻(xiàn)數(shù)據(jù)為主的傳統(tǒng)知識結(jié)構(gòu)設(shè)計,大數(shù)據(jù)時代下的信息內(nèi)容還包含了包括音頻、視頻和文本在內(nèi)的非結(jié)構(gòu)化數(shù)據(jù),且數(shù)據(jù)具有極強(qiáng)的動態(tài)性,這對領(lǐng)域知識的結(jié)構(gòu)設(shè)計提出了新的要求。
大數(shù)據(jù)技術(shù)的發(fā)展使得大數(shù)據(jù)環(huán)境下知識組織的研究工作引起了部分機(jī)構(gòu)的關(guān)注,如由原國家新聞出版署推動建設(shè)的國家知識資源服務(wù)中心制定并發(fā)布了知識組織與服務(wù)相關(guān)行業(yè)的標(biāo)準(zhǔn)[5];中國工程科技知識中心建設(shè)了大數(shù)據(jù)環(huán)境下工程科技領(lǐng)域知識融合的架構(gòu)[6]。這些研究雖然對大數(shù)據(jù)環(huán)境下知識組織與服務(wù)的技術(shù)和規(guī)范開展了一些有益的探索,而在大數(shù)據(jù)環(huán)境下,用戶在獲取知識的過程中更加依賴于知識服務(wù),用戶的知識服務(wù)需求也愈加精細(xì)化,但現(xiàn)有研究未能充分重視知識服務(wù)在知識組織中的作用。
鑒于此,本文擬從以用戶需求為導(dǎo)向的知識服務(wù)視角出發(fā),探討大數(shù)據(jù)環(huán)境下的領(lǐng)域知識結(jié)構(gòu)。首先,根據(jù)大數(shù)據(jù)環(huán)境下領(lǐng)域知識服務(wù)的特點(diǎn)厘清了用戶主導(dǎo)的領(lǐng)域知識服務(wù)模式;其次,根據(jù)該模式設(shè)計了大數(shù)據(jù)環(huán)境下能夠滿足用戶個性化需求的可分領(lǐng)域的知識結(jié)構(gòu)模型;最后,結(jié)合領(lǐng)域大數(shù)據(jù)向領(lǐng)域知識轉(zhuǎn)化的過程以及用戶需求信息給出了該領(lǐng)域知識結(jié)構(gòu)模型的構(gòu)建流程。以期領(lǐng)域知識結(jié)構(gòu)的設(shè)計在滿足大數(shù)據(jù)時代下用戶知識服務(wù)需求的同時,還能夠靈活應(yīng)對數(shù)據(jù)動態(tài)變化情況下的領(lǐng)域知識庫擴(kuò)充,為今后關(guān)于領(lǐng)域知識組織的研究和實踐工作提供參考。
知識組織,是指對知識客體所進(jìn)行的諸如整理、加工、揭示、控制等一系列組織化過程及其方法[7]。這一概念最早在20世紀(jì)20年代末由美國著名分類法專家Bliss[8]在其著作《知識組織和科學(xué)系統(tǒng)》中提出,并詳細(xì)闡述了以文獻(xiàn)分類為基礎(chǔ)的知識組織理論與圖書館工作的關(guān)系。早期的知識組織的相關(guān)研究主要建立在分類法、敘詞表等工具方法的基礎(chǔ)上,發(fā)展相對緩慢;直到1989年國際知識組織協(xié)會(International Society of Knowledge Organiza‐tion,ISKO)成立,關(guān)于知識組織問題的研究才正式引起學(xué)界的廣泛關(guān)注[9]。1991年,劉洪波發(fā)表的論文《知識組織論——關(guān)于圖書館內(nèi)部活動的一種說明》[10],首次將知識組織理論引入國內(nèi)圖書情報研究領(lǐng)域。此后,王知津[11]、蔣永福[7]、畢強(qiáng)等[12]對知識組織的理論與方法進(jìn)行了重要拓展,使之成為了國內(nèi)圖情研究領(lǐng)域的一個重要分支。
知識服務(wù),是指在搜尋、分析、組織知識的能力基礎(chǔ)上,根據(jù)用戶所面臨的具體問題與環(huán)境,參與到用戶解決問題的過程當(dāng)中,為用戶提供有效的知識應(yīng)用和知識創(chuàng)新服務(wù)[13]。這種服務(wù)不單純是為用戶提供一份答案,還囊括了接收用戶知識需求、開展知識檢索、篩選、組織以及最終幫助用戶應(yīng)用知識解決問題的全過程[14]。
由此可見,知識組織與知識服務(wù)兩者之間存在緊密關(guān)聯(lián),知識組織構(gòu)建了知識體系框架,是知識服務(wù)的前提和基礎(chǔ),而知識服務(wù)則為知識組織工作的開展提供了根本動力和指導(dǎo)方向,是知識組織的前向延伸和最終目標(biāo),兩者相輔相成、互不可缺。近年來,一些學(xué)者開始將知識服務(wù)與領(lǐng)域知識組織相結(jié)合,嘗試基于特定的服務(wù)場景或系統(tǒng)探索與之相契合的領(lǐng)域知識組織方法,以期提高知識服務(wù)中的工作效率。譬如,頡艷萍[15]從多維度分析了圖書館環(huán)境下知識組織和個性化知識服務(wù)的內(nèi)涵,為圖書館構(gòu)建知識服務(wù)平臺、開展知識服務(wù)提供了行動建議;徐緒堪等[16]立足水利現(xiàn)代化建設(shè)新形勢,在充分了解用戶知識需求和現(xiàn)有水利知識資源供需矛盾的基礎(chǔ)上,從知識服務(wù)角度對水利工程知識組織進(jìn)行宏觀架構(gòu),形成了一套包含知識組織結(jié)構(gòu)設(shè)計、知識再生、組織實現(xiàn)到服務(wù)提供的完整流程;王曰芬等[17]從個性化知識服務(wù)角度出發(fā),了解個性化服務(wù)中知識組織的目標(biāo)、對象和原則,同時剖析知識組織機(jī)制內(nèi)涵和組成要素,借此探索出了面向個性化知識服務(wù)的知識組織的過程與方法;吳愷等[18]根據(jù)用戶行為信息的類型、知識組織和利用的需求,設(shè)計了通用的用戶信息知識組織模型,該模型能夠按照預(yù)先設(shè)定的模式進(jìn)行信息析取、組織,為不同類型的用戶提供服務(wù)。
需要注意的是,雖然學(xué)界已經(jīng)意識到了用戶個性化需求對個性化服務(wù)的最終效率,乃至領(lǐng)域知識組織的對象、深度、廣度、有效性等有著重要影響,并且已經(jīng)構(gòu)建了一批基于單一領(lǐng)域下的面向知識服務(wù)的知識組織體系。但隨著網(wǎng)絡(luò)技術(shù)的發(fā)展和大數(shù)據(jù)時代的到來,面對龐大繁雜、急劇膨脹的數(shù)據(jù)和日益差異化的用戶知識需求,這些領(lǐng)域知識組織架構(gòu)中知識來源、類型單一、體量較小、更迭緩慢,用戶特征識別率不高等問題被充分暴露,已經(jīng)成為知識服務(wù)效率提升的阻礙之一。因此,有必要深入剖析大數(shù)據(jù)背景下知識服務(wù)的特點(diǎn),從用戶知識服務(wù)需求角度入手,重新展開知識組織架構(gòu)設(shè)計。
隨著人類對世界的了解和掌握的知識不斷增加,學(xué)者們意識到尋找普遍適用的方法來組織全人類的知識已不可行,轉(zhuǎn)而開始關(guān)注不同領(lǐng)域知識組織的研究。1995年,Hj?rland等提出了領(lǐng)域分析是信息科學(xué)的新方法[19],并在后續(xù)研究中進(jìn)一步指出領(lǐng)域分析已經(jīng)成為知識組織的研究熱點(diǎn)[20]。此后,學(xué)者M(jìn)ai[21]在區(qū)分從本體論角度發(fā)現(xiàn)知識的組織方法和基于認(rèn)識論角度對已經(jīng)存在事物的客觀中立描述的知識組織方法時,指出知識組織已經(jīng)進(jìn)入領(lǐng)域知識組織的時代。隨后,學(xué)者們開始了關(guān)于領(lǐng)域知識組織所涉及的理論、方法及實證研究。本文對相關(guān)研究進(jìn)行了梳理,具體如表1所示。
表1 領(lǐng)域知識組織的研究進(jìn)展
從表1可見,目前關(guān)于領(lǐng)域知識組織的研究仍處于探索階段,且以如何使用相關(guān)技術(shù)與方法實現(xiàn)領(lǐng)域的知識組織為主。在理論研究方面,已有少部分研究梳理了領(lǐng)域知識的概念、構(gòu)成要素以及分析流程等基礎(chǔ)理論,這些研究為后續(xù)領(lǐng)域知識組織的研究奠定了基礎(chǔ)。
由于知識組織形式對知識服務(wù)最終質(zhì)量存在根本性影響,而領(lǐng)域知識結(jié)構(gòu)作為領(lǐng)域知識組織的底層架構(gòu),決定了領(lǐng)域知識組織的最終形式,自然也開始受到學(xué)界和業(yè)界的廣泛關(guān)注[30]。在對已有文獻(xiàn)梳理后發(fā)現(xiàn),現(xiàn)階段領(lǐng)域知識結(jié)構(gòu)相關(guān)研究主要集中在領(lǐng)域知識結(jié)構(gòu)的概念辨析[31-32]、特征識別[33]、構(gòu)成分析[4,34-35]、類型劃分[36]以及在具體學(xué)科領(lǐng)域中的實踐應(yīng)用[37]等方面。例如,趙蓉英等[38]在對知識網(wǎng)絡(luò)結(jié)構(gòu)系統(tǒng)分析的基礎(chǔ)上,提出了知識網(wǎng)絡(luò)機(jī)構(gòu)具有知識節(jié)點(diǎn)的獨(dú)立性、繼承性、變異性、多維性和再生性等多種特性;文庭孝等[39]對領(lǐng)域知識組織中國網(wǎng)絡(luò)結(jié)構(gòu)的發(fā)展歷程、結(jié)構(gòu)類型以及測度方法等進(jìn)行了詳細(xì)梳理;陳必坤[40]基于可視化視角,對學(xué)科領(lǐng)域知識的理論基礎(chǔ)、結(jié)構(gòu)分類以及構(gòu)建方法等進(jìn)行了系統(tǒng)的研究與實證。
但是,這些研究當(dāng)中關(guān)于指導(dǎo)領(lǐng)域知識結(jié)構(gòu)設(shè)計與構(gòu)建的研究相對較少,僅有部分學(xué)者對知識圖譜、知識網(wǎng)絡(luò)等結(jié)構(gòu)的構(gòu)建流程進(jìn)行了探索性研究,或者在介紹某個具體領(lǐng)域中知識結(jié)構(gòu)構(gòu)建方法時對構(gòu)建流程其進(jìn)行簡要介紹[37,41]。整體來看,相關(guān)研究尚不夠系統(tǒng),研究結(jié)果難以具有普適性。此外,隨著大數(shù)據(jù)技術(shù)的快速發(fā)展和資源類型的日趨多元,以及知識服務(wù)用戶需求的差異化加劇,領(lǐng)域知識組織開始面臨來自多方面的挑戰(zhàn)與壓力?,F(xiàn)有模式下的領(lǐng)域知識結(jié)構(gòu)已經(jīng)無法完全適應(yīng)新形勢下領(lǐng)域知識組織和服務(wù)的多樣化需求,因此,有必要系統(tǒng)分析大數(shù)據(jù)時代的知識服務(wù)模式,在此基礎(chǔ)上對領(lǐng)域知識結(jié)構(gòu)重新架構(gòu),為提高知識服務(wù)質(zhì)量奠定基礎(chǔ)。
傳統(tǒng)的領(lǐng)域知識服務(wù)以文獻(xiàn)數(shù)據(jù)為基礎(chǔ),挖掘領(lǐng)域內(nèi)知識的關(guān)聯(lián),并按照一定的規(guī)則將知識或信息組織起來呈現(xiàn)給用戶。大數(shù)據(jù)時代,不僅領(lǐng)域知識的數(shù)據(jù)內(nèi)容發(fā)生了改變,用戶的群體的需求也在不斷變化,領(lǐng)域知識服務(wù)呈現(xiàn)出以下幾個特點(diǎn)。
(1)數(shù)據(jù)多元化。傳統(tǒng)的知識服務(wù)主要依托于文獻(xiàn)數(shù)據(jù)和結(jié)構(gòu)化的數(shù)據(jù);大數(shù)據(jù)時代,在進(jìn)行領(lǐng)域知識服務(wù)時,所涉及的數(shù)據(jù)不僅包含了文獻(xiàn)及結(jié)構(gòu)化的數(shù)據(jù),還包含了社交媒體、百科網(wǎng)頁以及知識庫的數(shù)據(jù),這些數(shù)據(jù)是隨著時間推移不斷變化的。此外,知識服務(wù)提供者還需要分析用戶的反饋信息與需求信息,及時補(bǔ)充領(lǐng)域信息庫中的數(shù)據(jù)內(nèi)容。數(shù)據(jù)多元化不僅是大數(shù)據(jù)時代領(lǐng)域知識組織與服務(wù)的特點(diǎn),更是一種挑戰(zhàn)。
(2)方式智能化。機(jī)器學(xué)習(xí)、人工智能以及本體技術(shù)的發(fā)展使得領(lǐng)域知識服務(wù)方式更加智能。知識服務(wù)提供者不再完全依托于人工去搜尋、清洗、辨別數(shù)據(jù),而是實現(xiàn)了通過機(jī)器學(xué)習(xí)的方式自動識別與領(lǐng)域相關(guān)的信息。另外,在大數(shù)據(jù)環(huán)境下,通過對用戶行為數(shù)據(jù)收集分析,能夠更加準(zhǔn)確地進(jìn)行用戶畫像分析,智能地為用戶提供不同層次、不同內(nèi)容的領(lǐng)域知識服務(wù)。智能化的知識與服務(wù)方式提高了大數(shù)據(jù)背景下領(lǐng)域知識組織與服務(wù)的效率和用戶滿意度。
(3)內(nèi)容專業(yè)化。領(lǐng)域知識服務(wù)是指為了滿足特定某個領(lǐng)域用戶的需求,提供以內(nèi)容為基礎(chǔ)的知識產(chǎn)出(決策建議、解決方案等)的過程[42]。大數(shù)據(jù)時代下的領(lǐng)域知識服務(wù)提供者不僅需要具備與該領(lǐng)域相關(guān)的專業(yè)化知識和技能,而且還要掌握用戶需求分析的專業(yè)知識,以便在充分掌握用戶的實際知識需求的基礎(chǔ)上給出能夠解決用戶實際性問題的專業(yè)知識。內(nèi)容專業(yè)化是領(lǐng)域知識服務(wù)最顯著的特征。
(4)服務(wù)個性化。對于同一個領(lǐng)域而言,不同用戶的知識需求也是存在差異的[43]。例如,對于剛?cè)腴T某領(lǐng)域的用戶而言,其最需要的是通識性的領(lǐng)
域知識;對于科研用戶而言,其需要的是自己所關(guān)注主題的領(lǐng)域知識;對于實踐型的用戶而言,其需要的是應(yīng)用知識……大數(shù)據(jù)時代,互聯(lián)網(wǎng)平臺可以收集用戶注冊的基礎(chǔ)資料以及信息檢索行為等信息并進(jìn)行用戶畫像分析,以便更精準(zhǔn)地判斷用戶所需的知識,滿足用戶個性化的需求。個性化是大數(shù)據(jù)時代下領(lǐng)域知識服務(wù)新的特點(diǎn)。
根據(jù)第3.1節(jié)的分析,不論是服務(wù)方式還是服務(wù)內(nèi)容,大數(shù)據(jù)環(huán)境下的知識服務(wù)都更加注重用戶體驗。對于同一個領(lǐng)域而言,知識組織與服務(wù)的視角可以是不一樣的,為滿足用戶的個性化體驗,知識服務(wù)模式也應(yīng)適應(yīng)不同用戶群的特征[44]。例如,對于食品科學(xué)這一領(lǐng)域,有的用戶只想了解有關(guān)營養(yǎng)健康的基礎(chǔ)知識,滿足日常生活需求;有的用戶比較關(guān)注食品的質(zhì)量監(jiān)測標(biāo)準(zhǔn)與方法;有的用戶則關(guān)注食品行業(yè)的技術(shù)工程;還有的用戶關(guān)注綠色、功能性、有機(jī)食品的開發(fā)問題,等等。因此,大數(shù)據(jù)環(huán)境下,如何通過用戶信息數(shù)據(jù)對用戶進(jìn)行分類畫像,實現(xiàn)為不同層次的用戶制定不同的服務(wù)方案已成為新的研究趨勢。本文提出了以用戶為主導(dǎo)的領(lǐng)域知識服務(wù)模式,如圖1所示。
如圖1所示,大數(shù)據(jù)環(huán)境下,以用戶為主導(dǎo)的領(lǐng)域知識服務(wù)模式主要分為用戶分析、服務(wù)提供以及根據(jù)再生知識擴(kuò)充領(lǐng)域信息庫三個部分。
圖1 用戶主導(dǎo)的領(lǐng)域知識服務(wù)模式
第一部分是針對用戶的特點(diǎn)對用戶群體進(jìn)行分類,以便為不同群體的用戶提供對應(yīng)的專業(yè)化知識。為后續(xù)按用戶的個性特征制定知識服務(wù)方案做好鋪墊,以達(dá)到強(qiáng)化知識服務(wù)質(zhì)量、滲透知識服務(wù)覆蓋的目的。該部分的具體做法為,在保護(hù)用戶隱私的前提下,根據(jù)用戶的注冊信息、信息檢索行為信息或者以問卷調(diào)查的方式獲取用戶的偏好數(shù)據(jù),利用數(shù)據(jù)挖掘、行為建模等方式進(jìn)行用戶畫像分析。
第二部分是針對不同層次不同特點(diǎn)的用戶,為其提供個性化的領(lǐng)域知識服務(wù)。例如,對于大部分領(lǐng)域而言,用戶群體都可以分為剛?cè)腴T的基礎(chǔ)用戶、專業(yè)的科研用戶以及注重應(yīng)用的實踐型用戶。領(lǐng)域知識服務(wù)提供者應(yīng)摸清各類用戶群體的特征,在明確用戶需求并確定好服務(wù)內(nèi)容后,從領(lǐng)域信息庫里提取并組合相應(yīng)的知識元,生成對解決每位用戶實際問題均有用的通識知識、專題知識、應(yīng)用知識或方案建議等內(nèi)容,并以可視化的方式將結(jié)果展現(xiàn)給用戶。這一部分是大數(shù)據(jù)環(huán)境下領(lǐng)域知識服務(wù)模式的核心部分,該部分的關(guān)鍵點(diǎn)在于深刻理解各個用戶群體的知識需求,并在此基礎(chǔ)上根據(jù)用戶的需求組織知識元,以達(dá)到滿足不同用戶群體的個性化需求的目的。
第三部分是領(lǐng)域信息庫的擴(kuò)充部分,該部分主要是對在用戶分析時所用到的用戶需求信息、知識使用場景信息以及提供知識服務(wù)之后的用戶反饋信息做更進(jìn)一步的挖掘,探測出隱含知識中的潛在規(guī)律,進(jìn)而生成以用戶為中心的再生知識。該部分是一個以用戶為中心的動態(tài)優(yōu)化學(xué)習(xí)過程,以此為基礎(chǔ)擴(kuò)充領(lǐng)域信息庫是大數(shù)據(jù)環(huán)境下領(lǐng)域知識服務(wù)創(chuàng)新持續(xù)發(fā)展的核心。
本節(jié)以不同用戶群體需求差異為出發(fā)點(diǎn),厘清了以用戶需求為導(dǎo)向的知識服務(wù)模式,該模式不僅滿足了大數(shù)據(jù)環(huán)境下知識服務(wù)內(nèi)容專業(yè)化、方式智能化和服務(wù)個性化的特點(diǎn),同時也為后續(xù)從以用戶為主導(dǎo)的知識服務(wù)視角設(shè)計領(lǐng)域知識結(jié)構(gòu)打下了基礎(chǔ)。
Simon[45]在其一本關(guān)于人工智能科學(xué)的書中曾指出,復(fù)雜的系統(tǒng)往往具有可分解的層次結(jié)構(gòu),該結(jié)構(gòu)使得人們能夠描述并理解系統(tǒng)及其包含的主要因素。因此,國內(nèi)外不少學(xué)者在研究知識體系結(jié)構(gòu)時,都將其劃分為不同的要素層次。例如,趙蓉英[3]將知識網(wǎng)絡(luò)結(jié)構(gòu)歸納為知識節(jié)點(diǎn)及其關(guān)系的兩層次結(jié)構(gòu);胡昌平等[4]給出了基于K-core層次劃分的共詞分析方法,將知識網(wǎng)絡(luò)結(jié)構(gòu)分解為基礎(chǔ)層、細(xì)節(jié)層和中間層;王昊等[34]在研究圖書情報學(xué)科的知識體系構(gòu)建和演化時,將學(xué)科的知識結(jié)構(gòu)理解為各知識點(diǎn)之間的層次體系。這些研究均以文獻(xiàn)數(shù)據(jù)為基礎(chǔ),探討了知識結(jié)構(gòu)的層次結(jié)構(gòu),但是在大數(shù)據(jù)的時代背景下,知識的數(shù)據(jù)來源發(fā)生了變化,領(lǐng)域數(shù)據(jù)具有很強(qiáng)的動態(tài)性,領(lǐng)域知識也會隨之進(jìn)行不斷的擴(kuò)充,因此,大數(shù)據(jù)環(huán)境下的領(lǐng)域知識結(jié)構(gòu)設(shè)計思路需要進(jìn)行調(diào)整,本文按照不同的粒度對領(lǐng)域知識進(jìn)行了層次劃分。
此外,根據(jù)前文的分析可知,不同于傳統(tǒng)知識服務(wù)下的知識結(jié)構(gòu),大數(shù)據(jù)環(huán)境下的知識結(jié)構(gòu)設(shè)計要面向用戶的個性化需求。由于用戶所需解決的問題和場景是不斷變化的,為了領(lǐng)域知識元提取的靈活性,該知識結(jié)構(gòu)不應(yīng)該也不能是不可分割的整體。由此,本文在設(shè)計領(lǐng)域知識結(jié)構(gòu)時,又對每個層次的領(lǐng)域知識塊進(jìn)行了聚類,將每層的領(lǐng)域知識劃分為不同的模塊。根據(jù)上述分析,本文設(shè)計了大數(shù)據(jù)環(huán)境下面向知識服務(wù)的領(lǐng)域知識結(jié)構(gòu),如圖2所示。
圖2 面向知識服務(wù)的領(lǐng)域知識結(jié)構(gòu)
具體說來,本文在設(shè)計領(lǐng)域知識結(jié)構(gòu)時,從大數(shù)據(jù)資源、用戶需求以及用戶反饋的信息中提煉出領(lǐng)域知識后,進(jìn)一步對領(lǐng)域知識進(jìn)行知識分解,并分成了四個層次:基礎(chǔ)細(xì)節(jié)層、中間要素層、問題求解層以及知識拓展層。
1.農(nóng)產(chǎn)品流通不暢。農(nóng)村地區(qū)有大量優(yōu)質(zhì)的農(nóng)產(chǎn)品,但是由于交通的阻礙和信息的不對稱導(dǎo)致這些資源難以轉(zhuǎn)化為經(jīng)濟(jì)優(yōu)勢,最終這些農(nóng)產(chǎn)品白白浪費(fèi)掉。但是一些城市地區(qū),農(nóng)產(chǎn)品價格卻逐漸上漲。
基礎(chǔ)細(xì)節(jié)層包含了某領(lǐng)域概念、事實等在內(nèi)的領(lǐng)域知識全部特征項,這些特征項完整地反映了某一領(lǐng)域的知識信息。基礎(chǔ)細(xì)節(jié)層是構(gòu)成領(lǐng)域知識的最小單位,也是領(lǐng)域知識結(jié)構(gòu)的基礎(chǔ)。
中間要素層通過對領(lǐng)域知識基礎(chǔ)細(xì)節(jié)層中的各個特征項進(jìn)行頻次統(tǒng)計、人工篩選以及專家判斷等手段,篩選出領(lǐng)域知識的核心要素,這些要素是領(lǐng)域知識核心內(nèi)容,能夠反映某領(lǐng)域知識的主要特點(diǎn)。
問題求解層在對中間要素層根據(jù)用戶問題及需求進(jìn)行分類聚類的基礎(chǔ)上,生成了能夠解決用戶實際問題的知識單元。問題求解層是面向知識服務(wù)的領(lǐng)域知識結(jié)構(gòu)的核心部分。
知識拓展層在對領(lǐng)域知識單元以及用戶的反饋信息和需求信息進(jìn)行關(guān)聯(lián)分析、合并計算后,形成再生知識,以擴(kuò)充領(lǐng)域知識庫,使得領(lǐng)域知識庫能夠更加貼近用戶需求。知識拓展層是領(lǐng)域知識服務(wù)保持活力的關(guān)鍵。
本文設(shè)計的領(lǐng)域知識結(jié)構(gòu)具有如下特點(diǎn):
(1)可分性。在將領(lǐng)域知識結(jié)構(gòu)劃分為不同層次的基礎(chǔ)上,根據(jù)用戶需要將每層的知識劃分為不同的模塊。這種領(lǐng)域知識結(jié)構(gòu)的設(shè)計思想是本文的一個特色,方便了知識服務(wù)提供者按照用戶需要解決問題以及根據(jù)需求靈活地從知識庫中提取相應(yīng)的信息。
(2)用戶導(dǎo)向性。在知識結(jié)構(gòu)的設(shè)計中,知識服務(wù)概念的引用是一個新的嘗試,也是本結(jié)構(gòu)的重點(diǎn)之一。首先,通過對用戶需求進(jìn)行主題分類,將領(lǐng)域知識的各要素關(guān)聯(lián)起來組合成面向用戶實際需求的知識單元。其次,通過對用戶需求信息及反饋信息的挖掘,生成新的信息以擴(kuò)充領(lǐng)域知識。這兩個過程充分體現(xiàn)了領(lǐng)域知識結(jié)構(gòu)設(shè)計中用戶的重要性,為領(lǐng)域知識組織滿足用戶的個性化需求提供了可能。
大數(shù)據(jù)環(huán)境在推動領(lǐng)域知識服務(wù)發(fā)展的同時,也對領(lǐng)域知識服務(wù)中的數(shù)據(jù)搜集、信息分析以及知識生成等工作提出了更高的要求。具體說來,大數(shù)據(jù)時代下的領(lǐng)域知識服務(wù)面臨著以下挑戰(zhàn):①如何從海量、多源、異構(gòu)的大數(shù)據(jù)中搜集并集成碎片化的領(lǐng)域數(shù)據(jù)[46]。②如何判斷信息真值,提高知識服務(wù)的價值。大數(shù)據(jù)時代下的數(shù)據(jù)資源形態(tài)各異,來源廣泛,在處理從網(wǎng)絡(luò)資源中收集的信息時,常常會發(fā)現(xiàn)這些信息存在嚴(yán)重冗余、歧義的現(xiàn)象[47]。③如何正確解讀用戶需求。用戶的信息素養(yǎng)以及個人特征等的差異導(dǎo)致用戶在表達(dá)自己信息需求時的全面性和準(zhǔn)確性大有不同,尤其是在大數(shù)據(jù)時代,當(dāng)用戶面對著紛繁復(fù)雜、形式多樣的信息時,往往會信息迷失。此時更需要知識服務(wù)提供者能夠引導(dǎo)用戶全面地表述出其顯性的信息需求,并根據(jù)用戶的檢索信息行為,挖掘出其隱性的信息需求,以便提高領(lǐng)域知識服務(wù)的水平與效率。
為了解決上述挑戰(zhàn),已有學(xué)者從技術(shù)角度出發(fā),致力于解決領(lǐng)域大數(shù)據(jù)向領(lǐng)域知識轉(zhuǎn)化過程中所面臨的問題并取得了相應(yīng)的成果。例如,林海倫等[46]在對網(wǎng)絡(luò)大數(shù)據(jù)時代下的知識融合方法進(jìn)行綜述時,總結(jié)出了開放網(wǎng)絡(luò)環(huán)境下的知識評估方法包括基于貝葉斯概率估計的評估方法、基于D-S證據(jù)理論(Dempster-Shafer envidence theory)的評估方法、基于模糊集理論的知識評估方法以及基于圖模型的知識評估方法。2020年12月15日,國家圖書館數(shù)字資源部主任曹寧在報告國圖專題領(lǐng)域知識組織關(guān)于《中國戰(zhàn)疫記憶庫人物譜和大事記》建設(shè)的實踐和探索時指出,資源遴選分為兩個步驟,一是通過前期人工遴選建立詞表,二是將建立的詞表交予機(jī)器學(xué)習(xí)建模,以實現(xiàn)自動識別目標(biāo)資源。上述研究成果主要關(guān)注大數(shù)據(jù)環(huán)境下的知識組織的實現(xiàn)方法,還缺乏一套針對大數(shù)據(jù)環(huán)境下領(lǐng)域數(shù)據(jù)向領(lǐng)域知識轉(zhuǎn)化的模式和框架,參考傳統(tǒng)環(huán)境下的數(shù)據(jù)向知識轉(zhuǎn)化的過程DIKW(data,information,knowl‐edge,wisdom)模型[48]。本文結(jié)合上述成果構(gòu)建了領(lǐng)域數(shù)據(jù)向領(lǐng)域知識轉(zhuǎn)化的過程框架,認(rèn)為將領(lǐng)域數(shù)據(jù)向領(lǐng)域知識轉(zhuǎn)化的過程主要分為四個階段:①從海量、多源異構(gòu)的數(shù)據(jù)資源中抓取與某領(lǐng)域相關(guān)的數(shù)據(jù),形成某領(lǐng)域的數(shù)據(jù)資源;②將資源按照數(shù)據(jù)類型分類,形成領(lǐng)域數(shù)據(jù)集;③對領(lǐng)域數(shù)據(jù)集進(jìn)行信息提取,生成領(lǐng)域信息庫;④融合領(lǐng)域信息庫中的信息,進(jìn)而將其轉(zhuǎn)化為領(lǐng)域知識。具體過程如圖3所示。
圖3 大數(shù)據(jù)背景下領(lǐng)域知識轉(zhuǎn)化流程
第一階段是對百科網(wǎng)頁數(shù)據(jù)、文獻(xiàn)資源數(shù)據(jù)、社交論壇數(shù)據(jù)和知識庫數(shù)據(jù)進(jìn)行采集、清洗、去重及選擇,以形成與某領(lǐng)域內(nèi)容相關(guān)的數(shù)據(jù)集。上文在分析大數(shù)據(jù)環(huán)境下領(lǐng)域知識的特點(diǎn)及挑戰(zhàn)時已經(jīng)指出,科學(xué)、客觀、全面的領(lǐng)域數(shù)據(jù)資源是為用戶提供優(yōu)質(zhì)服務(wù)的前提。因此,大數(shù)據(jù)環(huán)境下遴選出優(yōu)質(zhì)的領(lǐng)域數(shù)據(jù)資源是后續(xù)生成領(lǐng)域知識并進(jìn)行知識服務(wù)的基礎(chǔ),在資源遴選的過程中,不僅要保證資源的科學(xué)性與全面性,還要保證資源的動態(tài)性。在這個階段中,主要的實現(xiàn)方法是通過爬蟲技術(shù)和人工采集的方式來不定期獲取數(shù)據(jù)資源,而后對這些數(shù)據(jù)資源進(jìn)行噪聲及冗余數(shù)據(jù)的清洗,采用人工標(biāo)注的方式標(biāo)注有用信息,再將人工標(biāo)注的結(jié)果傳給計算機(jī),利用機(jī)器學(xué)習(xí)的方法建立模型,并對機(jī)器提取的核心信息進(jìn)行人工核對,確保核心資源的準(zhǔn)確性,以實現(xiàn)定期準(zhǔn)確地從海量數(shù)據(jù)資源中自動識別出與某領(lǐng)域資源相關(guān)的數(shù)據(jù),保證數(shù)據(jù)資源的動態(tài)性。
第二階段是對已經(jīng)獲得的領(lǐng)域數(shù)據(jù)按數(shù)據(jù)形式進(jìn)行歸類,主要將數(shù)據(jù)分為文本型數(shù)據(jù)和多媒體數(shù)據(jù)。
第三階段是判斷領(lǐng)域數(shù)據(jù)資源的真?zhèn)尾κ占男畔①Y源進(jìn)行拆解。具體來說,對于文本數(shù)據(jù)而言,在對其進(jìn)行自然語言處理后進(jìn)行實體和關(guān)系的抽??;對于視頻、音頻、圖片等信息而言,首先需要對其進(jìn)行歸類處理,然后通過語音識別技術(shù)與人工轉(zhuǎn)錄的方式,記錄下該類信息中的內(nèi)容,并將其轉(zhuǎn)化為文本信息,再按照文本數(shù)據(jù)的方式進(jìn)行處理,信息真?zhèn)蔚呐袛喾绞街饕蠨-S證據(jù)理論法、模糊集理論法以及圖模型法。在知識抽取獲得領(lǐng)域資源的概念和關(guān)系后,建立相應(yīng)的概念庫、實體庫及關(guān)系庫。
第四階段是對領(lǐng)域信息資源的融合,主要是對知識抽取中所提取的概念、實體、關(guān)系等進(jìn)行關(guān)聯(lián)分析和合并計算,以生成對解決實際問題有用的領(lǐng)域知識。
通過定期數(shù)據(jù)抓取、清洗、知識抽取、關(guān)聯(lián)聚類等操作可以將領(lǐng)域大數(shù)據(jù)逐步轉(zhuǎn)化為能夠解決用戶實際問題的領(lǐng)域知識,本文總結(jié)的領(lǐng)域大數(shù)據(jù)向領(lǐng)域知識轉(zhuǎn)化的過程不僅為從海量多源異構(gòu)的數(shù)據(jù)源中獲取領(lǐng)域知識提供了行動參考,也為進(jìn)一步分析設(shè)計領(lǐng)域知識結(jié)構(gòu)的構(gòu)建流程奠定了基礎(chǔ)。
關(guān)于領(lǐng)域知識結(jié)構(gòu)的構(gòu)建方法與構(gòu)建流程方面,目前已有部分學(xué)者就文獻(xiàn)數(shù)據(jù)基于本體、社會網(wǎng)絡(luò)、頻次統(tǒng)計、共現(xiàn)、引用、合作等內(nèi)容開展了相關(guān)研究,并已經(jīng)形成了較為完整和成熟的方法體系。例如,胡昌平等[4]以領(lǐng)域關(guān)鍵詞的強(qiáng)共現(xiàn)關(guān)系為基礎(chǔ)的知識網(wǎng)絡(luò),給出了基于K-core值的領(lǐng)域知識結(jié)構(gòu)劃分過程;陳雪飛等[38]基于領(lǐng)域文獻(xiàn)繪制了包括知識點(diǎn)抽取、關(guān)系建立、知識可視化等內(nèi)容的領(lǐng)域知識網(wǎng)絡(luò)構(gòu)建過程;張發(fā)亮等[2]總結(jié)出了基于文獻(xiàn)數(shù)據(jù)的領(lǐng)域知識結(jié)構(gòu)通用構(gòu)建流程。總體上,這些研究關(guān)于領(lǐng)域知識結(jié)構(gòu)的方法和流程更加適用于單一的文獻(xiàn)數(shù)據(jù),尚缺乏一套針對大數(shù)據(jù)環(huán)境下面向知識服務(wù)的領(lǐng)域知識結(jié)構(gòu)構(gòu)建過程?;谝陨戏治?,本文在梳理了現(xiàn)有關(guān)于領(lǐng)域知識結(jié)構(gòu)構(gòu)建研究的基礎(chǔ)上,通過從海量、多源異構(gòu)的數(shù)據(jù)源中采集、提取、遴選出與某領(lǐng)域的相關(guān)信息,面向用戶需求逐步設(shè)計了大數(shù)據(jù)環(huán)境下知識服務(wù)驅(qū)動的領(lǐng)域知識結(jié)構(gòu),如圖4所示。
從圖4中可以看出,用戶需求驅(qū)動的領(lǐng)域知識結(jié)構(gòu)的構(gòu)建過程主要分為三個部分。
圖4 用戶需求驅(qū)動的領(lǐng)域知識結(jié)構(gòu)構(gòu)建過程
第一部分的主要工作是將從海量數(shù)據(jù)中收集并清洗過的某領(lǐng)域相關(guān)的數(shù)據(jù)轉(zhuǎn)化為領(lǐng)域信息庫,該信息庫包含了某領(lǐng)域的全部原始數(shù)據(jù),是領(lǐng)域知識結(jié)構(gòu)構(gòu)建的基礎(chǔ)。該部分的轉(zhuǎn)化過程見第4.2節(jié)。
第二部分是領(lǐng)域知識結(jié)構(gòu)的構(gòu)建部分,這部分的主要流程可以分為四步。第一步是基礎(chǔ)細(xì)節(jié)層的構(gòu)建。該層是對領(lǐng)域信息庫中的信息進(jìn)行拆解,通過自然語言處理技術(shù)中的詞法分析和句法分析,實現(xiàn)對領(lǐng)域知識的全部特征項的提取,這些特征項包括了該領(lǐng)域的基本概念、實體、實例等在內(nèi)的領(lǐng)域基本信息?;A(chǔ)細(xì)節(jié)層的特征項最為豐富,是某領(lǐng)域知識的全貌通過對基礎(chǔ)細(xì)節(jié)層特征項之間的關(guān)系分析,可以獲得某領(lǐng)域的通識知識。第二步是構(gòu)建中間要素層。中間要素層是對基礎(chǔ)細(xì)節(jié)層的濃縮,主要是通過特征項的出現(xiàn)頻次統(tǒng)計、專家意見等方法遴選出某領(lǐng)域較為重要的特征項集,如核心人物、重要機(jī)構(gòu)、主要成就等。這些特征項集是領(lǐng)域知識的核心,對這些核心要素進(jìn)行分析可以獲取領(lǐng)域發(fā)展的主要分支和熱點(diǎn)方向。第三步是問題求解層的構(gòu)建。主要是利用用戶基本信息、行為信息及需求信息等進(jìn)行用戶畫像分析,根據(jù)不同用戶群體的特點(diǎn)從基礎(chǔ)細(xì)節(jié)層或中間要素層中提取信息,并根據(jù)用戶的特點(diǎn)及需求將各個要素聯(lián)系起來,通過聚類、關(guān)聯(lián)等方法形成能夠滿足解決用戶實際問題的知識單元,問題求解層是領(lǐng)域知識結(jié)構(gòu)構(gòu)建的最終目的。第四步是知識拓展層的構(gòu)建。這一步是通過分析問題求解層各個知識單元之間的關(guān)系,以及中間要素層在向問題求解層轉(zhuǎn)化過程中關(guān)聯(lián)聚類時的依據(jù),如用戶使用知識的場景、用戶的需求特點(diǎn)、用戶的需求變化過程等挖掘出新的領(lǐng)域知識。知識拓展層是領(lǐng)域知識結(jié)構(gòu)的升華。
第三部分的主要內(nèi)容是領(lǐng)域信息庫的擴(kuò)充,該部分主要是將知識拓展層的信息以及再生知識增加到領(lǐng)域信息庫中。再生知識的產(chǎn)生主要是利用分類、聚類、關(guān)聯(lián)、粒度分析等方法對用戶需求及行為信息進(jìn)行挖掘。通過融合用戶的需求和知識使用情景,以解決用戶的實際問題為主線展開知識的推理,從不同視角分解和認(rèn)識用戶的問題,在尋求隱含知識的同時,挖掘其中的規(guī)律和模式。利用再生知識對領(lǐng)域信息庫進(jìn)行擴(kuò)充是領(lǐng)域保持生命力與創(chuàng)新力的關(guān)鍵所在。
大數(shù)據(jù)環(huán)境下,知識組織的內(nèi)容經(jīng)歷了從傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)和文獻(xiàn)數(shù)據(jù)向多源異構(gòu)數(shù)據(jù)的轉(zhuǎn)變,這種轉(zhuǎn)變在賦予知識組織與知識服務(wù)新特點(diǎn)的同時也帶來了新的挑戰(zhàn)。為應(yīng)對這些挑戰(zhàn),本文首先總結(jié)出了大數(shù)據(jù)背景下的領(lǐng)域知識服務(wù)特點(diǎn),并在此基礎(chǔ)上,對以用戶為導(dǎo)向的知識服務(wù)模式進(jìn)行梳理。其次,結(jié)合該模式,設(shè)計了知識服務(wù)視角下的領(lǐng)域知識結(jié)構(gòu)。最后,本文給出了該結(jié)構(gòu)的構(gòu)建流程。本文設(shè)計的領(lǐng)域知識結(jié)構(gòu)既能夠及時根據(jù)用戶需求及反饋信息,以及在大數(shù)據(jù)環(huán)境下挖掘的新知識補(bǔ)充領(lǐng)域知識庫,也能夠根據(jù)用戶需求靈活地從知識庫中提取信息。在后續(xù)研究中我們會將本文所提出的知識結(jié)構(gòu)運(yùn)用于實際領(lǐng)域的知識組織中,并通過用戶調(diào)研的方式來檢驗依據(jù)該領(lǐng)域知識結(jié)構(gòu)展開的領(lǐng)域知識組織的可行性以及其能否滿足用戶的個性化需求,根據(jù)發(fā)現(xiàn)的問題在實踐中不斷完善該結(jié)構(gòu)的構(gòu)建框架與流程。