李燮慧(柳州職業(yè)技術學院圖書館)
基于本體論的大數據數字圖書館知識體系構建研究
李燮慧
(柳州職業(yè)技術學院圖書館)
基于大數據背景的數字圖書館知識體系的構建已經成為數字圖書館知識組織的重要內容。從數字時代的網狀知識結構體系入手,具體分析知識組織體系的演進路徑及未來發(fā)展趨勢,實現(xiàn)知識組織體系的解構與重構;以此為基礎進行基于本體論的數字圖書館用戶知識關聯(lián)規(guī)則挖掘,最終為大數據數字圖書館知識體系的構建提供系統(tǒng)歸納、對比、總結,以及深化數字圖書館知識組織、知識發(fā)現(xiàn)、知識構建的基本理論,并系統(tǒng)闡述了其實現(xiàn)方法與關鍵技術路線。
本體論;大數據;數字圖書館;知識體系
從知識角度而言,人類發(fā)展的本質就是知識組織探索和追求的過程。無論是古代還是現(xiàn)代,人類對于知識組織的認識伴隨著理論與技術的發(fā)展,不斷經歷著變革和演進。法國《大百科全書》因為按照字母排序一度被神權認為是褻瀆神靈的異物。但知識組織演進的歷程并不會因為某種阻擋而停止腳步,相反很多知識體系開始采取法國《大百科全書》的知識排序方式。眾所周知,傳統(tǒng)知識組織及其結構體系是偉大的科學家、數學家、生物學家等依據知識組織的特性描述把握知識體系結構的歷程。比較有代表性的知識組織結構體系有線性結構、樹形結構、盒狀結構以及鏈狀結構。但到了21世紀互聯(lián)網出現(xiàn)后,對于知識的組織及其體系結構產生了顛覆性的變革。無論哪種傳統(tǒng)分類方法,由于知識在計算機網絡時代不再受到物理載體的制約,因此,傳統(tǒng)分類方法已無法適應新的信息組織的組織體系。因此,從技術進步的角度深入研究當今大數據背景下數字圖書館知識體系的構建,對于未來知識的傳播、保存和發(fā)展具有積極的建設意義。[1]
(1)線性結構知識組織及其體系結構,最早起源于古希臘和古羅馬時期,在18世紀有啟蒙作家狄德羅和數學家達朗貝在法國按照字母排序的方式,以《百科全書》的形式開始讓公眾了解知識組織的分類。我國的《百家姓》中按照筆畫排序也是這種知識組織體系結構的體現(xiàn)。線性知識組織體系對當前語義環(huán)境下的網絡知識體系很難融合。大數據環(huán)境下,Web語義檢索沒有特定的領域或詞庫,數字圖書館當中基于自動術語抽取的權重共識獲得檢索的結果,并構建自動的分配描述符。因此,Web語義環(huán)境下的檢索是在文檔列表中動態(tài)決定用戶檢索內容的適當屬性。由此可見,這種檢索結果不但呈現(xiàn)多樣性;而且是線性結構知識組織所不能實現(xiàn)的過程和結果。
(2)樹形結構的知識組織及體系。是由瑞典植物學家卡羅魯斯·林奈(Carolus Linnaeus)在《自然系統(tǒng)》著作中提出的植物分類方法。該書以樹形結構將植物進行系統(tǒng)性的分類,并在隨后的發(fā)展中將這種分類方式延伸到動物學領域。這一方法使得知識體系在系統(tǒng)性方面實現(xiàn)了知識的自然樹形劃分特征。樹形結構知識組織及體系面對大數據背景的混亂信息知識環(huán)境無所適從。當用戶在數字圖書館檢索一個專業(yè)術語,以期得到相關研究資料的時候,現(xiàn)代的數字圖書館利用本體理論組織這些關鍵詞屬性的重要性或興趣度,通過重要程度的半序合集的屬性層級構建,生成一種導航信息,該信息由領域知識駕馭。而樹形結構的知識組織及體系則根本不能適應這種新的知識體系構建的模式。而大數據背景下基于本體論的知識體系構建,能將知識衍生、知識交叉、知識關聯(lián)等很好地表現(xiàn)出來。
(3)盒狀結構的知識組織及體系。即“杜威十進制分類法”,該方法簡單說是將人類所有知識分為十個大的類別,然后在每個類別之下將細分的知識體系再劃分為十個類別并以此類推。簡單看就像是將知識裝進十個盒子,然后每個盒子中又有十個較小盒子。如此人類知識得以被系統(tǒng)的歸類為預留有足夠分類空間的體系當中。但是該種分類方法在摒除了知識的自然分類屬性的基礎上使得知識分類帶有人為的主觀性認識。面對大數據背景下數字圖書館的知識組織沿著“文獻到信息到知識”的路徑發(fā)展,從本體論意義來看,其構建的是立體的知識系統(tǒng),知識節(jié)點間會有很多融合和交叉,盒狀知識組織及體系顯然不能適應這種新的知識分類模式。
(4)鏈式結構的知識組織和體系,是印度圖書館學家阮岡納贊(Ranganathan)在其著作《冒號分類法》中闡述的,該方法以冒號作為分段符號,通過本體、物質、動力、空間、時間進行書籍分類。不預先設定知識位置,使得沒有“樹根”分類模式在計算機系統(tǒng)中得以應用。這種方法在當今大數據信息環(huán)境下對語義描述和知識關聯(lián)性方面顯得非常薄弱,更加不能適應數字圖書館概念化模式的構建。
基于以上發(fā)現(xiàn),無論哪種傳統(tǒng)分類方法,由于知識在計算機網絡時代不再受到物理載體的制約,因此傳統(tǒng)分類方法不能適應新的信息知識的組織體系。也進而體現(xiàn)出大數據背景下數字圖書館知識體系的構建,必須以概念本質的特征呈現(xiàn)出來,然后以此為基礎形成各種基于本體論的數字圖書館知識體系構建模式和方法。[2]
2.1網絡時代知識組織的方式
如前文所述,任何知識體系當中,人們只能對那些具有本質性、鮮明特征、最重要和最易用的知識進行挑選式的排序和分類等工作。但數字時代傳統(tǒng)的分類方式已經顯露出它的不適應性。如,動畫片《埃及王子》,故事出自于《圣經(舊約)》。按照傳統(tǒng)知識組織體系的分類,這部動畫片是應該歸類在基督教的大盒子中,還是“卡通片”的小盒子當中呢?可是從知名配音演員的角度而言,這部作品是否又應該被歸納到某一明星的作品集當中呢?按照傳統(tǒng)知識歸類方式,這一作品的很多特征信息將會被湮滅在權威、固定而且強大的傳統(tǒng)知識組織體系當中,該作品的很多知識自然屬性不能被表現(xiàn)出來。此時,不再受到傳統(tǒng)物理特性制約的數字時代知識組織歸類方式被應用到信息時代的知識歸類過程中。由此,我們發(fā)現(xiàn),數字時代的知識歸類是一種多向度的、多元化的,不斷生長的,發(fā)展變化的,能夠將知識內在聯(lián)系和隱含關聯(lián)關系表現(xiàn)出來的錯綜復雜的立體信息知識歸類結構。傳統(tǒng)知識分類的教條和呆板的組織格局在網狀結構信息知識組織結構時代被徹底打破。這也是未來知識組織結構類型的發(fā)展趨勢和方法。
2.2網絡時代知識組織分類與構成
大數據時代的知識組織歸類,其任何信息都能夠成為一種歸類方式。從用戶角度而言,當用戶依據自己的喜好要了解《埃及王子》時,可以通過歷史中的塞萬提斯一世或者是拉美西斯的鏈接進行了解;也可以通過地理中的鏈接,諸如紅?;蛘呤悄崃_河進行了解;也可以通過宗教中的《圣經》或者是《十誡》進行了解,甚至可以通過影片分類中的卡通片、奧斯卡或安妮獎進行了解,用戶對《埃及王子》的了解和掌握方式是通過不同向度的鏈接構成,而用戶并不需要關心網絡的這部“百科全書”究竟如何實現(xiàn)知識的分類。從物理介質角度來看,網絡的傳播方式使得用戶既沒有人知道,也不需要知道。
與此同時,知識的多向度使得網絡時代的知識信息產生了不同知識體系之間明顯的相關性。比如,當用戶搜索《埃及王子》時按照宗教角度的推薦,會同時向用戶提供《奇跡創(chuàng)造者》,這種類別的歸屬是通過用戶搜索行為、組織行為、詞條創(chuàng)建行為等算法產生。因此,知識組織過程中對既往用戶購買行為模式的挖掘也成為一種知識組織的模式?;诖?,我們發(fā)現(xiàn),大數據時代的知識組織體系的分類和構成不是一成不變的,而是一直處于動態(tài)的智能變化中。大數據時代基于網絡技術的知識組織分類方式已經徹底顛覆了傳統(tǒng)知識分類方式,這種網狀結構的分類可以將某一知識的特征、屬性盡可能多地表現(xiàn)出來,并以動態(tài)演進的方式構建了新的知識組織分類。[3]
對世間萬物最基本的描述,這就是源于哲學的本體一詞的概念。在當前大數據背景下的信息科學領域,特定語義描述事物的信息工程就是本體理論的最佳應用。應用本體理論的發(fā)展與演變的數字圖書館知識組織體系,將逐漸智能化和自動化結合網絡環(huán)境,形成了數字圖書館知識組織系統(tǒng)的設計與開發(fā)。
本體論和知識演變的過程是息息相關的。研究者指出本體論本身就為知識組織系統(tǒng)構建了以概念化為支點的信息系統(tǒng)本體。而哲學和科學史方面的歷史淵源為信息系統(tǒng)本體的構建提出了量化的方法和手段。繼續(xù)以前文的《埃及王子》為例,當前的網絡信息知識用標簽的形式,以用戶的認可程度為基礎形成了動態(tài)變化的《埃及王子》標簽,這些標簽有動畫、圣經故事、迪士尼、摩西、DVD、中東、歷史、靈感等多達54個標簽的選擇和設定。說明數字圖書館的知識體系分類也會基于用戶行為而產生不斷變化的分類方式。這些紛繁復雜變化的用戶標簽行為,在背后支撐數字圖書館利用本體論規(guī)范性的概念結構模型和概念之間視圖關系的語義化描述,廣泛的應用在網絡時代知識組織系統(tǒng)的設計與開放研究中。
4.1大數據背景下知識組織的解構
人類進入21世紀,當互聯(lián)網和Web2.0應用模式的盛行,人們開始反思知識精英時代知識組織的模式。反權威主義將沿襲已久、理性主義的知識組織體系徹底瓦解。這種趨勢在互聯(lián)網中最為明顯?;ヂ?lián)網中廣泛存在的站長、編輯、專家甚至是用戶都是內容提供者。知識組織的邏輯線索從精英向草根跨越。大數據背景下的數字圖書館之所以運用本體論作為知識組織邏輯方式和實現(xiàn)手段,其目標就是將一些人認為的大數據背景下的知識“無序化”進行規(guī)范化、有序化和優(yōu)化后的知識組織分類有系統(tǒng)地提供給用戶。并且這種優(yōu)化后的知識資源,為了實現(xiàn)更高的可控性知識服務,形成了知識組織固化與動態(tài)之間的相互升級過程。
但是知識組織的結構基于互聯(lián)網或者是Web2.0的發(fā)展模式來看,其存在的土壤也是豐富多樣的。以《維基百科》為例,任何人任何地點都可以對《維基百科》中沒有的內容進行編輯。以百度為例,百度詞條、百度百科等很多欄目都可以實現(xiàn)閱讀者的自由編輯;甚至百度為很多站長和普通用戶提供了自由創(chuàng)建詞條或是標簽的功能。至此,知識組織傳統(tǒng)的系統(tǒng)被徹底打破。表面看大數據背景下的知識組織是混亂和無序的,就如同一片葉子被掛在不同的樹杈上,而每一個樹杈都延伸出一個知識組織系統(tǒng)。并且用戶不用擔心自己會受到知識組織分類的干擾或者是錯誤地選擇知識類別,因為用戶可以沿著任何一個可能的標簽尋找到自己所需要的目標。因此,一些學者提出,信息時代知識組織的模式越是混亂就越是有效率。該種理論對傳統(tǒng)知識組織分類提出了挑戰(zhàn)和新的思維模式。但無序化的知識組織給當今信息世界帶來了巨大的信息污染。無序、繁雜、不知所謂的知識組織和系統(tǒng),必然會干擾用戶選擇,因此,知識組織解構之后必然是知識組織的重構。
4.2大數據背景下基于本體論的知識組織重構
大數據背景下基于本體論的數字圖書館知識組織重構,是在知識組織解構的基礎上進行的。因為簡單的解構必然會出現(xiàn)重構的因果關系,使基于本體理論的語義檢索或對話管理成為語義網絡環(huán)境下信息知識組織研究的熱點。數字圖書館此時也從傳統(tǒng)的物理或符號分類中走出來,開始向基于形式概念的知識工程和信息檢索領域發(fā)展,并獲得廣泛應用?;诒倔w概念理論的建模思想和算法,通過學者大量的實證研究證明,其對于自動化系統(tǒng)建設以及提升檢索效率有極為重要的作用和意義。由前文對本體理論的闡釋可以看出,本體理論旨在對當前無序的知識組織系統(tǒng)利用技術的不斷發(fā)展重新進行知識組織體系的構建。[4,5]
可以預見的是,未來數字圖書館必然會沿著本體合并、本體集成和本體對應三條路徑發(fā)展。本體合并是相同主體本體的發(fā)展空間出現(xiàn)進一步的協(xié)調,本體集成研究雖然開始淡化,但對于數字圖書館而言是起步之初的必由之路。本體對應則是通過大領域、開放性以及分布式的環(huán)境完全取代單一的本體。至此,基于大數據背景的數字圖書館知識組織的重構路線已經明晰,且該路徑完全符合大數據的海量數據背景和用戶行為習慣及特點等諸多特征。
5.1用戶知識關聯(lián)規(guī)則的挖掘
隨著數字圖書館知識組織建設研究在全球的不斷深入,國內學者開始從滿足用戶個性化需求的角度,參照互聯(lián)網用戶行為構建知識組織分類系統(tǒng)。其中,用戶分類、用戶偏好、用戶體驗、用戶模型等方面,都成為參照本體論的數字圖書館理論研究熱點。其中,客戶關系理論、信息構建理論、長尾理論等,均引入到數字圖書館用戶研究領域中。而技術層面的統(tǒng)計計量技術和大數據挖掘技術也在不斷的引入到數字圖書館知識體系構建過程中。需要指出的是,國外針對數字圖書館知識體系構建的研究過程中,非常注重從非盈利組織營銷的角度強調實證研究。
而關聯(lián)規(guī)則的挖掘,先后出現(xiàn)了多循環(huán)方式的AIS算法、Apriori算法、DHP算法等。數字圖書館關聯(lián)規(guī)則挖掘中,用戶群體識別和規(guī)則提取是關聯(lián)規(guī)則挖掘的重點。關聯(lián)規(guī)則挖掘過程是以關注用戶知識活動為原則的方式,突破了傳統(tǒng)忽略那些所謂“無足輕重”數據挖掘的方法。主要原因是,一些被認為是非主流的用戶已遠遠超過了主流用戶,因此,重新認識數字圖書館用戶知識活動成為關聯(lián)規(guī)則挖掘的核心。[6,7]
5.2關聯(lián)規(guī)則挖掘的技術路線
用本體論的理論基礎,在用戶市場細分過程中,大量非主流用戶的知識活動習慣已經替代了主流用戶的知識活動習慣,因此如果參照傳統(tǒng)的數據關聯(lián)規(guī)則挖掘手段,以提前設定閾限的方式進行挖掘,顯然在實際操作中會忽略很多用戶。同時造成一旦閾限改變,就不得不進行重復操作的海量工作過程。所以,如果我們將關聯(lián)規(guī)則挖掘過程區(qū)別為“穩(wěn)定階段”和“可變階段”,首先,建立數據的預處理環(huán)節(jié),只要保證數據源不發(fā)生變化,就實現(xiàn)了該技術路徑的初步穩(wěn)定性。其次,作為系統(tǒng)的核心部分,“可變階段”的技術路徑,可以產生如下的假設和應用:①如果所設定規(guī)則不具有實際意義,則通過調整支持度和置信度的閾值,在原有挖掘模型當中重新提?。虎谌绻靡?guī)則能夠滿足用戶需求,其方法就是有價值的;③反復整理被忽略的規(guī)則,直到滿足要求為止。
由以上數字圖書館關聯(lián)規(guī)則的挖掘可以看出,數字圖書館在越來越針對用戶細分、用戶體驗度等原則構建知識體系的過程中,其本質是從異質的市場中尋找同質。所以,關聯(lián)規(guī)則挖掘不是為了將用戶行為進一步分解,而是為了聚合用戶行為,將那些需求相同的用戶聚合。由此展示出數字圖書館關聯(lián)規(guī)則挖掘的邏輯方式,如圖所示。
圖數字圖書館關聯(lián)規(guī)則挖掘的邏輯方式
需要指出的是,該種數字圖書館知識組織關聯(lián)規(guī)則的挖掘,并不是提前設定挖掘的閾值,而是在技術路徑實現(xiàn)以后,通過專家設定相應閾值。由此將規(guī)則提取的難度降到目前技術條件下的最低。并通過這一方式,通過調整某領域專家所提出的閾值設定相關性參數,能夠挖掘出更為細致的關聯(lián)規(guī)則體系。由此實現(xiàn)了數字圖書館知識組織的靜態(tài)和動態(tài)兩方面分類的實現(xiàn)。目前的大數據挖掘主要呈現(xiàn)兩種特征:一種是雖然挖掘過程中不需要多次掃描數據庫,但一般必須遍歷數據庫一次。這種挖掘思想和算法制約了挖掘活動的可操作性,因為一旦閾限設置有問題,需要不斷地重復這一操作過程。另一種是本文提出的先建立關聯(lián)規(guī)則挖掘的技術路徑,將不同的技術路徑等同于關聯(lián)規(guī)則的挖掘過程,該種方式忽視了技術路徑的可重復使用的初衷。因此,本文所提出的數字圖書館關聯(lián)規(guī)則挖掘的兩個階段“穩(wěn)定階段”和“可變階段”不但能夠實現(xiàn)挖掘過程的復用性,同時簡化了海量數據重復操作的麻煩。[8]
數字圖書館用戶知識組織與知識服務,首先是知識體系的構建,構建方法有賴于基于本體論的知識關聯(lián)規(guī)則的挖掘?;诒倔w論的數字圖書館將用戶市場細分后,數字圖書館的用戶服務水平因此獲得明顯的提升。這一方法突破了傳統(tǒng)用戶活動規(guī)則的梳理,將更為科學合理的口徑指標提供給用戶,以多粒度的細分機制,構建了中小數字圖書館的知識組織體系。而大型的數字圖書館,由于其資源更為豐富,用戶的行動更加復雜,因此不同時段、不同目的下的用戶行為,其體驗度的規(guī)則挖掘展示出更為巨大的潛在價值。也因此,針對大規(guī)模或超大規(guī)模的數字圖書館,采用本文所提出的知識組織路徑和理論能夠提高該類數字圖書館的知識組織質量和服務水平。知識組織是人類發(fā)展過程中不斷演變和發(fā)展的課題,這一課題歷久彌新,承載著人類智慧每一個閃光點通過邏輯化的方式,進行組織、演變,最終更好地被人類利用的過程。而當今的數字圖書館知識組織的科學性和有效性,已經跨越了傳統(tǒng)知識組織的領域和范疇,為了實現(xiàn)更多的用戶對于知識的利用和開發(fā),當今數字圖書館知識組織研究所承擔的使命也發(fā)生了巨大變革。隨著數字圖書館知識組織體系不斷的構建與完善,多本體協(xié)同的知識地圖最終將出現(xiàn)在每一個用戶眼前,這也是數字圖書館知識組織體系發(fā)展的必由之路。
[1]滕廣青,畢強.國外本體協(xié)調研究前沿進展及熱點分析[J].中國圖書館學報,2012(1):113-121.
[2]滕廣青,畢強.從應然之思到實然之舉:知識的本體與本體化進程[J].情報理論與實踐,2011(12):21-26
[3]滕廣青.電子商務網站Folksonomy用戶Tag的語義認知分析[J].情報科學,2011(12):141-144.
[4]趙凡,冉美麗.本體論在戰(zhàn)略情報研究中的應用[J].圖書館理論與實踐,2008(2):40-41.
[5]肖希明,李碩.信息集群理論和公共數字文化資源整合[J].圖書館,2015(1):1-4.
[6]張云瑞,等.建立圖書檔案博物一體化數字網站之探討[J].齊魯工業(yè)大學學報(自然科學版),2014(4):92-95.
[7]李金芮,肖希明.國外公共數字文化資源整合管理體制模式及其適用性研究[J].圖書情報工作,2015(3):26-34.
[8]潘煦,陽廣元.近年來國內基于關聯(lián)數據的數字圖書館研究綜述[J].圖書館理論與實踐,2016(7):40-44.
Research on the Construction of Knowledge System of Large Data Digital Library Based on Ontology
Li Xie-hui
The construction of digital library knowledge system based on large data background has become an important part of digital library knowledge organization.Analyzing the network knowledge structure in digital era,this article forecasts the evolution path and development trend of knowledge organization system to realize its deconstruction and reconstruction.Based on above research,this article mines the knowledge connection rules data of digital library readers based on ontology,which provide reference for construction of knowledge system of large data digital library.Meanwhile,it demonstrates the methods and key technologies of large data digital library systematically.
Ontology;Big Data;Digital Library;Knowledge System
G250.76
A
1005-8214(2016)10-0047-05
本文系CALIS廣西壯族自治區(qū)文獻信息服務中心項目“基于大數據的數字圖書館移動視覺搜索機制及應用研究”(項目編號:CALISGX201604),CALIS廣西壯族自治區(qū)文獻信息服務中心項目“可穿戴計算機設備在圖書館信息服務中的應用研究”(項目編號:CALISGX201606)的研究成果。
李燮慧(1973-),女,廣西柳州職業(yè)技術學院圖書館館員。
2016-01-21[責任編輯]李海燕