周笑盈 魏大威
(國(guó)家圖書館 北京 100081)
數(shù)字人文是將計(jì)算機(jī)技術(shù)深入應(yīng)用于傳統(tǒng)人文學(xué)科的跨領(lǐng)域融合產(chǎn)物,是將現(xiàn)代信息技術(shù)融入人文研究領(lǐng)域,改變知識(shí)獲取、標(biāo)注、比較的方式,通過分析、可視化等手段重塑知識(shí),幫助人文研究學(xué)者與普通知識(shí)受眾更好地了解知識(shí)之間的關(guān)聯(lián),把握人文知識(shí)的宏觀發(fā)展規(guī)律和趨勢(shì)。
數(shù)字人文要求在對(duì)知識(shí)進(jìn)行有序整理的基礎(chǔ)上,依據(jù)不同的知識(shí)需求,提供不同形式的知識(shí)服務(wù)。當(dāng)用戶需要了解某一客體時(shí),需要對(duì)該事物特征進(jìn)行可視化展現(xiàn);當(dāng)用戶需要了解不同客體的聯(lián)系時(shí),需要對(duì)不同客體之間的關(guān)聯(lián)關(guān)系進(jìn)行可視化展現(xiàn);當(dāng)用戶需要了解事物時(shí)空發(fā)展邏輯時(shí),需要對(duì)演進(jìn)路徑進(jìn)行可視化展現(xiàn)。知識(shí)可視化是以圖形、圖像、交互網(wǎng)頁(yè)的形式對(duì)融合、聚類后的知識(shí)體系進(jìn)行視覺表征,以滿足用戶個(gè)性化的知識(shí)需求。隨著知識(shí)組織的不斷深入,數(shù)字圖書館可以更大程度地實(shí)現(xiàn)知識(shí)資源的深度聚合,提升用戶對(duì)于知識(shí)信息的理解性認(rèn)知水平,提升知識(shí)資源的利用效率。知識(shí)可視化是未來數(shù)字圖書館滿足用戶深層知識(shí)需求、促進(jìn)知識(shí)消費(fèi)水平升級(jí)的必由之路。
知識(shí)可視化源于科學(xué)計(jì)算可視化, 2004 年,M.J.埃普拉(Martin J. Eppler)和R.A.伯卡德(Remo A. Burkhard)首次提出了知識(shí)可視化(Knowledge Visualization)這一概念,指出知識(shí)可視化是指所有用來建構(gòu)和傳遞復(fù)雜見解的圖解手段。在國(guó)內(nèi),趙國(guó)慶認(rèn)為知識(shí)可視化是研究如何應(yīng)用視覺表征改進(jìn)兩個(gè)或兩個(gè)以上的人之間復(fù)雜知識(shí)創(chuàng)造與傳遞的學(xué)科。此后,“科學(xué)可視化”“數(shù)據(jù)可視化”概念相繼被提出。知識(shí)可視化的概念與信息圖形、信息可視化、科學(xué)可視化以及數(shù)據(jù)圖形密切相關(guān),圖是知識(shí)可視化的基礎(chǔ),視覺表征是知識(shí)可視化的目的所在,認(rèn)知是知識(shí)可視化的突出特點(diǎn)。
結(jié)合在數(shù)字圖書館領(lǐng)域的具體應(yīng)用,知識(shí)可視化是對(duì)數(shù)字圖書館資源聚合結(jié)果處理與利用的過程,綜合利用聚合技術(shù)對(duì)資源進(jìn)行聚類與融合,再對(duì)聚合后的數(shù)字資源進(jìn)行基于視覺表征形式的知識(shí)解構(gòu)、分析和利用,最終促進(jìn)知識(shí)組織從“數(shù)據(jù)—信息—知識(shí)—智慧”的方向進(jìn)行轉(zhuǎn)化,以實(shí)現(xiàn)知識(shí)資源的再利用。借助于知識(shí)聚合和知識(shí)可視化,數(shù)字圖書館可以更好地推進(jìn)資源有序化處理,實(shí)現(xiàn)基于用戶個(gè)性化與精準(zhǔn)化知識(shí)需求的資源開發(fā)與組織。
1781 年德國(guó)哲學(xué)家康德提出了圖式理論,認(rèn)為思維可視化由四部分組成,分別為構(gòu)建、推論、搜索、整合。1986年心理學(xué)家佩維奧提出人類認(rèn)知的雙重編碼理論,認(rèn)為人類認(rèn)知基于兩個(gè)獨(dú)立且密切聯(lián)系的認(rèn)知子系統(tǒng):言語(yǔ)系統(tǒng)和非言語(yǔ)系統(tǒng),言語(yǔ)系統(tǒng)主要輸入和輸出言語(yǔ)對(duì)象,非言語(yǔ)系統(tǒng)用于表征和處理非言語(yǔ)對(duì)象,知識(shí)可視化輔助言語(yǔ)理解,通過圖像表征系統(tǒng)提高知識(shí)傳播效能,降低言語(yǔ)認(rèn)知負(fù)荷。國(guó)內(nèi)王朝云提出的經(jīng)驗(yàn)之塔理論是知識(shí)可視化理論的基礎(chǔ),該理論將學(xué)習(xí)經(jīng)驗(yàn)分為實(shí)踐經(jīng)驗(yàn)、觀察經(jīng)驗(yàn)和抽象經(jīng)驗(yàn)三種,將知識(shí)可視化的過程抽象為認(rèn)知金字塔模型,位于金字塔最底層的是最具體的實(shí)踐經(jīng)驗(yàn),越往塔頂經(jīng)驗(yàn)越抽象,學(xué)習(xí)者需具備豐富經(jīng)驗(yàn)才可實(shí)現(xiàn)從具體經(jīng)驗(yàn)向抽象經(jīng)驗(yàn)的進(jìn)階。
20 世紀(jì)50 年代興起的認(rèn)知心理學(xué)被認(rèn)為是語(yǔ)義網(wǎng)模型的基礎(chǔ),認(rèn)知心理學(xué)將事件抽象為概念節(jié)點(diǎn),用節(jié)點(diǎn)間的線條和箭頭指向表示概念間的聯(lián)系,節(jié)點(diǎn)之間按照上下層的組織關(guān)系構(gòu)成網(wǎng)絡(luò)系統(tǒng),在語(yǔ)義網(wǎng)環(huán)境中通過概念節(jié)點(diǎn)的激活和擴(kuò)散搭建概念網(wǎng)絡(luò)并根據(jù)節(jié)點(diǎn)間聯(lián)系的緊密程度分析概念間的語(yǔ)義距離,為網(wǎng)狀知識(shí)圖分析提供支撐。
國(guó)內(nèi)外學(xué)者對(duì)知識(shí)可視化的框架方法進(jìn)行了大量的研究,取得了重要的成果。M.J.埃普拉、R.A.伯卡德最早提出知識(shí)可視化框架,基于知識(shí)類型、可視化目的和視覺表征三個(gè)分類搭建知識(shí)可視化框架,主要回答了知識(shí)可視化的三個(gè)關(guān)鍵性問題:可視化的知識(shí)類型有哪些?(what)為什么要進(jìn)行知識(shí)可視化?(why)如何進(jìn)行知識(shí)可視化?(how)2005 年R.A.伯卡德對(duì)上述框架進(jìn)行進(jìn)一步的修訂和完善,強(qiáng)調(diào)了知識(shí)的發(fā)送者與接受者之間的互動(dòng)過程。M.J.埃普拉、R.A.伯卡德將知識(shí)可視化視覺表征概括為6種類型:①啟發(fā)式草圖( Heuristic Sketches ); ②概念圖表( Conceptual Diagrams ); ③可視化隱喻( Visual Metaphors ); ④知識(shí)動(dòng)畫( Knowledge Animations ); ⑤知識(shí)地圖( Knowledge Maps ); ⑥科學(xué)圖表( Scientific Charts )。
國(guó)內(nèi)學(xué)者李潔、畢強(qiáng)[1]基于社會(huì)網(wǎng)絡(luò)可視化(Social Network Visualization,SNV)理論,結(jié)合社會(huì)網(wǎng)絡(luò)分析方法、知識(shí)計(jì)量方法和知識(shí)圖譜、知識(shí)網(wǎng)絡(luò)理論提出了“DLRs-KA 一體兩翼框架圖”,以知識(shí)聚合為中心,社會(huì)網(wǎng)絡(luò)可視化和知識(shí)計(jì)量作為兩翼,構(gòu)建數(shù)字圖書館資源知識(shí)聚合的可視化模型。周寧、張李義提出了信息資源可視化RDV 模型,RDV 模型由原始數(shù)據(jù)層析取數(shù)據(jù)的特征屬性,搭建數(shù)據(jù)特征關(guān)系層,通過關(guān)系映射構(gòu)建可視化對(duì)象層。趙慧臣[2]提出知識(shí)可視化視覺表征的分析框架,從圖像視角、技術(shù)視角和知識(shí)視角探討知識(shí)可視化視覺表征框架的設(shè)計(jì)和應(yīng)用。圖像視角重平面元素,輕視覺傳播因素;技術(shù)視角重技術(shù)制作步驟,輕制作者創(chuàng)造過程;知識(shí)視角重視覺表征的功能,輕內(nèi)容建構(gòu)的方法。
總體而言,國(guó)內(nèi)知識(shí)可視化研究側(cè)重于對(duì)單一客體的特征性表達(dá),對(duì)不同客體之間的關(guān)系與時(shí)空演進(jìn)知識(shí)的可視化研究較少,未形成基于不同需求類型的完整的可視化方法模型。本研究希望在總結(jié)現(xiàn)有數(shù)字人文可視化成果的基礎(chǔ)上,歸納出基于需求的知識(shí)可視化框架。
數(shù)字資源具有多面性,對(duì)資源的解讀是多側(cè)面的,因此可視化的解讀維度也應(yīng)是立體的和全方位的。本文基于需求,從特征描述、關(guān)系描述、演進(jìn)描述三個(gè)需求類型,對(duì)知識(shí)可視化方法進(jìn)行歸納,進(jìn)而建立基于不同需求的知識(shí)可視化模型。
圖1 知識(shí)可視化視覺表征的分析視角
特征描述需求重點(diǎn)在描述知識(shí)本身,以知識(shí)單元作為可視化的基礎(chǔ),通過矩陣排列、節(jié)點(diǎn)連線等形式展示知識(shí)單元的特征屬性、分布規(guī)律和結(jié)構(gòu)關(guān)系,參照可視化技術(shù)的分類,可將特征描述可視化依據(jù)要素維度分為單要素可視化和多要素可視化。
(1)單要素主題模型
人文科學(xué)研究的主要材料是文本資源,屬非結(jié)構(gòu)化數(shù)據(jù),對(duì)非結(jié)構(gòu)化數(shù)據(jù)的大規(guī)模量化分析需要借助計(jì)算機(jī)的自然語(yǔ)言處理技術(shù),常見的自然語(yǔ)言可視化方法為單要素主題模型。單要素主題模型主要針對(duì)資源的單個(gè)數(shù)值要素屬性進(jìn)行分析,例如定義多維空間,利用空間節(jié)點(diǎn)作為要素屬性節(jié)點(diǎn),在不同節(jié)點(diǎn)間建立從屬關(guān)系或關(guān)聯(lián)關(guān)系,主題層與資源實(shí)體(即數(shù)字資源,例如文本、視頻、網(wǎng)頁(yè))通過統(tǒng)一資源定位符完成資源指引。圖2 顯示了國(guó)家圖書館講座關(guān)聯(lián)數(shù)據(jù)平臺(tái)主題詞詞云。國(guó)家圖書館講座關(guān)聯(lián)數(shù)據(jù)平臺(tái)針對(duì)公開課資源進(jìn)行基于元數(shù)據(jù)的關(guān)聯(lián)數(shù)據(jù)加工,參考中文名稱規(guī)范數(shù)據(jù)庫(kù),利用資源描述框架(RDF)對(duì)元數(shù)據(jù)的題名、課程簡(jiǎn)介、學(xué)科分類、主題詞、課程評(píng)價(jià)、相關(guān)推薦、主講人等元數(shù)據(jù)進(jìn)行標(biāo)引和語(yǔ)義化描述,形成關(guān)聯(lián)數(shù)據(jù)集,將課程信息、主講人信息及課程所涉及知識(shí)點(diǎn)以散射圖的形式對(duì)課程信息進(jìn)行補(bǔ)充,變層級(jí)導(dǎo)航為網(wǎng)狀導(dǎo)航。圖2 對(duì)講座視頻元數(shù)據(jù)信息表中的主題詞進(jìn)行提取后,生成主題詞詞云圖,方便讀者發(fā)現(xiàn)課程數(shù)據(jù)中所隱含的知識(shí)及知識(shí)的發(fā)展趨勢(shì)。
圖2 國(guó)家圖書館講座主題詞詞云
(2)多要素可視化
多要素可視化是針對(duì)三個(gè)或三個(gè)以上的要素進(jìn)行可視化展示的方式,既可以展示大數(shù)據(jù)集的整體趨勢(shì),又可以顯示小數(shù)據(jù)的詳細(xì)特征,如雙曲線樹、概念圖、思維導(dǎo)圖、認(rèn)知地圖等。
概念圖是應(yīng)用較為廣泛的可視化方法,它用節(jié)點(diǎn)表示概念,通過連線方式將不同的概念進(jìn)行連接,不同節(jié)點(diǎn)之間一般為層級(jí)結(jié)構(gòu)和交叉連接關(guān)系,一般用來表示某一主題的層級(jí)結(jié)構(gòu)和相關(guān)文獻(xiàn)、背景知識(shí)的關(guān)系,主要用于對(duì)抽象概念的理解和層級(jí)關(guān)系分析。如圖3 表示各概念的層級(jí)結(jié)構(gòu),各層級(jí)分別為:主要概念、一般概念、概念、具體概念與實(shí)例,通過方框表示概念節(jié)點(diǎn),通過連線揭示不同概念之間的層級(jí)關(guān)系。
圖3 概念圖
2012 年,Google 率先提出知識(shí)圖譜(Knowledge Graph)的概念,本意在提升搜索引擎的智能化水平,而這個(gè)概念,在 2013 年后開始被學(xué)術(shù)界和業(yè)界廣泛使用。知識(shí)圖譜本質(zhì)上是一種語(yǔ)義網(wǎng)絡(luò)知識(shí)庫(kù),具有有向圖結(jié)構(gòu),以結(jié)點(diǎn)表示實(shí)體或者概念,以邊表示實(shí)體或者概念之間的語(yǔ)義關(guān)系,在搜索引擎、智能系統(tǒng)、數(shù)據(jù)可視化等應(yīng)用中發(fā)揮重要作用。
關(guān)系維度的共現(xiàn)知識(shí)圖譜是對(duì)數(shù)據(jù)的量化分析,關(guān)系維度的共現(xiàn)知識(shí)圖譜的視覺表征形式具體包括詞頻分析法、共詞分析法、共被引分析、社會(huì)網(wǎng)絡(luò)分析等,以知識(shí)圖譜方式形象直觀地表達(dá)各領(lǐng)域?qū)W科的研究熱點(diǎn)與研究趨勢(shì)。
(1)詞頻分析
詞頻法是傳統(tǒng)的計(jì)量分析方法,因其簡(jiǎn)單易行、便于應(yīng)用,又被稱作省力法則。其理論基礎(chǔ)是齊普夫定律,通過分析相關(guān)文獻(xiàn)中關(guān)鍵詞或者主題詞的出現(xiàn)次數(shù),反映文獻(xiàn)的研究?jī)?nèi)容和研究方向。
(2)共詞分析法
共詞分析法顧名思義,是統(tǒng)計(jì)一組詞匯共同出現(xiàn)的次數(shù),并以共同出現(xiàn)的次數(shù)為基礎(chǔ),來判定該組詞匯中不同詞語(yǔ)的親疏關(guān)系,出現(xiàn)在同一篇文章中的次數(shù)越多,兩個(gè)詞語(yǔ)之間的關(guān)系就越密切。通過共詞分析的方法來分析關(guān)鍵詞,可以很好地展現(xiàn)出關(guān)鍵詞之間的密切程度。
共詞分析法以關(guān)鍵詞為節(jié)點(diǎn),可以通過連線的方式來建立共詞網(wǎng)絡(luò)。在共詞網(wǎng)絡(luò)中,離得遠(yuǎn)的關(guān)鍵詞,共同出現(xiàn)的次數(shù)低,以此可以表示出該研究領(lǐng)域研究主題的關(guān)聯(lián)性以及研究主題的演進(jìn)邏輯。在計(jì)量學(xué)領(lǐng)域,共詞分析主要用于識(shí)別某一專業(yè)研究領(lǐng)域的主題和熱點(diǎn)。
(3)共被引分析
共被引分析與共詞分析類似,統(tǒng)計(jì)兩篇文章中作者、機(jī)構(gòu)或引文被共同引用的次數(shù),并以共被引網(wǎng)絡(luò)對(duì)共被引關(guān)系進(jìn)行表示,共被引網(wǎng)絡(luò)中兩篇文章距離越近,說明兩篇文章描繪的主體更接近,關(guān)系更為密切。共被引分析體現(xiàn)了學(xué)科交叉、滲透的特征,利用數(shù)學(xué)及統(tǒng)計(jì)學(xué)的歸納、概括等邏輯方法,揭示作者、機(jī)構(gòu)或引文計(jì)量分析的內(nèi)在規(guī)律。
常用的共被引分析主要包括三類主體:文獻(xiàn)共被引、作者共被引、期刊共被引。文獻(xiàn)共被引主要研究學(xué)科前沿,挖掘?qū)W科結(jié)構(gòu);作者共被引主要揭示學(xué)者研究興趣的變化;期刊共被引主要對(duì)期刊進(jìn)行定位和分類,確定期刊在學(xué)科中的核心或邊緣地位。
共被引分析的具體形式包括:引文耦合、引文共被引、作者耦合、作者共被引、期刊耦合和期刊共被引等。隨著矩陣分析、網(wǎng)絡(luò)可視化技術(shù)的發(fā)展,引文分析的結(jié)果可以用更直觀的方式展示出來,這一方法得到圖情學(xué)、統(tǒng)計(jì)學(xué)等各領(lǐng)域的廣泛認(rèn)可。
(4)社會(huì)網(wǎng)絡(luò)分析
社會(huì)網(wǎng)絡(luò)關(guān)系是通過特定的模型,利用特定的關(guān)聯(lián)關(guān)系,將人與人之間建立聯(lián)系,以此建立人與人之間相互影響的關(guān)聯(lián)模型?;诖?,可以分析某一時(shí)間對(duì)社會(huì)全體的聯(lián)動(dòng)影響。
圖4 顯示了國(guó)圖公開課主題詞分類的共現(xiàn)關(guān)系。圖4是國(guó)家圖書館講座關(guān)聯(lián)數(shù)據(jù)平臺(tái)主題詞分類關(guān)系,基于語(yǔ)義網(wǎng)同主題的語(yǔ)義聚類屬性,對(duì)講座視頻元數(shù)據(jù)信息表中的主題詞按照學(xué)科門類進(jìn)行共現(xiàn)分析,方便讀者更準(zhǔn)確地了解課程數(shù)據(jù)整體框架,并從語(yǔ)義層面為深入搜索提供支持。
圖4 國(guó)家圖書館講座視頻數(shù)據(jù)庫(kù)主題詞分類關(guān)系圖
關(guān)系維度的知識(shí)可視化主要流程包括:知識(shí)單元抽取、知識(shí)單元整合、知識(shí)可視化。知識(shí)單元抽取是數(shù)據(jù)量化分析的第一步,是共現(xiàn)知識(shí)圖譜構(gòu)建的基本元素。知識(shí)單元的內(nèi)容包括作者、關(guān)鍵詞、機(jī)構(gòu)等著錄內(nèi)容,或基于文本提取的術(shù)語(yǔ)詞源。知識(shí)單元整合環(huán)節(jié)對(duì)知識(shí)單元間的屬性進(jìn)行抽取,利用聚類技術(shù)、多維尺度分析等方法對(duì)知識(shí)單元間的關(guān)系和潛在規(guī)律進(jìn)行挖掘,引入算法分析知識(shí)單元的關(guān)系和發(fā)展脈絡(luò),常用的算法包括布局算法和統(tǒng)計(jì)算法。布局算法通過對(duì)不同知識(shí)單元的距離大小和關(guān)系連線強(qiáng)弱進(jìn)行分析,得到不同節(jié)點(diǎn)間的共現(xiàn)強(qiáng)度,統(tǒng)計(jì)算法對(duì)不同知識(shí)單元進(jìn)行關(guān)系聚類,以展示整體的發(fā)展脈絡(luò)和演化過程。知識(shí)可視化基于抽取的特征屬性,將數(shù)據(jù)屬性(例如知識(shí)單元的連線、共現(xiàn)頻次等)映射到圖譜屬性上,最終將知識(shí)單元間關(guān)系的分析結(jié)果以圖的形式表現(xiàn)出來。
數(shù)字人文研究將人文敘事與地理空間技術(shù)相結(jié)合,采用定性分析與定量分析相結(jié)合的手段,將多樣的事件納入到時(shí)空參考框架中進(jìn)行可視化和分析,為拓展地理空間技術(shù)在人文社會(huì)學(xué)科中的應(yīng)用奠定了基礎(chǔ)。
時(shí)空維度的敘事可視化主要針對(duì)文本格式的數(shù)據(jù),簡(jiǎn)單的敘事描述包括when、where、what(何時(shí)、何地、何事),復(fù)雜的敘事描述包括5W1H:when、where、what、who、why、how(何時(shí)、何地、何事、何人、何因、如何)。時(shí)空維度的敘事可視化凸顯了知識(shí)可視化的時(shí)空性和動(dòng)態(tài)性視覺表征特點(diǎn),特別是對(duì)于長(zhǎng)時(shí)間跨度的歷史事件,隨著時(shí)間的發(fā)展,事件的空間狀態(tài)和其他要素屬性的變化可以通過時(shí)空維度的可視化進(jìn)行動(dòng)態(tài)展現(xiàn)。
時(shí)空層面的敘事可視化主要涉及時(shí)間維度和空間維度兩個(gè)層面,涉及的要素主要包括四類:時(shí)間信息要素、空間信息要素、人物關(guān)系要素和主題關(guān)鍵詞要素,不僅要能夠?qū)⑷宋镪P(guān)系、事件主題特征等多維屬性納入時(shí)空框架之中,同時(shí)涉及文本挖掘、文本要素的地理空間映射以及可視化認(rèn)知與表達(dá)等研究領(lǐng)域??梢暬鞒贪ㄋ牟剑旱谝徊酵ㄟ^文本挖掘技術(shù)與人工輔助識(shí)別相結(jié)合的方法,識(shí)別地名、時(shí)間、人物、關(guān)鍵詞等事件信息;第二步構(gòu)建事件要素的存儲(chǔ)模型,對(duì)事件進(jìn)行不同層次的劃分;第三步通過地名共現(xiàn)、人物共現(xiàn)等方法進(jìn)行數(shù)據(jù)關(guān)系分析;第四步在時(shí)空框架中對(duì)事件進(jìn)行還原與展示。
(1)時(shí)間軸可視化
時(shí)間軸的可視化有生命線可視化展示、二維時(shí)空路徑和流向地圖三種可視化效果。生命線可視化是時(shí)間的多維拓展,在病人就醫(yī)記錄、犯人犯罪記錄、歷史記錄以及各種傳記數(shù)據(jù)可視化中被廣泛應(yīng)用。二維時(shí)空路徑是一種帶有地理坐標(biāo)信息的生命線,將資源內(nèi)容按照時(shí)間軸的順序映射到二維地圖上。
(2)地理信息系統(tǒng)(GIS)
地理信息系統(tǒng)(GIS)的應(yīng)用形式多樣,最常見的是通過Web 模式提供位置服務(wù)的谷歌地圖、百度地圖、高德地圖等。GIS 在數(shù)字人文領(lǐng)域的應(yīng)用是指通過添加元數(shù)據(jù)的時(shí)間信息和空間信息,以顯示不同時(shí)期、不同地點(diǎn)變化的特點(diǎn)。GIS 的應(yīng)用一般包括三個(gè)功能:后端位置存儲(chǔ)功能、前端數(shù)據(jù)圖層插件和平臺(tái)API 插件。GIS 的應(yīng)用場(chǎng)景一般選用典型的B/S 架構(gòu),如基于高德地圖的Web 模式GIS 技術(shù),通過云平臺(tái)提供位置服務(wù),云平臺(tái)配備位置存儲(chǔ)服務(wù),通過地理位置的名稱識(shí)別自動(dòng)匹配經(jīng)緯度坐標(biāo),通過云數(shù)據(jù)圖層插件將數(shù)據(jù)信息疊加到地圖上,通過平臺(tái)API 插件提供數(shù)據(jù)檢索、區(qū)域面積計(jì)算等功能。使用者只需配備相關(guān)數(shù)據(jù),通過平臺(tái)的配置和客戶端編碼,即可實(shí)現(xiàn)數(shù)據(jù)的可視化研究,同時(shí)可根據(jù)地域面積與數(shù)據(jù)內(nèi)容的匹配度進(jìn)行伸縮的精細(xì)化展示。
本文以“國(guó)圖公開課”視頻資源的內(nèi)容挖掘和可視化為例,對(duì)不同的需求類型采用不同的可視化方式進(jìn)行知識(shí)可視化展現(xiàn)。筆者利用文本挖掘軟件對(duì)國(guó)圖公開課與絲綢之路相關(guān)的視頻文本進(jìn)行了提取,得到人物、時(shí)間、地點(diǎn)、事件信息,基于特征描述、關(guān)系描述、演進(jìn)描述三種需求對(duì)公開課視頻內(nèi)容進(jìn)行了聚類分析、多維尺度分析和社會(huì)網(wǎng)絡(luò)分析,構(gòu)建關(guān)鍵詞詞云、實(shí)體共現(xiàn)矩陣、地理標(biāo)簽云圖和時(shí)間軸標(biāo)簽云圖。
國(guó)圖公開課是國(guó)家圖書館借鑒“慕課”的在線課程理念設(shè)立的專題在線學(xué)習(xí)課程,目前發(fā)布在線課程1 600 余場(chǎng)。本文選取“絲綢之路”這一主題采集視頻樣品,絲綢之路是古代中華民族對(duì)世界文明的巨大貢獻(xiàn),在“一帶一路”的背景下,絲綢之路又煥發(fā)了新的生機(jī),對(duì)這一主題進(jìn)行研究具有重要的歷史意義與現(xiàn)實(shí)意義。
筆者在國(guó)圖公開課視頻平臺(tái)中搜索“絲綢之路”,得到與“絲綢之路”相關(guān)的公開課視頻4個(gè),時(shí)長(zhǎng)超過1 000分鐘,公開課視頻資源相關(guān)信息如表1 所示;針對(duì)4 個(gè)公開課視頻提取字幕文件,對(duì)文本文件進(jìn)行切分、識(shí)別,根據(jù)算法找到最優(yōu)分詞路徑,利用智能分詞軟件和詞性標(biāo)注模塊完成所有字幕內(nèi)容的分詞與詞性標(biāo)注。
實(shí)體抽取是基于角色標(biāo)注算法自動(dòng)識(shí)別命名實(shí)體,通過對(duì)語(yǔ)言規(guī)律的理解和科學(xué)預(yù)測(cè),智能識(shí)別文本中出現(xiàn)的人名、地名、時(shí)間、事件及文章的主題關(guān)鍵詞。筆者通過對(duì)國(guó)圖公開課視頻內(nèi)容中事件類、地點(diǎn)類、人物類、時(shí)間類關(guān)鍵詞的提取與整理,設(shè)置自定義詞表,重新分詞得到分類關(guān)鍵詞有效詞表。表2 列出了各分類中排名前30 位的關(guān)鍵詞,由此可以大致了解絲綢之路公開課視頻的核心內(nèi)容。
表1 國(guó)圖公開課樣本視頻信息
我們?cè)谶M(jìn)行文本分詞時(shí)利用分詞與詞性識(shí)別軟件判斷每個(gè)詞語(yǔ)的詞性,即名詞、動(dòng)詞、形容詞等,篩選出所有的名詞和動(dòng)詞,并就單一要素設(shè)計(jì)可視化視圖,圖5 為對(duì)地名要素進(jìn)行詞頻統(tǒng)計(jì)后的可視化圖。
利用文本挖掘軟件對(duì)人名、地名、時(shí)間點(diǎn)、事件四類要素的所有關(guān)鍵詞進(jìn)行詞頻分析,生成詞云圖。從圖6 中可以清晰看出,“唐朝”“西域”“日本”“敦煌”“中亞”“絲織”“傳教士”“收藏”“文化遺產(chǎn)”等關(guān)鍵詞處于圖譜的中心位置,這些關(guān)鍵詞是絲綢之路公開課文本的核心內(nèi)容。
表2 國(guó)圖公開課視頻內(nèi)容實(shí)體詞頻統(tǒng)計(jì)
圖5 國(guó)圖公開課地名高頻詞可視化
而在網(wǎng)絡(luò)邊緣的“遣唐使”“大運(yùn)河”“回鶻”“高麗香料”等關(guān)鍵詞雖然游離于核心詞之外,卻對(duì)絲綢之路的注解更為具體,代表了絲綢之路內(nèi)容中的具體領(lǐng)域和發(fā)展趨勢(shì),同樣具有重要的價(jià)值。
圖6 絲綢之路國(guó)圖公開課視頻內(nèi)容關(guān)鍵詞云圖
在特征描述可視化的基礎(chǔ)上,本文嘗試對(duì)大規(guī)模視頻內(nèi)容中的地名、人物和事件進(jìn)行共現(xiàn)分析,旨在對(duì)事件中潛在的空間模式、人物關(guān)系和事件關(guān)系進(jìn)行探究。共現(xiàn)分析有兩個(gè)前提,即重要的關(guān)鍵詞會(huì)在視頻內(nèi)容中反復(fù)出現(xiàn),同時(shí)關(guān)系越緊密的主題詞在相同段落中同時(shí)出現(xiàn)的概率也越大。其具體的實(shí)現(xiàn)方法為,首先通過文本挖掘識(shí)別出公開課視頻資源中所有出現(xiàn)的地名、人物和事件,進(jìn)而統(tǒng)計(jì)每?jī)蓚€(gè)主題詞在200 字以內(nèi)共同出現(xiàn)的次數(shù),生成地名共現(xiàn)矩陣。人物共現(xiàn)關(guān)系圖和事件共現(xiàn)矩陣,在共現(xiàn)網(wǎng)絡(luò)中,一個(gè)地名、人名和事件名稱對(duì)應(yīng)網(wǎng)絡(luò)中的一個(gè)節(jié)點(diǎn),任意兩個(gè)共同出現(xiàn)節(jié)點(diǎn)之間會(huì)生成一條邊,邊的權(quán)重即為二者之間的共現(xiàn)頻次。在共現(xiàn)模型的基礎(chǔ)上,利用網(wǎng)絡(luò)可視化技術(shù),生成共現(xiàn)網(wǎng)絡(luò)。圖7 便是根據(jù)前文中識(shí)別的地名,生成的地名共現(xiàn)矩陣。
圖7 地名共現(xiàn)矩陣
從關(guān)鍵詞網(wǎng)絡(luò)分析結(jié)果中,可以看出地名之間的結(jié)構(gòu)關(guān)系。在地名共現(xiàn)網(wǎng)絡(luò)中,“中國(guó)”這一節(jié)點(diǎn)位于網(wǎng)絡(luò)中核心的位置,對(duì)其他關(guān)鍵詞共現(xiàn)的影響力最大。與“中國(guó)”這一節(jié)點(diǎn)關(guān)聯(lián)度最高的分別是“歐洲”“日本”“印度”,可見絲綢之路的主要地理趨向?yàn)橄蛭鞯挠《取獨(dú)W洲、向東的日本,絲綢之路成為了古代東西方經(jīng)濟(jì)文化交流的主要通道和溝通中國(guó)與歐亞大陸的重要通路。
從圖8 的事件共現(xiàn)矩陣中可以看出,公開課主講人在講座內(nèi)容中的核心節(jié)點(diǎn)為“絲綢之路”,與這一節(jié)點(diǎn)關(guān)聯(lián)度最高的有兩類主題:文化遺產(chǎn)與文化交流。與文化遺產(chǎn)相關(guān)的事件分別為“申遺”“考古”,與文化遺產(chǎn)類主題網(wǎng)絡(luò)離散程度稍低的事件包括“馬王堆”“四大發(fā)明”“收藏”;與文化交流相關(guān)的事件分別為“文化交流”“交流”,與文化交流類主題網(wǎng)絡(luò)離散程度稍低的事件包括“聯(lián)合國(guó)教科文組織”“二戰(zhàn)”“印刷術(shù)”等。可以看出,絲綢之路不僅是中外貿(mào)易的交流通路,還是世界文化交融的載體。在古絲綢之路上,各國(guó)家各民族交易的內(nèi)容十分豐富,有茶葉、玉器、香料等,絲綢只是其中一種。在“一帶一路”的背景下,絲綢之路作為中西文化交流的平臺(tái)又煥發(fā)了新的生機(jī)。
圖8 事件共現(xiàn)可視化
圖9 是基于事件、人名、地名和時(shí)間所生成的多要素共現(xiàn)矩陣。從該共現(xiàn)矩陣中可以看出,主講人在絲綢之路的講解中,以“中國(guó)”為核心,與核心節(jié)點(diǎn)關(guān)聯(lián)度最高的多為地點(diǎn)類節(jié)點(diǎn)(例如“日本”“印度”“波斯”“新疆”“敦煌”),其次為時(shí)間類節(jié)點(diǎn)(例如“唐代”“漢代”“西夏”),最邊緣的關(guān)聯(lián)節(jié)點(diǎn)多為事件類和人名類。由此看出,主講人對(duì)于絲綢之路的研究以地域?yàn)橹饕}絡(luò),時(shí)間線為輔助脈絡(luò)。關(guān)系描述的知識(shí)可視化更能反映出知識(shí)之間的關(guān)聯(lián)和依賴關(guān)系,可以挖掘出內(nèi)容中所包含隱性知識(shí)之間的聯(lián)系。
圖9 事件、人名、地名、時(shí)間共現(xiàn)矩陣
演進(jìn)描述可視化的應(yīng)用范圍廣泛,歷史事件、新聞、課程資料等都可被納入演進(jìn)描述的框架中進(jìn)行表達(dá)。公開課的課程內(nèi)容由多個(gè)事件組成的,內(nèi)容跨度長(zhǎng),敘事文本多來自于人文作品,屬于自由文體,具有高度的靈活性。筆者在前文的信息規(guī)范化處理的基礎(chǔ)上,將課程文本中的時(shí)間信息、地名信息、人物信息、事件關(guān)系等納入時(shí)空框架統(tǒng)一進(jìn)行管理,以地理標(biāo)簽云與時(shí)間軸標(biāo)簽云的方式進(jìn)行可視化表達(dá)。
地理標(biāo)簽云是地理信息可視化的組成部分,常規(guī)地圖標(biāo)注往往注重地理要素的單一屬性,而地理標(biāo)簽云結(jié)合了地圖可視化與文本可視化技術(shù)。動(dòng)態(tài)的地理標(biāo)簽云還能從數(shù)據(jù)庫(kù)中實(shí)時(shí)抽取數(shù)據(jù),根據(jù)不同比例尺實(shí)現(xiàn)動(dòng)態(tài)信息顯示。本文選取了中國(guó)地圖和世界地圖作為空間信息數(shù)據(jù)源,在中國(guó)地圖中根據(jù)主題詞權(quán)重確定主要省份標(biāo)簽,以主要省份為單位,計(jì)算其他結(jié)構(gòu)化信息與地理信息的共現(xiàn)關(guān)系,按照主題詞權(quán)重順序依次顯示在對(duì)應(yīng)的省份上;在世界地圖中根據(jù)國(guó)家主題詞權(quán)重確定主要國(guó)家標(biāo)簽,根據(jù)共現(xiàn)關(guān)聯(lián)生成主要國(guó)家地理標(biāo)簽云。從圖10 中可以看出,國(guó)內(nèi)與絲綢之路相關(guān)的省份主要為中西部的甘肅、寧夏、青海、陜西、四川、新疆和東部的浙江、江蘇。東部省份的主題詞多與絲織工藝有關(guān),西部省份的主題詞多與運(yùn)輸通路有關(guān),自東向西主要涉及的地域包括嘉興、杭州、海寧—河西走廊、麥積山、蘭州—敦煌、阿爾泰山等。從圖11 中可以看出絲綢之路在世界各國(guó)的大體通路,向東與日本的交流主要為文化交流,“唐朝”“遣唐使”成為權(quán)重較高的主題詞;向西與印度的交流則以“佛教”的交流為主,與歐洲各國(guó)的交流主要涉及貿(mào)易領(lǐng)域,“絲綢”不僅僅是核心主題詞,“白銀”“香料”“玉器”等主題詞的出現(xiàn)頻率也較高。
圖10 中國(guó)主要省份地理標(biāo)簽云可視化
圖11 世界主要國(guó)家地理標(biāo)簽云
圖12 從時(shí)間維度對(duì)公開課視頻內(nèi)容特征進(jìn)行描述,從時(shí)間軸可視化可以看出,絲綢之路的最早時(shí)間可以追溯至戰(zhàn)國(guó)時(shí)期,主講人認(rèn)為在漢代以前,就已經(jīng)存在這條溝通中國(guó)與中亞的西域交通道路,例如殷墟墓葬、馬家塬戰(zhàn)國(guó)墓葬中的玉器和琉璃制品,這說明西域的產(chǎn)品在很早的時(shí)候就已經(jīng)進(jìn)入中原;秦漢時(shí)期,與地域相關(guān)的主題詞主要有“都護(hù)府”“河西走廊”“敦煌”,說明主講人主要講述了絲綢之路的開辟,“馬王堆”作為另一高頻詞強(qiáng)調(diào)了長(zhǎng)沙馬王堆漢墓素紗衣的價(jià)值和秦漢時(shí)期絲織業(yè)空前發(fā)展;到隋唐時(shí),出現(xiàn)的高頻主題詞為“圖案”“寶花”“紋樣”“日本”,標(biāo)志著唐代提花技術(shù)的重要變革,其紋樣形式多以“寶花”形式存在,且廣泛傳播到日本等地區(qū);蒙元時(shí)期疆域的擴(kuò)展和民族大遷徙的發(fā)展,為中西陸路貿(mào)易奠定了重要基礎(chǔ);到明清之際,東西方的絲綢交流進(jìn)入傳教士時(shí)代,天鵝絨、西洋錦、中國(guó)風(fēng)都成為了絲綢之路的特色代表。
圖12 時(shí)間軸標(biāo)簽云
數(shù)字人文環(huán)境下,數(shù)字圖書館用戶對(duì)知識(shí)的需求往往清晰且精準(zhǔn),本文希望在梳理用戶認(rèn)知需求的基礎(chǔ)上,根據(jù)不同需求完成館藏資源的挖掘和可視化。
①特征描述維度的可視化。在文本挖掘與特征分析的基礎(chǔ)上進(jìn)行詞頻分析,常用的可視化形式包括:主題云圖、思維導(dǎo)圖、認(rèn)知地圖等。例如通過對(duì)國(guó)圖公開課視頻原始字幕文本中的特征信息進(jìn)行分析,概覽性地勾畫出四位主講人講述內(nèi)容的語(yǔ)言特征信息和主題詞,幫助讀者最快了解課程整體內(nèi)容架構(gòu)。②關(guān)系描述維度的可視化。從數(shù)據(jù)的多重關(guān)系角度揭示共現(xiàn)關(guān)系,常用的方法包括:共詞分析、共被引分析、社會(huì)網(wǎng)絡(luò)關(guān)系分析等。本文通過搭建4場(chǎng)國(guó)圖公開課視頻資源的地名共現(xiàn)矩陣、事件共現(xiàn)矩陣和事件、人名、地名、時(shí)間多要素共現(xiàn)矩陣,揭示了絲綢之路研究的地域范圍、主要事件和主講人研究脈絡(luò),不僅使分析結(jié)果直觀形象,同時(shí)讓研究更具個(gè)性化特質(zhì)和信息美學(xué)特征。③演進(jìn)描述維度的可視化。從空間和時(shí)間角度揭示資源中暗藏的地理線和時(shí)間線,幫助讀者從更加宏觀的角度把握視頻內(nèi)容。在國(guó)圖公開課的演進(jìn)可視化結(jié)果中,我們不僅可以了解到絲綢之路在世界各國(guó)的通路與主題,還可以分析不同朝代絲綢之路的特征。可視化技術(shù)讓龐雜的非結(jié)構(gòu)化數(shù)據(jù)更加形象、有條理,為相關(guān)的數(shù)據(jù)決策提供了有力支持,也為場(chǎng)景模擬、歷史仿真等人工智能技術(shù)的應(yīng)用打下了基礎(chǔ)。
館藏資源是數(shù)字人文可視化的重要基礎(chǔ),圖書館等公共文化服務(wù)機(jī)構(gòu)存在大量數(shù)據(jù)資源,既包括書目數(shù)據(jù)、知識(shí)組織等結(jié)構(gòu)化的資源,又集合了大量的音視頻、網(wǎng)絡(luò)信息、全文數(shù)據(jù)等非結(jié)構(gòu)化的數(shù)據(jù)資源。數(shù)字人文背景下,非結(jié)構(gòu)化數(shù)據(jù)的挖掘與可視化可以更精準(zhǔn)地滿足用戶的認(rèn)知需求,通過對(duì)異構(gòu)數(shù)據(jù)的深度挖掘與分析,將分析結(jié)果以多樣化的形式呈現(xiàn)給用戶,幫助用戶以全新的視角獲取知識(shí)與靈感。
本文基于圖書館實(shí)踐,按照受眾知識(shí)需求類型對(duì)知識(shí)可視化方法進(jìn)行歸納分類,形成基于不同需求類型的可視化方法模型,通過對(duì)不同來源的非結(jié)構(gòu)化數(shù)據(jù)內(nèi)容進(jìn)行挖掘,可以從不同側(cè)面對(duì)內(nèi)容進(jìn)行描述與結(jié)構(gòu)化分析。本文以國(guó)家圖書館“國(guó)圖公開課”視頻資源的內(nèi)容挖掘與可視化為例,從大規(guī)模的視頻資料中對(duì)時(shí)間、地點(diǎn)、人物、事件和關(guān)鍵詞進(jìn)行了提取和規(guī)范化,對(duì)公開課課程這一數(shù)字資源,基于不同需求類型形成不同的可視化展現(xiàn)解決方案,希望為提升圖書館數(shù)字資源傳播效率與知識(shí)服務(wù)能力作出貢獻(xiàn)。
(來稿時(shí)間:2019 年9 月)