南京航空航天大學(xué)金城學(xué)院圖書館 張學(xué)梅
南京農(nóng)業(yè)大學(xué)信息科技學(xué)院 汪偉歆
“一幅圖勝過一千句話”,信息可視化以滿足信息檢索用戶日益增長的多樣化、個性化檢索需求為目的,幫助用戶揭示信息背后隱藏的信息關(guān)聯(lián)及規(guī)律,提高檢索效率。本文使用文獻(xiàn)[1]構(gòu)建的數(shù)字參考咨詢領(lǐng)域的本體及數(shù)據(jù)關(guān)系進(jìn)行可視化研究,將信息可視化應(yīng)用到期刊論文語義檢索中,一方面實(shí)現(xiàn)了基于領(lǐng)域本體圖的可視化導(dǎo)航,方便用戶了解領(lǐng)域概念及概念之間的關(guān)系;另一方面將檢索結(jié)果轉(zhuǎn)換成圖形,將期刊元素如作者、引用與被引用等多維關(guān)系轉(zhuǎn)換成二維關(guān)系,顯示在一個二維空間中,幫助用戶理解檢索結(jié)果、把握檢索方向,以提高信息檢索的效率和性能。
信息可視化研究被國際上列為熱點(diǎn)研究課題是在20世紀(jì)90年代中期,以兩個系列的國際研討會為重要標(biāo)志。一個是從1995年開始,每年10月在美國召開的IEEE Symposium on Information Visualization,除了定期召開會議外,還出版了一系列會議論文集,在業(yè)界產(chǎn)生了較為廣泛的影響。與此同時(shí),從1997年開始,IEEE每年7月在英國倫敦召開信息可視化國際研討會(IEEE International Conference on Information Visualization),并同樣出版了一系列會議論文集。歐美的這兩個系列的國際學(xué)術(shù)研究會已形成了一種氣候,它不斷將理論研究與實(shí)際應(yīng)用推向新的高度。歐美國家的可視化研究已經(jīng)取得了一批具有領(lǐng)先地位的成果,在理論研究方面比較注重可視化模型方法,在應(yīng)用領(lǐng)域不僅出現(xiàn)了一批原型系統(tǒng),而且部分系統(tǒng)早已投入使用。
筆者以主題為“論文信息可視化”進(jìn)行了EBSCO數(shù)據(jù)庫外文檢索,在EBSCO中查找的的數(shù)據(jù)庫有:Academic Source Premier、Business Source Premier、ERIC、Library、Information Science & Technology Abstracts、Teacher Reference Center。檢索范圍為1985-2010,檢索式為“Title=(visualization)AND Abstract=(literature research+papers research)”,檢索結(jié)果為34篇,剔除重復(fù)的1篇,共33篇相關(guān)文獻(xiàn),檢索結(jié)果統(tǒng)計(jì)分析如表1-1。
EBSCO數(shù)據(jù)庫中相關(guān)文獻(xiàn)的檢索結(jié)果顯示,最早的關(guān)于論文信息可視化的外文文獻(xiàn)是1991年Cort,Louise Allison撰寫的“Word in Flower:The Visualization of Classical Literature in Seventeenth-Century Japan (Book)”此篇為一書評[2]。1992年后的5年中只有1篇相關(guān)文獻(xiàn)。1997-2010年累計(jì)發(fā)表相關(guān)文獻(xiàn)31篇,這表明新世紀(jì)以來國外對可視化在文獻(xiàn)檢索中的研究日益重視。筆者在研讀以上文獻(xiàn)時(shí)發(fā)現(xiàn),國外在信息可視化的研究方面的論文主要集中可視化在醫(yī)學(xué)中的應(yīng)用、可視化工具在文獻(xiàn)關(guān)系揭示中的研究、可視化檢索模型研究、個人信息搜索并可視化顯示等,說明可視化為文獻(xiàn)檢索提供可視的直觀的效果,同時(shí)文獻(xiàn)檢索也促進(jìn)了可視化技術(shù)的不斷發(fā)展。
我國最初幾年關(guān)于信息可視化的研究中大量的文獻(xiàn)主要是對信息檢索可視化概念的介紹,以及地理、空間、數(shù)據(jù)庫、文獻(xiàn)和多媒體等方面的可視化技術(shù)的介紹?,F(xiàn)在己經(jīng)有越來越多的學(xué)者關(guān)注面向網(wǎng)絡(luò)及大規(guī)模信息資源的檢索可視化技術(shù)、各個具體領(lǐng)域的可視化、各種算法的改進(jìn)等具體問題。針對可視化技術(shù)在文獻(xiàn)研究領(lǐng)域中的應(yīng)用主要有:胡志剛、侯海燕撰文對科學(xué)技術(shù)期刊群中的17種期刊進(jìn)行了聚類和社會網(wǎng)絡(luò)分析,可視化地顯示了各個期刊之間的親疏關(guān)系和關(guān)聯(lián)特點(diǎn),其可視化對象是期刊及其期刊之間的關(guān)系,其研究對象是期刊論文[3]。鮑楊、朱慶華在論文中以CSSCI數(shù)據(jù)庫收錄的全部情報(bào)學(xué)領(lǐng)域的論文(1998—2007年)為數(shù)據(jù)源,運(yùn)用社會網(wǎng)絡(luò)分析方法,建立了較為完整的情報(bào)學(xué)研究領(lǐng)域引文網(wǎng)絡(luò)、共引網(wǎng)絡(luò)及作者合著網(wǎng)絡(luò)。同時(shí)他們還選取其中的重要節(jié)點(diǎn),用Pajek進(jìn)行了可視化,體現(xiàn)了近10年來我國情報(bào)學(xué)研究領(lǐng)域的主要作者和論文[4]。張學(xué)福教授在信息檢索可視化領(lǐng)域的研究成果頗多,他不僅介紹了信息檢索可視化的基本問題,即信息檢索模型、信息內(nèi)容描述、可視化映射技術(shù)、可視化顯示技術(shù)、全局映射與局部映射、實(shí)時(shí)可視化和人工參與的可視化等。而且從功能特點(diǎn)等角度介紹了幾種代表性的可視化開發(fā)工具:OpenGL、Open Inventor、IDL和VTK等,以便用戶根據(jù)其特點(diǎn)選擇相應(yīng)的開發(fā)工具來開發(fā)可視化信息檢索的應(yīng)用軟件[5][6]。張學(xué)福教授帶領(lǐng)的研究生有三篇相關(guān)的碩士論文:《基于引文的信息檢索可視化系統(tǒng)研究》一文基于信息檢索可視化技術(shù)及引文理論,研究并構(gòu)建了具有個性化特色的集檢索、可視化及統(tǒng)計(jì)分析功能于一體的基于引文的信息檢索可視化系統(tǒng)[7];《基于摘要信息的中文信息檢索可視化系統(tǒng)研究與實(shí)現(xiàn)》分析比較國內(nèi)外典型的信息檢索可視化系統(tǒng),并將基于詞共現(xiàn)的概念空間方法與信息檢索可視化技術(shù)相結(jié)合實(shí)時(shí)生成概念空間圖,實(shí)現(xiàn)了檢索過程和檢索結(jié)果的可視化,設(shè)計(jì)并實(shí)現(xiàn)了集成信息檢索、情報(bào)分析和服務(wù)功能的基于摘要信息的中文信息檢索可視化系統(tǒng),并對系統(tǒng)進(jìn)行測試與評估[8]。
表1-1 EBSCO數(shù)據(jù)庫中論文信息可視化相關(guān)文獻(xiàn)檢索結(jié)果統(tǒng)計(jì)分析
圖3-1 基于本體的可視化導(dǎo)航圖
圖3-2 可視化導(dǎo)航列表圖
圖3-3 檢索結(jié)果可視化導(dǎo)航圖1
圖3-4 檢索結(jié)果可視化導(dǎo)航圖2
圖3-5 檢索結(jié)果可視化導(dǎo)航圖3
圖3-6 檢索結(jié)果可視化導(dǎo)航圖4
圖3-7 檢索結(jié)果可視化導(dǎo)航圖5
圖3-8 檢索結(jié)果可視化導(dǎo)航圖6
可視化的檢索平臺在國內(nèi)的研究有人立方[9],谷歌挑歌[10]等。人立方關(guān)系搜索是微軟亞洲研究院正式發(fā)布的一款新型社會化搜索引擎,它能夠從中文網(wǎng)頁中自動的抽取出人名、機(jī)構(gòu)名、地名以及中文短語等,根據(jù)搜索的關(guān)鍵詞和與其相關(guān)的人名之間的關(guān)聯(lián)度強(qiáng)弱自動的計(jì)算每一個人名與關(guān)鍵詞直接的距離、數(shù)據(jù)大小以及具體的擺放位置等等,并通過一條有標(biāo)明人際關(guān)系的細(xì)線連接他們。谷歌挑歌相比其他音樂搜索引擎來說,谷歌挑歌采用的是一種相對模糊的搜索模式。該系統(tǒng)不是根據(jù)歌名或歌手名來搜索,而是調(diào)節(jié)節(jié)奏從舒緩到強(qiáng)烈、聲調(diào)從低沉到高亢、音色從豐富到單純這三個滾輪,依次在音樂庫中挑選出符合條件的歌曲。雖說是相對模糊的搜索模式,但對尋找某一類型的歌曲還是很有幫助的。
可視化技術(shù)在期刊檢索中的應(yīng)用有中國科學(xué)院國家科學(xué)圖書館在2010年開發(fā)的可視化檢索平臺[11]。該系統(tǒng)的可視化借助Flash軟件實(shí)現(xiàn),輸入的檢索詞僅限英文,檢索的文獻(xiàn)也僅限英文文獻(xiàn),從主題、作者和期刊三個方面形成可視化界面,為檢索提供了一定的指導(dǎo)作用,但是其檢索的最終結(jié)果也是以列表的形式實(shí)現(xiàn)。比如檢索計(jì)算機(jī)學(xué)習(xí)方面的文獻(xiàn),限定返回記錄數(shù)2000條(有50-4000之間的5種選擇),在檢索框中輸入“computer study”以主題可視顯示,“computer study”目標(biāo)體(文獻(xiàn)節(jié)點(diǎn))分“case study”、“effective”、“model”、“experimental studies”等目標(biāo)體,選擇“experimental studies”,結(jié)果就會以列表形式顯示48條文獻(xiàn)目錄,瀏覽文獻(xiàn)目錄人工查找自己所需的文獻(xiàn)。
從整體上看,我國在該領(lǐng)域的研究與應(yīng)用還處于起步階段,與國外先進(jìn)技術(shù)有較大差距,研究呈現(xiàn)出零星、分散的特征,沒有形成規(guī)模。主要研究單位有武漢大學(xué)信息資源研究中心,中科院國家科學(xué)圖書館,中科院軟件所及部分大學(xué)的圖書情報(bào)院系和計(jì)算機(jī)學(xué)院等。
基于領(lǐng)域本體的可視化導(dǎo)航檢索首先確定可視化對象,這里的對象包括基于領(lǐng)域本體的領(lǐng)域概念集合和文獻(xiàn)及其屬性兩類。其次,構(gòu)建可視化空間。即降低高維向量空間的維數(shù),構(gòu)建低維可視化空間,這是可視檢索的關(guān)鍵,不同的可視化檢索工具構(gòu)建可視化空間的方法不同,一般來說,構(gòu)建可視化空間應(yīng)主要考慮兩個因素:一是以其信息可視化的方法為基礎(chǔ),二是以其自身文獻(xiàn)信息系統(tǒng)的結(jié)構(gòu)為基礎(chǔ)。本文基于領(lǐng)域本體概念的可視化導(dǎo)航按照雙曲樹[12]的表現(xiàn)方式,將層次關(guān)系顯示在一個雙曲平面上,然后將雙曲平面映射到顯示區(qū)域。而期刊論文語義檢索結(jié)果由于受人類認(rèn)知能力的限制,我們只能感知到一維、二維和三維的物理對象,所以我們的可視化空間只能是二維或三維,顯示維數(shù)不同,接口的空間表達(dá)能力也就不同。本系統(tǒng)為了能清晰地表現(xiàn)節(jié)點(diǎn)文獻(xiàn)的屬性,將四維關(guān)系降為二維顯示,方便用戶理解和使用。
目前出現(xiàn)很多檢索系統(tǒng)采用了無定型關(guān)鍵詞的詢問系統(tǒng),只要輸入檢索詞,平臺就會詢問希望用到的代名詞、相似詞及下位詞等,以便用戶拓展查詢。而基于本體的可視化檢索系統(tǒng)用可視化的方式顯示檢索詞的語義關(guān)系,一方面體現(xiàn)可視化的優(yōu)點(diǎn),以直觀的可視的形式為初入本檢索領(lǐng)域的用戶介紹該領(lǐng)域的具體內(nèi)容及研究熱點(diǎn)等問題;另一方面,避免了用戶篩選詞的過程,本系統(tǒng)根據(jù)領(lǐng)域本體庫中概念間的語義關(guān)系,直接檢索,將最全、最準(zhǔn)確的結(jié)果反饋給用戶?;诒倔w的導(dǎo)航機(jī)制通過揭示信息對象間的語義關(guān)聯(lián),能夠準(zhǔn)確、深入地表征信息的內(nèi)容,是一種高層次的內(nèi)容導(dǎo)航方法。本系統(tǒng)采用Flash工具,以本體概念為節(jié)點(diǎn),實(shí)現(xiàn)了可視化的導(dǎo)航。執(zhí)行代碼如下:
期刊論文的檢索結(jié)果可視化是基于用戶需求的智能導(dǎo)航,其目的是通過期刊論文間的關(guān)系指導(dǎo)用戶檢索所需文獻(xiàn),即隨著用戶瀏覽意圖的不同,提供不同的信息,實(shí)現(xiàn)動態(tài)導(dǎo)航。因此,用戶使用過程中,用戶點(diǎn)擊不同的屬性按鈕實(shí)體,將根據(jù)實(shí)體類別生成不同的檢索結(jié)果。這種導(dǎo)航是根據(jù)不同的中心節(jié)點(diǎn)內(nèi)容動態(tài)生成。例如點(diǎn)擊甲文獻(xiàn),則以甲文獻(xiàn)為中心節(jié)點(diǎn),以同著者文獻(xiàn)、相關(guān)文獻(xiàn)、參考文獻(xiàn)、被引文獻(xiàn)為四個屬性按鈕實(shí)體,點(diǎn)擊任何相關(guān)文獻(xiàn)按鈕實(shí)體,則生成相關(guān)的文獻(xiàn),如果選擇相關(guān)文獻(xiàn)中的文獻(xiàn)乙,則以乙文獻(xiàn)為中心節(jié)點(diǎn),并動態(tài)生成乙的屬性按鈕實(shí)體和相關(guān)文獻(xiàn)。可視化的顯示通過Flash調(diào)用JS方法,對數(shù)據(jù)庫元數(shù)據(jù)進(jìn)行檢索,錄入XML中,然后調(diào)用顯示。具體代碼如下:
期刊論文檢索結(jié)果可視化導(dǎo)航,將中心節(jié)點(diǎn)文獻(xiàn)的四維屬性降為二維關(guān)系顯示在頁面。如果屬性有值則顯示節(jié)點(diǎn)球體,同時(shí)顯示節(jié)點(diǎn)文獻(xiàn)題名;如果屬性值為零則不顯示。隨著鼠標(biāo)在屬性節(jié)點(diǎn)的點(diǎn)擊轉(zhuǎn)換中心節(jié)點(diǎn)。其實(shí)現(xiàn)代碼如下:
基于本體的期刊論文可視化檢索系統(tǒng)以數(shù)字參考咨詢領(lǐng)域的期刊論文為例,在用戶只知道數(shù)字參考咨詢這個大類,而對下位類領(lǐng)域知識不了解,卻需要認(rèn)識該領(lǐng)域知識的用戶提供幫助,即給初入數(shù)字參考咨詢領(lǐng)域的用戶指引方向;同時(shí)也為身在參考咨詢領(lǐng)域的人員理順知識結(jié)構(gòu),指導(dǎo)期刊論文的語義檢索。用戶只要點(diǎn)擊導(dǎo)航列表中的數(shù)字參考咨詢,主頁面中將顯示本文中構(gòu)建的本體圖,此圖實(shí)現(xiàn)雙曲幾何的可視化,將層次關(guān)系顯示在一個雙曲平面上,然后將雙曲平面映射到顯示區(qū)域。點(diǎn)擊圖中的概念節(jié)點(diǎn),系統(tǒng)將以該節(jié)點(diǎn)為檢索詞列出相關(guān)的文獻(xiàn)??梢暬瘜?dǎo)航圖如圖3-1。
點(diǎn)擊本體概念的可視化導(dǎo)航中任意節(jié)點(diǎn),系統(tǒng)就會以該節(jié)點(diǎn)為輸入詞將語義檢索結(jié)果以列表圖的形式返回到用戶桌面。以下以點(diǎn)擊參考咨詢2.0為例,其實(shí)現(xiàn)效果如圖3-2。
以可視化導(dǎo)航列表為基礎(chǔ),點(diǎn)擊任意一篇文獻(xiàn)題名,系統(tǒng)將以該篇文獻(xiàn)為中心節(jié)點(diǎn),以參考文獻(xiàn)、同著者文獻(xiàn)、被引文獻(xiàn)和相關(guān)文獻(xiàn)四個屬性值為四個檢索方向,實(shí)現(xiàn)文獻(xiàn)在可視化狀態(tài)下的連續(xù)導(dǎo)航。將中心節(jié)點(diǎn)的四維關(guān)系將為二維關(guān)系顯示。圖3-3為點(diǎn)擊期刊論文《虛擬參考咨詢2.0全景掃描》,可視化導(dǎo)航以該文獻(xiàn)題名為中心節(jié)點(diǎn),以參考文獻(xiàn)、同著者文獻(xiàn)、被引文獻(xiàn)和相關(guān)文獻(xiàn)四個屬性關(guān)系展開顯示。
點(diǎn)擊被引文獻(xiàn),《虛擬參考咨詢2.0全景掃描》這篇期刊論文的被引文獻(xiàn)將以被引文獻(xiàn)按鈕為中心散發(fā)開來。其效果如圖3-4。
點(diǎn)擊參考文獻(xiàn)則以參考文獻(xiàn)按鈕為中心展開該篇文獻(xiàn)的參考文獻(xiàn)題名,其效果如圖3-5。
點(diǎn)擊同著者按鈕則以同著者文獻(xiàn)按鈕為中心展開該篇文獻(xiàn)的同著者文獻(xiàn)。如圖3-6所示。
由于本系統(tǒng)數(shù)據(jù)量只有1362條,所以檢索結(jié)果有可能是1條記錄或沒有相關(guān)記錄,這種情況可以隨著數(shù)據(jù)量錄入的加大逐漸得到改善。
點(diǎn)擊相關(guān)文獻(xiàn)則以相關(guān)文獻(xiàn)按鈕為中心展開《虛擬參考咨詢2.0全景掃描》的相關(guān)文獻(xiàn)題名,其效果如圖3-7所示。
以上都是針對《虛擬參考咨詢2.0全景掃描》的相關(guān)可視化導(dǎo)航,而相關(guān)屬性按鈕展開的文獻(xiàn)節(jié)點(diǎn)同樣在鼠標(biāo)的點(diǎn)擊下變?yōu)橹行墓?jié)點(diǎn)。如圖3-8,點(diǎn)擊相關(guān)文獻(xiàn)《基于知識管理框架的合作數(shù)字參考咨詢服務(wù)》,則中心節(jié)點(diǎn)就會變?yōu)椤痘谥R管理框架的合作數(shù)字參考咨詢服務(wù)》文獻(xiàn)題名,同時(shí)顯示與之對應(yīng)的該篇文獻(xiàn)的相關(guān)文獻(xiàn)。點(diǎn)擊其他文獻(xiàn)也是同樣的道理。
只要系統(tǒng)中存有相關(guān)數(shù)據(jù),則就有記錄顯示,如果沒有相關(guān)數(shù)據(jù),則不顯示。同時(shí),為了用戶返回方便,系統(tǒng)提供了后退按鈕,使用戶操作起來來回自由且方便。
信息語義檢索及可視化導(dǎo)航是一個較新的研究方向,隨著信息檢索技術(shù)及信息可視化技術(shù)的發(fā)展而發(fā)展起來,同時(shí)隨著網(wǎng)絡(luò)信息資源激增,以及用戶信息需求的進(jìn)一步提高而獲得了更大的發(fā)展空間,將日益顯示其優(yōu)勢。而在實(shí)際檢索環(huán)境中,信息語義檢索及可視化顯示并沒有得到廣泛應(yīng)用。本文針對傳統(tǒng)期刊論文檢索系統(tǒng)可視化效果差的不足,實(shí)現(xiàn)了對數(shù)字參考咨詢領(lǐng)域期刊論文基于本體語義圖的可視化導(dǎo)航檢索系統(tǒng)的開發(fā)。提供了基于本體的可視化導(dǎo)航,方便用戶對領(lǐng)域知識一目了然,同時(shí)能指導(dǎo)用戶檢索,讓檢索變得輕松自如。
然而,目前系統(tǒng)的可視化不能以線條的長短或球體的大小來指導(dǎo)記錄的權(quán)重或重要性,需要進(jìn)一步改進(jìn)。在動態(tài)效果等方面也需要進(jìn)一步完善。
[1]張學(xué)梅.基于本體的期刊論文檢索系統(tǒng)研究.圖書館學(xué)研究(理論版),2011(12):66-71.
[2]Cort,Louise Allison.Word in Flower:The Visualization of Classical Literature in Seventeenth-Century Japan[J].Journal of Asian Studies,1991(2):171-173.
[3]胡志剛,侯海燕.科學(xué)技術(shù)學(xué)期刊群的可視化分析[J]大連理工大學(xué)學(xué)報(bào)(社會科學(xué)版),2009(2):119-123.
[4]鮑楊,朱慶華.近10年我國情報(bào)學(xué)研究領(lǐng)域主要作者和論文的可視化分析——基于社會網(wǎng)絡(luò)分析方法的探討[J]情報(bào)理論與實(shí)踐,2009(4):9-13.
[5]張學(xué)福.信息檢索可視化基本問題研究[J].中國圖書館學(xué)報(bào),2006(3):37-40
[6]張學(xué)福.信息檢索可視化開發(fā)工具[J].現(xiàn)代情報(bào),2005(11):38-41.
[7]孫巍.基于引文的信息檢索可視化系統(tǒng)研究[D].黑龍江大學(xué)信息管理學(xué)院,2007:1-73.
[8]陳穎.基于摘要信息的中文信息檢索可視化系統(tǒng)研究與實(shí)現(xiàn)[D].黑龍江大學(xué)信息管理學(xué)院,2007(2):1-56.
[9]人立方.[EB/OL][2010-08-03].http://renlifang.msra.cn/.
[10]谷歌挑歌.[EB/OL][2010-05-23].http://www.google.cn/music/songscreener.
[11]中國科學(xué)院國家科學(xué)圖書館.Visual可視化檢索瀏覽系統(tǒng).[EB/OL][2010-08-04].http://visualsearch.las.ac.cn/.
[12]Position Paper by Jeffrey Heer,UC Berkeley For the Workshop on“Information Visualization Software Infrastructures”at IEEE 2004 Visualization[EB/OL][2010-05-18].http://vw.indiana.edu/ivsi2004/jherr/index.html.