王志紅
語義網(wǎng)及Mashup、RSS等網(wǎng)絡應用程序催生了對聚合的關注與研究[1],產(chǎn)生了信息聚合、知識聚合、資源聚合、結(jié)果聚合、聚合搜索等概念。相關研究項目陸續(xù)開展,國外如美國北卡羅萊納大學Arguello、以色列理工學院Baram-Tsabari、英國格拉斯哥大學Lalmas等均主持相應課題;國內(nèi)相關課題數(shù)量多,截至2017年國家自然科學基金和社會科學基金批準項目數(shù)量超過16個。部分論文論述了該領域的研究進展,國內(nèi)側(cè)重于從信息組織的角度闡述聚合的概念與模式、方法與技術體系、研究主題與熱點[2-6];國外側(cè)重在信息檢索方面[7-10],主要從聚合搜索過程視角反思已有研究和展望研究趨勢。
觀察國內(nèi)外圖情領域的聚合研究,對聚合概念的使用較為混亂,對聚合研究進展的梳理從比較單一或片面的視角出發(fā),不夠全面,不利于準確把握及深入開展信息聚合研究。因此,本文嘗試從一種綜合性的視角出發(fā),對圖情領域中聚合一詞進行詞義分析之后,從信息組織與檢索全流程的角度,包括聚合對象的描述及其關聯(lián)、聚合結(jié)果的呈現(xiàn)與交互、信息聚合服務與應用及相關問題三個方面,厘清信息組織與檢索領域中與聚合相關的已有研究,較為深入地調(diào)查與分析該領域的研究進展,以期通過明晰聚合的涵義為該研究領域奠定堅實的基礎,幫助研究者們把握研究的現(xiàn)狀與趨勢,從而推動聚合研究的發(fā)展與完善。
本文以期刊論文、會議論文和學位論文作為文獻來源,檢索工具和數(shù)據(jù)庫為LISA、Web of Science、Ebsco、ACM、CNKI(領域分面中排除化學、生物醫(yī)學等自然科學)、Proquest、CNKI學位論文數(shù)據(jù)庫、百度學術等,并利用文獻回溯法進行補充,主題詞為“aggregat*”和“聚合”,以獲得所有與聚合相關的文獻,檢索時間為2017年3-5月。本文在檢索時沒有考慮使用“整合”“融合”等關鍵詞的原因在于,一方面,這些詞與聚合之間存在一定的差異,且相對比較成熟并已獨立成相應的研究領域,如數(shù)據(jù)融合和知識融合,如若使用融合一詞作為關鍵詞將檢索到大量的文獻,不僅會超出作者的處理能力,而且會引起概念之間的進一步混淆;另一方面,文獻的關鍵詞或主題詞是作者或標引者對文獻本身研究內(nèi)容認知的外化形式,代表了作者或?qū)<覍@一領域的認知狀態(tài),符合本文的研究目的。
“聚合”一詞較早出現(xiàn)于我國古代文學作品中,如《紅樓夢》?!稘h語知識辭典》指出,聚合是指具有某種共同特點的一群單位構(gòu)成的集合,各成員具有可替代性特點;也可指聚合的形成方式或過程。聚合所對應的英文翻譯有aggregate(ion)和polymerization,前者是一個較為通俗的用語,或常用于社會科學領域;后者多用于高分子化學、生物醫(yī)學和土木建筑領域,用來指稱由低分子化合物合成高分子化合物的化學反應的一種專業(yè)性用語,因此此處應譯為aggregate(ion)。根據(jù)《牛津大學詞典》《朗曼詞典》《韋氏詞典》等的解釋,aggregate主要有名詞、動詞兩種詞性,作為名詞,主要指將多個尤其是分散、異質(zhì)或有差別的元素結(jié)合形成的整體或混合體;作為動詞,既可以解釋為總計、合計等,也可意指形成或組合成一個類或聚類的過程。進一步查閱圖情領域英漢詞典,發(fā)現(xiàn)國內(nèi)對中英文形式聚合一詞的解釋與翻譯各不相同。例如,《圖書館學情報學大辭典》將聚合解釋為一個或多個信息源整合起來的網(wǎng)站或網(wǎng)絡應用,對應的英文則翻譯為mashup;而《英漢圖書館情報學詞匯》中則將aggregate和aggregation分別譯為多主題聚集以及聚集、現(xiàn)象或作用。可見,圖書情報學等社會學科領域中的聚合是由文學作品中的通俗含義應用與演變而來,并非來自化學等工程領域,對應的英文翻譯為aggregate。該詞的基本含義是強調(diào)多個異質(zhì)或有差別的單一構(gòu)件以某種方式組合形成的整體或形成該整體的過程。后文將繼續(xù)通過追溯并深入分析聚合在信息計量學、信息組織和信息檢索這三個圖書情報學分支領域中的涵義,明晰其科學意義。
信息計量學引入聚合一詞來描述通過計量關系關聯(lián)匯集之后形成的結(jié)果,最早是由Garfield在1972年載于《科學》的論文中使用了該詞的通俗意義[11]。之后Carpenter等指出聚合是聚類形成過程中的基本工具與技術[12]。漸漸地,研究者開始在標題等論文重要部分中使用聚合或聚合集(Aggregates)概念[13],甚至專門討論計算期刊影響時的聚合問題[14]。Leydesdorff提出了期刊-期刊引用聚合(Aggregated Journal-Journal Citation)的概念,用于表示期刊與期刊之間通過引用關系形成的連接與匯集[15]。可見,在信息計量學領域,聚合是與依據(jù)對象之間的相似性程度進行聚類密切相關的。隨后,相關數(shù)據(jù)庫服務商也開始使用Aggregator來專門指代提供摘要、索引及文獻檢索服務的數(shù)據(jù)庫提供商,即聚合器或聚合服務提供商。比如,Dennis等指出聚合服務提供商數(shù)據(jù)庫是將各來源的大量不同資源進行聚合,為用戶提供類似一站式購物的形式[16]。Kathleen認為電子期刊時代,聚合服務提供商的任務是從多個出版商匯集或聚合數(shù)字期刊,并為終端用戶獲取圖書館數(shù)字期刊提供單一的入口[17]。Moghaddam等在探討Aggregator對圖書館的重要性時,指出聚合是指通過將單件放在一起獲得的總量,即將分散的信息源合并成一個連貫資源集[18]。Agenjo等[19]將收割元數(shù)據(jù)的收割器稱為聚合器,同時指出聚合是指許多相互關聯(lián)的資源組成的集合中的資源本身,數(shù)字聚合體則是根據(jù)特定作者聚集的數(shù)據(jù)和數(shù)字信息資源集合。
信息組織領域?qū)酆系氖褂门c研究稍晚于信息計量學領域,但是相對而言信息組織領域?qū)υ撛~的界定與解釋更為深入與清晰。
1.2.1 信息分類與概念建模
依據(jù)分類思想建立的模型是對現(xiàn)實世界的一種簡化,任何一個系統(tǒng)的建設包括信息組織系統(tǒng),都需要在抽象層次上對系統(tǒng)所表征的現(xiàn)實世界或信息對象進行建模。1986年,AT&T貝爾實驗室Fishburn等提出,分類問題就是如何將具有特定屬性的部分聚合成相互之間構(gòu)成等價關系的類的整體集[20]。這表明,聚合是一種分類問題,是面向?qū)ο蠼V械闹匾獌?nèi)容。隨著面向?qū)ο蠼nI域的發(fā)展,研究者們對聚合的含義由模糊不清[21]變得逐漸清晰,認為聚合指使用一組基本組件或基元組合系統(tǒng)的過程[22],并開始以聚合關系基礎進行建模。在后續(xù)發(fā)展出來的統(tǒng)一建模語言(UML)中,聚合直接表示為連接概念與概念之間的一種重要關聯(lián)關系,其中代表整體的概念被稱為聚合體,代表部分的概念稱為要素,且聚合體與要素之間相互獨立[23]。后來,Svenonius在《信息組織的知識基礎》中提出的聚合與概念建模領域一脈相承,他提出聚合是一種部分與整體的關系,包括信息內(nèi)容和物理描述兩個層面,前者可以是作品之間或版本組件和版本整體之間的關系,后者主要與文檔而不是作品或語言相關[24]。
1.2.2 傳統(tǒng)書目信息組織
書目描述中的概念及其抽象化也需要解決概念之間的關聯(lián)與聚合關系以及聚合所對應的概念層次問題。為此,2005年IFLA成立了一個關于聚合集的FRBR工作小組(FRBRWorkingGroup on Aggregates),調(diào)查FRBR模型應用到聚合集時出現(xiàn)的困難和不一致性問題,并提出相應的解決方案。初期,該小組成員針對聚合集所表現(xiàn)的實體層次這一問題提出了多個方案,包括從載體表現(xiàn)的層面來定義聚合集(AggregatesasManifestations)[25]和從作品的層面來定義聚合集(AggregatesasWorks)[26]兩種,前者認為聚合集是體現(xiàn)多種內(nèi)容表達的一個載體表現(xiàn),包括獨立作品集、增補集和平行集三種形式;后者提出聚合集是由許多單個作品組成的一個作品。報告最終采用了前一個方案,認為聚合實體(Aggregate Entity)是指包含兩個或多個構(gòu)件的整體/部分關系中的整體,將單元實體稱為組件實體(Component Entities)[27]。調(diào)查表明,常見的聚合集類型為單個作品的集合和以增補形式如插圖等形成的增補集,并且存在由于定義不清等難以精確地識別和定量化聚合集的問題[28-29]。可知,在傳統(tǒng)信息組織中主要是使用聚合集來表示FRBR模型中的第一組實體(分別為作品、內(nèi)容表達、載體表現(xiàn)、單件)所形成的整體及其整體與部分關系。但是,對于FRBR模型中的第三組實體(概念、實物、事件、地點)如何形成整體與部分關系并依據(jù)這種關系進行聚合的研究與探討則較少。
信息檢索領域中的聚合同樣來自于概念建模,并被不斷應用到數(shù)據(jù)庫及系統(tǒng)設計當中。數(shù)據(jù)庫相關的早期研究認為,聚合主要是指組成高階對象的諸個對象之間的一種關系[30]。也有研究者認為高度結(jié)構(gòu)化的文檔蘊含了一般性框架和聚合層級以及文檔內(nèi)和文檔間各種類型的交叉引用[31]。在信息檢索領域早期,以ATOM/RSS等為代表的網(wǎng)絡應用程序是實現(xiàn)信息聚合的一種重要技術或方法[32-33],通過這種方法將諸如新聞頭條、博客等網(wǎng)絡信息聚合到單一地點以方便用戶瀏覽。但是,RSS只是通過訂閱來有效并及時將各個來源和類型的信息簡單匯集之后推送給用戶,其依據(jù)的是用戶主動表達的需求。另一個早期探索的結(jié)果是Mashup,它是將分散來源的網(wǎng)絡資源內(nèi)容、表現(xiàn)或應用功能綜合起來產(chǎn)生新的應用或服務[34]。然而,該詞的主要含義是混搭,強調(diào)的只是對不同類型資源之間的混合式呈現(xiàn)。可見,這兩種方式均不涉及到分解與組合的過程,并不是完全意義上的信息聚合方法或技術。相關研究還指出另一個比較容易與聚合混淆的概念是聚類,聚類是指根據(jù)文檔或信息對象之間的主題相似性特征進行聚集,而聚合可以按照各種關系特征,對各種類型、各種粒度信息進行組合排列后通過單一的結(jié)果進行呈現(xiàn)[35]。隨著信息檢索領域的發(fā)展,聚合搜索被正式提出[36],并成為一種新的信息檢索范式,強調(diào)的是分解組合以及排列之后所返回的結(jié)果的呈現(xiàn)方式[37]。
聚合對象是聚合所作用的信息對象,聚合前與聚合后的信息對象之間構(gòu)成部分與整體的關系,這里所指聚合對象即為聚合前的信息對象,即聚合單元或聚合元素。對于聚合對象的描述及其關聯(lián)關系的揭示,主要包括內(nèi)容描述和物理描述兩個層面,此外也有依據(jù)多元聚合關系以及用戶與聚合對象之間的關系。
信息的內(nèi)容層面,依據(jù)認知語言學可劃分為詞匯、語義、句法和語用四個層次。詞匯層次強調(diào)詞匯本身的含義,可對應情報檢索語言中的分類法、主題法、敘詞法等。例如,王學東等[38]、Ou和Khoo[39]分別對以主題分類和概念為基礎的聚合進行了實證研究。語義層次主要是詞匯在語義上的指稱關系,如能指與所指,以解決相應的語義指稱問題,對應的情報檢索語言為本體、關聯(lián)數(shù)據(jù)等。多數(shù)研究者均認為語義聚合是信息聚合發(fā)展的新趨勢[40],相關研究較多,如畢強等[41]、孫建軍等[42]、邱彥濤[43]均從語義網(wǎng)、關聯(lián)數(shù)據(jù)、深度標引等角度梳理和構(gòu)建了聚合的方法和模型框架;仝召娟等[44]、彭佳等[45]分別基于關聯(lián)數(shù)據(jù)和本體實現(xiàn)了非物質(zhì)文化遺產(chǎn)等特色資源的深度聚合;Palmonari等[46]提出并證明了面向數(shù)據(jù)和服務的聚合搜索的語義方法;Nanas等[47]開發(fā)了一個基于內(nèi)容過濾的用戶文檔模型,實現(xiàn)了個性化的新聞和論文聚合。句法層次主要是從句子內(nèi)部結(jié)構(gòu)出發(fā)進行語言學研究,如文本挖掘領域中的依存句法分析就應用了語言學句法層次的相關理論與技術,但是目前還未發(fā)現(xiàn)以該方法為基礎的信息聚合相關研究。語用層次強調(diào)的是語言使用和出現(xiàn)的環(huán)境,主要為上下文關系,如信息計量領域中的引文內(nèi)容分析,就是希望通過加入引文上下文關系提升基于引文關系聚合的效果。作為一個較新的研究領域,引文內(nèi)容分析目前多是探討技術方面的問題,很少有利用引文上下文關系來提升文獻聚合效果等方面的研究。
信息的物理描述層面,是對信息的外部特征以及人與信息之間的交互關系進行描述。隨著人與信息之間交互性的增加,信息的物理描述層面逐漸成為信息聚合的重要視角與方法。這一層面的特征或關系包括信息計量學中的引用或耦合等關系、社會網(wǎng)絡關系、交互與外部情境特征等。通過傳統(tǒng)的信息計量學中文獻之間的各種關系,如引用、耦合等關系是當前相關研究最豐富的一個領域。邱均平等進行了大量針對館藏資源及學術信息資源的聚合相關研究,如基于引文關系[48]、耦合關系[49]、共現(xiàn)關系[50]、作者共被引[51]等關系的文獻聚合。相比于傳統(tǒng)文獻關系,社會網(wǎng)絡關系更適合用來表征社會化網(wǎng)絡環(huán)境下信息資源之間的松散關系。例如,趙蓉英等[52]、姜毓鋒等[53]、孫中秋等[54]、商憲麗等[55]、王雨[56]均對以社會網(wǎng)絡關系為基礎的聚合方法進行了研究;Bessaimechmache等[57]利用INEX數(shù)據(jù)集,驗證了基于概率網(wǎng)絡的結(jié)構(gòu)化信息檢索模型的聚合搜索的有效性;Le等[58]提出了基于關系的圖表數(shù)據(jù)庫聚合搜索方法。此外,隨著情境感知在信息系統(tǒng)中的重要性日漸凸顯,捕捉和表征用戶或信息所處的情境也逐漸成為聚合的一種重要方式。Pepe等[59]以科學研究生命周期中出版文獻、數(shù)據(jù)和研究情境信息的關系為基礎,從細粒度層面對科學研究過程中產(chǎn)生的各種信息進行描述和關聯(lián);Zavalina等[60]探索館藏級元數(shù)據(jù)在數(shù)字聚合信息檢索中的作用;Palmer等[61]構(gòu)建了面向?qū)W術利用的數(shù)字聚合情境集;李敏等[62]分析和構(gòu)建了面向移動信息個性化服務的用戶情境類庫,并提出了基于用戶情境類聚合的移動信息服務框架。由于元數(shù)據(jù)既可以描述信息的內(nèi)容層面,也可以描述信息的物理層面,作為重要的信息組織方法,不少學者關注元數(shù)據(jù)在信息聚合中的適用性和應用,如曹樹金等[63]、黃文碧[64]、Hahn 等[65]、Wijesundara 等[66]分別利用元數(shù)據(jù)描述各領域的資源并進行了聚合。
聚合往往需要從多維度、多視角來描述和揭示信息對象,部分研究探討了結(jié)合多種關系和維度的多元聚合關系和方法。如楊萌等[67]結(jié)合元數(shù)據(jù)、標簽、受控詞表、本體等知識組織相關理論及形式概念分析、社會網(wǎng)絡分析等,提出多維度的社會化標注系統(tǒng)資源聚合思路和機理;曹進軍[68]提出了以不同評價分析標準、符合良好用戶體驗標準與分類的多個維度對信息資源進行切分,從而對信息資源進行聚合和重構(gòu)的方式;張賽男[69]從物化資源聚合、人際網(wǎng)絡聚合、生成性資源聚合(包括添加筆記、評價資源、填寫書簽等)的角度,提出基于集體智慧的開放學習資源聚合方法;夏立新等[70]構(gòu)建了面向內(nèi)容信息、結(jié)構(gòu)信息、使用信息和全網(wǎng)絡資源的多維度網(wǎng)絡資源聚合與知識發(fā)現(xiàn)框架;王偉等[71]實現(xiàn)了綜合關聯(lián)數(shù)據(jù)和分眾分類對徽州文化數(shù)字資源的多維度聚合;周珊珊[72]通過實證研究驗證了基于分眾分類法與復雜網(wǎng)絡分析的數(shù)字資源聚合的多維度理論框架;牛奉高[73]根據(jù)潛在語義和VSM模型提出共現(xiàn)潛在語義向量空間模型,提出了基于該模型的文獻聚合方法,并利用實證研究進行了檢驗;馬翠嫦等[74]采用分面分析方法構(gòu)建了聚合單元的一般分面和基本屬性分面,不僅包括物理特征、語言功能特征、劃分方式和關系特征,還包括評價特征、計算屬性、用戶感知屬性。
不管是聚合對象的內(nèi)容描述層面還是物理描述層面,或是綜合多元聚合關系進行描述,均只是從信息對象本身的視角出發(fā)提供信息聚合的依據(jù),卻沒有考慮到不同情境下用戶對于信息對象的相關性判斷的多維度性及動態(tài)性。相對于信息組織而言,信息聚合更強調(diào)用戶視角下對信息對象的充分描述以及重新拆分與組合,因此,只有從用戶視角出發(fā),增加用戶與信息對象之間的關聯(lián)關系才能更好地滿足用戶的信息需求。也就是說,用戶視角下的用戶與聚合對象之間的關系成為另一種重要的聚合依據(jù)。用戶與聚合對象的關系,往往是通過用戶的主觀能動性,以用戶對信息對象的感知與評估為基礎建立,即用戶在信息搜尋過程中的相關性判斷所依據(jù)的維度或特征。已有研究提出了基于多準則相關性判據(jù)的聚合,如Pereira等[75]提出了面向相關性評估的多準則聚合模型,其中考慮的文檔相關性評估準則包括主題相關性、覆蓋范圍、合適性和可靠性,并應用實驗法進行了證明;Moulahi等[76]提出了基于模糊集運算的多維度相關性聚合方法,并在推特搜索任務試驗中對該方法進行了驗證。
信息對象之間的關聯(lián)關系總是需要通過系統(tǒng)界面將聚合后的結(jié)果呈現(xiàn)給用戶,促進用戶與信息之間的交互。聚合結(jié)果的呈現(xiàn)與交互的相關研究主要集中在界面導航與可視化、垂直領域排序與呈現(xiàn)以及聚合界面交互與評估等方面。
系統(tǒng)界面的導航及可視化是信息聚合結(jié)果呈現(xiàn)與交互部分的重要內(nèi)容之一,也是已有研究重點探討的問題。張玉峰等[77]探討和驗證了層次信息可視化方法在表達和呈現(xiàn)海量館藏資源聚合結(jié)果時的有效性;張云中等[78]采用形式概念分析方法構(gòu)建了tax-folk混合導航模型的六個模塊;李士平等[79]提煉出了自主聚合與可視化導航相融合的資源重構(gòu)方式及具體實現(xiàn)方式;李潔[80]構(gòu)建了館藏數(shù)字資源知識聚合可視化模型;陳路明等[81]利用開源工具Viewshare對費爾法克斯縣歷史明信片館藏資源進行了可視化實現(xiàn);黃珊珊[82]針對微博信息聚合設計和實現(xiàn)了基于用戶行為的可視化系統(tǒng);Kaptein等[83]以荷蘭國會會議官方記錄中的大規(guī)模半結(jié)構(gòu)化數(shù)據(jù)集為基礎,探索了利用文檔結(jié)構(gòu)和內(nèi)容可視化方法以及搜索結(jié)果分組、分面搜索等技術進行結(jié)果聚合與呈現(xiàn)的方法;Bron等[84]采用三角測量的方法,利用歷時研究和實驗室研究分析了學生在多會話搜索任務中對標簽式和嵌入式呈現(xiàn)的偏好和使用行為。
垂直領域?qū)氖谴怪彼阉饕妫窃诓槿逝c查準率無法兩全的悖論之下,從綜合性搜索引擎發(fā)展而來,目的是針對某一個特定領域或需求提供專深精的信息服務[85]。然而這種方式逐漸暴露出的弊端再次催生了綜合和聚集眾多垂直領域的需求。因此,在多樣化的聚合結(jié)果呈現(xiàn)時,面臨著垂直領域選擇、比較與排序等問題。Santos等[86]調(diào)查網(wǎng)絡、圖片、新聞和產(chǎn)品搜索四種不同垂直領域的多樣性需求,提出利用概率論方法來解決滿足不同垂直領域中多種信息需求任務所需的聚合搜索結(jié)果多樣性問題;Chuklin等[87]對聚合搜索的不同交叉呈現(xiàn)方法進行了比較和分析,并基于Team-Draft交叉方法和優(yōu)化交叉框架提出了兩種垂直感知的方法;Arguello等[88-90]對聚合搜索一致性進行了一系列研究,包括垂直領域不同排序和呈現(xiàn)方式對搜索結(jié)果一致性及其對搜索行為的影響等。
從用戶角度調(diào)查和分析聚合界面結(jié)果呈現(xiàn)中的交互性,以及從交互性角度對聚合界面進行評估,有助于驗證聚合關系和方法的有效性和科學性,優(yōu)化聚合系統(tǒng)交互功能的開發(fā)與設計。已有研究包括Sushmita[91]通過分析日志數(shù)據(jù)和開展用戶實驗,研究了聚合搜索的結(jié)果呈現(xiàn)與交互,包括用戶點擊行為、結(jié)果偏好與信息需求類型、來源相關性和搜索意圖的動態(tài)性,提出了相應的界面設計指南;Arguello等[92]調(diào)查了任務復雜度和不同結(jié)果呈現(xiàn)方式對垂直內(nèi)容使用的影響;Turpin等[93]通過實驗調(diào)查了認知能力如何影響用戶對聚合搜索界面的使用和評估;Kopliku[94]從關系聚合搜索和交叉垂直聚合搜索兩個方面研究了聚合搜索實施和評估的方法;Zhou等[95]從可靠性和直覺性對評估聚合搜索結(jié)果頁面指標的屬性進行了比較和分析。
聚合作為提高服務效果的一種有效技術手段,其最終目的是提升用戶信息查尋與獲取的效率和效果。目前,學科信息聚合與輿情信息聚合是兩個應用相對較早的領域。在學科信息聚合服務方面,最早是由各數(shù)據(jù)庫商依據(jù)期刊、作者等文獻特征進行聚合并提供相應的聚合服務,后來逐漸擴展到其他信息類型和系統(tǒng)中,如書評網(wǎng)絡資源聚合[96]、視頻聚合系統(tǒng)[97]、地方志資源知識聚合服務系統(tǒng)[98]、學科信息聚合服務[99]、社區(qū)知識聚合服務[100]等。在輿情信息聚合服務方面,從傳統(tǒng)媒體時代到新媒體時代,經(jīng)歷了以主題為主要維度的聚合到注重用戶個體興趣、習慣等以及多媒體化組織與呈現(xiàn)的特征,如社會化推薦聚合服務[101]、基于用戶興趣[102]及個性化[103]的信息聚合服務、突發(fā)事件情報資源動態(tài)聚合[104]等。信息聚合也已廣泛應用于其他各個領域,如空間信息[105]、教育信息[106]、農(nóng)業(yè)信息[107]、企業(yè)信息[108]等不同類型信息的聚合與服務以及智能環(huán)境下的信息聚合[109],有研究者還開展了針對兒童等特殊用戶群體的聚合搜索信息服務的研究[110]。
在提供信息聚合服務的過程中,引起了許多其他需要謹慎對待和考慮的問題。其中,信息聚合中的知識產(chǎn)權問題是最重要的問題之一,已有相關研究結(jié)合司法判決等法學領域探討了信息聚合服務或平臺中的著作權或版權[111]、法律責任問題[112]、敏感信息隱私與風險問題[113]等。如曹樹金等指出,聚合過程中可能存在法律爭議的行為包括超鏈接及深層鏈接是否構(gòu)成信息網(wǎng)絡傳播權侵權,摘要和圖片是否構(gòu)成復制權侵權,聚合結(jié)果的呈現(xiàn)是否構(gòu)成改編權、演繹權侵權,以及內(nèi)容聚合是否構(gòu)成不正當競爭[114]。另外,也有研究從聚合前視角的可聚合性出發(fā),研究復用政策[115]、聚合數(shù)據(jù)質(zhì)量與一致性問題[116],以及從圖書館員視角重新審視知識聚合趨勢下圖書館員作為數(shù)據(jù)監(jiān)護者的角色[117]。
本文綜合利用多個數(shù)據(jù)庫及多種文獻檢索方法,系統(tǒng)地檢索并獲得了與聚合相關的文獻,從綜合的視角出發(fā),對聚合一詞的涵義進行了分析與溯源,并從聚合對象的描述及其關聯(lián)、聚合結(jié)果的呈現(xiàn)與交互、信息聚合服務與應用及相關問題三個方面梳理了信息聚合相關研究的進展。
在聚合的詞義方面,研究發(fā)現(xiàn),首先,圖情領域中的聚合并非來自化學領域[118],而是經(jīng)歷了從最初的通俗意義發(fā)展到如今具有特定科學意義的過程。其次,在不同領域中聚合的含義既存在共性,也有些微差異。該詞的基本涵義是指多個異質(zhì)或有差別的單一構(gòu)件以某種方式組合形成整體或形成這一整體的過程。不同領域之間的差別在于,信息計量學中的聚合主要是指通過傳統(tǒng)的文獻資源之間的引用關系等進行關聯(lián),并依此衍生出了提供相應服務的聚合服務數(shù)據(jù)庫提供商。信息組織與信息檢索領域中的聚合均來源于分類與概念建模領域,前者偏重于指一種部分與整體的關系,以及由這種關系形成的聚合集,后者則偏重于基于聚合關系的結(jié)果呈現(xiàn)和獲取方式。未來研究可通過進一步整合不同的分支領域以及區(qū)分不同的聚合對象,從而提出信息聚合研究的統(tǒng)一框架。
在信息聚合的研究進展方面,國內(nèi)外研究存在一定的差異,具體表現(xiàn)為:國內(nèi)研究強調(diào)的是聚合關系的發(fā)現(xiàn),對于垂直領域排序與呈現(xiàn)、聚合界面交互與評估等聚合結(jié)果呈現(xiàn)與交互方面的研究較少;國外研究中在這三個部分均有涉及,但更多的是關注聚合結(jié)果的呈現(xiàn)與交互。從總體來看,國內(nèi)外研究均缺乏對多來源、多類型和多粒度層級的聚合對象之間關聯(lián)關系的挖掘以及情境信息的表征與揭示,此外對于信息聚合需求與行為等方面的關注也較少,并且沒有充分考慮聚合前或聚合過程中可能出現(xiàn)的協(xié)同或冗余效應等問題[119]。對此,未來研究可以首先應用跨文檔結(jié)構(gòu)理論、互文性、多文檔文摘等理論與技術,深入挖掘多個不同信息對象之間各種復雜的關聯(lián)關系,并關注如何保留信息片段所處的整體情境,幫助用戶更好地作出選擇和判斷;其次,將聚合行為置于人類信息搜尋過程之中,調(diào)查和明晰這一階段中用戶與系統(tǒng)的不同任務與角色,促進人類與系統(tǒng)之間的交互,提升人類在信息搜尋過程中信息查尋和獲取的有效性;最后,進一步重視聚合前信息對象的質(zhì)量與一致性問題,尤其是聚合前信息對象的篩選與評估問題,以及知識或信息聚合可能帶來信息量的增加或減少的問題,關注從用戶角度出發(fā)來使這種異質(zhì)性組成部分的關聯(lián)效用達到最大化。