陳明紅,劉嘉璐,高明財,邱韞淇,邵蘇晨(中山大學信息管理學院)
信息搜索是信息行為研究的重要內容。自20世紀初以來,信息搜索領域對文獻資源查找展開探索性研究[1],經(jīng)歷了從文獻到信息、從系統(tǒng)中心論到用戶中心論的研究轉變[2]。隨著信息技術的發(fā)展,互聯(lián)網(wǎng)突破了時間和空間限制,逐漸成為信息搜索的重要渠道,移動智能設備增加了信息搜索的多樣性,使信息搜索行為發(fā)生了深刻改變。在大數(shù)據(jù)、人工智能、社會化網(wǎng)絡等技術的助推下,信息搜索技術得到極大提升,搜索范圍更廣泛,但信息過載也增加了信息甄別的難度,要搜索到準確而全面的信息更加不易。
信息搜索的研究成果主要集中于圖書情報領域[3-5],也有部分研究來自管理科學與工程、心理學、傳播學、經(jīng)濟管理等學科[6-9]。信息搜索的研究對象從科研用戶群體擴展至日常信息搜索用戶,包括健康、旅游、就業(yè)、社交等領域[10-13],研究內容集中于信息需求與搜索動機、信息源選擇、搜索行為過程及影響因素等方面[14-17],研究方法不僅包括訪談、實驗、問卷等分析搜索用戶主觀感受和認知狀態(tài)的方法[18],還采用日志分析、機器學習等方法分析搜索行為的客觀特征[19]。
為全面展現(xiàn)信息搜索研究現(xiàn)狀,本文搜集近20年社會科學引文索引(Social Sciences Citation Index,SSCI)和中文社會科學引文索引(Chinese Social Sciences Citation Index,CSSCI)收錄的信息搜索領域相關論文,對其進行可視化分析,系統(tǒng)梳理和全面對比國內外信息搜索研究特征與主題演變趨勢,以期為信息搜索服務提升與深化研究提供一定參考。
考慮到數(shù)據(jù)的代表性與可比性,2021年4月11日,筆者在Web of Science和中國知網(wǎng)中分別將來源期刊限制為SSCI和CSSCI,在題名字段中分 別以“Information search”“Iinformation seek”“信息搜索”“信息搜尋”“信息查找”“信息獲取”為中、英文關鍵詞進行檢索,兩個數(shù)據(jù)庫的時間段分別限定為2002年—至今、1998年—至今,共檢索到CSSCI論文604篇、SSCI論文1,692篇。刪除與主題無關的論文后,分別得到538篇和1,560篇。
①通過統(tǒng)計,揭示信息搜索研究文獻逐年增長情況,并將其劃分為多個階段;②運用綜合指數(shù)法確定國內外該領域的核心作者群;③使用Gephi軟件繪制高頻關鍵詞共現(xiàn)網(wǎng)絡圖,展現(xiàn)國內外信息搜索領域的學科結構和研究主題;④使用CiteSpace軟件對主題進行聚類與主題演化分析,利用Kleinberg算法進行突變詞檢測,總結和歸納國內外信息搜索領域的主題演變趨勢和研究前沿。
論文數(shù)量是衡量研究熱度的重要指標[20]。在近20年信息搜索領域的論文年度分布情況方面,SSCI和CSSCI論文數(shù)量的增長趨勢大致相同。根據(jù)增長速度及關注重點,可將研究時期劃分為3個階段。
第一階段為1998—2006年,此時的互聯(lián)網(wǎng)發(fā)展還處于初期階段,如何利用互聯(lián)網(wǎng)搜索信息成為當時的熱點問題,研究主要圍繞網(wǎng)絡搜索模型、網(wǎng)絡搜索行為類型、網(wǎng)絡搜索動機、網(wǎng)絡搜索方法、數(shù)據(jù)庫搜索等問題展開。如,田開芳等介紹了網(wǎng)絡搜索技巧[21],Broder將網(wǎng)絡搜索行為劃分為導航類、信息類和事務類,并指出各自所占比例[22]。第二階段為2007—2015年,隨著Web2.0的誕生,社交媒體信息搜索引起學界的廣泛關注,主要研究博客搜索引擎設計[23]、微博學術信息搜索[24]等問題。此外,這個時期信息搜索的實證研究增長較快,主要采用問卷調查和多元回歸方法,針對各因素對搜索行為的影響進行研究[25]。第三階段為2016—2021年,研究問題更加具體,研究方法更加多樣,如健康信息搜索、視覺搜索、搜索任務等都是本時期的研究熱點。
筆者利用SATI進行統(tǒng)計,得到的SSCI與CSSCI論文作者數(shù)分別為4,070和903,其中SSCI發(fā)文量最多的作者是Savolainen Reijo(25篇),CSSCI發(fā)文量最多的作者是袁紅(19篇)。由此,筆者根據(jù)普賴斯公式[26]得到SSCI與CSSCI核心作者的發(fā)文量閾值分別為3.7篇和3.3篇,發(fā)文量大于3的核心作者分別為91位和35位,人均發(fā)文量分別為5.8篇和5.7篇。
根據(jù)發(fā)文量和引文量計算綜合指數(shù)法,筆者將指數(shù)大于100的作者視為核心作者[27]。采用綜合指數(shù)法計算得知,在信息搜索領域,SSCI有29位核心作者,CSSCI有13位核心作者。表1展示了SSCI和CSSCI中前10位核心作者的發(fā)文量、論文被引總量及綜合指數(shù),可見,SSCI和CSSCI的核心作者發(fā)文量、被引總量以及綜合指數(shù)均有較大差異。SSCI作者的各項指標均高于CSSCI,說明國內研究對比國外還有一定的差距。
表1 SSCI、CSSCI信息搜索領域核心作者(前10位)
由SSCI和CSSCI在信息搜索領域發(fā)文量前10的機構(見圖1)可知,排名位居前列的機構均為各大高等學校。對比可知,SSCI發(fā)文量前10的機構柱狀圖變化比較平緩,發(fā)文量相差不大,CSSCI中各機構發(fā)文量相差較大,武漢大學以63篇論文排第一,排名第十的浙江大學發(fā)文量只有11篇。國外10所機構共發(fā)表了261篇論文,占發(fā)文總量的16.3%,國內10所機構共發(fā)文227篇,占發(fā)文總量的41.5%,說明國外信息搜索領域的研究機構較多、比較分散,而國內的相關研究相對集中,大多來源于高校。另外,各機構的發(fā)文量與被引量基本保持正相關關系。
圖1 發(fā)文量前10的機構
筆者通過繪制關鍵詞共現(xiàn)網(wǎng)絡圖來展現(xiàn)信息搜索領域的主題分布情況,將538篇CSSCI論文和1,560篇SSCI論文的題錄信息導入SATI中提取關鍵詞,計算詞頻。采用g指數(shù)方法計算高頻詞個數(shù),得到兩個期刊論文的高頻詞分別為19個和35個,數(shù)量較少,難以全面概括信息搜索研究主題。因此,為分析論文特征并兼顧主題覆蓋率,筆者將SSCI和CSSCI論文高頻詞詞頻分別定為5和3。采用Gephi軟件繪制高頻詞共現(xiàn)網(wǎng)絡圖發(fā)現(xiàn),在SSCI文獻中,Information seeking是核心關鍵詞,連接Internet、Information need、Decision making、Information retrieval、Information behaviour、Social media、Risk perception、Uncertainty等關鍵詞;在CSSCI文獻中,信息搜索、信息搜尋和搜索引擎是核心關鍵詞,與其聯(lián)系緊密的關鍵詞有信息行為、互聯(lián)網(wǎng)、社會化媒體、信息偶遇、信息需求、大學生、搜索引擎等。中英文關鍵詞的中心性均大于0.1,說明它們在信息搜索研究領域具有重要地位(見表2)。
表2 研究熱點關鍵詞詞頻與中心性(部分)
對比SSCI和CSSCI高頻詞共現(xiàn)網(wǎng)絡及其中心性可知,國內外信息搜索研究都十分關注信息搜索、信息搜尋、互聯(lián)網(wǎng)和信息搜尋行為等主題。不同之處在于:國內對搜索引擎、信息素養(yǎng)、大學生等給予了更多關注;國外則更關注信息需求、健康信息、信息決策等主題。
采用CiteSpaceV軟件進行聚類分析,將具有相同特征或關系密切的關鍵詞聚為一類,以關鍵詞共現(xiàn)次數(shù)為聚類標準,采用共現(xiàn)次數(shù)多的關鍵詞對類進行標注(見圖2)。
圖2 主題聚類結果(左圖對應SSCI,右圖對應CSSCI)
(1)SSCI論文的研究主題可聚為6個類。聚類#0 Virtual communities主要包括社交網(wǎng)絡、社交媒體、信息需求、動機、決策等關鍵詞,研究社交媒體與虛擬社區(qū)中的信息搜索;聚類#1 Retrieval systems主要包括檢索系統(tǒng)、查詢式、個體差異、萬維網(wǎng)、檢索模式、檢索策略、系統(tǒng)設計等關鍵詞,從信息檢索系統(tǒng)的設計、構建、使用等方面研究信息檢索;聚類#2 Illness主要包括健康信息、年長者、女性、健康焦慮、社會支持、病人、障礙等關鍵詞,研究不同社會群體的健康信息搜索行為;聚類#3 Young people主要包括信息技能、風險交流、人機交互、信息意識、大學生、青少年、信息素養(yǎng)、教育信息等關鍵詞,主要從信息搜索內容、過程、特征等方面研究年輕用戶的信息搜索行為;聚類#4 Attitude主要包括環(huán)境、相關性、判斷、采納、任務復雜度、性別、選擇性暴露、大眾媒體、用戶交互、認知權威等關鍵詞,研究用戶搜索過程的主觀態(tài)度和具體情境;聚類#5 Need主要包括群體決策、心理、自我效能、不確定性、風險感知、偏好、信任等關鍵詞,從認知、心理和情感等視角研究搜索需求。
(2)CSSCI論文的研究主題可聚為7個類。聚類#0信息搜尋行為,包括搜尋行為、健康信息搜尋、社會化信息搜尋、信息搜尋行為模式、風險信息搜尋等關鍵詞,主要研究信息搜尋行為模式、特征、影響因素等問題;聚類#1信息搜尋,包括信息搜尋、人格特質、信息素養(yǎng)、搜尋任務、眼動追蹤、搜尋效率等關鍵詞,關注信息搜尋主體、目的、過程、結果等問題;聚類#2搜索引擎,包括搜索引擎、信息過濾、信息系統(tǒng)、索引數(shù)據(jù)庫、信息檢索、元搜索引擎、垂直搜索引擎等關鍵詞,關注搜索引擎類型、搜索引擎中的信息組織與檢索技術;聚類#3信息搜索,包括決策模型、信息關注、信息利用、群體突發(fā)事件、探索式搜索、經(jīng)驗決策、認知過程等關鍵詞,關注信息搜索過程及其對用戶決策的影響;聚類#4搜索行為,包括學習型搜索、任務復雜度、網(wǎng)絡信息搜索、情境、交互式信息搜索、信息覓食理論、信息視域、協(xié)同信息行為等關鍵詞,主要研究不同情境下信息搜索行為;聚類#5信息生態(tài),包括信息生態(tài)、信息需求、信息偶遇、社會化搜索、信息獲取、信息意識、信息素養(yǎng)等關鍵詞,從信息生態(tài)視角研究信息資源、信息主體以及信息環(huán)境對信息搜索的影響;聚類#6互聯(lián)網(wǎng),包括互聯(lián)網(wǎng)、社會網(wǎng)絡、雙重網(wǎng)絡、健康信息替代搜尋、個體特征等關鍵詞,主要研究互聯(lián)網(wǎng)環(huán)境下的信息搜索行為。
可見,SSCI與CSSCI文獻主題聚類結果差異較大。SSCI文獻數(shù)量多,基礎理論研究較多,主題比較聚焦;而CSSCI的研究主題比較分散,針對用戶的實證研究相對較多。
SSCI信息搜索研究演變趨勢情況如下:2002—2003年主要研究信息搜索行為模型、信息需求分析、信息檢索策略等問題;2004—2005年重點關注搜索經(jīng)驗、搜索情境、用戶特征、用戶交流、搜索參與度等問題[33];2006—2009年開始重視信息搜索影響因素,探索用戶個體特征、搜索經(jīng)驗、感知因素等對信息搜索的影響;2010—2014年重點關注健康信息搜索問題,包括健康信息可信度、健康信息素養(yǎng)、搜索動機、搜索行為過程等;2015年以后將搜索用戶仔細分類,探究不同用戶群體的搜索行為與特征,同時十分重視社交媒體中的信息搜索。
CSSCI研究情況如下:1998—2003年,國內互聯(lián)網(wǎng)剛興起,不少研究探討信息檢索技術和互聯(lián)網(wǎng)信息搜索技巧,研究主要關注搜索引擎與互聯(lián)網(wǎng)應用;2004—2009年,以用戶為中心的Web2.0出現(xiàn)后,研究重點從搜索系統(tǒng)轉變?yōu)橛脩羲阉餍袨?,以用戶認知為導向的信息搜索開始成為研究熱點[28];2010—2017年的研究更加重視搜索用戶研究,研究內容更加豐富,重點關注搜索認知、心理、情感等問題,此外針對大學生等特定人群以及健康信息等特定領域的研究成果逐漸增多;2018年以后的研究更加精細,著重關注任務復雜度、學習型搜索等主題。
可見,SSCI與CSSCI的研究主題均隨信息技術與信息媒體的更新?lián)Q代而不斷變化,研究焦點基本經(jīng)歷了從系統(tǒng)到用戶,從理論到實踐的轉變。不同之處在于,SSCI前10年涌現(xiàn)的關鍵詞較多,近10年演變的關鍵詞較少,再次說明其研究的聚焦性,而CSSCI的關鍵詞每年都有變化,說明CSSCI的研究主題較多。
在CiteSpace中,可將詞頻在短時間內增長快的關鍵詞作為突變詞,用于揭示相關領域的研究前沿。將SSCI文獻導入軟件,共得到32個突變詞,部分突變詞見圖3。2002—2008年的突變詞是Information retrieval;2008—2014年出現(xiàn)了Selective exposure、Impact、Preference等 突變 詞,說明影響因素、用戶偏好等主題逐漸成為信息搜索領域的研究熱點;2013—2021年,Context、Social media等突變詞的出現(xiàn)表明信息搜索情境、社交媒體等成為本領域的研究前沿。
圖3 信息搜索研究突變詞(左圖對應SSCI,右圖對應CSSCI)
圖3表明,從CSSCI文獻中分析得到9個突變詞。1998—2006年,學術界對搜索引擎、因特網(wǎng)的關注度極高,而后研究重點逐漸轉移到了搜索服務與搜索行為;2017年,搜索影響因素逐漸成為研究前沿;2018年以來,隨著“健康中國2030”規(guī)劃綱要的發(fā)布[29],公眾對健康信息的高度關注,健康信息搜索成為新的研究前沿。
可見,SSCI與CSSCI存在相同或相似的突現(xiàn)詞:搜尋、互聯(lián)網(wǎng)、行為和影響等,研究前沿都從系統(tǒng)構建與設計到系統(tǒng)使用的轉變。不同之處在于,SSCI的研究前沿隨信息媒體變化而更新,CSSCI的研究前沿主要體現(xiàn)在不同的應用領域。
筆者通過系統(tǒng)梳理20年來信息搜索領域在SSCI和CSSCI中的文獻,發(fā)現(xiàn)國內外在該領域的研究呈現(xiàn)如下特征。
(1)信息搜索一直受到諸多關注,文獻數(shù)量逐漸增加。從發(fā)文量的時序變化看,國內外文獻變化趨勢與發(fā)展階段基本一致,曲線沒有劇烈波動,都呈現(xiàn)出整體穩(wěn)定上升的狀態(tài)。
(2)從核心作者看:SSCI的核心作者數(shù)比CSSCI多,且SSCI核心作者的人均發(fā)文量、被引總量和綜合指數(shù)均高于CSSCI,說明國內外研究以及作者影響力還存在一定差距。
(3)從研究機構看:國外研究機構數(shù)量多,機構發(fā)文量差距?。粐鴥劝l(fā)文量多的機構是武漢大學、南京大學等高校,其他機構發(fā)文量較少,機構間發(fā)文量差異大。
(4)從主題分布和演化看:國內外均對互聯(lián)網(wǎng)搜索、影響因素、健康信息搜索等主題給予了關注,但國外研究主題更聚焦,強調搜索模型、搜索需求等方面的研究,而國內研究聚類較多,不同類之間的差異性較小,更注重對信息搜尋行為、信息生態(tài)、搜索服務等問題的研究。
(5)從研究前沿看:國內外研究重點均從搜索工具和系統(tǒng)逐漸轉向用戶和搜索行為本身,研究對象更加具體,研究內容日益豐富,處于成熟發(fā)展階段。
通過比較分析可知,現(xiàn)有研究也存在一些不足。①理論研究薄弱。目前大多數(shù)研究借鑒的經(jīng)典理論模型,如Bates的Berrypicking模型、Kuhlthau的ISP模型、Belkin的ASK模型等,都已提出多年,在新的信息技術和媒體條件下,缺乏與之相適應的理論模型。②信息搜索是一個復雜的動態(tài)持續(xù)過程,不僅受到外部環(huán)境影響,還會受個人經(jīng)驗、認知、情感和心理等多種因素支配。大量實證研究僅采用問卷或者簡單實驗,只能得到橫截面數(shù)據(jù),研究少數(shù)變量與信息搜索之間的相關關系,難以驗證兩者的因果關系。③網(wǎng)絡上具有信息搜索的大量數(shù)據(jù),采用小數(shù)據(jù)的分析方法,難以全面采集和深入分析信息搜索大數(shù)據(jù)并發(fā)掘信息搜索行為存在的實際問題。
現(xiàn)有研究的不足為信息搜索未來研究提供了一些啟示。①強化信息搜索的理論研究,構建適用于移動互聯(lián)網(wǎng)、大數(shù)據(jù)、物聯(lián)網(wǎng)、人工智能等新型信息技術的搜索模型,夯實信息搜索研究的理論基礎。②廣泛采集信息搜索行為數(shù)據(jù),綜合采用定性(如問卷、訪談)與定量方法(如語義分析、深度學習),刻畫信息搜索行為的多種特征,梳理并驗證各因素與信息搜索行為間深刻的邏輯關系。③充實研究力量,加強國內外合作和學科間合作,融合理論與技術,擴展信息搜索研究內容,尤其注重搜索技術的應用研究并及時推廣研究成果。