施 蓓
(深圳職業(yè)技術(shù)學(xué)院 圖書館,廣東 深圳518055)
信息檢索與信息計量是情報學(xué)(Information Science,信息科學(xué))下屬的2 個獨(dú)立子學(xué)科,有著各自的學(xué)科范疇.信息檢索致力于各種載體信息的收集、描述、存儲、索引、檢索和呈現(xiàn);信息計量包括其同盟的幾種計量學(xué)(文獻(xiàn)計量學(xué)、科學(xué)計量學(xué)、網(wǎng)絡(luò)計量學(xué)、替代計量學(xué))則致力于對記錄信息的產(chǎn)品及其應(yīng)用進(jìn)行定量檢測分析和評價[1].信息檢索服務(wù)提供的是查詢獲取信息的工具和途徑;信息計量服務(wù)提供的是評估科研業(yè)績、分析發(fā)展趨勢、的方法和手段.信息檢索的研究目標(biāo)是盡可能精確地匹配用戶的信息需求和信息源中的信息內(nèi)容;信息計量的研究目標(biāo)則是盡可能精確地描述、揭示和評估某個知識單元或知識領(lǐng)域的狀態(tài)[2].
在情報學(xué)的發(fā)展過程中,信息檢索和信息計量2 個子學(xué)科之間各自獨(dú)立,同時又存在著密切的聯(lián)系,兩者的研究對象都是文獻(xiàn)信息,兩者的研究人員也存在交叉現(xiàn)象.在大數(shù)據(jù)環(huán)境下,信息檢索與信息計量之間呈現(xiàn)出內(nèi)容并行、工具整合、實踐融合的共生發(fā)展趨勢[3].一方面,信息檢索所依托的系統(tǒng)平臺擁有大規(guī)模的數(shù)據(jù),這些數(shù)據(jù)里包含了大量信息計量研究所需的數(shù)據(jù)源,檢索系統(tǒng)平臺及其檢索技術(shù)的發(fā)展使得信息計量研究能夠獲取更深層次、更全面、更詳盡的數(shù)據(jù).另一方面,信息計量學(xué)定律和理論在一定程度上為信息檢索系統(tǒng)發(fā)展新的服務(wù)模式及提高檢索效率提供了理論支持.
在隨著互聯(lián)網(wǎng)+、大數(shù)據(jù)、人工智能等技術(shù)發(fā)展和應(yīng)用而來的新時代,人們獲取信息、選擇信息、交流信息的思維方式和行為模式也發(fā)生著巨大的變化.用戶行為及需求的變化倒逼著信息檢索系統(tǒng)在實現(xiàn)基于社交網(wǎng)絡(luò)的信息過濾機(jī)制、基于數(shù)據(jù)驅(qū)動的個性化信息服務(wù)、基于語義挖掘的語義搜索、基于全數(shù)據(jù)管理的數(shù)據(jù)檢索、基于人工智能深度學(xué)習(xí)的預(yù)測檢索和多媒體檢索等功能的過程中,與信息計量理論協(xié)同發(fā)展,呈現(xiàn)社會化、數(shù)據(jù)化、智能化的發(fā)展趨勢.
1.1.1 文獻(xiàn)索引款目頻率的冪律分布
信息計量學(xué)的經(jīng)典統(tǒng)計定律中有兩類重要的冪律分布.一是齊普夫(Zipfian)詞頻分布定律:在文獻(xiàn)或信息檢索系統(tǒng)中,詞的出現(xiàn)頻率與詞的數(shù)量呈冪律分布.二是洛特卡(Lotkaian)關(guān)于科學(xué)生產(chǎn)率的頻率分布,即作者-發(fā)文量分布呈冪律分布.在洛特卡定律的基礎(chǔ)上,有學(xué)者通過對文獻(xiàn)引文數(shù)據(jù)研究,得出作者-被引次數(shù)、作者-被引篇數(shù)、論文-被引次數(shù)均呈現(xiàn)冪律分布[4].這些索引款目頻率的冪律分布規(guī)律為信息檢索系統(tǒng)中檢索款目的權(quán)重賦值提供了依據(jù),在檢索系統(tǒng)中索引款目的權(quán)重常與款目頻率的統(tǒng)計特征掛鉤.例如tf-idf 就是一種信息檢索系統(tǒng)中較普遍使用的權(quán)重方案,它綜合詞頻和逆文檔頻率給每條索引分配權(quán)重,并據(jù)此對檢索結(jié)果進(jìn)行排序.
1.1.2 用戶需求和用戶行為中的冪律分布
除了檢索系統(tǒng)的內(nèi)容數(shù)據(jù)存在冪律分布現(xiàn)象外,檢索系統(tǒng)的使用數(shù)據(jù)也存在冪律分布現(xiàn)象.有學(xué)者研究得出:①信息資源網(wǎng)站的訪問頻率、用戶對不同資源的需求數(shù)量均呈冪律分布[5].②檢索系統(tǒng)用戶的查詢款目頻率、用戶瀏覽查詢結(jié)果的頁面數(shù)、用戶在與系統(tǒng)的一次交互過程中查詢及修正查詢的次數(shù)也呈冪律分布[6].
用戶需求和用戶行為數(shù)據(jù)中的這些冪律分布規(guī)律可以幫助檢索系統(tǒng)用戶界面的設(shè)計者抓住那些應(yīng)重點(diǎn)開發(fā)設(shè)計的方面,如:優(yōu)先把訪問頻率高、需求數(shù)量大的資源放在界面的顯著位置;注重推薦高頻率的查詢款目、注重推薦不同的檢索結(jié)果排序方式、注重設(shè)計一些能幫助用戶提高交互過程效率的功能等.
1.1.3 文獻(xiàn)信息增長和老化的統(tǒng)計模型
文獻(xiàn)信息的增長規(guī)律和老化規(guī)律是信息計量學(xué)研究的兩項重要內(nèi)容,包括:關(guān)于文獻(xiàn)信息累積量快速增長的普賴斯指數(shù)模型;初始階段快速增長,然后增速逐漸變緩的邏輯模型;關(guān)于文獻(xiàn)信息老化的布魯克斯引文頻率負(fù)指數(shù)模型等[7].這些模型在檢索系統(tǒng)的規(guī)劃和設(shè)計過程中,為設(shè)計者提供了參考依據(jù),如:依據(jù)增長模型估算數(shù)據(jù)庫和索引的增長速度;依據(jù)老化模型判斷文獻(xiàn)信息的時效,從而提高有效文獻(xiàn)信息的檢出率等.
基于文獻(xiàn)引用關(guān)系的引文分析、基于關(guān)鍵詞共現(xiàn)的聚類分析、基于合著者的社會網(wǎng)絡(luò)分析等是傳統(tǒng)信息計量學(xué)中常用的計量分析范式,其理論基礎(chǔ)是利用學(xué)術(shù)文獻(xiàn)之間在某些特征上所反映出來的關(guān)聯(lián)關(guān)系,分析學(xué)術(shù)領(lǐng)域的發(fā)展?fàn)顩r和趨勢.文獻(xiàn)特征上的關(guān)聯(lián),既映射出學(xué)術(shù)領(lǐng)域中研究者、研究主題之間的關(guān)系,也反映了文獻(xiàn)信息體系本身的某些結(jié)構(gòu)特點(diǎn),因而在信息檢索過程中能起到有效的導(dǎo)引作用.
1.2.1 檢索結(jié)果排序算法
谷歌首創(chuàng)的PageRank 算法是文獻(xiàn)計量學(xué)引文理論對檢索系統(tǒng)設(shè)計產(chǎn)生影響的一個經(jīng)典案例.谷歌創(chuàng)始人Larry Page 曾提到谷歌網(wǎng)頁排序的算法思想來源于引文分析理念[8].基于PageRank 算法的各種計量模型又被進(jìn)一步應(yīng)用于各類信息檢索系統(tǒng)中的文獻(xiàn)特征因子計算、文獻(xiàn)影響力評價和檢索結(jié)果排序[9].
信息計量學(xué)形成了一系列計量概念用于描述學(xué)術(shù)信息交流的結(jié)構(gòu),如期刊的核心度、作者的中心度、關(guān)鍵詞的頻率特征tf-idf 等.Philipp Mayr等人提出將這些計量概念的算法嵌入學(xué)術(shù)信息檢索系統(tǒng),以檢索附加項的方式對檢索結(jié)果進(jìn)行排序.他們設(shè)計了兩種新的檢索結(jié)果排序方式:①應(yīng)用布拉德福定律,在查詢命中的結(jié)果集上,依據(jù)命中的論文數(shù)量劃分出核心出版物區(qū)域,并計算各出版物的核心度,核心度高的出版物中的命中結(jié)果排在前面.②應(yīng)用合著者社會網(wǎng)絡(luò)模型,在查詢命中的結(jié)果集上,計算合著網(wǎng)絡(luò)中作者節(jié)點(diǎn)的中介中心度,中心度高的作者的論文排在前面.他們通過測試得出:利用這兩種計量模型導(dǎo)向的查詢結(jié)果排序方式,篩選出的結(jié)果具有更高的查全率和查準(zhǔn)率[10].
1.2.2 “信息計量輔助檢索”策略
信息計量輔助檢索是指:在傳統(tǒng)文本檢索的基礎(chǔ)上,將協(xié)同引證、文獻(xiàn)耦合、關(guān)鍵詞共現(xiàn)、學(xué)術(shù)網(wǎng)絡(luò)等信息計量模型整合到信息檢索策略中,幫助用戶在檢索過程中更好地把握對專業(yè)信息空間范圍和結(jié)構(gòu)的限定,從而在保證查準(zhǔn)率的前提下提高查全率.
文獻(xiàn)計量學(xué)者Wolfang Gl?nzel 等人在其“領(lǐng)域研究”的過程中,為了獲得準(zhǔn)確而全面的數(shù)據(jù)樣本,將檢索策略分為兩個部分.第一部分基于期刊瀏覽、檢索詞查詢等傳統(tǒng)檢索方法,獲得“種子”文獻(xiàn);第二部分加入文獻(xiàn)計量組件對擴(kuò)展的檢索式進(jìn)行條件判定,獲得各種文獻(xiàn)計量語境下與種子文獻(xiàn)有相近關(guān)系的文獻(xiàn),并通過閾值設(shè)定關(guān)系的強(qiáng)度.他們認(rèn)為在跨學(xué)科領(lǐng)域的復(fù)雜檢索中,通過對檢索策略中的文獻(xiàn)計量組件及其閾值進(jìn)行精細(xì)調(diào)整,可將檢索結(jié)果的誤檢率控制在可接受的范圍內(nèi)[11].
在線科研和科學(xué)交流網(wǎng)絡(luò)化發(fā)展趨勢催生了替代計量學(xué).替代計量學(xué)針對在線科研模式,開發(fā)線上計量工具和平臺,利用各種社會媒體上即時產(chǎn)生的公共數(shù)據(jù),采用點(diǎn)擊、下載、傳遞、瀏覽、收藏、引用、提及、標(biāo)簽、評級、評論、點(diǎn)贊、分享等計量指標(biāo),多方位地對處于交流過程中的學(xué)術(shù)成果的影響力進(jìn)行計量分析和評價,在新的科研生態(tài)體系中構(gòu)建學(xué)術(shù)影響力評價體系[12][13].
替代計量學(xué)的研究進(jìn)展不僅構(gòu)建了新的學(xué)術(shù)影響力評價框架,同時它也信息檢索系統(tǒng)中得到深入應(yīng)用:①將替代計量學(xué)指標(biāo)納入信息檢索系統(tǒng),檢索用戶可對傳播量、同行推薦數(shù)、閱讀量、用戶評級、評分等指標(biāo)設(shè)置限定值,作為檢索結(jié)果的篩選條件.這種信息篩選模式形成了基于群體智慧的軟同行評議過濾機(jī)制,實現(xiàn)了純粹文獻(xiàn)關(guān)系之外,結(jié)合社交網(wǎng)絡(luò)關(guān)系的個性化信息推薦和信息過濾,為檢索系統(tǒng)提供了更多可供選擇的檢索限制條件,豐富了檢索系統(tǒng)的結(jié)構(gòu)和層次.②由于替代計量的指標(biāo)數(shù)據(jù)能快速地積累,達(dá)到可測量的規(guī)模,因而它們相比傳統(tǒng)的引文指標(biāo)能更快地投入使用,提高了檢索系統(tǒng)的效率.③信息檢索系統(tǒng)與替代計量工具平臺相結(jié)合,既整合了多種媒介類型和文件格式混合的資源集合,又實現(xiàn)了基于學(xué)術(shù)群體智慧的信息推薦和過濾,還能夠提供豐富的學(xué)術(shù)網(wǎng)絡(luò)關(guān)系數(shù)據(jù),因而能較好地滿足在線科研用戶對信息檢索系統(tǒng)的新要求[14][15].
目前,替代計量學(xué)工具和平臺已開始被各數(shù)據(jù)商采用,與數(shù)據(jù)商的檢索平臺結(jié)合,為用戶提供信息服務(wù),如:EBSCO 兼并了Plum Analytics,Elsevier兼并了Mendeley,Nature 和Springer 等數(shù)據(jù)庫也開始采用替代計量數(shù)據(jù)等,這表明替代計量學(xué)在信息檢索系統(tǒng)的應(yīng)用已逐步走向成熟[15].
Web2.0 以來,人機(jī)交互的信息檢索系統(tǒng)越來越重視用戶與系統(tǒng)間的交互會話過程,通過用戶界面,用戶可在反復(fù)迭代的檢索過程中調(diào)整和修正檢索策略,形成了以用戶為中心的交互檢索模式.用戶日志中用戶與系統(tǒng)交互會話的數(shù)據(jù),成為信息計量分析研究的重要數(shù)據(jù)類型.信息計量研究者和信息檢索系統(tǒng)設(shè)計者們通過對這類數(shù)據(jù)采用聚類分析、網(wǎng)絡(luò)分析等計量算法,識別用戶的種類,得出用戶的行為特征,從而在用戶的信息檢索過程中依據(jù)其種類或行為特征,推送個性化服務(wù).例如:Wolfram等人利用檢索系統(tǒng)的用戶日志數(shù)據(jù)對檢索者進(jìn)行聚類分析,識別出三種常規(guī)的交互類型,其中有一類是針對某個主題不斷調(diào)整查詢策略,反復(fù)交互的檢索者.他們認(rèn)為檢索系統(tǒng)應(yīng)篩選出這類糾結(jié)的檢索者,為其提供精準(zhǔn)的介入服務(wù),幫助其獲得滿意的檢索結(jié)果[16].
研究者和設(shè)計者們更深入地將基于用戶行為數(shù)據(jù)的用戶畫像和用戶行為本體建模等新型的信息計量技術(shù)應(yīng)用于信息檢索服務(wù)平臺,有效提高了信息推送服務(wù)的精準(zhǔn)性.例如:王洋等人設(shè)計的用戶畫像系統(tǒng)利用用戶日志中的瀏覽行為數(shù)據(jù)及爬取的相關(guān)數(shù)據(jù),在分布式集群大數(shù)據(jù)平臺上進(jìn)行聚類分析,得出用戶興趣偏好,并為用戶標(biāo)記不同權(quán)重的標(biāo)簽[17].用戶畫像方式既挖掘出了用戶的隱性需求,又為系統(tǒng)平臺的信息推送服務(wù)提供了更精準(zhǔn)的依據(jù).沈軍彩設(shè)計的用戶行為本體建模方式利用用戶的信息查詢行為數(shù)據(jù),通過數(shù)學(xué)建模分析,生成“行為-主題分布”和“主題-詞匯分布”模型,提取出用戶的信息查詢行為本體.進(jìn)行信息推送時,則計算信息資源集合中各文檔的關(guān)鍵詞向量與用戶行為本體匹配的程度,作為信息推送的權(quán)重值,實驗證明了此方式能夠有效提高信息推送的準(zhǔn)確性[18].
目前的語言模型主要是根據(jù)文本中各詞項概率分布進(jìn)行數(shù)學(xué)建模,如:統(tǒng)計語言模型、主題模型等.隨著語言模型在自然語言處理領(lǐng)域的深入應(yīng)用和發(fā)展,信息計量研究領(lǐng)域也開始將其作為研究和應(yīng)用的一個重要方向,如:應(yīng)用主題模型識別作者、機(jī)構(gòu)間潛在的學(xué)術(shù)關(guān)聯(lián)性;研究學(xué)術(shù)群體、學(xué)術(shù)社區(qū)的主題分布及其發(fā)展動態(tài)等.信息計量基于語言模型的研究成果在信息檢索領(lǐng)域的應(yīng)用,實現(xiàn)了從語義層面對文獻(xiàn)內(nèi)容、檢索策略,甚至檢索者興趣的關(guān)聯(lián)性挖掘,進(jìn)而實現(xiàn)更準(zhǔn)確的檢索匹配和更有效的檢索結(jié)果聚類等.
語言模型用生成概率評估一篇文檔和一個查詢之間的關(guān)聯(lián)程度.例如:李進(jìn)華等人論述了利用統(tǒng)計語言模型實現(xiàn)的相關(guān)性概率檢索模式.該模式首先統(tǒng)計詞表中各詞出現(xiàn)在某篇文獻(xiàn)中概率,建立起各篇文獻(xiàn)的語言模型;在每次檢索時,計算查詢詞序列生成各篇文獻(xiàn)語言模型的概率,依據(jù)查詢生成概率,按查詢似然評分法給出檢索結(jié)果[19],實現(xiàn)了一定程度的語義檢索.
LDA 是一種典型的文檔主題生成模型,它包含“文檔—主題—詞”三層結(jié)構(gòu),通過對文檔的詞頻向量進(jìn)行數(shù)學(xué)建模分析,得出該文檔潛在的主題分布.阮光冊等人將LDA 主題模型與K-means 聚類算法結(jié)合,對檢索結(jié)果進(jìn)行聚類.首先在檢索結(jié)果中,基于LDA 主題模型得出各篇文檔的潛在主題的概率分布信息;然后基于該分布信息對檢索結(jié)果進(jìn)行聚類分析,并提取聚類標(biāo)簽對類簇進(jìn)行標(biāo)識[20].沈軍彩設(shè)計的用戶行為本體模型也是運(yùn)用LDA 主題模型的方法,對用戶查詢行為數(shù)據(jù)進(jìn)行的建模,得出用戶查詢行為的主題分布[18].
針對學(xué)術(shù)網(wǎng)絡(luò)的主題建模,Jie Tang 等人提出超越單獨(dú)為某一類節(jié)點(diǎn)建立LDA 模型的分離建模方式,在論文集上依據(jù)“作者—主題”的關(guān)聯(lián)概率、“主題—詞”的生成概率和“主題—出版物”的生成概率,建立論文的異構(gòu)主題模型,并將其應(yīng)用于學(xué)術(shù)信息搜索系統(tǒng)的隨機(jī)游走框架.在游走排名分值上迭加由該模型計算出的主題相關(guān)性分值;或在游走路徑上嵌入主題路徑,并按該模型計算游走主題路徑的概率[21].
在信息技術(shù)網(wǎng)絡(luò)化、智能化的發(fā)展趨勢下,信息計量的空間和語境不斷擴(kuò)展,發(fā)展出新的計量指標(biāo)和模型.新的計量指標(biāo)和模型在信息檢索系統(tǒng)的應(yīng)用順應(yīng)了新時代用戶的新要求,推動了信息檢索系統(tǒng)的發(fā)展.例如:①協(xié)同過濾:信息計量的對象已由單一的文獻(xiàn)體系和封閉的資源平臺,擴(kuò)展到多元化的、開放的在線平臺和社交網(wǎng)絡(luò),催生了替代計量學(xué)語境.信息檢索系統(tǒng)借助替代計量學(xué)指標(biāo)和平臺,形成了基于社交網(wǎng)絡(luò)數(shù)據(jù)的信息過濾機(jī)制,利用群體智慧篩選信息,提高信息檢索效率.②數(shù)據(jù)驅(qū)動:信息計量的數(shù)據(jù)范圍由單一平臺的內(nèi)容數(shù)據(jù),擴(kuò)展到分布式集群平臺的內(nèi)容數(shù)據(jù)和用戶行為數(shù)據(jù),形成了數(shù)據(jù)挖掘、用戶畫像、數(shù)據(jù)可視化等大數(shù)據(jù)分析語境.?dāng)?shù)據(jù)挖掘和可視化技術(shù)的應(yīng)用,促成了檢索系統(tǒng)對內(nèi)容數(shù)據(jù)中隱含的關(guān)聯(lián)性挖掘和對復(fù)雜數(shù)據(jù)的呈現(xiàn)方式.用戶畫像等技術(shù)提高了信息檢索系統(tǒng)用戶交互過程的效率和信息推薦的精準(zhǔn)性.③語義搜索:信息計量層次由信息的字符層面,深入到信息的語義層面,產(chǎn)生了語言模型、領(lǐng)域本體、知識圖譜等語義分析語境,這些理論和技術(shù)的應(yīng)用幫助信息檢索系統(tǒng)實現(xiàn)了基于語義的智能檢索功能.
隨著人工智能時代的到來,信息檢索系統(tǒng)向著智能化檢索的目標(biāo)發(fā)展,現(xiàn)階段主要包括:①基于語言模型的語義檢索,②基于推理機(jī)制的預(yù)測性檢索,③多媒體信息檢索等.
預(yù)測性檢索是指信息檢索系統(tǒng)可以預(yù)測每個用戶查詢背后的意圖,并給出相關(guān)的檢索結(jié)果[22].用戶在為解決某些實際問題而進(jìn)行信息檢索時,常常困于如何清晰地描述具體的信息需求.預(yù)測性檢索通過對用戶檢索行為數(shù)據(jù)的深度學(xué)習(xí),運(yùn)用神經(jīng)網(wǎng)絡(luò)算法,推理用戶的意圖,為用戶篩選出符合其需求的信息資源[23].
多媒體信息檢索是指實現(xiàn)對自然語言、圖像、音視頻等非結(jié)構(gòu)化數(shù)據(jù)的檢索,其關(guān)鍵是實現(xiàn)對非結(jié)構(gòu)化數(shù)據(jù)的特征識別和數(shù)據(jù)處理.隨著人工智能領(lǐng)域機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,利用AI 技術(shù)構(gòu)建機(jī)器學(xué)習(xí)系統(tǒng),可自動分析和匯總大量非結(jié)構(gòu)化數(shù)據(jù)和自然語言文檔,并能精簡和加速對音頻、圖像和視頻等非結(jié)構(gòu)化數(shù)據(jù)的密集而耗時的分析任務(wù)等[24].各種人工智能深度學(xué)習(xí)算法的應(yīng)用為實現(xiàn)多媒體信息檢索鋪平了道路.機(jī)器學(xué)習(xí)或深度學(xué)習(xí),追根究底都是以數(shù)據(jù)的研究為基礎(chǔ)的[25],多媒體信息檢索是在對大量密集的數(shù)據(jù)樣本進(jìn)行深度學(xué)習(xí)的基礎(chǔ)上實現(xiàn)的.
語義檢索、預(yù)測檢索和多媒體信息檢索,都是基于對大量數(shù)據(jù)進(jìn)行建模分析和計算而實現(xiàn)的,如何構(gòu)建數(shù)模和選擇算法,需要跨學(xué)科研究解決,這也對信息計量學(xué)的研究和突破提出了新的要求.信息計量學(xué)是一個不斷發(fā)展的學(xué)科,它一直追隨著信息社會的發(fā)展變化而不斷拓展自身的研究空間和研究語境,在人工智能的新時代中它必將迎來新的發(fā)展,也將在信息檢索領(lǐng)域中產(chǎn)生新的應(yīng)用成果.