周文杰 趙悅言 魏志鵬 楊克虎
(1.西北師范大學商學院 甘肅蘭州 730070)
(2.蘭州大學基礎醫(yī)學院循證醫(yī)學中心 甘肅蘭州 730000)
(3.蘭州大學循證社會科學研究中心 甘肅蘭州 730000)
循證研究的基本目的,是為了對存在分歧甚至對立的原始研究證據(jù)加以有效整合,以獲取更高層次、更具有普遍意義的科學證據(jù)。 Jessica Gurevitch 等提出,對原始的科學研究結果加以綜合,以達到全面理解和解決問題,并確定研究結果變化的來源是科學進程的基本組成部分。迄今為止,循證研究領域已發(fā)展了系統(tǒng)評價和元分析等一整套理論、方法與工具,Cochran、Campbell 等網(wǎng)絡也為循證研究的規(guī)范化和更高層次研究證據(jù)的整合與交流提供了平臺。近二三十年來,循證研究呈現(xiàn)出了由醫(yī)學領域向社會科學擴展的趨向,系統(tǒng)評價(systematic review)、元分析(meta-analysis)及研究結果整合(research synthesis)的理論與方法也呈現(xiàn)出了蓬勃的發(fā)展態(tài)勢。
在社會科學研究領域,由于研究對象具有多元化、異質(zhì)性及依情境而變等特征,導致原始研究所獲取的證據(jù)與自然科學相比存在更多的局限性和不穩(wěn)定性,從而更迫切地需要社會科學領域開展科學的系統(tǒng)評價和元分析,以便獲取更高層次的研究證據(jù)。無論是在自然科學領域的循證研究還是循證社會科學研究中,原始文獻檢索質(zhì)量的高低都是系統(tǒng)評價和元分析能否消除偏倚,獲得高質(zhì)量證據(jù)的首要因素。為此,研究者亟待對循證社會科學研究中文獻證據(jù)檢索的質(zhì)量展開深入評價,以確定相對科學的檢索標準,從而保障基于這些原始研究證據(jù)而展開的系統(tǒng)評價和元分析更具科學意義。 基于這一背景,本文旨在對文獻證據(jù)檢索科學性評價問題的緣起加以回顧,在汲取傳統(tǒng)的查全率和查準率指標合理要素前提下,提出飽和度、冗余度、敏感度等指標,并引入信度和效度評估方法,以期發(fā)展出適合于循證社會科學自身特征的新的文獻證據(jù)檢索質(zhì)量評價指標體系。在此基礎上,本文還將對文獻證據(jù)檢索科學性評價的趨勢做出判斷。
科學文獻的特征之一,是其中充斥著對某一科學問題的反復研究。研究者之所以對同一現(xiàn)象、問題或假設進行多次的重復分析,是為了獲得更加概括、更加接近于真實、具有更高質(zhì)量的證據(jù)。然而,很多研究者都發(fā)現(xiàn),即使針對同樣的問題采用了類似的研究設計,研究者所獲得的研究結果也常常存在差異,甚至存在相互矛盾和對立?!缎睦砜茖W透視》(Journal Perspectives on Psychological Science)雜志曾出版了一期特刊,專門對重復研究得到不同發(fā)現(xiàn)的現(xiàn)象進行了系統(tǒng)評述。很多證據(jù)都表明,與自然科學相比,社會科學領域針對相同研究問題而得出不同研究結果的現(xiàn)象尤為突出。
自1992 年,加拿大學者Gordon Henry Guyatt 等首倡在醫(yī)學教育領域應用循證方法以來,研究證據(jù)整合的理論、方法和工具一直得到學界的廣泛關注。近二三十年來,系統(tǒng)評價和元分析作為循證領域用以進行原始證據(jù)整合,獲取更高層次證據(jù)的基本手段,尤其受到重視。1997 年,Lipsey 和Wilson發(fā)表了基于302 篇社會科學領域關于處理效應的元分析述評文章,標志著社會科學領域的研究證據(jù)整合進入了新的階段。 同年,Cochrane 合作網(wǎng)絡正式成立,成為首個研究證據(jù)整合的全球性合作平臺。1999 年,以促進社會科學領域研究整合為主要目標的Campbell 合作網(wǎng)絡建立,使社會科學領域的循證研究和循證實踐具備了更加堅實的基礎。
在研究證據(jù)整合的過程中,元分析的工具和方法扮演著極其重要的角色。迄今為止,元分析方法的發(fā)展和完善經(jīng)歷了若干重要階段。 Cochran指出,1954年首個元分析中固定和隨機效應計算方法的提出,1986 年研究間方差的累計計算方法的發(fā)展,1997年關于漏斗圖(funnel plot)和Egger 檢驗(Egger’s test)在發(fā)表偏倚識別中的應用,2002 年關于異質(zhì)性檢驗指標I的提出可被視為元分析發(fā)展歷程中的里程碑。經(jīng)過多年的發(fā)展,當前元分析的方法和工具已越來越多樣、豐富,其科學程度也越來越得到各領域研究者的認可。 特別是在1995 年“系統(tǒng)評價”這一術語提出以來,循證領域的研究者進一步發(fā)展了PRIMA 等一系列系統(tǒng)評價質(zhì)量評估工具,極大地提高了循證研究的規(guī)范性,使科學研究結果的整合在整個科學發(fā)展的進程中發(fā)揮了重要的影響力。
盡管系統(tǒng)評價和元分析的科學化和規(guī)范化有效地促進了研究結果的整合,極大地提升了循證研究的質(zhì)量,但如本文所述,系統(tǒng)評價和元分析的質(zhì)量首先取決于原始證據(jù)獲取是否全面。 也就是說,如果對原始證據(jù)的檢索存在著偏差,則無論系統(tǒng)評價和元分析的程序如何嚴謹、方法如何科學,其結果都可能存在偏倚。從這個意義上說,原始研究證據(jù)的檢索是保障循證研究結果科學性的首要問題。然而,通過文獻調(diào)查發(fā)現(xiàn),迄今為止,學術界在文獻證據(jù)檢索的科學性評價方面尚無明確統(tǒng)一的評價標準,存在著明顯的研究薄弱點。
著眼于促進社會科學領域研究證據(jù)的整合和高質(zhì)量應用,循證社會科學領域尤其需要發(fā)展出科學規(guī)范的文獻證據(jù)檢索評判標準。在我國,2019 年由楊克虎教授作為首席專家的國家社會科學基金重大項目“循證社會科學的理論體系、國際經(jīng)驗與中國路徑研究”得以立項,標志著我國循證社會科學研究與應用已進入深化發(fā)展的新階段。 在我國循證社會科學蓬勃發(fā)展的背景下,發(fā)展一套統(tǒng)一的文獻證據(jù)檢索的質(zhì)量評價規(guī)范和標準,對于促進循證社會科學理論的完善和實踐的應用意義重大。
圍繞文獻檢索質(zhì)量的評價,信息資源管理等領域都已展開了大量研究。這些研究表明,評價檢索質(zhì)量需要同時考慮兩個相關關聯(lián)的因素:在盡可能把相關的文獻全部納入進來的同時,把不相關的文獻排除出去。按照這種邏輯,信息檢索等領域已發(fā)展了查全率和查準率等指標,用于檢索質(zhì)量的評價。
查全率(Recall Ratio)主要是指從文獻數(shù)據(jù)庫內(nèi)檢出的相關文獻數(shù)量在文獻總體所占的比重。 這一指標主要用于衡量在特定檢索中檢出相關文獻的能力。 查全率越高,意味著檢索獲得的相關文獻越全面。 彭奇志將影響查全率的因素總結為如下兩個方面:首先,從文獻數(shù)據(jù)庫的角度來看,數(shù)據(jù)庫收錄文獻信息不全,索引詞匯缺乏控制和專指性,詞表結構不完整,檢索詞間關系模糊或不正確,標引不詳,標引前后不一致,標引人員遺漏了原文的重要概念或用詞不當?shù)榷伎赡苡绊懖槿?;其次,從檢索者的檢索方式來看,檢索策略過于簡單,檢索詞選擇不當或檢索詞邏輯組配不當,檢索途徑和方法單一,檢索者不夠熟練或缺乏耐心,檢索時不能全面地描述檢索要求等也可能對查全率產(chǎn)生直接影響。 向禹和付文韜分析發(fā)現(xiàn),查全率存在如下局限性:首先,查全率描述是檢索出的相關文獻數(shù)量與存儲在檢索系統(tǒng)中的全部相關文獻總量之比,但系統(tǒng)中相關文獻問題究竟有多少一般是不可知的,只能估計;其次,查全率是一個建立在“假設”基礎上的評價指標,這種“假設”是指檢索出的相關信息對用戶具有同等價值,但對于用戶來說,所檢出文獻的相關程度可能比它的數(shù)量要重要得多。 基于此,尹舒力指出,認為查全率“是一個不實際的概念”。
查準率(Precision Ratio)用以衡量特定檢索中拒絕不相關文獻的能力,主要指特定檢索中,實際檢索出來的文獻中相關文獻所占的比率。1956 年,J.W.佩里、A.肯特等人首先提出了此項評價指標。1979 年,F(xiàn).W.蘭開斯特在《情報檢索系統(tǒng)──特性、試驗與評價》(第二版)一書中地查準率的評估方法進行了進一步操作化,使之更容易被計算。 查準率主要取決于檢索語言的專指性和所擬定的檢索策略能否準確表達用戶真正的情報需求。 若檢索策略擬訂的較寬泛,參與組配的檢索詞較少,主題詞的概念比用戶的信息需求寬泛,則查準率將降低。
查全率和查準率之間具有互逆的關系。如在極端情況下,如果研究者檢索得到了文獻數(shù)據(jù)庫中所有文檔,則獲得了100%的查全率,但此時查準率卻很低;如果研究者檢索只能獲得唯一的文檔,查重率很低,但卻可能有100%的查準率。 如本文所述,鑒于文獻證據(jù)檢索質(zhì)量之于循證社會科學研究結果整合的極端重要性,有必要在現(xiàn)有查全率與查準率指標的基礎上加以進一步細化,發(fā)展出更加具有操作性的評價指標,以便保障系統(tǒng)評價和元分析開展之前文獻證據(jù)獲取的科學性。 飽和度和冗余度是基于此種背景而提出。
飽和度和冗余度是一對在汲取查全率和查準率等傳統(tǒng)檢索評價指標合理成份的基礎上,為發(fā)展更具有操作性的文獻證據(jù)評價指標而提出的概念。所謂飽和度,是指檢索中不再有新的文獻被納入的狀況。而冗余度則是一個與飽和度緊密關聯(lián)的概念,具體指在特定檢索過程中檢索到不相關文獻的情況。
在實際操作中,飽和度可以通過“滾雪球”的辦法而得到。具體過程是:首先,研究者先通過特定的檢索詞,通過文獻數(shù)據(jù)庫所提出的各種檢索入口進行檢索,獲得相應的文獻,并對其進行去重;其次,對檢索所獲取的文獻的參考文獻進行再次梳理,將在前次檢索中未獲得的新文獻納入其中;第三,對參考文獻的參考文獻再進行梳理,并將新文獻再次納入。如此往復,直到不再有新的文獻被納入時,文獻檢索既達到飽和。構建飽和度指標的意義在于,這一指標為評價文獻證據(jù)檢索科學性提供了一個實質(zhì)性的參照系。通過參照已實現(xiàn)飽和的文獻數(shù)據(jù)集,研究者可以進一步發(fā)展出一系列文獻證據(jù)檢索科學性的評價指標來。
在形成飽和數(shù)據(jù)集的前提下,為進一步對文獻證據(jù)檢索的質(zhì)量作出判斷,研究者可以通過專家判斷的方式,將實現(xiàn)飽和的文獻數(shù)據(jù)集中的文獻按照其與檢索主題的相關度加以劃分,如劃分為高度相關、中度相關與低度相關三部分文獻。 這些文獻中,高度相關和中度相關文獻可用來評價文獻檢索的精確性(即查準率),而低相關文獻則可用來評價文獻檢索的冗余度(從反面體現(xiàn)查準率)??梢?,一個飽和檢索的文獻數(shù)據(jù)集可以同時作為檢索精確性和冗余度評價的參考標準。
基于飽和度指標,可以對傳統(tǒng)的查準率加以進一步完善和拓展。具體作法是,將飽和度區(qū)分為純凈飽和度和一般飽和度。 其中純凈飽和度是指采用特定檢索方式檢索結果涵蓋總文獻數(shù)據(jù)集中高相關文獻的程度,具體計算方法是:采用單項或者組合檢索時與總數(shù)據(jù)集中高度相關文獻的重合率,這一指標反映了特定檢索途徑是否能夠準確定位高度相關研究證據(jù)的能力; 而一般飽和度指特定檢索結果涵蓋整體數(shù)據(jù)集中中度相關文獻的程度,這一指標反映了特定檢索是否能夠準確定位中度相關研究證據(jù)的能力。 同理,基于冗余度指標可以從另外一個角度對傳統(tǒng)的查全率指標加以完善。 也就是說,通過計算特定檢索途徑所獲得的文獻在窮盡檢索數(shù)據(jù)集低相關文獻的比值,可以有效衡量特定檢索途徑獲得無關文獻的程度,從而對查準率作出反向地評估。
總之,飽和度和冗余度是一對植根于傳統(tǒng)的查全率和查準率指標但更具可操作性的評價指標。 這對評價指標的提出,有助于為循證社會科學研究者提升文獻證據(jù)檢索質(zhì)量提供重要參照。
與傳統(tǒng)的查全率和查準率指標相比較,飽和度和冗余度具有了更高地可操作性。由于飽和數(shù)據(jù)集的構建是一件極其繁瑣的工作,在無法進行飽和檢索的前提下,就有必要考慮特定檢索方式在未達100%飽和時的檢索質(zhì)量,基于此,敏感度指標得以提出。
所謂敏感度,是指在不同樣本覆蓋度下,特定檢索項目的查全率和查準率。 這一指標的具體測度方法是,應用主題、題名、關鍵詞、摘要和全文等單項檢索與組合檢索的不同抽樣水平的數(shù)據(jù)與總數(shù)據(jù)中高相關組和中相關組進行匹配,分別計算得到的高相關組和中相關組匹配比例。 在樣本數(shù)目不同的前提下,如果檢出的高、中相關文獻匹配度均比較高,則表明相應的檢索途徑穩(wěn)健而不敏感,從而具有相對更高的檢索質(zhì)量。
檢索的穩(wěn)定性和可靠性是衡量檢索質(zhì)量的另一個重要指標。參照測量領域的一般作法,可以選用信度指標作為檢索質(zhì)量穩(wěn)定性和可靠性的評價工具。
信度(Reliability),即可靠性,是指采用同樣的方法對同一對象重復測量或者應用同種方法對同一現(xiàn)象在不同時點加以測量時所得結果的一致程度。 這種一致性常常通過相關系數(shù)來表達,相關系數(shù)越高,則多次測量的結果越一致,測量結果就越穩(wěn)定、可靠。
迄今為止,研究者已發(fā)展了重測信度、復本信度、折半信度、α 信度系數(shù)等多種方法,用以對信度作出科學評價。針對文獻證據(jù)的檢索質(zhì)量評價,重測信度和復本信度的評價相對比較直觀,具有更高的可操作性。具體而言,文獻證據(jù)檢索的重測信度指在不同時點上,針對相同的檢索主題,在同一個檢索途徑下所獲得文獻的相關程度;而復本信度則指針對同一檢索主題,但通過不同檢索途徑而獲得的文獻的相關程度。顯然,無論是文獻檢索的重測信度還是復本信度,其相關系數(shù)越高,文獻檢索的穩(wěn)定性和可靠性就越有保障,因而檢索質(zhì)量越高。
飽和度、冗余度、敏感度和信度從不同側面評價了文獻證據(jù)檢索的質(zhì)量。 然而,需要注意的是,高質(zhì)量的文獻證據(jù)檢索雖然為循證研究者開展系統(tǒng)評價和元分析提供了基本保障,但卻并不能總是保證系統(tǒng)評價和元分析的科學性。這是因為,所檢索到的文獻從內(nèi)容上是否足以涵蓋循證研究的具體領域,也將對研究證據(jù)的整合產(chǎn)生重要影響。 這種文獻內(nèi)容之于系統(tǒng)評價和元分析所需證據(jù)的覆蓋程度,可以通過檢索的效度加以評價。
效度(Validity)即有效性,它是指測量工具或手段能夠準確測出所需測量的事物的程度。 按照測量理論,效度主要用以衡量所測量到的結果反映所想要考察內(nèi)容的程度。 測量結果與要考察的內(nèi)容越吻合,則效度越高;反之,則效度越低。 目前,測量領域已發(fā)展了內(nèi)容效度、效標關聯(lián)效度、結構效度、表面效度等諸多具體評價方法。
在文獻證據(jù)檢索質(zhì)量的評價中,內(nèi)容效度、效標關聯(lián)效度和結構效度都有著極其廣泛的應用前景。 如效標關聯(lián)效度可以用來評價特定檢索途徑所獲得的檢索結果與整體結果之間的吻合程度,內(nèi)容效度和結構效度則可以用來進行檢索證據(jù)覆蓋度與全面性的評價。
在文獻證據(jù)檢索質(zhì)量評價中,不僅可以借鑒測量領域關于效度評價的方法,而且也可以從研究設計本身對效度的理念加以借鑒。從研究設計的角度看,效度可區(qū)分為內(nèi)部效度和外部效度。 內(nèi)部效度涉及研究變量之間關系的確定程度衡量,主要反映了對研究結果解釋的唯一性。也就是說,如果研究結果只有一種解釋,那么研究的內(nèi)部效度就高。外部效度則主要用來說明研究結果可外推的程度。即,研究結果在“脫離研究情境后”,仍然能夠成立的程度。 由于文獻證據(jù)檢索的目的是為循證領域的研究者展開系統(tǒng)評價和元分析提供保障,因此,對文獻證據(jù)檢索的內(nèi)、外部效度的解析,事實上涉及了循證研究設計本身,因此,更具有理論價值和實踐意義。
科學化、規(guī)范化的循證社會科學研究以全面、精準的文獻證據(jù)檢索為基本保障。基于此,本文立足于傳統(tǒng)的查全率和查準率指標,進一步提出或引入了飽和度、冗余度、敏感度、信度、效度等系列評價指標。這些指標提出后,本課題組已展開了一系列的實證研究工作,為循證社會科學領域的研究者展開文獻證據(jù)檢索質(zhì)量評價提供了參照。 展望循證社會科學的未來發(fā)展,文獻證據(jù)檢索的科學性評價表現(xiàn)出了如下幾個明顯趨向:
(1)檢索過程趨于標準化。 飽和度、敏感度等指標的提出及信度和效度等指標的應用,無疑會極大地提升文獻證據(jù)檢索的科學性。這些指標在循證社會科學進一步發(fā)展進程中重要的應用價值,在于促進系統(tǒng)評價和元分析之前文獻證據(jù)檢索的標準化和規(guī)范化。也就是說,如何基于上述評價指標的研究結果,發(fā)展一套規(guī)范、系統(tǒng)、全面的文獻證據(jù)檢索質(zhì)量評價工具,并據(jù)此保障文獻證據(jù)檢索的質(zhì)量,將是今后循證社會科學領域值得關注的一個重要問題。
(2)檢索結果評價趨于可計量化。在本文所述的各類文獻證據(jù)檢索質(zhì)量評價指標中,所依賴的主要是來自于測量領域的理論、方法和工具。 未來,有必要對文獻計量等領域的相關成果加以借鑒,使文獻證據(jù)檢索結果評價與文獻計量相關研究最大程度地對接,如此,文獻證據(jù)檢索才能實現(xiàn)與圖書情報學、文獻計量學等相關領域的貫通,從而獲得更加寬廣的研究和應用前景。
(3)不依賴于文獻數(shù)據(jù)全集的自動化評估方法。雖然從研究的角度看,上述系列指標比傳統(tǒng)的檢索質(zhì)量評價指標更具可操作性,但是,這些指標仍然依賴于一個飽和的文獻數(shù)據(jù)全集。 由本文的描述可以看出,構建文獻數(shù)據(jù)全集的過程通過人工“滾雪球”的方式完成,不僅費時費力,也與大數(shù)據(jù)時代自動化的處理趨向不相符合。 為此,未來的文獻證據(jù)檢索質(zhì)量評價需要盡可能實現(xiàn)自動化。 在尚未實現(xiàn)自動化的前提下,也應盡量發(fā)展一些不依賴于文獻數(shù)據(jù)全集的測度方法。
(4)檢索成本效益的考慮。本文前述各項文獻證據(jù)質(zhì)量評價指標雖然各有側重,各具獨特性和合理性,然而,上述指標中并沒有將用戶檢索的成本問題納入考慮。為此,面向未來的循證社會科學研究者在對文獻證據(jù)檢索質(zhì)量做出評價時,需要參考搜索引擎等領域的最新研究趨向,將用戶對文獻證據(jù)檢索的成本納入考慮,以便使文獻證據(jù)檢索與大數(shù)據(jù)背景下的計算社會科學實現(xiàn)最大程度的協(xié)同發(fā)展。
本文圍繞循證研究中文獻證據(jù)檢索的質(zhì)量評價問題,結合傳統(tǒng)的檢索評價指標,提出了一系列新的評價指標。這些指標的提出,為后續(xù)實證研究的展開提供了前提,也為發(fā)展科學、規(guī)范的檢索質(zhì)量理念體系和評價工具奠定了基礎。 由于高質(zhì)量的文獻證據(jù)檢索是系統(tǒng)評價和元分析科學性的基本保障,因此,關于文獻證據(jù)檢索質(zhì)量評價標準的研究可被視為向循證社會科學構建其獨特的學術話語體系和研究范式所邁出的第一步。