周文杰 趙悅言 魏志鵬 楊克虎
(1.西北師范大學(xué)商學(xué)院 甘肅蘭州 730070)
(2.蘭州大學(xué)基礎(chǔ)醫(yī)學(xué)院循證醫(yī)學(xué)中心 甘肅蘭州 730000)
(3.蘭州大學(xué)循證社會(huì)科學(xué)研究中心 甘肅蘭州 730000)
循證研究的基本目的,是為了對(duì)存在分歧甚至對(duì)立的原始研究證據(jù)加以有效整合,以獲取更高層次、更具有普遍意義的科學(xué)證據(jù)。 Jessica Gurevitch 等提出,對(duì)原始的科學(xué)研究結(jié)果加以綜合,以達(dá)到全面理解和解決問題,并確定研究結(jié)果變化的來源是科學(xué)進(jìn)程的基本組成部分。迄今為止,循證研究領(lǐng)域已發(fā)展了系統(tǒng)評(píng)價(jià)和元分析等一整套理論、方法與工具,Cochran、Campbell 等網(wǎng)絡(luò)也為循證研究的規(guī)范化和更高層次研究證據(jù)的整合與交流提供了平臺(tái)。近二三十年來,循證研究呈現(xiàn)出了由醫(yī)學(xué)領(lǐng)域向社會(huì)科學(xué)擴(kuò)展的趨向,系統(tǒng)評(píng)價(jià)(systematic review)、元分析(meta-analysis)及研究結(jié)果整合(research synthesis)的理論與方法也呈現(xiàn)出了蓬勃的發(fā)展態(tài)勢(shì)。
在社會(huì)科學(xué)研究領(lǐng)域,由于研究對(duì)象具有多元化、異質(zhì)性及依情境而變等特征,導(dǎo)致原始研究所獲取的證據(jù)與自然科學(xué)相比存在更多的局限性和不穩(wěn)定性,從而更迫切地需要社會(huì)科學(xué)領(lǐng)域開展科學(xué)的系統(tǒng)評(píng)價(jià)和元分析,以便獲取更高層次的研究證據(jù)。無論是在自然科學(xué)領(lǐng)域的循證研究還是循證社會(huì)科學(xué)研究中,原始文獻(xiàn)檢索質(zhì)量的高低都是系統(tǒng)評(píng)價(jià)和元分析能否消除偏倚,獲得高質(zhì)量證據(jù)的首要因素。為此,研究者亟待對(duì)循證社會(huì)科學(xué)研究中文獻(xiàn)證據(jù)檢索的質(zhì)量展開深入評(píng)價(jià),以確定相對(duì)科學(xué)的檢索標(biāo)準(zhǔn),從而保障基于這些原始研究證據(jù)而展開的系統(tǒng)評(píng)價(jià)和元分析更具科學(xué)意義。 基于這一背景,本文旨在對(duì)文獻(xiàn)證據(jù)檢索科學(xué)性評(píng)價(jià)問題的緣起加以回顧,在汲取傳統(tǒng)的查全率和查準(zhǔn)率指標(biāo)合理要素前提下,提出飽和度、冗余度、敏感度等指標(biāo),并引入信度和效度評(píng)估方法,以期發(fā)展出適合于循證社會(huì)科學(xué)自身特征的新的文獻(xiàn)證據(jù)檢索質(zhì)量評(píng)價(jià)指標(biāo)體系。在此基礎(chǔ)上,本文還將對(duì)文獻(xiàn)證據(jù)檢索科學(xué)性評(píng)價(jià)的趨勢(shì)做出判斷。
科學(xué)文獻(xiàn)的特征之一,是其中充斥著對(duì)某一科學(xué)問題的反復(fù)研究。研究者之所以對(duì)同一現(xiàn)象、問題或假設(shè)進(jìn)行多次的重復(fù)分析,是為了獲得更加概括、更加接近于真實(shí)、具有更高質(zhì)量的證據(jù)。然而,很多研究者都發(fā)現(xiàn),即使針對(duì)同樣的問題采用了類似的研究設(shè)計(jì),研究者所獲得的研究結(jié)果也常常存在差異,甚至存在相互矛盾和對(duì)立?!缎睦砜茖W(xué)透視》(Journal Perspectives on Psychological Science)雜志曾出版了一期特刊,專門對(duì)重復(fù)研究得到不同發(fā)現(xiàn)的現(xiàn)象進(jìn)行了系統(tǒng)評(píng)述。很多證據(jù)都表明,與自然科學(xué)相比,社會(huì)科學(xué)領(lǐng)域針對(duì)相同研究問題而得出不同研究結(jié)果的現(xiàn)象尤為突出。
自1992 年,加拿大學(xué)者Gordon Henry Guyatt 等首倡在醫(yī)學(xué)教育領(lǐng)域應(yīng)用循證方法以來,研究證據(jù)整合的理論、方法和工具一直得到學(xué)界的廣泛關(guān)注。近二三十年來,系統(tǒng)評(píng)價(jià)和元分析作為循證領(lǐng)域用以進(jìn)行原始證據(jù)整合,獲取更高層次證據(jù)的基本手段,尤其受到重視。1997 年,Lipsey 和Wilson發(fā)表了基于302 篇社會(huì)科學(xué)領(lǐng)域關(guān)于處理效應(yīng)的元分析述評(píng)文章,標(biāo)志著社會(huì)科學(xué)領(lǐng)域的研究證據(jù)整合進(jìn)入了新的階段。 同年,Cochrane 合作網(wǎng)絡(luò)正式成立,成為首個(gè)研究證據(jù)整合的全球性合作平臺(tái)。1999 年,以促進(jìn)社會(huì)科學(xué)領(lǐng)域研究整合為主要目標(biāo)的Campbell 合作網(wǎng)絡(luò)建立,使社會(huì)科學(xué)領(lǐng)域的循證研究和循證實(shí)踐具備了更加堅(jiān)實(shí)的基礎(chǔ)。
在研究證據(jù)整合的過程中,元分析的工具和方法扮演著極其重要的角色。迄今為止,元分析方法的發(fā)展和完善經(jīng)歷了若干重要階段。 Cochran指出,1954年首個(gè)元分析中固定和隨機(jī)效應(yīng)計(jì)算方法的提出,1986 年研究間方差的累計(jì)計(jì)算方法的發(fā)展,1997年關(guān)于漏斗圖(funnel plot)和Egger 檢驗(yàn)(Egger’s test)在發(fā)表偏倚識(shí)別中的應(yīng)用,2002 年關(guān)于異質(zhì)性檢驗(yàn)指標(biāo)I的提出可被視為元分析發(fā)展歷程中的里程碑。經(jīng)過多年的發(fā)展,當(dāng)前元分析的方法和工具已越來越多樣、豐富,其科學(xué)程度也越來越得到各領(lǐng)域研究者的認(rèn)可。 特別是在1995 年“系統(tǒng)評(píng)價(jià)”這一術(shù)語提出以來,循證領(lǐng)域的研究者進(jìn)一步發(fā)展了PRIMA 等一系列系統(tǒng)評(píng)價(jià)質(zhì)量評(píng)估工具,極大地提高了循證研究的規(guī)范性,使科學(xué)研究結(jié)果的整合在整個(gè)科學(xué)發(fā)展的進(jìn)程中發(fā)揮了重要的影響力。
盡管系統(tǒng)評(píng)價(jià)和元分析的科學(xué)化和規(guī)范化有效地促進(jìn)了研究結(jié)果的整合,極大地提升了循證研究的質(zhì)量,但如本文所述,系統(tǒng)評(píng)價(jià)和元分析的質(zhì)量首先取決于原始證據(jù)獲取是否全面。 也就是說,如果對(duì)原始證據(jù)的檢索存在著偏差,則無論系統(tǒng)評(píng)價(jià)和元分析的程序如何嚴(yán)謹(jǐn)、方法如何科學(xué),其結(jié)果都可能存在偏倚。從這個(gè)意義上說,原始研究證據(jù)的檢索是保障循證研究結(jié)果科學(xué)性的首要問題。然而,通過文獻(xiàn)調(diào)查發(fā)現(xiàn),迄今為止,學(xué)術(shù)界在文獻(xiàn)證據(jù)檢索的科學(xué)性評(píng)價(jià)方面尚無明確統(tǒng)一的評(píng)價(jià)標(biāo)準(zhǔn),存在著明顯的研究薄弱點(diǎn)。
著眼于促進(jìn)社會(huì)科學(xué)領(lǐng)域研究證據(jù)的整合和高質(zhì)量應(yīng)用,循證社會(huì)科學(xué)領(lǐng)域尤其需要發(fā)展出科學(xué)規(guī)范的文獻(xiàn)證據(jù)檢索評(píng)判標(biāo)準(zhǔn)。在我國(guó),2019 年由楊克虎教授作為首席專家的國(guó)家社會(huì)科學(xué)基金重大項(xiàng)目“循證社會(huì)科學(xué)的理論體系、國(guó)際經(jīng)驗(yàn)與中國(guó)路徑研究”得以立項(xiàng),標(biāo)志著我國(guó)循證社會(huì)科學(xué)研究與應(yīng)用已進(jìn)入深化發(fā)展的新階段。 在我國(guó)循證社會(huì)科學(xué)蓬勃發(fā)展的背景下,發(fā)展一套統(tǒng)一的文獻(xiàn)證據(jù)檢索的質(zhì)量評(píng)價(jià)規(guī)范和標(biāo)準(zhǔn),對(duì)于促進(jìn)循證社會(huì)科學(xué)理論的完善和實(shí)踐的應(yīng)用意義重大。
圍繞文獻(xiàn)檢索質(zhì)量的評(píng)價(jià),信息資源管理等領(lǐng)域都已展開了大量研究。這些研究表明,評(píng)價(jià)檢索質(zhì)量需要同時(shí)考慮兩個(gè)相關(guān)關(guān)聯(lián)的因素:在盡可能把相關(guān)的文獻(xiàn)全部納入進(jìn)來的同時(shí),把不相關(guān)的文獻(xiàn)排除出去。按照這種邏輯,信息檢索等領(lǐng)域已發(fā)展了查全率和查準(zhǔn)率等指標(biāo),用于檢索質(zhì)量的評(píng)價(jià)。
查全率(Recall Ratio)主要是指從文獻(xiàn)數(shù)據(jù)庫(kù)內(nèi)檢出的相關(guān)文獻(xiàn)數(shù)量在文獻(xiàn)總體所占的比重。 這一指標(biāo)主要用于衡量在特定檢索中檢出相關(guān)文獻(xiàn)的能力。 查全率越高,意味著檢索獲得的相關(guān)文獻(xiàn)越全面。 彭奇志將影響查全率的因素總結(jié)為如下兩個(gè)方面:首先,從文獻(xiàn)數(shù)據(jù)庫(kù)的角度來看,數(shù)據(jù)庫(kù)收錄文獻(xiàn)信息不全,索引詞匯缺乏控制和專指性,詞表結(jié)構(gòu)不完整,檢索詞間關(guān)系模糊或不正確,標(biāo)引不詳,標(biāo)引前后不一致,標(biāo)引人員遺漏了原文的重要概念或用詞不當(dāng)?shù)榷伎赡苡绊懖槿?;其次,從檢索者的檢索方式來看,檢索策略過于簡(jiǎn)單,檢索詞選擇不當(dāng)或檢索詞邏輯組配不當(dāng),檢索途徑和方法單一,檢索者不夠熟練或缺乏耐心,檢索時(shí)不能全面地描述檢索要求等也可能對(duì)查全率產(chǎn)生直接影響。 向禹和付文韜分析發(fā)現(xiàn),查全率存在如下局限性:首先,查全率描述是檢索出的相關(guān)文獻(xiàn)數(shù)量與存儲(chǔ)在檢索系統(tǒng)中的全部相關(guān)文獻(xiàn)總量之比,但系統(tǒng)中相關(guān)文獻(xiàn)問題究竟有多少一般是不可知的,只能估計(jì);其次,查全率是一個(gè)建立在“假設(shè)”基礎(chǔ)上的評(píng)價(jià)指標(biāo),這種“假設(shè)”是指檢索出的相關(guān)信息對(duì)用戶具有同等價(jià)值,但對(duì)于用戶來說,所檢出文獻(xiàn)的相關(guān)程度可能比它的數(shù)量要重要得多。 基于此,尹舒力指出,認(rèn)為查全率“是一個(gè)不實(shí)際的概念”。
查準(zhǔn)率(Precision Ratio)用以衡量特定檢索中拒絕不相關(guān)文獻(xiàn)的能力,主要指特定檢索中,實(shí)際檢索出來的文獻(xiàn)中相關(guān)文獻(xiàn)所占的比率。1956 年,J.W.佩里、A.肯特等人首先提出了此項(xiàng)評(píng)價(jià)指標(biāo)。1979 年,F(xiàn).W.蘭開斯特在《情報(bào)檢索系統(tǒng)──特性、試驗(yàn)與評(píng)價(jià)》(第二版)一書中地查準(zhǔn)率的評(píng)估方法進(jìn)行了進(jìn)一步操作化,使之更容易被計(jì)算。 查準(zhǔn)率主要取決于檢索語言的專指性和所擬定的檢索策略能否準(zhǔn)確表達(dá)用戶真正的情報(bào)需求。 若檢索策略擬訂的較寬泛,參與組配的檢索詞較少,主題詞的概念比用戶的信息需求寬泛,則查準(zhǔn)率將降低。
查全率和查準(zhǔn)率之間具有互逆的關(guān)系。如在極端情況下,如果研究者檢索得到了文獻(xiàn)數(shù)據(jù)庫(kù)中所有文檔,則獲得了100%的查全率,但此時(shí)查準(zhǔn)率卻很低;如果研究者檢索只能獲得唯一的文檔,查重率很低,但卻可能有100%的查準(zhǔn)率。 如本文所述,鑒于文獻(xiàn)證據(jù)檢索質(zhì)量之于循證社會(huì)科學(xué)研究結(jié)果整合的極端重要性,有必要在現(xiàn)有查全率與查準(zhǔn)率指標(biāo)的基礎(chǔ)上加以進(jìn)一步細(xì)化,發(fā)展出更加具有操作性的評(píng)價(jià)指標(biāo),以便保障系統(tǒng)評(píng)價(jià)和元分析開展之前文獻(xiàn)證據(jù)獲取的科學(xué)性。 飽和度和冗余度是基于此種背景而提出。
飽和度和冗余度是一對(duì)在汲取查全率和查準(zhǔn)率等傳統(tǒng)檢索評(píng)價(jià)指標(biāo)合理成份的基礎(chǔ)上,為發(fā)展更具有操作性的文獻(xiàn)證據(jù)評(píng)價(jià)指標(biāo)而提出的概念。所謂飽和度,是指檢索中不再有新的文獻(xiàn)被納入的狀況。而冗余度則是一個(gè)與飽和度緊密關(guān)聯(lián)的概念,具體指在特定檢索過程中檢索到不相關(guān)文獻(xiàn)的情況。
在實(shí)際操作中,飽和度可以通過“滾雪球”的辦法而得到。具體過程是:首先,研究者先通過特定的檢索詞,通過文獻(xiàn)數(shù)據(jù)庫(kù)所提出的各種檢索入口進(jìn)行檢索,獲得相應(yīng)的文獻(xiàn),并對(duì)其進(jìn)行去重;其次,對(duì)檢索所獲取的文獻(xiàn)的參考文獻(xiàn)進(jìn)行再次梳理,將在前次檢索中未獲得的新文獻(xiàn)納入其中;第三,對(duì)參考文獻(xiàn)的參考文獻(xiàn)再進(jìn)行梳理,并將新文獻(xiàn)再次納入。如此往復(fù),直到不再有新的文獻(xiàn)被納入時(shí),文獻(xiàn)檢索既達(dá)到飽和。構(gòu)建飽和度指標(biāo)的意義在于,這一指標(biāo)為評(píng)價(jià)文獻(xiàn)證據(jù)檢索科學(xué)性提供了一個(gè)實(shí)質(zhì)性的參照系。通過參照已實(shí)現(xiàn)飽和的文獻(xiàn)數(shù)據(jù)集,研究者可以進(jìn)一步發(fā)展出一系列文獻(xiàn)證據(jù)檢索科學(xué)性的評(píng)價(jià)指標(biāo)來。
在形成飽和數(shù)據(jù)集的前提下,為進(jìn)一步對(duì)文獻(xiàn)證據(jù)檢索的質(zhì)量作出判斷,研究者可以通過專家判斷的方式,將實(shí)現(xiàn)飽和的文獻(xiàn)數(shù)據(jù)集中的文獻(xiàn)按照其與檢索主題的相關(guān)度加以劃分,如劃分為高度相關(guān)、中度相關(guān)與低度相關(guān)三部分文獻(xiàn)。 這些文獻(xiàn)中,高度相關(guān)和中度相關(guān)文獻(xiàn)可用來評(píng)價(jià)文獻(xiàn)檢索的精確性(即查準(zhǔn)率),而低相關(guān)文獻(xiàn)則可用來評(píng)價(jià)文獻(xiàn)檢索的冗余度(從反面體現(xiàn)查準(zhǔn)率)。可見,一個(gè)飽和檢索的文獻(xiàn)數(shù)據(jù)集可以同時(shí)作為檢索精確性和冗余度評(píng)價(jià)的參考標(biāo)準(zhǔn)。
基于飽和度指標(biāo),可以對(duì)傳統(tǒng)的查準(zhǔn)率加以進(jìn)一步完善和拓展。具體作法是,將飽和度區(qū)分為純凈飽和度和一般飽和度。 其中純凈飽和度是指采用特定檢索方式檢索結(jié)果涵蓋總文獻(xiàn)數(shù)據(jù)集中高相關(guān)文獻(xiàn)的程度,具體計(jì)算方法是:采用單項(xiàng)或者組合檢索時(shí)與總數(shù)據(jù)集中高度相關(guān)文獻(xiàn)的重合率,這一指標(biāo)反映了特定檢索途徑是否能夠準(zhǔn)確定位高度相關(guān)研究證據(jù)的能力; 而一般飽和度指特定檢索結(jié)果涵蓋整體數(shù)據(jù)集中中度相關(guān)文獻(xiàn)的程度,這一指標(biāo)反映了特定檢索是否能夠準(zhǔn)確定位中度相關(guān)研究證據(jù)的能力。 同理,基于冗余度指標(biāo)可以從另外一個(gè)角度對(duì)傳統(tǒng)的查全率指標(biāo)加以完善。 也就是說,通過計(jì)算特定檢索途徑所獲得的文獻(xiàn)在窮盡檢索數(shù)據(jù)集低相關(guān)文獻(xiàn)的比值,可以有效衡量特定檢索途徑獲得無關(guān)文獻(xiàn)的程度,從而對(duì)查準(zhǔn)率作出反向地評(píng)估。
總之,飽和度和冗余度是一對(duì)植根于傳統(tǒng)的查全率和查準(zhǔn)率指標(biāo)但更具可操作性的評(píng)價(jià)指標(biāo)。 這對(duì)評(píng)價(jià)指標(biāo)的提出,有助于為循證社會(huì)科學(xué)研究者提升文獻(xiàn)證據(jù)檢索質(zhì)量提供重要參照。
與傳統(tǒng)的查全率和查準(zhǔn)率指標(biāo)相比較,飽和度和冗余度具有了更高地可操作性。由于飽和數(shù)據(jù)集的構(gòu)建是一件極其繁瑣的工作,在無法進(jìn)行飽和檢索的前提下,就有必要考慮特定檢索方式在未達(dá)100%飽和時(shí)的檢索質(zhì)量,基于此,敏感度指標(biāo)得以提出。
所謂敏感度,是指在不同樣本覆蓋度下,特定檢索項(xiàng)目的查全率和查準(zhǔn)率。 這一指標(biāo)的具體測(cè)度方法是,應(yīng)用主題、題名、關(guān)鍵詞、摘要和全文等單項(xiàng)檢索與組合檢索的不同抽樣水平的數(shù)據(jù)與總數(shù)據(jù)中高相關(guān)組和中相關(guān)組進(jìn)行匹配,分別計(jì)算得到的高相關(guān)組和中相關(guān)組匹配比例。 在樣本數(shù)目不同的前提下,如果檢出的高、中相關(guān)文獻(xiàn)匹配度均比較高,則表明相應(yīng)的檢索途徑穩(wěn)健而不敏感,從而具有相對(duì)更高的檢索質(zhì)量。
檢索的穩(wěn)定性和可靠性是衡量檢索質(zhì)量的另一個(gè)重要指標(biāo)。參照測(cè)量領(lǐng)域的一般作法,可以選用信度指標(biāo)作為檢索質(zhì)量穩(wěn)定性和可靠性的評(píng)價(jià)工具。
信度(Reliability),即可靠性,是指采用同樣的方法對(duì)同一對(duì)象重復(fù)測(cè)量或者應(yīng)用同種方法對(duì)同一現(xiàn)象在不同時(shí)點(diǎn)加以測(cè)量時(shí)所得結(jié)果的一致程度。 這種一致性常常通過相關(guān)系數(shù)來表達(dá),相關(guān)系數(shù)越高,則多次測(cè)量的結(jié)果越一致,測(cè)量結(jié)果就越穩(wěn)定、可靠。
迄今為止,研究者已發(fā)展了重測(cè)信度、復(fù)本信度、折半信度、α 信度系數(shù)等多種方法,用以對(duì)信度作出科學(xué)評(píng)價(jià)。針對(duì)文獻(xiàn)證據(jù)的檢索質(zhì)量評(píng)價(jià),重測(cè)信度和復(fù)本信度的評(píng)價(jià)相對(duì)比較直觀,具有更高的可操作性。具體而言,文獻(xiàn)證據(jù)檢索的重測(cè)信度指在不同時(shí)點(diǎn)上,針對(duì)相同的檢索主題,在同一個(gè)檢索途徑下所獲得文獻(xiàn)的相關(guān)程度;而復(fù)本信度則指針對(duì)同一檢索主題,但通過不同檢索途徑而獲得的文獻(xiàn)的相關(guān)程度。顯然,無論是文獻(xiàn)檢索的重測(cè)信度還是復(fù)本信度,其相關(guān)系數(shù)越高,文獻(xiàn)檢索的穩(wěn)定性和可靠性就越有保障,因而檢索質(zhì)量越高。
飽和度、冗余度、敏感度和信度從不同側(cè)面評(píng)價(jià)了文獻(xiàn)證據(jù)檢索的質(zhì)量。 然而,需要注意的是,高質(zhì)量的文獻(xiàn)證據(jù)檢索雖然為循證研究者開展系統(tǒng)評(píng)價(jià)和元分析提供了基本保障,但卻并不能總是保證系統(tǒng)評(píng)價(jià)和元分析的科學(xué)性。這是因?yàn)?,所檢索到的文獻(xiàn)從內(nèi)容上是否足以涵蓋循證研究的具體領(lǐng)域,也將對(duì)研究證據(jù)的整合產(chǎn)生重要影響。 這種文獻(xiàn)內(nèi)容之于系統(tǒng)評(píng)價(jià)和元分析所需證據(jù)的覆蓋程度,可以通過檢索的效度加以評(píng)價(jià)。
效度(Validity)即有效性,它是指測(cè)量工具或手段能夠準(zhǔn)確測(cè)出所需測(cè)量的事物的程度。 按照測(cè)量理論,效度主要用以衡量所測(cè)量到的結(jié)果反映所想要考察內(nèi)容的程度。 測(cè)量結(jié)果與要考察的內(nèi)容越吻合,則效度越高;反之,則效度越低。 目前,測(cè)量領(lǐng)域已發(fā)展了內(nèi)容效度、效標(biāo)關(guān)聯(lián)效度、結(jié)構(gòu)效度、表面效度等諸多具體評(píng)價(jià)方法。
在文獻(xiàn)證據(jù)檢索質(zhì)量的評(píng)價(jià)中,內(nèi)容效度、效標(biāo)關(guān)聯(lián)效度和結(jié)構(gòu)效度都有著極其廣泛的應(yīng)用前景。 如效標(biāo)關(guān)聯(lián)效度可以用來評(píng)價(jià)特定檢索途徑所獲得的檢索結(jié)果與整體結(jié)果之間的吻合程度,內(nèi)容效度和結(jié)構(gòu)效度則可以用來進(jìn)行檢索證據(jù)覆蓋度與全面性的評(píng)價(jià)。
在文獻(xiàn)證據(jù)檢索質(zhì)量評(píng)價(jià)中,不僅可以借鑒測(cè)量領(lǐng)域關(guān)于效度評(píng)價(jià)的方法,而且也可以從研究設(shè)計(jì)本身對(duì)效度的理念加以借鑒。從研究設(shè)計(jì)的角度看,效度可區(qū)分為內(nèi)部效度和外部效度。 內(nèi)部效度涉及研究變量之間關(guān)系的確定程度衡量,主要反映了對(duì)研究結(jié)果解釋的唯一性。也就是說,如果研究結(jié)果只有一種解釋,那么研究的內(nèi)部效度就高。外部效度則主要用來說明研究結(jié)果可外推的程度。即,研究結(jié)果在“脫離研究情境后”,仍然能夠成立的程度。 由于文獻(xiàn)證據(jù)檢索的目的是為循證領(lǐng)域的研究者展開系統(tǒng)評(píng)價(jià)和元分析提供保障,因此,對(duì)文獻(xiàn)證據(jù)檢索的內(nèi)、外部效度的解析,事實(shí)上涉及了循證研究設(shè)計(jì)本身,因此,更具有理論價(jià)值和實(shí)踐意義。
科學(xué)化、規(guī)范化的循證社會(huì)科學(xué)研究以全面、精準(zhǔn)的文獻(xiàn)證據(jù)檢索為基本保障?;诖?,本文立足于傳統(tǒng)的查全率和查準(zhǔn)率指標(biāo),進(jìn)一步提出或引入了飽和度、冗余度、敏感度、信度、效度等系列評(píng)價(jià)指標(biāo)。這些指標(biāo)提出后,本課題組已展開了一系列的實(shí)證研究工作,為循證社會(huì)科學(xué)領(lǐng)域的研究者展開文獻(xiàn)證據(jù)檢索質(zhì)量評(píng)價(jià)提供了參照。 展望循證社會(huì)科學(xué)的未來發(fā)展,文獻(xiàn)證據(jù)檢索的科學(xué)性評(píng)價(jià)表現(xiàn)出了如下幾個(gè)明顯趨向:
(1)檢索過程趨于標(biāo)準(zhǔn)化。 飽和度、敏感度等指標(biāo)的提出及信度和效度等指標(biāo)的應(yīng)用,無疑會(huì)極大地提升文獻(xiàn)證據(jù)檢索的科學(xué)性。這些指標(biāo)在循證社會(huì)科學(xué)進(jìn)一步發(fā)展進(jìn)程中重要的應(yīng)用價(jià)值,在于促進(jìn)系統(tǒng)評(píng)價(jià)和元分析之前文獻(xiàn)證據(jù)檢索的標(biāo)準(zhǔn)化和規(guī)范化。也就是說,如何基于上述評(píng)價(jià)指標(biāo)的研究結(jié)果,發(fā)展一套規(guī)范、系統(tǒng)、全面的文獻(xiàn)證據(jù)檢索質(zhì)量評(píng)價(jià)工具,并據(jù)此保障文獻(xiàn)證據(jù)檢索的質(zhì)量,將是今后循證社會(huì)科學(xué)領(lǐng)域值得關(guān)注的一個(gè)重要問題。
(2)檢索結(jié)果評(píng)價(jià)趨于可計(jì)量化。在本文所述的各類文獻(xiàn)證據(jù)檢索質(zhì)量評(píng)價(jià)指標(biāo)中,所依賴的主要是來自于測(cè)量領(lǐng)域的理論、方法和工具。 未來,有必要對(duì)文獻(xiàn)計(jì)量等領(lǐng)域的相關(guān)成果加以借鑒,使文獻(xiàn)證據(jù)檢索結(jié)果評(píng)價(jià)與文獻(xiàn)計(jì)量相關(guān)研究最大程度地對(duì)接,如此,文獻(xiàn)證據(jù)檢索才能實(shí)現(xiàn)與圖書情報(bào)學(xué)、文獻(xiàn)計(jì)量學(xué)等相關(guān)領(lǐng)域的貫通,從而獲得更加寬廣的研究和應(yīng)用前景。
(3)不依賴于文獻(xiàn)數(shù)據(jù)全集的自動(dòng)化評(píng)估方法。雖然從研究的角度看,上述系列指標(biāo)比傳統(tǒng)的檢索質(zhì)量評(píng)價(jià)指標(biāo)更具可操作性,但是,這些指標(biāo)仍然依賴于一個(gè)飽和的文獻(xiàn)數(shù)據(jù)全集。 由本文的描述可以看出,構(gòu)建文獻(xiàn)數(shù)據(jù)全集的過程通過人工“滾雪球”的方式完成,不僅費(fèi)時(shí)費(fèi)力,也與大數(shù)據(jù)時(shí)代自動(dòng)化的處理趨向不相符合。 為此,未來的文獻(xiàn)證據(jù)檢索質(zhì)量評(píng)價(jià)需要盡可能實(shí)現(xiàn)自動(dòng)化。 在尚未實(shí)現(xiàn)自動(dòng)化的前提下,也應(yīng)盡量發(fā)展一些不依賴于文獻(xiàn)數(shù)據(jù)全集的測(cè)度方法。
(4)檢索成本效益的考慮。本文前述各項(xiàng)文獻(xiàn)證據(jù)質(zhì)量評(píng)價(jià)指標(biāo)雖然各有側(cè)重,各具獨(dú)特性和合理性,然而,上述指標(biāo)中并沒有將用戶檢索的成本問題納入考慮。為此,面向未來的循證社會(huì)科學(xué)研究者在對(duì)文獻(xiàn)證據(jù)檢索質(zhì)量做出評(píng)價(jià)時(shí),需要參考搜索引擎等領(lǐng)域的最新研究趨向,將用戶對(duì)文獻(xiàn)證據(jù)檢索的成本納入考慮,以便使文獻(xiàn)證據(jù)檢索與大數(shù)據(jù)背景下的計(jì)算社會(huì)科學(xué)實(shí)現(xiàn)最大程度的協(xié)同發(fā)展。
本文圍繞循證研究中文獻(xiàn)證據(jù)檢索的質(zhì)量評(píng)價(jià)問題,結(jié)合傳統(tǒng)的檢索評(píng)價(jià)指標(biāo),提出了一系列新的評(píng)價(jià)指標(biāo)。這些指標(biāo)的提出,為后續(xù)實(shí)證研究的展開提供了前提,也為發(fā)展科學(xué)、規(guī)范的檢索質(zhì)量理念體系和評(píng)價(jià)工具奠定了基礎(chǔ)。 由于高質(zhì)量的文獻(xiàn)證據(jù)檢索是系統(tǒng)評(píng)價(jià)和元分析科學(xué)性的基本保障,因此,關(guān)于文獻(xiàn)證據(jù)檢索質(zhì)量評(píng)價(jià)標(biāo)準(zhǔn)的研究可被視為向循證社會(huì)科學(xué)構(gòu)建其獨(dú)特的學(xué)術(shù)話語體系和研究范式所邁出的第一步。