趙悅言 魏志鵬 周文杰,3 楊克虎
(1.西北師范大學(xué)商學(xué)院 甘肅蘭州 730070)
(2.蘭州大學(xué)基礎(chǔ)醫(yī)學(xué)院循證醫(yī)學(xué)中心 甘肅蘭州 730000)
(3.蘭州大學(xué)循證社會(huì)科學(xué)研究中心 甘肅蘭州 730000)
早在1955 年,美國(guó)學(xué)者Perry 和Kent 最先提出查全率和查準(zhǔn)率的概念后,這兩個(gè)指標(biāo)就一直被作為對(duì)信息檢索質(zhì)量進(jìn)行評(píng)價(jià)的重要指標(biāo)。其中,查全率用來(lái)衡量在檢索中檢出相關(guān)文獻(xiàn)的能力,而查準(zhǔn)率則用來(lái)衡量特定檢索結(jié)果拒絕不相關(guān)文獻(xiàn)的能力。Cooper 等將查全率定義為,通過(guò)搜索從數(shù)據(jù)庫(kù)中檢索到的相關(guān)記錄的敏感性比例(即檢索到的相關(guān)記錄數(shù)除以相關(guān)記錄的總數(shù));Bayliss 等在以公共衛(wèi)生主題方面進(jìn)行系統(tǒng)評(píng)價(jià)時(shí),認(rèn)為盡可能全面的搜索代表著更高質(zhì)量的檢索信息。在循證研究中,為展開(kāi)高質(zhì)量的系統(tǒng)評(píng)價(jià)(systematic review),研究者首先需要對(duì)文獻(xiàn)證據(jù)加以盡可能全面的檢索,以盡量減少各種偏倚的影響,同時(shí)盡量將搜索結(jié)果中的無(wú)關(guān)文獻(xiàn)排除出去。只有進(jìn)行全面的檢索,才能最大程度控制檢索帶來(lái)的偏倚,研究證據(jù)融合的結(jié)果整合(research synthesis)與轉(zhuǎn)化才更令人信服。如果檢索質(zhì)量很差,且存在發(fā)表偏倚等情況,那么系統(tǒng)評(píng)價(jià)的結(jié)果有可能會(huì)誤導(dǎo)錯(cuò)誤結(jié)論。正因?yàn)槿绱?,循證研究中的文獻(xiàn)證據(jù)檢索特別強(qiáng)調(diào)查全率。很多情況下,研究者甚至通過(guò)犧牲查準(zhǔn)率以保障檢索的全面性。
文獻(xiàn)檢索是一個(gè)不斷迭代和探索的過(guò)程。檢索者需要權(quán)衡不同檢索方式的效率,并評(píng)估它們對(duì)檢索的查全率和查準(zhǔn)率的實(shí)質(zhì)性影響。調(diào)查文獻(xiàn)發(fā)現(xiàn),在檢索領(lǐng)域,至今沒(méi)有發(fā)展出科學(xué)、客觀的標(biāo)準(zhǔn)來(lái)判斷特定文獻(xiàn)證據(jù)檢索是否已經(jīng)全面以便決定何時(shí)可以停止檢索。 雖然Chilcott 等曾提出,當(dāng)在數(shù)據(jù)庫(kù)中添加一系列新檢索詞或改變檢索方式時(shí)不會(huì)產(chǎn)生新的相關(guān)文獻(xiàn)記錄,就應(yīng)該停止檢索,但文獻(xiàn)檢索領(lǐng)域的研究者和實(shí)踐者幾乎沒(méi)有對(duì)Chilcott 的設(shè)想進(jìn)行過(guò)正式的評(píng)估。目前,一些統(tǒng)計(jì)技術(shù)應(yīng)用提高了將Chilcott的想法轉(zhuǎn)變?yōu)閷?shí)際檢索質(zhì)量評(píng)價(jià)的可能性,如重新捕捉技術(shù)和相對(duì)查全技術(shù),這些技術(shù)通過(guò)進(jìn)行多次檢索來(lái)對(duì)檢索質(zhì)量做出判斷。Booth認(rèn)為,文獻(xiàn)檢索的飽和狀態(tài)是指在檢索過(guò)程中能夠檢索到可用的大多數(shù)研究。 檢索的飽和度是循證研究中系統(tǒng)評(píng)價(jià)全面獲得穩(wěn)定、全面的原始研究證據(jù)的基本保障。
在本專題的前一篇論文中,已基于文獻(xiàn)檢索領(lǐng)域的相關(guān)研究,提出了飽和度和冗余度的概念,即飽和度是指檢索中不再有新文獻(xiàn)被納入的狀況,而冗余度是指檢索過(guò)程中檢索到不相關(guān)文獻(xiàn)的情況。 本研究旨在以全球最大的中文文獻(xiàn)數(shù)據(jù)庫(kù)CNKI 為研究樣本,構(gòu)建窮盡檢索下的文獻(xiàn)飽和數(shù)據(jù)集,并就不同檢索方式對(duì)文獻(xiàn)證據(jù)的檢索質(zhì)量做出評(píng)估。 本文為這一總體研究的第二部分,即以飽和度和冗余度為檢索質(zhì)量評(píng)價(jià)指標(biāo)展開(kāi)實(shí)證檢驗(yàn)。
為考察循證社會(huì)科學(xué)領(lǐng)域文獻(xiàn)檢索的質(zhì)量,本研究以“社會(huì)認(rèn)識(shí)論”為檢索詞,對(duì)CNKI 數(shù)據(jù)庫(kù)中所收錄的學(xué)術(shù)文獻(xiàn)進(jìn)行多種途徑檢索后,再改變檢索方式進(jìn)行文獻(xiàn)數(shù)據(jù)補(bǔ)充,直至不再有新的文獻(xiàn)被納入時(shí),即達(dá)到了窮盡檢索的飽和狀態(tài),構(gòu)成本研究所需要的文獻(xiàn)數(shù)據(jù)集。 之所以選擇以“社會(huì)認(rèn)識(shí)論”為檢索詞,是因?yàn)檫@一術(shù)語(yǔ)具有明顯的社會(huì)科學(xué)特征,且具有清晰的理論界定和研究邊界。 本文認(rèn)為,基于對(duì)“社會(huì)認(rèn)識(shí)論”的檢索而構(gòu)建的數(shù)據(jù)集對(duì)社會(huì)科學(xué)領(lǐng)域的文獻(xiàn)信息檢索具有一定的代表性。
為了對(duì)檢索質(zhì)量作出評(píng)價(jià),在研究過(guò)程中,基于專家判斷,對(duì)總文獻(xiàn)數(shù)據(jù)集中1856 篇文獻(xiàn)與檢索主題的相關(guān)程度進(jìn)行了權(quán)衡。最終判定,總文獻(xiàn)數(shù)據(jù)集中高度相關(guān)文獻(xiàn)占6%,中度相關(guān)文獻(xiàn)占14%,低度相關(guān)文獻(xiàn)占80%。
總文獻(xiàn)數(shù)據(jù)集中,圍繞“社會(huì)認(rèn)識(shí)論”檢索獲得的文獻(xiàn)分布在五個(gè)學(xué)科領(lǐng)域(見(jiàn)圖1)。其中,分布領(lǐng)域最廣的是“哲學(xué)”“圖書情報(bào)”“數(shù)字圖書館”次之,“馬克思主義”和“中國(guó)政治與國(guó)際政治”緊隨其后,剩下的三分之一文獻(xiàn)分布于社會(huì)科學(xué)領(lǐng)域的其他方面,如管理學(xué)、心理學(xué)、教育學(xué)等。
圖1 文獻(xiàn)數(shù)據(jù)集的學(xué)科領(lǐng)域分布
2.1.1 純凈飽和度
所謂“純凈飽和度”,是指特定檢索的結(jié)果涵蓋整體數(shù)據(jù)集中高相關(guān)文獻(xiàn)的程度。 這一指標(biāo)反映了特定檢索途徑是否能夠準(zhǔn)確定位高度相關(guān)研究證據(jù)的能力。 對(duì)于單項(xiàng)檢索而言,飽和度的計(jì)算方法是:逐次對(duì)照主題、題名、關(guān)鍵詞、摘要、全文為檢索項(xiàng)時(shí)與總數(shù)據(jù)集中的高相關(guān)文獻(xiàn)的重合率,據(jù)此對(duì)各單項(xiàng)檢索的“純凈飽和度”進(jìn)行排序(結(jié)果見(jiàn)表1)。
表1 單項(xiàng)元數(shù)據(jù)檢索的飽和度評(píng)價(jià)
由單項(xiàng)元數(shù)據(jù)檢索的飽和度評(píng)價(jià)表可見(jiàn),就純凈飽和度這一指標(biāo)而言,當(dāng)檢索項(xiàng)為全文時(shí),檢索結(jié)果數(shù)據(jù)量大,檢索出來(lái)的文獻(xiàn)純凈飽和度達(dá)77.67%,在單項(xiàng)檢索的純凈飽和度中最高。與之相反的是,單項(xiàng)檢索項(xiàng)為題名時(shí),檢索到的文獻(xiàn)數(shù)據(jù)少,純凈飽和度在單項(xiàng)檢索方式中最低的(僅29.13%)。單項(xiàng)檢索項(xiàng)為關(guān)鍵詞和摘要時(shí), 兩者的純凈飽和度非常接近。雖然檢索項(xiàng)為摘要時(shí)的純凈飽和度略高于關(guān)鍵詞單項(xiàng)檢索,但這種細(xì)微的差別并不一定具有實(shí)質(zhì)性意義,因?yàn)闄z索范圍的不同等諸多因素都可能導(dǎo)致這種差異。以主題展開(kāi)單項(xiàng)檢索時(shí),文獻(xiàn)檢索結(jié)果數(shù)量適中,檢索出來(lái)的文獻(xiàn)純凈飽和度也處于較高水平。顯然,在時(shí)間和資源有限的情況下,主題檢索更能夠達(dá)到高效率準(zhǔn)確定位高度相關(guān)文獻(xiàn)證據(jù)的效果。
2.1.2 一般飽和度
所謂“一般飽和度”,是指特定檢索結(jié)果涵蓋整體數(shù)據(jù)集中中度及中度以上相關(guān)文獻(xiàn)(即中度相關(guān)文獻(xiàn)+高度相關(guān)文獻(xiàn))的程度。 這一指標(biāo)反映了特定檢索途徑是否能夠準(zhǔn)確定位中度以上相關(guān)文獻(xiàn)證據(jù)的能力。其計(jì)算方法是:逐次對(duì)照主題、題名、關(guān)鍵詞、摘要、全文為檢索項(xiàng)時(shí)與總數(shù)據(jù)集中的中度及中度以上相關(guān)文獻(xiàn)的重合度,據(jù)此對(duì)各單項(xiàng)檢索的“一般飽和度”做出排序(見(jiàn)表1)。
從表1 中一般飽和度指標(biāo)來(lái)看,依舊是基于全文的檢索一般飽和度最高。 主題、摘要、關(guān)鍵詞等單項(xiàng)檢索方式次之,篇名最低。顯然,搜索范圍越廣,搜索數(shù)量越多,相應(yīng)的一般飽和度則會(huì)越高。
整體而言,純凈飽和度和一般飽和度這兩個(gè)指標(biāo)都與文獻(xiàn)數(shù)量正相關(guān)。其中,檢索項(xiàng)為全文時(shí)的兩種飽和度均遠(yuǎn)遠(yuǎn)高于其他檢索方式,主題、摘要、關(guān)鍵詞等單項(xiàng)檢索方式次之,篇名最低。 需要注意的是,全文檢索時(shí)飽和度雖然高,但其檢索范圍廣,檢索結(jié)果數(shù)量龐大,因此其檢索效率并非最優(yōu)。 相對(duì)而言,主題檢索的文獻(xiàn)量適中,飽和度指標(biāo)也相對(duì)較高。
本研究的目標(biāo)是,使用不同的邏輯運(yùn)算符(or 或and)連接各檢索項(xiàng),模擬研究人員在文獻(xiàn)證據(jù)檢索中可能遇到的所有組合檢索方式,以便對(duì)不同組合檢索的“純凈飽和度”和“一般飽和度”進(jìn)行評(píng)價(jià)。 具體做法是:逐次對(duì)照主題、題名、關(guān)鍵詞、摘要和全文等檢索項(xiàng)的各種組合與總數(shù)據(jù)集中的高相關(guān)文獻(xiàn)的重合度以及總數(shù)據(jù)集中的中度及中度以上相關(guān)文獻(xiàn)的重合度,據(jù)此對(duì)各分項(xiàng)檢索的“純凈飽和度”和“一般飽和度”做出排序。
2.2.1 使用and 匹配元數(shù)據(jù)時(shí)的檢索飽和度評(píng)價(jià)
本文首先使用邏輯運(yùn)算符and 連接主題、題名、關(guān)鍵詞、摘要和全文等檢索項(xiàng),形成組合項(xiàng)檢索并進(jìn)行分析,得出了各組合項(xiàng)的純凈飽和度和一般飽和度結(jié)果(見(jiàn)表2)。
表2 通過(guò)and 組合的檢索項(xiàng)飽和度評(píng)價(jià)
總體來(lái)看,組合檢索采用的都是and 求并集,因此檢索范圍比較聚焦,且組合項(xiàng)數(shù)量越多,檢索范圍越小,被檢出相關(guān)文獻(xiàn)量越少。由于窮盡檢索狀態(tài)的文獻(xiàn)數(shù)量(總文獻(xiàn)中所有相關(guān)文獻(xiàn)量)保持不變, 從而通過(guò)and 組合檢索出來(lái)的文獻(xiàn)飽和度相對(duì)于單項(xiàng)檢索就有所降低。 具體情況如下:
(1)就二項(xiàng)組合的飽和度指標(biāo)而言,“主題and全文”這一組合項(xiàng)的純凈飽和度和一般飽和度在所有and 組合項(xiàng)中均最高,“摘要and 全文”組合檢索的飽和度次之。其中,二項(xiàng)組合檢索中只要包含題名這一檢索項(xiàng)時(shí),純凈飽和度和一般飽和度都非常低,尤其是“題名and 摘要”組合檢索時(shí)各項(xiàng)飽和度指標(biāo)都處于最低。 因此,如果要提高文獻(xiàn)證據(jù)檢索的飽和度,在使用二項(xiàng)組合檢索時(shí),應(yīng)盡量避免加入題名項(xiàng)進(jìn)行檢索,而應(yīng)優(yōu)先選擇“主題and 全文”這一組合。
(2)從三項(xiàng)組合的飽和度指標(biāo)來(lái)看,“主題and 關(guān)鍵詞and 全文”這一組合項(xiàng)的純凈飽和度和一般飽和度在三項(xiàng)and 組合中最高, 而“題名and 關(guān)鍵詞and 摘要”的飽和度指標(biāo)最低。
(3)從四項(xiàng)組合的飽和度指標(biāo)來(lái)看,“主題and 關(guān)鍵詞and 摘要and 全文”這一組合項(xiàng)的飽和度指標(biāo)最高,而其他包含題名的組合項(xiàng)檢索到的文獻(xiàn)數(shù)量都較少,飽和度從而也比較低。
(4)從四項(xiàng)組合的飽和度指標(biāo)來(lái)看,用and 求五項(xiàng)組合的并集以后,查到的文獻(xiàn)量?jī)H僅只有23 篇,雖然查準(zhǔn)率達(dá)到了100%,但飽和度卻最低。
綜上所述,當(dāng)使用and 連接檢索項(xiàng)進(jìn)行組合檢索時(shí),要提高其飽和度,需要選擇盡量少的檢索項(xiàng)(其中兩項(xiàng)為最佳),“主題and 全文” 這一組合檢索在飽和度指標(biāo)上表現(xiàn)最好。同時(shí),如果僅僅從飽和度的角度看,組合檢索中應(yīng)該避免使用題名為檢索項(xiàng)進(jìn)行and 組合檢索。
2.2.2 使用or 匹配元數(shù)據(jù)檢索時(shí)的飽和度評(píng)價(jià)
本文進(jìn)面使用邏輯運(yùn)算符or 連接主題、題名、關(guān)鍵詞、摘要和全文等檢索項(xiàng),形成組合項(xiàng)檢索并進(jìn)行分析,得出了各組合項(xiàng)的純凈飽和度和一般飽和度結(jié)果(見(jiàn)表3),具體分析如下:
表3 or 項(xiàng)組合項(xiàng)飽和度檢索效率
使用具有擴(kuò)檢意義的邏輯符“或(or)”時(shí),由于放寬了檢索條件,因此檢索范圍更廣,從而產(chǎn)生了與使用and 進(jìn)行組合時(shí)正好相反的效果。 即,組合項(xiàng)越多,檢索范圍越大,被檢出相關(guān)文獻(xiàn)量越多,在窮盡檢索狀態(tài)的文獻(xiàn)數(shù)量保持不變的前提下,or 組合檢索所得到的文獻(xiàn)飽和度也就越高。
(1)就二項(xiàng)組合的飽和度指標(biāo)而言,“主題or 全文”這一組合檢索無(wú)論是純凈飽和度還是一般飽和度都是最高的,“摘要or 全文”“關(guān)鍵詞or 全文”“題名or全文”次之,飽和度指標(biāo)最低的是“題名or 關(guān)鍵詞”。由于排在前三位的檢索項(xiàng)均包含了全文檢索,因此,如果僅僅從文獻(xiàn)的飽和度指標(biāo)的角度看,在使用二項(xiàng)組合的交集檢索時(shí),加入全文檢索項(xiàng)有助于提高飽和度,其中,“主題or 全文”的檢索效果相對(duì)更好。
(2)三項(xiàng)組合的飽和度指標(biāo)來(lái)看,“主題or 關(guān)鍵詞or 全文”“主題or 摘要or 全文”“主題or 題名or 全文”這三個(gè)組合檢索項(xiàng)的飽和度最高。其余組合檢索項(xiàng)飽和度相差不大,但“主題or 關(guān)鍵詞or 摘要”“主題or 題名or 摘要”“題名or 關(guān)鍵詞or 摘要”“主題or 題名or 關(guān)鍵詞” 這四個(gè)組合檢索項(xiàng)中由于不包含全文這一檢索項(xiàng),因此在飽和度指標(biāo)上表現(xiàn)偏低。
(3)從四項(xiàng)組合的飽和度指標(biāo)來(lái)看,含有全文和主題檢索項(xiàng)的組合項(xiàng)在飽和度指標(biāo)上表現(xiàn)最好,而組合項(xiàng)為“主題or 題名or 關(guān)鍵詞or 摘要”的飽和度最低。
(4)從五項(xiàng)組合的飽和度指標(biāo)來(lái)看,由于組合項(xiàng)為最多,達(dá)到了最大的檢索范圍,同時(shí)也達(dá)到了最高的飽和度。
綜上所述,當(dāng)使用or 進(jìn)行交集式組合檢索時(shí),要提高飽和度,就需要選擇盡量多的檢索項(xiàng)進(jìn)行組合效果較好。 同時(shí),使用組合式中包含全文檢索項(xiàng)時(shí),飽和度指標(biāo)的表現(xiàn)較好,主題次之,題名最差。
本研究中所提出的檢索“冗余度”,是指通過(guò)特定檢索途徑獲得的文獻(xiàn)在整體文獻(xiàn)數(shù)據(jù)集低相關(guān)文獻(xiàn)中所占的比重。 本文將冗余度的評(píng)價(jià)分為單項(xiàng)檢索的冗余度評(píng)價(jià)和組合檢索的冗余度評(píng)價(jià)。 具體做法是:先逐次對(duì)照主題、題名、關(guān)鍵詞、摘要、全文各單項(xiàng)為檢索項(xiàng)時(shí)與總數(shù)據(jù)集中的低相關(guān)文獻(xiàn)的重合度,得出單項(xiàng)檢索的冗余度指標(biāo)。然后,對(duì)照主題、題名、關(guān)鍵詞、摘要和全文的各種組合為檢索項(xiàng)時(shí)與總數(shù)據(jù)集中的低度相關(guān)文獻(xiàn)的重合,得出各種組合檢索的冗余度指標(biāo)。
從單項(xiàng)檢索的冗余度(見(jiàn)表4)來(lái)看,冗余度和檢索出來(lái)的文獻(xiàn)數(shù)量呈正相關(guān)。 即,搜索范圍越廣,搜索獲得的文獻(xiàn)數(shù)量越多,則冗余度也會(huì)越高。當(dāng)檢索方式為全文時(shí),文獻(xiàn)檢索的冗余度最高且遠(yuǎn)遠(yuǎn)超出其他檢索方式。 摘要、主題、關(guān)鍵詞等單項(xiàng)檢索方式次之,篇名的冗余度為零。
表4 單項(xiàng)元數(shù)據(jù)檢索的冗余度評(píng)價(jià)
分析表4 可知,全文作為檢索薦時(shí)由于檢索范圍廣,檢索所獲得的文獻(xiàn)數(shù)量大,這樣就會(huì)把一些不相關(guān)的文獻(xiàn)(噪聲)帶進(jìn)來(lái),從而大大提高了檢索冗余度。篇名的冗余度最低,但僅能檢索到高度相關(guān)文獻(xiàn),從一定程度上犧牲了查全率。 據(jù)此可見(jiàn),在檢索人員根據(jù)不同的檢索目的展開(kāi)實(shí)際的文獻(xiàn)證據(jù)檢索時(shí),需要對(duì)查全率和查準(zhǔn)率加以權(quán)衡,要意識(shí)到強(qiáng)調(diào)一方面的需求則必須以降低另一方面的要求為代價(jià)。
與飽和度檢驗(yàn)的邏輯相類似,本文使用不同的邏輯運(yùn)算符(or 或and)對(duì)檢索項(xiàng)加以組合,模擬在檢索中可能遇到的所有組合檢索方式,進(jìn)而對(duì)不同組合檢索的冗余度進(jìn)行評(píng)價(jià)。
3.2.1 使用邏輯運(yùn)算符and 時(shí)的檢索冗余度評(píng)價(jià)
and 是一種用于交叉概念或限定關(guān)系的組配,可以縮小檢索范圍,提高檢索的專指性,因此用and 連接各檢索項(xiàng)時(shí)冗余度都較低。
就二項(xiàng)組合的冗余度結(jié)果而言(見(jiàn)表5),“摘要and 全文”為檢索項(xiàng)時(shí)冗余度相比較而言最高,“主題and 關(guān)鍵詞”“主題and 全文”“關(guān)鍵詞and 全文”等檢索項(xiàng)次之,其余組合的冗余度都為零。從三項(xiàng)組合的冗余指標(biāo)來(lái)看,“主題and 關(guān)鍵詞and 全文” 冗余度最高, 但也僅有0.47%;“主題and 關(guān)鍵詞and 摘要”“主題and 摘要and 全文”次之,剩下的檢索項(xiàng)冗余度都為零。從四項(xiàng)和五項(xiàng)組合的各項(xiàng)冗余指標(biāo)來(lái)看,使用and 不斷地縮小檢索范圍,導(dǎo)致除了檢索項(xiàng)“主題and 關(guān)鍵詞and 摘要and 全文”的冗余度為0.07%,剩下的檢索項(xiàng)冗余度都為零。
綜上所述,當(dāng)使用and 連接檢索項(xiàng)進(jìn)行組合檢索時(shí),連接的檢索項(xiàng)的個(gè)數(shù)越多,冗余度就會(huì)越小,直至達(dá)到零。
3.2.2 使用邏輯運(yùn)算符or 進(jìn)行匹配時(shí)的檢索冗余度評(píng)價(jià)
當(dāng)選擇具有擴(kuò)檢意義的邏輯符“或(or)”,被檢出相關(guān)文獻(xiàn)量增大,而窮盡檢索狀態(tài)的文獻(xiàn)量保持不變,從而使飽和度的值增大,這樣的結(jié)果就是會(huì)把一些不相關(guān)的文獻(xiàn)(噪聲)帶進(jìn)來(lái),導(dǎo)致被檢出相關(guān)文獻(xiàn)中不相關(guān)文獻(xiàn)量值增大,從而提高冗余度(見(jiàn)表5)。
表5 匹配元數(shù)據(jù)檢索的冗余度評(píng)價(jià)
(1)就二項(xiàng)組合的冗余度指標(biāo)而言,“主題or 全文”的冗余度最高(91.91%),“摘要or 全文”“關(guān)鍵詞or 全文”“題名or 全文”次之?!爸黝}or 摘要”“關(guān)鍵詞or 摘要”“主題or 關(guān)鍵詞”等檢索項(xiàng)冗余度依次遞減,基于“題名or 關(guān)鍵詞”為檢索項(xiàng)的冗余度最低。
(2)三項(xiàng)組合的冗余度結(jié)果來(lái)看,凡是三項(xiàng)組合檢索項(xiàng)中包含全文,冗余度都大大上升?!爸黝}or 關(guān)鍵詞or 摘要”“主題or 題名or 摘要”這兩組合項(xiàng)冗余度十分接近(2.76%和2.79%),基于“主題or 題名or 關(guān)鍵詞”的檢索項(xiàng)冗余度最低。
(3)從四項(xiàng)、五項(xiàng)組合得到的結(jié)果來(lái)看,除“主題or 題名or 關(guān)鍵詞or 摘要”的冗余度為2.76%,剩余的所有組合檢索項(xiàng)的冗余度都高于85%。
綜上所述,當(dāng)使用or 連接檢索項(xiàng)進(jìn)行組合檢索的冗余度評(píng)價(jià)時(shí),只要檢索項(xiàng)中含全文,都會(huì)使檢索范圍變大,大大提高冗余度;另外在檢索中加入主題和摘要進(jìn)行組合檢索時(shí),得到的冗余度是除全文檢索外最高的,而在組合檢索中加入題名和關(guān)鍵詞兩項(xiàng)時(shí),得到的冗余度最低。
總之,應(yīng)用組合項(xiàng)進(jìn)行檢索時(shí),當(dāng)選擇具有縮檢意義的邏輯符“與(and)”進(jìn)行檢索時(shí),“摘要and 全文”在組合項(xiàng)中冗余度最高(1.35%),“主題and 全文”次之(1.08%),剩下的組合項(xiàng)冗余度都低于百分之一或等于零。并且當(dāng)使用and 連接的檢索項(xiàng)的個(gè)數(shù)越多,冗余度就會(huì)趨向于0。當(dāng)使用具有擴(kuò)檢意義的or連接檢索項(xiàng)時(shí),只要檢索項(xiàng)中含全文,得到的冗余度都會(huì)非常高;要想降低冗余度,應(yīng)盡量避免使用or連接全文這一檢索項(xiàng),可以加入特定的檢索項(xiàng)進(jìn)行組合檢索來(lái)降低冗余度,其中“主題or 摘要”和“題名or 關(guān)鍵詞”這兩項(xiàng)組合檢索可以有效的降低冗余度。
如果放寬檢索條件以求得到較好飽和度時(shí),冗余度也必然會(huì)上升;相反,當(dāng)縮小檢索范圍以降低冗余度時(shí),飽和度又必然不理想。在追求高度飽和度的同時(shí),冗余度也會(huì)大大提升,耗費(fèi)大量時(shí)間和精力,導(dǎo)致檢索的準(zhǔn)確性下降;當(dāng)追求低冗余度時(shí),可能會(huì)遺漏相關(guān)內(nèi)容,降低檢索的飽和度,導(dǎo)致檢索不全面。 因此,需要將飽和度和冗余度進(jìn)行協(xié)同評(píng)價(jià),在追求盡可能高的飽和度的同時(shí),盡量選擇不那么高的冗余度,達(dá)到檢索全面性和相關(guān)性的最優(yōu)均衡。這樣的檢索可以為meta 分析、系統(tǒng)評(píng)價(jià)提供更加扎實(shí)的基礎(chǔ),得到質(zhì)量更高的證據(jù)并且避免發(fā)生偏倚。
在進(jìn)行單項(xiàng)檢索時(shí),以主題這種方式進(jìn)行檢索時(shí),文獻(xiàn)檢索范圍適中,檢索出來(lái)的文獻(xiàn)純凈飽和度和一般飽和度都處于較好水平,冗余度也不是很高,總體處于查“全”的最優(yōu)狀態(tài)。 在時(shí)間和資源有限的情況下,基于主題的檢索效率較高,飽和度比較合理。
在進(jìn)行組合項(xiàng)檢索時(shí),當(dāng)使用具有縮檢意義的邏輯與(and)時(shí),需要選擇盡量少的檢索項(xiàng),其中以兩項(xiàng)為最優(yōu)。同時(shí),應(yīng)優(yōu)先選擇飽和度指標(biāo)表現(xiàn)最好且冗余度指標(biāo)也不是很高的“主題and 全文”這一組合檢索項(xiàng);其次,可以選擇“主題and 關(guān)鍵詞”這一組合項(xiàng),同時(shí)避免使用題名為檢索項(xiàng)進(jìn)行組合檢索。其原因是,使用題名進(jìn)行檢索會(huì)使檢索范圍明顯聚焦,當(dāng)再使用and 求并集時(shí),檢索到的文獻(xiàn)會(huì)迅速減少,大大降低飽和度。當(dāng)使用具有擴(kuò)檢意義的邏輯或(or)時(shí),當(dāng)檢索項(xiàng)越多且包含全文檢索時(shí),會(huì)將檢索范圍最大程度擴(kuò)大,在達(dá)到飽和度最高的同時(shí),卻導(dǎo)致冗余度異常的高。從飽和度和冗余度協(xié)同評(píng)價(jià)的角度來(lái)看,選擇“主題or 題名or 關(guān)鍵詞or 摘要”組合檢索最優(yōu)。
從飽和度與冗余度協(xié)同評(píng)價(jià)檢索效率來(lái)看,以上三項(xiàng)檢索效率相對(duì)較高。 其中,組合“主題or 題名or 關(guān)鍵詞or 摘要”檢索效率最高,單項(xiàng)檢索中主題檢索次之,組合檢索中“主題and 全文”檢索效率相對(duì)較低。
本研究以傳統(tǒng)的查全率和查準(zhǔn)率指標(biāo)為基礎(chǔ),提出了飽和度和冗余度這一對(duì)評(píng)價(jià)指標(biāo),并以CNKI為研究樣本,就不同檢索方式在文獻(xiàn)證據(jù)檢索的科學(xué)性方面的實(shí)際狀況作出了評(píng)估。 研究發(fā)現(xiàn):
(1)飽和度和冗余度這一指標(biāo)都與檢索出來(lái)的文獻(xiàn)數(shù)量呈正相關(guān)。
(2)單項(xiàng)檢索時(shí),全文的飽和度和冗余度都是最高;以篇名檢索時(shí),飽和度和冗余度都是最低的;主題檢索效率最高。
(3)組合項(xiàng)效率時(shí),使用檢索項(xiàng)or 比使用and 檢索在提高檢索結(jié)果的飽和度的同時(shí)也導(dǎo)致了更高的冗余度。當(dāng)使用and 連接組合項(xiàng)時(shí),檢索項(xiàng)“主題and全文”飽和度最高;使用and 以篇名連接組合項(xiàng)時(shí),飽和度和冗余度都最低;選擇“主題and 關(guān)鍵詞”這一組合項(xiàng)最有效率。 當(dāng)使用or 連接組合項(xiàng)時(shí),只要組合檢索項(xiàng)中含全文或主題,飽和度和冗余度都是最高;“題名or 關(guān)鍵詞”飽和度和冗余度最低;“主題or 題名or 關(guān)鍵詞or 摘要”檢索效率最高。
本研究旨在從飽和度和冗余度協(xié)同的角度,對(duì)文獻(xiàn)證據(jù)檢索質(zhì)量評(píng)價(jià)提供啟示。最優(yōu)化的檢索策略,無(wú)疑可以為meta 分析、系統(tǒng)評(píng)價(jià)提供更加扎實(shí)的基礎(chǔ)。顯然,只有原始研究的證據(jù)得到了全面檢索,基于此才能最大程度控制循證研究中基礎(chǔ)數(shù)據(jù)的偏差,從而得到質(zhì)量更高的文獻(xiàn)證據(jù)。目前,本文所探索的飽和度和冗余度在不同檢索項(xiàng)目上的差別,為后續(xù)展開(kāi)基于信度和敏感度進(jìn)一步評(píng)價(jià)提供了前提。