, , ,
隨著生活水平的不斷提高,人們對(duì)疾病的關(guān)注逐漸轉(zhuǎn)變?yōu)閷?duì)健康的關(guān)注。國(guó)內(nèi)學(xué)者張馨遙認(rèn)為,健康信息是指與健康有關(guān)的健康或疾病的知識(shí)、消息、數(shù)據(jù)、事實(shí)與資料[1]。
健康信息與公眾日常生活密切相關(guān),公眾對(duì)其需求強(qiáng)烈,要求較高[2]。蘇格蘭鄧迪大學(xué)的學(xué)者Jeremy C Wyatt研究指出,用戶對(duì)健康信息合理有效的利用,有助于改善醫(yī)患關(guān)系,使醫(yī)生的決策與行動(dòng)得到理解和支持[3]。
網(wǎng)絡(luò)時(shí)代,數(shù)據(jù)無(wú)處不在,越來(lái)越多的人開始利用網(wǎng)絡(luò)查詢與自身相關(guān)的醫(yī)學(xué)信息[4],而不必再通過(guò)新聞獲得過(guò)時(shí)的消息,不必再翻閱的厚重的紙質(zhì)期刊來(lái)獲取相關(guān)信息[5]。但是面對(duì)海量網(wǎng)絡(luò)的信息資源,用戶如何才能夠快速、準(zhǔn)確地獲取所需的健康信息又成為一個(gè)問(wèn)題。
檢索工具是常用的信息檢索、獲取方式,通過(guò)采集、標(biāo)引眾多的信息資源來(lái)提供全局性資源控制與檢索機(jī)制,方便用戶查找所需的信息。但是網(wǎng)絡(luò)資源檢索工具通常會(huì)給出大量的檢索結(jié)果,很難判斷其中有多少是與用戶所需主題相匹配的,因此人們?cè)絹?lái)越深刻地認(rèn)識(shí)到對(duì)網(wǎng)絡(luò)資源進(jìn)行準(zhǔn)確描述與揭示的重要性。
目前的網(wǎng)絡(luò)資源絕大部分是HTML文檔,其中起到描述和揭示作用的是HTML文檔頭部的元數(shù)據(jù)標(biāo)簽,通過(guò)這些標(biāo)簽可以提高文件的易檢出性。一些研究調(diào)查了元數(shù)據(jù)標(biāo)簽的使用情況及其在網(wǎng)頁(yè)資源描述中的重要性,建議更多的網(wǎng)絡(luò)資源檢索工具根據(jù)元數(shù)據(jù)標(biāo)簽建立索引,提高資源的被檢出性。
一些英文搜索引擎(如Go,AltaVista和HotBot)聲明采用元數(shù)據(jù)標(biāo)簽的網(wǎng)頁(yè)將優(yōu)先被抓取并被排在檢索結(jié)果的前面。調(diào)查數(shù)據(jù)證實(shí),在這些搜索引擎中,使用元數(shù)據(jù)標(biāo)簽的網(wǎng)頁(yè)確實(shí)優(yōu)先于未使用元數(shù)據(jù)標(biāo)簽的網(wǎng)頁(yè)出現(xiàn)[6]。
本文選取Dublin Core中與檢索結(jié)果直接相關(guān)的題名(Title)、主題及關(guān)鍵詞(Subject and Keywords)和說(shuō)明(Description)3項(xiàng)外部屬性描述項(xiàng)作為調(diào)查對(duì)象。其中Keywords和Description可提供關(guān)于網(wǎng)站內(nèi)容的關(guān)鍵詞和描述片段,對(duì)檢索網(wǎng)絡(luò)資源比較關(guān)鍵,而且許多網(wǎng)絡(luò)資源檢索工具的抓取方式是直接從Title截詞。以上述3個(gè)標(biāo)簽為調(diào)查對(duì)象,對(duì)4組健康信息網(wǎng)絡(luò)資源的描述進(jìn)行調(diào)查,挖掘影響信息檢索質(zhì)量的深層次原因,為提升網(wǎng)絡(luò)健康信息資源的描述質(zhì)量提出建議,旨在改善用戶對(duì)健康信息的獲取效率及利用效果。
選取4組健康信息相關(guān)網(wǎng)站作為比較對(duì)象,通過(guò)查看其網(wǎng)頁(yè)的元數(shù)據(jù)標(biāo)簽的使用狀況,對(duì)結(jié)果進(jìn)行對(duì)比統(tǒng)計(jì)分析。
1.1.1 受試網(wǎng)站
根據(jù)2013年中國(guó)搜索引擎市場(chǎng)用戶訪問(wèn)量份額數(shù)據(jù)[7]及百度數(shù)據(jù)中心2013年搜索引擎點(diǎn)擊量統(tǒng)計(jì)數(shù)據(jù)[8],選取以下網(wǎng)站作為研究對(duì)象:中文綜合性搜索引擎(百度、360好搜、搜狗)記為第1對(duì)照組(簡(jiǎn)稱組1),英文綜合性搜索引擎(Google,Bing,Hotbot)記為第2對(duì)照組(簡(jiǎn)稱組2),中文醫(yī)藥健康信息網(wǎng)站(39健康網(wǎng)、360良醫(yī)、好大夫在線)記為第3對(duì)照組(簡(jiǎn)稱組3),英文醫(yī)藥健康信息網(wǎng)站(MedicineNet,Medscape,Medhunt記為第4對(duì)照組(簡(jiǎn)稱組4)。
1.1.2 檢索詞
根據(jù)2013年生物醫(yī)藥行業(yè)的熱門關(guān)鍵詞數(shù)據(jù)[9],選取干細(xì)胞(stem cell)、H7N9、葛蘭素史克(GlaxoSmithKline)、轉(zhuǎn)基因(transgene)、霧霾(smog)作為檢索詞。
分別在4組12個(gè)網(wǎng)站主頁(yè)的檢索框中輸入檢索詞,在檢索結(jié)果頁(yè)面選取前10個(gè)有效網(wǎng)頁(yè)(不包括死鏈接、重復(fù)網(wǎng)頁(yè)、廣告推廣鏈接),共計(jì)中文網(wǎng)頁(yè)300個(gè)、英文網(wǎng)頁(yè)300個(gè)。
在瀏覽器選項(xiàng)菜單中選擇“工具”的“查看源代碼”,打開網(wǎng)頁(yè)源代碼,確定頭文件(HEAD)部分,查看Keywords、Description及Title標(biāo)簽,根據(jù)檢索詞出現(xiàn)的情況賦予不同權(quán)重,沒(méi)有標(biāo)簽或者標(biāo)簽中沒(méi)有檢索詞記作0,標(biāo)簽頁(yè)中出現(xiàn)部分檢索詞記作0,標(biāo)簽頁(yè)中出現(xiàn)完整檢索詞記作1。
將4組調(diào)查對(duì)象的統(tǒng)計(jì)數(shù)據(jù)錄入Excel表格,應(yīng)用SPSS 13.0進(jìn)行整理和統(tǒng)計(jì)學(xué)分析,采用一般性統(tǒng)計(jì)描述和卡方(X2)檢驗(yàn),以P<0.05為差異有統(tǒng)計(jì)學(xué)意義。
組1的調(diào)查結(jié)果見表1。中文搜索引擎的Keywords標(biāo)簽總分值82分,即描述完整的標(biāo)簽82個(gè),占54.67%;Title標(biāo)簽的總分值139分,即描述完整的標(biāo)簽139個(gè),占92.67%;Description標(biāo)簽的總分值95分,即描述完整的標(biāo)簽95個(gè),占63.33%。
表1 組1調(diào)查結(jié)果
組2的調(diào)查結(jié)果表2。英文搜索引擎的Keywords標(biāo)簽的總分值64分,即描述完整的標(biāo)簽僅64個(gè),占42.67%;Title標(biāo)簽的總分值125分,即描述完整的標(biāo)簽125個(gè),占83.33%;Description標(biāo)簽的總分值67分,即描述完整的標(biāo)簽67個(gè),占44.67%。組1與組2元數(shù)據(jù)標(biāo)簽使用情況對(duì)比見表3。
表2 組2調(diào)查結(jié)果
表3 組1和組2標(biāo)簽使用情況對(duì)比
從表3可以看出,中英文搜索引擎的Title標(biāo)簽使用情況均比較最好,中文搜索引擎的Keywords、Title、Description3個(gè)標(biāo)簽的使用情況總體優(yōu)于英文搜索引擎,差異具有統(tǒng)計(jì)學(xué)意義。
組3的調(diào)查結(jié)果見表4。中文醫(yī)藥健康信息網(wǎng)站的Keywords標(biāo)簽總分值84分,即描述完整的標(biāo)簽84個(gè),占56%;Title標(biāo)簽的總分值134分,即描述完整的標(biāo)簽134個(gè),占89.33%;Description標(biāo)簽總分值116分,即描述完整的標(biāo)簽116個(gè),占77.33%。
表4 組3調(diào)查結(jié)果
組4的調(diào)查結(jié)果表5。英文醫(yī)藥健康信息網(wǎng)站Keywords標(biāo)簽的總分值11分,即描述完整的標(biāo)簽僅11個(gè),占7.33%;Title標(biāo)簽的總分值67分,即描述完整的標(biāo)簽67個(gè),占44.67%;Description標(biāo)簽的總分值68分,即描述完整的標(biāo)簽68個(gè),占45.33%。組3與組4元數(shù)據(jù)標(biāo)簽使用情況對(duì)比見表6。
表5 組4調(diào)查結(jié)果
表6 組3和組4標(biāo)簽使用情況對(duì)比
表6可以看出,中英文醫(yī)藥健康信息網(wǎng)站Title標(biāo)簽和Description標(biāo)簽使用情況均比較好,但英文醫(yī)藥健康信息網(wǎng)站使用Keyword標(biāo)簽的比例僅11%。總體上看,中文醫(yī)藥健康信息網(wǎng)站使用Keywords、Title、Description 3個(gè)標(biāo)簽的情況優(yōu)于英文醫(yī)藥健康信息網(wǎng)站,差異具有統(tǒng)計(jì)學(xué)意義。
通過(guò)2.1及2.2部分的調(diào)查結(jié)果,中文網(wǎng)站組1和組3的標(biāo)簽使用情況優(yōu)于英文網(wǎng)站組2和組4,Title標(biāo)簽的使用狀況整體最優(yōu)。相關(guān)研究表明,很多國(guó)際著名的搜索引擎并沒(méi)有完全支持“Meta Description”、“Meta Keywords”、“Meta Tag Refresh”等重要的元數(shù)據(jù)標(biāo)簽,一些中文搜索引擎如新浪、搜狐、網(wǎng)易等也不支持這些元數(shù)據(jù)標(biāo)簽[10]。
調(diào)查發(fā)現(xiàn)部分網(wǎng)頁(yè)存在標(biāo)簽不完整的現(xiàn)象,組4中該情況相對(duì)較多,部分網(wǎng)頁(yè)標(biāo)簽內(nèi)容為空值,部分網(wǎng)頁(yè)標(biāo)簽缺失。
相關(guān)研究表明,在搜索引擎新一輪的算法更新中,淡化了Meta標(biāo)簽的Keywords和Description兩部分在排名因素中的權(quán)重[11]。這可能是一些網(wǎng)頁(yè)忽略Meta標(biāo)簽質(zhì)量的一個(gè)重要原因。
組1與組3元數(shù)據(jù)標(biāo)簽使用情況對(duì)比情況詳見表7。
表7 組1和組3標(biāo)簽使用情況對(duì)比
組1和組3中3個(gè)標(biāo)簽的使用狀況整體上較好。從圖4可看出,組1的Title、Keyword 標(biāo)簽使用情況優(yōu)于組3,Description標(biāo)簽的完整性組3優(yōu)于組1。從表7可看出,Title標(biāo)簽和Description標(biāo)簽的差異具有統(tǒng)計(jì)學(xué)意義,Keywords標(biāo)簽的差異不具有統(tǒng)計(jì)學(xué)意義。
組2與組4元數(shù)據(jù)標(biāo)簽使用情況對(duì)比見表8。
表8 組2和組4元數(shù)據(jù)標(biāo)簽使用情況對(duì)比
通過(guò)表8可以看出,組2的Keyword標(biāo)簽和Title標(biāo)簽完整性明顯優(yōu)于組4。表7中這兩項(xiàng)統(tǒng)計(jì)分析結(jié)果P<0.05,差異具有統(tǒng)計(jì)學(xué)意義;Description標(biāo)簽,P>0.05,差異無(wú)統(tǒng)計(jì)學(xué)意義。
從2.4及2.5部分的調(diào)查結(jié)果,組1和組3綜合類搜索引擎網(wǎng)站的標(biāo)簽使用狀況整體上優(yōu)于醫(yī)藥健康信息資源網(wǎng)站組2和組4。這可能是由于醫(yī)藥概念所具有的獨(dú)特的多樣性所致,簡(jiǎn)單地說(shuō),它的形式包括主題詞、副主題詞、類名、款目詞、自由詞等多種專業(yè)及非專業(yè)類型。也就是說(shuō)可能是由于在檢索時(shí)使用的詞匯形式與Meta標(biāo)簽中標(biāo)引的形式不同,導(dǎo)致了醫(yī)藥健康信息資源網(wǎng)站的得分偏低。在對(duì)健康信息資源進(jìn)行描述過(guò)程中,使用的概念形式不同必定會(huì)影響到信息資源被用戶獲取和利用的效果。
通過(guò)對(duì)中英文搜索引擎、醫(yī)藥健康信息資源網(wǎng)站使用標(biāo)簽情況進(jìn)行對(duì)比分析,下面針對(duì)發(fā)現(xiàn)的問(wèn)題提出建議。
完善Meta標(biāo)簽并不是為了提升網(wǎng)頁(yè)在檢索列表中的排名,從商業(yè)的角度來(lái)說(shuō),“排名并不代表一切,流量和轉(zhuǎn)換是首要目標(biāo)”[12]。從用戶的檢索行為看,用戶是通過(guò)瀏覽檢索結(jié)果列表中每個(gè)頁(yè)面的描述信息來(lái)確定是否點(diǎn)擊進(jìn)入繼續(xù)瀏覽。
絕大多數(shù)搜索引擎顯示150個(gè)左右字符的Meta描述標(biāo)簽,向用戶傳遞該網(wǎng)站包含的信息。Meta標(biāo)簽是評(píng)定網(wǎng)頁(yè)質(zhì)量的一個(gè)重要的因素。加強(qiáng)Meta描述標(biāo)簽的完善,檢索結(jié)果列表中的描述信息能夠準(zhǔn)確全面地概括出網(wǎng)頁(yè)及網(wǎng)站的內(nèi)容信息,使用戶可以更快更準(zhǔn)確地獲取所需信息,這才是最重要的目的。
醫(yī)藥概念表達(dá)形式的多樣性,導(dǎo)致了醫(yī)藥信息資源組織的復(fù)雜性。一些知名的醫(yī)藥專業(yè)數(shù)據(jù)庫(kù)為提高查全率和查準(zhǔn)率,使用受控詞表對(duì)數(shù)據(jù)庫(kù)資源進(jìn)行組織和標(biāo)引,可以避免詞的多樣性對(duì)檢索效率的影響。但對(duì)于數(shù)量龐大的網(wǎng)絡(luò)信息資源來(lái)說(shuō),這種標(biāo)引幾乎是不可能的。
本文調(diào)查網(wǎng)站的用戶有很大一部分并非醫(yī)學(xué)專業(yè)人員,對(duì)健康詞匯熟悉程度有限[13]。因此,在使用元數(shù)據(jù)標(biāo)簽對(duì)健康信息網(wǎng)絡(luò)資源進(jìn)行描述的過(guò)程中,對(duì)于醫(yī)藥概念表達(dá)形式的選擇,應(yīng)盡量從非專業(yè)背景的用戶角度出發(fā),選擇常用的自由詞形式,增加網(wǎng)頁(yè)文本的可讀性。如網(wǎng)頁(yè)的Title標(biāo)簽內(nèi)容為“抗壞血酸的副作用”,那么“Keywords”及“Description”應(yīng)該使用“維生素C”、“VC”或“維他命C”等被用戶廣泛使用的自由詞形式來(lái)進(jìn)行標(biāo)引。
由于受網(wǎng)站選取、檢索詞選取等方面的影響,同時(shí)涉及賦值原則的設(shè)定及語(yǔ)種差異等方面的作用,文中對(duì)健康信息網(wǎng)絡(luò)資源描述的調(diào)查分析具有一定的局限性,在后續(xù)的研究中將進(jìn)一步改進(jìn)和完善。
中華醫(yī)學(xué)圖書情報(bào)雜志2015年9期