劉艷亭,李 健,魏雪瑤,午玉姣
機(jī)構(gòu)知識(shí)庫,也稱為“機(jī)構(gòu)倉儲(chǔ)系統(tǒng)(Institutional Repository,IR)”,是一種基于全球開放理念的新型知識(shí)組織與傳播的門戶,對(duì)特定機(jī)構(gòu)知識(shí)進(jìn)行采集、加工、組織、存儲(chǔ)、管理,并允許搜索引擎發(fā)現(xiàn)、揭示,便于全球?qū)W者、機(jī)構(gòu)之間的學(xué)術(shù)交流與分享[1]。醫(yī)院建立機(jī)構(gòu)知識(shí)庫,可以收集、保存、管理本機(jī)構(gòu)學(xué)者的學(xué)術(shù)產(chǎn)出,也可集中保存教學(xué)課件、視頻等醫(yī)學(xué)資源;機(jī)構(gòu)知識(shí)庫還具有服務(wù)屬性,可按照權(quán)限提供訪問,促進(jìn)知識(shí)交流和共享[2]。21 世紀(jì)初,惠普公司實(shí)驗(yàn)室與美國麻省理工學(xué)院合作開發(fā)出的DSpace@MIT 系統(tǒng)是全球最早的機(jī)構(gòu)知識(shí)庫開發(fā)平臺(tái)[3]。截至2021 年10 月,全球在OpenDOAR 網(wǎng)站上注冊(cè)的數(shù)據(jù)倉儲(chǔ)已有5 753個(gè),其中機(jī)構(gòu)知識(shí)庫2 244 個(gè)[4]。國外的機(jī)構(gòu)知識(shí)庫建設(shè)已初具規(guī)模,美國排名第一,其次為日本、英國和德國。在國外大環(huán)境影響下,我國的機(jī)構(gòu)知識(shí)庫建設(shè)也有了一定程度的發(fā)展,OpenDOAR 網(wǎng)站注冊(cè)的機(jī)構(gòu)知識(shí)庫中,我國有132 個(gè)。中國醫(yī)學(xué)科學(xué)院[5]、北京大學(xué)醫(yī)學(xué)部[6]、南京醫(yī)科大學(xué)[7]等機(jī)構(gòu)率先建立了功能較為完善的機(jī)構(gòu)知識(shí)庫,可以有效組織研究數(shù)據(jù)、病例資料、教學(xué)課件等高質(zhì)量資源[8]。但目前醫(yī)療領(lǐng)域的知識(shí)庫建設(shè)仍處于起步階段,其便于學(xué)術(shù)交流分享的特點(diǎn)還未得到充分認(rèn)知,且存在重建設(shè)、輕管理、使用率低等問題。
此外,隨著特色數(shù)據(jù)庫、電子資源共享、出版商數(shù)據(jù)開放獲取等多種渠道的出現(xiàn),期刊論文、圖書、專利的全文獲取已不存在瓶頸,但各個(gè)獲取平臺(tái)資源未實(shí)現(xiàn)融合,難以進(jìn)行高效的內(nèi)容特征揭示,仍然存在“信息孤島”[9]。??莆墨I(xiàn)數(shù)據(jù)庫按學(xué)科領(lǐng)域采集、存儲(chǔ)文獻(xiàn),并對(duì)文獻(xiàn)內(nèi)容特征進(jìn)行高效組織,可以為科研人員提供加工精深、及時(shí)準(zhǔn)確的信息服務(wù)。文獻(xiàn)信息的內(nèi)容特征組織一般分為體系分類法和主題法,如常用的圖書分類法和主題詞標(biāo)引法。而近年來,醫(yī)學(xué)專病及專題數(shù)據(jù)庫發(fā)展迅速,針對(duì)醫(yī)療數(shù)據(jù)進(jìn)行整合、分析、挖掘,為臨床決策、醫(yī)療服務(wù)、醫(yī)學(xué)科研提供數(shù)據(jù)支撐,其數(shù)據(jù)源一般為電子病歷數(shù)據(jù)、影像數(shù)據(jù)、檢驗(yàn)信息系統(tǒng)、生物樣本數(shù)據(jù)、隨訪數(shù)據(jù)等,針對(duì)多源異構(gòu)數(shù)據(jù)整合的難點(diǎn),多采用國際疾病分類法第10 版(International Classification of Diseases-10,ICD-10)、國際疾病分類第9 版臨床修訂本手術(shù)與操作(International Classfication of Diseases Clinical Modification of 9thRevision Operations and Procedures,ICD-9-CM)等編碼體系作為數(shù)據(jù)標(biāo)準(zhǔn)。
首都醫(yī)科大學(xué)附屬北京同仁醫(yī)院的科研人員對(duì)國內(nèi)外醫(yī)學(xué)文獻(xiàn)尤其是眼科及其醫(yī)學(xué)交叉學(xué)科資源的需求逐漸增加,在快速獲取文獻(xiàn)的基礎(chǔ)上,眼科及其亞??蒲芯繜狳c(diǎn)分析,以及學(xué)者成果交流與分享成為了新的需求點(diǎn)。因此,本文結(jié)合機(jī)構(gòu)知識(shí)庫及??茢?shù)據(jù)庫功能優(yōu)勢(shì),建立眼科知識(shí)服務(wù)平臺(tái),以提高文獻(xiàn)數(shù)據(jù)的開發(fā)度和利用率,滿足醫(yī)療、管理等不同類別用戶的需求。
本文構(gòu)建的眼科知識(shí)服務(wù)平臺(tái)以機(jī)構(gòu)知識(shí)庫框架為基礎(chǔ),采集醫(yī)院文獻(xiàn)數(shù)據(jù),并進(jìn)行科室、作者歸一,按醫(yī)院、科室、學(xué)者3 個(gè)維度展示成果,實(shí)現(xiàn)統(tǒng)計(jì)、聚類、可視化等文獻(xiàn)計(jì)量功能;按照???專題數(shù)據(jù)庫的數(shù)據(jù)標(biāo)準(zhǔn)建設(shè)經(jīng)驗(yàn),以醫(yī)學(xué)主題詞、ICD-10、ICD-9-CM 為主要數(shù)據(jù)源建立眼科標(biāo)準(zhǔn)術(shù)語庫,并依此對(duì)文獻(xiàn)進(jìn)行內(nèi)容特征自動(dòng)標(biāo)識(shí),在一般機(jī)構(gòu)知識(shí)庫基于題錄信息(如作者、主題詞、期刊名稱等)的基礎(chǔ)上,擴(kuò)展眼科文獻(xiàn)數(shù)據(jù)的展示、分析、挖掘的維度;將數(shù)據(jù)存儲(chǔ)、組織、挖掘和服務(wù)功能相結(jié)合,滿足成果典藏、知識(shí)發(fā)現(xiàn)、科研管理、學(xué)術(shù)交流等需求。
平臺(tái)采用B/S 架構(gòu),Visual Studio 2010 開發(fā)環(huán)境,使用SQL Server 2008 數(shù)據(jù)庫,以Java 語言進(jìn)行開發(fā)。系統(tǒng)構(gòu)架分為數(shù)據(jù)層、應(yīng)用層和表現(xiàn)層3 部分(圖1)。數(shù)據(jù)層包括數(shù)據(jù)源、數(shù)據(jù)采集、數(shù)據(jù)清洗與管理,從文獻(xiàn)數(shù)據(jù)庫中自動(dòng)采集數(shù)據(jù),并進(jìn)行成果合并、科室歸一、作者歸一和文獻(xiàn)內(nèi)容標(biāo)識(shí),形成機(jī)構(gòu)文獻(xiàn)庫和眼科文獻(xiàn)庫。應(yīng)用層包括資源管理、科研應(yīng)用及展示分類,實(shí)現(xiàn)成果的分類、展示、篩選及聚類分析、知識(shí)發(fā)現(xiàn)等功能。表現(xiàn)層通過嚴(yán)格的身份權(quán)限與認(rèn)證,保證機(jī)構(gòu)管理員、科室管理員、學(xué)者和訪客通過Web 訪問相應(yīng)資源及功能模塊。
圖1 眼科知識(shí)服務(wù)平臺(tái)系統(tǒng)構(gòu)架
2.2.1 建立眼科標(biāo)準(zhǔn)術(shù)語庫
醫(yī)學(xué)術(shù)語體系在文獻(xiàn)標(biāo)引、聚類、分析和數(shù)據(jù)挖掘,以及電子病歷、醫(yī)保支付等衛(wèi)生信息的組織與管理等方面發(fā)揮著重要作用[10]。國內(nèi)醫(yī)學(xué)術(shù)語標(biāo)準(zhǔn)化組織主要開展國際標(biāo)準(zhǔn)引進(jìn)、翻譯及本地化等工作[11],并且多集中在綜合醫(yī)學(xué)領(lǐng)域,未見關(guān)于眼科的標(biāo)準(zhǔn)數(shù)據(jù)庫或術(shù)語庫的文獻(xiàn)報(bào)道。本文借鑒美國國立衛(wèi)生研究院的醫(yī)學(xué)主題詞表(Medical Subject Headings,MeSH)的主題詞和入口詞映射模式,由眼科專業(yè)人員和圖書情報(bào)專業(yè)人員提取MeSH、中文醫(yī)學(xué)主題詞表、ICD-10、ICD-9-CM、中圖分類法中的眼科相關(guān)術(shù)語,補(bǔ)充對(duì)應(yīng)的入口詞(包括款目詞、自由詞、醫(yī)學(xué)縮略語等),最終實(shí)現(xiàn)中圖分類法R77 類目(眼科學(xué))、ICD-10 眼科疾病部分、眼科主題詞3 個(gè)樹狀分類與眼科術(shù)語的映射。根據(jù)中圖分類法R77 類目,將眼科文獻(xiàn)分為視網(wǎng)膜及視神經(jīng)疾病、眼外科手術(shù)學(xué)、眼壓與青光眼、眼附屬器官疾病、晶狀體與玻璃體疾病、眼屈光學(xué)、眼纖維膜疾病、眼色素層(葡萄膜)疾病、眼科診斷學(xué)、眼損傷與異物、眼科手術(shù)學(xué)、眼的一般性疾病、熱帶眼科學(xué)等13 個(gè)導(dǎo)航分類。根據(jù)ICD-10 及MeSH,構(gòu)建包括“眼科疾病集”和“眼科主題詞集”兩個(gè)方向且相互補(bǔ)充的標(biāo)準(zhǔn)術(shù)語庫。橫向的“眼科疾病集”方便從眼科病種向其他病種拓展,縱向的“眼科主題詞集”可以延伸眼科病種維度。本文對(duì)眼科術(shù)語和關(guān)鍵詞進(jìn)行了人工交叉映射,而在醫(yī)療大數(shù)據(jù)環(huán)境下,多種標(biāo)準(zhǔn)的交叉映射是醫(yī)學(xué)術(shù)語標(biāo)準(zhǔn)化的研究重點(diǎn),迫切需要業(yè)界認(rèn)可的完善的醫(yī)學(xué)術(shù)語編碼系統(tǒng),服務(wù)于醫(yī)療數(shù)據(jù)、信息和知識(shí)的整合與規(guī)范表達(dá)[12]。
2.2.2 文獻(xiàn)數(shù)據(jù)采集與清洗
根據(jù)眼科主題詞、關(guān)鍵詞庫及機(jī)構(gòu)地址,分別在中國知網(wǎng)、萬方數(shù)據(jù)、維普網(wǎng)、Web of Science、PubMed 等數(shù)據(jù)庫中進(jìn)行檢索,采集題名、作者、作者單位、文獻(xiàn)來源、摘要、關(guān)鍵詞、主題詞、DOI、全文鏈接等字段。與醫(yī)院醫(yī)療異構(gòu)數(shù)據(jù)的采集不同,本文采集的數(shù)據(jù)源分散在不同的檢索平臺(tái)中,不能直接讀取數(shù)據(jù)庫表,只能每周自動(dòng)檢索、下載、更新至相應(yīng)的本地?cái)?shù)據(jù)庫,分別形成眼科文獻(xiàn)數(shù)據(jù)集和機(jī)構(gòu)文獻(xiàn)數(shù)據(jù)集。然后利用數(shù)據(jù)抽取、轉(zhuǎn)換、加載(extract-transform-load,ETL)工具對(duì)本地?cái)?shù)據(jù)庫中的數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換,采用數(shù)據(jù)倉庫的方法構(gòu)建集成系統(tǒng)[13]。
在將本地?cái)?shù)據(jù)導(dǎo)入到數(shù)據(jù)倉庫之前,需要經(jīng)過嚴(yán)格的數(shù)據(jù)清洗,將各個(gè)異構(gòu)數(shù)據(jù)源模型轉(zhuǎn)換為通用數(shù)據(jù)模型[14]。對(duì)眼科文獻(xiàn)數(shù)據(jù),應(yīng)用眼科術(shù)語映射庫對(duì)文獻(xiàn)內(nèi)容特征進(jìn)行自動(dòng)標(biāo)識(shí)。對(duì)機(jī)構(gòu)文獻(xiàn)數(shù)據(jù),通過DOI、題目及作者共現(xiàn),篩查、清洗重復(fù)成果;建立科室別稱庫,實(shí)現(xiàn)科室歸一清洗;建立學(xué)者中、英文名映射庫,并結(jié)合科室與作者共現(xiàn)算法實(shí)現(xiàn)作者歸一清洗。
系統(tǒng)化地保存、管理、展示本機(jī)構(gòu)的顯性及隱性知識(shí)是機(jī)構(gòu)知識(shí)庫的首要職能。眼科知識(shí)服務(wù)平臺(tái)實(shí)現(xiàn)了醫(yī)院、科室、學(xué)者3 個(gè)維度的成果典藏功能,并可自動(dòng)生成二維碼便于傳播、分享。平臺(tái)通過自動(dòng)匹配結(jié)合學(xué)者認(rèn)領(lǐng)的方式采集文獻(xiàn)數(shù)據(jù),提供文摘信息及全文下載鏈接。學(xué)者上傳個(gè)人簡(jiǎn)介、專著、專利、成果、課題等數(shù)據(jù),由科研管理部門審核。學(xué)者可自行上傳病例資料、教學(xué)課件等個(gè)人數(shù)據(jù)并設(shè)置訪問權(quán)限。
眼科知識(shí)服務(wù)平臺(tái)引入SCI、《中文核心期刊要目總覽》、中國科技論文統(tǒng)計(jì)源期刊、中國科學(xué)引文數(shù)據(jù)庫(Chinese Science Citation Database,CSCD)中的收錄情況、影響因子、中國科學(xué)院文獻(xiàn)情報(bào)中心期刊分區(qū)表、期刊引證報(bào)告(JCR)分區(qū)等數(shù)據(jù),方便對(duì)成果進(jìn)行定性與定量評(píng)價(jià)分析,可以揭示科室、學(xué)者的研究現(xiàn)狀和熱點(diǎn),也可以橫向?qū)Ρ炔煌剖业目蒲挟a(chǎn)出數(shù)量及質(zhì)量,為科研管理提供數(shù)據(jù)支撐,發(fā)揮平臺(tái)在科研評(píng)價(jià)、科研監(jiān)管、科研決策中的作用。
平臺(tái)中的眼科文獻(xiàn)從中圖分類法、ICD-10 眼科疾病部分、眼科主題詞3 個(gè)維度以樹狀結(jié)構(gòu)展示,所有文獻(xiàn)提供全文鏈接及免費(fèi)館際互借通道,其中全文鏈接需相應(yīng)的數(shù)據(jù)庫訪問權(quán)限。平臺(tái)支持多字段高級(jí)檢索,并可按作者、科室、年份、收錄情況、期刊名稱、成果類型等維度對(duì)檢索結(jié)果進(jìn)行組合篩選;還可對(duì)醫(yī)院、科室、學(xué)者及檢索篩選出的成果進(jìn)行聚類分析,具備發(fā)文趨勢(shì)分析、學(xué)者產(chǎn)出分析、合作網(wǎng)絡(luò)分析、學(xué)科熱點(diǎn)分析、期刊分析等功能。
平臺(tái)實(shí)行嚴(yán)格的身份認(rèn)證與權(quán)限控制機(jī)制,分為系統(tǒng)管理員、科室管理員、學(xué)者和訪客4 級(jí)權(quán)限。系統(tǒng)管理員在平臺(tái)上完成人事數(shù)據(jù)的導(dǎo)入,為科室及工作人員建立相應(yīng)賬號(hào)、分配權(quán)限,并對(duì)學(xué)者提交的成果進(jìn)行終審;科室管理員負(fù)責(zé)編輯管理科室信息,并對(duì)本科室學(xué)者提交的成果進(jìn)行初審;學(xué)者用戶可進(jìn)行個(gè)人成果認(rèn)領(lǐng)和提交,提交教學(xué)課件、科研數(shù)據(jù)、病例、簡(jiǎn)歷、頭像、學(xué)術(shù)任職等資料;訪客僅可訪問醫(yī)院、科室、學(xué)者的成果頁面。
機(jī)構(gòu)知識(shí)庫的質(zhì)量控制包括內(nèi)容質(zhì)量控制和元數(shù)據(jù)質(zhì)量控制。
平臺(tái)數(shù)據(jù)采集采用“統(tǒng)建+自建”的方式[15],即平臺(tái)從文獻(xiàn)數(shù)據(jù)庫統(tǒng)一采集數(shù)據(jù),用戶進(jìn)行成果認(rèn)領(lǐng)和個(gè)人數(shù)據(jù)上傳,并嚴(yán)格規(guī)范個(gè)人數(shù)據(jù)的采集范圍和類型,確保了內(nèi)容質(zhì)量。在行政、人事和科研管理部門的認(rèn)同和支持下,學(xué)者的參與度和資源共享意識(shí)不斷提高,真正實(shí)現(xiàn)了平臺(tái)的共建、共享。
平臺(tái)通過加強(qiáng)人員培訓(xùn)、規(guī)范標(biāo)準(zhǔn)字段、數(shù)據(jù)清洗、數(shù)據(jù)審核等方式確保元數(shù)據(jù)質(zhì)量。建立機(jī)構(gòu)科室別名庫和學(xué)者中、英文名映射,通過科室和學(xué)者共現(xiàn)算法,實(shí)現(xiàn)科室和學(xué)者自動(dòng)歸一,有效解決了離退休人員成果無人認(rèn)領(lǐng)、科室及學(xué)者成果統(tǒng)計(jì)數(shù)據(jù)不準(zhǔn)確等問題。利用眼科術(shù)語映射庫進(jìn)行文獻(xiàn)內(nèi)容標(biāo)識(shí),避免了按主題詞統(tǒng)計(jì)分析丟失大量文獻(xiàn)的問題。
本文構(gòu)建了一個(gè)基于知識(shí)庫構(gòu)架的眼科特色服務(wù)平臺(tái),該平臺(tái)同時(shí)具備機(jī)構(gòu)知識(shí)庫和??莆墨I(xiàn)數(shù)據(jù)庫的屬性。作為機(jī)構(gòu)知識(shí)庫,平臺(tái)實(shí)現(xiàn)了對(duì)本院醫(yī)務(wù)人員發(fā)表的中外文期刊論文、會(huì)議論文,以及專著、專利等類型學(xué)術(shù)成果的系統(tǒng)化保存和管理,同時(shí)可以按照時(shí)間、科室、學(xué)者、主題等維度對(duì)科研成果進(jìn)行統(tǒng)計(jì)分析和可視化展示,有利于發(fā)文趨勢(shì)研究、學(xué)科競(jìng)爭(zhēng)力評(píng)價(jià)等科研管理工作的開展。學(xué)者用戶在職稱評(píng)定、申請(qǐng)項(xiàng)目時(shí)可以直接通過平臺(tái)調(diào)用數(shù)據(jù)生成報(bào)告,省去了多次提交和審核的繁瑣程序;同時(shí)平臺(tái)實(shí)現(xiàn)了科研成果、教學(xué)課件、研究數(shù)據(jù)、病例等個(gè)人數(shù)據(jù)資料的上傳、保存和分享,提高了醫(yī)院科研成果的共享性。平臺(tái)的??莆墨I(xiàn)數(shù)據(jù)庫,不但收集了國內(nèi)外眼科文獻(xiàn)的題錄數(shù)據(jù),提供便利的全文獲取通道,并按照中圖分類法、ICD-10 眼科疾病部分和眼科主題詞對(duì)眼科文獻(xiàn)進(jìn)行組織,還集成了合作關(guān)系圖、研究熱點(diǎn)圖、發(fā)文趨勢(shì)圖等文獻(xiàn)計(jì)量學(xué)功能,以便對(duì)眼科研究熱點(diǎn)、地域分布、合作現(xiàn)狀、主流期刊等內(nèi)容進(jìn)行揭示,有助于學(xué)者了解科研動(dòng)態(tài),輔助科研決策。
今后,將進(jìn)一步加強(qiáng)眼科知識(shí)服務(wù)平臺(tái)的投入和建設(shè),將專利、著作、基金課題、教學(xué)課件、研究數(shù)據(jù)等學(xué)術(shù)成果納入采集范圍,建立嚴(yán)格的數(shù)據(jù)規(guī)范和評(píng)估、修正機(jī)制,并積極探尋與醫(yī)院信息系統(tǒng)、科研管理系統(tǒng)、人事管理系統(tǒng)的數(shù)據(jù)互通,開發(fā)新的服務(wù)功能,更好地滿足用戶需求。