,精理,
軍事醫(yī)學(xué)研究離不開信息支撐。從信息的流通方式與傳遞范圍進(jìn)行劃分,信息資源可以分為內(nèi)部資源與公開資源兩類。因安全保密性要求,所有國家均將其自身產(chǎn)生的軍事醫(yī)學(xué)信息資源列入不同等級的涉密信息范圍,大大增加了對其搜集、組織與服務(wù)的難度。與此同時(shí),世界各國從上世紀(jì)中后期開始就特別注重公開信息的研究,原因在于大多數(shù)國家的科學(xué)信息出版不受政府限制,公開信息內(nèi)容的全面性、系統(tǒng)性以及易獲取性,使其研究價(jià)值往往超過內(nèi)部信息。其中一個(gè)最典型的例子就是德國坦克問題[1]。
公開出版的軍事醫(yī)學(xué)相關(guān)信息都是軍事醫(yī)學(xué)研究的“基礎(chǔ)養(yǎng)分”,甚至物理學(xué)、化學(xué)及工程學(xué)等學(xué)科中一些重要的新發(fā)明、新技術(shù)、新物質(zhì)等均可成為推動(dòng)軍事醫(yī)學(xué)發(fā)展的重要“養(yǎng)分”。因此,充分利用現(xiàn)有的公開信息資源顯得非常重要,僅將其收集起來顯然無法滿足軍事醫(yī)學(xué)研究的需求,必須對其進(jìn)行合理甄別、篩選、組織與描述。
從宏觀層面看,在互聯(lián)網(wǎng)信息資源采集與長期保存策略方面,歐美等西方國家采用全面收集、選擇性收集、聯(lián)合收集、專題收集和與出版者協(xié)商合作收集等不同策略完成了一些代表性的項(xiàng)目[2-4],而出于某一目的或某一主題的信息資源采集大多會選擇專題收集的方式完成。從微觀層面看,國內(nèi)關(guān)于軍事醫(yī)學(xué)信息資源建設(shè)的研究較少。
龍旭梅運(yùn)用情報(bào)調(diào)研、專家咨詢、統(tǒng)計(jì)分析等方法,提出了軍事醫(yī)學(xué)信息的鑒選原則、評價(jià)指標(biāo)及操作步驟[5];劉偉等運(yùn)用系統(tǒng)工程方法構(gòu)建了從資源評價(jià)到效果評估的優(yōu)化流程[6]。但前者的研究對象為圖書館紙質(zhì)文獻(xiàn)資源,后者則重點(diǎn)關(guān)注期刊資源,二者均未涉及互聯(lián)網(wǎng)上的公開信息資源。另外,互聯(lián)網(wǎng)信息自動(dòng)搜索技術(shù)研究由來已久[7-9],但從現(xiàn)有研究的理論模型成熟度與實(shí)際運(yùn)行效果來看,尚屬于探索性研究范疇。網(wǎng)上的開放源碼(Open Resource)軟件大多存在采集策略簡單,爬行耗時(shí)較長等問題。
要確定軍事醫(yī)學(xué)信息資源的采集范圍,必須準(zhǔn)確界定軍事醫(yī)學(xué)及其信息資源。由于適用對象或語境不同,學(xué)界對軍事醫(yī)學(xué)的界定存在較大差異。
本文采用的是學(xué)界引用較多的由賀福初于2011年提出的定義,即軍事醫(yī)學(xué)是研究在軍事活動(dòng)中鑒定、保護(hù)、恢復(fù)和促進(jìn)軍隊(duì)成員健康的理論、技術(shù)和組織方法的特種醫(yī)學(xué),是醫(yī)學(xué)與軍事學(xué)的交叉學(xué)科[10]。
由于軍事醫(yī)學(xué)的交叉學(xué)科性質(zhì),我們認(rèn)為軍事醫(yī)學(xué)信息資源為軍事醫(yī)學(xué)研究所需的所有相關(guān)信息資源而非僅僅是包含有軍事醫(yī)學(xué)內(nèi)容的信息。分析現(xiàn)有網(wǎng)絡(luò)信息資源發(fā)現(xiàn),軍事醫(yī)學(xué)信息資源主要呈散在分布狀態(tài)。綜合信息源中可能含有軍事醫(yī)學(xué)信息,普通醫(yī)學(xué)信息源中也可能含有軍事醫(yī)學(xué)信息,而專門的軍事醫(yī)學(xué)信息源中也可能含有非軍事醫(yī)學(xué)內(nèi)容,增大了軍事醫(yī)學(xué)信息資源自動(dòng)采集與識別的難度。
按信息來源(或信息交流方式)的不同可將網(wǎng)絡(luò)信息資源劃分為正式出版信息、半正式出版信息和非正式出版信息三大類[11-12]。正式出版信息是指受知識產(chǎn)權(quán)保護(hù)且質(zhì)量穩(wěn)定可靠的信息(如電子圖書、電子期刊、電子報(bào)紙、文獻(xiàn)數(shù)據(jù)庫等),半正式出版信息指受到一定產(chǎn)權(quán)保護(hù)但沒有納入正式出版信息系統(tǒng)中的信息(如內(nèi)部研究報(bào)告等),非正式出版信息則是指流動(dòng)性強(qiáng)、信息量大且質(zhì)量難以保證的動(dòng)態(tài)信息(如電子郵件、論壇信息等)[12]。由于軍事醫(yī)學(xué)的特殊性,網(wǎng)絡(luò)上可獲取的有價(jià)值的軍事醫(yī)學(xué)學(xué)術(shù)信息資源以正式出版信息與半正式出版信息為主,其主要來源為政府、研究機(jī)構(gòu)、大學(xué)、公司企業(yè)與非營利性社會組織等。
確定軍事醫(yī)學(xué)信息資源的采集范圍為政府、研究機(jī)構(gòu)、大學(xué)、公司企業(yè)與非營利性社會組織發(fā)布的正式出版信息與半正式出版信息。作為測試,本文采集了以下幾類網(wǎng)站:國家衛(wèi)計(jì)委等衛(wèi)生事業(yè)管理單位網(wǎng)站,中國科學(xué)院等研究中心網(wǎng)站或?qū)n}網(wǎng)站,“生物谷”等專業(yè)性綜合網(wǎng)站,維普等中文期刊網(wǎng)站,陸軍軍醫(yī)大學(xué)等大學(xué)網(wǎng)站。
資源采集策略采取專題收集(即針對某一主題進(jìn)行信息收集)與選擇性收集(即結(jié)合需求特點(diǎn)有選擇地收集和保存網(wǎng)絡(luò)信息資源)相結(jié)合的方式。在鑒選策略方面,本文采取兩步走的策略:先結(jié)合發(fā)布機(jī)構(gòu)類別、信息源類型、信息發(fā)布方式、發(fā)布者等因素對軍事醫(yī)學(xué)信息源進(jìn)行初步鑒別,再根據(jù)軍事醫(yī)學(xué)詞匯的詞頻統(tǒng)計(jì)進(jìn)行信息篩選。
為提升信息采集效率,本文根據(jù)具體信息源的實(shí)際情況進(jìn)一步確定了信息自動(dòng)采集的范圍、采集深度以及采集頻率等。如軍醫(yī)大學(xué)網(wǎng)站根據(jù)需要主要采集新聞動(dòng)態(tài)、專家學(xué)者以及出版刊物等信息,期刊信息采集包含期刊題錄、摘要信息及全文。采集深度一般最多采集至三級欄目。
除對軍事醫(yī)學(xué)相關(guān)的信息源進(jìn)行篩選外,還需對具體的軍事醫(yī)學(xué)信息進(jìn)行甄別與鑒選。詞頻位置加權(quán)相關(guān)度排序算法作為一種比較經(jīng)典的方法,早已用于信息提取、自動(dòng)分類、自動(dòng)標(biāo)引等智能信息處理領(lǐng)域[13-14]。本文在前期研究的基礎(chǔ)上[15],確立了通過軍事醫(yī)學(xué)信息自動(dòng)識別輔助詞表實(shí)現(xiàn)軍事醫(yī)學(xué)信息識別,并結(jié)合詞匯類別、出現(xiàn)頻次、出現(xiàn)位置等因素制定信息篩選的研究路線。
2.2.1 軍事醫(yī)學(xué)信息的自動(dòng)識別
要實(shí)現(xiàn)軍事醫(yī)學(xué)信息的自動(dòng)識別,首先要讓計(jì)算機(jī)識別出屬于軍事醫(yī)學(xué)范疇的信息內(nèi)容,可以通過構(gòu)建軍事醫(yī)學(xué)信息自動(dòng)識別輔助詞表并結(jié)合編程幫助計(jì)算機(jī)實(shí)現(xiàn)。
筆者經(jīng)文獻(xiàn)調(diào)研后發(fā)現(xiàn)可供參考的相關(guān)詞表有《漢語主題詞表》(1991)、《軍用醫(yī)學(xué)主題詞表》(1993)、《軍用后勤主題詞》(1992)、《軍用主題詞表》(1990)、《中國圖書館分類法》(2010年第五版)、《醫(yī)學(xué)主題詞表》(年度更新,2017)、《中國人民解放軍軍語全書》(2011)、《中國大百科全書·軍事分冊》(2007年第二版)、《中華醫(yī)學(xué)百科全書·軍隊(duì)衛(wèi)生學(xué)分冊》(軍事與特種醫(yī)學(xué))(2017)。
經(jīng)詞表分析及文獻(xiàn)調(diào)研發(fā)現(xiàn),近20年為我國科學(xué)技術(shù)研究的調(diào)整發(fā)展期,軍事醫(yī)學(xué)類的大量科技新詞也在此期間出現(xiàn),如《中國大百科全書·軍事分冊》在2007年再版時(shí)新增條目數(shù)超過60%。結(jié)合詞表的類目設(shè)置以及收詞情況,前4種由于出版時(shí)間較早,新詞覆蓋率較低,最終選擇后5種作為重要參考工具。通過對上述5部詞表收錄詞匯的分析與歸納,本文將擬用于軍事醫(yī)學(xué)信息自動(dòng)識別輔助詞表構(gòu)建的可用詞分為核心詞、學(xué)科相關(guān)詞、關(guān)聯(lián)相關(guān)詞以及潛在相關(guān)詞四大類。
核心詞即直接反映軍事醫(yī)學(xué)研究內(nèi)容與特色的詞匯。以MeSH的軍事醫(yī)學(xué)類主題詞以及《中華醫(yī)學(xué)百科全書·軍隊(duì)衛(wèi)生學(xué)分冊》部分收錄詞為主,如“軍事醫(yī)學(xué)”“槍擊傷”“戰(zhàn)創(chuàng)傷”“軍隊(duì)衛(wèi)生”“海軍醫(yī)學(xué)”“軍事心理”“軍事精神病”“軍事護(hù)理”“軍事毒物”等。如王正國的顱腦戰(zhàn)創(chuàng)傷研究、王松俊的高技術(shù)局部戰(zhàn)爭與軍事醫(yī)學(xué)以及《科技日報(bào)》的34℃體溫可為戰(zhàn)創(chuàng)傷休克搶救贏得時(shí)間。
學(xué)科相關(guān)詞即不直接反映軍事醫(yī)學(xué)內(nèi)容但在分類體系上與軍事醫(yī)學(xué)學(xué)科相近或內(nèi)容密切相關(guān)的詞匯。以《中圖法》第五版中與軍事醫(yī)學(xué)密切相關(guān)的其他學(xué)科詞,如R81放射醫(yī)學(xué)、R83航海醫(yī)學(xué)、R84潛水醫(yī)學(xué)、R85航空航天醫(yī)學(xué)的部分類目以及MESH詞表中急救醫(yī)學(xué)相關(guān)類目,如“急救”“自救互救”“高原病”“輻射損傷”“航空航天病理學(xué)”“航海衛(wèi)生”“爆震傷”“神經(jīng)毒素”“救援作業(yè)”等。文獻(xiàn)實(shí)例如美國國家輻射防護(hù)和測量委員會第176號報(bào)告中的納米技術(shù)的輻射安全問題等。
關(guān)聯(lián)相關(guān)詞即在特定語境中與軍事詞匯組合從而反映部隊(duì)常見疾病等軍事醫(yī)學(xué)內(nèi)容的相對高頻的普通醫(yī)學(xué)詞匯,如“截肢術(shù)”“痢疾”“創(chuàng)傷”“損傷”等。在文本分析過程中,關(guān)聯(lián)相關(guān)詞的利用需要將這些相對高頻的普通醫(yī)學(xué)術(shù)語與軍事類術(shù)語結(jié)合以達(dá)到內(nèi)容自動(dòng)鑒別的目的。軍事詞匯術(shù)語主要選自《中國大百科全書·軍事分冊》(2007)及《中國人民解放軍軍語全書》(2011),如“軍事訓(xùn)練”“陸軍”“加農(nóng)炮”等。根據(jù)收錄詞匯性質(zhì)具體分為以下幾種組合形式:普通醫(yī)學(xué)術(shù)語+軍事人員對象(如軍人手外傷現(xiàn)場救護(hù)與后送的常見失誤及對策),普通醫(yī)學(xué)術(shù)語+軍事環(huán)境(如野戰(zhàn)條件下軟組織傷、燒傷及手創(chuàng)傷的處理),普通醫(yī)學(xué)術(shù)語+軍事用途(如遙控醫(yī)學(xué)用于醫(yī)療和戰(zhàn)傷救護(hù)),普通醫(yī)學(xué)術(shù)語+軍事裝備(如152mm加農(nóng)炮對聽器損傷的調(diào)查),普通醫(yī)學(xué)術(shù)語+軍事醫(yī)學(xué)單位(如法軍第二外籍傘兵團(tuán)的衛(wèi)生后送),普通醫(yī)學(xué)術(shù)語+軍事醫(yī)學(xué)專家(如王正國要警惕沖擊傷傷員遲發(fā)性損傷)。
潛在相關(guān)詞即可能對軍事醫(yī)學(xué)產(chǎn)生重要影響的其他學(xué)科術(shù)詞匯。這類詞主要選自《中國人民解放軍軍語》(2011)以及《中國大百科全書·軍事分冊》(2007),并結(jié)合樣本文獻(xiàn)的關(guān)鍵詞分析而選出。如“納米”“抗重力服”“海水淡化”“苦咸水淡化”“坑道給水”“艦艇給水”等及姜海波等的偏遠(yuǎn)島礁就地供水保障模式分析。
2.2.2 軍事醫(yī)學(xué)信息的鑒選規(guī)則
對初步采集回來的信息進(jìn)行分詞處理后,需進(jìn)一步實(shí)現(xiàn)其相關(guān)度的排序,并以其相關(guān)度值的大小實(shí)現(xiàn)軍事醫(yī)學(xué)信息的鑒選與分級處理。受盧恩的自動(dòng)標(biāo)引思想[16]以及搜索引擎檢索結(jié)果排序算法[14]的啟發(fā),本文采用詞頻位置相關(guān)度算法實(shí)現(xiàn),即根據(jù)網(wǎng)絡(luò)軍事醫(yī)學(xué)信息資源的特點(diǎn),結(jié)合其詞匯類別、出現(xiàn)頻次、出現(xiàn)位置、載體性質(zhì)、文獻(xiàn)類型等因素,分別賦予其不同的權(quán)值,并根據(jù)計(jì)算匯總得到每篇文獻(xiàn)的相關(guān)度值,再將其分為強(qiáng)相關(guān)、相關(guān)、弱相關(guān)以及潛在相關(guān)4個(gè)級別。
為驗(yàn)證方案的可行性,我們于2018年4-8月利用自主開發(fā)的網(wǎng)絡(luò)信息抓取工具對以上所述的我國重要的衛(wèi)生事業(yè)管理單位、研究中心、專業(yè)性綜合網(wǎng)站、中文期刊網(wǎng)站及部分大學(xué)網(wǎng)站分別進(jìn)行了信息采集。
在維普中文科技期刊庫中采集所有期刊論文的題錄信息,在其他網(wǎng)站內(nèi)采集新聞動(dòng)態(tài)信息,最終篩選出軍事醫(yī)學(xué)類期刊論文文獻(xiàn)3 633篇,新聞動(dòng)態(tài)信息3 029條(圖1)。
圖1軍事醫(yī)學(xué)期刊論文抓取結(jié)果頁面
以中科院張華平博士開發(fā)的NLPIR漢語分詞系統(tǒng)為基礎(chǔ)的信息分析工具,利用本文自建的軍事醫(yī)學(xué)信息自動(dòng)識別輔助詞表作為自建詞表,實(shí)現(xiàn)對采集結(jié)果的進(jìn)一步甄別、篩選及相關(guān)詞。表1展示了期刊與新聞信息中提取到的軍事醫(yī)學(xué)相關(guān)詞部分實(shí)例結(jié)果。為便于分析,在自建詞表中,采用不同的標(biāo)記符號對類別進(jìn)一步細(xì)分,將其中的各類名詞分別標(biāo)識如下:軍事醫(yī)學(xué)類-nmm,軍事醫(yī)學(xué)單位-nmd,軍事醫(yī)學(xué)人員-nmp,普通醫(yī)學(xué)詞匯-nme,軍事詞匯-nmi,潛在相關(guān)詞匯-nmc。其中軍事醫(yī)學(xué)詞匯根據(jù)需要可進(jìn)一步細(xì)分為軍事人員對象-nmip,軍事環(huán)境-nmis,軍事用途-nmit,軍事裝備-nmie。圖2為某單篇文獻(xiàn)中軍事醫(yī)學(xué)相關(guān)詞的自動(dòng)提取結(jié)果示例。
交叉學(xué)科因其界域模糊而使信息資源的搜集工作非常棘手。采集結(jié)果說明,通過軍事醫(yī)學(xué)信息自動(dòng)識別輔助詞表實(shí)現(xiàn)網(wǎng)絡(luò)軍事醫(yī)學(xué)信息的自動(dòng)識別與篩選的研究思路是可行的。
本文在實(shí)驗(yàn)過程中也同時(shí)發(fā)現(xiàn)存在下列問題:一是由于網(wǎng)站結(jié)構(gòu)間的迥異以及采集速度的制約,使軍事醫(yī)學(xué)信息資源自動(dòng)采集策略的制定尚不能實(shí)現(xiàn)全自動(dòng)化,需一定的人工干預(yù);二是自建詞表的收詞數(shù)量以及詞長決定識別率,需要在實(shí)際操作過程中平衡(一般而言,專業(yè)文獻(xiàn)長詞的意義專指度高于短詞[17]);三是由于時(shí)間及精力因素,本文此次實(shí)驗(yàn)僅驗(yàn)證了期刊與新聞動(dòng)態(tài)類資源,未涉及學(xué)位論文、研究報(bào)告等。
表1 系統(tǒng)文獻(xiàn)篩選及相關(guān)詞提取實(shí)例
圖2 某單篇文獻(xiàn)中軍事醫(yī)學(xué)相關(guān)詞自動(dòng)提取結(jié)果