摘要: 學(xué)位論文的管理及再利用是各高??焖侔l(fā)展中面臨的問題之一,但卻常常被忽視。如何有效地管理和利用已有的學(xué)位論文成果開展學(xué)術(shù)研究工作,是目前迫切需要解決的問題。本文從山西師范大學(xué)學(xué)位論文管理的實際出發(fā),指出論文管理存在的不足,并提出積極、有效的策略和建議, 最后提出一種相關(guān)度檢索排序算法,并應(yīng)用于山西師范大學(xué)學(xué)位論文檢索系統(tǒng)。相信隨著策略和建議的采納,該校的學(xué)位論文工作必將得到完善并取得進一步的發(fā)展。
關(guān)鍵詞: 圖書館學(xué)位論文管理再利用
1.學(xué)位論文管理和再利用的重要性
1.1學(xué)位論文的學(xué)術(shù)性質(zhì)和學(xué)術(shù)價值決定了學(xué)位論文管理和再利用的必要性
學(xué)位論文通常指博士或碩士研究生為了獲取學(xué)位資格,向?qū)W?;蚱渌鼘W(xué)術(shù)機構(gòu)提交的學(xué)術(shù)研究論文。它是學(xué)位申請者在導(dǎo)師指導(dǎo)下進行的科學(xué)研究的總結(jié),是具有一定獨創(chuàng)性的一次文獻。論文的選題一般都是結(jié)合導(dǎo)師的科研項目,所探討的問題相對專一,對問題的闡述詳細(xì)、系統(tǒng)且不乏新穎的學(xué)術(shù)思想和獨到的見解,在一定程度上涉及本專業(yè)的前沿領(lǐng)域和重要問題。因此,學(xué)位論文與普通科研論文相比,具有文獻分析面廣、數(shù)據(jù)與圖表量大、理論分析充分且深刻、參考文獻大等特點?;谝陨显颍瑢W(xué)位論文具有很強的參考價值,是進行學(xué)術(shù)研究等工作必不可少的文獻資源[1][2]。
根據(jù)檔案法和有關(guān)規(guī)定,教育部和國家檔案局制定了《高等學(xué)校檔案管理辦法》,已經(jīng)公布并自2008年9月1日起施行。高等學(xué)校應(yīng)當(dāng)對紙質(zhì)檔案材料和電子檔案材料同步歸檔。其中教學(xué)類文件材料的歸檔按原國家教委、國家檔案局發(fā)布的《高等學(xué)校教學(xué)文件材料歸檔范圍》的相關(guān)規(guī)定執(zhí)行。在《高等學(xué)校教學(xué)文件材料歸檔范圍》中,第十條為優(yōu)秀的、典型的畢業(yè)論文、畢業(yè)設(shè)計及評審意見。第十一條為研究生及碩士、博士學(xué)位獲得者的名冊、學(xué)位論文及有關(guān)審批文件。因此,電子檔案材料的歸檔是必須的。
1.2山西師范大學(xué)的快速發(fā)展要求學(xué)位論文管理和再利用的進一步完善
山西師范大學(xué)創(chuàng)建于1958年,前身是晉南師范專科學(xué)校,1964年升格為山西師范學(xué)院本科院校,1984年更名為山西師范大學(xué),1999年山西省職業(yè)師范??茖W(xué)校和山西師范大學(xué)體育學(xué)院并入,至今已經(jīng)走過了50年的風(fēng)雨歷程。
隨著該校博士點的申請成功,該校已經(jīng)具備學(xué)士、碩士、博士三個層次的學(xué)位授予資格,未來還會迎來更好、更快的發(fā)展。學(xué)生人數(shù)的增加,學(xué)科的發(fā)展必然要求學(xué)位論文管理和再利用的進一步完善。
2.校圖書館學(xué)位論文的收藏、管理現(xiàn)狀及存在問題
山西師范大學(xué)學(xué)位論文管理存在以下不足:
第一,校逸夫圖書樓310室是博碩論文庫,從中可以獲取紙質(zhì)版和電子版的碩士論文資料。其中電子版的碩士論文是從1994年至今的,并且大部分為Word格式。而歷年的學(xué)士論文資料只能從各學(xué)院獲得。
第二,學(xué)位論文的Word格式存放不僅占用內(nèi)存空間大,并且安全性差。
第三,該校要求碩士畢業(yè)生在離校前必須將紙質(zhì)版和電子版的學(xué)位論文直接提交給校研究生處存檔。其中電子版的論文資料采用文件夾嵌套形式存放和管理,由于審核力度不夠,因此提交的電子版論文在格式等方面存在一些問題。如很多學(xué)生把封面、摘要、正文等分別存放在多個Word文檔中,給電子論文的管理和電子論文的入庫帶來了很多不便。而學(xué)士論文的存放也存在同樣的問題。
第四,校圖書館自建資源中提供了一個VF開發(fā)的博碩論文摘要查詢系統(tǒng),但它只提供了簡單的論文摘要查詢功能,沒有實現(xiàn)論文全文在線閱讀、論文提交和論文下載等功能,這樣的系統(tǒng)不利于學(xué)位論文的再利用。
第五,校圖書館數(shù)字化文獻資源中提供CNKI系列數(shù)據(jù)庫(清華同方),但是CNKI中國優(yōu)秀碩士學(xué)位論文全文數(shù)據(jù)庫中沒有山西師范大學(xué)的論文資料。
第六,碩博論文庫設(shè)在逸夫圖書樓,屬于新教學(xué)樓,很多學(xué)生不了解情況,此閱覽室參閱人員相對較少,因此,本校學(xué)位論文的再利用率非常低。
3.加強學(xué)位論文管理和再利用的措施和建議
3.1加強對學(xué)位論文管理的重視
具體措施如下:
第一,統(tǒng)一學(xué)位論文組織形式。在對原規(guī)范進行合理的完善和補充后,出臺一份新的、細(xì)化的論文組織形式規(guī)范文件,并具體落實到各學(xué)院。畢業(yè)生在論文答辯完成后要提交一份格式正確的學(xué)位論文電子版,并且要求相關(guān)人員審核電子版格式正確后學(xué)生方可畢業(yè)離校。
第二,pdf格式的文件占用內(nèi)存小且安全性好,排版成功后不易被修改。因此,校方應(yīng)該要求各學(xué)院相關(guān)人員進行Word格式轉(zhuǎn)pdf格式的技能學(xué)習(xí)。經(jīng)過這樣的嚴(yán)格要求,相信一兩年之后的學(xué)位論文都將以pdf格式提交,減輕圖書館工作人員的勞動量。
第三,對論文答辯為優(yōu)的學(xué)士論文進行歸檔。
第四,一些技能性要求比較強的專業(yè),如計算機專業(yè)的學(xué)生以開發(fā)軟件系統(tǒng)作為論文的支撐,除提交電子版的學(xué)位論文外,還需同步將另外兩份文檔提交。一是將所開發(fā)軟件系統(tǒng)打包后提交;其次為一份日志文檔,將系統(tǒng)使用說明做簡要介紹。
第五,圖書館采用一些措施加強宣傳,積極提倡大家利用本校學(xué)位論文資源進行學(xué)術(shù)研究和論文撰寫等工作。
第六,開發(fā)一個基于山西師范大學(xué),功能完整的學(xué)位論文檢索系統(tǒng)。
3.2基于山西師范大學(xué)的學(xué)位論文檢索系統(tǒng)
3.2.1開發(fā)檢索系統(tǒng)益處
首先,學(xué)校本科生在大三階段要選擇畢業(yè)論文指導(dǎo)老師和畢業(yè)論文題目進行學(xué)士論文的設(shè)計、開發(fā)和撰寫,很多學(xué)生在選擇導(dǎo)師和選擇論文題目時存在很多疑惑。開發(fā)一個學(xué)位論文檢索系統(tǒng)能夠讓他們很快查詢和了解相關(guān)導(dǎo)師的研究方向,盡快鎖定自己的論文方向。
其次,碩士研究生在入學(xué)后,需要和學(xué)院溝通選擇自己的導(dǎo)師并開展科研工作,但是很多人對各導(dǎo)師的研究方向及研究內(nèi)容了解不足,所以檢索系統(tǒng)的開發(fā)能夠有效解決這一問題。
最后,檢索系統(tǒng)的開發(fā)讓導(dǎo)師的指導(dǎo)作品和學(xué)生的學(xué)位論文公開化,論文的公開化是一種內(nèi)在的激勵機制,必然帶來本校學(xué)位論文質(zhì)量的顯著提高。
因此,為了實現(xiàn)該校畢業(yè)論文,特別是碩士畢業(yè)論文的再利用,設(shè)計和開發(fā)一個基于山西師范大學(xué),功能完備的學(xué)位論文檢索系統(tǒng)是非常必要的。
3.2.2檢索系統(tǒng)功能
第一,功能完整。學(xué)位論文檢索系統(tǒng)是一個集注冊登錄、論文提交、論文檢索、論文統(tǒng)計、論文評價、后臺管理為一體的系統(tǒng),其中論文檢索為核心模塊。
第二,論文提交模塊包括論文電子表單的提交和論文全文的上傳。
第三,系統(tǒng)應(yīng)該設(shè)有審核機制,相關(guān)人員可以直接進入后臺對已經(jīng)上交的論文信息進行審核。
第四,論文檢索模塊應(yīng)具備初級檢索和高級檢索功能,并具備兩種匹配方式即模糊匹配和精確匹配。
第五,學(xué)生登陸系統(tǒng)后可在線查看論文全文并免費提供全文下載功能。
第六,系統(tǒng)需收錄山西師范大學(xué)1994年至今的碩士、博士學(xué)位論文2500余篇。
第七,論文表中的字段分為:基礎(chǔ)檢索字段、排序輔助字段、審核字段、上傳字段、圖書館收錄字段,其中論文編號是主鍵,學(xué)生學(xué)號是外鍵?;A(chǔ)檢索字段還需包括作者姓名、作者單位、導(dǎo)師姓名、導(dǎo)師單位、學(xué)位級別(碩士或博士)、學(xué)位類別(全日制或教育碩士)、論文類型(應(yīng)用型或基礎(chǔ)型)、學(xué)科門類、一級學(xué)科、二級學(xué)科、學(xué)科專業(yè)備注、學(xué)位授予年度、中文題名、英文題名、中文副題名、英文副題名、中文關(guān)鍵詞、英文關(guān)鍵詞、中文摘要、英文摘要等。
3.2.3相關(guān)度檢索排序算法
深入研究高校學(xué)位論文管理中學(xué)位論文檢索算法。傳統(tǒng)的基于查詢項匹配的檢索算法存在返回信息過多,且查全率、查準(zhǔn)率不高,用戶篩選不方便等問題[4]。針對以上問題提出一種相關(guān)度檢索排序算法,已應(yīng)用于山西師范大學(xué)學(xué)位論文檢索系統(tǒng)。
采用非全文索引,即只對論文題名(caption)、關(guān)鍵詞(keywords)、摘要(abstract)建立索引,然后用Lucene中文分詞器對caption、keywords、abstract及用戶輸入的檢索詞進行分詞處理。在分詞處理的基礎(chǔ)上實現(xiàn)檢索和排序。
相關(guān)度檢索排序算法[3][4][5],主要包括三個步驟。第一步,選擇學(xué)科門類。教育部公布的十二個學(xué)科門類分別為哲學(xué)、經(jīng)濟學(xué)、法學(xué)、教育學(xué)、文學(xué)、歷史學(xué)、理學(xué)、工學(xué)、農(nóng)學(xué)、醫(yī)學(xué)、軍事學(xué)、管理學(xué),學(xué)科門類下設(shè)一級學(xué)科和二級學(xué)科。由于用戶一般會選擇相同或者相近的專業(yè)進行查詢,因此學(xué)科門類的選擇和限制能夠很好地解決“一詞多義”問題。
第二步,采用“檢索項+caption+keywords+abstract”組合查詢技術(shù),并去除重復(fù)項,得到檢索結(jié)果集。論文的關(guān)鍵詞一般為四到六個,能有效地表征論文的主題。但是由于用戶提取關(guān)鍵詞的能力參差不齊,所以關(guān)鍵詞不能很好地代表全文。本文提出“caption+keywords+abstract”組合能夠更好地代表全文,能夠很好地提高查全率。
第三步,計算相關(guān)度,并按照相關(guān)度的大小,對檢索結(jié)果集重新排序。位置因子中caption優(yōu)先級別為一,keywords優(yōu)先級別為二,abstract優(yōu)先級別為三。優(yōu)先級別相同的論文則計算檢索詞的詞頻,詞頻越高排序越靠前。本原則能夠很好地提高查準(zhǔn)率。
新算法較原算法在查全率和查準(zhǔn)率方面有較大改進,用于學(xué)位論文檢索的效果明顯,且實用性很強、易于工程實現(xiàn),基本滿足了高校學(xué)位論文檢索的需求。隨著各高校自主研發(fā)浪潮的推進,開發(fā)和使用校本系統(tǒng)必將是一種趨勢。
相信隨著學(xué)校對學(xué)位論文管理的重視和學(xué)位論文檢索系統(tǒng)的使用,該校學(xué)位論文的利用率會很快提高,并且一定會帶來學(xué)位論文質(zhì)量的顯著提高。
參考文獻:
[1]金春華.我國數(shù)字化學(xué)位論文全文數(shù)據(jù)庫建設(shè)的現(xiàn)狀與建議,http://www.studa.net.
[2]趙嘉朱.中國學(xué)位論文管理的歷史回顧與前景展望.中國社會科學(xué)院研究生院學(xué)報,2006.4.
[3]袁銘蔚.基于本體的向量空間模型的壓縮算法.計算機工程與應(yīng)用,2007.12.
[4]朱雪剛.基于語義網(wǎng)絡(luò)的教學(xué)資源搜索引擎研究[D].長春:東北師范大學(xué),2006.
[5]楊慧.個性化網(wǎng)絡(luò)信息檢索系統(tǒng)的研究和應(yīng)用.南京工業(yè)大學(xué),2005.5.