盧章平 邵澍赟
(江蘇大學科技信息研究所 鎮(zhèn)江 212013)
隨著信息技術的迅猛發(fā)展和數字化浪潮的不斷推進,計算機與網絡技術應用逐漸深入,本體特有的語義關聯(lián)和知識聚合能力在信息資源組織與管理中展現出極大優(yōu)勢,一些學者試圖在學位論文本體構建的基礎上展開內容分析[1],但具體操作方法還在研究之中。本文以中美賽珍珠主題碩博士學位論文為例,通過建立匹配的本體模型,創(chuàng)新性地將學位論文的文獻外部特征與研究對象、研究方向等內容特征放在一個整體中描述,通過中美兩國語種本體庫的構建實現比較過程中內容知識的對應,利用可視化圖譜直觀呈現兩國文獻概況,有效實現知識挖掘,迅速獲取比較結果。本體庫支持重復調用,相較于傳統(tǒng)的文獻計量方法,不僅操作過程更加方便易行,深層次的知識挖掘還能增強比較結果的全面性和深度。
本研究選擇CNKI中國知網碩博士學位論文全文數據庫和PQDD學位論文數據庫作為中美賽珍珠主題碩博學位論文主要的數據來源,同時利用中國學位論文全文數據庫(CDDB)結合谷歌學術等開源的學術文獻搜索引擎檢索補充。考慮到數字資源的延時性,將檢索時間限定至2015年。檢索詞選擇賽珍珠及其英文名Pearl S. Buck 或Pearl Buck,檢索項選擇主題、題名、關鍵詞、摘要,數據清洗后得到密切相關中國碩博士學位論文242篇,美國碩博學位論文23篇。
在此基礎上,采用統(tǒng)計法、歸納法等方法提取文獻核心知識框架并進行科學整理,借助領域專家的知識和經驗判斷評估并確定了規(guī)范化的本體概念定義,設計了本體庫對應的類及類目間層次關系、類的屬性。
以國內賽珍珠研究碩博學位論文文獻為基礎,提出構建一個由學位論文基本信息本體、學位論文研究對象本體、學位論文研究方向本體三部分組成的具體的中國賽珍珠碩博學位論文本體庫?;拘畔⒈倔w集中展示作者、機構等文獻外部特征信息,研究對象和研究方向本體則主要揭示內容層面的學位論文具體研究對象信息和研究方向信息。
參考已有的學位論文元數據標準[2-4],在學位論文基本信息本體中定義題名、作者、學校、專業(yè)、學位、導師、主題、日期、關聯(lián)文獻、語種、資源標識、資源格式、館藏信息類,關系屬性寫作(write)與被寫作(be written by)、指 導(direct)與被 指 導(be directed by)、 引用(quote)、獲得(receive)、來自(from)、時間(time)。其中時間(time)屬性包含兩個子屬性,發(fā)表時間和授予時間。題名和日期通過發(fā)表時間相關,學校和日期通過授予時間相關,專業(yè)與作者、學校通過來自相關,與學位通過獲得相關。筆者在《基于內容的學位論文本體庫構建研究——以賽珍珠〈大地三部曲〉專題研究學位論文為例》[5]一文中詳細列出了具體設計原則及設計過程。
中國賽珍珠主題碩博學位論文的研究對象涉及賽珍珠創(chuàng)作的一系列作品,利用文獻調查與內容分析,結合專家咨詢法等對研究對象進行分類,發(fā)現文獻研究對象主要包括兩部分:賽珍珠本人創(chuàng)作的小說《大地三部曲》、《東風西風》、《群芳亭》等及賽珍珠翻譯的中國古典小說《水滸傳》。相關碩博學位論文文獻對其小說的研究大多集中在作品本身,而對賽譯《水滸傳》的研究則多從翻譯語句角度切入,因此,為明晰結構,將中國賽珍珠研究碩博學位論文研究對象本體的構建分原著與譯著兩部分設計。
賽珍珠原著作品多為歷史類小說,因此參考歷史領域本體,定義原著研究對象本體人物、事件、時間、地點四個基本類。添加各類數據屬性,如人物類數據屬性姓名、性別、職業(yè)、籍貫等。利用自定義的關系屬性相關人物(Related characters)、發(fā)生時間(at Time)、發(fā)生地(in Place)、參與事件(Participate in)進行類間關聯(lián)。
采用綜合法,選取兩端同時構建的方式,首先確定宏觀上的頂層概念,再從相關碩博士學位論文文獻中提取關鍵詞并歸納細化,最終確定譯著《水滸傳》研究對象的本體類目結構,如圖1所示。
圖1 譯著《水滸傳》概念類目結構
相關文獻對賽譯《水滸傳》的研究內容集中在語言表達層面,研究對象主要涉及詞匯語句,因此設置“書名”、“詞匯”、“語句”和“片段”四主類。其中詞匯類包含人物綽號、社會稱謂、俗語和成語四個二級子類,語句類包含章節(jié)標題、人物對話、旁白語和詩詞句四個子類。設置關系屬性組成(compose)與被組成(be composed of),對詞匯、語句和片段三類實現關聯(lián)。同時設置詞匯的數據屬性“結構”(詞語結構可分為單純詞、合成詞等)和“詞性”。
對選擇的學位論文文獻進行知識分析和抽象,在領域專家的幫助下進行了中國賽珍珠主題碩博學位論文研究方向本體設計。依據權威優(yōu)先和少數服從多數原則協(xié)調確定知識節(jié)點,并且在構建過程中對概念層次劃分進行動態(tài)修正與補充,最終確定研究方向面向原著小說和賽譯《水滸傳》兩部分。其中原著小說研究方向包括人物形象、中國文化、外國文化、比較研究、寫作風格5大類及14個子類。
圖2 原著研究方向本體概念層次
圖2 為原著研究方向本體概念層次結構。同時定義關系屬性:描述(describe),被描述(be described by),展示(show),被展示(be showed by),關聯(lián)(related)。描述(describe),逆屬性為被描述(be described by),用于寫作風格與人物形象、中國文化、外國文化之間。展示(show),逆屬性為被展示(be showed by),用于人物形象與中國文化、外國文化之間。關聯(lián)(related),表示兩者間具有相關關系,用于比較研究與寫作風格之間。
關于賽譯《水滸傳》的研究方向,主要確定為翻譯策略和翻譯理論兩大類。部分文獻從文化闡釋角度出發(fā),討論賽譯《水滸傳》中體現的具體文化內涵、文化沖突和創(chuàng)作意象,也有從多版本《水滸傳》譯作出發(fā),進行譯者個人及語言特色上的比較。為避免重復劃分,將其與原著研究方向合并,劃入版本對比與文化異同子類。
為保證比較結果呈現的規(guī)范化和直觀性,將美國專題學位論文本體庫的構建同樣分為學位論文基本信息本體(Dissertation Literature Information)、學位論文研究對象本體(Dissertation Research Object)和學位論文研究方向本體(Dissertation Research Direction)三部分。
美國學位論文基本信息本體的類和屬性同樣在已有的學位論文元數據方案基礎上進行設計,由于美國高校擁有各自的學位論文數據庫,設置的論文基本著錄項也不盡相同,目前尚未有針對學位論文統(tǒng)一的元數據標準。應用較廣泛的電子學位論文元數據標準有ETD-MS (an Interoperability Metadata Standard for Electronic Theses and Dissertations),《電子博碩士學位論文互操作性元數據》)、DC Simple等[6-7],其中DC元數據使用最為廣泛。ETD-MS作為由美國發(fā)起的NDLTD(《基于網絡的博碩士學位論文數字圖書館》)項目元數據,對于DC的元素和限定詞進行了完全復用,僅增加了針對學位論文本身特點的“degree”學位項。因此,本文美國賽珍珠主題碩博學位論文基本信息庫以DC元數據標準為基礎,參考主要文獻來源PQDD學位論文數據庫著錄項,同時選擇圖情學科世界排名第一的伊利諾伊大學香檳分校情報學院(School of Information Sciences at Illinois)學位論文數據庫展開調研,最終制定了美國學位論文基本信息本體的類及相關屬性。表1為DC元數據標準、PQDD學位論文數據庫、伊利諾伊大學香檳分校情報學院學位論文數據庫元數據元素項和美國賽珍珠主題碩博學位論文基本信息本體類的對應。
表1 三類元數據項與美國學位論文基本信息本體類對應
考慮到中美學位論文基本信息庫的相似性和后續(xù)中美比較的一致性,在美國學位論文基本信息本體類設計時,與中國本體庫進行了對應并盡量保持了統(tǒng)一。定義十個大類,包括Title題名、Creator作者、School學校、Major專業(yè)、Degree學位、Contributor導師、Subject主題、Date日期、Relation關聯(lián)文獻、Language語種。設置Contributor(導師)的數據屬性Name、Institution,Subject(主題)的數據屬性 Abstract、keywords,Relation(參考文獻)的數據屬性Author、title、Source,復用中國對應本體關系屬性寫作(write)與被寫作(be written by),指導(direct)與被指導(be directed by),引用(quote),獲得(receive),來自(from),時間(time)。
以共計23篇美國賽珍珠主題碩博學位論文為基本語料,借助詞頻統(tǒng)計,對詞頻列表排名前二十位的高頻詞進行觀察,發(fā)現美國的賽珍珠主題碩博學位論文研究對象主要涉及作品與個人兩部分,且彼此具有互斥關系,因此抽取基礎概念原著作品與個人經歷,并逐步擴展概念集合。
將美國賽珍珠主題碩博學位論文研究對象主要分為原著作品與個人經歷兩大類別,其中原著類復用中國原著研究對象本體子類及屬性設計,設置子類 Personage,Event,Annals,Place,關系屬性at Time,in Place,Participate in等。
通過文獻調研及專家訪談,發(fā)現賽珍珠個人經歷具有鮮明的階段性特征。結合其人生經歷,進一步對美國賽珍珠主題碩博學位論文文獻進行內容提取,發(fā)現相關文獻研究對象覆蓋賽珍珠個人生平各個時期,且呈現出階段性分布特征,因此以時間為軸,在個人經歷類下設Childhood,Youth,Middle age和Old age四個子類,根據時間段的連貫性和傳遞性,定義關系屬性“affect”,將 Childhood與 Youth、Youth與 Middle age、Middle age與Old age類進行單向關聯(lián)。圖3為美國學位論文研究對象本體概念模型,其中East Wind,West Wind,My Several Worlds,Pavilion of women,The good earth等為文獻涉及的具體原著研究對象。
圖3 美國學位論文研究對象本體概念模型
美國賽珍珠主題碩博學位論文研究方向本體中概念的抽取主要來源為題名、關鍵詞、文檔大小標題以及文獻內容中出現頻率較高的詞條,在領域專家?guī)椭?,考慮復用性,確定了Chinese culture,Cultural identity,Social influence,Comparative study,Characters in the work和Writing traits六 個 類。其中 Chinese culture、Comparative study、Characters in the work和Writing traits類分別與中國賽珍珠主題碩博學位論文研究方向本體中的中國文化、比較研究、人物形象和寫作風格類相對應。圖4為美國學位論文研究方向概念分類及部分實例。
圖4 美國賽珍珠主題碩博學位論文研究方向概念分類及部分實例
確定關系屬性describe,be described by,affect,be affected by,show,be showed by,related。其中Cultural identity類與Social inf l uence,Charactersin the work和Writing traits類通過互逆屬性affect、be affected by相關聯(lián),Characters in the work和Writing traits類通過describe、be described by屬 性 關 聯(lián),Chinese culture和Characters in the work通過show、be showed by,Comparative study和Writing traits通過related相關聯(lián)。
Protégé軟件面向對象語言Java,數據庫功能強大,為資源組織與知識查詢提供了便利。本次本體構建采用的軟件工具為Protégé5.0版本。利用Protégé建模,將學位論文基本信息本體、學位論文研究對象本體、學位論文研究方向本體三者通過關系屬性“研究對象(Research Object)”、“研究方向(Research Direction)”進行知識關聯(lián),分別得到中國和美國的賽珍珠主題碩博學位論文本體庫模型,如圖5、圖6。
圖5 中國賽珍珠主題碩博學位論文本體庫模型
圖6 美國賽珍珠主題碩博學位論文本體庫模型
將從中美碩博學位論文文獻中提取并經過領域專家規(guī)范后的基礎實例元數據添加至兩國賽珍珠主題碩博學位論文本體庫。圖7為實例輸入界面。由于本文涉及到的具體實例較多,因此設計相關程序語言來完成實例的批量導入。以“類名###實例名”格式將規(guī)范化的實例存儲于TXT文檔中,啟動run.bat windows批處理文件,完成按類別的批量導入操作。
圖7 實例輸入界面
利用構建完成的中美碩博學位論文本體庫,可以對賽珍珠主題中美碩博士學位論文的時間分布、機構分布、學科專業(yè)分布等外部文獻信息進行全景式的呈現和具象比較,也能對研究對象及熱點研究方向等內容信息展開全面的橫向和縱向分析,使用本體可視化知識圖譜結合本體的推理與知識發(fā)現功能呈現比較結果。這里以外部文獻信息中時間分布和研究內容《大地三部曲》為例做具體說明。
學位論文發(fā)表時間作為學位論文文獻的外部特征,屬于學位論文基本信息,對照學位論文基本信息本體中類的設定,在本體庫可視化界面檢索“日期”和“Date”,可完成對兩國賽珍珠主題碩博學位論文時間分布的全景比較。發(fā)現美國以賽珍珠為研究主題的學位論文最早可追溯至1993年,領先中國近十年,但時間分布密度小于中國,后勁不足,近五年內發(fā)文寥寥;中國碩博士賽珍珠研究雖然開始的時間較晚,但時間分布較為密集,學術連貫性強。
在年代分布全景的基礎上進一步拓展延伸,將“時間(time)”屬性關聯(lián)至具體研究篇目,形成中美賽珍珠主題碩博學位論文年代與題名關聯(lián)具象圖譜(圖8)。結合本體的推理與知識發(fā)現功能,可以查詢到不同年份具體的論文數量,即在本體庫中與相應年份關聯(lián)的題名實例數量(圖9),統(tǒng)計后得到中美賽珍珠主題碩博士學位論文具體時間分布。發(fā)現中國自1999年開始,每年都有相關研究論文選題,且數量總體呈增長趨勢,其中發(fā)文量最多的為2012年,年發(fā)文量達到30篇。美國發(fā)文量最多的年份包括1993、1997、1999、2003四個年份,年度發(fā)文量均為3篇,僅占中國年發(fā)文量最多年份的十分之一,學位論文總數遠少于中國,呈現不規(guī)律分布。
圖8 中國學位論文年份與具體篇目
圖9 美國學位論文年份與具體篇目
圖10 本體庫中與年份關聯(lián)的題名實例數查詢(示例:2004年)
學位論文研究對象信息作為本庫的特有信息進行形式化存儲,通過基于學位論文研究對象本體的檢索,可以查詢到目前兩國賽珍珠主題碩博學位論文研究對象分布全景,本節(jié)選取賽珍珠諾貝爾文學獎獲獎作品《大地三部曲》展開具象比較。圖11、圖12呈現本體知識發(fā)現后中美兩國《大地三部曲》相關學位論文具體研究對象圖譜??梢钥吹剑瑖鴥任墨I涉及到的具體研究對象覆蓋面更廣,總數更多,包含事件類實例52個,地點類實例11個,時間類實例14個,覆蓋主要人物王龍一家祖孫三代人物形象,還涉及到對王家旁支親戚愛蘭、王孟等人的描寫,對于作品中出現的次要人物形象,如外國修女、中國老頭等也有所涉及。而美國研究對象相對集中,涉及到的事件、人物關系較為簡單。人物研究僅針對作品主人公一家,明確提及的地點實例僅有Southern city、homeland兩個??偨Y歸納后發(fā)現兩國出現部分研究對象的重疊,美國研究涉及到的人物對象在中國均有涉及,且兩國對事件阿蘭之死、買賣土地等都進行了重點探討,與中國橫跨祖孫三代的研究不同,美國的研究事件雖然集中在父輩一代,但出現了阿蘭處理兒子對父親小妾蓮花的感情,王龍應小妾要求在宅子里另建爐灶等事件的研究,這在中國相關研究對象中并無提及。
圖11 中國《大地三部曲》研究對象具象圖譜
圖12 美國《大地三部曲》研究對象具象圖譜
在中美賽珍珠主題碩博學位論文本體庫中,研究方向本體與研究對象信息通過關系屬性“研究對象”相關聯(lián),通過對某一研究對象的關聯(lián)檢索,可以獲得與該研究對象下屬具體實例相關的研究方向信息,從而實現對兩國同一研究對象具體研究方向異同的比較。完成全部對應查詢后,得到中美《大地三部曲》具體研究方向圖譜(圖13、圖 14)。
圖13 中國《大地三部曲》具體研究方向圖譜
圖14 美國《大地三部曲》具體研究方向圖譜
中國以《大地三部曲》內容為研究對象的研究方向覆蓋人物形象、中國文化、外國文化、比較研究、寫作風格、翻譯理論、翻譯策略七大類。美國相關的研究方向在數量上遠不及中國,但中國文化、人物形象、寫作特點、比較研究、社會影響、文化身份六大類均有囊括。分布比例上來看,人物形象和中國文化相關研究方向在兩國均占主流,但中國的碩博士生還將研究的重點放在對寫作風格的探索上,而美國則創(chuàng)新地將《大地三部曲》與賽珍珠社會影響和文化身份聯(lián)系起來作探討。
本文設計構建了針對中美兩國賽珍珠主題的碩博學位論文本體庫,從理論層面提出了本體庫的總體架構和構建流程,在實踐層面使用Protégé進行本體庫建模和實例填充,并在此基礎上開展了以外部文獻信息中時間分布和研究內容《大地三部曲》為示例的比較研究,分析得到在中美賽珍珠主題碩博學位論文的時間分布上美國起步較早,但發(fā)展緩慢,后勁不足;中國雖然早期文獻產量低,但上升速度快,文獻產量高,后來居上?!洞蟮厝壳肥莾蓢餐P注的核心研究對象,相比而言,中國學位論文研究的人物、事件更多,時間的跨度更長,而美國論文選擇的研究對象和涉及到的人物關系相對集中。研究方向上兩國有同有異,對人物形象和中國文化的研究是兩國共同的主流。
本研究將本體的知識表示功能和關聯(lián)推理機制有效應用到學位論文文獻知識組織和管理中,一方面有助于文獻比較過程中知識的梳理和信息的自動挖掘,另一方面,可視化圖譜使不同國別學位文獻的概況更直觀形象的展現,比較結果更為清晰明朗。借助本體工具實現文獻資料的數字化與可視化,有效地節(jié)省了文獻計量比較研究中花費的人力和物力,也是創(chuàng)新文獻計量學研究方法的一次嘗試。