馬玉慶, 劉一翔, 張根熹, 萬宇明
(上海交通大學 電子信息與電氣工程學院, 上海 200240)
年鑒是特定年份特定區(qū)域或領(lǐng)域所發(fā)生的重要事件的記錄。年鑒的編制既是對事件的記錄與整理,也是對特定范圍內(nèi)工作的匯總總結(jié)。對管理者進一步?jīng)Q策,起到輔助支持作用。高校年鑒編制對各院系圍繞教學、科研所開展活動及所取得的成果進行分類匯總,一般有院系行政管理人員完成。由于高校教學與科研工作具備專業(yè)化、創(chuàng)新性強的特點,辦公室行政人員在進行年鑒編制時存在如下挑戰(zhàn)。
(1) 教學科研與行政管理人員由于專業(yè)隔閡原因,造成年鑒編制人員進行年鑒材料內(nèi)容篩選、分類困難。高校教學科研活動一般與所在院系專業(yè)相關(guān)程度高,年鑒材料中涉及到大量專業(yè)相關(guān)學術(shù)內(nèi)容,年鑒編寫行政人員在進行內(nèi)容篩選時,較難對其成果的專業(yè)水平進行準確評價,教學與科研交叉融合進一步造成年鑒編制內(nèi)容分類甄別困難。
(2) 實驗室與行政管理分離造成年鑒編制內(nèi)容收集困難。高校年鑒編寫主要是對教學、科研基層組織,例如實驗室或授課教師重要活動或成果的記錄。由于實驗室科研以及教學管理活動與行政管理常常是部門分離的,并且,教師和實驗室科研人員在年鑒材料收集方面積極性偏低,因此通過人工方式進行年鑒材料收集是一個耗費人力時間的過程。
針對不同類型年鑒編寫,相關(guān)學者分別圍繞方法創(chuàng)新、制度建設(shè)等方面展開研究。羅潔瓊等[1]認為年鑒條目是年鑒編寫的關(guān)鍵部分,提出可以從年鑒條目材料收集的覆蓋性、年鑒條目標題的準確性,以及年鑒條目內(nèi)容的質(zhì)量3個方面,提高年鑒編寫水平。孫永華等[2]從年鑒框架結(jié)構(gòu)設(shè)計出發(fā),結(jié)合區(qū)域發(fā)展中高新區(qū)現(xiàn)代工業(yè)與科技領(lǐng)域、外向型經(jīng)濟、旅游經(jīng)濟等特色,認為突出區(qū)域特色,推動創(chuàng)新編寫,是提高區(qū)域年鑒編寫水平的關(guān)鍵。針對高校年鑒編寫,羅應(yīng)梅等[3]認為完善年鑒編寫制度與流程、加強年鑒編寫人員培訓(xùn)是持續(xù)推進年鑒編寫工作健康發(fā)展的基礎(chǔ),同時認為互聯(lián)網(wǎng)和數(shù)字化技術(shù)會成為年鑒傳播的趨勢之一。
自動摘要技術(shù)是基于計算機的自然語言理解的重要內(nèi)容,在行政檔案、企業(yè)知識管理等領(lǐng)域有較多應(yīng)用。姜志祥等[4]生成式摘要方法中存在的問題,提出并設(shè)計了基于自注意力與指針網(wǎng)絡(luò)的自動摘要模型,通過基于深度學習的語義處理技術(shù),提升自動摘要算法的準確度。從年鑒詞條生成角度,由于深度學習對于訓(xùn)練數(shù)據(jù)有一定的數(shù)量要求,因此存在工程應(yīng)用的難度。章成志等[5]對書評內(nèi)容進行摘要,利用詞向量以及近鄰傳播聚類等方法構(gòu)建圖書屬性詞集,在此基礎(chǔ)上利用TextRank算法生成圖書內(nèi)容摘要[6]。該研究表明自動摘要技術(shù)可以對文本內(nèi)容進行分析,并區(qū)分文本內(nèi)容的類別,例如屬于書評內(nèi)容還是屬于書籍內(nèi)容,從而對文本內(nèi)容進行分別處理。在年鑒生成過程中,對于年鑒資料的分類是抽取年鑒詞條的依據(jù),本文在年鑒自動生成研究中借鑒了相關(guān)聚類方法的應(yīng)用。同時,由于信息化的普及,年鑒資料的來源主要來自于企業(yè)網(wǎng)站等平臺,網(wǎng)頁內(nèi)容自動抽取有較多研究與應(yīng)用,例如王雪梅等[7]利用標簽和分塊特征進行新聞網(wǎng)頁內(nèi)容抽取,以進行新聞網(wǎng)頁內(nèi)容分析。在年鑒生成方法中,利用企業(yè)網(wǎng)站內(nèi)容分析可以提高年鑒資料的收集效率。
基于以上分析,本文利用網(wǎng)頁內(nèi)容管理、圖像分類標注與文本自動摘要方法對互聯(lián)網(wǎng)內(nèi)容進行自動分析,研究行政檔案自動摘要與應(yīng)用系統(tǒng)設(shè)計。課題利用網(wǎng)絡(luò)爬蟲技術(shù)進行網(wǎng)站數(shù)據(jù)抓取,利用專家經(jīng)驗構(gòu)建領(lǐng)域詞庫與概念關(guān)系,形成內(nèi)容評價指標體系,在此基礎(chǔ)上進行分詞以及權(quán)重計算,根據(jù)權(quán)重結(jié)果判定事件的重要程度。通過原型系統(tǒng)的設(shè)計實現(xiàn)以及學院網(wǎng)站分析結(jié)果,驗證了本項目所設(shè)計方法的可用性。
高校行政年鑒條目內(nèi)容主要涵蓋年度科研、教學活動等活動中重要事件。一般地,高校年鑒由學校和院系不同級別行政管理人員協(xié)同完成。年鑒整體架構(gòu)和類目等,由學校統(tǒng)一制定,各院系在統(tǒng)一年鑒架構(gòu)的指導(dǎo)下,進行年度重要事件材料收集,以形成條目和大事記內(nèi)容[8]。
條目和大事記內(nèi)容的編寫是一個繁瑣的過程,需要對年度發(fā)生的各類事件進行整體梳理、歸類和重要性評估。為了提升年鑒條目信息收集的效率,本文以條目生成為例,研究提出基于網(wǎng)絡(luò)爬蟲的網(wǎng)站新聞內(nèi)容自動抽取與分析方法,以生成年鑒條目推薦列表,其抽取分析過程如圖1所示。
圖1 面向網(wǎng)站新聞的年鑒條目自動抽取方法
由圖1可知,年鑒條目自動抽取方法主要包括3個部分,即網(wǎng)站結(jié)構(gòu)抽取、新聞內(nèi)容抽取以及條目推薦。
網(wǎng)站結(jié)構(gòu)抽取部分,由于年鑒條目和大事記主要收集本行政單位年度發(fā)生的重要活動,因此網(wǎng)站分析目標主要是本部門的官網(wǎng)或公眾號,網(wǎng)站結(jié)構(gòu)相對固定、可根據(jù)網(wǎng)站開發(fā)文檔獲知。
新聞內(nèi)容抽取部分,則需較大的靈活性,本文主要借助自動摘要研究中較成熟的分詞工具,進行新聞內(nèi)容關(guān)鍵字的抽取。雖然從生成條目的角度,單純的關(guān)鍵字并不能完全反映條目或大事記的全部內(nèi)容,但是從新聞所反映的活動事件重要性評價角度,關(guān)鍵字是較重要的評價依據(jù)。
條目推薦部分的主要目的是通過對新聞內(nèi)容的評估,挑選出可能列為年鑒條目的新聞材料。如何進行新聞內(nèi)容重要程度評價是關(guān)鍵。本文借助領(lǐng)域知識圖譜思想,設(shè)計了關(guān)鍵詞關(guān)聯(lián)與權(quán)重指標體系,構(gòu)建結(jié)合領(lǐng)域關(guān)鍵詞層次及權(quán)重分配的內(nèi)容評價方法。
在年鑒條目的自動生成過程中,除了內(nèi)容自動摘要外,從年鑒角度對新聞內(nèi)容進行重要性評估是條目自動生成的關(guān)鍵。在新聞內(nèi)容重要性評估方面,領(lǐng)域?qū)I(yè)人員一般需要將先驗知識與后驗統(tǒng)計結(jié)果兩方面相融合。因此,本文借鑒知識圖譜概念,設(shè)計了領(lǐng)域關(guān)鍵詞權(quán)重指標體系,將領(lǐng)域?qū)I(yè)知識與關(guān)鍵詞統(tǒng)計結(jié)果相結(jié)合,計算所分析新聞的活動重要程度,以判斷是否列入條目推薦列表。
關(guān)鍵詞權(quán)重指標體系元模型及指標體系示例如圖2所示。
圖2中,左側(cè)虛線框內(nèi)為指標體系的元模型。指標體系中包含3類元素:指標項、屬性項和關(guān)鍵詞。
圖2 關(guān)鍵詞權(quán)重指標體系元模型及指標體系示例
條目=(指標項1,指標項2,……,指標項n);
指標項={指標項|<屬性項,權(quán)重>};
屬性項={<屬性項,權(quán)重>|<關(guān)鍵詞,權(quán)重>}
其中,年鑒條目是由若干并列的指標項組成,它們彼此獨立,按時間構(gòu)成大事記的基礎(chǔ)。指標項間由于是各自獨立的,因此不區(qū)分權(quán)重。
首先,首先使用Request庫,通過網(wǎng)站URL地址、page=
urllib.request.urlopen(url)、contents = page.read()和soup = BeautifulSoup(contents,"html.parser")建立soup對象。
然后,在Web中找到新聞內(nèi)容的存放位置(p),使用Soup對象的find_all功能,提取內(nèi)容并寫入分析文件txt中。其代碼片段如圖3所示。
圖3 獲取新聞內(nèi)容代碼片段
圖3所示的偽代碼以utf-8的編碼格式打開txt文檔,遍歷HTML頁面中p標簽內(nèi)的文字,并將其寫入1.txt。
對于存儲在文件1.txt中的新聞內(nèi)容,本文采用Jieba庫來獲取特定新聞的關(guān)鍵詞,偽代碼如圖4所示。
圖4 新聞關(guān)鍵詞提取偽代碼片段
圖4偽代碼片段中,首先是讀取出目標txt文檔中的文本,并用Jieba庫中的Lcut函數(shù)處理得到處理成關(guān)鍵詞的對象文本,并對關(guān)鍵詞進行遍歷篩選,最后返回出頻率最高的前l(fā)en(cha)個關(guān)鍵詞。
年鑒編寫是行政辦公室的重要職能工作之一。但是,也是一項耗費時間人力的任務(wù)。對于高校年鑒編寫還存在專業(yè)壁壘,具有一定的挑戰(zhàn)性。本文研究了網(wǎng)頁內(nèi)容抽取方法,設(shè)計了年鑒詞條評價模型,并進行了關(guān)鍵詞體系構(gòu)建;設(shè)計了年鑒詞條自動抽取方法,并進行了原型設(shè)計驗證。該方法對于提升年鑒編寫效率有一定借鑒作用。