朱婷婷,鄭德俊
(1.寧波職業(yè)技術(shù)學(xué)院圖書館;2.南京農(nóng)業(yè)大學(xué)信息管理系)
移動(dòng)圖書館研究如火如荼,已有研究主要關(guān)注服務(wù)模式、平臺(tái)建設(shè)推廣、用戶體驗(yàn)、用戶需求等方面,尤其重視對用戶的研究,近年來,移動(dòng)圖書館用戶評論挖掘也成為研究熱點(diǎn)。[1]對于移動(dòng)圖書館用戶評論挖掘,評論數(shù)據(jù)的預(yù)處理工作尤為重要,預(yù)處理將影響到后續(xù)的評論數(shù)據(jù)處理效果,其中,中文分詞是最關(guān)鍵的一步。分詞詞典是機(jī)械分詞的基礎(chǔ),通用的分詞詞典主要收集的是日常用語及中華大辭海的詞匯。但是通用詞典不能滿足特定領(lǐng)域語料的分詞要求,且通用詞典中生僻字?jǐn)?shù)量龐大,影響了分詞的準(zhǔn)確性、合理性和時(shí)間性能。
對移動(dòng)圖書館用戶評論進(jìn)行預(yù)處理需要用到分詞詞典,但目前國內(nèi)還沒有一部完善的大規(guī)模移動(dòng)圖書館詞典。移動(dòng)圖書館詞典是進(jìn)行移動(dòng)圖書館用戶評論預(yù)處理的前提,如何多渠道獲取移動(dòng)圖書館相關(guān)詞條,構(gòu)建移動(dòng)圖書館詞典,并將其應(yīng)用到分詞中來,已成為移動(dòng)圖書館研究亟需解決的問題。
目前,有三種構(gòu)造分詞詞典的方法:① 人工輸入詞條信息為主、機(jī)器操作為輔的方式;② 從印刷版的詞典里獲取詞條并手動(dòng)錄入的方式;③ 對大規(guī)模文本采用簡單的語言模型和概率統(tǒng)計(jì),并分析有關(guān)詞匯信息的方式。前兩種方法主要是從印刷版文本中獲取信息,利用人工參與的方式去描述詞條信息,已有的很多語言信息庫、語義詞庫和詞典都是利用前兩種方法實(shí)現(xiàn)的。但前兩種方法存在明顯缺點(diǎn):費(fèi)時(shí)、費(fèi)力、成本高,相較而言,第三種方法更為實(shí)用。[2]
在為構(gòu)建詞典收集詞條時(shí),可以采用基于現(xiàn)有詞庫資源的方法、基于語料庫的方法、兩者結(jié)合的方法。[3]①基于現(xiàn)有詞庫資源的方法主要利用現(xiàn)有詞庫資源(如,英文的WordNet、GI,中文的HowNet、同義詞詞林)來進(jìn)行詞條擴(kuò)展。Hu 和Liu 選取了一些褒義和貶義的形容詞作為種子集,利用WordNet 的同義詞和反義詞聯(lián)系對種子集進(jìn)行擴(kuò)展,建立情感詞典;[4]路斌等利用同義詞詞林中的同義詞詞群,根據(jù)褒貶義種子詞進(jìn)行擴(kuò)展,建立情感詞典;[5]張啟宇等利用網(wǎng)絡(luò)詞庫設(shè)置了農(nóng)業(yè)詞匯的詞性編碼,以 MySQL 數(shù)據(jù)庫為例設(shè)計(jì)了農(nóng)業(yè)領(lǐng)域?qū)S玫姆衷~詞典。[6]②基于語料庫的方法是指通過對相關(guān)語料庫進(jìn)行抽詞獲得詞條信息,從而構(gòu)建詞典。Huang 等使用句法分析和主觀線索字典抽取情感詞,根據(jù)PMI 建立情感詞之間的聯(lián)系圖,并以語言學(xué)規(guī)則以及語料中的并列、轉(zhuǎn)折關(guān)系作為限制條件;[7]孫霞等對領(lǐng)域生語料進(jìn)行分詞處理,提出了基于切分單元的最大匹配算法得到候選詞串集,并最終生成領(lǐng)域詞典。[8]
經(jīng)過文獻(xiàn)調(diào)研,筆者發(fā)現(xiàn),面向移動(dòng)圖書館領(lǐng)域的詞典研究幾乎空白。移動(dòng)圖書館服務(wù)既包含傳統(tǒng)圖書館服務(wù)的數(shù)字化、信息化,又包含信息化、電子化時(shí)代用戶新需求所帶來的新型的圖書館服務(wù),不斷更新、不斷拓展是移動(dòng)圖書館服務(wù)的一大特點(diǎn)。移動(dòng)圖書館用戶在評論語言的表達(dá)上具有一定的隨意性,口語化程度高,單一的收集詞條的方法難以保證收詞的全面性與可靠性。因此,本文提出一種移動(dòng)圖書館詞典構(gòu)建的收詞方法,并構(gòu)建了一部移動(dòng)圖書館詞典,為后續(xù)移動(dòng)圖書館用戶評論的分詞研究提供便利。
本研究以機(jī)器操作為主、人工判別為輔的方式構(gòu)建移動(dòng)圖書館詞典,旨在為移動(dòng)圖書館用戶評論分析提供依據(jù)和基礎(chǔ)。移動(dòng)圖書館詞典構(gòu)建的詞條收集框架見圖1:①對移動(dòng)圖書館用戶評論進(jìn)行切分、詞頻統(tǒng)計(jì),構(gòu)造基礎(chǔ)詞典;②應(yīng)用CiteSpace 分析中國知網(wǎng)期刊數(shù)據(jù)庫中與“移動(dòng)圖書館”相關(guān)的文章的摘要與關(guān)鍵詞,并將其添加到基礎(chǔ)詞典中;③ 借鑒圖情領(lǐng)域相關(guān)詞典擴(kuò)展詞條;④ 考慮到用戶評論語言口語化特點(diǎn),融合輸入法詞庫;⑤基于《同義詞詞林》進(jìn)行同義詞擴(kuò)展,保證移動(dòng)圖書館詞典全面而實(shí)用。
圖1 詞條收集框架圖
筆者將結(jié)巴分詞包導(dǎo)入Python 2.7 平臺(tái),并對移動(dòng)圖書館用戶評論進(jìn)行分詞及詞頻統(tǒng)計(jì)。詞頻分析法利用關(guān)鍵詞或主題詞在領(lǐng)域文獻(xiàn)中出現(xiàn)的頻次來確定該領(lǐng)域的研究熱點(diǎn)和發(fā)展動(dòng)向,其依據(jù)的基本理論為齊普夫定律(Zip’s law)。[9]依據(jù)關(guān)鍵詞頻次的高低排序,筆者去除專指度低、無法反映出具體研究內(nèi)容的詞(如價(jià)值、越來越好等),最終得到符合集中分散“二八定律”的1,431 個(gè)關(guān)鍵詞,其中頻次top30 的關(guān)鍵詞樣例見表1。
表1 詞頻統(tǒng)計(jì)結(jié)果樣例
本文選擇中國知網(wǎng)的中國學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫為數(shù)據(jù)源,檢索時(shí)間截至2018 年12 月31 日。為了保證檢索質(zhì)量,筆者對檢索工作做了要求:① 以“移動(dòng)圖書館”為中心詞,檢索篇名包括“移動(dòng)圖書館”“數(shù)字圖書館”“移動(dòng)信息服務(wù)”“手機(jī)圖書館”“掌上圖書館”的文獻(xiàn);②選擇核心期刊和CSSCI 來源刊里的文獻(xiàn)作研究,其余的不作考慮;③ 將會(huì)議通知、簡訊、稿約、征文通知、編者序等不相關(guān)的文獻(xiàn)排除在外。筆者在Note-Express 里建立了題錄,題錄包括年份、標(biāo)題、作者、刊名、關(guān)鍵詞、摘要等字段,題錄里共收錄了4,987 篇相關(guān)文獻(xiàn)。
以CiteSpace Ⅱ?yàn)榉治龉ぞ?,將文獻(xiàn)數(shù)據(jù)導(dǎo)入CiteSpaceII 中進(jìn)行分析,設(shè)置相關(guān)參數(shù):時(shí)間為1998-2018 年;主題詞來源選擇為標(biāo)題(Title)、摘要(Abstract) 和關(guān)鍵詞(Author Keywords),最終得到13,409 個(gè)主題詞,其中top20 見表2。
表2 詞頻統(tǒng)計(jì)樣例表(部分)
國家圖書館的圖書情報(bào)紙本詞典收藏全面,可通過各館館藏目錄或聯(lián)合目錄進(jìn)行檢索。20 世紀(jì)90 年代以來,隨著網(wǎng)絡(luò)和信息技術(shù)的發(fā)展,基于互聯(lián)網(wǎng)開發(fā)的數(shù)字化參考源及其檢索系統(tǒng)有了迅速發(fā)展,圖書情報(bào)詞典也如其他參考工具書一樣有了新的發(fā)展平臺(tái),出現(xiàn)了網(wǎng)絡(luò)版,如《圖書情報(bào)詞典》(1990 年)、《英漢-漢英文獻(xiàn)信息詞典》(1996 年)、《英漢圖書館學(xué)情報(bào)學(xué)詞匯》(2006 年)等。[10]本文借鑒已有的圖書情報(bào)相關(guān)詞典和圖書館詞典,在人工大致判別后將其加入基礎(chǔ)詞庫,共收集到18,416 個(gè)關(guān)鍵詞。
移動(dòng)圖書館的用戶評論屬于在線評論,用戶輸入多采用拼音輸入法。考慮到詞條收集的完整性與全面性,筆者借助網(wǎng)絡(luò)上的詞庫進(jìn)行詞條擴(kuò)展。輸入法提供的詞庫都有其固定格式,筆者下載搜狗拼音輸入法、百度輸入法、紫光輸入法等相關(guān)詞庫,并利用深藍(lán)詞庫轉(zhuǎn)換工具將其轉(zhuǎn)換成無拼音格式的txt 文件。通過借鑒各輸入法的相關(guān)詞庫,整理合并得到7,152個(gè)關(guān)鍵詞,將其加入基礎(chǔ)詞庫。
漢語言博大精深,一詞多義、一義多詞,把名稱不同但表達(dá)意思相同的詞條叫做同義詞。哈爾濱工業(yè)大學(xué)信息檢索研究中心同義詞詞林?jǐn)U展版[HIT-CIR Tongyici Cilin(Extended)] 是一部比較完善的同義詞的參考詞典,共收錄了77,343 條詞語,不僅包括同義詞,還包括同類詞,即廣義的相關(guān)詞?!锻x詞詞林》為了明顯區(qū)分每個(gè)詞的分類,在每行詞的前邊用編碼標(biāo)記(見圖3)。編碼的第八位有3 種不同的表示符號(hào),分別是:“=”“#”“@”,其中,“=”代表相等且同義,“#”代表不等但同類,“@”代表自我獨(dú)立、封閉(該類詞在詞典中既沒有同義詞也沒有相關(guān)詞)。
圖3 《同義詞詞林》樣例
本文中用到的只有同義詞,因此要先對《同義詞詞林》進(jìn)行篩選整理。從《同義詞詞林》的編碼規(guī)則可以判斷出,只有末尾是“=”組詞是同義詞。
Step1:把整個(gè)《同義詞詞林》讀入list,循環(huán)對每個(gè)編碼的第八位進(jìn)行識(shí)別,選出第八位為“=”的編碼組放在list_U 中,即list_U 中存放的就是同義詞;
Step2:按空格對list_U 中每個(gè)元素進(jìn)行分詞,存入s_Word[]中,再比對s_Word[]中的詞匯與詞典中已有的詞匯;
Step3:把 Step2 中找到的情感詞與詞典進(jìn)行比對,除了詞典中已經(jīng)有的詞之外的所有的詞按照:“詞” “屬性” “值”的形式寫入到詞典中。
通過以上流程,筆者篩選出《同義詞詞林(擴(kuò)展版)》中符合條件的擴(kuò)展詞匯17,632 個(gè)。
最終,在對基礎(chǔ)詞典中的關(guān)鍵詞進(jìn)行去重處理后,共得到51,930 個(gè)關(guān)鍵詞。至此,已完成了移動(dòng)圖書館詞典的構(gòu)建工作。
目前,國內(nèi)移動(dòng)圖書館主要有兩種形式,一是購買商業(yè)公司的移動(dòng)圖書館App 服務(wù),二是自建移動(dòng)圖書館服務(wù)平臺(tái)。受限于圖書館自有的技術(shù)團(tuán)隊(duì)和后期維護(hù)水平,國內(nèi)絕大多數(shù)圖書館的移動(dòng)圖書館服務(wù)以購買為主,因此,用戶評論數(shù)據(jù)也在商業(yè)公司服務(wù)器上,一般很難被公開查詢。2017 年以來,在國內(nèi)某著名商業(yè)公司移動(dòng)圖書館服務(wù)平臺(tái)的支持下,本研究獲取了26,976 條數(shù)據(jù),筆者隨機(jī)抽取1,850 條有效評論作為實(shí)驗(yàn)數(shù)據(jù)進(jìn)行分詞,分詞結(jié)果的部分樣例見表3。
表3 分詞結(jié)果樣例(部分)
評判分詞效果的指標(biāo)主要包括分詞的正確率和分詞速度。[11,12]移動(dòng)圖書館詞典和結(jié)巴自帶詞典的分詞效果對比見表4。本文以P 為分詞正確率,N 為參與實(shí)驗(yàn)的用戶評論數(shù),n 為分詞錯(cuò)誤的評論數(shù),定義P=(N-n)/N;人工判別分詞結(jié)果,發(fā)現(xiàn)有17 條用戶評論分詞錯(cuò)誤,分詞準(zhǔn)確率為P=94.08%。在時(shí)間性能上,使用結(jié)巴自帶詞典耗時(shí)6 秒01,使用自定義專屬詞典耗時(shí)1 秒77,顯然使用自定義專屬詞典更高效。
表4 分詞效果對比
在分詞合理性上,使用自定義專屬詞典明顯優(yōu)于結(jié)巴自帶詞典。由表5 可以看出,結(jié)巴自帶詞典分詞對于很多雙字詞識(shí)別不了,如“連接”“平臺(tái)”“及時(shí)”“字體”“改進(jìn)”等,所以只能拆分成單字詞,而使用自定義專屬詞典則可大大減少此類分詞錯(cuò)誤。
表5 分詞合理性對比(部分)
自定義詞典并不能實(shí)現(xiàn)100%的正確率。人工判別分詞結(jié)果時(shí),發(fā)現(xiàn)有一些詞結(jié)巴自帶詞典和自定義詞典均不能識(shí)別,一共有17 條用戶評論出現(xiàn)錯(cuò)誤(見表6),如“學(xué)號(hào)”“予人方便”“觸控系統(tǒng)”“越辦越好”“音量鍵”等??梢?,自定義詞典還有很大的改進(jìn)完善空間。
表6 分詞錯(cuò)誤樣例(部分)
綜上,將自定義的移動(dòng)圖書館詞典運(yùn)用到移動(dòng)圖書館用戶評論分詞中,其準(zhǔn)確率、合理性和時(shí)間性能得到了明顯提升,可見本文一系列收集詞條的方法構(gòu)建出的移動(dòng)圖書館詞典具有較高的可靠性與有效性。