王懷波 鄭勤華
(1.北京師范大學(xué) 系統(tǒng)科學(xué)學(xué)院,北京 100875;2.北京師范大學(xué) 遠(yuǎn)程教育研究中心,北京 100875)
伴隨著互聯(lián)網(wǎng)的出現(xiàn),人類出現(xiàn)了一個(gè)全新的空間——信息空間(潘云鶴,2018)。在這樣一個(gè)全新的、足夠開(kāi)放的信息空間里,其所具有的信息貢獻(xiàn)草根化、信息生產(chǎn)眾籌化、信息選擇個(gè)性化、各類關(guān)系網(wǎng)絡(luò)化以及信息與行為的可量化等特征,改變了教與學(xué)的過(guò)程,改變了知識(shí)的生產(chǎn)和傳播方式,繼而改變了知識(shí)的內(nèi)涵(陳麗,逯行,鄭勤華,2019)。加拿大的Siemens(2005)、美國(guó)的戴維·溫伯格(2014)、瑞士的安德烈·焦?fàn)柈?dāng)(2015),國(guó)內(nèi)學(xué)者陳麗、逯行和鄭勤華(2019)、劉和海、李少鵬和王琪(2016)以及王竹立(2019)等均對(duì)此類互聯(lián)網(wǎng)中新知識(shí)及其特征加以描述。陳麗團(tuán)隊(duì)將此類知識(shí)界定為網(wǎng)絡(luò)化知識(shí),即在互聯(lián)網(wǎng)環(huán)境中由群體智慧匯聚生成并不斷發(fā)展變化的信息、認(rèn)識(shí)、技能、價(jià)值觀和態(tài)度。此類知識(shí)不是傳統(tǒng)知識(shí)的網(wǎng)上搬家,也不是簡(jiǎn)單的信息共享,而是群體智慧匯聚、協(xié)同創(chuàng)生并且不斷更新發(fā)展的一類新知識(shí),具有結(jié)構(gòu)網(wǎng)絡(luò)化、貢獻(xiàn)群體化、內(nèi)容經(jīng)驗(yàn)性、生產(chǎn)傳播同流程的動(dòng)態(tài)發(fā)展等特征(王懷波,陳麗,2020)。
專業(yè)社區(qū)通常是群體自由表達(dá)、相互共享、協(xié)同創(chuàng)造知識(shí)的重要場(chǎng)所(Chen, Y. J., & Chen, Y. M.,2012),社區(qū)中留存下來(lái)的共同創(chuàng)生的內(nèi)容蘊(yùn)含著大量的網(wǎng)絡(luò)化知識(shí)。海量龐雜的數(shù)據(jù)以及結(jié)構(gòu)不再固定的網(wǎng)絡(luò)化知識(shí)讓傳統(tǒng)模式化的知識(shí)抽取方式不再奏效,為此,如何借助計(jì)算機(jī)的快速處理和分析優(yōu)勢(shì),設(shè)計(jì)形成一套適合在互聯(lián)網(wǎng)專業(yè)社區(qū)中進(jìn)行知識(shí)抽取的框架,協(xié)助新知識(shí)抽取與挖掘,以支撐回答互聯(lián)網(wǎng)時(shí)代新知識(shí)“怎么提”的現(xiàn)實(shí)性問(wèn)題被擺在眼前。
知識(shí)抽取是指通過(guò)借助計(jì)算機(jī)從不同來(lái)源、不同結(jié)構(gòu)的數(shù)據(jù)中提取知識(shí)并存入到知識(shí)庫(kù)中。當(dāng)前關(guān)于知識(shí)抽取研究的方法主要集中在以自然語(yǔ)言處理技術(shù)為主的知識(shí)抽取。
常見(jiàn)的知識(shí)抽取方法包括基于機(jī)器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法。基于機(jī)器學(xué)習(xí)的知識(shí)識(shí)別算法包括改進(jìn)的隱馬爾科夫(HMM)、條件隨機(jī)場(chǎng)(CRF)等模型。如徐元子、張迎新和劉登第(2016)采用semi-Markov CRFs模型針對(duì)評(píng)論描述隨意的特點(diǎn),從評(píng)論語(yǔ)句中識(shí)別出片段粒度的知識(shí)實(shí)體。隨著深度學(xué)習(xí)的迅速發(fā)展,出現(xiàn)了基于深度學(xué)習(xí)的實(shí)體識(shí)別和基于注意力機(jī)制、遷移學(xué)習(xí)機(jī)制等實(shí)體識(shí)別方法?;谏疃葘W(xué)習(xí)知識(shí)識(shí)別算法主要包括深度神經(jīng)網(wǎng)絡(luò)模型(DNN)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)、基于詞向量的雙向長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)模型(BiLSTM)。例如:崔競(jìng)烽、鄭德俊、王東波和李婷婷(2020)借助實(shí)驗(yàn)驗(yàn)證BiLSTM、BiLSTM-CRF和BERT等深度學(xué)習(xí)模型在特定領(lǐng)域中實(shí)體識(shí)別的結(jié)果,并通過(guò)與CRF模型識(shí)別結(jié)果對(duì)比,證實(shí)BERT模型在特定領(lǐng)域中命名實(shí)體識(shí)別的效果更優(yōu)。趙豐、黃健和張中杰(2020)構(gòu)建了一種基于卷積神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制(Attention Mechanism)的實(shí)體識(shí)別模型,用以解決中文實(shí)體依賴分詞效果和速度慢等問(wèn)題。實(shí)驗(yàn)表明模型效果提升了2%~8%,且速度達(dá)到了主流模型的1.4~1.9倍。Liu、Jiang和Song(2014)提出了一種兩階段獲取經(jīng)驗(yàn)隱性知識(shí)的方法,首先將經(jīng)驗(yàn)豐富的工程師對(duì)話記錄下來(lái),以自然語(yǔ)言處理的方式(NLP)獲取默會(huì)知識(shí),然后運(yùn)用關(guān)鍵圖算法(KGA)獲取經(jīng)驗(yàn)知識(shí)的核心內(nèi)容。還有人提出了一項(xiàng)發(fā)現(xiàn)虛擬社區(qū)中知識(shí)進(jìn)化過(guò)程的技術(shù),用以發(fā)現(xiàn)隱藏在專業(yè)虛擬社區(qū)中經(jīng)驗(yàn)知識(shí)進(jìn)化的過(guò)程,從而輔助社區(qū)人員快速檢索并獲取經(jīng)驗(yàn)知識(shí)(Chen, Y. J., & Chen, Y.M., 2012)。
隨著互聯(lián)網(wǎng)中基于本體的知識(shí)表征普及,有研究者嘗試借助本體思想抽取知識(shí)。例如:Lee、Chen和Jian(2003)開(kāi)發(fā)了一種基于本體的網(wǎng)絡(luò)新聞自動(dòng)摘要機(jī)制,利用模糊理論和神經(jīng)算法形成的agent機(jī)制,從網(wǎng)絡(luò)新聞中自動(dòng)檢索并總結(jié)重要句子,將其轉(zhuǎn)化為標(biāo)簽化的知識(shí)。Li、Jiang、Song和Liu(2017)采用本體方法將工程類知識(shí)表征為EEK=
在以上所述的知識(shí)抽取中,基于機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的知識(shí)抽取探索為知識(shí)的抽取提供了一些有效的途徑,尤其是針對(duì)底層的技術(shù)實(shí)現(xiàn)和優(yōu)化迭代,而基于本體的知識(shí)抽取的一些探索為這類經(jīng)驗(yàn)性知識(shí)抽取提供了具體的思路。然而,當(dāng)下知識(shí)實(shí)體抽取方法存在重技術(shù)輕應(yīng)用,重單點(diǎn)突破缺整體設(shè)計(jì)等問(wèn)題。尤其針對(duì)教育領(lǐng)域缺乏具體的實(shí)際案例與導(dǎo)向作用。因此,為了解決關(guān)于此類經(jīng)驗(yàn)性知識(shí)抽取的現(xiàn)實(shí)問(wèn)題,本文提出一種人機(jī)協(xié)同的網(wǎng)絡(luò)化知識(shí)實(shí)體抽取框架,通過(guò)匯聚、整合、切詞、抽取、過(guò)濾與統(tǒng)一實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)化知識(shí)實(shí)體的抽取。
文本作為互聯(lián)網(wǎng)傳播的主流形式,蘊(yùn)含著大量的信息與知識(shí)(Dey, 2001)。通過(guò)文本可以更清楚地了解當(dāng)前用戶所做的事情,以及在做這些的過(guò)程中創(chuàng)生了哪些知識(shí),因此也成為當(dāng)下知識(shí)抽取的主要來(lái)源(Song, Jiang, & Liu, 2016; Li et al., 2017;Chen, Y. J., & Chen, Y. M., 2012; 俞琰,陳磊,趙乃蠧,2019;王萌,符雅茹,牟智佳,2021)。借助自然語(yǔ)言處理技術(shù)進(jìn)行知識(shí)抽取時(shí),通常要經(jīng)過(guò)分詞、詞性標(biāo)注和語(yǔ)義分析等基礎(chǔ)性文本處理工作,隨后借助制定的規(guī)則從中抽取出概念、屬性及其相關(guān)關(guān)系等知識(shí)要素,最后將所抽取的知識(shí)存入知識(shí)庫(kù)中(馮青文,2017;郭玉娟,胡韌奮,2019)??紤]到網(wǎng)絡(luò)化知識(shí)強(qiáng)調(diào)知識(shí)的境域化特征,需要將語(yǔ)境這一關(guān)鍵要素納入網(wǎng)絡(luò)化知識(shí)抽取工作中。通常來(lái)說(shuō)境域化是指網(wǎng)絡(luò)化知識(shí)出現(xiàn)的特定的語(yǔ)境,由該知識(shí)點(diǎn)所在言語(yǔ)活動(dòng)的上下文組成。一個(gè)完整的討論空間通常具有同一個(gè)語(yǔ)境意義,為此需要在原本分詞、詞性標(biāo)注等基礎(chǔ)性文本處理工作之前完成對(duì)原始數(shù)據(jù)的語(yǔ)義整合與拆分。另外,由于表述習(xí)慣、拼寫(xiě)錯(cuò)誤、名稱變體以及縮寫(xiě)等因素,知識(shí)實(shí)體會(huì)出現(xiàn)一個(gè)實(shí)體對(duì)應(yīng)多個(gè)表象的現(xiàn)象。如此形成的實(shí)體,既不符合實(shí)體唯一性的要求,也會(huì)出現(xiàn)大量數(shù)據(jù)冗余,并且會(huì)影響后續(xù)知識(shí)的應(yīng)用(董志強(qiáng),劉永年,魏麗華,2017)。為此,有必要在原本知識(shí)實(shí)體抽取的基礎(chǔ)上加入實(shí)體的統(tǒng)一。
依據(jù)上述分析,筆者構(gòu)建了網(wǎng)絡(luò)化知識(shí)實(shí)體抽取框架,如圖1所示。整個(gè)框架包括三個(gè)環(huán)節(jié):數(shù)據(jù)采集與處理、分詞與實(shí)體抽取和實(shí)體過(guò)濾與統(tǒng)一。
圖1 網(wǎng)絡(luò)化知識(shí)抽取框架
數(shù)據(jù)采集與處理是指根據(jù)一定的研究目標(biāo)將相互關(guān)聯(lián)的分布式異構(gòu)數(shù)據(jù)采集匯聚到一起,最終讓用戶看到更加真實(shí)、準(zhǔn)確、可靠的數(shù)據(jù)。此階段包括兩個(gè)部分,首先是數(shù)據(jù)采集與匯聚,將采集到的不同業(yè)務(wù)系統(tǒng)數(shù)據(jù),按照研究需要進(jìn)行統(tǒng)一匯聚,并對(duì)問(wèn)題數(shù)據(jù)進(jìn)行清洗,以保證數(shù)據(jù)的打通和規(guī)范。其次是數(shù)據(jù)處理與整合,即根據(jù)知識(shí)實(shí)體抽取的需要將數(shù)據(jù)依據(jù)特定的規(guī)則進(jìn)行整理與合并,以滿足研究的需要。
1. 數(shù)據(jù)采集與匯聚
數(shù)據(jù)匯聚階段主要任務(wù)是通過(guò)業(yè)務(wù)數(shù)據(jù)庫(kù)抽取和社區(qū)平臺(tái)前端埋點(diǎn)的采集方法獲得并匯聚所需原始數(shù)據(jù)。數(shù)據(jù)匯聚庫(kù)是依照數(shù)據(jù)匯聚標(biāo)準(zhǔn)建立的機(jī)構(gòu)綜合數(shù)據(jù)庫(kù),建立數(shù)據(jù)匯聚庫(kù)的主要目的是按照統(tǒng)一的標(biāo)準(zhǔn)來(lái)集中匯聚不同業(yè)務(wù)系統(tǒng)的數(shù)據(jù)。通過(guò)數(shù)據(jù)匯聚庫(kù)一方面可以建立數(shù)據(jù)分析應(yīng)用與業(yè)務(wù)系統(tǒng)的緩沖地帶,避免數(shù)據(jù)分析對(duì)日常教學(xué)與管理可能造成的影響;另一方面,建立統(tǒng)一的數(shù)據(jù)匯聚規(guī)范,可以消除不同業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫(kù)之間的差異,將來(lái)自不同業(yè)務(wù)系統(tǒng)的數(shù)據(jù)進(jìn)行整合與打通,讓后續(xù)數(shù)據(jù)分析業(yè)務(wù)可以基于統(tǒng)一的數(shù)據(jù)結(jié)構(gòu)展開(kāi)。在數(shù)據(jù)進(jìn)入數(shù)據(jù)匯聚庫(kù)之前還需完成數(shù)據(jù)清洗工作,以確保數(shù)據(jù)匯聚庫(kù)的規(guī)范性和有效性。
2. 數(shù)據(jù)處理與整合
數(shù)據(jù)整合階段的主要任務(wù)是通過(guò)對(duì)匯聚的數(shù)據(jù)按照具體研究開(kāi)展需要進(jìn)行拆分和整合。知識(shí)實(shí)體抽取離不開(kāi)語(yǔ)義單元的劃分,將原始的文本數(shù)據(jù)拆分成獨(dú)立的語(yǔ)義單元,能夠在很大程度上保證抽取知識(shí)實(shí)體的獨(dú)立性。以往關(guān)于知識(shí)抽取通常對(duì)所匯聚的文本內(nèi)容直接合并進(jìn)行分詞與抽取,如此操作在簡(jiǎn)化流程的同時(shí)也丟失了一些知識(shí)?;诖耍狙芯酷槍?duì)交互文本中的結(jié)構(gòu),設(shè)計(jì)話題分類規(guī)則。分類的規(guī)則具體如下:每一個(gè)主題帖(如發(fā)布的博客或發(fā)布的案例等)可視為獨(dú)立的語(yǔ)義單元;直接針對(duì)主題帖開(kāi)展的評(píng)論或回復(fù)與該主題帖視為同一個(gè)語(yǔ)義單元;直接針對(duì)評(píng)論的回復(fù)內(nèi)容,與被評(píng)論的帖子共同視為新的語(yǔ)義單元。
網(wǎng)絡(luò)化知識(shí)實(shí)體抽取是指借助自然語(yǔ)言處理方法將隱藏在原始數(shù)據(jù)中的知識(shí)實(shí)體識(shí)別、篩選和統(tǒng)一。此階段包括文本分詞、實(shí)體識(shí)別兩個(gè)部分,首先是文本分詞,將整合后的文本數(shù)據(jù)切分成單獨(dú)的詞匯,以服務(wù)于后續(xù)知識(shí)實(shí)體抽取。其次是實(shí)體識(shí)別,結(jié)合關(guān)鍵詞抽取、詞語(yǔ)組合和命名實(shí)體識(shí)別等多路徑,識(shí)別文本中的知識(shí)實(shí)體。
1. 文本分詞
詞作為漢語(yǔ)中最小的可獨(dú)立活動(dòng)的語(yǔ)義單位,是自然語(yǔ)言處理系統(tǒng)中最基本的操作單元和不可替代的知識(shí)載體。中文分詞(Chinese Word Segmentation, CWS)是中文信息處理的關(guān)鍵環(huán)節(jié),其分詞精度與效果直接影響中文信息處理技術(shù)后續(xù)工作的實(shí)用性和有效性。當(dāng)前主流的分詞工具包括百度NLP、阿里NLP、騰訊文智等互聯(lián)網(wǎng)企業(yè)自主研發(fā)的中文分詞系統(tǒng);斯坦福分詞器、北大pkuseg、清華THULAC、哈工大LTP、中科院PyNLPIR等研究機(jī)構(gòu)研發(fā)的中文分詞系統(tǒng);還有jieba分詞、Hanlp分詞器、SnowNLP等開(kāi)源分詞工具。不同的分詞工具背后的原理和適用的情境并不相同。例如:jieba分詞是概率語(yǔ)言模型,將分詞轉(zhuǎn)化成有向無(wú)環(huán)圖(DAG)中的最大概率路徑查找問(wèn)題,實(shí)現(xiàn)對(duì)文本的分詞,支持用戶詞典定義,支持自定義停用詞①;pkuseg主要基于經(jīng)典的CRF模型,將中文分詞視為序列標(biāo)注問(wèn)題,通過(guò)給每個(gè)漢字打上標(biāo)簽{詞首B,詞中M,詞尾E,單字符詞S}及其四詞位漢語(yǔ)組合,實(shí)現(xiàn)對(duì)中文詞的切割,同時(shí)pkuseg為細(xì)分領(lǐng)域分詞提供預(yù)訓(xùn)練模型②。選擇合適的中文分詞工具是開(kāi)展知識(shí)實(shí)體抽取的關(guān)鍵。通常來(lái)說(shuō)選擇分詞工具除了需要考慮工具適用情境、是否支持自定義詞典之外,還需考慮分析工具的精準(zhǔn)率、召回率和調(diào)和平均值等技術(shù)參數(shù)。
2. 關(guān)鍵詞抽取知識(shí)實(shí)體
基于關(guān)鍵詞抽取知識(shí)實(shí)體,是將知識(shí)實(shí)體轉(zhuǎn)換為通用的關(guān)鍵詞抽取問(wèn)題,而在計(jì)算機(jī)領(lǐng)域關(guān)鍵詞抽取本質(zhì)上是通過(guò)評(píng)估文本集中相對(duì)重要的字詞達(dá)到抽取的目的。當(dāng)前主流的思路包括將關(guān)鍵詞提取問(wèn)題轉(zhuǎn)化成統(tǒng)計(jì)問(wèn)題的TF-IDF(Term Frequency-Inverse Document Frequency,詞頻-逆向文件頻率)和將關(guān)鍵詞抽取問(wèn)題轉(zhuǎn)化到圖模型中詞的排序處理的TextRank(Mihalcea & Tarau, 2004)。為了得到更為精準(zhǔn)的抽取結(jié)果,關(guān)鍵詞抽取離不開(kāi)去停用詞和自定義詞典兩個(gè)步驟。前者過(guò)濾掉文本中無(wú)意義的語(yǔ)氣詞、標(biāo)點(diǎn)符號(hào)以及連接詞等;后者則強(qiáng)化某些特定的專有名詞,如“互聯(lián)網(wǎng)+”等。
3. 組合詞抽取知識(shí)實(shí)體
在文本分詞中,由于受限于分詞工具訓(xùn)練的樣本、詞典的完整性以及算法本身的準(zhǔn)確性,在分詞過(guò)程中可能存在對(duì)本領(lǐng)域關(guān)鍵詞切斷的現(xiàn)象,如關(guān)鍵詞“互聯(lián)網(wǎng)+教育”在分詞時(shí)通常會(huì)被簡(jiǎn)單切割成“互聯(lián)網(wǎng)+”“教育”兩個(gè)關(guān)鍵詞,而丟失原詞。因此為了盡可能保證后續(xù)知識(shí)實(shí)體抽取的準(zhǔn)確性,有必要對(duì)被切分的詞語(yǔ)依據(jù)語(yǔ)法特征進(jìn)行重新組合。詞語(yǔ)組合形成詞組,也稱為短語(yǔ),是一種大于詞而又不成句的語(yǔ)法單位。從結(jié)構(gòu)上,詞語(yǔ)組合需符合漢語(yǔ)語(yǔ)法上的搭配規(guī)則,即物理位置相鄰的兩個(gè)孤立的詞能夠構(gòu)成特定的關(guān)系,如主謂關(guān)系、動(dòng)賓關(guān)系等;從詞性上,知識(shí)實(shí)體屬于名詞性短語(yǔ);從語(yǔ)義上,組合的詞語(yǔ)在表意上需完整單一、指向性強(qiáng),在語(yǔ)義上有較強(qiáng)的完整性;從統(tǒng)計(jì)上,在真實(shí)文本中流通性、可重用性強(qiáng),并非臨時(shí)性的組合結(jié)構(gòu),具有一定的統(tǒng)計(jì)意義。
4. 命名實(shí)體抽取知識(shí)實(shí)體
命名實(shí)體識(shí)別(Named Entity Recognition,NER),是指識(shí)別出句子中命名實(shí)體的邊界和類別的任務(wù)。命名識(shí)別是自然語(yǔ)言處理和信息檢索領(lǐng)域的傳統(tǒng)任務(wù),其識(shí)別結(jié)果決定了后續(xù)關(guān)系抽取任務(wù)以及知識(shí)圖譜構(gòu)建的成效(Habibi, Weber, Neves,Wiegandt, & Leser, 2017)。一般來(lái)說(shuō),命名實(shí)體分為三大類(實(shí)體類、時(shí)間類及數(shù)字類)和七小類(人名、機(jī)構(gòu)名、地名、時(shí)間、日期、貨幣及百分比)(吳丹,何大慶,陸偉,2012)。就命名實(shí)體識(shí)別的研究結(jié)果來(lái)看,時(shí)間類和數(shù)字類的實(shí)體因其具有相對(duì)明確的規(guī)則,因而相對(duì)容易識(shí)別,而對(duì)于實(shí)體中的組織名、人名、地名以及專有名詞,其所具有的開(kāi)放性和發(fā)展性導(dǎo)致這類實(shí)體在識(shí)別上有一定困難,存在如實(shí)體邊界、消除歧義等問(wèn)題(張曉艷,王挺,陳火旺,2005)。
1. 知識(shí)實(shí)體過(guò)濾
由于知識(shí)點(diǎn)具有專業(yè)相關(guān)性,在通用的實(shí)體抽取或組合詞抽取過(guò)程中,難免包含一些非知識(shí)點(diǎn)的詞語(yǔ),為此需要對(duì)抽取候選庫(kù)中的實(shí)體進(jìn)行過(guò)濾。知識(shí)實(shí)體與一般性字詞不同,通常在特定文件中頻繁出現(xiàn),而在總的文件集中很少出現(xiàn)。為此可以通過(guò)借助TF-IDF統(tǒng)計(jì)方法衡量詞語(yǔ)在專業(yè)中的重要性,以此判斷所收取的知識(shí)實(shí)體在原文檔中的重要程度??紤]到知識(shí)的專業(yè)屬性特征,僅憑TF-IDF算法無(wú)法完成更為精細(xì)的實(shí)體過(guò)濾,為此還需要以專家主觀賦權(quán)的方法作為輔助,最終通過(guò)綜合客觀TFIDF計(jì)算結(jié)果與專家主觀賦權(quán)分值形成網(wǎng)絡(luò)化知識(shí)實(shí)體的整體重要性判斷Wj,并篩選網(wǎng)絡(luò)化知識(shí)實(shí)體(見(jiàn)公式)。
2. 知識(shí)實(shí)體統(tǒng)一
由于表述習(xí)慣、拼寫(xiě)錯(cuò)誤、名稱變體以及縮寫(xiě)等因素,網(wǎng)絡(luò)化知識(shí)實(shí)體會(huì)出現(xiàn)一個(gè)實(shí)體對(duì)應(yīng)多個(gè)表象的現(xiàn)象。如此形成的實(shí)體,既不符合實(shí)體唯一性的要求,也會(huì)出現(xiàn)大量數(shù)據(jù)冗余,為此需要統(tǒng)一實(shí)體表象(董志強(qiáng),劉永年,魏麗華,2017)。當(dāng)前實(shí)體統(tǒng)一的主流方法包括無(wú)監(jiān)督、有監(jiān)督和基于圖的實(shí)體統(tǒng)一方法。在無(wú)監(jiān)督中主要包括基于規(guī)則的方法和基于相似度計(jì)算兩類。如綜合屬性、上下文、關(guān)系等多維相似度的整體式實(shí)體統(tǒng)一算法研究實(shí)現(xiàn)對(duì)多源異構(gòu)實(shí)體的統(tǒng)一(范威振,陳占芳,劉燕龍,2019)。相似度計(jì)算無(wú)序制定規(guī)則因此成為當(dāng)下實(shí)體統(tǒng)一的主要思路。實(shí)體統(tǒng)一中首先需要對(duì)實(shí)體進(jìn)行分布式詞向量計(jì)算,較為典型的包括谷歌公司早期的Word2vec,以及后來(lái)推出的訓(xùn)練語(yǔ)言模型BERT(Bidirectional Encoder Representations from Transformers)(Devlin, Chang, Lee, & Toutanova,2019);隨后在此基礎(chǔ)上開(kāi)展詞向量的距離計(jì)算,常見(jiàn)的距離相似度計(jì)算包括余弦相似度(Cosine Simility)、歐氏距離(Euclidean Distance)以及馬氏距離(Mahalanobis Distance)等(谷重陽(yáng),徐浩煜,周晗,張俊杰,2018);接著過(guò)濾距離相近的實(shí)體,實(shí)現(xiàn)實(shí)體的第一步統(tǒng)一;最后,借助領(lǐng)域?qū)<覙?biāo)注方法,對(duì)機(jī)器統(tǒng)一后的實(shí)體,進(jìn)行二次標(biāo)注,形成最終的實(shí)體庫(kù)。
“互聯(lián)網(wǎng)+教育:理論與實(shí)踐的對(duì)話”是國(guó)內(nèi)首門(mén)基于聯(lián)通主義理論開(kāi)發(fā)的cMOOC課程,課程以“開(kāi)放、共享、互動(dòng)、創(chuàng)新”為指導(dǎo),面向“互聯(lián)網(wǎng)+教育”領(lǐng)域全體人員,開(kāi)展理論與實(shí)踐的對(duì)話。由于cMOOC課程并無(wú)固定的內(nèi)容,平臺(tái)中所有內(nèi)容均為參與者共同構(gòu)建,具有典型的互聯(lián)網(wǎng)開(kāi)放社區(qū)的特征。研究以課程平臺(tái)第二期課程中的主題四“消費(fèi)驅(qū)動(dòng)的教育供給側(cè)改革”為案例,在網(wǎng)絡(luò)化知識(shí)抽取框架下,開(kāi)展知識(shí)實(shí)體抽取應(yīng)用與驗(yàn)證。
研究整理所獲取的13張?jiān)紨?shù)據(jù)表,包括跟帖、行為日志、話題、討論、評(píng)論、評(píng)論點(diǎn)贊、文章(周報(bào)、博客、案例、資源)、文章點(diǎn)贊數(shù)、文章分類、文章瀏覽、文章收藏、用戶基本信息和個(gè)人自我介紹等。最終形成4篇周報(bào)、138篇博客、42篇案例、54篇資源、1 416條評(píng)論信息。同時(shí)研究依據(jù)話題分類原則,將采集的數(shù)據(jù)按話題進(jìn)行整理,最終形成525條話題分類的文本數(shù)據(jù)。
1. 分詞工具選擇
為了選擇合適的中文分詞工具,本研究針對(duì)北大pkuseg、清華THULAC、哈工大LTP、中科院PyNLPIR以及jieba分詞、Hanlp分詞器、SnowNLP等常用的中文分詞工具進(jìn)行分析測(cè)試實(shí)驗(yàn)。研究以Ubuntu18.04.2 LTS作為測(cè)試環(huán)境,修改ownthink在github上共享的中文分析性能對(duì)比代碼③,結(jié)合第二屆國(guó)際漢語(yǔ)分詞測(cè)評(píng)發(fā)布的國(guó)際中文分詞測(cè)評(píng)標(biāo)準(zhǔn),對(duì)不同軟件進(jìn)行了速度和準(zhǔn)確率測(cè)試④(楚尚武,2017)。數(shù)據(jù)集包括臺(tái)灣“中央研究院”提供的as數(shù)據(jù)集、香港城市大學(xué)提供的cityu數(shù)據(jù)集、北京大學(xué)提供的pku數(shù)據(jù)集以及微軟研究院提供的msr。從準(zhǔn)確率測(cè)評(píng)對(duì)比來(lái)看,哈工大的LTP、北大的pkuseg以及PyNLPIR三個(gè)工具在四個(gè)數(shù)據(jù)集中F值的平均表現(xiàn)較好(分別為90.499、90.111、87.867)。考慮到pkuseg有針對(duì)網(wǎng)絡(luò)領(lǐng)域的數(shù)據(jù)提供個(gè)性化的預(yù)訓(xùn)練模型,而研究所抽取的大量知識(shí)實(shí)體也蘊(yùn)藏在網(wǎng)絡(luò)中,因此研究最終選擇北大pkuseg作為文本處理的工具。
2. 關(guān)鍵詞抽取
考慮到TF-IDF需要事先對(duì)多篇語(yǔ)料庫(kù)進(jìn)行訓(xùn)練,而TextRank則僅利用單篇文檔本身的信息即可實(shí)現(xiàn)關(guān)鍵詞抽取,為此本部分重點(diǎn)采用TextRank對(duì)前面去停用詞的結(jié)果進(jìn)行關(guān)鍵詞抽取。抽取的關(guān)鍵詞將存入網(wǎng)絡(luò)化知識(shí)實(shí)體候選庫(kù)中,作為后續(xù)知識(shí)實(shí)體篩選的來(lái)源之一。研究主要基于letiantian發(fā)布在github上的TextRank4ZH⑤,作為關(guān)鍵詞抽取的實(shí)現(xiàn)工具。其中,為了跟前面的切詞工具統(tǒng)一,研究將代碼中使用的jieba分析工具替換為pkuseg。
關(guān)于最終關(guān)鍵詞的個(gè)數(shù)篩選,本研究做出如下規(guī)定,即以獨(dú)立句子為基準(zhǔn),規(guī)定每個(gè)句子最多一個(gè)關(guān)鍵詞。由此在tr4w.get_keywords()中將關(guān)鍵詞數(shù)設(shè)為句子總數(shù),以此抽取更具代表性的關(guān)鍵詞。
研究最終將基于TextRank獲取的關(guān)鍵詞作為候選知識(shí)實(shí)體更新到cmooc_doc_list數(shù)據(jù)表中(見(jiàn)下頁(yè)表1),同時(shí)存儲(chǔ)到網(wǎng)絡(luò)化知識(shí)實(shí)體的候選庫(kù)Entity_Candidate中。
表1 關(guān)鍵詞抽取結(jié)果示例
3. 詞語(yǔ)組合
在結(jié)構(gòu)類型和詞性組合上,研究參考黃伯榮主編的《現(xiàn)代漢語(yǔ)》中的基本短語(yǔ),包括主謂短語(yǔ)、動(dòng)賓短語(yǔ)、偏正短語(yǔ)、中補(bǔ)短語(yǔ)和聯(lián)合短語(yǔ)(黃伯榮,廖序東,2011)。其中重點(diǎn)考慮具有名詞屬性的主謂短語(yǔ)、偏正短語(yǔ)和聯(lián)合短語(yǔ),同時(shí)考慮到實(shí)際組詞中存在動(dòng)賓組合的知識(shí)實(shí)體(如變革路徑等),因此加入動(dòng)賓短語(yǔ);另外還補(bǔ)充同位短語(yǔ)和方位短語(yǔ)等其他短語(yǔ)。表2為基本短語(yǔ)組合的結(jié)構(gòu)和詞性組合規(guī)則,在詞性組合中考慮到最終抽取的知識(shí)實(shí)體在語(yǔ)義上具有明確指代性,因此刪除其中涉及到代詞詞性組合的短語(yǔ)。
表2 基本短語(yǔ)組合
相似研究中,臺(tái)灣學(xué)者Tseng和Chen(2002)提出的關(guān)于漢語(yǔ)形態(tài)分析的規(guī)則為本研究在具體操作層面提供了指導(dǎo)。該規(guī)則后來(lái)在其他人的研究中不斷發(fā)展,逐漸形成相對(duì)成熟的詞語(yǔ)組合規(guī)則⑥(Lee et al., 2005; Chen, Y. J., & Chen, Y. M., 2012)。
為此研究在pkuseg詞性集的基礎(chǔ)上,結(jié)合《現(xiàn)代漢語(yǔ)》中基本短語(yǔ)組合、早期關(guān)于詞性組合的相關(guān)研究,提出如表3雙詞組合和表4三詞組合的組合原則。其中n為普通名詞、nz為專有名詞、ns為地方詞、a為形容詞、d為副詞、v為動(dòng)詞、vn為動(dòng)名詞、m為數(shù)詞、p為介詞、c為連詞、f為方位詞等。
表3 基于詞性組合的名詞性短語(yǔ)原則(雙詞組合)
表4 基于詞性組合的名詞性短語(yǔ)原則(三詞組合)
研究最終將通過(guò)雙詞組合和三詞組合形成的組合詞語(yǔ)作為候選知識(shí)實(shí)體更新到cmooc_doc_list數(shù)據(jù)表中(見(jiàn)表5),同時(shí)存儲(chǔ)到網(wǎng)絡(luò)化知識(shí)實(shí)體的候選庫(kù)Entity_Candidate中。
表5 組合詞數(shù)據(jù)存儲(chǔ)表(示例)
4. 命名實(shí)體識(shí)別
借助命名實(shí)體識(shí)別方法,可以自動(dòng)抽取出cMOOC課程平臺(tái)中博客、資源、討論等文本內(nèi)容中所包含的態(tài)度、觀點(diǎn)和價(jià)值觀等具有語(yǔ)義特征的專有實(shí)體名詞,有助于網(wǎng)絡(luò)化知識(shí)圖譜的構(gòu)建和網(wǎng)絡(luò)化知識(shí)演化規(guī)律的探究。研究依據(jù)pkuseg訓(xùn)練模型中專有名詞(nz)以及專家詞庫(kù)中的命名實(shí)體(ner),將文本中涉及到的實(shí)體抽取出,并作為候選知識(shí)實(shí)體更新到cmooc_doc_list數(shù)據(jù)表中(見(jiàn)表6),同時(shí)存儲(chǔ)到網(wǎng)絡(luò)化知識(shí)實(shí)體的候選庫(kù)Entity_Candidate中。
表6 命名實(shí)體識(shí)別抽取結(jié)果示例
1. 知識(shí)實(shí)體過(guò)濾
研究通過(guò)主觀打分和客觀計(jì)算,共同完成對(duì)主題四“消費(fèi)驅(qū)動(dòng)的教育供給側(cè)改革”所抽取的實(shí)體重要性計(jì)算任務(wù)。研究需通過(guò)設(shè)定Wj的閾值,以進(jìn)一步過(guò)濾在客觀計(jì)算中分值較低且在主觀判斷上不屬于知識(shí)的實(shí)體。為此研究將低于均值兩個(gè)標(biāo)準(zhǔn)差以外的數(shù)據(jù)視為不符合,進(jìn)行刪除。
通過(guò)Wj值分布曲線繪制發(fā)現(xiàn),Wj呈現(xiàn)出一種長(zhǎng)尾分布,極少數(shù)的Wj值較高,大多數(shù)的值偏低。對(duì)數(shù)變換(Log transformation)是一種特殊的數(shù)據(jù)變換方式,它可以將長(zhǎng)尾分布的數(shù)據(jù)轉(zhuǎn)化成為接近正態(tài)分布,從而更便捷地發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)系。為此研究需要將Wj的原始分布曲線進(jìn)行對(duì)數(shù)轉(zhuǎn)換。轉(zhuǎn)換后的Wj呈現(xiàn)出正態(tài)分布,符合研究所需(見(jiàn)圖2)。
圖2 取對(duì)數(shù)后的Wj分布(橫軸為Wj對(duì)數(shù)轉(zhuǎn)換后的數(shù)值,縱軸為Wj的密度分布)
取對(duì)數(shù)后Wj分布的均值、眾數(shù)、標(biāo)準(zhǔn)差等統(tǒng)計(jì)量結(jié)果詳見(jiàn)表7。依據(jù)95%的置信空間,研究選擇置信下限即M-2S所在點(diǎn)對(duì)應(yīng)的數(shù)值作為網(wǎng)絡(luò)化知識(shí)實(shí)體篩選的過(guò)濾點(diǎn)。通過(guò)對(duì)過(guò)濾點(diǎn)的自然數(shù)的轉(zhuǎn)換,找到對(duì)應(yīng)的過(guò)濾值0.007094,并在此基礎(chǔ)上完成對(duì)網(wǎng)絡(luò)化知識(shí)實(shí)體候選詞的過(guò)濾。研究共刪除5 761個(gè)詞(其中非0的實(shí)體共344個(gè)),剩余14 169個(gè)實(shí)體(包括不同文檔中的重復(fù)實(shí)體),結(jié)果如圖3所示。
表7 取對(duì)數(shù)的Wj分布的均值、眾數(shù)、標(biāo)準(zhǔn)差等統(tǒng)計(jì)量
圖3 人機(jī)協(xié)同過(guò)濾后的實(shí)體候選庫(kù)示例
2. 知識(shí)實(shí)體統(tǒng)一
為了計(jì)算網(wǎng)絡(luò)化知識(shí)實(shí)體的相似度,首先需要對(duì)實(shí)體進(jìn)行分布式詞向量計(jì)算,隨后在此基礎(chǔ)上開(kāi)展詞向量的距離計(jì)算。分布式詞向量是一種將詞之間的相似性轉(zhuǎn)換為詞所在空間向量的相似性計(jì)算。
1)BERT計(jì)算詞向量
在詞向量構(gòu)建方面,研究使用谷歌在2018年提出的BERT預(yù)訓(xùn)練模型⑦,為抽取的實(shí)體賦予詞向量。在具體計(jì)算中,以BERT-base為基礎(chǔ)開(kāi)展訓(xùn)練和計(jì)算。該模型隱層節(jié)點(diǎn)數(shù)為768,有12個(gè)自注意力頭部和12個(gè)Transformer塊。為了使模型擁有足夠的上下文信息,僅掩蓋了10%的單詞,且對(duì)每個(gè)訓(xùn)練樣本反復(fù)取樣20次,每次取128個(gè)詞例(楊晨,宋曉寧,宋威,2020)。在此基礎(chǔ)上,研究通過(guò)BERT計(jì)算將知識(shí)實(shí)體轉(zhuǎn)變成向量形式,以便后續(xù)開(kāi)展相似度的計(jì)算。
2)cos計(jì)算實(shí)體詞之間的相似度值
在計(jì)算出實(shí)體詞向量之后,研究采用余弦距離公式計(jì)算知識(shí)實(shí)體在向量空間中的相似度。
3)設(shè)定閾值過(guò)濾同義實(shí)體
在經(jīng)過(guò)余弦相似度計(jì)算之后,研究采用經(jīng)驗(yàn)值選擇方法,將相似度0.95的詞界定為具有相似語(yǔ)義實(shí)體,并進(jìn)行歸類。表8呈現(xiàn)了網(wǎng)絡(luò)化知識(shí)實(shí)體初步統(tǒng)一后的結(jié)果,最終形成5 731個(gè)實(shí)體詞。
表8 初步統(tǒng)一后的實(shí)體詞(示例)
為了確保網(wǎng)絡(luò)化知識(shí)實(shí)體抽取更加科學(xué),研究針對(duì)上述由機(jī)器篩選過(guò)濾后的知識(shí)實(shí)體,從獨(dú)立性、具有表征意義的角度,進(jìn)行人工篩選。具體來(lái)說(shuō),研究通過(guò)選定從事教育供給側(cè)改革研究的領(lǐng)域內(nèi)專家,從實(shí)體是否具有獨(dú)立性、是否具有表征意義的角度,開(kāi)展協(xié)商討論,最終形成包含4 792個(gè)相互獨(dú)立的網(wǎng)絡(luò)化知識(shí)實(shí)體(見(jiàn)表9)。
表9 最終統(tǒng)一后的實(shí)體詞(示例)
知識(shí)是教育實(shí)踐的核心內(nèi)容,知識(shí)本質(zhì)的變化,也在影響著教育實(shí)踐的方向,而在這個(gè)過(guò)程中厘清知識(shí)、獲取知識(shí)成為關(guān)鍵所在。在本研究開(kāi)展之前,知識(shí)工程領(lǐng)域關(guān)于知識(shí)抽取的研究多數(shù)集中在具有明確邏輯關(guān)系的知識(shí)層面,并沒(méi)有直接可供參考的抽取框架來(lái)抽取此類具有經(jīng)驗(yàn)性、境域化、動(dòng)態(tài)變化的網(wǎng)絡(luò)化知識(shí)。為此在本研究中,針對(duì)互聯(lián)網(wǎng)專業(yè)社區(qū)中網(wǎng)絡(luò)化知識(shí)實(shí)體抽取,創(chuàng)新性地提出一套包含“數(shù)據(jù)采集與處理-分詞與實(shí)體抽取-實(shí)體過(guò)濾與統(tǒng)一”的抽取框架,是對(duì)以往知識(shí)工程中知識(shí)抽取方法的拓寬。同時(shí),考慮到知識(shí)抽取流程中的各個(gè)環(huán)節(jié),涉及較為繁瑣和復(fù)雜的數(shù)據(jù)搜集、處理和分析過(guò)程,研究所提出的抽取框架本質(zhì)上是將此類重復(fù)繁瑣的工作進(jìn)行有效封裝,讓教育領(lǐng)域研究者僅需通過(guò)簡(jiǎn)單的方式即可快速地得到分析結(jié)果,從而將更多的精力集中在解讀和分析層面上。此外,這種融合人機(jī)協(xié)同的半自動(dòng)抽取的方法能夠抽取網(wǎng)絡(luò)化知識(shí)實(shí)體,有效地解決現(xiàn)階段對(duì)互聯(lián)網(wǎng)時(shí)代專業(yè)社區(qū)中知識(shí)實(shí)體內(nèi)容抽取的問(wèn)題,形成特定領(lǐng)域的知識(shí)圖譜,回答“是什么”的現(xiàn)實(shí)訴求,也為個(gè)性化教與學(xué)提供知識(shí)根基(陳麗,郭玉娟,高欣峰,謝雷,鄭勤華,2019)。
然而,專業(yè)社區(qū)中的知識(shí)實(shí)體抽取仍然需要重點(diǎn)考慮以下內(nèi)容:雖然網(wǎng)絡(luò)化知識(shí)中對(duì)知識(shí)的界定相對(duì)寬泛,但知識(shí)本身還是有別于一般的數(shù)據(jù)和信息,如何界定挖掘的結(jié)果是否滿足知識(shí)實(shí)體需求成為橫亙?cè)谘芯空哐矍暗默F(xiàn)實(shí)問(wèn)題,為此可以通過(guò)人工抽檢的方式對(duì)最終抽取的結(jié)果進(jìn)行信度的驗(yàn)證。另外對(duì)于抽取的實(shí)體結(jié)果,如何區(qū)分哪些屬于信息、哪些屬于態(tài)度、哪些屬于價(jià)值觀、哪些屬于命題以及哪些屬于定理,需要在現(xiàn)有實(shí)體抽取框架的基礎(chǔ)上進(jìn)一步完善和補(bǔ)充。
注釋
① https://github.com/fxsjy/jieba
② https://github.com/lancopku/PKUSeg-python
③ https://github.com/ownthink/evaluation
④ http://sighan.cs.uchicago.edu/bakeoff2005/
⑤ https://github.com/letiantian/TextRank4ZH
⑥ http://ckipsvr.iis.sinica.edu.tw/papers/category_list.pdf
⑦ https://github.com/google-research/bert#pre-trained-models