孫 坦,丁 培,黃永文,鮮國(guó)建
(1.中國(guó)農(nóng)業(yè)科學(xué)院,北京 100081;2.深圳大學(xué)圖書(shū)館,深圳 518060;3.中國(guó)農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所,北京 100081)
開(kāi)放科學(xué)大背景下,開(kāi)放出版及開(kāi)放獲取運(yùn)動(dòng)的大潮推動(dòng)各類(lèi)知識(shí)資源及服務(wù)的開(kāi)放共享化,人們可利用的開(kāi)放信息資源和語(yǔ)料逐步增多。同時(shí),隨著人工智能技術(shù),特別是深度學(xué)習(xí)技術(shù)不斷取得突破性進(jìn)展,文本挖掘技術(shù)已經(jīng)成為科技文獻(xiàn)資源開(kāi)發(fā)利用的核心驅(qū)動(dòng)力,以文本挖掘?yàn)楹诵牡闹R(shí)服務(wù)技術(shù)體系已經(jīng)基本完善,全新的數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)的科技創(chuàng)新生態(tài)正悄然形成,而支撐新生態(tài)的知識(shí)服務(wù)呈現(xiàn)出了新業(yè)態(tài),并在積極適應(yīng)新的知識(shí)生態(tài)環(huán)境。
知識(shí)服務(wù)新業(yè)態(tài)表現(xiàn)在以下3個(gè)方面:①面向?qū)iT(mén)知識(shí)發(fā)現(xiàn)及知識(shí)服務(wù)需求,以問(wèn)題解答為導(dǎo)向的人機(jī)交互式迭代過(guò)程,新的知識(shí)服務(wù)需要建立針對(duì)具體領(lǐng)域問(wèn)題的專(zhuān)門(mén)知識(shí)服務(wù)系統(tǒng);②以知識(shí)服務(wù)技術(shù)、模型、算法、工具、系統(tǒng)為支撐,融合知識(shí)組織與認(rèn)知計(jì)算,嵌入各種計(jì)量分析、演化分析、可視化分析、協(xié)同推理在內(nèi)的認(rèn)知搜索、知識(shí)發(fā)現(xiàn)、智能推薦及智能問(wèn)答服務(wù);③新的知識(shí)服務(wù)系統(tǒng)和工具不是獨(dú)立存在的,它們將積極適應(yīng)新型的數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)的知識(shí)生態(tài)環(huán)境。
文本挖掘作為知識(shí)服務(wù)技術(shù)的核心,其在知識(shí)服務(wù)新業(yè)態(tài)環(huán)境下面臨新的挑戰(zhàn)。盡管?chē)?guó)內(nèi)學(xué)界、業(yè)界一直對(duì)文本挖掘領(lǐng)域保持著深入研究、持續(xù)追蹤,但從戰(zhàn)略出發(fā),中國(guó)在新的科技創(chuàng)新業(yè)態(tài)下仍面臨自主可控性的安全挑戰(zhàn)。具體表現(xiàn)在支持科技創(chuàng)新的文本挖掘其模型、算法、工具多數(shù)非自主產(chǎn)權(quán),支撐文本挖掘技術(shù)的通用語(yǔ)料庫(kù)、基礎(chǔ)知識(shí)庫(kù)等戰(zhàn)略基礎(chǔ)資源和設(shè)施也未掌握在國(guó)人手中。筆者以文本挖掘技術(shù)為中心,梳理其技術(shù)框架,結(jié)合農(nóng)業(yè)領(lǐng)域應(yīng)用描繪其在知識(shí)服務(wù)新業(yè)態(tài)下的發(fā)展方向,最終結(jié)合國(guó)情實(shí)際提出文本挖掘?yàn)橹鞯闹R(shí)服務(wù)技術(shù)的發(fā)展策略。
主流觀點(diǎn)認(rèn)為[1-5]數(shù)據(jù)挖掘是知識(shí)發(fā)現(xiàn)的一個(gè)步驟,其指從給定數(shù)據(jù)中抽取出隱含的、以前未知的、潛在有用的知識(shí)的過(guò)程。從廣義的數(shù)據(jù)挖掘范圍看,文本挖掘可看作是數(shù)據(jù)挖掘的一類(lèi),或是數(shù)據(jù)挖掘在文本數(shù)據(jù)中的應(yīng)用[1,2]。因而文本挖掘又稱(chēng)為文本知識(shí)發(fā)現(xiàn),是指從自由非結(jié)構(gòu)化文本數(shù)據(jù)中發(fā)現(xiàn)、挖掘知識(shí)的過(guò)程。整體來(lái)看,目前文本挖掘研究主要涉及三大熱門(mén)方向:①以信息檢索、文本摘要、意見(jiàn)挖掘與情感分析為代表的文本知識(shí)發(fā)現(xiàn)的主要模式研究;②文本挖掘相關(guān)的技術(shù)方法研究,如自然語(yǔ)言處理、文本信息抽取、無(wú)監(jiān)督學(xué)習(xí)、有監(jiān)督學(xué)習(xí)、文本挖掘的概率方法以及針對(duì)文本流和社交媒體的挖掘;③應(yīng)用研究。由于生物醫(yī)學(xué)領(lǐng)域本身資源的開(kāi)放性,以及生物醫(yī)學(xué)領(lǐng)域本身具有非常豐富的語(yǔ)義關(guān)系,文本挖掘率先在生物醫(yī)學(xué)領(lǐng)域中得到應(yīng)用,此外近幾年在農(nóng)業(yè)領(lǐng)域[6]、金融領(lǐng)域[7]等也有大量的應(yīng)用案例。
最早的文本挖掘模型是1998 年FELDMAN 提出的文本知識(shí)發(fā)現(xiàn)框架[8],隨后多位研究者總結(jié)了不同的文本挖掘通用模型。隨著對(duì)文本挖掘技術(shù)研究的深入,學(xué)者們又提出了針對(duì)具體問(wèn)題的多個(gè)領(lǐng)域文本挖掘模型。相關(guān)文本挖掘模型及流程研究對(duì)比如表1 所示。
整體來(lái)看,文本挖掘的整個(gè)技術(shù)流程有多個(gè)關(guān)鍵技術(shù)節(jié)點(diǎn)不可缺失,即文本挖掘至少包括預(yù)處理、文本表示和編碼、文本分類(lèi)或聚類(lèi)、信息抽取這4 部分內(nèi)容。下文對(duì)這4個(gè)技術(shù)點(diǎn)進(jìn)行梳理總結(jié)。
自由文本的非結(jié)構(gòu)化特性決定其挖掘模式不同于結(jié)構(gòu)化數(shù)據(jù),因此需要對(duì)文檔或文本數(shù)據(jù)實(shí)施預(yù)處理。預(yù)處理首先要分析文本結(jié)構(gòu)及內(nèi)容,借助工具使其轉(zhuǎn)變成純文本內(nèi)容,消除格式差異。例如對(duì)網(wǎng)頁(yè)文檔去除各種HTML 標(biāo)記、腳本,將PDF 文檔轉(zhuǎn)換格式輸出為T(mén)XT 文檔。隨后對(duì)純文本實(shí)施分詞、過(guò)濾和歸一處理。分詞根據(jù)不同語(yǔ)言文本有所區(qū)別。英文文本內(nèi)分詞包括去除空格、標(biāo)記、標(biāo)點(diǎn)等,將語(yǔ)句還原成詞和短語(yǔ);中文文本沒(méi)有固定分隔符,分詞相對(duì)復(fù)雜,有基于規(guī)則、基于統(tǒng)計(jì)和基于理解的分詞方法[16]。過(guò)濾即構(gòu)建停用詞表把停用詞、半停用詞過(guò)濾掉。歸一,又稱(chēng)為詞形還原,是指對(duì)一個(gè)詞不同的時(shí)態(tài)表現(xiàn)形式實(shí)施歸一,其中詞干提取法是英文文本挖掘內(nèi)應(yīng)用最廣的歸一方法,通過(guò)詞干提取完成文本數(shù)據(jù)歸一。
文本表示和編碼,即數(shù)字知識(shí)表示,該步驟將自然語(yǔ)言文本變成計(jì)算機(jī)可處理的數(shù)字知識(shí)表示模式?,F(xiàn)有的文本處理或挖掘研究大都基于離散的詞表示為基礎(chǔ)的文檔表示模型,盡管有研究者提出更加復(fù)雜的概念圖模型[17]或概念解析文本表示模型[18],但由于領(lǐng)域概念網(wǎng)絡(luò)構(gòu)建的復(fù)雜性,這類(lèi)表示并未成為主流。詞表示分為布爾邏輯模型、詞袋模型、N-gram 模型等方法。早期采用布爾邏輯二值表示法[19],利用0 和1 表示文檔內(nèi)是否出現(xiàn)某個(gè)詞,以幫助快速檢索,但結(jié)果缺乏相關(guān)性特征。N-gram 模型是解決不同語(yǔ)言文本詞切分不一致問(wèn)題而產(chǎn)生的詞表示方法,主要應(yīng)用在中文文本表示中。詞袋模型(Bag of Words)是最常見(jiàn)的文本表示方式方法。它在二值表示法基礎(chǔ)上,將所有詞語(yǔ)裝進(jìn)一個(gè)袋子,計(jì)算每個(gè)單詞出現(xiàn)的次數(shù),一段文字或一個(gè)文檔即可表示為N維的向量。文本挖掘需要對(duì)詞袋模型的維度實(shí)施降維,研究者提出信息增益-互信息-交叉熵[20]、主成分分析[21]、線性判別分析[22]、潛在語(yǔ)義索引[23](LSI)、概率潛在語(yǔ)義索引(PLSA)[24]及主題模型[25]等不同的降維方法,目前后3 種方法較為常用。
表1 文本挖掘模型及流程對(duì)比Table 1 Comparison of text mining models and workflows
在詞袋模型基礎(chǔ)上,文檔表示可以采用向量空間模型(VSM)、概率模型[26]和推理網(wǎng)絡(luò)模型[27]等。其中,向量空間模型是使用最為廣泛、比較成熟的文檔表示模型。TF-IDF 是空間向量模型中用于特征權(quán)重計(jì)算的常見(jiàn)方法,有良好的性能表現(xiàn)。TF-IDF 基于詞頻和逆文檔頻率有效表示文檔,其中IDF 逆文檔頻率可以過(guò)濾掉文檔中的高頻通用詞。其他的特征權(quán)重計(jì)算方式還有基于隨機(jī)投影Gram-Schmidt 的正交化法[28]、卡方法[29]、拉普拉斯分值法[30]、互信息方法[31]等。
傳統(tǒng)的向量空間模型是一個(gè)高維的稀疏向量,并且無(wú)法解釋不同詞語(yǔ)之間的關(guān)系問(wèn)題。在神經(jīng)網(wǎng)絡(luò)模型支持下,MIKOLOV 等[32,33]使用連續(xù)詞袋法CBOW(Continuous Bag-of-Words)和Skip-Gram 兩個(gè)模型,通過(guò)上下文內(nèi)容來(lái)描繪一個(gè)詞的表示形式,得到可以表示語(yǔ)義相關(guān)性的低維稠密向量,這種文本表示稱(chēng)為分布式詞嵌入表示。在此基礎(chǔ)上產(chǎn)生了一系列的詞向量表示模型,例如Paragraph Vector模型[34]、Skip-Thought Vectors模型[35]、Conv/LSTM-GRNN模型[36]、Hierarchical Attention Networks(HAN)模型[37]等。
文本分類(lèi)和聚類(lèi)是對(duì)文本實(shí)施淺層挖掘,識(shí)別分類(lèi)信息。信息檢索就是以文本分類(lèi)和聚類(lèi)結(jié)果為基礎(chǔ)的文本挖掘應(yīng)用。文本分類(lèi)主要基于3 類(lèi)模型:邏輯模型(如決策樹(shù))、概率模型(如樸素貝葉斯)、幾何模型(如支持向量機(jī))。它們的共同特點(diǎn)是:預(yù)先有一個(gè)知識(shí)分類(lèi)框架或者知識(shí)分類(lèi)的規(guī)則,然后按照該框架和規(guī)則對(duì)每一篇文檔或每一段文本逐一地進(jìn)行處理和分類(lèi)。鄰近分類(lèi)器和神經(jīng)網(wǎng)絡(luò)算法是文本分類(lèi)任務(wù)中比較成熟和流行的方法。
文本聚類(lèi)是在沒(méi)有預(yù)先定義知識(shí)框架、規(guī)則和類(lèi)別的情況下,自動(dòng)產(chǎn)生文本分類(lèi)的過(guò)程。文本聚類(lèi)主要有以下3個(gè)方法(圖1):①層次聚類(lèi)法[38],分自頂向下、自下向上兩大類(lèi);②分區(qū)聚類(lèi),典型例子是K均值聚類(lèi)[39],即圍繞某一篇文檔,將與它語(yǔ)義相似度最近的集合分為一類(lèi),從而通過(guò)聚類(lèi)形成分類(lèi);③概率聚類(lèi)和主題模型,包括概率潛在語(yǔ)義分析模型(PLSA)和隱含狄利克雷分布(LDA)。其中,LDA 相關(guān)研究很多,產(chǎn)生了監(jiān)督LDA(sLDA)、分層LDA(hLDA)、分層彈球分配模型(HPAM)等模型變種。主題模型應(yīng)用很廣,例如采用基于LDA 的本體主題模型進(jìn)行自動(dòng)主題標(biāo)注和語(yǔ)義標(biāo)注[40],采用基于知識(shí)的主體模型進(jìn)行上下文感知的推薦[41],以及基于LDA 為實(shí)體消除歧義定義更復(fù)雜的主題模型[42]等。
信息抽取是文本挖掘最核心的技術(shù),負(fù)責(zé)從文本數(shù)據(jù)中抽取出結(jié)構(gòu)化的文本信息并獲得知識(shí)初始模式。它主要包括兩方面內(nèi)容,一是命名實(shí)體識(shí)別,二是關(guān)系抽取。
命名實(shí)體識(shí)別有多種方法。①基于詞典的方法。如AKHONDI 等在ChEBI 和HMDB 化學(xué)詞表的基礎(chǔ)上,基于LeadMine 工具對(duì)化學(xué)物進(jìn)行語(yǔ)法識(shí)別和抽取[43]。②基于預(yù)定規(guī)則的方法。根據(jù)預(yù)定義的語(yǔ)法、句法規(guī)則(人工總結(jié)[44]、基于啟發(fā)式的規(guī)則學(xué)習(xí)[45]、或機(jī)器學(xué)習(xí)歸納)來(lái)抽取文檔內(nèi)實(shí)體。③基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)方法。該方法從標(biāo)注過(guò)的訓(xùn)練文集中,讓機(jī)器歸納實(shí)體識(shí)別的模式,然后基于模式在不同算法下識(shí)別新實(shí)體。
圖1 文本聚類(lèi)主要方法及應(yīng)用Fig.1 Main methods and applications of text clustering
機(jī)器學(xué)習(xí)算法模型可分為3 類(lèi):①基于分類(lèi)的算法,如樸素貝葉斯、支持向量機(jī)。②基于序列的方法,如隱馬爾科夫模型、條件隨機(jī)場(chǎng)以及最大熵馬爾科夫模型,代表系統(tǒng)包括MnM[46]、Amilcare[47]、BioTagger-GM[48]等。③混合方法。④基于本體的實(shí)體識(shí)別方法。細(xì)分為本體構(gòu)建和本體擴(kuò)展兩種[49]。前者識(shí)別本體中的概念和屬性,基于種子概念(領(lǐng)域中常見(jiàn)術(shù)語(yǔ))和模式學(xué)習(xí)來(lái)擴(kuò)展更多的概念,如Text-To-Onto;后者則偏重于實(shí)例和屬性值層次,借助本體(如敘詞表)中的實(shí)例及同義詞環(huán)來(lái)識(shí)別實(shí)體,如PANKOW、OntoSyphon、Kylin、SOBA 等。⑤基于深度學(xué)習(xí)的方法。自2018 年底谷歌發(fā)布BERT 以后,基于BERT 的信息抽取受到廣泛關(guān)注,提出了諸多基于BERT 的改進(jìn)模型和衍生模型,如華盛頓大學(xué)提出的RoBERTa,清華提出的ERNIE,北京大學(xué)、騰訊和北京師范大學(xué)共同提出的K-BERT、哈爾濱工業(yè)大學(xué)提出的BERT-WWM 等。
關(guān)系抽取相比實(shí)體抽取更為復(fù)雜,通常要借助句法規(guī)則、上下文內(nèi)容來(lái)發(fā)現(xiàn)關(guān)系。關(guān)系抽取方法大致分為3 種,即基于規(guī)則、基于共現(xiàn)和基于分類(lèi)的關(guān)系抽取。
基于規(guī)則的關(guān)系抽取借助自然語(yǔ)言處理研究中的句法分析和語(yǔ)義分析工具,基于預(yù)定義的模式和特定語(yǔ)法關(guān)系匹配規(guī)則對(duì)語(yǔ)句關(guān)系實(shí)施模式匹配。例如為獲取生物分子之間的綁定和制約關(guān)系,定義動(dòng)詞“bind”關(guān)系模板[50],編寫(xiě)動(dòng)詞“inhibit”模板[51]。ONO等提出基于模式的系統(tǒng),使用簡(jiǎn)單詞的人工編碼規(guī)則和標(biāo)注詞性的模式,抽取生物醫(yī)學(xué)文獻(xiàn)摘要中的特殊種類(lèi)蛋白質(zhì)間的交互關(guān)系[52];PARK 等提出基于可組合分類(lèi)語(yǔ)法的深層分析器,通過(guò)定位動(dòng)詞,掃描動(dòng)詞左右部文本,獲得文本語(yǔ)法成分[53];TEMKIN 等基于上下文無(wú)關(guān)文法和詞典分析程序來(lái)抽取基因和蛋白質(zhì)間的交互關(guān)系[54];SEMREP[55]基于統(tǒng)一醫(yī)學(xué)語(yǔ)言系統(tǒng)(UMLS)利用指示規(guī)則(Indicator Rules)抽取生物文獻(xiàn)語(yǔ)句中的語(yǔ)義謂項(xiàng)。
基于共現(xiàn)原理的關(guān)系抽取的基本原理是如果兩個(gè)實(shí)體在同一個(gè)語(yǔ)句、段落、文章中出現(xiàn)時(shí),那么兩者必然存在某種關(guān)系。STAPLEY 等借助共現(xiàn)方法在Medline 記錄中檢測(cè)基因名間的相互關(guān)系[56]。
簡(jiǎn)單同現(xiàn)提取的關(guān)系類(lèi)型通常是未知的,通過(guò)應(yīng)用一定的文本分類(lèi)技術(shù)可以支持特定實(shí)體關(guān)系的提取,這是基于分類(lèi)的關(guān)系抽取方法。CRAVEN 等采用貝葉斯分類(lèi)器來(lái)求解同一語(yǔ)句中兩個(gè)及以上實(shí)體間是否存在交互關(guān)系的概率[57];DONALDSON 等利用支持向量機(jī)來(lái)抽取蛋白質(zhì)相互作用關(guān)系[58];LIU 等同樣利用支持向量機(jī)分類(lèi)方法,結(jié)合遞歸算法來(lái)抽取生物實(shí)體間的事件[59]。機(jī)器學(xué)習(xí)的方法免去了人工建立模式或者規(guī)則所需的繁重努力,通過(guò)對(duì)一個(gè)訓(xùn)練集的學(xué)習(xí)自動(dòng)建立分類(lèi)模型來(lái)判定蛋白質(zhì)之間的交互關(guān)系[60]。
梳理總結(jié)文本挖掘技術(shù)框架可以發(fā)現(xiàn),文本挖掘技術(shù)正日漸成熟并逐步見(jiàn)諸領(lǐng)域?qū)嵱?。農(nóng)業(yè)領(lǐng)域文本挖掘的熱點(diǎn)主要分布在信息檢索、信息抽取和情感分析3個(gè)方面。其中,信息檢索研究不僅關(guān)注通常意義上的檢索,還包括研究農(nóng)業(yè)問(wèn)答技術(shù)和文本分類(lèi)。信息抽取研究最為熱門(mén),除信息抽取策略外,研究還涉及命名實(shí)體檢測(cè)、監(jiān)視、知識(shí)抽取、食品價(jià)格預(yù)測(cè)和農(nóng)場(chǎng)管理等內(nèi)容。文本情感分析和意見(jiàn)挖掘在農(nóng)業(yè)領(lǐng)域中研究相對(duì)較弱,最不熱門(mén),主要研究方向是預(yù)測(cè)害蟲(chóng)的嚴(yán)重性、未來(lái)的食品價(jià)格以及民意挖掘。筆者結(jié)合案例分析文本挖掘在農(nóng)業(yè)信息檢索、智能問(wèn)答、信息監(jiān)測(cè)和知識(shí)抽取等方面應(yīng)用。
文本挖掘很早便應(yīng)用于農(nóng)業(yè)信息檢索。20 世紀(jì)60年代,農(nóng)民就可以在計(jì)算機(jī)系統(tǒng)內(nèi)利用信息檢索來(lái)識(shí)別農(nóng)業(yè)文檔,并幫助決策[61]。近年來(lái),隨著文本挖掘技術(shù)持續(xù)深入,傳統(tǒng)農(nóng)業(yè)信息檢索呈現(xiàn)以下3 方面的趨勢(shì):①農(nóng)業(yè)信息檢索趨向基于本體推薦語(yǔ)義相關(guān)術(shù)語(yǔ)來(lái)優(yōu)化查詢,或者使用“信息鏈接”技術(shù)作為擴(kuò)展關(guān)鍵字搜索策略的一部分;②TF-IDF 模型在信息檢索系統(tǒng)內(nèi)廣泛應(yīng)用,但其無(wú)法準(zhǔn)確表達(dá)用戶查詢意圖,研究者傾向于借助語(yǔ)義或關(guān)系抽取解決該問(wèn)題;③更多農(nóng)業(yè)文本分類(lèi)使用不預(yù)設(shè)分類(lèi)的無(wú)監(jiān)督學(xué)習(xí)聚類(lèi)方法,并對(duì)文本聚類(lèi)結(jié)果實(shí)施語(yǔ)義增強(qiáng)后,形成基礎(chǔ)知識(shí)庫(kù),為用戶提供語(yǔ)義更精準(zhǔn)的信息搜索服務(wù)。
文本挖掘技術(shù)結(jié)合本體應(yīng)用可以有效提高信息檢索系統(tǒng)的發(fā)現(xiàn)效率?;诒倔w的文本挖掘能夠擴(kuò)展檢索系統(tǒng)的關(guān)鍵詞搜索策略,還可以幫助系統(tǒng)理解用戶的檢索意圖,確保查詢?cè)~在正確的上下文中使用,從而提高信息檢索的召回率和準(zhǔn)確率。例如,本體的類(lèi)包括植物作物名稱(chēng)、作物描述、花期、施肥、蟲(chóng)害等。因此在信息檢索中,由于使用詞頻和逆文檔概率通常會(huì)忽略用戶查詢術(shù)語(yǔ)的意圖,當(dāng)嵌入本體之后,可以借助本體的語(yǔ)義關(guān)系確保查詢?cè)~在正確的上下文中使用,幫助消除詞語(yǔ)的歧義,從而有效地提高檢索系統(tǒng)的召回率和準(zhǔn)確性。
文本挖掘技術(shù)改進(jìn)信息檢索系統(tǒng)的案例有PADIWeb[62]、CyberBrain 等。PADI-Web 是法國(guó)開(kāi)發(fā)的一個(gè)針對(duì)非洲豬瘟、禽流感、藍(lán)舌病等動(dòng)物流行性疾病的語(yǔ)義搜索引擎,它的核心組件采用基于規(guī)則的信息抽取和數(shù)據(jù)挖掘技術(shù),通過(guò)文檔向量和數(shù)據(jù)融合的方法自動(dòng)從Google 新聞中收集、處理和提取英語(yǔ)流行病學(xué)信息,如發(fā)病新聞報(bào)道的位置、時(shí)間和主題特征(疾病宿主和疾病特征,其中疾病特征包括疾病名稱(chēng)、爆發(fā)病例數(shù)等),并將挖掘后形成的數(shù)據(jù)和知識(shí)提供給動(dòng)物衛(wèi)生局。CyberBrain 是由泰國(guó)國(guó)家電子和計(jì)算機(jī)研究中心研發(fā)的關(guān)于農(nóng)業(yè)的知識(shí)服務(wù)系統(tǒng),需求驅(qū)動(dòng)或面向?qū)嵱玫谋倔w用于從多個(gè)異構(gòu)源中聚合信息,為用戶提供最能滿足他們需求的相關(guān)信息。該系統(tǒng)開(kāi)發(fā)了基于面向任務(wù)本體的抽取引擎,用于從文檔中提取相關(guān)信息,并將其重新組織成定義結(jié)構(gòu)格式。CyberBrain利用語(yǔ)義搜索技術(shù)和PMM 模型(Problem-huMan-Method Model)實(shí)現(xiàn)知識(shí)搜索。基于本體和本體推理來(lái)獲取、抽取和整合知識(shí),生成的PMM 包括疾病問(wèn)題識(shí)別、能夠解決該疾病問(wèn)題的人類(lèi)專(zhuān)家,以及以糾正和預(yù)防方式解決該疾病問(wèn)題的方法。該系統(tǒng)主要面向4 類(lèi)用戶,有信息需求的農(nóng)民、追蹤相關(guān)研究的研究者、有經(jīng)營(yíng)需求的中小型企業(yè)和政府智能指揮中心。
農(nóng)業(yè)智能問(wèn)答系統(tǒng)是農(nóng)業(yè)領(lǐng)域中文本挖掘最熱門(mén)的應(yīng)用,問(wèn)答系統(tǒng)提供一般搜索引擎無(wú)法提供的農(nóng)業(yè)領(lǐng)域的響應(yīng)內(nèi)容,面向具體知識(shí)問(wèn)答,如農(nóng)業(yè)實(shí)用技術(shù)自動(dòng)問(wèn)答系統(tǒng)[63]、AGRI-QAS 問(wèn)答系統(tǒng)[64]等。智能問(wèn)答服務(wù)通常使用本體或潛在語(yǔ)義索引方法輔助信息檢索過(guò)程。農(nóng)業(yè)領(lǐng)域有大量的本體可供智能問(wèn)答系統(tǒng)使用,如Agrovoc、中國(guó)農(nóng)業(yè)主題詞表、THESAGRO 等。本體作為知識(shí)庫(kù),可以為智能問(wèn)答系統(tǒng)提供關(guān)鍵詞擴(kuò)展,還可以構(gòu)建基于本體的語(yǔ)料庫(kù)。潛在語(yǔ)義索引方法將搜索詞歸納為主題,然后進(jìn)行主題發(fā)現(xiàn),反饋主題匹配文獻(xiàn),提高檢索精準(zhǔn)度。
KAWAMURA 搭建了基于農(nóng)業(yè)開(kāi)放關(guān)聯(lián)數(shù)據(jù)的植物信息問(wèn)答系統(tǒng)[65],能自動(dòng)回答植物花期、施肥等信息。該系統(tǒng)使用句子級(jí)三元組(主題、動(dòng)詞、對(duì)象)對(duì)信息建模,主題是植物名稱(chēng)。問(wèn)答系統(tǒng)知識(shí)庫(kù)由預(yù)設(shè)資源和Web 抽取信息構(gòu)成,系統(tǒng)自動(dòng)解析用戶查詢所用的自然語(yǔ)言,從句子中抽取三元組并映射為SPARQL 查詢。基于查詢主題從知識(shí)庫(kù)擴(kuò)展動(dòng)詞,通過(guò)動(dòng)詞再擴(kuò)展它的對(duì)象,進(jìn)一步校準(zhǔn)、消除用戶檢索過(guò)程中的語(yǔ)義歧義。系統(tǒng)設(shè)置反饋模式,向用戶顯示排名前三的動(dòng)詞,用戶從中選擇正確或最接近的答案,反饋結(jié)果被存儲(chǔ)并用于完善進(jìn)一步的搜索。
信息抽取是文本挖掘的核心內(nèi)容,農(nóng)業(yè)領(lǐng)域的信息抽取涉和關(guān)鍵技術(shù)有基于本體的信息抽取、監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)、規(guī)則發(fā)現(xiàn)以及半監(jiān)督學(xué)習(xí)[6]。其中,基于本體的信息提取和監(jiān)督學(xué)習(xí)是最常見(jiàn)的技術(shù)?;诒倔w的信息抽取主要用于命名實(shí)體識(shí)別。在實(shí)體識(shí)別中,本體用于標(biāo)注訓(xùn)練實(shí)例,標(biāo)注通常基于規(guī)則,而實(shí)例用于后續(xù)機(jī)器學(xué)習(xí)分類(lèi)器的訓(xùn)練,識(shí)別后的命名實(shí)體可用于檢測(cè)、知識(shí)抽取等任務(wù)。監(jiān)督學(xué)習(xí)[66,67]方式是農(nóng)業(yè)領(lǐng)域信息抽取應(yīng)用較多的機(jī)器學(xué)習(xí)模式,基于訓(xùn)練數(shù)據(jù)分類(lèi)學(xué)習(xí)可以取得不錯(cuò)的抽取效果。
農(nóng)業(yè)信息抽取在食品價(jià)格預(yù)測(cè)、監(jiān)測(cè)、農(nóng)場(chǎng)管理、農(nóng)業(yè)知識(shí)提取等實(shí)用領(lǐng)域應(yīng)用廣泛。食品價(jià)格預(yù)測(cè)通過(guò)對(duì)短時(shí)效文本(如推特、新聞)實(shí)施挖掘,抽取價(jià)格內(nèi)容或抽取事件信息來(lái)預(yù)測(cè)短期內(nèi)特定食品的價(jià)格走向[68,69]。農(nóng)場(chǎng)管理則利用文本挖掘幫助農(nóng)場(chǎng)相關(guān)管理決策,例如種植、收獲、處理、干燥和存儲(chǔ)[70]。
監(jiān)測(cè)是農(nóng)業(yè)信息抽取中熱門(mén)的研究方向。通過(guò)挖掘網(wǎng)絡(luò)文本信息,可以推斷某些農(nóng)業(yè)現(xiàn)象的演變。PADI-Web 應(yīng)用信息抽取技術(shù)幫助動(dòng)物疾病監(jiān)測(cè)。首先檢索目標(biāo)相關(guān)的語(yǔ)料,并實(shí)施人工標(biāo)注,標(biāo)注內(nèi)容元素包括位置、日期、病例名稱(chēng)、宿主和病例數(shù)量等,標(biāo)注內(nèi)容經(jīng)過(guò)領(lǐng)域?qū)<以u(píng)估。然后,基于人工標(biāo)注語(yǔ)料,借助支持向量機(jī)、深度學(xué)習(xí)等機(jī)器學(xué)習(xí)算法自動(dòng)發(fā)現(xiàn)規(guī)則。經(jīng)過(guò)前期標(biāo)注和機(jī)器學(xué)習(xí)后,新輸入相關(guān)文檔能基于支持機(jī)器學(xué)習(xí)所建立的分類(lèi)模式和知識(shí)模型實(shí)現(xiàn)自動(dòng)、無(wú)監(jiān)督的流行病學(xué)元素抽取。系統(tǒng)驗(yàn)證結(jié)果顯示,其不同對(duì)象信息抽取結(jié)果介于80%至96%之間?;跍?zhǔn)確的抽取結(jié)果結(jié)合疾病爆發(fā)模式,能發(fā)現(xiàn)和預(yù)警疫情。事實(shí)證明該系統(tǒng)會(huì)提前兩到三周向世界衛(wèi)生組織預(yù)警。
知識(shí)抽取是從文本中發(fā)現(xiàn)、抽取知識(shí)模式,完成知識(shí)建模的過(guò)程。例如計(jì)算機(jī)從海量的科技文獻(xiàn)中總結(jié)出芽孢桿菌的調(diào)控網(wǎng)絡(luò)是復(fù)雜知識(shí)抽取的過(guò)程。簡(jiǎn)單的知識(shí)抽取可以基于概念術(shù)語(yǔ)進(jìn)行抽取,并結(jié)合規(guī)則來(lái)抽取相關(guān)的關(guān)系,例如構(gòu)建作物與土壤的關(guān)系[71]、食物和健康間關(guān)系[72]等。如果融合半自動(dòng)監(jiān)測(cè)工具、多源術(shù)語(yǔ)抽取、語(yǔ)義標(biāo)注、語(yǔ)義搜索引擎、關(guān)系抽取等工具和過(guò)程則能實(shí)現(xiàn)復(fù)雜的知識(shí)自動(dòng)抽取。VALSAMOU[73]設(shè)計(jì)的Alvis 知識(shí)抽取環(huán)境嘗試對(duì)復(fù)雜知識(shí)實(shí)施自動(dòng)抽取,Alvis 知識(shí)抽取環(huán)境如圖2 所示。首先通過(guò)AlvisCrawler 半自動(dòng)的獲取全文文獻(xiàn),隨后借助相關(guān)集成工具(如基于本體的術(shù)語(yǔ)抽取分類(lèi)工具ToMap,抽取關(guān)系的AlvisRE 工具,抽取蛋白質(zhì)、基因?qū)嶓w的RenBio 工具)對(duì)文本語(yǔ)料實(shí)施分類(lèi)、實(shí)體識(shí)別、術(shù)語(yǔ)抽取、關(guān)系抽取,最終抽取得到種子發(fā)育過(guò)程中調(diào)節(jié)網(wǎng)絡(luò)知識(shí),以及凝練10 種調(diào)控關(guān)系,并提供語(yǔ)義知識(shí)搜索服務(wù)(AlvisIR)和在線標(biāo)注生成新語(yǔ)料的服務(wù)(AlvisAE)。
總體而言,文本挖掘技術(shù)在農(nóng)業(yè)領(lǐng)域應(yīng)用前景非常廣闊?,F(xiàn)有研究表明,在領(lǐng)域知識(shí)組織體系(如本體等)和人工標(biāo)注語(yǔ)料的支持基礎(chǔ)上,以信息抽取為主體的文本挖掘技術(shù)可以實(shí)現(xiàn)較高質(zhì)量的知識(shí)模式抽取并支持語(yǔ)義搜索、問(wèn)答服務(wù)、信息監(jiān)測(cè)以及預(yù)測(cè)和決策支持服務(wù)等廣泛的知識(shí)服務(wù)應(yīng)用。
圖2 Alvis 知識(shí)抽取環(huán)境Fig.2 The knowledge extraction environment of the Alvis system
綜合技術(shù)框架與領(lǐng)域應(yīng)用發(fā)現(xiàn),文本挖掘技術(shù)已廣泛地應(yīng)用在知識(shí)服務(wù)系統(tǒng)中?;诳萍嘉墨I(xiàn)文本挖掘的知識(shí)服務(wù)應(yīng)用,既面向科技創(chuàng)新,如基于信息抽取的擬南芥種子發(fā)育調(diào)控網(wǎng)絡(luò)構(gòu)建;也面向產(chǎn)業(yè)應(yīng)用,如傳染病監(jiān)測(cè)、短期和大宗商品市場(chǎng)價(jià)格預(yù)測(cè)、農(nóng)場(chǎng)管理,以及學(xué)術(shù)觀點(diǎn)挖掘和情感分析。為使文本挖掘技術(shù)能在未來(lái)知識(shí)服務(wù)體系中發(fā)揮更大作用,筆者提出以下幾方面的發(fā)展策略。
當(dāng)前知識(shí)發(fā)現(xiàn)已進(jìn)入深度問(wèn)題解決和個(gè)性化服務(wù)階段,知識(shí)服務(wù)呈現(xiàn)專(zhuān)門(mén)化、智能化和交互性新業(yè)態(tài),因此傳統(tǒng)面向通用問(wèn)題解決的知識(shí)服務(wù)系統(tǒng)需要改革。新型知識(shí)服務(wù)系統(tǒng)應(yīng)針對(duì)專(zhuān)業(yè)問(wèn)題和科學(xué)家的個(gè)人需求,知識(shí)服務(wù)系統(tǒng)中的文獻(xiàn)標(biāo)注、語(yǔ)料庫(kù)構(gòu)建及優(yōu)化、知識(shí)組織體系嵌入以及機(jī)器學(xué)習(xí)算法與策略均要基于具體領(lǐng)域特征來(lái)實(shí)施,并進(jìn)行個(gè)性化迭代和驗(yàn)證。
專(zhuān)業(yè)化、專(zhuān)門(mén)化的知識(shí)服務(wù)系統(tǒng)需要適應(yīng)數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)的新型知識(shí)生態(tài)環(huán)境,以文本挖掘技術(shù)為核心的知識(shí)服務(wù)技術(shù)在其中能發(fā)揮重要作用。具體而言:①知識(shí)服務(wù)系統(tǒng)底層需要融合多源異構(gòu)數(shù)據(jù),并在語(yǔ)義知識(shí)組織框架幫助下建設(shè)融合用戶問(wèn)題、自動(dòng)學(xué)習(xí)與進(jìn)化更新的大規(guī)模語(yǔ)義知識(shí)庫(kù)。文本挖掘中的信息抽取能協(xié)助處理大規(guī)模數(shù)據(jù),而知識(shí)抽取能幫助機(jī)器總結(jié)發(fā)現(xiàn)知識(shí)模式,擴(kuò)展知識(shí)庫(kù)實(shí)例。②在語(yǔ)義知識(shí)組織體系的基礎(chǔ)上,利用深度學(xué)習(xí)、遷移學(xué)習(xí)等方法,突破語(yǔ)義智能檢索、檢索結(jié)果的多重因子排序、智能推薦計(jì)算、潛在關(guān)系挖掘、領(lǐng)域自動(dòng)綜述等關(guān)鍵技術(shù),構(gòu)建文本挖掘和認(rèn)知計(jì)算引擎。③基于大數(shù)據(jù)與微服務(wù)架構(gòu)提供解決不同問(wèn)題的應(yīng)用組件,例如語(yǔ)義標(biāo)注、語(yǔ)義搜索、智能推薦、智能問(wèn)答等,以便研究人員根據(jù)自身需求實(shí)施數(shù)據(jù)挖掘和關(guān)聯(lián)。
隨著科學(xué)研究不斷深入,研究對(duì)象的顆粒度、數(shù)量和關(guān)聯(lián)復(fù)雜性愈發(fā)微觀、海量和高維。為支撐科研人員快速發(fā)現(xiàn)知識(shí)和認(rèn)知計(jì)算,語(yǔ)義知識(shí)庫(kù)成為戰(zhàn)略基礎(chǔ)資源和設(shè)施。語(yǔ)義知識(shí)庫(kù)是文本挖掘技術(shù)和知識(shí)組織融合產(chǎn)生的結(jié)果,同時(shí)語(yǔ)義知識(shí)庫(kù)能給新的命名實(shí)體識(shí)別、語(yǔ)義相似度計(jì)算、信息抽取等文本挖掘技術(shù)提供一定的語(yǔ)義數(shù)據(jù)支撐。
誠(chéng)然,國(guó)家一直重視學(xué)科公共科學(xué)數(shù)據(jù)中心建設(shè),但縱觀科學(xué)研究領(lǐng)域,許多重要的基礎(chǔ)知識(shí)庫(kù)受?chē)?guó)外控制,知識(shí)庫(kù)資源的訪問(wèn)和獲取無(wú)法得到完全受信的保證。如生物和醫(yī)學(xué)領(lǐng)域不可或缺的NT/NR 蛋白質(zhì)/核酸數(shù)據(jù)庫(kù)、UniProt 蛋白質(zhì)數(shù)據(jù)庫(kù)、Genbank 基因數(shù)據(jù)庫(kù)等,化學(xué)領(lǐng)域的SciFinder、ChemSpider等數(shù)據(jù)庫(kù),其知識(shí)產(chǎn)權(quán)、數(shù)據(jù)訪問(wèn)、使用許可均受?chē)?guó)外控制,在目前復(fù)雜多變的國(guó)際形勢(shì)下,繼續(xù)堅(jiān)持自主建設(shè)基礎(chǔ)科學(xué)知識(shí)庫(kù)變得尤為重要。此外,從基礎(chǔ)科學(xué)數(shù)據(jù)中心或平臺(tái)轉(zhuǎn)成支撐新型知識(shí)服務(wù)所需的基礎(chǔ)語(yǔ)義知識(shí)庫(kù)還有許多工作要完成。例如完善本體知識(shí)模型和構(gòu)建優(yōu)質(zhì)的語(yǔ)料庫(kù)。
本體知識(shí)模型非常重要,它不僅充當(dāng)基礎(chǔ)知識(shí)庫(kù)中語(yǔ)義類(lèi)別和關(guān)聯(lián)的框架支撐,同時(shí)它在整個(gè)語(yǔ)義知識(shí)服務(wù)的檢索到問(wèn)答過(guò)程中發(fā)揮語(yǔ)義歸一、語(yǔ)義消歧的重要作用。因此需要以科技文獻(xiàn)為來(lái)源和核心對(duì)象,構(gòu)建不同領(lǐng)域知識(shí)單元語(yǔ)義描述模型和知識(shí)屬性體系,采用各類(lèi)知識(shí)單元語(yǔ)義關(guān)聯(lián)的知識(shí)組織方法,建設(shè)受控詞表系統(tǒng)、領(lǐng)域本體、知識(shí)圖譜等。
語(yǔ)料庫(kù)為知識(shí)服務(wù)技術(shù)提供基礎(chǔ)數(shù)據(jù)支撐,優(yōu)質(zhì)的語(yǔ)料庫(kù)能夠在信息抽取、關(guān)系抽取等文本挖掘任務(wù)中發(fā)揮巨大作用。例如上文中提到的PADI-Web 系統(tǒng),其人工構(gòu)建的高質(zhì)量小規(guī)模語(yǔ)料庫(kù)保障了實(shí)體識(shí)別、關(guān)系識(shí)別精準(zhǔn)度??梢岳梦墨I(xiàn)計(jì)量學(xué)方法構(gòu)建高質(zhì)量小規(guī)模的初始語(yǔ)料集。以傳統(tǒng)知識(shí)組織系統(tǒng)為基礎(chǔ)采集并組織原始文獻(xiàn),基于文獻(xiàn)質(zhì)量評(píng)價(jià)體系優(yōu)選抽取其中的高質(zhì)量文獻(xiàn),形成初始種子語(yǔ)料集,以此為基礎(chǔ)借助機(jī)器學(xué)習(xí)和人工篩選,生成新的更大規(guī)模的高質(zhì)量語(yǔ)料集[74]。
建議優(yōu)先在生命科學(xué)、醫(yī)學(xué)與健康、微生物學(xué)及交叉領(lǐng)域、農(nóng)業(yè)科學(xué)、資源環(huán)境、化學(xué)及交叉領(lǐng)域、邊緣交叉領(lǐng)域等重點(diǎn)領(lǐng)域部署和開(kāi)展基于文本挖掘技術(shù)為核心的知識(shí)服務(wù)。這些領(lǐng)域是當(dāng)前科技創(chuàng)新活動(dòng)非常頻繁的領(lǐng)域,科技創(chuàng)新需求旺盛;這些領(lǐng)域的交叉復(fù)合使得領(lǐng)域知識(shí)復(fù)雜、豐富,單一領(lǐng)域知識(shí)表達(dá)無(wú)法全面描述;同時(shí),這些領(lǐng)域在前人學(xué)者貢獻(xiàn)下已經(jīng)具備豐富的語(yǔ)義知識(shí)基礎(chǔ)(如大量領(lǐng)域敘詞表或本體、語(yǔ)義標(biāo)注語(yǔ)料等)。在這些領(lǐng)域內(nèi),優(yōu)先發(fā)展語(yǔ)義搜索引擎,構(gòu)建具有自主知識(shí)產(chǎn)權(quán)的基礎(chǔ)知識(shí)庫(kù),重點(diǎn)開(kāi)發(fā)文獻(xiàn)摘要與綜述、知識(shí)問(wèn)答與推理等知識(shí)服務(wù)應(yīng)用。
文本挖掘技術(shù)在信息檢索領(lǐng)域的應(yīng)用,是知識(shí)服務(wù)基礎(chǔ)和優(yōu)先的選擇。國(guó)外相關(guān)實(shí)踐,如Semantic Scholar、GoPubMed,都以語(yǔ)義搜索引擎為切入點(diǎn)推廣知識(shí)服務(wù)應(yīng)用?;谖谋就诰蚣夹g(shù)的語(yǔ)義搜索系統(tǒng),不僅可以顯著提高用戶信息檢索效率,還可以廣泛應(yīng)用和嵌入于后續(xù)復(fù)雜知識(shí)應(yīng)用(如檢索意圖智能理解、領(lǐng)域知識(shí)畫(huà)像和研究側(cè)寫(xiě)、智能知識(shí)問(wèn)答等)。
文獻(xiàn)摘要與綜述在學(xué)科邊緣交叉日益加速情境下意義非凡。接觸一個(gè)新的研究領(lǐng)域意味著需要補(bǔ)充海量相關(guān)知識(shí),文本摘要與綜述可以快速?gòu)浹a(bǔ)跨學(xué)科研究的知識(shí)缺口。它不僅是輔助科研人員快速掌握領(lǐng)域知識(shí)的重要服務(wù),也是將結(jié)構(gòu)化知識(shí)重新轉(zhuǎn)換為自然語(yǔ)言表述的知識(shí)的重要支撐。
問(wèn)答與推理服務(wù)不僅是人機(jī)交互中的智能知識(shí)服務(wù),更是智聯(lián)網(wǎng)環(huán)境中M2M(Machine to Machine)智能交互的重要基礎(chǔ)。問(wèn)答與推理服務(wù)不是面向科技創(chuàng)新,而是面向產(chǎn)業(yè)服務(wù)。例如智慧農(nóng)場(chǎng)中,植物、澆水機(jī)器人、采摘機(jī)器人之間的會(huì)話場(chǎng)景是M2M 的,需要知識(shí)問(wèn)答和推理為其提供交互的數(shù)據(jù)基礎(chǔ)。
綜上所述,以文本挖掘技術(shù)為核心的知識(shí)服務(wù)技術(shù)體系日漸成熟,可以實(shí)現(xiàn)較高質(zhì)量的知識(shí)模式抽取并支持語(yǔ)義搜索、語(yǔ)料庫(kù)訓(xùn)練、語(yǔ)義知識(shí)庫(kù)構(gòu)建和問(wèn)答服務(wù)、信息監(jiān)測(cè)和預(yù)測(cè)、決策支持服務(wù)等廣泛的知識(shí)服務(wù)應(yīng)用,在農(nóng)業(yè)等諸多領(lǐng)域具有可操作性。與此同時(shí),我們也看到知識(shí)服務(wù)新業(yè)務(wù)和科技創(chuàng)新自主安全環(huán)境改變對(duì)新型知識(shí)服務(wù)系統(tǒng)提出的新挑戰(zhàn)。美國(guó)國(guó)家醫(yī)學(xué)圖書(shū)館、英國(guó)大英圖書(shū)館等國(guó)外重要信息機(jī)構(gòu)在其未來(lái)規(guī)劃中提出,將繼續(xù)緊密依靠人工智能、數(shù)據(jù)分析、文本挖掘等信息技術(shù)的發(fā)展,加強(qiáng)基于科技文獻(xiàn)和科學(xué)數(shù)據(jù)的計(jì)算分析、知識(shí)關(guān)聯(lián)等技術(shù)創(chuàng)新,重視未來(lái)開(kāi)放科學(xué)環(huán)境中的知識(shí)服務(wù),建設(shè)學(xué)科領(lǐng)域的語(yǔ)義知識(shí)庫(kù)、提升知識(shí)發(fā)現(xiàn)能力、創(chuàng)新知識(shí)服務(wù)模式。對(duì)此,我們也應(yīng)在重點(diǎn)領(lǐng)域加快核心知識(shí)服務(wù)技術(shù)的部署,重視基礎(chǔ)知識(shí)庫(kù)建設(shè),并融合知識(shí)組織、文本挖掘、認(rèn)知計(jì)算、可視化交互等技術(shù)構(gòu)建專(zhuān)門(mén)的知識(shí)服務(wù)系統(tǒng)。
農(nóng)業(yè)圖書(shū)情報(bào)學(xué)刊2021年1期