甘露
隨著科技論文數(shù)的不斷增長(zhǎng),科技論文中的數(shù)理公式也大量增加,對(duì)數(shù)理公式的識(shí)別與檢索變得尤為重要。目前,許多國(guó)內(nèi)外學(xué)者已經(jīng)對(duì)該問(wèn)題進(jìn)行了研究。但由于數(shù)理公式本身表達(dá)方式多樣,格式多且復(fù)雜,使得數(shù)理公式的識(shí)別與檢索具有一定的難度。在大多數(shù)科技文獻(xiàn)中,數(shù)理公式都是不可或缺的一部分,對(duì)數(shù)理公式進(jìn)行識(shí)別與檢索,構(gòu)建一個(gè)通用的識(shí)別檢索系統(tǒng),對(duì)于文獻(xiàn)的交流共享以及防止文獻(xiàn)抄襲作假等有著重要的作用。
1數(shù)理公式識(shí)別
1.1基于神經(jīng)網(wǎng)絡(luò)的印刷體數(shù)理公式識(shí)別方法
針對(duì)印刷體數(shù)學(xué)公式符號(hào)識(shí)別進(jìn)行研究。運(yùn)用神經(jīng)網(wǎng)絡(luò)對(duì)印刷體的數(shù)學(xué)公式符號(hào)進(jìn)行識(shí)別首先需要對(duì)公式圖片進(jìn)行圖像預(yù)處理。預(yù)處理包括:1)圖像二值化,2)細(xì)化處理。在預(yù)處理的基礎(chǔ)上,采用組合不變矩進(jìn)行數(shù)學(xué)公式符號(hào)特征的提取。具體提取方法為主成分分析和奇異值分解。提取到的特征值將作為后續(xù)神經(jīng)網(wǎng)絡(luò)的輸入。其次針對(duì)數(shù)學(xué)符號(hào)進(jìn)行處理,預(yù)處理階段重點(diǎn)為符號(hào)的分割,仍然采用矩方法進(jìn)行特征提取,運(yùn)用多級(jí)神經(jīng)網(wǎng)絡(luò)進(jìn)行數(shù)學(xué)符號(hào)識(shí)別。在特征提取階段采用了決策樹(shù)方法對(duì)孤立的公式進(jìn)行抽取,應(yīng)用神經(jīng)網(wǎng)絡(luò)對(duì)內(nèi)嵌公式進(jìn)行抽取。后又采用了改進(jìn)的神經(jīng)網(wǎng)絡(luò)模型——卷積神經(jīng)網(wǎng)絡(luò)。識(shí)別公式特征時(shí)具有穩(wěn)定性高的特點(diǎn),但較為費(fèi)時(shí)。在應(yīng)用神經(jīng)網(wǎng)絡(luò)對(duì)印刷體數(shù)學(xué)公式識(shí)別的研究中,已經(jīng)取得了一定的研究成果。神經(jīng)網(wǎng)絡(luò)在模式識(shí)別問(wèn)題中也得到了廣泛應(yīng)用,且識(shí)別效果較好。
1.2基于基線結(jié)構(gòu)的印刷體數(shù)理公式識(shí)別方法
基于基線結(jié)構(gòu)的數(shù)理公式識(shí)別方法,該方法將識(shí)別過(guò)程分為六個(gè)步驟,即字符預(yù)處理、字符分割、字符識(shí)別、字符空間關(guān)系確定、邏輯關(guān)系確定和語(yǔ)義搭建。由于脫機(jī)公式的結(jié)構(gòu)固定,無(wú)法像聯(lián)機(jī)公式那樣可以改變,使分析容易進(jìn)行,為此,對(duì)該算法進(jìn)行改進(jìn). 但該方法只適用于一般的印刷體公式識(shí)別,對(duì)于結(jié)構(gòu)不明確的公式的識(shí)別效果并不理想。
1.3基于多候選的數(shù)理公式識(shí)別方法
基于多候選的數(shù)學(xué)公式識(shí)別系統(tǒng),該系統(tǒng)主要包括三部分:公式圖像預(yù)處理、多候選公式符號(hào)分割和多候選結(jié)構(gòu)分析。預(yù)處理步驟與其他方法相同。在多候選符號(hào)分割階段,從數(shù)學(xué)公式圖像中分割出帶有屬性的公式符號(hào)串,應(yīng)用動(dòng)態(tài)規(guī)劃方法分割公式字符,字符分割完成后,采用基于層次結(jié)構(gòu)的公式結(jié)構(gòu)分析方法對(duì)公式進(jìn)行分析,這里分為三個(gè)階段:多候選矩陣分析階段、多候選子表達(dá)式分析階段和多候選角標(biāo)分析階段。在獲得數(shù)學(xué)公式結(jié)構(gòu)分析結(jié)果后,用LaTex 格式和 MathType 格式分別表示這些結(jié)構(gòu)關(guān)系樹(shù)。雖然該識(shí)別系統(tǒng)取得了較好的公式識(shí)別效果,由于符號(hào)的粘連、斷裂、多重角標(biāo)的原因引起的分析錯(cuò)誤仍使識(shí)別有一定的錯(cuò)誤,還需進(jìn)一步改進(jìn).
2數(shù)理公式檢索
2.1分層次索引法
基于分層次倒排索引的公式檢索方法。其公式檢索主要包括4個(gè)功能:Web頁(yè)面的下載、公式的提取、公式索引和查詢(xún)服務(wù)。公式提取時(shí)會(huì)將在Web頁(yè)面中提取到的LaTex格式和MathML格式的公式存入數(shù)據(jù)庫(kù),并使用倒排表對(duì)數(shù)據(jù)庫(kù)進(jìn)行索引,隨著索引層數(shù)的逐漸增多,索引也就越精確,從而達(dá)到了索引的目的。然而在數(shù)據(jù)量很大的情況下進(jìn)行倒排索引,索引量會(huì)非常大,所占的存儲(chǔ)空間也非常大,存儲(chǔ)和檢索效率都比較低。
2.2基于文本的數(shù)學(xué)符號(hào)索引方法
當(dāng)數(shù)學(xué)公式以文本字符串格式存儲(chǔ)表示時(shí),數(shù)學(xué)公式可以看作是由各種數(shù)學(xué)符號(hào)如字母、數(shù)字、運(yùn)算符、函數(shù)名等構(gòu)成的句子。其中的數(shù)學(xué)符號(hào)相當(dāng)于構(gòu)成語(yǔ)句的單詞。對(duì)這些數(shù)學(xué)符號(hào)建立索引,并通過(guò)組合查詢(xún)可以實(shí)現(xiàn)數(shù)學(xué)公式的查詢(xún)。其中,分詞處理方法與普通文本分詞方法不同,在處理數(shù)學(xué)公式符號(hào)組成的符號(hào)文本時(shí),需要開(kāi)發(fā)新的數(shù)學(xué)公式分詞器。分詞結(jié)果的好壞對(duì)檢索結(jié)果具有重要的影響,是此方法需要克服的難點(diǎn)所在。且同一公式的表達(dá)方式中符號(hào)排列不同,無(wú)法進(jìn)行準(zhǔn)確的檢索。
2.3基于XML的關(guān)系型數(shù)據(jù)庫(kù)索引方法
由于倒排索引表無(wú)法保存公式間的運(yùn)算關(guān)系,首先需要把 XML 文檔轉(zhuǎn)換成關(guān)系數(shù)據(jù)庫(kù)。在數(shù)據(jù)庫(kù)中,倒排表存儲(chǔ)數(shù)學(xué)公式索引的文檔列表信息,數(shù)學(xué)公式運(yùn)算表存儲(chǔ)公式間的運(yùn)算關(guān)系,通過(guò)表查詢(xún)實(shí)現(xiàn)數(shù)學(xué)公式索引查詢(xún)?;跀?shù)據(jù)庫(kù)的索引方法的主要問(wèn)題包括數(shù)據(jù)庫(kù)設(shè)計(jì)、數(shù)學(xué)公式解析、數(shù)學(xué)查詢(xún)到數(shù)據(jù)庫(kù)查詢(xún)的轉(zhuǎn)換。
2.4 Math Search搜索引擎方法
Math Search是一個(gè)可進(jìn)行數(shù)學(xué)內(nèi)容檢索的搜索引擎,采用了基于全文的搜索引擎 Lucene。Math Search首先利用一系列爬蟲(chóng)進(jìn)程從網(wǎng)絡(luò)上收集信息,并判斷其是否有數(shù)學(xué)相關(guān)的內(nèi)容,并從網(wǎng)頁(yè)中提取所需數(shù)學(xué)公式、數(shù)學(xué)符號(hào)等。為了實(shí)現(xiàn)細(xì)粒度的數(shù)學(xué)公式查詢(xún),將搜集到的公式分為若干 N-grams 的子公式,并對(duì)每一子公式按照權(quán)重計(jì)算方法賦予一定權(quán)重并建立索引。但 Math Search 系統(tǒng)具有一定的局限性,即無(wú)法實(shí)現(xiàn)與格式無(wú)關(guān)的數(shù)學(xué)公式搜索。因?yàn)閿?shù)學(xué)公式有多種描述形式,如果對(duì)每種描述形式都能進(jìn)行索引,就需要開(kāi)發(fā)多種索引方法。Math Search雖然已將幾種不同格式的數(shù)學(xué)公式轉(zhuǎn)換成一種格式,但是目前的轉(zhuǎn)換工作還不夠完善,還需要改進(jìn)。
3總結(jié)
數(shù)理公式的識(shí)別與檢索是具有挑戰(zhàn)性且有重大現(xiàn)實(shí)意義的研究領(lǐng)域。公式檢索的關(guān)鍵問(wèn)題是定義查詢(xún)語(yǔ)言,規(guī)范查詢(xún)和搜索的文檔,定義索引和匹配的方法,并提供相關(guān)反饋。公式識(shí)別的關(guān)鍵問(wèn)題是檢測(cè)和分類(lèi)數(shù)學(xué)符號(hào)、分析符號(hào)布局,并構(gòu)建意義表示。公式識(shí)別與抽取未來(lái)的研究方向包括內(nèi)嵌表達(dá)式的檢測(cè)、矢量圖形文檔中數(shù)學(xué)表達(dá)式的自動(dòng)檢測(cè)、以及PDF文獻(xiàn)中公式的抽取等。公式檢索未來(lái)的研究方向是改進(jìn)查詢(xún)和文檔表示歸一化的方法。包括數(shù)學(xué)公式的輸入、定位、識(shí)別和轉(zhuǎn)換等。
(作者單位:中國(guó)科學(xué)技術(shù)信息研究所)