劉芳 張濤
(國家知識(shí)產(chǎn)權(quán)局專利局專利審查協(xié)作北京中心,北京 100070)
知識(shí)圖譜(Knowledge Graph)的概念于2012 年由Google 公司提出并成功應(yīng)用于搜索引擎,給互聯(lián)網(wǎng)語義搜索帶來了活力,并成為互聯(lián)網(wǎng)知識(shí)驅(qū)動(dòng)的智能應(yīng)用的基礎(chǔ)設(shè)施。在知識(shí)圖譜出現(xiàn)之前,人工智能領(lǐng)域中對(duì)知識(shí)和結(jié)構(gòu)化數(shù)據(jù)的表示方式主要是本體(Ontology)[1]和數(shù)據(jù)庫(Database)兩大類。本體是通過對(duì)象類型、屬性類型以及關(guān)系類型對(duì)領(lǐng)域知識(shí)進(jìn)行形式化描述的模型,其強(qiáng)調(diào)的是抽象的概念表示,也即對(duì)數(shù)據(jù)的定義進(jìn)行描述,而不關(guān)注具體的個(gè)體以及這些具體個(gè)體間的關(guān)系。數(shù)據(jù)庫是為了用電腦表示和存儲(chǔ)人工智能中需要的數(shù)據(jù)而設(shè)計(jì)開發(fā)的產(chǎn)品,如關(guān)系型數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫、非關(guān)系型數(shù)據(jù)庫等。其主要存儲(chǔ)數(shù)據(jù)用于數(shù)據(jù)的傳遞和交換。而對(duì)于數(shù)據(jù)的描述和定義,在傳遞和交換中會(huì)假定參與方都已經(jīng)明白和理解,例如數(shù)據(jù)庫中的學(xué)生信息,一般數(shù)據(jù)庫假設(shè)開發(fā)者已經(jīng)知曉表結(jié)構(gòu),如表中字段屬性、主鍵含義、對(duì)應(yīng)外鍵等信息。而在人工智能中,不僅需要抽象的概念定義,也需要具體的知識(shí)實(shí)例數(shù)據(jù)、數(shù)據(jù)描述和定義等。在表達(dá)知識(shí)實(shí)例上,知識(shí)圖譜具有顯著的優(yōu)勢(shì)。知識(shí)圖譜是結(jié)構(gòu)化的語義知識(shí)庫,以結(jié)構(gòu)化的形式描述客觀世界中概念、實(shí)體及其關(guān)系,將互聯(lián)網(wǎng)的信息表達(dá)成更接近人類認(rèn)知世界的形式。其基本組成單位是<實(shí)體,關(guān)系,實(shí)體?三元組,以及實(shí)體及其相關(guān)屬性值對(duì),實(shí)體間通過關(guān)系相互聯(lián)接,構(gòu)成網(wǎng)狀的知識(shí)結(jié)構(gòu)。
為了構(gòu)建知識(shí)圖譜得到<實(shí)體,關(guān)系,實(shí)體?三元組,離不開實(shí)體關(guān)系抽取技術(shù)。實(shí)體關(guān)系抽取是自動(dòng)識(shí)別實(shí)體之間具有的某種語義關(guān)系的技術(shù),一般指的是二元關(guān)系,即兩個(gè)實(shí)體之間的關(guān)系,也可以是已知關(guān)系類型和其中一個(gè)實(shí)體找出另一個(gè)實(shí)體。根據(jù)所抽取的關(guān)系的類型是否預(yù)先限定,分為限定域關(guān)系抽取和開放域關(guān)系抽取。限定域關(guān)系抽取中實(shí)體關(guān)系類型是預(yù)先設(shè)定的有限個(gè)類別,一般是結(jié)構(gòu)化信息中屬性關(guān)系,因此也稱屬性關(guān)系抽取(Attribute Relation Extraction)或者模板關(guān)系(Template Relation)抽?。?]。開放域關(guān)系抽?。?]則不限定關(guān)系抽取的類別,使用實(shí)體對(duì)上下文中的一些詞語來描述實(shí)體間的關(guān)系,因此也稱開放信息抽?。∣pen Information Extraction)或者信息抽?。?](Information Extraction)。
本研究以全球和中國范圍內(nèi)的專利數(shù)據(jù)為數(shù)據(jù)源,對(duì)實(shí)體關(guān)系抽取技術(shù)領(lǐng)域的專利進(jìn)行檢索,數(shù)據(jù)庫為CNABS 和DWPI 專利數(shù)據(jù)庫,結(jié)合人工篩選和數(shù)據(jù)標(biāo)引,得到公開日為2021 年8 月1 日之前的專利文獻(xiàn)共7 202 篇。針對(duì)上述專利文獻(xiàn),從發(fā)展趨勢(shì)、主要專利申請(qǐng)人分析以及重要專利等角度對(duì)知識(shí)圖譜中實(shí)體關(guān)系抽取技術(shù)專利進(jìn)行總體分析。
從申請(qǐng)量的趨勢(shì)來看(見圖1),全球范圍內(nèi)在1987 年已有相關(guān)研究,2003 年增長曲線開始抬頭,我國該技術(shù)的發(fā)展從1997 年開始起步,基本同步于1996年舉行的MUC-6(包含關(guān)系抽取任務(wù))的評(píng)測(cè)會(huì)議,2014年增長曲線開始上揚(yáng)。與全球申請(qǐng)量相比,我國對(duì)該技術(shù)的研究起步較晚,落后于世界10 年左右。但隨著國內(nèi)研究學(xué)者的持續(xù)研究和國外對(duì)國內(nèi)市場(chǎng)的重視,我國在該領(lǐng)域的申請(qǐng)量與全球申請(qǐng)水平呈現(xiàn)追趕態(tài)勢(shì)。并且從申請(qǐng)量的趨勢(shì)來看,該技術(shù)還處于增長期,尤其是2015 年之后,該技術(shù)增長曲線呈指數(shù)式增長(注:2021 年該領(lǐng)域申請(qǐng)量急轉(zhuǎn)直下,是由于2021 年的有些專利申請(qǐng)數(shù)據(jù)還未公開)。
圖1 實(shí)體關(guān)系抽取領(lǐng)域的全球和中國申請(qǐng)量
如表1 所示,全球前十位主要申請(qǐng)人中美國占三席,分別是IBM、微軟和谷歌,中國占七席,分別是中國平安保險(xiǎn)、百度、中國科學(xué)院、騰訊、國家電網(wǎng)、阿里和華為。IBM 擁有專利數(shù)據(jù)最多,撤駁率最低授權(quán)率最高,被引度最高,這些指標(biāo)都表明IBM 具有卓越的創(chuàng)新實(shí)力和專利保護(hù)意識(shí)。中國平安保險(xiǎn)在數(shù)量上僅次于IBM,專利有效度高,但是平均生命周期較短(1.9 年),授權(quán)特征度較高,創(chuàng)新能力強(qiáng),專利保護(hù)力度待提升。百度作為以搜索、問答等自然語言處理為主業(yè)的企業(yè),在知識(shí)圖譜構(gòu)建中技術(shù)創(chuàng)新優(yōu)勢(shì)顯著,專利數(shù)量僅次于IBM和中國平安保險(xiǎn),專利有效度高,授權(quán)特征度合適。中國科學(xué)院中計(jì)算所、自動(dòng)化所、軟件所都有實(shí)體關(guān)系抽取的相關(guān)研究團(tuán)隊(duì),也非常重視專利申請(qǐng),申請(qǐng)數(shù)量也非??捎^,但專利度較小,授權(quán)特征度大,創(chuàng)新保護(hù)力度有待提高。騰訊作為自驅(qū)力強(qiáng)、注重自我更新進(jìn)步的企業(yè),其在實(shí)體關(guān)系抽取領(lǐng)域的技術(shù)研發(fā)投入也不小,專利有效率高,授權(quán)專利度適中。國家電網(wǎng)非常重視專利申請(qǐng),申請(qǐng)數(shù)量排第六,但是撤駁率較高,授權(quán)率較低,授權(quán)特征度高,授權(quán)專利度小,保護(hù)力度不夠。微軟作為優(yōu)秀的跨國企業(yè),在專利保護(hù)上也非常優(yōu)秀,專門成立了微軟技術(shù)許可責(zé)任有限公司用于更好地保護(hù)專利創(chuàng)新,其在授權(quán)專利度、授權(quán)特征度、同族數(shù)方面都是做得最好的,授權(quán)率上僅次于IBM 和谷歌。阿里巴巴的專利有效率高,授權(quán)專利度和特征度適中,授權(quán)率高;華為非常重視專利申請(qǐng)和保護(hù),常年穩(wěn)居專利申請(qǐng)榜第一名,在實(shí)體關(guān)系抽取領(lǐng)域也有較多技術(shù)積累,是排名前十的申請(qǐng)人中生命期最長的(10 年),質(zhì)量度也最高。谷歌的專利度最大,授權(quán)專利度和特征度上僅次于微軟,與微軟相比,具有同樣優(yōu)秀的專利保護(hù)能力(注:專利度指授權(quán)時(shí)保護(hù)專利權(quán)項(xiàng)的個(gè)數(shù),該指標(biāo)越大越好;特征度指授權(quán)獨(dú)立權(quán)利要求中技術(shù)限制特征數(shù),該指標(biāo)越小越好;撤駁率和授權(quán)率分別指撤回駁回總量和授權(quán)量占該申請(qǐng)人專利申請(qǐng)總量的比值,撤駁越少授權(quán)越多越好;生命期指申請(qǐng)日至付費(fèi)結(jié)束;同族度指平均同族數(shù),被引度指平均被引用篇數(shù);被引影響度指被引用申請(qǐng)的平均影響數(shù))。
表1 前十申請(qǐng)人的專利實(shí)力情況對(duì)比表
為了找到本領(lǐng)域中具有重要技術(shù)價(jià)值的專利,對(duì)全球7 202 篇專利的具體特征進(jìn)行分析,綜合考慮專利質(zhì)量和專利影響力,也即將兩個(gè)參數(shù)的加和得到的評(píng)分作為評(píng)價(jià)指標(biāo),找到最有價(jià)值的10 件專利,如表2所示。
表2 最具專利價(jià)值的前十篇專利文獻(xiàn)對(duì)比表
對(duì)這10 篇專利文獻(xiàn)進(jìn)行分析,可以看出:IBM在其中占據(jù)6 篇,超過一半以上的比例,展示了雄厚的技術(shù)實(shí)力,中科院有2篇,華為、騰訊各有1篇,說明中科院在科研實(shí)力上具有一定的競(jìng)爭優(yōu)勢(shì),華為、騰訊都有各自的知識(shí)圖譜數(shù)據(jù)庫,因此在該領(lǐng)域上同樣非常具有話語權(quán)。這10 篇中授權(quán)專利有5 篇,時(shí)間跨度為2003—2014 年,如果國內(nèi)企業(yè)想要布局海外市場(chǎng),上述具有影響力的專利要引起足夠重視。同時(shí),上述10 篇重要專利并非都處于有效狀態(tài)。有效狀態(tài)的專利可以注意其保護(hù)期限,公開狀態(tài)的專利可以注意其后續(xù)的審查結(jié)論。上述專利并不都具有中國同族,因此對(duì)更加重視國內(nèi)市場(chǎng)的創(chuàng)新主體而言,可能并不需要太關(guān)注那些沒有中國同族的專利。
實(shí)體關(guān)系抽取技術(shù)的發(fā)展受到了技術(shù)競(jìng)賽的推動(dòng)。消息理解會(huì)議(Message Understanding Conference,MUC)[5]的第6 年(1996 年)提出了最早的實(shí)體關(guān)系抽取任務(wù):模板元素(Template Element,TE),識(shí)別三種限定關(guān)系。2000 年后美國國家標(biāo)準(zhǔn)技術(shù)研究院(NIST)組織的自動(dòng)內(nèi)容抽取(Automatic Content Extraction Evaluation,ACE)代替MUC 繼續(xù)實(shí)體關(guān)系抽取的評(píng)測(cè),并將關(guān)系類型推廣到7 個(gè)大類和18個(gè)子類。2009年開始,ACE被歸為文本分析會(huì)議(Text Anylysis Conference,TAC)[6],人們認(rèn)識(shí)到關(guān)系抽取是知識(shí)庫構(gòu)建的關(guān)鍵環(huán)節(jié),將關(guān)系抽取作為知識(shí)庫構(gòu)建(Knowledge Base Population)的子任務(wù)槽填充任務(wù)(Slot Filling),關(guān)系類型增長到40 種?,F(xiàn)在TAC-KBP 評(píng)測(cè)仍然是知識(shí)圖譜領(lǐng)域非常權(quán)威的評(píng)測(cè)。與MUC 同樣推動(dòng)關(guān)系抽取技術(shù)發(fā)展的還有從1998 年舉辦的語義評(píng)測(cè)會(huì)議(SemEval)[7],成立至今,也一直都有關(guān)系抽取相關(guān)的任務(wù)。
在上述技術(shù)評(píng)測(cè)的推動(dòng)下,形成了一些知識(shí)圖譜的雛形系統(tǒng)。限定域?qū)嶓w關(guān)系抽取的代表性成果有卡內(nèi)基梅隆大學(xué)(CMU)Mitcehll 教授團(tuán)隊(duì)于2010 年開發(fā)出的一套自學(xué)習(xí)系統(tǒng)NELL(Never-Ending Language Learner)系統(tǒng),微軟亞洲研究院2012 年推出的一套旨在讓機(jī)器更好理解人類交流的概念知識(shí)圖譜Probase 即Concept Graph 的前身以及谷歌公司的知識(shí)圖譜Google Knowledge Graph(2012)和Knowledge Vault(2014)。其中NELL 是卡內(nèi)基梅隆大學(xué)基于“Read the web”項(xiàng)目開發(fā)的一套永不停歇的語言學(xué)習(xí)系統(tǒng),每天不間斷地執(zhí)行兩項(xiàng)任務(wù):閱讀和學(xué)習(xí),可以抽取大量的實(shí)體關(guān)系三元組,并標(biāo)注抽取的迭代次數(shù)、時(shí)間以及系統(tǒng)置信度等。Knowledge Vault 是Google 于2014 年創(chuàng)建的一個(gè)大規(guī)模知識(shí)圖譜,相較于Google 2012 年基于Freebase 的知識(shí)圖譜版本Google Knowledge Graph,Knowledge Vault 不再采用眾包的方式進(jìn)行圖譜構(gòu)建,而是通過算法自動(dòng)搜集網(wǎng)上信息,通過機(jī)器學(xué)習(xí)方法對(duì)已有的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行集成和融合,將其變成可用的知識(shí)。國內(nèi)也產(chǎn)生了一些知識(shí)圖譜:2012 年公開的搜狗知立方、2013 年公開的百度知心,還有2017 年亮相TAC-KBP 評(píng)測(cè)的騰訊Top-Base,TopBase拿下了當(dāng)年該項(xiàng)評(píng)測(cè)的冠軍等。
隨著對(duì)限定域關(guān)系抽取的研究,研究學(xué)者發(fā)現(xiàn)限定關(guān)系抽取存在的局限性。由于自然語言的多樣性和豐富性,導(dǎo)致關(guān)系類型是無法窮盡或者有些很難預(yù)先定義關(guān)系類型,因此提出了另外一種思路,即不事先定義關(guān)系類型,而是使用實(shí)體對(duì)上下文中的一些詞語來描述實(shí)體間的關(guān)系。華盛頓大學(xué)的人工智能研究組分別于2007 年陸續(xù)推出多款開放域關(guān)系抽取系統(tǒng):TextRunner(2007 年)、Kylin(2008 年)、WOE(2010 年)、ReVerb(2011 年)等系統(tǒng),以及知識(shí)圖譜YAGO。其中TextRunner 和ReVerb 系統(tǒng)是KnowItAll 項(xiàng)目中的兩個(gè)代表系統(tǒng),ReVerb是TextRunner的升級(jí)版本。
通過以上分析,在實(shí)體關(guān)系抽取領(lǐng)域,我國相較全球起步較晚,但技術(shù)追趕之勢(shì)迅速,雖與IBM等尚有一定差距,但目前在該領(lǐng)域已經(jīng)有足夠的技術(shù)積累,至少有七家科研機(jī)構(gòu)或者企業(yè)具有與美國強(qiáng)企IBM、谷歌和微軟相競(jìng)爭的實(shí)力。盡管IBM 仍是該領(lǐng)域非常具有優(yōu)勢(shì)地位的國際企業(yè),但是通過中國平安保險(xiǎn)、BAT 等企業(yè)的努力,我國在該領(lǐng)域也非常有話語權(quán),尤其從騰訊的知識(shí)圖譜產(chǎn)品在國際比賽中取得的優(yōu)異成績來看,我國的技術(shù)實(shí)力處于世界領(lǐng)先水平。