摘 要:對(duì)網(wǎng)頁進(jìn)行有效的標(biāo)注,有助于搜索引擎、瀏覽器等應(yīng)用程序從中抽取結(jié)構(gòu)化的數(shù)據(jù)。本文首先介紹Schema.org詞表的基本情況,然后討論將UMLS語義網(wǎng)絡(luò)轉(zhuǎn)換為Schema.org詞表擴(kuò)展成分的5個(gè)關(guān)鍵步驟,最后通過實(shí)例探討基于Schema.org詞表的醫(yī)學(xué)類網(wǎng)頁語義標(biāo)注方法。
關(guān)鍵詞:網(wǎng)頁標(biāo)注;UMLS;詞表;微數(shù)據(jù)
中圖分類號(hào):G202 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1003-5168(2018)01-0015-03
Semantic Annotations of Medical Web Pages Based
on Schema.Org Vocabulary
GUO Weijia
(College of Information Management, Zhengzhou University,Zhengzhou Henan 450001)
Abstract: Effective annotations of web pages are helpful for search engines and browsers to extract structured data. Firstly, this paper introduced the basic situation of the Schema.org vocabulary. Then it discussed five key steps converting the UMLS Semantic Network into a Schema.org vocabulary extension. Finally, it illustrated a semantic annotation method of medical web pages based on Schema.org vocabulary through an example.
Keywords: annotations of web pages;UMLS;vocabularies;microdata
1 研究背景
網(wǎng)頁中的HTML標(biāo)簽主要用于告訴瀏覽器如何顯示在標(biāo)簽中包含的信息,例如,
Schema.org是一個(gè)協(xié)作式團(tuán)體,由Google、Microsoft和Yahoo等公司聯(lián)合發(fā)起,其使命是創(chuàng)建、維護(hù)一個(gè)可用來描述互聯(lián)網(wǎng)上結(jié)構(gòu)化數(shù)據(jù)的詞表 。目前,已有1 000多萬個(gè)網(wǎng)站使用Schema.org詞表來標(biāo)注網(wǎng)頁,Google、Microsoft、Yandex和Yahoo等公司的搜索引擎也已支持Schema.org詞表。現(xiàn)有研究結(jié)果表明,采用Schema.org詞表標(biāo)注的網(wǎng)頁比未采用的網(wǎng)頁更易被搜索引擎檢出[1]。
本文將利用Schema.org提供的詞表擴(kuò)展機(jī)制,把UMLS(Unified Medical Language System)的語義網(wǎng)絡(luò)擴(kuò)展到Schema.org詞表中,并在此基礎(chǔ)上實(shí)現(xiàn)醫(yī)學(xué)類網(wǎng)頁的語義標(biāo)注。
2 Schema.org詞表基本情況
Schema.org詞表由642個(gè)類、992個(gè)屬性和219個(gè)枚舉值組成,其中所有的類按樹型結(jié)構(gòu)組織起來形成一個(gè)類目體系,樹根為類Thing。每個(gè)類下均定義了0至多個(gè)屬性,如類Map下定義了一個(gè)屬性Map Type,類Dance Event下沒有定義屬性。Schema.org詞表只有一個(gè)一級(jí)類目(即根類Thing),其下包含9個(gè)二級(jí)類目,如表1所示。
3 基于UMLS語義網(wǎng)絡(luò)的Schema.org詞表擴(kuò)展
Schema.org詞表是一個(gè)基本的核心詞表,能滿足大多數(shù)普通網(wǎng)頁的語義標(biāo)注用詞需求。然而,用戶在進(jìn)行網(wǎng)頁標(biāo)注時(shí),可能會(huì)需要更專業(yè)、更精細(xì)的詞匯??梢岳肧chema.org的擴(kuò)展機(jī)制,將UMLS的語義網(wǎng)絡(luò)擴(kuò)展到Schema.org中,以便更好地描述醫(yī)學(xué)類網(wǎng)頁的主題內(nèi)容。
UMLS是美國(guó)國(guó)家醫(yī)學(xué)圖書館開發(fā)的一套醫(yī)學(xué)語言系統(tǒng),包括超級(jí)敘詞表、語義網(wǎng)絡(luò)、專家詞典等幾個(gè)部分。超級(jí)敘詞表中的術(shù)語來自100多個(gè)詞匯表、代碼集和敘詞表。語義網(wǎng)絡(luò)則是為建立概念術(shù)語間的相互關(guān)系而設(shè)計(jì)的[2]。專家詞典收錄常見的英語單詞和生物醫(yī)學(xué)術(shù)語。
從本質(zhì)上看,UMLS的語義網(wǎng)絡(luò)是一個(gè)頂層本體,由語義類型和語義關(guān)系兩部分組成。其中,語義類型是結(jié)點(diǎn),語義關(guān)系是連接結(jié)點(diǎn)的邊。語義類型共有133個(gè),主要用于對(duì)UMLS超級(jí)敘詞表中的所有概念進(jìn)行分類;語義關(guān)系共有54個(gè),主要用于描述不同語義類型之間的關(guān)系。
在表達(dá)醫(yī)學(xué)領(lǐng)域知識(shí)體系方面,UMLS語義網(wǎng)絡(luò)比Schema.org詞表的醫(yī)學(xué)實(shí)體類MedicalEntity更為全面、精細(xì),將前者擴(kuò)展到Schema.org核心詞表中,有助于更好地標(biāo)注醫(yī)學(xué)類網(wǎng)頁。
如表2所示,UMLS的語義類型分為兩類:Entity和Event。前者描述各種物理對(duì)象和概念實(shí)體,后者描述各種物理對(duì)象和概念實(shí)體的活動(dòng)、現(xiàn)象和過程。UMLS的語義關(guān)系也分為兩類:isa和associated_with。其中后者又進(jìn)一步分為5種類型:物理關(guān)系(physically_related _to)、空間關(guān)系(spatially_related_to)、功能關(guān)系(functionally_related_to)、時(shí)間關(guān)系(temporally_related_to)和概念關(guān)系(conceptually_related_to)。
將UMLS語義網(wǎng)絡(luò)擴(kuò)展到Schema.org詞表中,需要通過以下步驟實(shí)現(xiàn)。
①對(duì)語義類型的名稱進(jìn)行處理。每個(gè)語義類型的名稱都是以詞語的方式存在的,具體分為兩種情況即單個(gè)詞語、詞組,其中詞組的各個(gè)單詞之間以空格分隔。應(yīng)刪除詞組中的所有空格和逗號(hào),同時(shí)每個(gè)單詞的首字母均大寫。例如,語義類型Therapeutic or Preventive Procedure,經(jīng)過上述處理后變?yōu)椋篢herapeuticOrPreventiveProcedure。
②對(duì)語義關(guān)系的名稱進(jìn)行處理。盡管UMLS的語義關(guān)系名稱中已經(jīng)用下劃線代替了空格,但仍然不符合Schema.org對(duì)屬性名稱的約定。應(yīng)刪除下劃線,除第一個(gè)單詞首字母小寫外,其他單詞的首字母均大寫。例如,語義關(guān)系physically_related_to,經(jīng)過上述處理后變?yōu)閜hysicallyRelatedTo。
③確定UMLS語義網(wǎng)絡(luò)與Schema.org核心詞表的關(guān)系。將UMLS語義網(wǎng)絡(luò)作為Schema.org詞表的擴(kuò)展,定位為Schema.org詞表一級(jí)類目Thing的子類。對(duì)于UMLS語義網(wǎng)絡(luò)中的語義類型X來說,其對(duì)應(yīng)的類繼承樹為Thing.X。例如,表2中的語義類型Bird的類繼承樹為Thing.PhysicalObject.Organism.Eukaryote.Animal.VertebrateBird。
④為UMLS語義網(wǎng)絡(luò)聲明一個(gè)名字空間,并為每個(gè)語義類型和語義關(guān)系聲明一個(gè)HTTP URI。按照Schema.org網(wǎng)站的要求,將名字空間聲明為http://umls.schema.org,每個(gè)語義類型和語義關(guān)系的HTTP URI格式均為:http://umls.schema.org/?。例如,語義類型Bird的HTTP URI為http://umls.schema.org/Bird。
⑤將上述經(jīng)過處理的語義類型和語義關(guān)系用owl語言進(jìn)行描述,形成一個(gè)RDF文檔并提交給Schema.org網(wǎng)站。詞表擴(kuò)展獲得批準(zhǔn)后,http://umls.schema.org即可供用戶使用。
經(jīng)過上述步驟處理的UMLS語義網(wǎng)絡(luò)轉(zhuǎn)變?yōu)镾chema.org詞表的擴(kuò)展成分,其中包含了大量的醫(yī)學(xué)類術(shù)語,可以用于標(biāo)注醫(yī)學(xué)類網(wǎng)頁。
4 基于Schema.org詞表的醫(yī)學(xué)類網(wǎng)頁標(biāo)注方法
用擴(kuò)展后的Schema.org詞表對(duì)醫(yī)學(xué)類網(wǎng)頁進(jìn)行語義標(biāo)注,可采用Microdata、RDFa和JSON-LD等多種格式。本文采用Microdata(以下稱為“微數(shù)據(jù)”)格式進(jìn)行標(biāo)注。
4.1 微數(shù)據(jù)格式
微數(shù)據(jù)格式是一種HTML規(guī)范,目的是在網(wǎng)頁內(nèi)容中嵌入元數(shù)據(jù),以便搜索引擎、Web爬行器和瀏覽器從中抽取結(jié)構(gòu)化的數(shù)據(jù)并在此基礎(chǔ)上理解網(wǎng)頁內(nèi)容的語義。微數(shù)據(jù)格式提供一組標(biāo)簽,用于描述網(wǎng)頁中的項(xiàng)(item)、名稱-值對(duì)(name-value pairs),如表3所示。
4.2 網(wǎng)頁標(biāo)注
對(duì)于給定的醫(yī)學(xué)類網(wǎng)頁,可以利用擴(kuò)展后的Schema.org詞表進(jìn)行標(biāo)注。本文以某網(wǎng)頁中的如下文本片段為例來說明具體的標(biāo)注方法。
Tu Youyou (Chinese: 屠呦呦; born 30 December 1930) is a Chinese pharmaceutical chemist and educator. She is best known for discovering artemisinin (also known as qinghaosu) , used to treat malaria, which saved millions of lives。
上述網(wǎng)頁文本內(nèi)容涉及3個(gè)對(duì)象:Tu Youyou(屠呦呦)、qinghaosu(青蒿素)、malaria(虐疾)。標(biāo)注時(shí),需要根據(jù)對(duì)象的性質(zhì)從擴(kuò)展后的Schema.org詞表中選擇合適的類型,同時(shí)還要選擇合適的屬性。標(biāo)注結(jié)果如下:
Tu Youyou (Chinese:屠呦呦;)
is a Chinese pharmaceutical chemist and educator.
She is best known for discovering
artemisinin (also known asqinghaosu), used to treatmalaria, which saved millions of lives.
在上述標(biāo)注結(jié)果中,屠呦呦的類型是人,選擇Schema.org詞表中的類Person作為其類型,并選擇該類的3個(gè)屬性name、additionalName、birthDate來標(biāo)明屠呦呦的姓名、英文名稱和出生日期。青蒿素是藥物,選擇擴(kuò)展詞表中的類PharmacologicSubstance作為其類型,并選擇該類的3個(gè)屬性name、additionalName、treats來標(biāo)明青蒿素的名稱、附加名稱和治療的疾病,其中屬性treats是該類自身的屬性,屬性name和additionalName繼承自http://schema.org/Thing。瘧疾是疾病,選擇擴(kuò)展詞表中的類DiseaseOrSyndrome作為其類型,并選擇該類的屬性name來標(biāo)明瘧疾的名稱,該屬性繼承自http://schema.org/Thing。
搜索引擎、Web爬行器和瀏覽器可以很容易地從上述標(biāo)注結(jié)果中提取以下結(jié)構(gòu)化數(shù)據(jù):
DiseaseOrSyndrome
name: malaria
PharmacologicSubstance
name: artemisinin
additionalName: qinghaosu
treats: malaria
Person
additionalName: Tu Youyou
name: 屠呦呦
birthDate: 1930-12-30
上述結(jié)構(gòu)化數(shù)據(jù)中的類和屬性都來自擴(kuò)展后的Schema.org詞表,且實(shí)際上都帶有前綴http://schema.org或http://umls.schema.org,因此上述標(biāo)注實(shí)質(zhì)上是一種語義標(biāo)注。
5 結(jié)語
對(duì)網(wǎng)頁進(jìn)行有效的標(biāo)注,有助于搜索引擎、瀏覽器和Web爬行器從中抽取結(jié)構(gòu)化的數(shù)據(jù)。Google和Microsoft等公司聯(lián)合推出了可用來標(biāo)注網(wǎng)頁的Schema.org詞表,并允許外界對(duì)其詞表進(jìn)行擴(kuò)展。UMLS的語義網(wǎng)絡(luò)是一個(gè)醫(yī)學(xué)領(lǐng)域頂層本體,可將其中的語義類型、語義關(guān)系轉(zhuǎn)換為符合Schema.org要求的類和屬性并擴(kuò)展到Schema.org詞表中。借助于微數(shù)據(jù)、RDFa、JSON-LD等格式和擴(kuò)展后的Schema.org詞表,可實(shí)現(xiàn)醫(yī)學(xué)類網(wǎng)頁的語義標(biāo)注。
參考文獻(xiàn):
[1]賈君枝,王醒.基于微數(shù)據(jù)的語義標(biāo)注應(yīng)用研究[J].情報(bào)理論與實(shí)踐,2016(2):54-58.
[2]方平.試論一體化醫(yī)學(xué)語言系統(tǒng)(UMLS)超級(jí)敘詞表的特點(diǎn)[J].圖書情報(bào)工作,1998(10):26-29,41.