金家琴,夏翠娟
“本體(Ontology)是對概念體系的明確的、形式化、可共享的規(guī)范說明”,“本體是領(lǐng)域知識規(guī)范的抽象和描述,表達(dá)、共享、重用知識的方法”。本體構(gòu)建的目的是領(lǐng)域知識的共享和重用,標(biāo)準(zhǔn)化和形式化的領(lǐng)域本體,能夠?yàn)樾畔⑾到y(tǒng)之間的高層互操作提供很好的工具[1]。近年來,在跨領(lǐng)域知識共享和重用的需求推動(dòng)下,本體成為語義網(wǎng)環(huán)境下知識組織和數(shù)據(jù)語義化表達(dá)的關(guān)鍵技術(shù),被廣泛應(yīng)用于關(guān)聯(lián)數(shù)據(jù)(Linked Data)和知識圖譜(Knowledge Graph)技術(shù)中,以實(shí)現(xiàn)互聯(lián)網(wǎng)環(huán)境下領(lǐng)域知識的語義互操作。
機(jī)構(gòu)(Organization)在管理學(xué)中被定義為“由若干個(gè)人或群體所組成的、有共同目標(biāo)和一定邊界的社會(huì)實(shí)體”。在關(guān)聯(lián)數(shù)據(jù)和知識圖譜中,機(jī)構(gòu)被作為一種命名實(shí)體(Name Entity),為每一個(gè)機(jī)構(gòu)賦予URI,用機(jī)器可理解的形式化語言來表示機(jī)構(gòu)的各種特性和與人、地、時(shí)、事等其他命名實(shí)體之間的關(guān)系,在數(shù)字人文數(shù)據(jù)基礎(chǔ)設(shè)施構(gòu)建中有著重要的作用。因而,設(shè)計(jì)一套靈活可擴(kuò)展的機(jī)構(gòu)本體模型和詞表是不可回避的問題。機(jī)構(gòu)的名稱、人員、所在地、層級關(guān)系和歷史沿革、變遷等屬性特征以及各機(jī)構(gòu)實(shí)體間的相互關(guān)系等,包含著復(fù)雜的語義信息。在關(guān)系數(shù)據(jù)庫模型中,實(shí)體和實(shí)體間的各種聯(lián)系均用二維表表示,一個(gè)關(guān)系就是一個(gè)二維表,這種單一的數(shù)據(jù)結(jié)構(gòu)在存取數(shù)據(jù)時(shí)效率非常高,但同時(shí)也丟失了大量的語義信息,無法實(shí)現(xiàn)數(shù)據(jù)的語義化表達(dá)。而本體作為一種共享概念模型的明確的形式化描述,為信息提供了語義表示機(jī)制。
國內(nèi)機(jī)構(gòu)本體方面的研究和實(shí)踐有限,構(gòu)建主體集中于科研機(jī)構(gòu)。理論研究多與機(jī)構(gòu)規(guī)范檔以及描述元數(shù)據(jù)相關(guān),實(shí)踐研究多是探索如何利用本體技術(shù)構(gòu)建本機(jī)構(gòu)本體知識庫和信息檢索系統(tǒng)。胡雪環(huán)對科研機(jī)構(gòu)的屬性及內(nèi)外部層級結(jié)構(gòu)等信息進(jìn)行分析、定義與描述,基于此構(gòu)建科研機(jī)構(gòu)本體推理規(guī)則[2]。馮微峰構(gòu)建圖情機(jī)構(gòu)功能本體,基于OWL(Web Ontology Language)形式化后具有邏輯推理的功能[3]。呂翔分析國防工業(yè)機(jī)構(gòu)主要組織框架的層級結(jié)構(gòu),介紹了如何通過復(fù)用現(xiàn)有本體構(gòu)建國防工業(yè)機(jī)構(gòu)與產(chǎn)品領(lǐng)域本體的整體流程[4]。以上研究與實(shí)踐多面向特定需要,但對于如何構(gòu)建一套通用的、可擴(kuò)展、可復(fù)用的機(jī)構(gòu)本體模型,尚未形成完整的本體詞表和系統(tǒng)性的構(gòu)建方法。
國外以機(jī)構(gòu)為核心描述對象的本體研究在2000 年左右發(fā)展起來,但多數(shù)機(jī)構(gòu)本體的構(gòu)建是依據(jù)具體的實(shí)踐項(xiàng)目需求,面向應(yīng)用場景而開發(fā),機(jī)構(gòu)信息多是政府?dāng)?shù)據(jù)或企業(yè)信息集成數(shù)據(jù)[2]。例如,TOVE(Toronto Virtual Enterprise)是一個(gè)適合企業(yè)建模的集成本體框架的項(xiàng)目,TOVE本體描述了企業(yè)結(jié)構(gòu)的基本元素:組織結(jié)構(gòu)、活動(dòng)、角色、目標(biāo)、團(tuán)隊(duì)、權(quán)利和義務(wù)等信息,通過授權(quán)將機(jī)構(gòu)與行為聯(lián)系起來[5]。以W3C核心機(jī)構(gòu)本體(Core Organization Ontology)為代表的通用機(jī)構(gòu)本體的研究起步較晚。2009年5月,美國政府?dāng)?shù)據(jù)網(wǎng)站data.gov 上線,各國政府紛紛加入“政府開放數(shù)據(jù)”運(yùn)動(dòng),萬維網(wǎng)上各種各樣的數(shù)據(jù)集越來越多。英國政府關(guān)聯(lián)數(shù)據(jù)工作組(Government Linked Data(GLD)Working Group)(現(xiàn)已關(guān)閉)發(fā)現(xiàn)本體為不同的政府機(jī)構(gòu)的信息關(guān)聯(lián)數(shù)據(jù)發(fā)布提供了很好的解決方案,聯(lián)合英國的Epimorphics公司開發(fā)了一個(gè)通用的、可重用的核心機(jī)構(gòu)本體。該本體不提供組織類型、組織目的或角色的類別結(jié)構(gòu),僅提供允許擴(kuò)展添加所需的特定子類結(jié)構(gòu)或分類方案所需的核心基礎(chǔ)概念[6]。之后W3C在此基礎(chǔ)上作了多次修改和完善,正式發(fā)布推薦標(biāo)準(zhǔn)“核心機(jī)構(gòu)本體ORG”,命名空間為http://www.w3.org/ns/org#。此外,很多數(shù)據(jù)框架和通用本體也為“機(jī)構(gòu)”專門定義了可復(fù)用的術(shù)語。比如,Schema:Organization 是學(xué)校、NGO組織、公司和教育機(jī)構(gòu)等各類型常用機(jī)構(gòu)的信息詞表(rdfs:comment“Anorganization such as a school,NGO,corporation,club,etc.”@en)[7]。DBpedia 本體是一個(gè)涵蓋多領(lǐng)域的通用本體,dbo:Organization類及其屬性是一套通用的組織框架數(shù)據(jù)集[8]。vcard 本體專注于描述人員和組織,vcard:Organization 與 foaf:Organization、ORG之間存在一些重疊,但它們都可以單獨(dú)提供有用的詞匯表,并且在協(xié)作使用時(shí)也可以提供增強(qiáng)的信息[9]。
機(jī)構(gòu)本體建模的難點(diǎn)在于對機(jī)構(gòu)之間復(fù)雜的關(guān)系和機(jī)構(gòu)歷史沿革的描述和揭示,如上下級關(guān)系、合作關(guān)系,由分裂、并購、重組、遷址等事件導(dǎo)致的關(guān)系,機(jī)構(gòu)與機(jī)構(gòu)成員之間的關(guān)系。隨著時(shí)間的推移,包括組織結(jié)構(gòu)、人員、角色、權(quán)限和組織目標(biāo)等在內(nèi)的機(jī)構(gòu)的各種要素和各類關(guān)系,都可能在某些事情的推動(dòng)下發(fā)生變化,如政府機(jī)構(gòu)為了提高行政效率,在橫向上撤并和整合一些職能相近的機(jī)構(gòu)。機(jī)構(gòu)本體模型的設(shè)計(jì)需要考慮簡捷通用,靈活可擴(kuò)展,本體詞表的設(shè)計(jì)則需要定義詞匯或術(shù)語來描述隨著時(shí)間的變化、機(jī)構(gòu)發(fā)生的變化信息以及原始機(jī)構(gòu)和最終機(jī)構(gòu)之間的關(guān)系,而目前以機(jī)構(gòu)為核心描述對象的本體詞表大多只是定義和描述了一套適用于各類型機(jī)構(gòu)本身特性的框架數(shù)據(jù)集。雖然ORG本體定義了org:ChangeEvent 類和屬性org:originalOrganization、org:changedBy、org:resultedFrom、org:resultingOrganization 來描述機(jī)構(gòu)變革的歷史信息(如表1所示)。org:ChangeEvent 類代表一個(gè)導(dǎo)致機(jī)構(gòu)發(fā)生重大變化的事件,但只適用于最終機(jī)構(gòu)與原始機(jī)構(gòu)完全不同的情況,對于事件發(fā)生的時(shí)間、地點(diǎn)、人物、關(guān)聯(lián)事件以及由事件所引發(fā)的機(jī)構(gòu)與機(jī)構(gòu)的關(guān)系變化(如resulting Organization與originalOrganization的關(guān)系)、機(jī)構(gòu)內(nèi)人員/角色的變化等信息缺乏必要的描述[10]。
表1 W3C的ORG本體中描述機(jī)構(gòu)變化事件的屬性
本文的研究目的就是在現(xiàn)有機(jī)構(gòu)本體研究和技術(shù)發(fā)展的基礎(chǔ)上,借鑒領(lǐng)域知識本體的構(gòu)建方法,對機(jī)構(gòu)實(shí)體、機(jī)構(gòu)中的人物和角色、事件及其相互關(guān)系進(jìn)行明確的、形式化的揭示和描述,嘗試構(gòu)建一個(gè)在萬維網(wǎng)上通用的、易于復(fù)用、靈活可擴(kuò)展的機(jī)構(gòu)本體模型和詞表。除了定義和描述各類機(jī)構(gòu)的基本框架要素,如組織架構(gòu)、人員/角色、位置地點(diǎn)等,還記錄引起機(jī)構(gòu)發(fā)生變化的事件,支持機(jī)構(gòu)內(nèi)外各種要素的變化信息,如機(jī)構(gòu)變革、層級結(jié)構(gòu)的調(diào)整、歷史傳承,通過各種關(guān)系屬性將機(jī)構(gòu)和機(jī)構(gòu),機(jī)構(gòu)和人員/角色聯(lián)系起來,描述機(jī)構(gòu)和機(jī)構(gòu)(包含機(jī)構(gòu)層級結(jié)構(gòu)中的各個(gè)子機(jī)構(gòu))之間的關(guān)系、人員/角色在機(jī)構(gòu)內(nèi)的關(guān)系變化等。
本體常常表現(xiàn)為一套體系化的術(shù)語詞表及其相互之間關(guān)系描述,應(yīng)包括每一個(gè)術(shù)語的明確定義及其關(guān)系,術(shù)語分為類(Class)和屬性(Property)兩種,類是對同一類實(shí)體對象的抽象,OWL將屬性分為數(shù)據(jù)屬性(DataProperty)和對象屬性(ObjectPropery),數(shù)據(jù)屬性是對類的各種特征的抽象,對象屬性用于表示類與類之間的關(guān)系[11]。盡可能復(fù)用現(xiàn)有的本體詞表(包含類和屬性)是構(gòu)建本體的一個(gè)重要的參考原則,如W3C核心機(jī)構(gòu)本體ORG詞表就復(fù)用了FOAF、GR、OPMV、ORG、TIME、VCARD等詞匯標(biāo)準(zhǔn)。本研究基于核心機(jī)構(gòu)本體模型構(gòu)建上海圖書館機(jī)構(gòu)本體,復(fù)用ORG、foaf和Schema,在上海圖書館現(xiàn)有本體的基礎(chǔ)上擴(kuò)展反映機(jī)構(gòu)間復(fù)雜關(guān)系和各種歷史沿革和變化的術(shù)語,形成一套通用的、靈活可擴(kuò)展的機(jī)構(gòu)本體模型和詞表。
W3C核心機(jī)構(gòu)本體ORG是英國政府關(guān)聯(lián)數(shù)據(jù)工作組倡議的一部分,支持跨領(lǐng)域機(jī)構(gòu)信息的關(guān)聯(lián)數(shù)據(jù)發(fā)布。ORG本體不定義描述組織類型、組織目的或角色等具體的術(shù)語詞匯,只提供所需的核心基礎(chǔ)概念,鼓勵(lì)用戶復(fù)用和擴(kuò)展,允許不同機(jī)構(gòu)根據(jù)實(shí)際情況擴(kuò)展添加具體的子類和屬性[12]。ORG本體詞表目前共定義了9個(gè)類,35個(gè)屬性,描述組織結(jié)構(gòu)、上下級負(fù)責(zé)(reportTo)關(guān)系結(jié)構(gòu)、組織地點(diǎn)和組織歷史等信息[13]。ORG本體的核心類是org:Organization,對所能描述的組織機(jī)構(gòu)類型沒有明確限制,意味著與具體領(lǐng)域無關(guān)。
除了上文提到的org:ChangeEvent 類外,核心機(jī)構(gòu)本體ORG本體定義了豐富的類和屬性來描述各類機(jī)構(gòu)的層級架構(gòu)關(guān)系[14]。org:Formal Organization 是 org:Organization 的 一 個(gè) 子 類 ,表示在全世界范圍內(nèi),法律公認(rèn)的具有相關(guān)權(quán)利和責(zé)任的組織機(jī)構(gòu)。機(jī)構(gòu)的層級架構(gòu)是完全開放的。例如,一個(gè)org:FormalOrganization實(shí)體可以自由地與其他org:FormalOrganization實(shí)體建立包含或被包含的層級關(guān)系。如果某機(jī)構(gòu)由層級架構(gòu)中的其他組織組成,可以通過org:subOrganizationOf 和org: hasSubOrganization這兩個(gè)關(guān)系來明確各層次之間的關(guān)系。在某些情況下,機(jī)構(gòu)的部門或者分支(org:OrganizationalUnit)也可以是獨(dú)立機(jī)構(gòu),例如法律認(rèn)可的企業(yè)可能是較大集團(tuán)或控股公司的一部分,org:hasUnit 和org:unitOf兩個(gè)屬性就用來表示機(jī)構(gòu)擁有分支或者職能部門。ORG 本體還提供了成員關(guān)系(org:Membership)來描述人員/機(jī)構(gòu)與機(jī)構(gòu)之間的非包含關(guān)系,org:memberOf表示某個(gè)人或者機(jī)構(gòu)是更大機(jī)構(gòu)的直接成員,org:headOf 代表了機(jī)構(gòu)的負(fù)責(zé)人。ORG 本體的核心基礎(chǔ)概念是解決異構(gòu)數(shù)據(jù)差異的解決方案,為設(shè)計(jì)通用的一般模型提供了基礎(chǔ)框架。
圖1 W3C核心機(jī)構(gòu)本體ORG模型
上海圖書館數(shù)字人文項(xiàng)目團(tuán)隊(duì)擁有多年的本體研究、設(shè)計(jì)和應(yīng)用經(jīng)驗(yàn)。上海圖書館數(shù)字人文開放數(shù)據(jù)平臺(http://data.library.sh.cn/)以關(guān)聯(lián)數(shù)據(jù)(Linked Data)的方式向互聯(lián)網(wǎng)公開發(fā)布了上圖數(shù)字人文項(xiàng)目所研發(fā)的各種本體詞表,并提供各種數(shù)據(jù)消費(fèi)接口供開發(fā)人員調(diào)用[15],包含130萬余人物的人名規(guī)范庫和2,000余收藏機(jī)構(gòu)的機(jī)構(gòu)名錄、地名詞表、中國歷史紀(jì)年表等基礎(chǔ)知識庫,是上海圖書館數(shù)字人文數(shù)據(jù)基礎(chǔ)設(shè)施的重要組成部分,為上海圖書館的家譜、手稿檔案、古籍、紅色文獻(xiàn)、老電影、館藏書目等文獻(xiàn)知識庫提供跨網(wǎng)域的數(shù)據(jù)連接,同時(shí)在萬維網(wǎng)上以HTTP URI 內(nèi)容協(xié)商,restful API 和 SPARQL Endpoint為其他圖書館、研究者和第三方開發(fā)者提供開放數(shù)據(jù)服務(wù)。在構(gòu)建這些基礎(chǔ)知識庫和文獻(xiàn)知識庫時(shí),秉承在復(fù)用現(xiàn)有本體詞表的基礎(chǔ)上擴(kuò)展的原則形成了一體化的上海圖書館本體模型和詞表(見圖2,命名空間前綴為:shl),定義了“人(shl:Person)”“機(jī)構(gòu)(shl:Organization)”“地(shl: Place)”“時(shí) (shl: Time)”“ 事 (shl: Event)”“物(shl:PhysicalObject)”等類和屬性。繼承和復(fù)用BIBFRAME、FOAF、ORG、Schema.org、GeoNames、PROV 本體模型和部分術(shù)語。shl:Organization 類 繼 承 foaf: Organization, org:Organization,并與shl:Person,shl:Event建立了關(guān)系。其中,shl:Event復(fù)用PROV本體的兩個(gè)屬性(prov:started AtTime 和prov:endedAtTime)描述事件發(fā)生結(jié)束的事件,復(fù)用prov:Agent來描述事件發(fā)生的主體(包括機(jī)構(gòu)和人),利用圖1本體中自定義的頂層類shl: Resource 的對象屬性shl:place 用于描述事件發(fā)生的地點(diǎn)。shl:Event類可用于描述shl:Organization類相關(guān)的各類事件。上海圖書館本體中已有的機(jī)構(gòu)相關(guān)類和屬性已用于描述上海圖書館數(shù)字人文數(shù)據(jù)基礎(chǔ)設(shè)施中的文化記憶機(jī)構(gòu)名錄、盛宣懷檔案知識庫中的公司及其簡單的歷史沿革信息、上海市聯(lián)合編目中心書目數(shù)據(jù)中的出版機(jī)構(gòu)、老電影知識庫中的電影公司等[16]。
圖2 上海圖書館本體模型
由于上海圖書館已有本體模型和詞表尚不足以描述機(jī)構(gòu)間復(fù)雜的關(guān)系和機(jī)構(gòu)的歷史變遷信息,因而需要進(jìn)一步擴(kuò)展。在機(jī)構(gòu)實(shí)體中,“機(jī)構(gòu)”和“人”都是機(jī)構(gòu)管理的主要對象,“事件”則是機(jī)構(gòu)及人所發(fā)生的各種歷史沿革變遷的信息集合體,所以本研究構(gòu)建的上海圖書館機(jī)構(gòu)本體以“機(jī)構(gòu)(shl:Organization)”“人(shl:Person)”“事(shl:Event)”為三大核心類。其中,shl:Organization類描述機(jī)構(gòu)實(shí)體,需要描述機(jī)構(gòu)的組織架構(gòu)、組織分類、機(jī)構(gòu)的各種特性等;shl:Person 類則表示機(jī)構(gòu)中的成員,需要描述成員的基本信息、在機(jī)構(gòu)中的角色等;shl:Event描述組織沿革、活動(dòng)信息和人的角色、關(guān)系變動(dòng)信息等。同時(shí),定義一系列屬性來表達(dá)三者之間的關(guān)系,將“機(jī)構(gòu)”和“機(jī)構(gòu)”、“人”和“人”、“機(jī)構(gòu)”和“人”、“機(jī)構(gòu)”和“事件”、“人”和“事件”關(guān)聯(lián)起來。
現(xiàn)有的機(jī)構(gòu)本體詞表對“機(jī)構(gòu)”O(jiān)rganization的基本信息都有相應(yīng)的類和屬性的描述,可以直接繼承和復(fù)用,定義shl:Organization 類繼承org:Organization 類 、schema:Organization 類和foaf:Organization類,以便于可以復(fù)用這3個(gè)父類的所有屬性(如表2所示)。
表2 上海圖書館機(jī)構(gòu)本體核心類
2.3.1 機(jī)構(gòu)基本信息
在構(gòu)建機(jī)構(gòu)本體數(shù)據(jù)集時(shí),需要全面考慮機(jī)構(gòu)的名稱、網(wǎng)址、電話、地址、郵箱、傳真、郵編等各種信息的術(shù)語描述。Schema.org是一份公開的、可共享的詞匯表,是為數(shù)據(jù)集進(jìn)行結(jié)構(gòu)化的元數(shù)據(jù)方案。標(biāo)記于HTML頁面上的Schema.org標(biāo)簽被Google、Bing、Yandex 和Yahoo!等主要的搜索引擎支持,能幫助搜索引擎理解網(wǎng)頁上的信息,從而讓搜索結(jié)果內(nèi)容更豐富[17]。Schema.org 結(jié)構(gòu)化數(shù)據(jù)可用于標(biāo)記各種項(xiàng)目,其中schema:Organization 是最常用的類之一,定義了大量的屬性,可以作為構(gòu)建機(jī)構(gòu)本體的重要參考和術(shù)語復(fù)用來源,如表3所示。
schema:Organization數(shù)據(jù)集對機(jī)構(gòu)基本信息的描述已較為全面。在主要復(fù)用現(xiàn)有詞匯的基礎(chǔ)上,結(jié)合機(jī)構(gòu)的互聯(lián)網(wǎng)相關(guān)屬性描述需求,對聯(lián)系方式進(jìn)行擴(kuò)展,增加了shl:wechatID(機(jī)構(gòu)微信賬號)和shl:blogID(機(jī)構(gòu)微博賬號)兩個(gè)屬性,同時(shí)定義了shl:hasDataSet屬性來鏈接到機(jī)構(gòu)擁有的數(shù)據(jù)集。
表3 機(jī)構(gòu)基本屬性表
2.3.2 機(jī)構(gòu)的層級結(jié)構(gòu)
不同類型機(jī)構(gòu)的層級結(jié)構(gòu)通常差異較大。比如,企業(yè)組織結(jié)構(gòu)是職權(quán)-職責(zé)關(guān)系結(jié)構(gòu),是企業(yè)內(nèi)部各組織職能分配的一種體現(xiàn);政府機(jī)構(gòu)層級常常按照行政層級來劃分。在設(shè)計(jì)機(jī)構(gòu)本體層級結(jié)構(gòu)時(shí),需要抽象出一般的機(jī)構(gòu)層級結(jié)構(gòu)模型來容納各類機(jī)構(gòu)的差異性,形成通用的解決方案,如表4所示。
圖3 上海圖書館機(jī)構(gòu)本體中機(jī)構(gòu)基本信息相關(guān)的類、屬性及其關(guān)系
機(jī)構(gòu)(Organization)的層級結(jié)構(gòu)一般可以通層級關(guān)系圖進(jìn)行展示。以土地革命戰(zhàn)爭時(shí)期(1927.8-1937.7)中央組織機(jī)構(gòu)的層級結(jié)構(gòu)為例,如圖4所示。由圖4可見,中央組織機(jī)構(gòu)是最上級機(jī)構(gòu),下設(shè)6個(gè)下級機(jī)構(gòu)(org:subOrganization):中共中央領(lǐng)導(dǎo)機(jī)構(gòu)、中共中央工作機(jī)構(gòu)、中共中央軍委與中革軍委、全總/鐵總/海總中共黨團(tuán)、中共蘇維埃共和國臨時(shí)中央政府和群眾團(tuán)體組織,用schema:parentOrganization 和org:has SubOrganization 屬性表示。其中,群眾團(tuán)體組織既是下級機(jī)構(gòu),也是上級機(jī)構(gòu)屬其他下級機(jī)構(gòu)。同級下級機(jī)構(gòu)之間可能有關(guān)系,用org:linkedTo表示。也可各自獨(dú)立沒有任何關(guān)系,如中華全國鐵路總工會(huì)與中華全國海員總工會(huì)雖然都是工會(huì)的下級機(jī)構(gòu),但是各自隸屬于不同的行業(yè),并無交集。機(jī)構(gòu)通常會(huì)根據(jù)職能設(shè)立不同的部門(org:OrganizationUnit),用 org:hasUnit,org:unitOf 表示;各部門承擔(dān)機(jī)構(gòu)的一部分職能,向上級機(jī)構(gòu)匯報(bào)(org:reportsTo),如中華全國總工會(huì)常務(wù)委員會(huì)下設(shè)組織部、宣傳部和女子部等多個(gè)不同職能的部門。此外,某些機(jī)構(gòu)會(huì)成為其他機(jī)構(gòu)成員(org:Member),彼此只是建立會(huì)員關(guān)系(org:hasMembership),并不屬于上下級范疇等。在ORG框架的基礎(chǔ)上,為了特別區(qū)分政府、科研等行政事業(yè)單位的行政級別關(guān)系,增加了shl:level屬性,如政務(wù)機(jī)構(gòu)的行政級別的取值通常是國務(wù)院、省級、自治區(qū)、直轄市和區(qū)縣,如圖5所示。
表4 機(jī)構(gòu)層級結(jié)構(gòu)基本屬性表
圖4 上海圖書館革命(紅色)文獻(xiàn)平臺中共組織史局部
圖5 上海圖書館機(jī)構(gòu)本體中機(jī)構(gòu)層級結(jié)構(gòu)相關(guān)的類、屬性及其關(guān)系
2.3.3 機(jī)構(gòu)的人員角色關(guān)系
上海圖書館本體定義的shl:Person類及其屬性,缺乏對人在機(jī)構(gòu)中的角色和變化進(jìn)行描述的機(jī)制,上海圖書館機(jī)構(gòu)本體將在shl:Person的基礎(chǔ)上,復(fù)用Schema.org、ORG本體和foaf本體中的相關(guān)術(shù)語,如Schema:Person類及其屬性,并擴(kuò)展人員與機(jī)構(gòu)的各種關(guān)系屬性。本模型主要探討如何完整記錄機(jī)構(gòu)內(nèi)人員/角色與機(jī)構(gòu)的關(guān)系,以及由某些事件的影響為這種關(guān)系帶來的各種變化,如表5所示(不再贅述有關(guān)“shl:Person”的基本信息,如國籍、籍貫、性別、生卒年月和居住地等[18]可參考上海圖書館人名規(guī)范庫http://names.library.sh.cn)。shl:Person類用于對機(jī)構(gòu)和人員/角色的屬性及各類關(guān)聯(lián)關(guān)系進(jìn)行抽象與建模,在此基礎(chǔ)上,為機(jī)構(gòu)和人員/角色的關(guān)系定義詳細(xì)的描述框架,如圖6所示。
表5 機(jī)構(gòu)人員/角色關(guān)系屬性表
圖6 上海圖書館機(jī)構(gòu)本體中機(jī)構(gòu)人員/角色屬性及其關(guān)系
2.3.4 機(jī)構(gòu)的歷史沿革
機(jī)構(gòu)變化通常可以視為由事件引起,上海圖書館本體shl:Event類是對“事件”本身的描述,已包含事件發(fā)生的時(shí)間、地點(diǎn),以及和人的關(guān)系等屬性。ORG 核心機(jī)構(gòu)本體的org:ChangeEvent 類,代表導(dǎo)致機(jī)構(gòu)發(fā)生重大變化的事件,適用于原始機(jī)構(gòu)和新機(jī)構(gòu)是完全不同的獨(dú)立個(gè)體,有不同的統(tǒng)一標(biāo)識符如URI。org:ChangeEvent 類是繼承prov:Activity 的子類,prov:Activity表示一段時(shí)間內(nèi)實(shí)體與實(shí)體之間發(fā)生的各類事件,如轉(zhuǎn)化、更新、生成新實(shí)體[19]。PROV是一個(gè)輕量級本體,專門用于對特定應(yīng)用來源的詳細(xì)信息進(jìn)行建模。本研究構(gòu)建的機(jī)構(gòu)本體旨在記錄和機(jī)構(gòu)相關(guān)的各種事件變化,既支持重大事件對機(jī)構(gòu)產(chǎn)生的根本性變革,生成新的機(jī)構(gòu)情況,也支持機(jī)構(gòu)內(nèi)外部發(fā)生的各類事件,如機(jī)構(gòu)外部地址變遷、內(nèi)部部門結(jié)構(gòu)調(diào)整。在繼承 org:Change Event 類和 shl:Event 類的基礎(chǔ)上,定義了新的shl:ChangeEvent類,以及相關(guān)屬性來描述機(jī)構(gòu)的沿革和變化,如表6所示。
shl:ChangeEvent類旨在以機(jī)構(gòu)為核心描述對象,反映機(jī)構(gòu)/人員變化的種種情況,所以事件(活動(dòng))的相關(guān)屬性都是用shl:Organization和shl:Person的屬性來描述。比如,shl:wasStarted By和shl:wasEndedBy兩個(gè)屬性只是記錄了啟動(dòng)和結(jié)束事件的相關(guān)機(jī)構(gòu)和人員,而不推廣至其他實(shí)體(Entity)范圍。shl:influenced是廣泛的影響關(guān)系,本模型只定義了“產(chǎn)生新機(jī)構(gòu)(generate)”“注銷機(jī)構(gòu)(invalidated)”兩種屬性,在具體使用時(shí)可根據(jù)實(shí)際情況自定義更具體的關(guān)系,也可參照PROV 提供的關(guān)系術(shù)語Communication、Derivation、Association and Delegation等。以李鴻章創(chuàng)辦的“輪船招商局”為例,“輪船招商局”歷史沿革事件如圖7所示。李鴻章1872年創(chuàng)辦輪船招商局(shl:generated)。在創(chuàng)辦過程中,李鴻章(shl:Person)是主要發(fā)起人(shl:startedBy),唐廷樞(shl:Person)和朱其昂(shl:Person)是產(chǎn)生重要作用(shl:influenced)的人物。1873 年李鴻章(shl:startedBy)將輪船招商局(shl:originalOrganization)從上海南永安街(今黃浦區(qū)永安路)遷至上海三馬路新址(shl:ChangeEvent),改稱為輪船招商總局(shl:generated)。同年設(shè)天津、漢口、長崎、香港等19個(gè)分局(shl:generated)?!拜喆猩叹帧?shl: original Organization)正式結(jié)束(shl: invalidated)。李鴻章(shl: Person)和輪船招商局(shl: Organization)、輪船招商總局(shl:
Organization)是機(jī)構(gòu)事件(shl:ChangeEvent)的核心要素。將這些要素與文獻(xiàn)檔案中的關(guān)鍵詞和主題進(jìn)行自動(dòng)匹配,即可實(shí)現(xiàn)事件、機(jī)構(gòu)、人員、文獻(xiàn)間的動(dòng)態(tài)關(guān)聯(lián),如圖8所示。
表6 機(jī)構(gòu)歷史沿革屬性表
圖7 上海圖書館盛宣懷檔案知識庫中“輪船招商局”歷史沿革事件
圖8 上海圖書館機(jī)構(gòu)本體中機(jī)構(gòu)歷史沿革事件屬性及其關(guān)系
構(gòu)建機(jī)構(gòu)本體是結(jié)構(gòu)化、語義化地描述機(jī)構(gòu)的各項(xiàng)特征、機(jī)構(gòu)間的復(fù)雜關(guān)系、人員角色及其變化、機(jī)構(gòu)本身的歷史沿革等信息的重要途徑,同時(shí)對不同機(jī)構(gòu)信息的語義互操作以及數(shù)據(jù)開放與共享具有重要意義。本研究針對目前國內(nèi)通用機(jī)構(gòu)本體的系統(tǒng)化研究與應(yīng)用比較有限,特別是對機(jī)構(gòu)之間的復(fù)雜關(guān)系、機(jī)構(gòu)的歷史沿革、人事關(guān)系變化等方面的研究不足的情況,在對機(jī)構(gòu)的概念、屬性及其關(guān)系進(jìn)行梳理和分析、在上海圖書館已有本體模型和詞表的基礎(chǔ)上,復(fù)用多個(gè)互聯(lián)網(wǎng)上應(yīng)用較多的本體模型,嘗試設(shè)計(jì)一套可以描述不同類型的機(jī)構(gòu)、機(jī)構(gòu)在現(xiàn)實(shí)世界上復(fù)雜的相關(guān)關(guān)系,以及在時(shí)間和空間中不斷變化的歷史沿革信息的本體模型和詞表。這套本體模型和詞表在上海圖書館的數(shù)字人文數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)中已經(jīng)得到了一定的應(yīng)用,用該本體模型及詞表描述的收藏機(jī)構(gòu)、出版機(jī)構(gòu)、公司等數(shù)據(jù)以關(guān)聯(lián)開放數(shù)據(jù)(Linked Open Data)的形式在互聯(lián)網(wǎng)上發(fā)布,并在上海圖書館已經(jīng)舉辦的4屆開放數(shù)據(jù)應(yīng)用開發(fā)競賽中為第三方機(jī)構(gòu)和開發(fā)者提供開放數(shù)據(jù)服務(wù)。由于該本體目前只應(yīng)用于上海圖書館的數(shù)字人文數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)中,還需要在更廣泛的范圍內(nèi)進(jìn)行驗(yàn)證,并進(jìn)一步完善。接下來本研究將會(huì)繼續(xù)探索利用本體構(gòu)建工具和不同的本體形式化語言對機(jī)構(gòu)本體模型和詞表進(jìn)行形式化,并通過更多的機(jī)構(gòu)數(shù)據(jù)集來驗(yàn)證其適用性。