基于語義相似度的CORE論文關聯關系發(fā)現及其語義服務研究

2021-12-21 02:49:11白林林萬妮

知識管理論壇 2021年5期

白林林萬妮

摘要：[目的/意義]通過對CORE論文關系發(fā)現過程及其服務的詳細剖析，希望為我國開放獲取知識庫在論文內容的推薦和語義鏈接方面提供有力的參考和借鑒。[方法/過程]從基于語義相似度的論文關聯關系發(fā)現過程和基于論文關系的語義服務兩方面進行分析。其中，基于語義相似度的論文關聯關系發(fā)現過程包括元數據和全文內容收割、論文之間關系語義相似度計算兩方面;基于發(fā)現的論文關聯關系的語義服務包括論文推薦服務和關聯開放數據服務。最后總結CORE對我國機構知識庫的應用建議。[結果/結論]研究發(fā)現，CORE系統通過現有OAI-PMH協議自動收割開放獲取知識庫中的元數據，并進一步提取元數據中URI字段，通過HTTP協議下載全文?；诎l(fā)現的論文語義關系提供論文推薦服務和論文關聯數據服務，使得第三方系統可以利用CORE數據集，這些都為我國開放獲取知識庫（如機構知識庫、開放獲取期刊）在論文關系的推薦和語義鏈接方面提供有力的參考。

關鍵詞：Connecting Repositories? ? 語義相似度? ? 論文關系? ?推薦系統? ?關聯數據

分類號：G254

引用格式：白林林，萬妮. 基于語義相似度的CORE論文關聯關系發(fā)現及其語義服務研究[J/OL]. 知識管理論壇， 2021， 6（5）： 271-281[引用日期]. http：//www.kmf.ac.cn/p/260/.

開放獲?。╫pen access， OA）運動推動和促進了全球科研成果的免費訪問和開放獲取知識庫的建設與發(fā)展。但是，目前開放獲取不應該只是實現科研成果的開放，而是要在現有基礎上，充分發(fā)揮OA的潛力，通過改進現有的OA技術基礎設施，用以支持內容的搜索、發(fā)現、挖掘、分析等這些功能。目前的大多數開放獲取技術基礎設施（如機構知識庫、主題知識庫、科研數據知識庫等）大都是基于元數據的訪問，而要實現開放獲取內容的挖掘、分析等功能，必須實現OA元數據集成向內容集成的有效轉換。為此，由歐共體資助的項目“歐洲研究開放獲取基礎設施（the Open Access Infrastructure for Research in Europe， OpenAIRE）”通過建立全歐研究信息平臺來收割和監(jiān)測歐共體和其他國家資助者的開放獲取研究成果，從而提供豐富的元數據服務和科學成果鏈接服務，該項目開始于2009年12月1日，已從第一代發(fā)展到第五代（第一代OpenAIRE、第二代OpenAIREplus、第三代OpenAIRE2020、第四代OpenAIRE-Advance、第五代OpenAIRE-Nexus）[1]。截至2021年3月，美國的共享訪問研究生態(tài)系統（Shared Access Research Ecosystem， SHARE）對182個數據源的6 575萬多個研究成果進行了集成[2]。法國的HAL （Hyper Articles en Ligne）主要對法國的科研成果進行集成，由法國國家科學研究中心的計算科學與控制研究所運行管理，目前收錄了168個機構的251萬多條數據[3]。我國由CALIS組建的機構知識庫整合系統中國高校機構知識庫聯盟集成了50家成員機構的286萬條元數據[4]，香港機構知識庫整合系統對香港的8個大學的42.6萬條數據進行了集成[5]。但目前的這些開放獲取技術基礎設施，只是從元數據層面對不同來源的研究成果進行聚合和集成，并沒有進一步從全文內容對論文和論文之間的關聯關系進行集成和發(fā)現。CORE（COnnecting Repositories）[6]是第一個從全文內容來發(fā)現論文之間的關聯關系的系統，并將發(fā)現的論文關聯關系通過不同的方式向用戶提供語義服務（如推薦服務、關聯數據服務）。

基于此，對CORE中論文關聯關系的發(fā)現過程以及在此基礎上提供的語義服務進行詳細解析和具體應用介紹，可為我國開放獲取知識庫在論文內容的推薦和語義鏈接方面提供有力的參考和借鑒。

1? CORE概況

CORE（COnnecting REpositories）[7]是2011年由英國開放大學知識媒體研究所P. Knoth構建的系統[8]，目的是通過與數字圖書館和機構知識庫的緊密合作，整合分布在不同系統上的開放資源，這些資源包括英國開放獲取期刊平臺（Directory of Open Access Journals， DOAJ）、世界各地機構知識庫和主題知識庫中的元數據與全文，并在此基礎上提供了一系列的資源免費訪問服務來進一步促進科研成果的開放獲取，這一舉措對英國的開放獲取運動做出了巨大的貢獻，奠定了英國開放獲取內容匯總的地位。因此，CORE自創(chuàng)建以來就獲得來自英國聯合信息系統委員會（Joint Information Systems Committee， JISC）[9]和歐盟委員會（European Commission， EC）等一系列機構的資助，并在后續(xù)通過DiggiCORE和ServiceCORE兩個項目繼續(xù)開發(fā)了一些平臺新功能。DiggiCORE（Digging Into Connected Repositories）項目的目標是通過使用自然語言處理技術和社會網絡分析方法分析大量的開放獲取科研出版物，實現研究團體行為模式、研究領域趨勢和研究人員引文行為的識別，以發(fā)現高影響力的論文，用于開發(fā)搜索和瀏覽數字館藏更好的方法，同時形成評價科研影響力和學者影響力的新方法。ServiceCORE項目的目標是通過進一步改進完善CORE技術基礎設施，開發(fā)面向科研成果的主題分類系統和知識發(fā)現系統，如在CORE Linked Data知識庫之上構建的新Web服務層，提供對內容和元數據的可編程訪問;構建基于文本挖掘的增強型相關資源發(fā)現系統;使用文本分類技術（支持向量機）對內容進行基于主題的自動分類的工具等[10]。

截至2021年3月，該系統已收割來自13 799個機構知識庫和主題知識庫的2.1億多篇開放獲取論文[11]。CORE系統的特點是不像其他的開放獲取搜索系統只提供元數據，CORE還集成了全文內容，確保了科研成果全文的免費訪問和下載。目前，CORE系統提供了3種類型的服務：原始數據訪問服務、內容管理服務和內容發(fā)現服務[12]。同時為了提高其檢索率，CORE于2019實現了CORE-MAG映射，即將CORE中的數據映射為微軟學術圖譜（Microsoft Academic Graph， MAG）[13]。

（1）原始數據訪問服務：包括CORE API、CORE Dataset和CORE FastSync服務。CORE API為訪問CORE中的大量數據提供了一個入口，目前有兩個版本：一個是提供XML或JSON格式數據的RESTful API接口，另一個是關聯開放數據SPARQL終端[14]。CORE Dataset支持用戶批量下載CORE中的數據，用于數據處理、分析和挖掘，數據包括論文元數據和全文、CORE到MAG實體的映射數據。CORE FastSync可以無縫訪問從主要出版商的非標準系統中匯總的金色和混合開放獲取論文，數據通過FastSync協議公開和共享。

（2）內容管理服務：包括CORE Repository Dashboard和CORE Repository Edition服務。CORE Repository Dashboard是專為知識庫管理員設計的知識庫面板工具，目標是提供對聚合內容的管理和控制。CORE Repository Edition是一套面向圖書館、機構知識庫和內容管理商的工具套件，可用于提高機構研究成果的可發(fā)現性、數據訪問的合規(guī)性等。

（3）內容發(fā)現服務：包括CORE Recommender 和CORE Discovery。CORE Recommender作為一個插件，可以用于在CORE和其他開放獲取知識庫之間推薦語義相似的論文。CORE Discovery是一個瀏覽器插件，支持繞過出版商免費訪問CORE中的論文。

2 基于語義相似度的CORE論文關系發(fā)現過程

基于語義相似度的CORE論文關系發(fā)現過程包括數據獲取和論文關聯關系發(fā)現兩個階段。數據獲取主要是通過從可用的開放獲取知識庫中收割元數據記錄和全文內容，并對收割到的元數據和全文進行索引;論文關聯關系發(fā)現主要是通過文本挖掘技術對收割到的論文之間的語義關系進行計算與發(fā)現。

2.1? CORE數據獲取

2.1.1? 元數據的收割

元數據收割的來源包括開放獲取知識庫（機構知識庫、主題知識庫）和出版商數據庫兩類。

（1）開放獲取知識庫中的元數據。開放獲取知識庫中的元數據收割是通過開放存檔倡議的元數據收割協議（Open Archives Initiative Protocol for Metadata Harvesting，OAI-PMH）[15]請求來實現的，OAI-PMH成功的請求返回一個XML文檔，其中包含有關存儲在知識庫中的論文的元數據信息。元數據收割過程中使用到的技術是OCLC OAIHarvester2[16]，這是一個通過OAI-PMH協議進行元數據收割的JAVA類集合工具包[17]。

（2）出版商數據庫中的元數據。針對不支持OAI-PMH協議的出版商數據庫中的元數據，CORE團隊開發(fā)了CORE Publisher Connector引擎，可以無縫訪問和獲取出版商數據庫中的金色和混合開放獲取類型的論文，通過資源同步協議FastSync進行同步。與只收割元數據提供互操作性的OAI-PMH協議相比，FastSync協議可以共享任何類型的資源（包括元數據和實際數據），并在網上提供先進的同步機制。FastSync協議是ResourceSync協議的改進版本，ResourceSync協議開始于2011年底，是美國國家信息標準組織（National Information Standards Organization，NISO）和開放存檔倡議團隊（OAI）合作開發(fā)的項目，由斯隆基金會資助，建立在同步元數據的OAI-PMH策略基礎上，這個項目旨在加強現代網絡技術的使用規(guī)范。CORE是最早部署ResourceSync協議以分發(fā)大量學術文獻的公司之一，這些文獻可以擴展到數百萬條，并且能夠進行實時更新。目前，已收割了Elsevier、Springer Nature、Frontiers和PLoS四大出版商中180萬篇開放獲取的論文[18]。

2.1.2? 全文內容的下載

開放獲取知識庫將全文文檔的URL作為元數據的一部分提供，因此，全文內容的獲取是在從收割到的元數據中提取URI字段之后，通過HTTP協議自動從知識庫下載獲得的。從開放獲取知識庫下載PDF全文是通過一組Java類（如DownloadPdf類等）來實現的，在下載的過程中為了解決下載速度慢的問題，CORE通過使用緩沖流（BufferedStream）[19]將全文內容先下載到服務器上，用以解決遠程服務器響應非常慢時會自動取消下載的問題。

2.1.3? 元數據和全文索引

完成元數據和全文收割之后，CORE通過Apache Lucene對收割到的元數據和全文文檔建立索引。Apache Lucene項目開發(fā)了3個開源搜索軟件，包括：Lucene Core、Solr、PyLucene。Lucene Core是其核心子項目，提供基于Java的索引和搜索技術、拼寫檢查、命中突出顯示和高級分析/標記化功能;Solr是一個使用Lucene Core構建的高性能搜索服務器，具有XML / HTTP和JSON / Python / Ruby應用程序接口，支持命中突出顯示、分面搜索、緩存、復制和Web管理界面;PyLucene是Lucene Core項目的Python端口[20]。

2.2? 基于語義相似度的CORE論文關系發(fā)現

CORE論文關聯關系的發(fā)現是通過語義關系分析器組件來完成的[21]。該組件通過自然語言處理技術從下載的論文中提取文本，然后通過計算“論文對”之間的語義相似度來識別其關聯強度。為了識別和計算論文之間的語義相似性，CORE系統通過向量空間來表示文檔內容，即將內容轉換為一組詞語向量，并通過找到相似的向量來找到相似的文檔。該系統選擇使用Apache Tika（PDFBox）工具包[22]從PDF文檔中提取文本，該工具包可從1 000多種不同的文件類型（如PPT、XLS和PDF）中識別和提取元數據和文本，并基于TF-IDF向量之間的余弦相似度來計算論文之間的相似度。

具體而言，可將CORE論文關系發(fā)現過程分為以下4個步驟：

（1）分詞處理。對CORE下載到的論文進行詞法分析，構建詞語字典T={t1，t2，…，tM}。所有的論文可被表示為N × M的詞語矩陣。其中，N表示論文數量，M表示對每篇文章進行詞法分析后形成的詞語數量，每篇論文對應于矩陣中某一行的向量。

（2）TF-IDF值的計算。TF-IDF（terms frequency-inverse document frequency）是指TF*IDF，用來評估某個詞語在文檔集合中的重要程度。TF即詞頻（terms frequency），指某個詞語在單個文章中的出現次數;IDF即逆文檔頻率（inverse document frequency）=log2（N/DF），其中DF（document frequency）表示包含某個詞語的文檔數量。TF-IDF的主要思想是：一個詞語對一篇文章的重要性主要是依靠它在文件中出現的次數，如果這個詞語在這篇文章中的出現次數越高，則表明這個詞語對于這篇文章的重要性越高;同時，它還與這個詞語在整個文檔中出現的文章篇數有關，隨著出現的篇數越多，則會降低這個詞語在這篇文章中的重要性，若包含某此項的文檔越少，IDF就越大，則該詞語對不同類別文檔的區(qū)分度就越高。

算法流程如下：首先對文檔進行分詞，并去除停用詞;然后統計各個詞語在單個文檔中出現的次數和文檔集合中詞語出現的次數;最后計算得出其TF-IDF值。

●TF詞頻的計算公式如下所示：

詞頻（TF）=某個詞語在文章中的出現次數

公式（1）

由于需要考慮不同的文章，長度不同，需要將詞頻進行歸一化處理，如公式（2）所示：

詞頻（TF）=某個詞語在文章中的出現次數/

文章的總詞數? ? ? ? ? ? ? ? ? 公式（2）

●IDF的計算公式如下所示：

逆文檔頻率（IDF）=log2（文檔總數/包含該詞? ? ? ? ? ?的文檔數）? ? ? ? 公式（3）

計算逆文檔頻率的原因是為了去除哪些經常出現的詞語，比如說“的”“我們”“他”等這類的詞語，這些詞語對于整篇文檔重要性不高、但是出現的頻率會比較多，有可能會影響到最后的計算結果，如果是經常出現的詞語則不能作為文章的關鍵詞。

●計算TF-IDF的值，計算公式如下所示：

TF-IDF = 詞頻（TF）* 逆文檔頻率（IDF）公式（4）

（3）排序。對文章詞語的TF-IDF值進行排序，從中選擇提取TF-IDF值比較大的詞語，合并成一個集合，計算每篇文章對于這個集合中的詞的詞頻，生成文章各自的詞頻向量，接下來計算文章詞頻向量之間的相似度。

（4）相似度計算。目前存在許多用于計算兩個向量之間的相似性的計算方法，例如余弦相似性、dice系數或Jaccard方法，并且有一些研究在計算相似性之前采用降低矢量的維數算法來提高性能。CORE采用了最標準的相似度計算方法：在TF-IDF向量基礎上計算余弦相似度。與其他相似度計算方法相比，TF-IDF向量的余弦相似度方法比較成熟，已被用于自動鏈接生成系統中[23]，完整性的公式如下：

公式（5）

可以通過夾角的大小，來判斷向量的相似程度。夾角越小，余弦值越大，就代表越相似。

3? 基于發(fā)現的CORE論文語義關系的服務

CORE在基于發(fā)現的論文語義關系基礎上為用戶提供了相似論文推薦服務和關聯開放數據服務。其中，相似論文推薦服務以CORE Recommender插件和CORE API形式提供;關聯開放數據服務是指CORE將論文之間相似性的數據作為關聯數據發(fā)布，并在Linked Data Cloud[24]中注冊。

3.1? CORE推薦服務

在2013年4月，CORE首次發(fā)布了適用于Eprints知識庫中的推薦系統，名稱為CORE Widget，發(fā)布在Eprints商店（Eprints Bazaar）中[25]，一個用于安裝Eprints附件組件、補丁的商店。2016年10月，CORE推出了新的版本，對原有“CORE Widget”推薦系統進行了許多改進與升級，重新命名為CORE Recommender，新升級的推薦系統不僅支持在CORE中推薦相似的論文，而且也可以部署在其他知識庫和期刊系統中來推薦相似論文。其中Eprints知識庫只需在Eprints Bazaar中下載即可;對于其他知識庫（Dspace、Fedora、OJS），只需通過插入一段Javascript代碼片段就可安裝[26]。目前已被用于多個知識庫中，如斯特拉斯克萊德機構知識庫Strathprints[27]、拉丁美洲機構知識庫聯合網絡LA Referencia[28]、俄羅斯國立職業(yè)師范大學機構知識庫[29]、預印本知識庫arXiv[30]等。

為了提高所推薦的相似論文的質量，CORE Recommender采用多個過濾器和眾包機制來篩選推薦的論文，如只提供開放獲取的論文、僅包含至少一組最小元數據屬性的論文、包含縮略圖的論文等。另外在某些情況下，CORE Recommender可能會提供不相關的甚至錯誤的推薦，為此CORE通過為用戶提供反饋按鈕進行錯誤上報。如果用戶反饋所推薦的論文不合適，CORE會將這些論文列入黑名單，不會再在推薦列表中顯示（見圖1）。

CORE Recommender有兩種使用方式。第一種方式是作為推薦系統部署在CORE系統內，向當前被訪問的論文推薦相似的論文（見圖1）。第二種方式是作為推薦插件安裝并集成到知識庫系統或期刊系統中，當用戶訪問知識庫中的一個論文頁面時，插件會向CORE發(fā)送有關所訪問條目的信息，CORE會返回相似論文列表，目前提供了兩種形式的相似列表：一種是來源于CORE知識庫中的相似論文;另一種是用戶訪問的知識庫中的相似論文（見圖2）。

3.2? CORE論文關系關聯數據服務

2011年，CORE發(fā)布了在40多萬篇全文論文關系相似度計算基礎上生成的300多萬個RDF三元組，實現了論文之間相似度元數據的關聯數據發(fā)布，以便于第三方以靈活的形式進行訪問。CORE在將論文相似度關系發(fā)布為關聯數據過程中，選擇Sesame[31]平臺作為三元組存儲器，用于發(fā)布關聯數據。接下來筆者將對CORE論文關系發(fā)布為關聯數據的數據模型和實現機制進行闡述。

3.2.1? CORE數據模型

遵循關聯數據原則，在將數據發(fā)布為關聯數據時，盡可能復用已有的詞匯表或本體來描述數據，以便外部世界更容易將新數據與已有的數據集和服務集成在一起。CORE采用MuSim相似度本體（The Similarity Ontology-MuSim）[32]、書目本體（Bibliographic ontology， BIBO）[33]以及自己構建的本體（core）來表示CORE知識庫中論文之間的關系。

MuSim相似度本體由倫敦大學女王瑪麗數字音樂中心的K. Jacobson、BBC的Y. Raimond、德累斯頓技術大學T. G?ngler等合作開發(fā)，最初在設計時主要用于表示音樂之間的相似性，但它也可以應用到其他領域來表示兩個事物之間的相似性和關聯性，以便于在不同的環(huán)境下進行相關性事物的推薦和發(fā)現，這個本體中包含5個類和13個屬性。在CORE中主要利用其屬性實現對相似度計算方法、相似度權重進行語義描述。

BIBO書目本體是由F. Giasson 和B. D’Arcus 合作開發(fā)的一個本體，用于在語義網中用于描述書目參考文獻和引文的一些基本的類和屬性，可擴展性比較強，其他的詞匯也可以混合在BIBO本體中，如FOAF詞匯、DC詞匯、Event詞匯等。在CORE中利用BIBO中的類和屬性對論文的文獻類型、作者等進行語義描述。

CORE發(fā)布的論文相似度關系關聯數據以一篇文檔為主語，文檔類型（rdf：type）、相似的論文（MuSim：element）、OAI標識符（core：hasOAIRepositoryIdentifier、core： hasOAIIdentifier）、論文之間的相似度權計算方法（MuSim：method）、相似度權重（MuSim：weight）為屬性（見圖3和圖4）。

3.2.2? Sesame關聯數據實現機制

Sesame是一個查詢和分析RDF數據的開源框架，最初由荷蘭軟件公司Aduna創(chuàng)建，2016年5月由Eclipse RDF4J[34]項目繼承，主要以兩個Java Web應用程序的形式運行：OpenRDF Sesame服務器（OpenRDF Sesame Server）和OpenRDF工作平臺（OpenRDF Workbench）[35]。OpenRDF Sesame服務器通過HTTP來訪問Sesame庫，除了提供一些服務器日志信息的查看功能外，不提供任何面向用戶的功能。OpenRDF Workbench通過一個網頁界面提供面向用戶的查詢、瀏覽、更新、輸出等功能。CORE自創(chuàng)建以來，一直使用Tomcat Web服務器[36]作為應用程序容器，這是一個支持Java Servlets和JSP技術的Web服務器，所以CORE將Sesame的兩個組成部分OpenRDF Sesame Server和OpenRDF Workbench部署為Tomcat Web服務器上的Java Servlet應用程序[37]。

具體而言Sesame分為以下3個層級：

（1）存儲層和推理層。Sesame的存儲和推理功能通過SAIL （Storage and Inference Layer， SAIL） API [38]實現，這是一個從底層存儲庫抽象出的API，支持內存三元組存儲（in-memory triplestore）、磁盤三元組存儲（on-disk triplestore）和關系型數據庫存儲，并有兩個單獨的Servlet軟件包在永久服務器上對這些三元組存儲器進行訪問管理。

（2）關聯數據轉換層。關聯數據轉換過程通過Sesame Rio（RDF）軟件包實現。Sesame Rio（RDF）軟件包是由一個基于Java的RDF解析器和編寫器組成的簡單API，用于輸入/輸出RDF數據，用戶可以通過在運行應用程序時將解析器和編寫器放在Java類路徑上來輕松擴展列表。

（3）關聯數據查詢和訪問層。通過Sesame的Access API可以訪問這些功能模塊，它由兩個獨立的部分組成：Repository API和Graph API。Repository API提供對Sesame存儲庫的高級訪問、例如查詢、存儲RDF文件、提取RDF等。Graph API為RDF操作提供了更細粒度的支持，例如添加和刪除單個語句以及創(chuàng)建直接來自代碼的小型RDF模型。這兩個API在功能上相互補充，并且實際上經常一起使用。Sesame支持兩種查詢語言：SPARQL和SeRQL，也可以通過LuceneSail添加自由文本搜索功能。

4? CORE對我國機構知識庫的應用建議

CORE通過集成世界各地的OA論文元數據和全文，提供了基于論文相似度的推薦服務和基于關聯數據的語義服務，完成了OA元數據集成向內容集成的有效轉換，提高了資源的可見度和訪問率，對傳統的OA知識庫集成系統進行了發(fā)展，對我國仍處于初級階段的機構知識庫的發(fā)展和完善具有一定的新意和借鑒意義。筆者從論文關系發(fā)現過程、論文推薦服務和關聯數據服務3個方面總結了CORE系統對我國機構知識庫完善的啟示。

在論文關系發(fā)現方面，CORE先收割元數據，并進一步從收割到的元數據中提取URI字段，之后通過HTTP協議自動從知識庫下載全文;在此基礎上通過自然語言處理技術從下載的論文中提取文本，然后通過計算“論文對”之間的語義相似度來識別其關聯強度。目前，我國機構知識庫整合系統已實現了元數據層面的收割，并未實現全文的獲取，但在所收割的元數據字段中已包含URI字段，后續(xù)需要通過URI實現全文獲取，并將獲得的全文通過自然語言處理技術提取文本，計算論文對之間的相似性來識別論文關系。

在論文語義推薦服務方面，CORE通過將其開發(fā)CORE Recommender插件部署在CORE內或者其他知識庫中實現論文推薦。我國機構知識庫可借鑒這種思路，研發(fā)推薦服務系統或者引進CORE Recommender插件部署在機構知識庫中，以此來為用戶推薦相似論文。

在關聯數據服務方面，CORE通過利用現有的詞匯表MuSim相似度本體、BIBO書目本體和Sesame平臺對論文數據進行關聯化發(fā)布，方便用戶更好地進行語義鏈接。我國可以通過分析機構知識庫的數據進行建模，盡可能復用現有的成熟的詞匯表對數據進行描述，并利用開源的關聯數據發(fā)布工具和平臺對機構知識庫中的文獻資源進行語義化組織和發(fā)布，從而提高資源的可發(fā)現性和可見度。

5? CORE論文關系發(fā)現過程及服務中遇到的問題

CORE在論文關系發(fā)現過程及提供的相關服務中也有許多問題和挑戰(zhàn)需要去解決，具體的解決方法如下：

（1）在全文內容下載方面，主要涉及文件下載速度和數據存儲成本問題。針對下載速度問題，CORE通過使用緩沖流（BufferedStream）將全文內容先下載到開放大學服務器上，用以解決在遠程服務器相應非常慢時自動取消下載的問題。有關數據存儲成本問題，鑒于CORE需要從許多開放獲取存儲庫中下載數據，系統需要較大的磁盤空間，同時為了執(zhí)行系統備份并允許系統快速響應，選擇快速串行連SCSI（Serial Attached SCSI， SAS）磁盤。

（2）在提取文本方面，CORE測試了3個PDF文本提取系統：iText、Apache Tika（PDFBox）和pdftotext，最后發(fā)現雖然 Apache Tika的提取速度非常慢但提取到的文本質量較高。最終，通過使用BufferedStreams先行緩沖，設法加快提取速度。

（3）在相似度計算方面，為了能夠在合理的時間內發(fā)現相關的論文，涉及大量的論文組合問題。CORE開發(fā)了一種新的啟發(fā)式方法，通過使用文檔頻率切割標準來減少要考慮的組合數量，并考慮到計算結果的質量問題，CORE在Lucene庫上開發(fā)了自己的TextAnalyzer和TextFilter，用于過濾數學公式、數字和其他類型的噪聲數據等。

6? 結語

筆者通過對CORE論文元數據和全文獲取過程、論文之間關系語義相似度計算的論文關系發(fā)現過程以及基于發(fā)現的論文語義關系提供的服務進行了分析，為我國在開放獲取知識庫論文關系發(fā)現過程、論文推薦服務和關聯數據服務3個方面提供了有力的參考，但是CORE也存在下載速度慢、存儲開銷大、PDF中文本提取速度慢、相似度計算準確度等問題，圍繞這些問題和挑戰(zhàn)還有待進一步深入的研究。

參考文獻：

[1] Openaire-history [EB/OL]. [2021-03-01]. https：//www.openaire.eu/openaire-history.

[2] SHARE [EB/OL]. [2021-02-27]. https：//share.osf.io/.

[3] The open archive HAL [EB/OL]. [2021-03-01]. https：//hal.archives-ouvertes.fr/.

[4] 中國高校機構知識庫聯盟 [EB/OL]. [2021-03-01]. http：//chair.calis.edu.cn/.

[5] Hong Kong Institutional Repositories （HKIR） [EB/OL]. [2021-03-01]. https：//library.tu.ac.th/tu-digital-collections/hong-kong-institutional-repositories-hkir.

[6] CORE – Aggregating the world’s open access research papers [EB/OL]. [2021-03-01]. https：//core.ac.uk/.

[7] COnnecting Repositories [EB/OL]. [2021-03-01]. https：//en.wikipedia.org/wiki/COnnecting_REpositories.

[8] Knowledge Media Institute [EB/OL]. [2021-03-01]. https：//news.kmi.open.ac.uk/rostra/news.php？r=11&t=2&id=18463=KMi.

[9] CORE | Jisc [EB/OL]. [2021-03-01]. https：//www.jisc.ac.uk/core#.

[10] Digging into Connected Repositories （DiggiCORE） [EB/OL]. [2021-03-01]. https：//diggingintodata.org/awards/2011/project/digging-connected-repositories-diggicore.

[11] Data Providers [EB/OL]. [2021-03-01]. https：//core.ac.uk/dataproviders.

[12] CORE Services [EB/OL]. [2021-03-01]. https：//core.ac.uk/services.

[13] CORE Dataset [EB/OL]. [2021-03-01]. https：//core.ac.uk/documentation/dataset/.

[14] Connecting Repositories （CORE） | Digging Into Data [EB/OL]. [2021-03-01]. https：//diggingintodata.org/repositories/connecting-repositories-core.

[15] Open Archives Initiative Protocol for Metadata Harvesting [EB/OL]. [2021-03-01]. http：//www.openarchives.org/pmh/.

[16] OAIHarvester2 [EB/OL]. [2021-03-01]. https：//www.oclc.org/research/activities/oaiharvester2.html.

[17] Technical standards [EB/OL]. [2021-03-01]. https：//blog.core.ac.uk/2011/03/.

[18] Releasing 1.8 million open access publications from publisher systems for text and data mining [EB/OL]. [2021-03-01]. https：//blogs.lse.ac.uk/impactofsocialsciences/2018/03/22/releasing-1-8-million-open-access-publications-from-publisher-systems-for-text-and-data-mining/.

[19] Java文件流 BufferedStream [EB/OL]. [2021-03-01]. https：//blog.csdn.net/mariofei/article/details/51195055.

[20] Apache Lucene[EB/OL]. [2021-03-01]. http：//lucene.apache.org/.

[21] KNOTH P， ROBOTKA V， ZDRAHAL Z. Connecting repositories in the open access domain using text mining and semantic data [C]// International conference on theory and practice of digital libraries ：research and advanced technology for digital libraries. Berlin： Springer， 2011： 483-487.

[22] Apache Tika [EB/OL]. [2021-03-01]. https：//tika.apache.org/https：//tika.apache.org/.

[23] FRANCINE C， AYMAN F， THORSTEN B. Multiple similarity measures and source-pair information in story link detection[C]// Proceedings of the human language technology conference of the North American Chapter of the Association for Computational Linguistics： HLT-NAACL 2004. Boston：? Association for Computational Linguistics， 2004： 313-320.

[24] CORE - Semantic Similarity of Open Access publications [EB/OL]. [2021-03-01]. https：//lod-cloud.net/dataset/core.

[25] The EPrints Bazaar [EB/OL]. [2021-03-02]. https：//bazaar.eprints.org/.

[26] CORE Recommender [EB/OL]. [2021-03-03]. https：//core.ac.uk/services#recommender.

[27] Implementing the CORE Recommender in Strathprints： a “whitehat” improvement to promote user interaction [EB/OL]. [2021-03-03]. https：//blog.core.ac.uk/2017/10/31/implementing-the-core-recommender-in-strathprints-a-whitehat-improvement-to-promote-user-interaction/.

[28] LA Referencia integrates CORE Recommender in its services [EB/OL]. [2021-03-03]. https：//blog.core.ac.uk/2019/11/20/la-referencia-integrates-core-recommender-in-its-services/.

[29] CORE Recommender installation for DSpace [EB/OL]. [2021-03-03]. https：//blog.core.ac.uk/2020/03/12/core-recommender-installation-for-dspace/.

[30] CORE Recommender now supports article discovery on arXiv [EB/OL]. [2021-03-03]. https：//blog.arxiv.org/2020/10/15/core-recommender-now-supports-article-discovery-on-arxiv/.

[31] Sesame （framework） – Wikipedia [EB/OL]. [2021-03-06]. https：//en.wikipedia.org/wiki/Sesame_（framework）.

[32] The Similarity Ontology [EB/OL]. [2021-03-04]. http：//grasstunes.net/ontology/similarity/0.2/musim.html.

[33] D'ARCUS B， GIASSON F. Bibliographic ontology specification [EB/OL]. [2021-03-05]. http：//bibliontology.com/.

[34] Eclipse RDF4J – a Java framework for RDF [EB/OL]. [2021-03-10]. http：//rdf4j.org/.

[35] Overview （OpenRDF Sesame 4.1.2 API） [EB/OL]. [2021-03-15]. http：//archive.rdf4j.org/javadoc/sesame-4.1.2/.

[36] Apache Tomcat? [EB/OL]. [2021-03-15]. http：//tomcat.apache.org/.

[37] Chapter1.Introduction： what is Sesame？ [EB/OL]. [2021-03-17]. https：//poc.vl-e.nl/distribution/manual/sesame-1.2.3/ch01.html.

[38] The SAIL API [EB/OL]. [2021-03-18]. http：//docs.rdf4j.org/sail/.

作者貢獻說明：

白林林：負責數據獲取、研究提綱確定與論文撰寫;

萬妮：負責論文的修訂。

Research on CORE Paper Association Discovery and Semantic Services Based on Semantic Similarity

Bai Linlin? Wan Ni

Beijing Information and Science Technology University Library， Beijing 100192

Abstract： [Purpose/significance] This paper dissects the process and services of article association discovery in Connecting Repositories， and hopes to provide powerful reference for the recommendation and semantic linking of the content of articles in Chinese open access repositories. [Method/process] This paper analyzed the discovery process of article association based on semantic similarity and the semantic services based on article association. The discovery process of article association based on semantic similarity included metadata and full-text content harvesting， and semantic similarity calculation of article association. The semantic service based on the discovery process of article association included the CORE recommendation service and the linked open data service. And this paper summarized the application suggestions of CORE to Chinese institutional repositories. [Result/conclusion] This paper finds CORE system automatically harvests the metadata of the open access repositories through the existing OAI-PMH protocol， and further extracts the URI fields from the metadata to download the full-text through the HTTP protocol. Furtherly， providing article recommendation services and services of data linked articles based on the discovery of article semantic association enables third-party systems to utilize CORE datasets， it provides a powerful reference in recommendation and semantic linking of article association for open access repositories （such as institutional repositories and open access journals） in China.

Keywords： Connecting Repositories? ? semantic similarity? ? article association? ? recommendation system? ? linked data