茹麗潔 顧立平 田鵬偉(中國科學院文獻情報中心 北京 100190)
國際出版商對文本和數(shù)據(jù)挖掘限制的正當性辨析*
茹麗潔 顧立平 田鵬偉(中國科學院文獻情報中心 北京 100190)
隨著文本和數(shù)據(jù)挖掘技術(shù)的發(fā)展和廣泛應(yīng)用,其法律確定性問題日益突出。一方面,國際出版商主張通過許可合同和API服務(wù)對文本和數(shù)據(jù)挖掘進行限制,以保障著作權(quán)人的合法權(quán)益;另一方面,信息服務(wù)機構(gòu)和科研社群認為出版商對文本和數(shù)據(jù)挖掘(TDM)施加的限制過于嚴苛,不利于研究和開發(fā),因而缺乏正當性,提出應(yīng)當完善著作權(quán)例外制度。解決這一問題需從以下方面入手:完善相關(guān)立法,平衡各方利益;出版商和信息服務(wù)機構(gòu)要從資源能力走向服務(wù)能力;各方應(yīng)加強溝通與協(xié)作,共同謀求公眾利益的最大化。
文本和數(shù)據(jù)挖掘 出版商 信息服務(wù)機構(gòu) 科研社群 著作權(quán)例外
文本和數(shù)據(jù)挖掘(Text and Data Mining,簡稱TDM)這一概念可以追溯到幾百甚至上千年前,從最初的手工操作方式發(fā)展到如今高度自動化方式,其技術(shù)已取得空前的進步。英國知識產(chǎn)權(quán)局將TDM定義為:“從機器的可讀資料中提取有價值信息的過程,涉及對資料的大量復制、數(shù)據(jù)的提取以及數(shù)據(jù)的整合,從而識別出特定模式?!保?]
利用TDM技術(shù)不但可以提高科研人員的效率、改進研究過程、提升研究質(zhì)量,還能夠發(fā)掘其中的隱含信息,開發(fā)新知識,拓展研究視野,從而促進經(jīng)濟增長和社會進步[2]。如今,越來越多的科研人員意識到TDM技術(shù)的價值,TDM技術(shù)的應(yīng)用已不僅僅局限于計算機科學領(lǐng)域,而是滲透到科學技術(shù)與人文社會等多個學科領(lǐng)域[3-6]。隨著TDM技術(shù)對科學研究的推動作用日益突顯,科研人員對科研數(shù)據(jù)進行挖掘的需求日益增強。然而,他們在實踐過程中卻經(jīng)常遇到來自政治、法律方面的阻礙。一方面,大多數(shù)出版商聲稱其對數(shù)據(jù)資源享有著作權(quán)(或數(shù)據(jù)庫權(quán)),他們認為TDM技術(shù)涉及對其資源的大規(guī)模讀取、下載、保存和重用,侵犯了其合法權(quán)益,應(yīng)當通過許可合同對讀者的挖掘行為進行規(guī)范。另一方面,一些信息服務(wù)機構(gòu)和科研社群認為,讀者的TDM操作是基于出版商的訂閱內(nèi)容進行的,讀者已經(jīng)向出版商支付了高額的訂閱費用,閱讀的權(quán)利應(yīng)當包括挖掘的權(quán)利,但出版商的許可合同中存在諸多問題,限制了讀者獲取信息的自由。
2014年6月1日,英國修訂的著作權(quán)法正式生效,其中引入了1條特殊款項,即合法訪問數(shù)據(jù)資源的讀者以非商業(yè)目的進行TDM行為不視為對著作權(quán)的侵犯,且無需獲得其他任何許可[7]。同年4月,歐盟委員會發(fā)布了1份建議在歐盟范圍內(nèi)推行TDM例外條款的報告[8]。TDM所涉及的法律問題日益受到出版商與學術(shù)界的廣泛關(guān)注和激烈爭論,本文分別從出版商、信息服務(wù)機構(gòu)和科研社群3個角度來闡述各方對于TDM所涉及政策、法律問題的主要觀點與依據(jù)。
2.1 通過許可合同實現(xiàn)TDM的法律確定性
目前,大多數(shù)國家或地區(qū)并未建立起完善的法律體系對TDM權(quán)利做出清晰的界定,TDM的法律不確定性是未來長期存在的一個問題,多數(shù)傳統(tǒng)出版商主張通過許可合同來解決TDM的法律確定性問題。2013年2月,歐盟委員會舉辦了“歐洲許可證”利益相關(guān)者對話,與會的出版商(如愛思唯爾、美國化學學會、英國醫(yī)學雜志出版集團、牛津大學出版社等)希望就TDM問題采用一種基于各方合作的“市場化方法”,他們承諾“為非商業(yè)研究人員針對其訂閱的內(nèi)容進行文本和數(shù)據(jù)挖掘提供一定的便利,但需基于許可條款”[9]。2014年6月,歐洲出版商協(xié)會(Europe Publishers Council,簡稱EPC)明確反對通過著作權(quán)法來規(guī)定TDM的例外條款;EPC同時指出通過使用許可合同不但能完全滿足合法訪問者進行TDM的需求,還能夠適當?shù)亟档颓謾?quán)和濫用的風險[10]。國際科技醫(yī)藥出版商聯(lián)盟(International Association of Scientific,Technical & Medical Publishers,簡稱STM)于2015年5月表示:(1)TDM的法律確定性已經(jīng)通過出版商許可合同來實現(xiàn);(2)以著作權(quán)法來制定TDM例外條款會破壞確保高質(zhì)量內(nèi)容可用性的投資激勵機制[11]。
總之,大多數(shù)出版商主張通過許可合同來界定TDM的權(quán)利,其理由主要有以下幾點:
首先,通過許可合同能對用戶的TDM行為進行細致的規(guī)定,而TDM例外制度未必能夠?qū)DM的權(quán)利范圍給出精確的界定,如“非商業(yè)研究”的概念模糊不清,因而依然不能解決TDM的法律確定性問題。
其次,TDM例外制度會破壞出版商對高質(zhì)量內(nèi)容所提供的投資激勵機制。目前,許多出版商致力于向其用戶提供高質(zhì)量的學術(shù)內(nèi)容和安全、穩(wěn)定的服務(wù)體驗,投資開發(fā)TDM平臺,而TDM例外制度將對這一機制造成破壞。
最后,在國際競爭和經(jīng)濟問題方面,目前沒有明確證據(jù)表明缺乏TDM例外制度的國家會出現(xiàn)市場失靈、經(jīng)濟下滑或在國際競爭中落后于某些有TDM例外制度的國家(如美國、加拿大、英國、日本、以色列等)的情況。
表1 Elsevier的TDM注冊登記表
2.2 使用出版商提供的API及平臺實施TDM
對于TDM實施的方式,多數(shù)傳統(tǒng)出版商(如Elsevier、EPC、STM等)主張通過專用的應(yīng)用程序接口(Application Programming Interface,簡稱API)或挖掘平臺等來提供TDM服務(wù)[12-13],稱該方式更有利于滿足用戶的實際需求[14]。下面以Elsevier的TDM注冊登記表[15](見表1)為例進行分析。
總體來說,Elsevier提供的API服務(wù)對訂閱用戶的TDM權(quán)利施加了比較嚴格的限定,具體可概括為以下3個方面:
(1)對挖掘范圍的限制。目前Elsevier提供的服務(wù)只針對XML格式的文本內(nèi)容,而圖像、圖表、交互信息、視頻等信息必須與利益相關(guān)方談判后按照個案處理。
(2)對挖掘過程的限制。Elsevier明確禁止使用自動機器人程序抓取其網(wǎng)站內(nèi)容,并且對訪問數(shù)量和訪問頻率設(shè)置了比較嚴格的限制,如規(guī)定用戶每周進行TDM的數(shù)量不得超過1萬篇。
(3)對挖掘結(jié)果的限制。主要體現(xiàn)在對挖掘結(jié)果的重用性方面,盡管Elsevier規(guī)定可以將挖掘結(jié)果用于發(fā)表論文或存儲于機構(gòu)知識庫中,但并不能生成任何衍生成果,其目的在于避免對出版商的產(chǎn)品和服務(wù)造成競爭性威脅。
相比之下,Springer的TDM政策相對寬松。Springer授予訂閱用戶以非商業(yè)研究為目的的TDM權(quán)利,文章的篩選可采用現(xiàn)有的檢索方法和工具,如Pubmed、Web of S cie n ce和S pr in ge r元數(shù)據(jù)AP I,研究人員可以從SpringerLink 平臺下載全文內(nèi)容且無需注冊API密鑰[16]。
此外,跨平臺許可問題是許可合同存在的一個重要障礙,由于各出版商往往處于不同地域,其商業(yè)模式也不盡相同,TDM用戶與多家出版商談判會造成時間和精力的浪費。CrossRef是一個基于DOI實現(xiàn)文獻引文跨出版商服務(wù)的非營利機構(gòu),該機構(gòu)于2014年5月推出了一項免費的CrossRef Prospect TDM服務(wù)[17],提供了兩種統(tǒng)一機制:首先是統(tǒng)一的API,利用統(tǒng)一的機制從多家出版商獲取全文內(nèi)容;其次是統(tǒng)一的許可框架,使研究人員在同一個門戶網(wǎng)站閱讀并同意多家出版商的使用條款。目前,已有5 000多家學術(shù)出版商及協(xié)會加入CrossRef[18]。美國著作權(quán)結(jié)算中心(Copyright Clearance Center,簡稱CCC)于2015年6月推出的RightFind平臺提供了另一種相對寬松的跨平臺解決方案[19]。該平臺提供XML格式的文本挖掘,允許科研人員在平臺上創(chuàng)建XML格式的全文數(shù)據(jù)集供文本挖掘,并將其導入第三方文本挖掘軟件。
總之,出版商堅持要求TDM用戶采用指定的API及平臺,其依據(jù)主要有以下兩點:
第一,系統(tǒng)功能的角度。如果TDM用戶采用任意的第三方軟件在出版商數(shù)據(jù)庫平臺上進行批量抓取或下載,將對其現(xiàn)有數(shù)據(jù)庫平臺造成巨大壓力,使正常訂閱用戶的訪問速度明顯降低,從而損害他們本應(yīng)享有的權(quán)益,同時也加大了出版商違約的風險。因此,將TDM服務(wù)和數(shù)據(jù)庫平臺分而治之比較合理,這樣既能保障原有訂閱用戶的合同權(quán)益,又能為TDM用戶提供優(yōu)質(zhì)的服務(wù)。Elsevier認為,20名TDM用戶同時對其網(wǎng)站進行爬取將顯著影響其他訂閱用戶的正常使用[20]。Thomson Reuters表示,他們的系統(tǒng)并未達到允許第三方TDM程序爬取數(shù)據(jù)的環(huán)境,在此環(huán)境下進行TDM將很有可能對其平臺造成嚴重損壞或?qū)е孪到y(tǒng)崩潰[20]。
第二,法律根據(jù)的角度。一些出版商進一步從法律層面上闡釋要求使用API及平臺的合理性。以英國新修訂的《著作權(quán)法》中的例外條款為例,其解釋文件中明確指出:出版商和內(nèi)容提供商可以采取“合理措施”(reasonable measures)維護網(wǎng)絡(luò)安全和穩(wěn)定性,只要這些措施不妨礙或無理由限制科研人員復制TDM內(nèi)容的權(quán)利,使得研究人員能夠從這種非商業(yè)研究例外中獲益?!昂侠泶胧笨赡馨ê侠硐拗葡螺d速度、控制用戶在特定時間內(nèi)的訪問量等[21]。也就是說,出版商可以在管理數(shù)據(jù)獲取方式的過程中發(fā)揮作用。按照Elsevier的觀點,“合理措施”應(yīng)當包括要求用戶使用特定的API[22]。此外,出版商嚴格區(qū)分“閱讀”和“挖掘”的概念,認為這是兩種完全不同的信息活動,需要制定不同的許可合同和使用條款來明確TDM的權(quán)利范圍。
近年來,信息服務(wù)機構(gòu)在推動內(nèi)容重用和文本挖掘方面做了許多努力,尤其在資源的關(guān)聯(lián)、組織、集成與檢索等方面取得了可喜的進展,然而,在實踐中卻遇到了來自資源封閉的障礙,信息服務(wù)機構(gòu)在多數(shù)情況下無權(quán)對訂閱資源進行TDM,其法律不確定性是當前的主要矛盾。
3.1 呼吁完善TDM例外制度
國際圖書館協(xié)會和機構(gòu)聯(lián)合會(International Federation of Library Associations,簡稱IFLA)表示,TDM的法律確定性只能通過著作權(quán)例外制度得以實現(xiàn),而非許可合同,只要TDM的結(jié)果不是對受版權(quán)保護原有作品的替換,研究人員就有權(quán)共享該類研究成果[23]。2015年5月6日,歐洲研究圖書館協(xié)會(the Association of Europe Research Libraries,簡稱LIBER)發(fā)布了《數(shù)字時代知識發(fā)現(xiàn)海牙宣言》,提出讀者享有信息權(quán)、隱私權(quán)及挖掘權(quán)[24],旨在呼吁建立利于TDM發(fā)展的規(guī)則。LIBER同時指出,應(yīng)當為商業(yè)研究建立類似的TDM強制例外制度,這將極大提高企業(yè)的核心競爭力[25]。
信息服務(wù)機構(gòu)主張完善TDM例外制度的理由主要有以下兩點:
(1)許可合同的弊端。許可合同的靈活性過強,某些出版商的許可合同明確禁止TDM;許可合同主要是針對個案,不易廣泛擴展,且對于協(xié)議的長期有效難以保證。此外,用戶點擊許可也存在嚴重弊端,這將增加用戶承擔責任的風險,并且出版商大多會保留修改條款的權(quán)利,這也可能造成不公平限制的問題。
(2)國際競爭和經(jīng)濟問題。目前,國際上一些國家已將TDM例外制度納入其法律體系中,如美國和加拿大主要基于合理使用框架,英國和日本則專門制定了相應(yīng)的TDM例外條款。由于明確了TDM的法律確定性,這些國家的科研人員將可能在國際競爭中處于優(yōu)勢地位,TDM技術(shù)對經(jīng)濟增長的貢獻也將逐漸顯現(xiàn)。另外,出版商應(yīng)將投資從許可合同的合規(guī)性監(jiān)控轉(zhuǎn)向更有意義的TDM研究開發(fā)中去[26]。
3.2 反對限制使用挖掘工具與平臺
信息服務(wù)機構(gòu)對大多數(shù)出版商要求采用指定的API或挖掘平臺來限制TDM的做法持反對態(tài)度,因為這些API及平臺往往被施加了過多的限制,所以對用戶TDM造成了一定的阻礙,具體理由如下:
首先,在工具與平臺方面,信息服務(wù)機構(gòu)認為API本身存在一些弊端。以Elsevier頒布的TDM政策為例,LIBER、EIFL(Electronic Information for Libraries,圖書館電子信息聯(lián)盟)等在回應(yīng)Elsevier的公開信中表示,Elsevier的API注冊條款限制過于嚴苛,具體表現(xiàn)在以下3方面:(1)挖掘范圍。只允許挖掘文本,而更加豐富的圖片、圖表、交互內(nèi)容和視頻等可能蘊含了大量有價值的信息。(2)挖掘過程。Elsevier明確禁止使用機器人、蜘蛛、爬蟲或其他自動化程序、算法,而這些是最常用的方式,這一規(guī)定限制了用戶的挖掘自由;還規(guī)定用戶每周的挖掘量不得超過1萬篇,這個數(shù)量從比例上來看,簡直微不足道。(3)挖掘結(jié)果。對原文片段的引用不得超過200字符,這可能會導致錯引或?qū)υ佳芯匡@示的不準確;科研人員不得不接受創(chuàng)作共享協(xié)議(Creative Commons, 簡稱CC)中CC-BY-NC(署名—非商業(yè)性使用)的許可方式,但非商業(yè)研究很難界定,因此LIBER認為對于不受著作權(quán)保護的數(shù)據(jù)和事實最好采用CC0(公共領(lǐng)域貢獻宣告)許可;對挖掘結(jié)果的限制影響了研究成果的透明性和可重復性,而這些對于科學研究是至關(guān)重要的[27-28]。
其次,在系統(tǒng)功能方面,信息服務(wù)機構(gòu)認為這一點可以通過技術(shù)手段升級和改進其系統(tǒng)功能,且其難度并不大,目前出版商的基礎(chǔ)設(shè)施已經(jīng)能夠應(yīng)對大量訪問服務(wù)器的需求,如Reddit[20]。隨著TDM數(shù)量的不斷增長,出版商的服務(wù)質(zhì)量將成為區(qū)分市場的一個關(guān)鍵因素,因此TDM應(yīng)當是出版商未來發(fā)展的關(guān)鍵因素之一[29],信息服務(wù)機構(gòu)愿意幫助出版商解決這一問題。
最后,在法律方面,以英國新修訂的《著作權(quán)法》為例,只要科研人員對著作有閱讀權(quán)限,就允許他們以計算和分析為目的復制任何具有著作權(quán)保護的資料,無需征得著作權(quán)所有人的許可[7]?!昂戏ㄔL問”(lawful access)包括已經(jīng)訂閱了期刊、數(shù)據(jù)庫或者開放許可(CC或開放政府許可)的作品[21]。信息服務(wù)機構(gòu)認為,Elsevier的技術(shù)限制在英國侵犯了讀者合法訪問的權(quán)利。信息服務(wù)機構(gòu)普遍認為,“閱讀的權(quán)利應(yīng)當包括挖掘的權(quán)利”,機構(gòu)已經(jīng)投入大量精力和財力來談判、購買相關(guān)資源,那么TDM只是簡單地應(yīng)用計算機讀取資料與事實,不能因為計算機使用了復制技術(shù)就被認為是觸犯了著作權(quán)及數(shù)據(jù)庫的相關(guān)法律[24-30]。此外,出版商還要求研究人員在填寫注冊登記表時填寫基本信息和項目描述,信息服務(wù)機構(gòu)擔心這可能侵犯了讀者的隱私權(quán),他們反對第三方機構(gòu)收集用戶的相關(guān)信息[27]。
科研社群對待TDM政策、法律問題的態(tài)度同信息服務(wù)機構(gòu)大致相同。多數(shù)學者從TDM的障礙著手,闡述出版商的TDM政策在實踐中存在的問題。Brook等認為,當前TDM的非技術(shù)障礙是制約TDM應(yīng)用發(fā)展的主要因素,一方面,著作權(quán)、數(shù)據(jù)庫權(quán)法律不確定性的長期存在,使得某些風險規(guī)避型研究人員出于對風險的考慮選擇不使用TDM工具; 另一方面,出版商的許可合同在實施過程中也存在一些弊端,如點擊許可、成果的復現(xiàn)性和隱私泄露等[31]。Dyas-Correia和Alexopoulos提出,研究人員在使用出版商提供的API時可能遇到一些問題,如由于研究人員可能沒有充分了解信息服務(wù)機構(gòu)與其他利益相關(guān)者之間簽訂的協(xié)議,因此可能在不經(jīng)意間違反了相關(guān)許可合同;研究人員在請求訪問進行TDM時,往往需要與多個利益相關(guān)方交涉;當TDM涉及到下載大量資源時,出版商很可能不愿提供授權(quán)許可或嚴格限制挖掘的數(shù)量[32]。Clark認為,出版商要求網(wǎng)絡(luò)爬蟲在連續(xù)下載文章時應(yīng)間隔5至10秒的延遲,這雖然看似合理,但它的可執(zhí)行性不高——連續(xù)下載1萬篇文章預(yù)計需要4~8個月的時間[33]。
對于TDM的法律確定性究竟該通過TDM例外制度還是出版商的許可合同實現(xiàn),大多數(shù)學者表示前者更有利于實現(xiàn)公眾利益的最大化。盡管有少數(shù)學者對Elsevier的TDM政策表示歡迎,如Richard認為“它解決了真正的技術(shù)問題”[34]。但是,大多數(shù)學者并不能接受出版商嚴格的限制。歐洲研究型大學聯(lián)盟(League of European Research Universities,簡稱LERU)指出,當前歐洲的著作權(quán)制度已經(jīng)不能適用數(shù)字環(huán)境下的需求,并呼吁在歐洲范圍內(nèi)建立基于訂閱內(nèi)容的TDM例外制度[30]。Keller表示,TDM的法律確定性應(yīng)由相關(guān)的法律明確規(guī)定,技術(shù)保護措施與許可條款不能超越這樣的法律例外[20]。Smith指出,TDM本質(zhì)上是自動、快速閱讀和分析的過程,均處于合理使用范圍之內(nèi),而用許可合同的方式來實現(xiàn)TDM將會過度發(fā)揮其功效[35]。徐軒等建議將有權(quán)獲取的主體開展的非商業(yè)性研究的數(shù)據(jù)挖掘行為納入我國著作權(quán)法復制權(quán)的合理使用范疇[36]。
5.1 關(guān)于TDM權(quán)利的爭議焦點及依據(jù)
本文通過研究發(fā)現(xiàn),出版商對TDM限制的正當性以及采用何種方式規(guī)范TDM行為是爭議的焦點所在,目前大致存在兩種聲音:一種是以Elsevier為代表的出版商一方,他們堅稱許可合同完全能夠解決TDM的法律確定性問題,通過使用出版商提供的API既能保證向用戶提供高質(zhì)量的服務(wù),又能確保原有數(shù)據(jù)庫的功能不受影響;另一種是以信息服務(wù)機構(gòu)和科研社群為代表的一方,他們認為出版商實施的許可合同和API方式限制過于嚴格,侵犯了讀者本應(yīng)享有的權(quán)利,主張制定TDM法律例外規(guī)定而使TDM合法化。
筆者就爭議雙方的主要理由或依據(jù)做如下總結(jié),如表2所示。其中,TDM政策是否真的會影響經(jīng)濟發(fā)展或國際競爭,這一點在目前看來并沒有充分的數(shù)據(jù)給出證實,更多的是基于經(jīng)驗和理論上的預(yù)測或推斷,下結(jié)論也許還為時尚早。用戶采用第三方發(fā)掘軟件對出版商數(shù)據(jù)庫進行直接挖掘是否一定會造成數(shù)據(jù)庫的癱瘓也不是雙方爭議的焦點,并且我們相信隨著技術(shù)的進步,這些問題終究將得到解決。雙方爭議的重點主要在前兩個方面,出版商一方側(cè)重于強調(diào)用戶購買了什么權(quán)利,從Elsevier的TDM政策來看,用戶僅僅購買到了緩存、瀏覽、打印以及在PDF上進行單詞搜索的權(quán)利,而基于數(shù)據(jù)的挖掘權(quán)利則需通過另外的許可合同才能進行。而信息服務(wù)機構(gòu)和科研社群的一方側(cè)重于強調(diào)讀者本應(yīng)享有的權(quán)利,他們達成的共識是“閱讀的權(quán)利包括挖掘的權(quán)利”,高校和科研機構(gòu)每年花費大量的資金購買電子期刊等資源,那么機構(gòu)在訂閱這些數(shù)字資源時到底購買的是什么?既然機構(gòu)支付了電子訂閱費,那么就應(yīng)該對其所訂閱的內(nèi)容具有使用權(quán)。
表2 爭議雙方的主要依據(jù)
5.2 發(fā)展建議
盡管各方就TDM權(quán)利問題的爭議還未有定論,但這一問題日益受到各界的廣泛關(guān)注和積極討論,本文提出以下建議:
(1)完善相關(guān)立法,平衡各方利益。TDM的權(quán)利爭議是數(shù)字時代背景下產(chǎn)生的新問題,是舊的法律法規(guī)難以解決和應(yīng)付的。對TDM進行一定的限制和規(guī)范是必要的,知識產(chǎn)權(quán)的本質(zhì)是保護權(quán)利人的合法權(quán)益,避免資源的濫用,從而促進科技進步和人類智慧的發(fā)展;然而,知識產(chǎn)權(quán)也是一把雙刃劍,如果過度地保護就可能會阻礙知識的傳播,損害公眾利益。因此,明確TDM的法律確定性問題是目前的當務(wù)之急,而對于具體的實現(xiàn)方式,筆者認為最終還是要上升到法律層面,通過完善各國家、地區(qū)的相關(guān)例外制度或合理使用框架,明確TDM行為的合理使用邊界和判斷標準,盡量平衡各利益相關(guān)方的利益,為TDM的發(fā)展提供良好的法律環(huán)境。出版商提供的許可合同過于靈活,不同的出版商的許可合同中對TDM的規(guī)定不盡相同,在實踐中可能會遇到諸多問題。當然,法律法規(guī)也不可能面面俱到,因而許可合同可作為法律法規(guī)在具體實踐中的有益補充。
(2)從資源能力走向服務(wù)能力?;ヂ?lián)網(wǎng)的飛速發(fā)展與大數(shù)據(jù)時代的到來為TDM開啟了新的征程,也為其帶來了新的挑戰(zhàn)。無論是出版商還是信息服務(wù)機構(gòu),都應(yīng)當逐漸從資源能力走向服務(wù)能力。對于出版商而言,未來,資源將進一步開放化,傳統(tǒng)的出版形式也將逐漸被數(shù)字出版所取代,因此出版商應(yīng)當順應(yīng)數(shù)字時代的大趨勢,對資源進行適當開放并實現(xiàn)技術(shù)連通。如果出版商一味追求以封閉的資源來謀取短期利益,則將在長期競爭中處于劣勢。對于信息服務(wù)機構(gòu)來說,應(yīng)當以用戶的需求為基本出發(fā)點,善用技術(shù)的手段解決實際問題,進一步發(fā)展內(nèi)容重用和文本挖掘技術(shù),提升其TDM服務(wù)能力。
(3)合作共贏,實現(xiàn)公眾利益的最大化。筆者認為,雖然出版商與信息服務(wù)機構(gòu)、科研社群關(guān)于TDM權(quán)益沖突是自然存在的,但雙方并非完全對立。在TDM問題中,出版商具有先天的資源優(yōu)勢,科研社群是目標用戶,而信息服務(wù)機構(gòu)在二者之間起到橋梁的作用,一方面從出版商處購買資源,另一方面為用戶提供服務(wù),因此應(yīng)當找到三者的有效對接點:首先是在政策和制度上的對接,無論是出版商還是信息服務(wù)機構(gòu)、科研社群的TDM解決方案并非是十全十美的,如出版商對TDM施加了過于嚴格的限制,使用戶在實踐中遇到了很大阻力;但不能對資源完全不加限度地開放或允許TDM,如LIBER提倡的CC0許可合同可能并不適用于所有的資源或挖掘場景。其次是技術(shù)和方法上的對接,包括在資源格式、元數(shù)據(jù)標準等方面的統(tǒng)一,在數(shù)據(jù)庫功能和負載等問題上也要提出合理的解決方案。值得注意的一點是,大多數(shù)的科學研究是由政府公共資金支持的,因此本文呼吁出版商、信息服務(wù)機構(gòu)和科研社群加強彼此之間的合作與協(xié)調(diào),最大限度地發(fā)揮公共資金的效用,共同謀求公眾利益的最大化。
[1]UK Intellectual Property Office. Text Mining and Data Analytics in Call for Evidence Responses [EB/OL]. (2014-07-29)[2015-12-27]. http://www.ipo.gov.uk/ipreview-doc-t.pdf.
[2]McDonald D, Kelly U. The Value and Benefits of Text Mining [EB/OL]. (2012-03-14)[2015-12-27]. https://www.jisc.ac.uk/ reports/value-and-benefits-of-text-mining.
[3]Karimi S, Wang C, Metke-Jimenez A, et al. Text and Data Mining Techniques in Adverse Drug Reaction Detection[J]. Acm Computing Surveys, 2015,47(4):1-39.
[4]Ju Yonghan, Sohn S Y. Identifying Patterns in Rare Earth Element Patents Based on Text and Data Mining[J]. Scientometrics,2015,102(1): 389-410.
[5]Vijayakrishnan R, Steinhubl S R, Ng K, et al. Prevalence of Heart Failure Signs and Symptoms in a Large Primary Care Population Identified Through the Use of Text and Data Mining of the Electronic Health Record[J]. Journal of Cardiac Failure, 2014, 20 (7):459-464.
[6]Giój n-Correas J A, Andrade-Navarro M A, Fontaine J F. Alkemio:Association of Chemicals with Biomedical Topics by Text and Data Mining[J]. Nucleic Acids Research, 2014,42(5): 422-429.
[7]UK Government. Intellectual Property Guidance: Exceptions to Copyright [EB/OL]. [2016-01-30]. https://www.gov.uk/guidance/ exceptions-to-copyright.
[8]Triaille J P, Argenteuil J, Francquen de A. Study on the Legal Framework of Text and Data Mining (TDM) [EB/OL]. [2015-12-28]. http://ec.europa.eu/internal_market/copyright/docs/ studies/1403_study2_en.pdf.
[9]European Commission. Licences for Europe[EB/OL]. (2013-11-13) [2015-12-27]. http://ec.europa.eu/internal_market/copyright/ docs/licences-for-europe/131113_ten-pledges_en.pdf.
[10]European Publishers Council. Copyright Enabled on the Network [EB/OL]. [2015-12-27]. http://www.leru.org/files/general/ EPC%20Copyright%20Vision%202014_final.pdf.
[11]STM. Text and Data Mining in the EU: Legal Certainty Already Exists[EB/OL]. (2015-05-19) [2015-12-27]. http://www.stmassoc.org/2015_05_19_News_Release_Text_Mining_ in_the_ EU_STM_Association_Reaction.pdf.
[12]Elsevier. Text and Data Mining[EB/OL]. [2015-12-27].https:// www.elsevier.com/about/company-information/policies/textand-data-mining.
[13]Publishers Licensing Society. PLSclear TDM[EB/OL]. [2015-12-27].http://www.pls.org.uk/services/text-and-data-mining/.
[14]STM. Text and Data Mining for Non-Commercial Scientific Research[EB/OL]. (2015-11-10) [2015-12-27].http://www. stm-assoc.org/2015_11_10_Text_and_ Data_Mining_ Declaration.pdf.
[15]Elsevier. Elsevier Text and Data Mining (TDM) Registration Form[EB/OL]. [2015-12-27]. https://www.elsevier.com/__data/ assets/pdf_file/0012/102234/TDM-sign-up-short-form.pdf.
[16]Springer. Springer's Text- and Data-Mining Policy[EB/OL]. [2015-12-27].http://www.springer.com/gb/rights-permissions/ springer-s-text-and-data-mining-policy/29056.
[17]CrossRef. CrossRef Text and Data Mining Services[EB/OL]. [2015-12-27]. http://tdmsupport.crossref.org/.
[18]CrossRef. Publishers and Societies[EB/OL]. [2016-02-07]. http:// www.crossref.org/01company/06publishers.html.
[19]Copyright Clearance Center. Copyright Clearance Center Launches Text Mining Solution[EB/OL]. [2016-01-04].http:// www.copyright.com/copyright-clearance-center-launchestext-mining-solution/.
[20]European Commission. Text and Data Mining: Report from the Expert Group[EB/OL]. [2015-12-28].http://ec.europa.eu/ research/innovation-union/pdf/TDM-report_from_the_expert_ group-042014.pdf#view=fit&pagemode=none.
[21]UK Intellectual Property Office. Exceptions to Copyright:Research[EB/OL].[2015-12-28]. https://www.gov.uk/ government/uploads/system/uploads/attachment_data/file/ 375954/Research.pdf.
[22]Hersh G. How does Elsevier's Text Mining Policy Work with New UK TDM Law? [EB/OL]. (2014-06-09) [2015-12-30]. https://www.elsevier.com/connect/how-does-elseviers-textmining-policy-work-with-new-uk-tdm-law.
[23]IFLA. IFLA Statement on Text and Data Mining[EB/OL]. (2013-12-19)[2016-01-04].http://www.ifla.org/publications/iflastatement-on-text-and-data-mining-2013.
[24]LIBER. The Hague Declaration on Knowledge Discovery in the Digital Age [EB/OL]. (2015-05-06)[2016-01-04]. http:// thehaguedeclaration.com/wp-content/uploads/sites/2/2015/04/ Liber_DeclarationA4_2015.pdf.
[25]LIBER. LIBER Responds to Elsevier's Text and Data Mining Policy[EB/OL]. (2014-03-28) [2016-01-04].http://www. libereurope.eu/news/liber-response-to-elsevier's-text-anddata-mining-policy.
[26]LIBER. LIBER Response to STM Statement on Text and Data Mining[EB/OL]. (2015-06-09) [2016-01-04].http:// libereurope.eu/blog/2015/06/09/liber-response-to-stmstatement-on-text-and-data-mining/.
[27]LIBER. Realising the Innovative Potential of Digital Research Methods: A Call from the Research Community[EB/OL]. (2014-07-01) [2016-01-04]. http://libereurope.eu/wp-content/uploads/ 2014/07/Open-Letter-To-Elsevier1.pdf.
[28]LIBER. Response to Elsevier's Text and Data Mining Policy: A LIBER Discussion Paper[EB/OL]. (2014-03-28) [2016-01-04]. http://libereurope.eu/wp-content/uploads/2014/04/ TDMdiscussionpaper-final1.pdf.
[29]LIBER. Workshop Report from the Perfect Swell: Defining the Ideal Conditions for the Growth of Text and Data Mining in Europe. [EB/OL]. (2013-10-29) [2016-01-04]. http:// libereurope.eu/blog/2013/10/29/workshop-report-from-theperfect-swell-defining-the-ideal-conditions-for-the-growthof-text-and-data-mining-in-europe/.ERBER.
[30]LERU. LERU Statement: The Right to Read is the Right to Mine [EB/OL]. (2015-06-17) [2016-01-04]. http://www.leru.org/files/ general/LERU%20statement%20-%20The%20Right% 20to%20Read%20is%20the%20Right%20to%20Mine.pdf.
[31]Brook M, Murray-Rust P, Oppenheim C. The Social, Political and Legal Aspects of Text and Data Mining (TDM)[J]. D-Lib Magazine, 2014,20(11):1-9.
[32]Dyas-Correia S, Alexopoulos M. Text and Data Mining: Searching for Buried Treasures[J]. Serials Review, 2014,40(3):210-216.
[33]Clark J. Text Mining and Scholarly Publishing[EB/OL]. [2016-01-03]. http://www.publishingresearch.org.uk/documents/ PRCTextMiningandScholarlyPublishinFeb2013_000.pdf.
[34]Richard V N. Elsevier Opens Its Papers to Text-Mining[J]. Nature,2014,506(748):17.
[35]Bernhardt B, Herndon J, Herron P, et al. Revolutionizing Scholarship: A Panel Discussion on Text and Data Mining[J]. Serials Review, 2015,41(3):184-186.
[36]徐 軒, 孫益武. 英國數(shù)據(jù)挖掘著作權(quán)例外條款研究及其啟示[J].圖書館建設(shè), 2015(9):10-14.
Analysis on Properness of International Publishers Restricting Text and Data Mining
With the development and application of text and data mining technology, its legal certainty issue has become increasingly acute. On the one hand, international publishers claim to restrict text and data mining through licensing contract and API service, so as to protect the legitimate interest of copyright holders. On the other hand, information service institutions and researcher groups consider that publishers's restriction on Text and Data Mining(TDM) is too restrict to carry out research and development, therefore, it is lack of legitimacy, system of copyright exception should be improved. This problem would be solved from the following aspects: improving relecant legislation, balancing the interests among all parties, publishers and information service institutions should enhance the service ability instead of resources, and all parties should strengthen communication and coordination to maximize the public interest.
Text and data mining; Publisher; Information service institution;Researcher group;Copyright exception
G250
A
*本文系中國科學院文獻情報出版領(lǐng)域擇優(yōu)支持人才項目的研究成果之一,項目編號:院1434。
茹麗潔 女,1992年生,中國科學院文獻情報中心2014級情報學專業(yè)碩士研究生。
顧立平 男,1978年生,博士,中國科學院文獻情報中心科技信息政策中心副主任,副研究館員,研究方向為知識產(chǎn)權(quán)與著作權(quán)、科研數(shù)據(jù)權(quán)益管理、開放獲取政策。
田鵬偉 男,1990年生,中國科學院文獻情報中心2015級情報學專業(yè)碩士研究生。
2016-03-07 ]