王晨雨
摘要:互聯(lián)網(wǎng)時代,數(shù)據(jù)就是資源,就是話語權。近年來,網(wǎng)絡爬蟲技術被廣泛應用于互聯(lián)網(wǎng)數(shù)據(jù)的獲取,國內(nèi)也出現(xiàn)了不少非法收集、利用個人信息的案例,監(jiān)管部門亦在完善立法、加強監(jiān)管。無論如何技術革新,都應嚴守依法合規(guī)的邊界,做到個人信息安全,不得侵害個人隱私。本文從爬蟲技術的概念入手,在對現(xiàn)有案例分析的基礎上對爬取數(shù)據(jù)行為進行了法律界定,并提出爬蟲技術下個人信息保護的對策。
關鍵詞:爬蟲技術;數(shù)據(jù)抓取;個人信息;隱私保護
中圖分類號:TP391.3文獻標識碼:A 文章編號:1003-5168(2020)12-0154-04
1 背景介紹
近年來,隨著互聯(lián)網(wǎng)技術、大數(shù)據(jù)、云計算、人工智能的迅速發(fā)展,各行各業(yè)的競爭實質(zhì)上變成了大數(shù)據(jù)的競爭,誰掌握了數(shù)據(jù)就掌握了主動權。如何有效地從互聯(lián)網(wǎng)上獲取所需要的信息已經(jīng)成為眾多互聯(lián)網(wǎng)企業(yè)競爭研究的新方向。在大數(shù)據(jù)風控行業(yè)中,網(wǎng)絡爬蟲技術被廣泛的應用。網(wǎng)絡爬蟲,是一種用來自動挖掘互聯(lián)網(wǎng)信息的網(wǎng)絡機器人,通過遍歷網(wǎng)絡內(nèi)容,按照指定規(guī)則下載所需要的內(nèi)容。本質(zhì)上就是實現(xiàn)高效、自動的讀取、搜集網(wǎng)絡信息。網(wǎng)絡爬蟲應用的場景很多,所有的搜索引擎都會用到該技術,網(wǎng)站可以通過爬蟲技術自動更新網(wǎng)站內(nèi)容,爬蟲技術還可以被用來抓取網(wǎng)絡公開信息,建立專業(yè)的數(shù)據(jù)庫,例如外匯數(shù)據(jù)庫、商戶信息數(shù)據(jù)庫等[1]。
越來越多的企業(yè)甚至個人利用爬蟲技術更加便捷精確的從網(wǎng)站上獲取數(shù)據(jù)這時就可能會出現(xiàn)惡意用戶會利用爬蟲技術對服務器進行攻擊,為了維護互聯(lián)網(wǎng)的秩序,保護用戶的數(shù)據(jù)隱私,防止數(shù)據(jù)被過度的爬取,就會出現(xiàn)各種各樣的反爬技術,運用Robots協(xié)議、自動內(nèi)容訪問協(xié)議、網(wǎng)絡爬蟲檢測、加固Web站點等手段限制爬蟲的訪問權限[2]。robots協(xié)議以其簡單高效的優(yōu)點被國內(nèi)外普遍采用。信息提供者可以在自己的站點設置robots協(xié)議,用來告知爬蟲控制者哪些信息是我不希望被爬取的。Robots協(xié)議是國際公認的互聯(lián)網(wǎng)領域內(nèi)通行標準,但其性質(zhì)在法律上并沒有明確的規(guī)定[3]。
2 爬取數(shù)據(jù)行為的法律界定
在現(xiàn)實運用中,爬蟲控制者為避免網(wǎng)站設置的反爬蟲程序,可能會采取偽裝措施。這樣爬蟲控制者不僅面臨爬蟲技術獲取數(shù)據(jù)本身的風險,而且還可能面臨著爬蟲技術搜集到一些受到法律保護的個人信息,而游走在違法違規(guī)的邊緣。違規(guī)使用,買賣爬蟲得來的數(shù)據(jù),則是導致數(shù)據(jù)泄露、隱私泄露等一系列問題的根源。
2.1 獲取到的信息受到著作權法的保護
在網(wǎng)絡大數(shù)據(jù)中,存在著很多獨創(chuàng)性的數(shù)據(jù),例如:文章、圖片、個人評論等,就數(shù)據(jù)保存本身而論,根據(jù)著作權法的角度來闡述,數(shù)據(jù)抓取行為本質(zhì)上是對信息的復制,因此這些行為有可能構成對著作權人的復制權的侵犯。當然,我國對臨時復制行為是持寬容的態(tài)度。但如果爬蟲控制者在自己的網(wǎng)站上獲取信息并公開傳播抓取到的信息,則可能進一步侵犯著作權人在互聯(lián)網(wǎng)上傳播信息的信息傳播權。
數(shù)據(jù)爬蟲侵犯他人著作權,首先要判斷爬取的數(shù)據(jù)是否直接構成他人具有《著作權法》保護的獨創(chuàng)性作品,退而求其次,被爬取的數(shù)據(jù)是否直接構成匯編作品,這兩個請求權基礎是被爬蟲數(shù)據(jù)企業(yè)主張的依據(jù)[4]。例如:在美亞長城影視文化(北京)有限公司與精倫電子股份有限公司侵犯影視作品信息網(wǎng)絡傳播權糾紛中精倫電子股份有限公司主要通過相關主體和技術從互聯(lián)網(wǎng)上抓取影視鏈接地址,并由其提供播放器進行播放。法院認為:精倫電子向其用戶提供搜索、鏈接服務,讓其用戶獲取涉案影視作品的行為是否構成侵權是本案雙方當事人爭議的主要焦點。精倫電子盈利的點是第三方網(wǎng)站提供的影視內(nèi)容,精倫電子鏈接他人版權作品提供給自己的用戶,應該取得著作權人及相關專利人的許可并支付相應對價,但是精倫公司沒有取得許可也沒有支付對價,法院認為,精倫電子讓用戶獲取涉案影視作品的行為主觀上具有過錯,構成侵權。
在知識產(chǎn)權方面,在我國的司法實踐中,數(shù)據(jù)會變能否享有著作權,主要看該作品是否具備著作權法上的獨創(chuàng)性。在大眾點評網(wǎng)訴愛幫網(wǎng)一案中,一審法院認為,大眾點評網(wǎng)中針對餐館介紹的語言以及所引用的圖片和對餐館點評內(nèi)容構成的整體可以視為匯編作品,原告作為網(wǎng)站的經(jīng)營者,對上述內(nèi)容享有著作權,但在二審中被法院駁回,二審法院認為大眾點評網(wǎng)只是對網(wǎng)友的反饋信息按照時間的順序排列,不能視為具有獨創(chuàng)性。同時,本案現(xiàn)有證據(jù)無法證明上訴人對用戶點評內(nèi)容進行了選擇。故二審法院沒有支持。數(shù)據(jù)抓取方式侵犯匯編作品著作權的主張,后來大眾點評另行提起不正當競爭訴訟,獲得法院支持[5]。
2.2 獲取到的信息屬于商業(yè)機密
雖然網(wǎng)絡上公開的信息很難構成商業(yè)秘密,但由于網(wǎng)絡上的數(shù)據(jù)可以通過設置權限使一部分用戶可以接觸,因此網(wǎng)絡上的信息任然可能具備商業(yè)秘密要求的秘密性和保密性,構成商業(yè)秘密的可能。根據(jù)《反不正當競爭法》第九條,以不正當手段獲取他人商業(yè)秘密的行為即已經(jīng)構成侵犯商業(yè)秘密。而后續(xù)如果進一步利用,或者公開該信息,則構成對他人商業(yè)秘密的披露和使用,同樣構成權利人對商業(yè)秘密的侵犯[6]。
2.3 獲取到的數(shù)據(jù)構成不正當競爭
在大眾點評訴百度不正當競爭案件、新浪微博訴脈脈不正當競爭案件、深圳市谷米科技有限公司訴武漢元光科技有限公司不正當競爭案中,在這些案件中法院最終都認定為被告構成不正當競爭,原因是被告未經(jīng)原告許可,使用爬蟲技術抓取并且利用從原告網(wǎng)站中獲取的數(shù)據(jù)牟利,這種行為不僅違反了誠實信用原則,破壞了互聯(lián)網(wǎng)市場的競爭秩序,并且侵犯原告的利益,損害其競爭優(yōu)勢,從而構成不正當競爭。
本文認為上述案件之所以能夠勝訴其共性在于原告網(wǎng)站中的主要優(yōu)勢來源于平臺的信息和數(shù)據(jù),而這些信息和數(shù)據(jù)是由其用戶產(chǎn)生的。這種模式被稱為UGC模式,在這種模式下,未經(jīng)網(wǎng)站或者用戶的同意,在自己的產(chǎn)品中使用用戶在網(wǎng)站上發(fā)布信息的,很容易會構成不正當競爭。
2.4 爬蟲抓取的信息屬于用戶的個人信息
《網(wǎng)絡安全法》第四十四條任何個人好人組織不得竊取或者以其他區(qū)非法方式獲取個人信息。因此,如果爬蟲控制者在抓取用戶個人信息時沒有經(jīng)過對方的同意,那么這個行為就很容易被定性為非法收集個人信息的行為。
近日51信用卡利用爬蟲技術非法獲取用戶信息被杭州市公安局立案偵查。51信用卡如同很多網(wǎng)貸公司一樣,委托外包公司進行追債,在外包公司暴力追債的過程中,51公司通過爬蟲技術獲取個人通訊錄、地址等敏感信息。在對網(wǎng)絡爬蟲技術侵犯公民個人隱私案件中,首先要確定的是抓取的信息是否屬于公民的個人信息,其次是爬蟲技術抓取信息的行為是否違反國家關于個人信息保護的法律法規(guī),最后還要注意這種非法獲取的行為是否達刑法中要求的“情節(jié)嚴重”或“情節(jié)特別嚴重”的標準。
3 爬蟲技術與個人信息保護
3.1 歐盟推出FDPR
隨著經(jīng)濟全球化和互聯(lián)網(wǎng)行業(yè)的快速發(fā)展,保護數(shù)據(jù)隱私的問題不可避免的成為了一個全球性的問題。對此歐洲的反應比較激烈,在歐住的文化中一直都比較重視保護個人的隱私。早在2018年,歐盟就推出并實施了《通用數(shù)據(jù)保護條例》(GORP)。該條例可以稱得上是世界上最為嚴格的數(shù)據(jù)隱私保護條例,是因根據(jù)該條例,開出的罰單可以說是天價了,犯罪的成本增加了,人們就更加謹慎了。該條例更嚴格的是它不僅約束歐盟的成員及公司,而且只要你的客戶或者用戶中有歐盟國家的公民,并且你需要獲取利用他們的數(shù)據(jù),就會受到GORP的管轄。此外,不僅對抓取信息的一方有天價的罰單,對于那些因為自己沒有保護好數(shù)據(jù)而導致數(shù)據(jù)泄露的,處以1 000萬歐元或一年以上全球營業(yè)額的2%,兩者取其高;自主泄露用戶數(shù)據(jù)的,處于最高2 000萬歐元或者企業(yè)上一年全球營業(yè)額收入的4%,兩者取其高[8]。
該條例自推出以來就飽受爭議,有人認為這會阻礙科技的創(chuàng)新。一直關注GOPR的中國互聯(lián)網(wǎng)協(xié)會研究中心秘書長、北京師范大學刑事法律科學研究院沈括教授認為該條例的出臺有其復雜的原因,不僅僅是對數(shù)據(jù)隱私的保護,而是深層次融合了國際政治博弈、產(chǎn)業(yè)經(jīng)濟競爭以及社會文化擴張等諸多元素的復雜綜合體。麒麟合盛網(wǎng)絡技術有限公司作為中國互聯(lián)網(wǎng)“出海”最具代表性的公司,全球用戶超過14億,覆蓋全球200多個國家和地區(qū),其重要業(yè)務在歐洲市場。該條例的出臺對該公司的發(fā)展非常大。據(jù)該公司的法務總監(jiān)吳映京在中國經(jīng)濟周刊中表示,該公司成立了專門針對GDPR的研究團隊。根據(jù)美國專業(yè)機構的數(shù)據(jù)調(diào)查,在美國,68%的國企預計將花費100萬到1 000萬美元來滿足GDPR的要求。這從側(cè)面反映了,初創(chuàng)公司進入歐洲市場的一個門檻就是是否能達到GDPR合規(guī)工作投入額外的資源和成本。
該條例實行一年多以來,真正滿足人們幻想的天價罰單只有三張,可見對巨額罰單還是比較審慎的,這主要針對大型企業(yè)的數(shù)據(jù)泄露事件,應該說在實踐層面,該條例達到了創(chuàng)新和保護隱私的某種平衡。
3.2 中國的數(shù)據(jù)保護紅線
目前,在世界范圍都掀起了一股保護數(shù)據(jù)隱私立法的熱潮,歐盟GOPR的推出在數(shù)據(jù)隱私保護方面取得了顯著的成績,韓國、俄羅斯、日本等國也都紛紛設立了類似于GOPR的隱私保護法,美國各州已經(jīng)陸續(xù)開始落實數(shù)據(jù)隱私保護法規(guī),推出了一系列保護數(shù)據(jù)隱私的方法,比如有人提出數(shù)據(jù)就是財產(chǎn)這個模型,這樣一來,數(shù)據(jù)就可以出售,可以獲得對價。手機別人的信息需要支付財產(chǎn),用戶本身也會有收入。在美國的聯(lián)邦層面卻沒有設立數(shù)據(jù)隱私保護法案,出于對各個州的利益考慮,短期內(nèi)出臺數(shù)據(jù)隱私保護法案的可能性不大。
我國的數(shù)據(jù)紅線應該劃在哪里?自從在我國2017年6月起施行的《網(wǎng)絡安全法》,2018年5月生效《個人信息安全規(guī)范》以來,已經(jīng)有了很多關于隱私保護的法規(guī),例如《個人信息保護法(草案)》《網(wǎng)絡安全審查辦法(征求意見稿)》《APP違規(guī)違法收集使用個人信息行為認定方法(征求意見稿)》《網(wǎng)絡安全漏洞管理規(guī)定(征求意見稿)》等,吳映京表示,從現(xiàn)有的法規(guī)來看,國內(nèi)對數(shù)據(jù)隱私的保護并不比歐洲弱,我國雖然沒有設置天價的罰單,但侵權者面臨基于我們國情的處罰,甚至還有可能承擔刑事責任。
數(shù)據(jù)就像是未來的“石油”,數(shù)據(jù)的搜集在跟人們帶來便利的同時也會產(chǎn)生數(shù)據(jù)隱私問題,因此對數(shù)據(jù)的利用以及收集的方法都必須遵循正當、必要且合法的原則。這要求政府制定出合理的、可執(zhí)行的法律法規(guī),企業(yè)和人民共同去遵守和執(zhí)行。我國現(xiàn)在還正處于摸著石頭過河的階段,數(shù)據(jù)使用的尺度需要三方共同去尋找和把握。目前無論是國外和天價罰單還是國內(nèi)的各項法規(guī)的制定,不能片面的評價哪個是最好的,這需要結合本國的實際情情況來分析,但是歸根結底就是在于明確社會、企業(yè)和用戶在隱私保護中的責任,平衡好三者的利益。這三者應該是相互促進,互惠互利的關系,并不是非此即彼的敵對關系。要通過制度的設計,技術的創(chuàng)新甚至是教育的推進來積極的解決這些問題。
司法部副部長趙大成指出,互聯(lián)網(wǎng)的普及會越來越廣泛,數(shù)據(jù)的應用也會越來越深入,數(shù)據(jù)的價值也會越來越大。雖然數(shù)據(jù)隱私保護問題依然嚴峻,但是在治理過程中不能因噎廢食,要抓住大數(shù)據(jù)時代的機遇,迎接挑戰(zhàn),廣泛凝聚依法治理的共識,共同推進全球數(shù)據(jù)治理朝著更加平穩(wěn)有效的方向發(fā)展[8]。
3.3 爬蟲問題最終需要技術來解決
在當下的時代,技術日新月異,歐洲實施了如此嚴苛的數(shù)據(jù)保護條例尚且還被質(zhì)疑會阻礙科技的創(chuàng)新,“只要市場存在,即使監(jiān)管再嚴格,也總會有人會因為利益去鋌而走險”,北京大學市場與網(wǎng)絡經(jīng)濟研究中心陳永偉研究員這樣認為。他認為僅僅依靠法律是很難從根本上解決,技術問題仍然需要技術來解決。陳永偉說“比如獲得圖靈獎的、清華大學姚期智教授的“多方安全計算(MPC)”才可能是徹底解決這個問題的路徑,通過技術手段實現(xiàn),保護和用戶的數(shù)據(jù)隱私,又能夠獲得有價值的數(shù)據(jù)挖掘”[5]。
事實上無論是商業(yè)模式的需要還是科學技術的進步,這都是一把雙刃劍,他們都是數(shù)據(jù)隱私的加害者,也是數(shù)據(jù)信息的守護者。因此我們可以通過鼓勵企業(yè)技術創(chuàng)新甚至是商業(yè)模式創(chuàng)新,大力發(fā)展區(qū)塊鏈技術以及多方安全計算技術,來達成個人信息保護與數(shù)據(jù)利用的動態(tài)平衡。
3.4 侵權頻發(fā),“技術中立”值得思考
“爬蟲技術本身是中性的,關鍵在于是否合規(guī)使用爬蟲數(shù)據(jù)”中關村大數(shù)據(jù)聯(lián)盟秘書長陳新河在接受《中國新聞周刊》采訪時表示,如果通過爬蟲抓取網(wǎng)絡公開信息或授權信息,并不違規(guī),但如果抓取的是未公開、未授權的個人敏感信息,并且違規(guī)存留、使用、買賣這些隱私數(shù)據(jù),就屬于違規(guī)行為。
“爬蟲”從法律角度而言,是一種通過特殊途徑和渠道獲取信息的一種手段,其本身作為一種網(wǎng)絡技術手段,被廣泛的應用到網(wǎng)絡系統(tǒng)中,并不存在天然的違法性。只是其使用的手段和目的決定了其是否會產(chǎn)生違法的行為和后果。隨著信息技術的迅速發(fā)展,全球數(shù)據(jù)呈現(xiàn)出爆發(fā)增長、海量聚集的特點,對經(jīng)濟的發(fā)展和民眾的生活都產(chǎn)生了重大的影響。
也有人持不同的意見。在51信用卡案中,爬蟲技術在其中起到什么作用,程序員又扮演什么角色?隨著越來越多的網(wǎng)站建立起信息的壁壘,反爬蟲技術幾乎成為每一個網(wǎng)站必備的保護措施。在這種情況下爬蟲程序員只能通過一些手段來獲取數(shù)據(jù),反爬蟲程序和爬蟲程序就一直在相互比拼,在實際中爬蟲程序很有開“外掛”的可能性。比較溫和的方法是先偽裝成該網(wǎng)站的用戶,繞過反爬蟲程序,更加厲害的就是直接攻擊該網(wǎng)絡的保護措施,到達獲取數(shù)據(jù)的目的。
在這種情況下爬蟲技術就沒有中立性可言,開掛的爬蟲程序只是獲取數(shù)據(jù)的一種手段,其目的非常明確,就是欺騙、繞過、攻擊、破解網(wǎng)站的保護措施,這時程序員的行為就具有了違法性。我國刑法對于此類的單位犯罪一般采取雙罰制,既處罰單位也處罰直接負責的主管人員和直接責任人員。對于那些開了外掛的爬蟲程序的編寫者程序員來說,沒人比他們更了解該爬蟲程序能爬到什么東西以及帶來的后果是什么,存在犯罪的主觀惡意,而且程序員起到關鍵的作用。這就是在51信用卡案件中程序員會被批捕的原因。
3.5 對企業(yè)和程序員提出的建議
法律具有一定的滯后性,雖然現(xiàn)在爬蟲技術還游離在法律的邊緣,但隨著爬蟲技術的發(fā)展,其所帶來的利益和傷害都會原來越大,法律必將會將其納入到其調(diào)整的范圍,在法律正式生效之前程序員與公司應該如何規(guī)范自己的行為?
對于數(shù)據(jù)交易來說數(shù)據(jù)的提供方和使用方雙方都有責任。數(shù)據(jù)的提供方可能存在數(shù)據(jù)的過度采集、非法采集等問題。數(shù)據(jù)使用方的主要問題就是非法使用、轉(zhuǎn)賣,很多公司在花錢買了數(shù)據(jù)之后,為了降低成本就會將數(shù)據(jù)轉(zhuǎn)賣,這里面的問題比較嚴重。
這就要求網(wǎng)站搜集個人信息應當按照網(wǎng)絡安全法規(guī)定及有關個人信息保護規(guī)定本著合法、正當、必要原則,不應該強制要求用戶授權;向他人提供信息的,應當取得信息主體的同意;委托他人處理本企業(yè)數(shù)據(jù)的,確保他人具備維護數(shù)據(jù)安全的能力,委托合同中確定好雙方關于數(shù)據(jù)合規(guī)的權利與義務。對于程序員而言,要時刻有職業(yè)警惕性,明確自己做出的爬蟲程序抓取的對象是否合法,具體來說是否涉及用戶的個人信息,如社交信息、財產(chǎn)信息、通信信息等,是否涉及被抓取用戶的商業(yè)機密,更重要的一點是明確與被抓取的對象是否存在競爭關系。最后作為程序員要嚴格要遵守公司對于軟件開發(fā)的規(guī)定。
對于公司負責任人而言建議嚴格管理和貫徹公司內(nèi)部軟件開發(fā)流程和規(guī)范,引入外部法律顧問定期對公司內(nèi)部進行培訓,更重要的一點是,建立完善公司內(nèi)部授權機制,明確管理層與項目開發(fā)人員對產(chǎn)品開發(fā)流程的權限范圍,以便發(fā)生問題時,及時找到相對應的責任人。
4 結語
在數(shù)字經(jīng)濟時代,打破數(shù)據(jù)壁壘,實現(xiàn)資源共享是符合發(fā)展的要求的,是推動我國數(shù)字經(jīng)濟發(fā)展的必由之路。所以保障數(shù)據(jù)的安全和合法的權益就顯得更為重要,這需要立法、司法、執(zhí)法、聯(lián)合起來應對新技術帶來的挑戰(zhàn),尋求技術創(chuàng)新與社會公平自由競爭秩序之間的一種平衡。
參考文獻:
[1] 李慧敏,孫佳亮.論爬蟲抓取數(shù)據(jù)行為的法律邊界[J].電子知識產(chǎn)權,2018(12):58-67.
[2] 劉鵬.利用網(wǎng)絡爬蟲技術獲取他人數(shù)據(jù)行為的法律性質(zhì)分析[J].信息安全研究,2019,5(06):548-552.
[3] 蔡恩澤.網(wǎng)絡小爬蟲莫墮落成小扒手[N].證券時報,2019-10-24(A03).
[4] 曾泓竣,曾千容.探析數(shù)據(jù)爬取中的相關知識產(chǎn)權問題[J].法制博覽,2019(17):225.
[5] 孫冰.“爬蟲”背后的灰色大生意/個人數(shù)據(jù)隱私保衛(wèi)戰(zhàn)[J].中國經(jīng)濟周刊,2019-10-31.
[6] 祝建軍.利用爬蟲技術盜用他人數(shù)據(jù)構成不正當競爭[N].人民法院報,2019-05-23(007).
[7] 曹陽.我國對違反“爬蟲協(xié)議”行為的法律規(guī)制研究[J].江蘇社會科學,2019(03):159-167.
[8] 丁曉東.數(shù)據(jù)到底屬于誰?——從網(wǎng)絡爬蟲看平臺數(shù)據(jù)權屬與數(shù)據(jù)保護[J].華東政法大學學報,2019,22(05):69-83.