摘要:伴隨著互聯(lián)網(wǎng)技術(shù)的不斷演進(jìn),基于電子商務(wù)的網(wǎng)絡(luò)購(gòu)物平臺(tái)日益廣泛流行。在電子商務(wù)的應(yīng)用過(guò)程中,對(duì)于不同客戶的區(qū)別定價(jià)行為已經(jīng)嚴(yán)重?fù)p害著用戶的實(shí)際消費(fèi)體驗(yàn)。電子商務(wù)平臺(tái)基于自身的平臺(tái)優(yōu)勢(shì),對(duì)個(gè)人用戶在重復(fù)交易中設(shè)置高價(jià)。這種大數(shù)據(jù)殺熟使得相同的商品或服務(wù)對(duì)不同的消費(fèi)者呈現(xiàn)出不同的價(jià)格,這種現(xiàn)象嚴(yán)重違背了公平交易的原則。文章設(shè)計(jì)了一種基于Python語(yǔ)言的大數(shù)據(jù)殺熟對(duì)抗方法,可以有效避免用戶支付過(guò)高的商品售價(jià),有助于節(jié)約用戶開(kāi)支,優(yōu)化個(gè)人用戶的網(wǎng)絡(luò)購(gòu)物體驗(yàn)。
關(guān)鍵詞:大數(shù)據(jù);殺熟;Python
中圖分類號(hào):TP393文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2024)35-0074-02開(kāi)放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
0引言
基于電商平臺(tái)企業(yè)的大數(shù)據(jù)“殺熟”行為不同于傳統(tǒng)線下“殺熟”行為,其最大特性在于隱蔽性。與傳統(tǒng)差別定價(jià)不同,電商平臺(tái)基于大數(shù)據(jù)技術(shù)的“殺熟”行為并不為消費(fèi)者所知[1]。消費(fèi)者渴望公平的消費(fèi)環(huán)境,而大數(shù)據(jù)殺熟使得相同的商品或服務(wù)對(duì)不同的消費(fèi)者呈現(xiàn)出不同的價(jià)格,這嚴(yán)重違背了公平交易的原則。當(dāng)消費(fèi)者發(fā)現(xiàn)自己可能被“殺熟”時(shí),會(huì)產(chǎn)生被欺騙的感覺(jué),從而降低對(duì)商家的信任度。因此,需要有效的對(duì)抗手段來(lái)確保每個(gè)人都能以合理的價(jià)格獲得商品和服務(wù),維護(hù)消費(fèi)者的合法權(quán)益。
對(duì)于普通消費(fèi)者而言,每一筆消費(fèi)都需要精打細(xì)算。如果因?yàn)榇髷?shù)據(jù)殺熟而多支付了費(fèi)用,將會(huì)給個(gè)人經(jīng)濟(jì)帶來(lái)壓力。通過(guò)對(duì)抗大數(shù)據(jù)殺熟,可以讓消費(fèi)者更好地掌控自己的消費(fèi)成本,合理安排支出[2]。消費(fèi)者的消費(fèi)選擇受到大數(shù)據(jù)殺熟的影響,當(dāng)消費(fèi)者意識(shí)到自己可能被區(qū)別對(duì)待時(shí),會(huì)對(duì)消費(fèi)決策產(chǎn)生疑慮。他們可能會(huì)花費(fèi)更多的時(shí)間和精力去比較不同平臺(tái)的價(jià)格,或者對(duì)某些商家產(chǎn)生抵觸情緒,這不僅降低了消費(fèi)的便利性,也影響了市場(chǎng)的正常競(jìng)爭(zhēng)秩序。通過(guò)對(duì)抗大數(shù)據(jù)殺熟,可以讓消費(fèi)者更加自信地進(jìn)行消費(fèi)選擇。
1系統(tǒng)分析與設(shè)計(jì)
大數(shù)據(jù)殺熟這一行為的本質(zhì)是:通過(guò)大數(shù)據(jù)分析和預(yù)測(cè)手段,對(duì)于同樣的商品和服務(wù),對(duì)不同對(duì)象收取不同價(jià)格的現(xiàn)象[3]。可通過(guò)畫像偽裝、畫像模糊和數(shù)據(jù)保護(hù)三個(gè)方面來(lái)避免大數(shù)據(jù)殺熟。從畫像模糊和畫像偽裝的角度進(jìn)行防“殺熟”是本項(xiàng)目的重點(diǎn)方向。對(duì)于各個(gè)電商,商品瀏覽均可以先以匿名用戶開(kāi)始。本項(xiàng)目通過(guò)用戶輸入商品名稱,彈出商品彈窗,顯示商品的名稱、圖片、價(jià)格、電商平臺(tái)和店主信息。用戶點(diǎn)擊商品便可以跳轉(zhuǎn)到各個(gè)電商平臺(tái)查看商品。
因此,可以設(shè)計(jì)如下流程來(lái)對(duì)抗電商平臺(tái)的數(shù)據(jù)殺熟行為:預(yù)期通過(guò)大數(shù)據(jù)查找,搜索全網(wǎng)低價(jià),利用電商之間對(duì)同一用戶的購(gòu)買方向估算不同而導(dǎo)致價(jià)格不同的漏洞,進(jìn)行防“殺熟”,來(lái)保障消費(fèi)者權(quán)益。通過(guò)不同消費(fèi)產(chǎn)品的地址處不同,來(lái)降低電商對(duì)消費(fèi)者消費(fèi)方向的估算,以達(dá)到防殺熟的目的。
1.1整體方案的技術(shù)路線圖
用戶信息搜集是大型電子商務(wù)平臺(tái)實(shí)施“殺熟”的核心基礎(chǔ)。規(guī)模較大的電商平臺(tái)會(huì)對(duì)用戶行為進(jìn)行跟蹤:一方面可以防止匿名用戶進(jìn)入(如爬蟲工程師爬取數(shù)據(jù)采用匿名化用戶);另一方面可以搜集用戶信息,為其推薦興趣商品,提高用戶購(gòu)買率[4]。在實(shí)際的電子商務(wù)平臺(tái)中,系統(tǒng)設(shè)計(jì)人員會(huì)在具體的網(wǎng)頁(yè)界面中使用“埋點(diǎn)”技術(shù)來(lái)搜集用戶信息。所謂“埋點(diǎn)”,即隱藏在網(wǎng)頁(yè)界面中的一段程序。該程序可以觀察用戶使用網(wǎng)頁(yè)的習(xí)慣,如鼠標(biāo)點(diǎn)擊了哪些超鏈接、在每一個(gè)網(wǎng)頁(yè)的瀏覽時(shí)長(zhǎng)等。這些埋點(diǎn)用于搜集用戶信息,包括:?jiǎn)斡脩舻膯纹吩L問(wèn)數(shù)、停留時(shí)長(zhǎng)、頁(yè)面瀏覽數(shù)等,以及單商品的訪客數(shù)。這些采集而來(lái)的信息可以為“殺熟”提供幫助。電商平臺(tái)實(shí)施區(qū)別定價(jià)的技術(shù)原理如圖1所示。
舉例來(lái)說(shuō),當(dāng)用戶A進(jìn)入網(wǎng)頁(yè)頻繁點(diǎn)擊高檔數(shù)碼相機(jī)時(shí),電商平臺(tái)通過(guò)以往的交易信息可獲知用戶的收件地址。如果收件地址周邊的房?jī)r(jià)高昂,系統(tǒng)便可能將產(chǎn)品以更高的溢價(jià)售賣給該用戶A。為了對(duì)抗電子商務(wù)平臺(tái)的這種“殺熟”行為,可以采用多平臺(tái)比價(jià)、模糊個(gè)人信息等技術(shù)手段來(lái)進(jìn)行對(duì)抗。多平臺(tái)比價(jià)可以采用網(wǎng)頁(yè)爬蟲去搜集信息;模糊個(gè)人信息則可以通過(guò)自己搭建網(wǎng)頁(yè)(自建網(wǎng)頁(yè)僅含HTML等信息,去除了電商平臺(tái)的埋點(diǎn)功能),再跳轉(zhuǎn)到對(duì)應(yīng)的平臺(tái)下訂單完成購(gòu)物。
1.2基于Python爬蟲的商品信息比價(jià)模塊
商品信息比價(jià)功能模塊的主要功能需求是用戶在確定購(gòu)物意向后,本系統(tǒng)可以在全網(wǎng)的主要電商平臺(tái)對(duì)同類型的產(chǎn)品信息進(jìn)行爬取,然后通知需要購(gòu)物的用戶。網(wǎng)絡(luò)爬蟲是一段計(jì)算機(jī)代碼,由開(kāi)發(fā)者按照事先約定的規(guī)則編寫,能夠自動(dòng)請(qǐng)求網(wǎng)站服務(wù)器數(shù)據(jù)并獲取目標(biāo)數(shù)據(jù)的程序。網(wǎng)絡(luò)爬蟲技術(shù)即模擬人使用瀏覽器訪問(wèn)互聯(lián)網(wǎng)資源,并收集服務(wù)器返回的數(shù)據(jù)。面對(duì)當(dāng)前成熟的電子商務(wù)平臺(tái),大多數(shù)電商網(wǎng)站采用HTTPS,而且對(duì)網(wǎng)絡(luò)爬蟲具有反爬蟲技術(shù)來(lái)阻止用戶使用編程手段搜集信息。本系統(tǒng)拓展了反反爬蟲技術(shù):使用requests請(qǐng)求,檢驗(yàn)網(wǎng)站是否帶有動(dòng)態(tài)cookie;如有,則解析js查找cookie,改寫js。對(duì)于js動(dòng)態(tài)加載的網(wǎng)頁(yè),使用Selenium庫(kù)模擬瀏覽器行為并獲取通過(guò)js加載的數(shù)據(jù)。同時(shí)對(duì)于登錄要求,使用模擬登錄的方法。
針對(duì)用戶需求,本文采用Python爬蟲技術(shù)進(jìn)行購(gòu)物網(wǎng)站商品的爬取。通過(guò)Python爬蟲技術(shù)可快速爬取商品信息,操作簡(jiǎn)單,效率高。爬蟲代碼基于re?quests、re、pandas、bs4這四個(gè)庫(kù),分為四步爬取內(nèi)容:
1)獲取URL,設(shè)置請(qǐng)求頭User-Agent,Headers的固定參數(shù)可以套用在不同網(wǎng)站上,更改cookie、referer和user-agent的數(shù)據(jù)即可。
2)發(fā)送請(qǐng)求,獲取響應(yīng)的網(wǎng)頁(yè)內(nèi)容。
3)解析網(wǎng)頁(yè)內(nèi)容,提取數(shù)據(jù)。
4)使用DataFrame保存數(shù)據(jù)。主要爬取的商品信息包括圖片、簡(jiǎn)介、價(jià)格等。
在運(yùn)用Python爬蟲爬取網(wǎng)站時(shí),大多網(wǎng)站會(huì)采用反爬手段,諸如:User-Agent識(shí)別、Refer檢查、IP限制、Cookie等技術(shù)手段來(lái)避免用戶使用程序采集網(wǎng)頁(yè)信息。為了能夠充分進(jìn)行全網(wǎng)商品比價(jià),本系統(tǒng)針對(duì)上述常見(jiàn)的技術(shù)手段進(jìn)行了設(shè)計(jì):對(duì)于User-Agent識(shí)別,可以對(duì)即將爬取的網(wǎng)站進(jìn)行檢索,獲取User-Agent內(nèi)容,放入headers;對(duì)于Refer檢查,則需要甄別路徑。Refer判斷當(dāng)前路徑是否由上一個(gè)路徑進(jìn)入,一般情況下,Refer用作圖片防盜鏈。攜帶cookie的情況下,大部分情況能夠通過(guò)Refer檢查;IP限制是常見(jiàn)的反爬策略,在爬取網(wǎng)站時(shí),網(wǎng)站會(huì)識(shí)別IP地址,來(lái)防止多次爬蟲請(qǐng)求。使用proxy可以掩蓋真實(shí)的IP;最后一項(xiàng)是常見(jiàn)的cookie限制。在使用爬蟲爬取網(wǎng)站信息時(shí),部分網(wǎng)站會(huì)使用cookie進(jìn)行反爬。本設(shè)計(jì)采取的具體策略是:
在進(jìn)行網(wǎng)站瀏覽時(shí),部分網(wǎng)站要求用戶登錄才能查閱更多信息,而作為爬蟲,則采用匿名化訪問(wèn),繞過(guò)登錄頁(yè)面來(lái)爬取信息。使用重放請(qǐng)求進(jìn)行技術(shù)驗(yàn)證:如果刪除該網(wǎng)站的cookie值后重放該請(qǐng)求仍能獲取相同的數(shù)據(jù),則表明該網(wǎng)站未設(shè)置cookie反爬;如果發(fā)現(xiàn)重放獲得的數(shù)據(jù)包大小與正常請(qǐng)求獲得的數(shù)據(jù)包大小不一致,則說(shuō)明該網(wǎng)站設(shè)置了cookie反爬。
在確定每次請(qǐng)求的cookie都不會(huì)對(duì)固定值進(jìn)行反爬后,刪除cookie中的變化值,即可應(yīng)用爬蟲技術(shù)進(jìn)行信息采集。對(duì)于淘寶、京東等大型網(wǎng)站,依然遵守其Robots協(xié)議且合法合規(guī)地在網(wǎng)站要求下索取數(shù)據(jù),通過(guò)用戶提交的賬號(hào)密碼進(jìn)行登錄,爬取已知信息,再進(jìn)行多次比較商品信息,由用戶自行選購(gòu)。
1.3隔離用戶信息埋點(diǎn)的獨(dú)立網(wǎng)頁(yè)交互模塊
通過(guò)技術(shù)埋點(diǎn)是當(dāng)前主流電子商務(wù)平臺(tái)采集用戶信息的重要技術(shù)手段。隔離帶有用戶采集信息的電子商務(wù)網(wǎng)頁(yè),便可以有效地減少電子商務(wù)平臺(tái)基于用戶信息所進(jìn)行的“殺熟”行為。本系統(tǒng)的主要功能需求包括三大類:第一,用戶可以準(zhǔn)確找到所需要的商品;第二,用戶可以進(jìn)行下單等基礎(chǔ)操作;第三,用戶可以及時(shí)查看是否下單成功。為了方便用戶使用,在對(duì)抗大數(shù)據(jù)殺熟的工程實(shí)踐中,還必須考慮非功能需求,如:響應(yīng)時(shí)間要盡可能簡(jiǎn)短,在進(jìn)行特定條件搜索行為時(shí),用戶要在5秒內(nèi)得到搜索結(jié)果;要注意隱私安全,系統(tǒng)會(huì)依據(jù)程序清除用戶瀏覽網(wǎng)頁(yè)留下的所有cookies,從而使網(wǎng)頁(yè)平臺(tái)無(wú)法收集到用戶的個(gè)人隱私。
2結(jié)束語(yǔ)
基于Python的大數(shù)據(jù)殺熟對(duì)抗技術(shù)是有針對(duì)性地解決電子商務(wù)平臺(tái)對(duì)消費(fèi)者實(shí)施價(jià)格歧視的有效策略。本文采用在線Web訪問(wèn)的形式,極大地提高了用戶的網(wǎng)絡(luò)購(gòu)物消費(fèi)體驗(yàn)。本系統(tǒng)采用基于爬蟲的商品信息采集比較的設(shè)計(jì)方案[5],可以有效地隔離電子商務(wù)平臺(tái)的cookie信息綁定,進(jìn)而提升了商品真實(shí)價(jià)格信息的透明化程度,節(jié)約了消費(fèi)者的財(cái)務(wù)支出,促進(jìn)了電商平臺(tái)公平交易的達(dá)成。
參考文獻(xiàn):
[1]陳嶼涵.平臺(tái)經(jīng)濟(jì)中的“大數(shù)據(jù)殺熟”現(xiàn)象:算法驅(qū)動(dòng)下消費(fèi)者的交易公平性問(wèn)題[J].現(xiàn)代營(yíng)銷(下旬刊),2024(7):10-12.
[2]熊鴻儒,馬源“.大數(shù)據(jù)殺熟”問(wèn)題實(shí)質(zhì)、治理挑戰(zhàn)及對(duì)策[J].新經(jīng)濟(jì)導(dǎo)刊,2023(9):70-76.
[3]桂雨妍.平臺(tái)大數(shù)據(jù)殺熟中個(gè)人信息反壟斷保護(hù)之必要性研究[J].互聯(lián)網(wǎng)天地,2022(12):47-51.
[4]韋建國(guó),王玉瓊.基于網(wǎng)購(gòu)平臺(tái)大數(shù)據(jù)的電子商務(wù)用戶行為分析與研究[J].湖北理工學(xué)院學(xué)報(bào),2019,35(3):34-38,57.
[5]鄒樂(lè),王麗麗,褚甜甜.基于微信小程序的大數(shù)據(jù)殺熟比價(jià)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].電腦知識(shí)與技術(shù),2021,17(36):57-60.
【通聯(lián)編輯:謝媛媛】
基金項(xiàng)目:南京工程學(xué)院大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃項(xiàng)目:大數(shù)據(jù)殺熟及其對(duì)對(duì)抗技術(shù)研究(項(xiàng)目編號(hào):202411276305X);江蘇省高等學(xué)校大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃python虛擬機(jī)內(nèi)存管理研究(項(xiàng)目編號(hào):202011276034Y)