數(shù)據(jù)時(shí)代,數(shù)據(jù)來(lái)源多渠道,數(shù)據(jù)格式多樣化,各種數(shù)據(jù)處理和分析技術(shù)不斷應(yīng)用于審計(jì)。本文以常見(jiàn)的房屋出租租金審計(jì)事項(xiàng)為例,介紹如何利用網(wǎng)絡(luò)爬蟲(chóng)插件抓取房屋出租類垂直網(wǎng)站某地段房屋出租信息,再進(jìn)行整理分析,得出審計(jì)所需房屋出租價(jià)格等信息。
我們常見(jiàn)的數(shù)據(jù)來(lái)源有被審計(jì)單位提供的數(shù)據(jù)、審計(jì)機(jī)關(guān)積累的歷史數(shù)據(jù)和互聯(lián)網(wǎng)公開(kāi)的數(shù)據(jù)。審計(jì)中需要根據(jù)具體項(xiàng)目,并考慮條件及技術(shù)可能性,提出細(xì)化到核心字段的明確需求,為下一步分析數(shù)據(jù)做好鋪墊。就本文而言,要識(shí)別審計(jì)對(duì)象出租房屋租金是否合理,就需要有相對(duì)可比性的價(jià)格做參考。常見(jiàn)思路是與同一地段、同一類型房屋出租價(jià)格進(jìn)行比較。明確了這個(gè)需求之后,開(kāi)始網(wǎng)絡(luò)搜索,查詢房屋出租行業(yè)排名靠前的幾個(gè)網(wǎng)站,特別是當(dāng)?shù)貙?shí)體門店較多的網(wǎng)站。抓取的數(shù)據(jù)均為寫(xiě)字樓等辦公用房,根據(jù)地理位置,對(duì)同一樓盤、相近樓分類整理,去掉每一類網(wǎng)站的最高值和最低值,再進(jìn)行簡(jiǎn)單的求平均。也可根據(jù)需要,對(duì)數(shù)據(jù)進(jìn)行更為復(fù)雜的清洗整理,得到更為準(zhǔn)確的參考信息,為下一步延伸審計(jì)鎖定方向。
本文以介紹抓取“房天下”辦公用房出租房信息為例,說(shuō)明如何取得網(wǎng)絡(luò)數(shù)據(jù)。
第一步:計(jì)算機(jī)軟件工具準(zhǔn)備。本方法需要用到Google Chrome瀏覽器和Web Scraper插件,兩種軟件都是免費(fèi)的,可以在互聯(lián)網(wǎng)下載并安裝。
第二步:確定要抓取的信息。進(jìn)入網(wǎng)“房天下”站首頁(yè),點(diǎn)擊“寫(xiě)字樓”標(biāo)簽,“房天下”網(wǎng)站列出有100頁(yè)近6000條辦公用房出租信息,為提高效率,本例選擇“東湖高新”區(qū)域,數(shù)據(jù)縮減為29頁(yè)1713條辦公用房出租信息。實(shí)際應(yīng)用中根據(jù)情況取舍,定位越準(zhǔn),搜索的結(jié)果可比較性更強(qiáng),但相應(yīng)的數(shù)據(jù)量少,可信度也會(huì)降低。本案例的抓取網(wǎng)站首頁(yè)地址確定為:
https://wuhan.office.fang.com/zu/house-a013126/
根據(jù)審計(jì)需要,抓取的信息包括出租房源標(biāo)題、租金、出租房源地址、出租房源樓盤名稱、房源等級(jí)和裝修標(biāo)準(zhǔn)和物業(yè)費(fèi)等信息。
第三步:分析站點(diǎn)結(jié)構(gòu)。分析該網(wǎng)站網(wǎng)頁(yè)層次,頁(yè)面分割標(biāo)記等內(nèi)容,確定Web Scraper抓取所需要的參數(shù)。
打開(kāi)Web Scraper,設(shè)置相關(guān)參數(shù)。本案例的主要參數(shù)設(shè)置如下:
(1)設(shè)計(jì)抓取結(jié)構(gòu)圖(圖1)
圖1
(2)抓取項(xiàng)目名稱及地址
Sitemap name:example_fang(可隨意命名)
StartURL:https://wuhan.office.fang.com/zu/house-a0131 26/?i3[2-29:1]
(3)Jump跳轉(zhuǎn)頁(yè)面參數(shù)
Type:Link
Selector:.title a
Multiple:√(打勾)
(4)數(shù)據(jù)抓取頁(yè)面主要參數(shù)如圖2示
圖2
第四步:測(cè)試運(yùn)行,抓取數(shù)據(jù)。數(shù)據(jù)不符合要求時(shí)調(diào)整相關(guān)參數(shù),直至抓取的數(shù)據(jù)符合要求為止,抓取的數(shù)據(jù)另存為csv格式文件,再在Excel中處理。另外抓取腳本也可以導(dǎo)出分享他人使用,參數(shù)無(wú)需再次設(shè)置。
第五步:整理分析已保存的Excel數(shù)據(jù)。本案例根據(jù)位置信息,對(duì)抓取數(shù)據(jù)的先進(jìn)行篩選,再進(jìn)行了簡(jiǎn)單地去掉最高值和最低值、求平均操作。本案例抓起的數(shù)據(jù),還可以根據(jù)出租租房源樓盤名稱、房源等級(jí)和裝修標(biāo)準(zhǔn)等進(jìn)行更為細(xì)致的分析。
抓取租房網(wǎng)站的公開(kāi)數(shù)據(jù),數(shù)據(jù)來(lái)源廣,數(shù)據(jù)量大,相較傳統(tǒng)到現(xiàn)場(chǎng)到房屋中介走訪調(diào)查和其他租戶交談等方式取得的參考價(jià)格可信度更高,也更為快捷。需要說(shuō)明的是,互聯(lián)網(wǎng)公開(kāi)數(shù)據(jù),一方面透明度相對(duì)較高,另一方面數(shù)據(jù)來(lái)源參差不齊,質(zhì)量不高,審計(jì)人員可通過(guò)多收集類似網(wǎng)站的數(shù)據(jù),擴(kuò)大數(shù)據(jù)來(lái)源渠道和數(shù)據(jù)量來(lái)克服數(shù)據(jù)質(zhì)量不高的問(wèn)題。
本文介紹的方法也較容易拓展其他審計(jì)應(yīng)用。諸如政府購(gòu)房服務(wù)的價(jià)格,在審計(jì)實(shí)踐中難以判斷高低,通過(guò)查詢抓取各地政府類似購(gòu)買服務(wù)中標(biāo)公告,再進(jìn)行簡(jiǎn)單的數(shù)據(jù)整理,也可以得出非常有價(jià)值參考數(shù)據(jù)。再如在涉及民生的審計(jì)項(xiàng)目中,可以抓取一些網(wǎng)站投訴類信息,從中尋找審計(jì)線索,迅速打開(kāi)審計(jì)突破口。需要注意的是,網(wǎng)絡(luò)抓取的數(shù)據(jù)具備參考價(jià)值,但要作為審計(jì)發(fā)現(xiàn)問(wèn)題證據(jù),需要進(jìn)一步核實(shí)。