依力·吐爾孫 艾孜爾古麗
摘要:本文主要研究中國(guó)菜譜里面的美食詞匯資源的爬取、構(gòu)建、數(shù)據(jù)處理并對(duì)詞匯資源進(jìn)行數(shù)據(jù)可視化分析。本文首先采用Python語言使用Scrapy框架進(jìn)行數(shù)據(jù)爬取并對(duì)目標(biāo)網(wǎng)站的網(wǎng)頁進(jìn)行頁面分析,采集的是豆果美食網(wǎng)里最新發(fā)布的中國(guó)菜系菜譜,然后用Pandas、Numpy等庫(kù)進(jìn)行清洗數(shù)據(jù)并做可視化分析。除此之外,用Pyecharts庫(kù)制作各大菜系菜品量的餅狀圖。最后通過Jieba庫(kù)進(jìn)行中文分詞處理,篩選出高頻詞匯并制作了詞云圖。為了使乏味的文本數(shù)據(jù)散發(fā)活力,深入分析數(shù)據(jù),以詞云圖展示數(shù)據(jù)分析的結(jié)果,增加數(shù)據(jù)可視化。
關(guān)鍵詞:美食詞匯;Python;網(wǎng)絡(luò)爬蟲;數(shù)據(jù)分析;詞云圖
中圖分類號(hào):TP391? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2021)10-0019-02
Abstract: This paper mainly studies the crawling, construction, data processing and data visualization analysis of Chinese cuisine vocabulary resources in Chinese recipes. In this paper, we first use Python language to Scrapy framework to crawl data and analyze the web pages of the target website. We collected the latest Chinese cuisine recipes from the Douguo Cuisine Network. Then we use libraries such as Pandas and Numpy to clean the data and do visual analysis. In addition, Pyecharts library is used to make pie charts of the quantity of dishes in each major cuisine. Finally, word segmentation is carried out through JIEBA library to screen out high-frequency words and make word cloud map. In order to make boring text data exude vitality, in-depth analysis of the data, the word cloud map to show the results of data analysis, increase data visualization.
Key words: food vocabulary; Python; Web crawler; Data analysis; Word cloud
非典、新冠肺炎等致命性疾病讓人們更加意識(shí)到健康飲食習(xí)慣的重要性。人工智能、大數(shù)據(jù)的發(fā)展對(duì)飲食詞匯數(shù)據(jù)的處理方面帶來了便利。不僅,計(jì)算語言學(xué)、統(tǒng)計(jì)學(xué)等交叉學(xué)科的發(fā)展使得處理飲食詞匯資源的數(shù)據(jù)引來了新思路和新角度,而且處理這些飲食數(shù)據(jù)資源促進(jìn)了中國(guó)飲食文化、膳食結(jié)構(gòu)、營(yíng)養(yǎng)學(xué)、預(yù)防疾病學(xué)等學(xué)科方面的研究。
構(gòu)建飲食詞匯資源并進(jìn)行數(shù)據(jù)可視化對(duì)研究民俗飲食有著重要作用,這些數(shù)據(jù)有利于分析各地民俗飲食的結(jié)構(gòu)。為進(jìn)一步開展食物資源和增加菜譜品種方面的研究,對(duì)各個(gè)地方不同菜譜的原料及其用料使用情況、食品加工、飲食制作、飲食命名和飲食傳承有關(guān)的信息進(jìn)行數(shù)據(jù)采集并對(duì)數(shù)據(jù)進(jìn)行可視化研究是有必要的。
1 美食文本采集技術(shù)研究
1.1美食文本采集思路
隨著人工智能和大數(shù)據(jù)的發(fā)展,網(wǎng)絡(luò)上越來越大的數(shù)據(jù)量成為一種重要資源,如何從這些海量數(shù)據(jù)中快速有效的提取和分析有效數(shù)據(jù)并排除無效數(shù)據(jù)是信息處理技術(shù)的研究熱點(diǎn)。獲取網(wǎng)絡(luò)上有效數(shù)據(jù)的方法是網(wǎng)絡(luò)爬蟲技術(shù)。實(shí)現(xiàn)Web爬蟲技術(shù),編寫好網(wǎng)站爬蟲的關(guān)鍵是利用更高效的爬蟲工具和爬蟲框架。于是Python語言提供了很多方便的爬蟲框架。Scrapy是基于Python開發(fā)的一個(gè)高層次的快速的網(wǎng)頁抓取框架,用于抓取Web站點(diǎn)信息并從頁面中提取結(jié)構(gòu)化的數(shù)據(jù)[1]。因此本文完成網(wǎng)站的數(shù)據(jù)提取任務(wù)時(shí)便用到了Scrapy框架。文中采用了Scrapy框架來對(duì)數(shù)據(jù)進(jìn)行提取,爬取的對(duì)象是豆果美食網(wǎng)站菜式菜系的中國(guó)菜。
在進(jìn)行爬取豆果美食網(wǎng)站數(shù)據(jù)之前,為了編寫好代碼的邏輯并更有效地提取該網(wǎng)站數(shù)據(jù),應(yīng)該要弄明白并且分析美食網(wǎng)站的域名結(jié)構(gòu)和層次。分析研究的網(wǎng)站,其URL鏈接結(jié)構(gòu)以主域名為中心?[2],主域名下分有豆果美食網(wǎng)站的首頁、菜式菜系、中國(guó)菜等子域名,也就是導(dǎo)航部分。在子域名下是更詳細(xì)的各種菜系URL信息。此網(wǎng)站的結(jié)構(gòu)進(jìn)行分析就能提取菜系菜品所有URL,但是會(huì)回到首頁,因此進(jìn)行URL的去重,建立環(huán)路。
該文爬取豆果美食網(wǎng)站菜式菜系里的所有中國(guó)菜系的菜品,獲取的內(nèi)容包括菜譜鏈接、菜譜、用戶、用料、圖片、評(píng)分、菜系。通過對(duì)網(wǎng)站頁面的分析。通過美食網(wǎng)站的最新菜系頁面提取全部菜譜數(shù)據(jù)代碼,而不需要爬取所有URL。通過“最新菜系”網(wǎng)站獲取全部菜譜的策略是對(duì)比頁面跳轉(zhuǎn)URL的變化,因此可以通過對(duì)數(shù)字的遞增而得到所有數(shù)據(jù)。
1.2美食網(wǎng)站環(huán)境分析及采集
1.2.1美食網(wǎng)站頁面分析
想要得到爬取規(guī)則和相應(yīng)的代碼信息,首先需要對(duì)美食網(wǎng)站內(nèi)容進(jìn)行結(jié)構(gòu)分析。因此,進(jìn)入豆果美食網(wǎng),打開全部分類,找到菜式菜系目錄下的中國(guó)菜。本次需要爬取的內(nèi)容是中國(guó)菜下的蘇菜、新疆菜、東北菜等十五個(gè)中國(guó)菜系。這里面有效處理提取的數(shù)據(jù)是各大菜系中的菜譜名,菜譜鏈接、圖片、評(píng)分、用戶名、用料、菜系。打開Chrome瀏覽器進(jìn)入豆果美食網(wǎng)站后,查看全部分類找到對(duì)應(yīng)的菜系,按F12鍵就能看到頁面的布局和源代碼信息。查看并分析這些中國(guó)菜的菜系標(biāo)題都包含了屬性為class的
通過源代碼和頁面布局分析,下面利用xpath表達(dá)式進(jìn)行該網(wǎng)站的解析。為了解析每一條信息的語句,編寫了一下語句:response.xpath("http://div[@class='pages']/a/@href").extract()。該表達(dá)式不僅能匹配當(dāng)前節(jié)點(diǎn)和文檔中的節(jié)點(diǎn),而且直接從全文中搜索所有id為'list'的結(jié)點(diǎn)。這樣就能得到了該節(jié)點(diǎn)之后按照菜系所在的位置在該節(jié)點(diǎn)內(nèi)部進(jìn)行遍歷搜索。這個(gè)程序就能得到了每條菜譜的詳細(xì)頁碼連接和菜譜信息。
1.2.2數(shù)據(jù)處理及保存
經(jīng)過以上表達(dá)式,讓爬蟲程序提取到了美食網(wǎng)站內(nèi)的菜譜頁面信息,可是想要進(jìn)行完全處理數(shù)據(jù),那么利用item對(duì)它進(jìn)行格式化。文中定義一個(gè)名為DouguoItem的類,該類之后需要從網(wǎng)頁中獲取數(shù)據(jù)內(nèi)容的集合,它們分別是menu:用來存放菜譜的信息,menu_link:用來存放菜譜鏈接,score:用來存放評(píng)分,user:用來存放用戶名,img_link:用來存放菜譜圖片,ingredient:用來存放用料信息,classify:用來存放菜系。
為了進(jìn)行進(jìn)一步的數(shù)據(jù)處理、數(shù)據(jù)分析以及數(shù)據(jù)可視化,因此有必要對(duì)這些數(shù)據(jù)進(jìn)行保存。由于本實(shí)驗(yàn)數(shù)據(jù)量不大,而且Scrapy提供了多種格式的數(shù)據(jù)保存形式,因此使用簡(jiǎn)單的excel文件的形式保存數(shù)據(jù)。
2美食數(shù)據(jù)處理技術(shù)研究
為了方便后續(xù)的可視化分析,還需要對(duì)爬取數(shù)據(jù)進(jìn)行處理。美食詞匯處理過程分為數(shù)據(jù)清洗,刪除重復(fù)項(xiàng),缺失值處理,評(píng)分字段清洗和添加用料數(shù)字段等。由于本研究保存的是excel文本格式,為了更加高效地處理Excel中的數(shù)據(jù)使用到了pandas庫(kù)。還用到了Numpy庫(kù),用這個(gè)庫(kù)來整合爬取數(shù)據(jù)。本文用jupyter notebook來運(yùn)行代碼,首先,導(dǎo)入爬取到的菜譜數(shù)據(jù),這個(gè)過程用了pd.read方法,并添加了列名。預(yù)覽數(shù)據(jù)如下:
其次,用drop_duplicates方法來刪除爬蟲過程中重復(fù)抓取的少量菜譜數(shù)據(jù)并通過dropna方法來刪除缺失值。為了方便后續(xù)計(jì)算,提取到的評(píng)分字段里含有多余的object類型的字符串,需要替換到多余字符串并轉(zhuǎn)換為數(shù)字類型。由于用料詞匯中間都是以逗號(hào)分隔開,先算逗號(hào)數(shù)加一就能得出用料數(shù)。最后,利用用料詞匯統(tǒng)計(jì)每個(gè)菜譜的用料數(shù)量,這樣有利于分析菜譜用料。
3美食數(shù)據(jù)可視化技術(shù)研究
數(shù)據(jù)時(shí)代,通過數(shù)據(jù)分析來挖掘數(shù)據(jù)的價(jià)值,本文數(shù)據(jù)分析過程分為以下幾個(gè)步驟:數(shù)據(jù)獲取,數(shù)據(jù)讀取,數(shù)據(jù)計(jì)算,數(shù)據(jù)可視化以及數(shù)據(jù)分析。分析代碼和數(shù)據(jù)如圖2所示。
總爬取了2968個(gè)菜譜數(shù)據(jù),通過數(shù)據(jù)處理,除掉缺失值和沒有評(píng)分的數(shù)據(jù)后得到了最后的2197純菜譜數(shù)據(jù)。數(shù)據(jù)分析后用Pyecharts庫(kù)制作各大菜系菜譜數(shù)量占比餅狀圖展示出效果。
除此之外,為了充分利用中國(guó)菜譜數(shù)據(jù),采用Jieba庫(kù)來處理中文分詞,然后進(jìn)行詞頻統(tǒng)計(jì)便挑選出高頻詞匯,最后制作詞云圖來展示效果。尺寸越大表明該詞匯的詞頻率越高,尺寸越小表明該詞匯的詞頻率越低。
以上詞云圖里尺寸大的、比較顯眼的菜譜用料是主要的川菜用料,比如花椒、干辣椒、大蒜和豆瓣醬。其他各大菜系菜譜用料的詞云圖也一樣表示出該菜系菜譜用料情況。
4總結(jié)
本文首先探討構(gòu)建飲食詞匯資源庫(kù)在飲食文化中的重要作用。其次開展飲食詞匯資源的獲取和飲食詞匯數(shù)據(jù)的充分利用。本研究涉及了網(wǎng)絡(luò)爬蟲技術(shù)、文本預(yù)處理技術(shù)、數(shù)據(jù)可視化等文本采集和數(shù)據(jù)加工技術(shù)并詳細(xì)地給予該資源庫(kù)的資源爬取、數(shù)據(jù)處理、數(shù)據(jù)分析以及數(shù)據(jù)可視化等過程和相關(guān)代碼。
從高頻詞匯的分布情況分析可以為健康飲食模式推廣提供多維視角與參考,健康飲食模式和膳食結(jié)構(gòu)不僅影響人類健康,而且對(duì)我國(guó)經(jīng)濟(jì)發(fā)展、醫(yī)療支出、了解中國(guó)飲食文化等方面產(chǎn)生一定的影響。為了完善飲食詞匯資源庫(kù),后續(xù)研究待需要爬取其他美食平臺(tái)數(shù)據(jù)來補(bǔ)充資源。美食的烹飪涉及的影響因素還有很多,還需要思考和探索。
參考文獻(xiàn):
[1] 杜鵬輝,仇繼揚(yáng),彭書濤,等.基于Scrapy的網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[J].電子設(shè)計(jì)工程,2019,27(22):120-123,132.
[2] 李培.基于Python的網(wǎng)絡(luò)爬蟲與反爬蟲技術(shù)研究[J].計(jì)算機(jī)與數(shù)字工程,2019,47(6):1415-1420,1496.
【通聯(lián)編輯:唐一東】