楊應(yīng)浩
(重慶師范大學(xué) 數(shù)學(xué)科學(xué)學(xué)院,重慶 401331)
隨著大數(shù)據(jù)與人工智能時(shí)代的到來,數(shù)據(jù)分析的影響及重要性越來越凸顯,數(shù)據(jù)分析日益成為本科生不可或缺的技術(shù)與技能,也能更好地培養(yǎng)學(xué)生的Python實(shí)踐操作和解決實(shí)際問題的能力。與此同時(shí),緊跟大數(shù)據(jù)時(shí)代步伐,了解大數(shù)據(jù)背景下數(shù)據(jù)分析的特點(diǎn),進(jìn)一步拓展視野,實(shí)現(xiàn)綜合素質(zhì)的提高[1]。
Par-Charm是一種Python IDE,帶有一整套可以幫助用戶在使用Python語(yǔ)言開發(fā)時(shí)提高其效率的工具,比如調(diào)試、語(yǔ)法高亮、Project管理、代碼跳轉(zhuǎn)、智能提示、自動(dòng)完成。它用于數(shù)據(jù)的爬取十分便利。
Anaconda指的是一個(gè)開源的Python發(fā)行版本,其包含了conda、Python等180多個(gè)科學(xué)包及其依賴項(xiàng),提供包管理及環(huán)境管理功能,解決了Python多版本并存的安裝問題。它非常適合數(shù)據(jù)可視化分析。
爬取數(shù)據(jù)的步驟過程:第一,進(jìn)入愛奇藝網(wǎng)站電影界面,獲取該網(wǎng)頁(yè)的URL,通過查看網(wǎng)頁(yè)源代碼找到目標(biāo)數(shù)據(jù)位置并分析網(wǎng)頁(yè)源代碼結(jié)構(gòu);第二,論文使用Python中的requests庫(kù)進(jìn)行數(shù)據(jù)采集;Beautiful-Soup是一個(gè)HTML/XML的解析器,來解析URL的文本信息[2];第三,根據(jù)需要單獨(dú)提取出電影的評(píng)分、電影的演員、電影年份和電影類型;第四,利用循環(huán)進(jìn)行讀取數(shù)據(jù)并存入數(shù)據(jù)庫(kù)。
在真實(shí)世界里,數(shù)據(jù)來源各式各樣質(zhì)量良莠不齊,所以原始數(shù)據(jù)一般是有缺陷的,不完整的,重復(fù)的,是極易受侵染的。這樣的數(shù)據(jù)處理起來不僅效率低下而且結(jié)果也不盡人意,這種情況下數(shù)據(jù)的預(yù)處理顯得尤為重要。一方面,數(shù)據(jù)預(yù)處理把原始數(shù)據(jù)規(guī)范化、條理化,最終整理成結(jié)構(gòu)化數(shù)據(jù),極大地節(jié)省了處理海量信息的時(shí)間;另一方面,數(shù)據(jù)預(yù)處理可以使得挖掘愈發(fā)準(zhǔn)確并且結(jié)果愈發(fā)真實(shí)有效[3]。
隨著電影行業(yè)的不斷發(fā)展,必將越來越依靠于數(shù)據(jù)分析的手段來獲取收益。對(duì)演員和其電影口碑分析可以得出演員的的票房號(hào)召力;從票房分析影片類型對(duì)于觀眾的接受度、導(dǎo)演的人氣指數(shù)等等,都具有很強(qiáng)的經(jīng)濟(jì)效益。觀眾群體的廣泛性和個(gè)人情感的復(fù)雜性都影響著影業(yè)的未來發(fā)展[4]。
論文從四個(gè)角度對(duì)電影信息數(shù)據(jù)進(jìn)行分析:第一,從評(píng)分的占比角度入手分析觀眾對(duì)電影市場(chǎng)的認(rèn)可程度;第二,從評(píng)論人數(shù)與評(píng)分入手分析觀影潮流,第三,從電影年份和評(píng)分關(guān)系入手分析歷年電影口碑分化趨勢(shì);第四,從電影類型入手分析時(shí)下熱門電影素材類型。
評(píng)分是觀眾從接受的角度對(duì)影片進(jìn)行的評(píng)價(jià)和回饋,一方面取決于電影本身的藝術(shù)質(zhì)量,另一方面則取決于觀眾本身的需求,即影片在多大程度上與觀眾的期待視域達(dá)到融[5]。圖1可以看出評(píng)分在8-9分的電影占據(jù)49.01%,說明觀眾對(duì)于電影市場(chǎng)的認(rèn)可程度比較高;而9分以上電影僅占比2.12%,表明電影市場(chǎng)高質(zhì)量電影數(shù)量有待提高。而7分以下電影占據(jù)9.53%,則說明電影市場(chǎng)質(zhì)量還有一定的提升空間。
圖1 電影評(píng)分餅狀圖
評(píng)論人數(shù)與評(píng)分之間呈現(xiàn)正相關(guān)關(guān)系,相關(guān)系數(shù)為0.52,屬于中等程度相關(guān)(相關(guān)系數(shù)在[-1,1],在統(tǒng)計(jì)學(xué)意義成立的基礎(chǔ)上,相關(guān)系數(shù)越接近于1,評(píng)論人數(shù)與票房之間正相關(guān)性越大)[6],表現(xiàn)為評(píng)價(jià)人數(shù)越多,評(píng)分高可能性越大。圖三中評(píng)論人數(shù)多的電影評(píng)分也普遍較高,反映出當(dāng)下大眾的觀影潮流。
電影行業(yè)從1950年后開始興起,在90年代后迎來了高潮;80年代后電影的評(píng)分有質(zhì)的飛躍。可能在于電影制作的技術(shù)的到了提升,具體體現(xiàn)在畫質(zhì)、特性等方面;2000年以后的電影評(píng)分逐漸傾向于兩極分化的趨勢(shì)??傮w來說電影年份與電影評(píng)分呈正相關(guān)關(guān)系。
觀眾對(duì)于喜劇題材和愛情題材類的電影認(rèn)可度明顯要高于其他類型。而武俠、功夫類題材的電影觀眾的認(rèn)可度普遍偏低,說明動(dòng)作類型電影品質(zhì)還有很大提升空間,觀眾口味多元化,并不是很喜歡單純的動(dòng)作片,相比之下,奇幻、科幻類題材的電影更受觀眾追捧。喜劇類影片一直以來都是電影市場(chǎng)的一大支柱,受到了制片商的極大追捧。近年來低成本、高回報(bào)的喜劇電影扎堆,其整體質(zhì)量也不錯(cuò),未來喜劇電影任然存在很大的發(fā)展前景。愛情題材電影雖然受觀眾認(rèn)可度相對(duì)較高,但比之于喜劇題材電影任然有很大的上升空間,愛情片應(yīng)該多在多元化和現(xiàn)代化方面下功夫,以更好適應(yīng)在大眾文化的時(shí)代背景下高速增長(zhǎng)的觀影需求。驚悚題材和恐怖題材無論在數(shù)量還是質(zhì)量上都明顯低于其他類型的電影,情況堪憂。
大數(shù)據(jù)時(shí)代的到來使這個(gè)社會(huì)中的海量數(shù)據(jù)變成了巨大的潛在財(cái)富,大數(shù)據(jù)的作用是不可估量的,而且大數(shù)據(jù)已經(jīng)滲透到了社會(huì)的各個(gè)領(lǐng)域。運(yùn)用網(wǎng)絡(luò)爬蟲爬取海量數(shù)據(jù)在信息繁榮的大數(shù)據(jù)時(shí)代更加行之有效。Python作為一門腳本語(yǔ)言,它有著簡(jiǎn)單易學(xué),面向?qū)ο?,開源和擁有豐富的庫(kù)等優(yōu)點(diǎn)。論文闡述了Python語(yǔ)言在數(shù)據(jù)爬取及可視化分析中的應(yīng)用。通過對(duì)愛奇藝網(wǎng)站電影信息的可視化分析,可以給影片公司一些制片提示,也可以給觀影者提供重要的參考信息。因此,數(shù)據(jù)分析觀念無論是概念的本身,還是它對(duì)于自身發(fā)展都具有很高的價(jià)值。