謝 杰,王道涵,柏孝燚,周 兵
(1.云南農(nóng)業(yè)大學(xué),a.大數(shù)據(jù)學(xué)院;b.理學(xué)院,昆明 650201;2.山東文化產(chǎn)業(yè)職業(yè)學(xué)院,山東 青島 266699)
互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,使得公眾的生產(chǎn)生活方式發(fā)生了極大改變。網(wǎng)絡(luò)購物憑借其選擇性多、價(jià)格優(yōu)惠、方便快捷、省時(shí)省力等優(yōu)勢和特點(diǎn),逐漸成為人們?nèi)粘Y徫锵M(fèi)的主流方式。但由于互聯(lián)網(wǎng)的不確定性、網(wǎng)絡(luò)食品監(jiān)管規(guī)范的不健全等問題的存在,使得中國網(wǎng)購食品質(zhì)量方面存在眾多隱患。除此以外,隨著傳統(tǒng)農(nóng)業(yè)向現(xiàn)代化農(nóng)業(yè)的轉(zhuǎn)變,中國農(nóng)業(yè)發(fā)展已經(jīng)進(jìn)入了新發(fā)展階段,國家各級單位和民眾都已愈發(fā)重視“三品一標(biāo)”建設(shè)與發(fā)展,目前正在全力打造具有無公害、綠色、有機(jī)和地理標(biāo)志性質(zhì)的農(nóng)產(chǎn)品品牌[1]。因此,采取科學(xué)有效的質(zhì)量監(jiān)管手段來對假冒偽劣、不合格產(chǎn)品進(jìn)行有效打擊,保障食品的良好質(zhì)量,不僅關(guān)系到廣大人民群眾的身心健康,更關(guān)系到人民群眾對黨和政府監(jiān)管能力、執(zhí)政能力的評價(jià)與信任。
國外在食品質(zhì)量監(jiān)管方面的工作和研究起步較早,已形成一定規(guī)范。如德國強(qiáng)調(diào)從“農(nóng)田-餐桌”的全過程,主要通過建立追溯體系來加強(qiáng)產(chǎn)品質(zhì)量的監(jiān)管。并提出將國家政府部門、社會中介組織和第三方機(jī)構(gòu)力量進(jìn)行整合,形成綜合管理監(jiān)管模式進(jìn)行監(jiān)管。美國采用“多部門分工”的監(jiān)管模式,各部門各司其職,相互配合,強(qiáng)調(diào)法律法規(guī)的完善。日本采用“分段監(jiān)管”的模式,分環(huán)節(jié)確定政府部門的監(jiān)管職責(zé),強(qiáng)調(diào)記錄保存制度以及嚴(yán)格的市場準(zhǔn)入制度[2]。國內(nèi)相關(guān)研究較國外晚一些,且多為理論研究,主要集中在網(wǎng)購食品交易過程和交易監(jiān)管過程中出現(xiàn)的問題提出解決對策,往往涉及到消費(fèi)者、網(wǎng)購食品經(jīng)營者以及政府相關(guān)職能部門等多方主體的權(quán)利與義務(wù)[3]。
本研究擬將云南省八大本土藥材之一的三七品牌在天貓、京東商城上的消費(fèi)者購買評論作為研究對象,整體思路是采用文本挖掘技術(shù)和產(chǎn)品品牌形象監(jiān)管及危機(jī)等級管理方法,綜合運(yùn)用TF-IDF 算法、依存句法、語義相似度聚類算法以及細(xì)粒度情感分析方法,從監(jiān)管部門的角度出發(fā),對消費(fèi)者購買三七后的評論進(jìn)行分析,挖掘出三七商品在產(chǎn)品質(zhì)量的各指標(biāo)危機(jī)等級以及產(chǎn)品形象特征,以此來幫助監(jiān)管部門及時(shí)了解各品牌三七質(zhì)量監(jiān)管方面的情況,并針對具體存在的問題進(jìn)行針對性檢查,從而達(dá)到保證產(chǎn)品品牌良好形象、彌補(bǔ)監(jiān)管漏洞、健全監(jiān)管制度的目的。
研究對象選定為云南省高原特色農(nóng)產(chǎn)品之一的三七,三七作為云南省農(nóng)業(yè)重點(diǎn)發(fā)展的八大產(chǎn)業(yè)中藥材的一個重要元素,已成為了帶動云南經(jīng)濟(jì)發(fā)展、打響品牌的重要產(chǎn)品。如圖1 所示,在云南省近2 年評選的十大名品中,中藥材這一評選欄目下,每年三七都占大約20%的比重。且在中國品牌網(wǎng)評選出的2021 年三七十大品牌排行榜中,云南省的三七品牌共有8 個,占總體的80%,足以證明云南省三七品牌影響力之大。加上幾大品牌在天貓、京東平臺上銷量較高,評論數(shù)量較大,保證了研究的數(shù)據(jù)量充足。
圖1 三七行業(yè)品牌排行榜
店鋪的選擇標(biāo)準(zhǔn)為官方旗艦店,具體選擇為該店鋪中綜合評價(jià)好、評價(jià)數(shù)量高,同時(shí)在天貓、京東兩大平臺均進(jìn)行銷售的產(chǎn)品。在產(chǎn)品選定后,按照指定的規(guī)則方法,采用網(wǎng)絡(luò)爬蟲技術(shù)對店鋪評論數(shù)據(jù)進(jìn)行采集,但由于網(wǎng)絡(luò)爬蟲會在一定時(shí)間內(nèi)對訪問的目標(biāo)站點(diǎn)發(fā)送大量的請求信息,以獲得不同的數(shù)據(jù)信息,這在一定程度上會造成網(wǎng)站資源的消耗,大量且快速的請求,會對部分中小型網(wǎng)站造成負(fù)載,甚至?xí)?dǎo)致其服務(wù)器崩潰的現(xiàn)象[4]。為了防止部分爬蟲程序?qū)W(wǎng)站安全造成危害,確保網(wǎng)站正常工作,大量網(wǎng)站都采取了一些反爬蟲機(jī)制,如監(jiān)控IP 與訪問量,當(dāng)一個IP 在周期內(nèi)訪問量達(dá)到閾值時(shí),將其判定為爬蟲并禁止訪問。此外,還可以限制數(shù)據(jù)展示量,如淘寶、天貓、京東等平臺對產(chǎn)品評論數(shù)據(jù)進(jìn)行了數(shù)量限制,只展示100 頁的評論數(shù)據(jù)。三七原始評論數(shù)據(jù)采集如表1 所示。
表1 三七原始評論數(shù)據(jù)采集結(jié)果
首先對評論數(shù)據(jù)進(jìn)行預(yù)處理工作,以方便后續(xù)研究的開展。具體清洗方法如下。
1)去除系統(tǒng)默認(rèn)評論數(shù)據(jù),如“此用戶未填寫評價(jià)內(nèi)容”“此用戶未及時(shí)評價(jià)”“系統(tǒng)默認(rèn)好評”。
2)去除重復(fù)值,重復(fù)數(shù)據(jù)僅保留一條,其他的刪除。清洗后結(jié)果如表2 所示。
表2 三七原始評論數(shù)據(jù)清洗結(jié)果
將評論數(shù)據(jù)采集后,利用Jieba 分詞包的精確模式對評論數(shù)據(jù)進(jìn)行分詞,為后續(xù)研究做好數(shù)據(jù)準(zhǔn)備。分詞后,可以發(fā)現(xiàn)原本的句子已被切分成了單字和詞組的形式,且對于各個詞組能夠較好地識別,切分效果較好。中文分詞后的文本數(shù)據(jù)集如圖2 所示。
圖2 中文分詞后的文本數(shù)據(jù)集
由于中文分詞后的評論文本數(shù)據(jù)中仍然有部分無意義詞組以及大量標(biāo)點(diǎn)符號,在數(shù)據(jù)處理時(shí)會導(dǎo)致處理效率低,因此需要對其進(jìn)行去除,使用停用詞過濾處理。停用詞過濾結(jié)果如圖3 所示。
圖3 停用詞過濾結(jié)果
監(jiān)測指標(biāo)的選取對于形象監(jiān)測與危機(jī)管理整體具有極大的影響,因此需要選用科學(xué)合理的方法來進(jìn)行監(jiān)測指標(biāo)的選取??紤]到計(jì)算的復(fù)雜度和結(jié)果的有效性,首先通過TF-IDF 算法將部分詞頻雖高,但卻無意義的詞組去除。通過設(shè)定閾值,將能夠較好地用于產(chǎn)品分類特征的詞組提取出來,人工構(gòu)建基礎(chǔ)產(chǎn)品質(zhì)量監(jiān)測指標(biāo)表。為了避免指標(biāo)選取時(shí)個人主觀性的影響,由3 名研究者合作共同完成基礎(chǔ)監(jiān)測指標(biāo)表的構(gòu)建??紤]到形容詞及動詞中也含有部分能夠體現(xiàn)產(chǎn)品形象特征的詞組,因此在構(gòu)建品牌監(jiān)測指標(biāo)過程中,詞性標(biāo)注環(huán)節(jié)將形容詞及動詞也加入進(jìn)來。之后利用相似度聚類等方法,將提取出的詞組與監(jiān)測指標(biāo)表中的基礎(chǔ)監(jiān)測指標(biāo)進(jìn)行相似度計(jì)算,將符合條件的詞組提取出來,完成指標(biāo)的構(gòu)建。指標(biāo)監(jiān)測構(gòu)建流程如圖4 所示。
圖4 監(jiān)測指標(biāo)構(gòu)建流程
在完成監(jiān)測指標(biāo)所屬類別聚類分析后,還需對指標(biāo)形象特征表現(xiàn)情況進(jìn)行提取和分析,挖掘出各監(jiān)測指標(biāo)對應(yīng)的形象特征情況,并通過情感分析方法對各個形象特征所具有的危機(jī)值進(jìn)行計(jì)算,得到該監(jiān)測指標(biāo)的危機(jī)等級,進(jìn)而了解該產(chǎn)品在質(zhì)量方面的形象特征表現(xiàn)和危機(jī)情況。形象分析流程如圖5 所示。
圖5 形象分析流程
數(shù)據(jù)預(yù)處理后,為了從評論數(shù)據(jù)集中選出貢獻(xiàn)度高、能夠較好地表達(dá)評論實(shí)際內(nèi)容的詞組作為二級指標(biāo),需要逐步對評論數(shù)據(jù)進(jìn)行過濾,減少無關(guān)數(shù)據(jù)對最終試驗(yàn)結(jié)果的影響。傳統(tǒng)的指標(biāo)選取是依據(jù)詞組中詞頻的高低進(jìn)行選擇,但該方法會使得大量詞頻高、但卻無實(shí)際意義的詞組被選中。為了能夠提高試驗(yàn)結(jié)果的準(zhǔn)確率,需要利用TF-IDF 算法對評論數(shù)據(jù)中的詞組進(jìn)行初步過濾,該算法能夠較好地對詞頻高但卻沒有實(shí)際價(jià)值、或?qū)嶋H價(jià)值低的詞語進(jìn)行過濾,并將能夠較好地表現(xiàn)本身含義的詞語保留下來。TF-IDF 提取結(jié)果如圖6 所示,根據(jù)提取結(jié)果可知,該算法能夠較好地對詞頻高但卻沒有實(shí)際價(jià)值、或?qū)嶋H價(jià)值低的詞語較好的進(jìn)行過濾,從而將具有實(shí)際意義的詞組進(jìn)行篩選。
圖6 TF-IDF 提取結(jié)果
由于作為監(jiān)測指標(biāo)的詞大多為名詞,能夠表現(xiàn)產(chǎn)品形象特征的詞組大多為名詞、形容詞以及少量動詞性詞組,因此在構(gòu)建基礎(chǔ)監(jiān)測指標(biāo)時(shí),對名詞和名詞性詞組進(jìn)行選取可以進(jìn)一步降低數(shù)據(jù)處理分析的維度,達(dá)到更加精確分析的目的和效果。通過調(diào)用Pyltp 的詞性標(biāo)注工具,對去除停用詞后用于構(gòu)建領(lǐng)域詞典的評論數(shù)據(jù)集詞組進(jìn)行詞性標(biāo)注,為監(jiān)測指標(biāo)以及形象特征的選取做準(zhǔn)備。標(biāo)準(zhǔn)結(jié)果如圖7所示。完成詞性的標(biāo)注后,接下來需要將用于構(gòu)建質(zhì)量監(jiān)測指標(biāo)的名詞及名詞性詞組從大量標(biāo)注過的詞組中提取出來。
圖7 詞性標(biāo)注結(jié)果
在基礎(chǔ)監(jiān)測指標(biāo)表的構(gòu)建完成前提下,對于品牌監(jiān)測指標(biāo),需要利用相似度聚類算法來實(shí)現(xiàn)。在正式開始監(jiān)測指標(biāo)聚類前,考慮到監(jiān)測指標(biāo)的選取雖然以名詞及名詞性詞組為主,但仍有部分形容詞及動詞與產(chǎn)品監(jiān)測指標(biāo)相關(guān),能夠作為質(zhì)量監(jiān)測指標(biāo)。由于該部分形容詞詞組與相近的名詞性詞組表達(dá)含義接近,因此在構(gòu)建基礎(chǔ)監(jiān)測指標(biāo)時(shí)未考慮。但在品牌監(jiān)測指標(biāo)構(gòu)建時(shí),要將與產(chǎn)品質(zhì)量相關(guān)的監(jiān)測指標(biāo)盡量多的進(jìn)行整理和歸納,以保證試驗(yàn)結(jié)果的準(zhǔn)確性。提取結(jié)果如表3 所示。
表3 部分詞組提取結(jié)果
接下來完成監(jiān)測指標(biāo)的聚類,首先利用Word2vec工具對中文分詞后的評論數(shù)據(jù)集進(jìn)行詞組離散向量訓(xùn)練,之后使用余弦相似度聚類算法將詞組離散向量進(jìn)行聚類,完成詞組的聚類。由于詞組在通過Word2vec 訓(xùn)練后,得到的離散向量可以通過向量空間距離表示詞組之間的相似性,因此可以通過利用余弦相似度計(jì)算公式表示兩個詞組之間的相似程度。Word2ve 的調(diào)用通過Gensim 庫來實(shí)現(xiàn),模型采用Skip-gram 模型。
在獲得詞組的空間向量后,即可結(jié)合監(jiān)測指標(biāo)表,利用Word2vec 的余項(xiàng)相似度計(jì)算方法,對制定的監(jiān)測指標(biāo)進(jìn)行相似詞組聚類,從評論詞組中提取出與各監(jiān)測指標(biāo)相近的詞組,完成監(jiān)測指標(biāo)的聚類工作。即獲得各品牌監(jiān)測指標(biāo),例如盤龍?jiān)坪2糠直O(jiān)管指標(biāo)提取結(jié)果如表4 所示。
表4 盤龍?jiān)坪2糠直O(jiān)管指標(biāo)提取結(jié)果
通過借助Pyltp 工具,編寫Python 語言程序后,即可對評論數(shù)據(jù)進(jìn)行句法分析,挖掘出評論數(shù)據(jù)中各詞組之間的相關(guān)依存關(guān)系。
消費(fèi)者在對購買商品評論時(shí)會對商品的各方面表現(xiàn)情況進(jìn)行評價(jià),而利用情感分析技術(shù)可將其對產(chǎn)品質(zhì)量方面的情感傾向提取出來。因此,本研究通過參考張強(qiáng)[5]給出的情感值計(jì)算方法,構(gòu)建了一種衡量商品情感傾向及情感值計(jì)算的方法,利用情感值的高低來表示危機(jī)情況。
式中,i表示i個詞組組合,Si表示i個詞組的情感值,α的值為0 和1,當(dāng)詞組中含有否定詞時(shí)α的值為1,否則為0,Mi表示i個詞組組合中程度詞的權(quán)重值,Ei表示i個詞組組合中詞組的情感極性。
公式(1)中針對單個詞組組合的情感值進(jìn)行了計(jì)算,得到了單個詞組組合的情感值,為了能夠了解一級指標(biāo)的危機(jī)情況,需要將一級指標(biāo)中的所有二級指標(biāo)危機(jī)值進(jìn)行計(jì)算,得到一級指標(biāo)的平均危機(jī)值。
式中,F(xiàn)j表示第j個一級指標(biāo)的平均危機(jī)值。在得到詞組組合的情感值后,通過對照制定好的危機(jī)等級表來確定危機(jī)等級,參考了陳誠[6]的危機(jī)等級劃分方法,進(jìn)行危機(jī)等級表的制定。根據(jù)各級監(jiān)測指標(biāo)得分,對得分結(jié)果劃分為4 個等級:無危機(jī)、輕危機(jī)、中危機(jī)、重危機(jī)[7]。具體危機(jī)等級制定如表5所示。
表5 危機(jī)等級劃分
借助依存句法提取出監(jiān)測指標(biāo)元組后,利用公式(1)對提取出的監(jiān)測指標(biāo)元組的危機(jī)值進(jìn)行計(jì)算。以<質(zhì)量挺好>為例,首先對元組內(nèi)容進(jìn)行識別和劃分,判斷監(jiān)測指標(biāo)內(nèi)容、情感極性詞、情感程度詞以及否定詞。該元組中監(jiān)測指標(biāo)內(nèi)容為質(zhì)量,情感進(jìn)行詞為好,通過調(diào)用情感極性詞典,發(fā)現(xiàn)該詞極性為正面極性,則對應(yīng)情感值為1;情感程度詞為“挺”,通過調(diào)用情感程度詞典,發(fā)現(xiàn)該詞屬于第四類,程度權(quán)重值為0.48,按照公式(1)的計(jì)算方法,該詞組情感值為0.48×1=0.48。按照相同的計(jì)算方法,對聚類后該監(jiān)測指標(biāo)的所有元組情感值進(jìn)行逐個計(jì)算。計(jì)算完成后,按照公式(2)的計(jì)算方法,對所有元組情感值進(jìn)行累加求平均值,得到該監(jiān)測指標(biāo)的最終結(jié)果,如表6 所示。
表6 質(zhì)量監(jiān)測指標(biāo)危機(jī)值
七丹各項(xiàng)監(jiān)測指標(biāo)平均值最高,其次為云南白藥以及云三七品牌??偡肿畹偷臑槊玎l(xiāng)和高田。根據(jù)試驗(yàn)結(jié)果,在一級監(jiān)測指標(biāo)方面,不同品牌產(chǎn)品具有各自優(yōu)勢。如在產(chǎn)品質(zhì)量監(jiān)測指標(biāo)方面,七丹以及云南白藥品牌分值最高,表明該品牌三七產(chǎn)品在產(chǎn)品質(zhì)量、三七粉質(zhì)、雜質(zhì)殘留以及份量等方面表現(xiàn)較好;而在產(chǎn)品效果這一指標(biāo)中,云三七分?jǐn)?shù)最高,表明大多數(shù)消費(fèi)者使用該品牌三七產(chǎn)品后,效果較好。
低危機(jī)等級的具體危機(jī)風(fēng)險(xiǎn)項(xiàng)提取結(jié)果如表7所示。
表7 低危機(jī)風(fēng)險(xiǎn)項(xiàng)提取
苗鄉(xiāng)與高田總體危機(jī)等級為輕危機(jī),盤龍?jiān)坪?傮w危機(jī)等級為無危機(jī),僅產(chǎn)品質(zhì)量這一監(jiān)測指標(biāo)為輕危機(jī),因此前兩個品牌需要監(jiān)管部門給予更多的關(guān)注,著重進(jìn)行問題排查。針對盤龍?jiān)坪F放飘a(chǎn)品在產(chǎn)品質(zhì)量這一監(jiān)測指標(biāo)存在的風(fēng)險(xiǎn)項(xiàng),監(jiān)管部門要檢查產(chǎn)品加工工序完整,重點(diǎn)檢查產(chǎn)品摻雜問題。而針對苗鄉(xiāng)品牌,則需要關(guān)注以次充好問題,同時(shí)關(guān)注產(chǎn)品描述問題,檢查虛假宣傳問題。高田品牌產(chǎn)品存在的問題與苗鄉(xiāng)品牌存在的問題相似,需重點(diǎn)檢查以次充好問題以及虛假宣傳問題,同時(shí)還需檢查產(chǎn)品變質(zhì)以及存在雜質(zhì)多的問題。
監(jiān)管部門除了需要對存在風(fēng)險(xiǎn)的產(chǎn)品進(jìn)行針對性的檢查外,還需采取相應(yīng)的措施來輔助開展食品質(zhì)量監(jiān)管工作[8]。
產(chǎn)品在到消費(fèi)者手上前,需要經(jīng)過層層工作人員的檢驗(yàn)和傳遞,每一層都需要做好對應(yīng)的檢驗(yàn)工作,并承擔(dān)對應(yīng)的責(zé)任。店鋪從廠家引入產(chǎn)品時(shí),需要對產(chǎn)品的質(zhì)量情況進(jìn)行檢驗(yàn),廠家對店鋪負(fù)責(zé)。消費(fèi)者若發(fā)現(xiàn)產(chǎn)品質(zhì)量出現(xiàn)問題,則店鋪具有不可推卸的責(zé)任,店鋪向消費(fèi)者負(fù)責(zé),而品牌商家則對店鋪負(fù)責(zé)[9]。通過本研究方法為監(jiān)管部門指明存在的問題后,監(jiān)管部門便可以展開針對性的問題排查,確定問題后,逐層問責(zé)[10]。通過落實(shí)責(zé)任歸責(zé)制,可以進(jìn)一步提升每層人員的監(jiān)察意識和責(zé)任意識,保證產(chǎn)品良好的產(chǎn)品質(zhì)量,減少產(chǎn)品質(zhì)量問題的發(fā)生[11]。
利用網(wǎng)絡(luò)爬蟲技術(shù),可將各大品牌的產(chǎn)品質(zhì)量相關(guān)信息實(shí)時(shí)采集,如產(chǎn)品價(jià)格,并利用智能分析算法進(jìn)行分析,由后臺計(jì)算得到各項(xiàng)監(jiān)測指標(biāo)變化情況,幫助監(jiān)管部門實(shí)時(shí)掌握產(chǎn)品質(zhì)量各方面的變化,以此達(dá)到質(zhì)量監(jiān)管的效果和目的[12,13]。
大量消費(fèi)者在購買三七產(chǎn)品后,缺乏相應(yīng)的專業(yè)知識,無法辨別所購產(chǎn)品真假和質(zhì)量好壞。而劣質(zhì)產(chǎn)品非但使用效果差,更有可能對身體健康造成極大危害,食用后產(chǎn)生副作用[14]。因此,監(jiān)管部門應(yīng)在官方平臺上,發(fā)布權(quán)威、可信的產(chǎn)品真?zhèn)我约百|(zhì)量好壞的辨別方法,以此提高消費(fèi)者的產(chǎn)品真假、質(zhì)量好壞的辨別能力,形成良好的產(chǎn)品質(zhì)量監(jiān)督氛圍,進(jìn)一步健全監(jiān)管機(jī)制,提升政府的公信力。
隨著互聯(lián)網(wǎng)普及率的飛速增長,大數(shù)據(jù)等科技得到了極大的推進(jìn)。網(wǎng)絡(luò)購物憑借著突破時(shí)間空間、選擇性多、方便快捷等特點(diǎn),改變了人們的生活,受到了越來越多的消費(fèi)者喜愛。網(wǎng)購食品市場一片大好,前提是要保證食品質(zhì)量。食品質(zhì)量問題頻繁發(fā)生,影響了消費(fèi)者的身心健康,同時(shí)也造成了人們對于食品質(zhì)量現(xiàn)狀的擔(dān)憂、對政府工作能力和監(jiān)管水平的懷疑,影響了政府的公信力。
在此背景下,本研究從市場監(jiān)管部門的角度出發(fā),以云南省高原特色農(nóng)產(chǎn)品三七為研究對象,提出了質(zhì)量形象監(jiān)測及危機(jī)管理方法,用于對政府推廣的云南高原特色農(nóng)產(chǎn)品品牌產(chǎn)品的質(zhì)量進(jìn)行有效監(jiān)管,防止品牌商品出現(xiàn)質(zhì)量問題,加快云南省綠色食品牌 建設(shè)[15]。