郭承湘?劉姝 王思宇
摘 要:近年來,網(wǎng)絡(luò)餐飲的快速發(fā)展給人們的用餐提供了更豐富的選擇和極大的便利。但同時,對網(wǎng)絡(luò)餐飲商家的監(jiān)管也面臨著全新的挑戰(zhàn)。本文提出一種用于評估網(wǎng)絡(luò)餐飲商家風(fēng)險的方法。首先通過爬蟲從三大點餐平臺(餓了么、美團和百度)爬取商家基本信息、證照信息和評論信息。然后通過基于深度學(xué)習(xí)的圖像和文本識別技術(shù),判斷商家是否存在違規(guī)行為。最后使用層次分析構(gòu)建商家違規(guī)風(fēng)險的整體評價模型。
關(guān)鍵詞:網(wǎng)絡(luò)餐飲監(jiān)管;風(fēng)險評估模型;食品安全;深度學(xué)習(xí)
1 網(wǎng)絡(luò)餐飲服務(wù)概述
近年來,“互聯(lián)網(wǎng)+餐飲服務(wù)”等新興業(yè)態(tài)快速發(fā)展,網(wǎng)絡(luò)餐飲服務(wù)在促進了餐飲業(yè)發(fā)展的同時,也對食品安全監(jiān)管提出了重大挑戰(zhàn)。黨的第十九次全國代表大會報告中明確指出“實施食品安全戰(zhàn)略,讓人民吃得放心”。國家十三五食品安全規(guī)劃也明確指出“嚴(yán)格互聯(lián)網(wǎng)食品經(jīng)營、網(wǎng)絡(luò)訂餐等新業(yè)態(tài)監(jiān)管。加強互聯(lián)網(wǎng)食品經(jīng)營網(wǎng)上監(jiān)測能力建設(shè),實施‘ 互聯(lián)網(wǎng)+食品安全監(jiān)管項目,推進食品安全監(jiān)管大數(shù)據(jù)資源共享和應(yīng)用,提高監(jiān)管效能?!贬槍W(wǎng)絡(luò)餐飲的快速發(fā)展所帶來的諸多問題,國家食品藥品監(jiān)督管理局相繼出臺了《網(wǎng)絡(luò)食品安全違法行為查處辦法》《網(wǎng)絡(luò)餐飲服務(wù)監(jiān)督管理辦法》征求意見,并于2017年11月10日正式頒布《網(wǎng)絡(luò)餐飲服務(wù)食品安全監(jiān)督管理辦法》。各項政策均明確指出要加強網(wǎng)絡(luò)餐飲服務(wù)食品安全監(jiān)督管理、規(guī)范網(wǎng)絡(luò)餐飲服務(wù)經(jīng)營行為、保證餐飲食品安全。
CNNIC第41次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》顯示,2017年中國網(wǎng)上外賣增長明顯,用戶年增長率達(dá)到64.6%,中國餐飲O2O行業(yè)市場規(guī)模已達(dá)7 799.6億元,較去年同期增長87%[1],網(wǎng)絡(luò)餐飲市場規(guī)??焖贁U張帶動行業(yè)發(fā)展的同時也埋下了不少食品安全隱患。2016年央視“3.15晚會”上對無證商戶利用第三方平臺從事網(wǎng)絡(luò)訂餐服務(wù),且餐飲實體店在制售過程中的食品安全隱患進行了“大揭底”,在全社會引起了不小轟動。由于網(wǎng)絡(luò)餐飲服務(wù)第三方平臺責(zé)任落實不到位、入網(wǎng)餐飲服務(wù)提供者良莠不齊、網(wǎng)絡(luò)餐飲虛擬性和跨地域特點等原因,網(wǎng)絡(luò)餐飲的監(jiān)管難度較大,傳統(tǒng)監(jiān)管模式難以應(yīng)對海量、復(fù)雜的監(jiān)管需求。
針對我國現(xiàn)在網(wǎng)絡(luò)餐飲商家存在的種種問題,研究者們更多地從責(zé)任主體、政策應(yīng)對措施和防范方法等方面進行討論和研究[2-5],卻鮮有研究針對如何及時發(fā)現(xiàn)商家違規(guī)問題。綜上所述,文本提出一種用于對網(wǎng)絡(luò)餐飲商家違規(guī)風(fēng)險的評估模型,旨在幫助監(jiān)管單位及時發(fā)現(xiàn)存在違規(guī)可能性的高風(fēng)險商家。本文提出的商家違規(guī)風(fēng)險評估模型從證照是否公示、評論情感、是否超范圍經(jīng)營和平臺店鋪評分四方面進行評價。首先使用網(wǎng)絡(luò)爬蟲從“美團”“百度外賣”(已更名為“星選”)“餓了么”三大外賣平臺爬取餐飲商家的基本信息(包含店鋪評分、售賣商品名稱、店鋪名等)、證照信息和評論信息。使用ResNet深度神經(jīng)網(wǎng)絡(luò)構(gòu)建證照分類模型,判斷商家是否上傳了相關(guān)證照;使用TextCNN算法對評論進行情感分析,計算評論差評率;使用改進的RNN算法判斷是否存在超范圍經(jīng)營。最后使用層次分析法來綜合上述四方面得到商家違規(guī)風(fēng)險。
2 證照未公示檢測算法
按照我國相關(guān)法律法規(guī)要求,網(wǎng)絡(luò)餐飲商家需要公示“食品經(jīng)營許可證”或“餐飲服務(wù)許可證”。檢測網(wǎng)絡(luò)餐飲商家證照是否公示的基本方法是:通過使用構(gòu)建的證照分類模型,識別網(wǎng)絡(luò)餐飲商家公示的所有證照的類型,再判斷其中是否包含“食品經(jīng)營許可證”或“餐飲服務(wù)許可證”。為此,采用ResNet網(wǎng)絡(luò)進行證照分類。
與通常的DCNN(Deep Convolu-
tional Neural Network,深度卷積神經(jīng)網(wǎng)絡(luò))相比,ResNet將網(wǎng)絡(luò)的基本構(gòu)成模塊替換為殘差模塊,其示意圖如圖1所示。
殘差模塊中的跳躍連接能夠大大降低因為網(wǎng)絡(luò)層數(shù)增加而導(dǎo)致的梯度消失問題。因此通常ResNet網(wǎng)絡(luò)的層數(shù)很深,且效果也較一般卷積網(wǎng)絡(luò)要好。本文使用ResNet34模型。模型訓(xùn)練采用20 000張經(jīng)人工標(biāo)注的證照數(shù)據(jù),標(biāo)注類型包括六大類:營業(yè)執(zhí)照、食品經(jīng)營許可證、網(wǎng)絡(luò)餐飲許可證、三小備案證、食品流通許可證和其他(如藥品經(jīng)營許可證)。在模型訓(xùn)練完成后,使用另外7 388張經(jīng)人工標(biāo)注的證照進行模型測試,其準(zhǔn)確率達(dá)99.419%。
為了判斷商家是否存在證照未公示情況,對商家的所有證照使用模型進行類別判斷,只要其中包含“食品經(jīng)營許可證”或“網(wǎng)絡(luò)餐飲許可證”,則判斷為“證照已公示”;否則將商家判斷為“證照未公示”。
3 超范圍經(jīng)營檢測算法
超范圍經(jīng)營檢測算法用于檢測網(wǎng)絡(luò)餐飲商家售賣的商品是否超出了其許可證規(guī)定的范圍。根據(jù)國家相關(guān)法律法規(guī)規(guī)定,網(wǎng)絡(luò)餐飲商家售賣的商品分為以下幾類:預(yù)包裝食品、散裝食品、熱食類食品、冷食類食品、生食類食品、糕點類食品和自制飲品。超范圍經(jīng)營檢測算法的基本原理為:通過使用店鋪名和其售賣的商品名稱來確定商品所屬類別,進而判斷店鋪的經(jīng)營范圍,然后與其許可證允許范圍進行比較,判斷是否存在超范圍經(jīng)營情況。
因為店鋪名和售賣商品名通常僅包含數(shù)個中文字符,因此直接以單個字符對店鋪名和商品名進行分割。在此基礎(chǔ)上,使用word2vec算法對數(shù)據(jù)集中的每個中文字計算其字表示向量。word2vec使用語言學(xué)中的分布式假設(shè),即認(rèn)為文字的語義信息能夠從其上下文中推斷出來。為此,將每一個中文字表示為一個固定維度大小的向量,并用公式(1)表示兩個詞的條件概率。
其中vw表示詞w的詞向量,V表示整個詞表。Word2vec的優(yōu)化目標(biāo)為給定一個詞w,使得其上下文context(w)出現(xiàn)的聯(lián)合概率最大化,即(如圖2所示)。
max p(context(w)|w)(2)
在假設(shè)任意兩個條件概率相互獨立的情況下,上式可改寫為:
優(yōu)化式(3)等價于優(yōu)化其對數(shù)函
使用梯度下降優(yōu)化上述目標(biāo)函數(shù),即可得到每個中文字的向量。為了判斷商家p售賣的商品q所屬的類別,首先使用訓(xùn)練好的字向量使用連續(xù)詞袋模型來對其進行表征,然后使用店鋪p的表征向量與商品q的表征向量進行拼接,得到最終表征。
最后使用一個包含兩層隱層的多層感知器來訓(xùn)練商品名類型識別模型。對于每個店鋪,使用訓(xùn)練好的模型來判斷其每個商品所屬的類別,最后與其許可證的經(jīng)營范圍進行比較,若存在超出許可證范圍的商品,則判斷商家存在超范圍經(jīng)營行為。
4 評論情感分析算法
本文采用TextCNN來實現(xiàn)評論情感分析。TextCNN的網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
在TextCNN中,一條評論被表示為一個M×N的矩陣,其中M為該評論中單詞的數(shù)量;N為單詞的詞向量維度。詞向量的計算方法與第3節(jié)中介紹的字向量的計算方式一致。評論矩陣經(jīng)過卷積核后得到多個特征圖,通過對特征圖中的元素進行最大池化操作得到具有較強表征能力的特征。最后通過全連接softmax實現(xiàn)分類。
TextCNN對于處理評論情感分析有效的主要原因在于評論的情感通常僅僅由句子中的幾個關(guān)鍵詞來表征,因此只要能夠讓算法自動捕獲住這些表征情感的關(guān)鍵詞,就能得到較好的效果。而TextCNN使用較小的卷積核,這能讓算法更加容易發(fā)現(xiàn)短詞語與評論情感之間的關(guān)系。TextCNN與經(jīng)典的N-Gram模型具有相似的效果,但無需事先建立所有詞的Gram詞組,因此更加高效。為了訓(xùn)練TextCNN模型,首先挑選出3萬條評論數(shù)據(jù),將其標(biāo)注為好評、中評和差評中的一類。然后通過TextCNN算法進行學(xué)習(xí),得到評論情感分析模型。
5 網(wǎng)絡(luò)餐飲商家風(fēng)險評估
對網(wǎng)絡(luò)餐飲商家進行風(fēng)險評估需要用到四個因素:證照是否公示、是否超范圍經(jīng)營、負(fù)面評論占比和店鋪評分。其中證照是否公示為取值0或1的布爾量,記為f1,其取值為0表示商家已將所需證照進行了公示;反之則未公示。同理,是否超范圍經(jīng)營也為取值0或1的布爾量,記為f2,其取值為0表示商家沒有超范圍經(jīng)營的情況;反之商家存在超范圍經(jīng)營。負(fù)面評論占比為取值0到1的比值,記為f3,店鋪評分的原始值為1到5,將其采用如下公式轉(zhuǎn)換至0到1的區(qū)間。
其中s為商家原始的平臺打分值。風(fēng)險評估算法采用上述4個因素的線性加權(quán)求和來表示網(wǎng)絡(luò)餐飲商家的整體風(fēng)險。
risk=α1 f1+α2 f2+α3 f3+α4 f4(6)
其中權(quán)重和滿足:
α1+α2+α3+α4=1(7)
采用層次分析法來計算上述權(quán)重。層次分析法的一個核心思想是:如果直接賦予多個因素權(quán)重比較困難,那么在不同因素之間兩兩比較則是相對容易的。因此首先構(gòu)建比較矩陣,采用表1所示的比較標(biāo)度。比較矩陣如表2所示。通常,比較矩陣可由多個行業(yè)專家一起討論得到。
為了求解每個因素的權(quán)重,采用方根法計算。其具體計算步驟如下。
(1)首先對比較矩陣的每行元素計算它們的乘積,得到行元素乘積。以比較矩陣第一行為例,可得其行元素乘積為1×3×9×5=135。
(2)然后對計算得到的每個行元素乘積計算n次方根,n為因素數(shù)量,這里為4。
(3)最后對所有因素的四次方根進行歸一化得到其對應(yīng)的權(quán)重值。
對表2中的比較矩陣按照上述計算得到的結(jié)果見表3所示。
那么,式(6)即為:
risk=0.568f1+0.223f2
+0.042f3+0.167f4(8)
這樣計算得到的風(fēng)險指數(shù)取值為0到1,其值越大,表示風(fēng)險越高。針對不同情況,可以通過對該區(qū)間進行縮放來達(dá)到限定風(fēng)險指數(shù)取值在任意區(qū)間的目的。
6 結(jié)語
本文提出了一種對網(wǎng)絡(luò)餐飲商家風(fēng)險進行評估的方法。該方法使用機器學(xué)習(xí)、人工智能技術(shù),通過對網(wǎng)絡(luò)餐飲商家證照進行智能識別、評論情感分析、超范圍經(jīng)營發(fā)現(xiàn),并使用層次分析法來確定各因素的權(quán)重占比,從而評估商家風(fēng)險。本文提出的方法能夠輔助網(wǎng)絡(luò)餐飲大數(shù)據(jù)靶向監(jiān)管平臺的建立,提升網(wǎng)絡(luò)餐飲監(jiān)管效能,降低監(jiān)管部門、網(wǎng)絡(luò)餐飲主體、消費者間的信息不對稱,提升食品安全精細(xì)化管理和社會共治水平。
參考文獻
[1]姜素芳,茅鴦對,盧子木.基于PEST的網(wǎng)絡(luò)餐飲食品安全現(xiàn)狀及監(jiān)管對策[J].中國食物與營養(yǎng),2018,24(7):29-33.
[2]國家食品藥品監(jiān)督總局.食品經(jīng)營許可管理辦法(國家食品藥品監(jiān)督管理總局令第17號)[Z].2015.
[3]李雨桐,杜海玲.我國網(wǎng)絡(luò)餐飲服務(wù)平臺存在的問題與對策[J].對外經(jīng)貿(mào), 2017(3):92-94.
[4]王三虎,賈婭玲.網(wǎng)絡(luò)餐飲平臺食品安全管理的責(zé)任、挑戰(zhàn)和對策[J].食品科學(xué)技術(shù)學(xué)報,2018,36(5):17-22.
[5]呂永衛(wèi),霍麗娜.網(wǎng)絡(luò)餐飲業(yè)食品安全社會共治的演化博弈分析[J].系統(tǒng)科學(xué)學(xué)報,2018(1).
作者簡介:郭承湘(1978—),男,湖南常德人,碩士研究生,高級工程師。研究方向:計算機應(yīng)用技術(shù)。