鐘錦鴻,林瑞娜,龍熠燚,孔蔭瑩
(1.廣東財(cái)經(jīng)大學(xué)經(jīng)濟(jì)學(xué)院,廣東 廣州 510320;2.廣東財(cái)經(jīng)大學(xué)會(huì)計(jì)學(xué)院,廣東 廣州 510320;3.廣東財(cái)經(jīng)大學(xué)信息學(xué)院,廣東 廣州 510320)
國務(wù)院2016年6月14日頒布的《關(guān)于在市場(chǎng)體系建設(shè)中建立公平競(jìng)爭(zhēng)審查制度的意見》標(biāo)志著我國公平競(jìng)爭(zhēng)審查制度開始確立[1].公平競(jìng)爭(zhēng)審查制度的含義是公平競(jìng)爭(zhēng)審查主體針對(duì)立法及行政機(jī)關(guān)制定出來的法律及政策進(jìn)行市場(chǎng)競(jìng)爭(zhēng)影響評(píng)估,將不利于市場(chǎng)競(jìng)爭(zhēng)秩序的法律及政策修改或廢止的一項(xiàng)評(píng)估制度[2].
在現(xiàn)階段,各地市場(chǎng)監(jiān)管局開展公平競(jìng)爭(zhēng)審查的依據(jù)主要是2017年國家發(fā)展改革委發(fā)布的《公平競(jìng)爭(zhēng)審查實(shí)施細(xì)則(暫行)》(以下簡(jiǎn)稱《實(shí)施細(xì)則》)[3].《實(shí)施細(xì)則》提出了違反公平競(jìng)爭(zhēng)的四類審查標(biāo)準(zhǔn),對(duì)各類標(biāo)準(zhǔn)下的一些典型違背行為作了明確或概括性的規(guī)定,但這些規(guī)定并沒有涵蓋更多的違反公平競(jìng)爭(zhēng)審查標(biāo)準(zhǔn)的行為,因此在實(shí)務(wù)審查中需要借助監(jiān)管人員的經(jīng)驗(yàn)積累;在審查范圍上,主要是對(duì)重點(diǎn)行業(yè)和地區(qū)開展專項(xiàng)審查,難以做到對(duì)各級(jí)政府單位的統(tǒng)一監(jiān)督審查;在審查方式上,主要是依據(jù)政府監(jiān)管人員對(duì)審查公文進(jìn)行逐一排查,客觀上受監(jiān)管人員能力和主觀性判斷的限制,且人工排查條件下效率較低.
隨著各級(jí)政府不斷地發(fā)布新的法規(guī)和政策文件,積累了大量的文本數(shù)據(jù).這些數(shù)據(jù)可以通過一些大數(shù)據(jù)技術(shù)來更好地幫助公平競(jìng)爭(zhēng)審查人員去排查疑似違反公平競(jìng)爭(zhēng)標(biāo)準(zhǔn)的文本.目前國內(nèi)有關(guān)公平競(jìng)爭(zhēng)審查的研究主要是集中于研究如何完善公平競(jìng)爭(zhēng)的制度以及更好地落實(shí)公平競(jìng)爭(zhēng)制度,如謝芳琳學(xué)者考察了目前公平競(jìng)爭(zhēng)實(shí)施制度的現(xiàn)狀并提出了關(guān)于公平競(jìng)爭(zhēng)制度的一系列問題及有關(guān)改善的意見[5],孫考利學(xué)者和劉瀾晶學(xué)者論述了如何更好地保障公平競(jìng)爭(zhēng)制度的實(shí)施[6],金善明反思和檢討了公平競(jìng)爭(zhēng)審查制度并提出了要將其拓展為外部的監(jiān)督機(jī)制[7].上述學(xué)者對(duì)于公平競(jìng)爭(zhēng)審查研究是基于法律和政治層面,對(duì)于如何利用大數(shù)據(jù)技術(shù)去處理公平競(jìng)爭(zhēng)審查的文本分類還尚未有相關(guān)的研究.目前篩選和分類文本最常用和簡(jiǎn)單的方法是構(gòu)建關(guān)鍵詞詞典并基于關(guān)鍵詞詞典來篩選含有關(guān)鍵詞的文本[8].除此之外,還有應(yīng)用樸素貝葉斯、支持向量機(jī)、卷積神經(jīng)網(wǎng)絡(luò)、決策樹等算法進(jìn)行文本分類.在應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)于文本分類方面,自Yoon Kim把CNN從圖像領(lǐng)域轉(zhuǎn)入到NLP的領(lǐng)域,提出了TextCNN,將CNN用于處理文本數(shù)據(jù)進(jìn)行情感分析取得很好的效果后,涌現(xiàn)了許多應(yīng)用該卷積神經(jīng)網(wǎng)絡(luò)的成果,如楊銳等學(xué)者應(yīng)用了卷積神經(jīng)網(wǎng)絡(luò)對(duì)能源政策文本提取主題信息并進(jìn)行分類[9],明建華等學(xué)者將TextCNN用于直播彈幕的過濾[10].
目前結(jié)合大數(shù)據(jù)技術(shù)去處理公平競(jìng)爭(zhēng)審查文本的研究,國內(nèi)外還處于一片空白.針對(duì)該領(lǐng)域,本文創(chuàng)新性地提出了將當(dāng)前比較主流的數(shù)據(jù)分析技術(shù)和深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到公平競(jìng)爭(zhēng)審查的人工排查過程中,能夠擴(kuò)大實(shí)務(wù)中審查范圍和提高人工審查效率;同時(shí)積累建立公平競(jìng)爭(zhēng)審查疑似案例庫,對(duì)違反《實(shí)施細(xì)則》中規(guī)定的典型市場(chǎng)行為做進(jìn)一步補(bǔ)充和經(jīng)驗(yàn)性總結(jié),進(jìn)一步對(duì)公平競(jìng)爭(zhēng)審查工作重點(diǎn)提出反饋意見,同時(shí)也為后來學(xué)者在公平競(jìng)爭(zhēng)審查領(lǐng)域的研究提供另一種思路和研究方法.
中國共產(chǎn)黨的十九大報(bào)告提出了加快完善社會(huì)主義市場(chǎng)經(jīng)濟(jì)體制,明確指出“深化商事制度改革,打破行政性壟斷,防止市場(chǎng)壟斷,加快要素價(jià)格市場(chǎng)化改革,放寬服務(wù)業(yè)準(zhǔn)入限制,完善市場(chǎng)監(jiān)管體制.”[11]公平競(jìng)爭(zhēng)審查作為市場(chǎng)價(jià)格監(jiān)督與反壟斷排查的工作重點(diǎn),對(duì)打破行政性壟斷、提高市場(chǎng)活力起者關(guān)鍵性作用.下面分別從理論層面和應(yīng)用層面對(duì)項(xiàng)目意義進(jìn)行闡述.
全面推進(jìn)依法治國.應(yīng)用數(shù)據(jù)政策工具健全行政機(jī)關(guān)內(nèi)部決策合法性審查機(jī)制,有助于監(jiān)督政府依法全面正確履行職能,加強(qiáng)政策文本的合憲性解釋,鞏固好經(jīng)濟(jì)憲法的地位,實(shí)現(xiàn)社會(huì)主義制度下的良法善治.
促進(jìn)經(jīng)濟(jì)體制改革.通過大數(shù)據(jù)技術(shù)進(jìn)行公平競(jìng)爭(zhēng)文本排查,有利于完善和建立公平競(jìng)爭(zhēng)的中國特色社會(huì)主義市場(chǎng)體系,同時(shí)防止政府過度干預(yù)以及不當(dāng)干預(yù)市場(chǎng)的行為,更好地發(fā)揮市場(chǎng)在資源配置中所發(fā)揮的決定性作用,實(shí)現(xiàn)效益最大化和效率最優(yōu)化.
釋放市場(chǎng)主體活力.我國經(jīng)濟(jì)發(fā)展正處于培育和催生經(jīng)濟(jì)發(fā)展新動(dòng)能的關(guān)鍵時(shí)期[12],通過目前的大數(shù)據(jù)技術(shù)手段規(guī)范政府有關(guān)行為,廢除政府部門行政壟斷的政策,有利于調(diào)動(dòng)各類市場(chǎng)主體的積極性和創(chuàng)造性,優(yōu)化營商環(huán)境,推動(dòng)大眾創(chuàng)業(yè)、萬眾創(chuàng)新.
實(shí)現(xiàn)創(chuàng)新驅(qū)動(dòng)發(fā)展.隨著市場(chǎng)競(jìng)爭(zhēng)機(jī)制的強(qiáng)化和統(tǒng)一的全國大市場(chǎng)的初步確立,營造公平競(jìng)爭(zhēng)的市場(chǎng)環(huán)境成為了創(chuàng)新驅(qū)動(dòng)發(fā)展的重要?jiǎng)恿?通過大數(shù)據(jù)手段破除具有排除、限制競(jìng)爭(zhēng)內(nèi)容的政策措施,能在新常態(tài)下推進(jìn)經(jīng)濟(jì)穩(wěn)定持續(xù)地健康發(fā)展.
深化“放管服”改革.“放管服”改革其中一點(diǎn)提出政府部門要?jiǎng)?chuàng)新和加強(qiáng)監(jiān)管職能,利用新技術(shù)新體制加強(qiáng)監(jiān)管體制創(chuàng)新[13].通過利用大數(shù)據(jù)的技術(shù),可以提高市場(chǎng)監(jiān)管局的監(jiān)管能力,提高公平競(jìng)爭(zhēng)審查工作效率,同時(shí),通過建立公平競(jìng)爭(zhēng)審查數(shù)據(jù)庫也可以為公平競(jìng)爭(zhēng)審查工作起到借鑒作用.
針對(duì)政務(wù)審查中的“信息大爆炸困境”,引入大數(shù)據(jù)處理方法成為排查問題文本的有效手段和發(fā)揮監(jiān)督價(jià)值的關(guān)鍵.一方面,大數(shù)據(jù)作為信息時(shí)代的重要生產(chǎn)要素和戰(zhàn)略資源,能夠在海量信息中獲取所需要的關(guān)鍵信息;另一方面,深化電子政務(wù)審查技術(shù)的路徑革新,能夠提高國家治理能力的現(xiàn)代化水平.
需要排查的法律及政策的文本數(shù)據(jù)來源主要由廣東省市場(chǎng)監(jiān)督管理局官方提供和基于python的Selenium庫和Requests庫編寫的爬蟲程序從廣東省的各級(jí)政府爬取的地方性法規(guī)、政策、通告等文本數(shù)據(jù),兩者相加共2 808份文本數(shù)據(jù).將數(shù)據(jù)收集起來后,通過人工篩選先將數(shù)據(jù)分為違反了公平競(jìng)爭(zhēng)標(biāo)準(zhǔn)和沒有違反公平競(jìng)爭(zhēng)標(biāo)準(zhǔn)的兩類文本數(shù)據(jù),然后分別從兩類文本數(shù)據(jù)的標(biāo)題中篩選出各自的關(guān)鍵詞組成關(guān)鍵詞詞庫,如表1和表2所示列出了關(guān)鍵詞詞庫的關(guān)鍵詞,表1是通過人工篩選從違反了公平競(jìng)爭(zhēng)審查標(biāo)準(zhǔn)的文本的標(biāo)題中篩選出來的關(guān)鍵詞,而表2是通過人工篩選從沒有違反公平競(jìng)爭(zhēng)審查標(biāo)準(zhǔn)的文本的標(biāo)題中篩選出來的關(guān)鍵詞.將關(guān)鍵詞詞庫和需要篩選的數(shù)據(jù)導(dǎo)入到MySQL數(shù)據(jù)庫中,最后使用數(shù)據(jù)庫MySQL編寫的SQL程序?qū)?dǎo)入的數(shù)據(jù)進(jìn)行篩選,篩選出兩類文本數(shù)據(jù).
2.2.1 研究思路
基于TextCNN的法律及政策文本的分類流程如圖1所示.
表1 違反公平競(jìng)爭(zhēng)標(biāo)準(zhǔn)文本標(biāo)題的關(guān)鍵詞
表2 沒有違反公平競(jìng)爭(zhēng)標(biāo)準(zhǔn)文本標(biāo)題的關(guān)鍵詞
圖1 基于TextCNN的文本分類流程
上述提到的基于關(guān)鍵詞詞庫篩選文本的方法雖然是很高效,但由于準(zhǔn)確度不高,同時(shí)由于違反公平競(jìng)爭(zhēng)標(biāo)準(zhǔn)的文本千變?nèi)f化所以關(guān)鍵詞的選擇需要不斷地更新,這種簡(jiǎn)單的基于關(guān)鍵詞的方法難以符合當(dāng)前的實(shí)際需求,因此提出了基于TextCNN來分類需要排查的文本.
首先將收集到的所有需要排查的文本數(shù)據(jù)進(jìn)行人工標(biāo)注,將違反了公平競(jìng)爭(zhēng)標(biāo)準(zhǔn)的文本標(biāo)注為1,將沒有違反公平競(jìng)爭(zhēng)標(biāo)準(zhǔn)的文本標(biāo)注為0.之后對(duì)數(shù)據(jù)進(jìn)行清洗,使用jieba進(jìn)行中文分詞等一系列數(shù)據(jù)預(yù)處理后將數(shù)據(jù)劃分為訓(xùn)練數(shù)據(jù)集、驗(yàn)證數(shù)據(jù)集和測(cè)試集.在訓(xùn)練數(shù)據(jù)集上訓(xùn)練模型,在驗(yàn)證數(shù)據(jù)集上評(píng)估模型.在訓(xùn)練數(shù)據(jù)集上訓(xùn)練好的模型會(huì)在驗(yàn)證數(shù)據(jù)集上評(píng)估模型的好壞[14],將模型在驗(yàn)證數(shù)據(jù)集上所表現(xiàn)出來的性能作為不斷調(diào)整模型參數(shù)的反饋信號(hào)從而達(dá)到最佳的參數(shù).模型達(dá)到最佳的參數(shù)后就在測(cè)試數(shù)據(jù)集上進(jìn)行最后一次測(cè)試,來衡量模型的泛化能力是否在其它新的數(shù)據(jù)集上也有像在驗(yàn)證數(shù)據(jù)集上這么良好的性能.將輸入的經(jīng)過數(shù)據(jù)預(yù)處理后的文本數(shù)據(jù)進(jìn)行one-hot編碼后輸入到基于python的keras框架搭建好的TextCNN的模型中,最后將訓(xùn)練好的模型對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行最后一次的測(cè)試并評(píng)估模型的性能.
2.2.2 TextCNN理論模型
TextCNN最基本的模型如圖2所示.
圖2 TextCNN模型圖
設(shè)xi∈Rk表示一個(gè)句子中第i個(gè)詞的k維詞向量,其中Rk表示k個(gè)Descartes乘積集,其數(shù)學(xué)表示為:
一個(gè)長度為n的句子可以表示為:
⊕表示的是連接操作符.因此,圖2中所表示的句子“提高了準(zhǔn)入門檻”就可以表示為 x1:7=x1⊕x2⊕…⊕x7,其中 xi∈R6.
設(shè)給定的句子的長度(詞匯數(shù))為s,用d表示詞向量的維數(shù),因此可以將句子轉(zhuǎn)化為一個(gè)s×d的維數(shù)矩陣.在圖2中有6個(gè)過濾器,每?jī)蓚€(gè)過濾器分別對(duì)應(yīng)一個(gè)窗口大小,一共有3個(gè)窗口,大小分別為2、3和4.如圖3所示的是一個(gè)窗口大小為4的一個(gè)過濾器,圖中的數(shù)字表示的是過濾器的參數(shù).設(shè)窗口的大小為h,某個(gè)過濾器的參數(shù)化權(quán)向量為 ω∈Rh×d,ω 包含了 h×d 個(gè)參數(shù).用 A∈Rs×d表示句子矩陣,A[i,j]表示從 i行到j(luò)行的子矩陣,如A[1,2]表示x1:2=x1⊕x2.
圖3 窗口大小為4的過濾器
句子矩陣與過濾器進(jìn)行卷積運(yùn)算得到:
其中,i=1…s-h(huán)+1,表示子矩陣與過濾器之間的點(diǎn)積運(yùn)算,輸出的序列長度為s-h(huán)+1,最后通過激活函數(shù)f與偏置項(xiàng)b得到對(duì)應(yīng)的特征向量c∈Rs-h(huán)+1:
對(duì)特征向量進(jìn)行池化運(yùn)算池化成一個(gè)值,并將池化后的值全都連接起來組成一個(gè)新的特征向量,并使用softmax函數(shù)進(jìn)行分類.
表3 實(shí)驗(yàn)環(huán)境配置情況
3.2.1 數(shù)據(jù)預(yù)處理
對(duì)由廣東省市場(chǎng)監(jiān)督局收集和爬取到的數(shù)據(jù)共2 808份數(shù)據(jù)首先進(jìn)行人工標(biāo)注分類,之后進(jìn)行數(shù)據(jù)清洗,用jieba進(jìn)行中文分詞,分詞后對(duì)數(shù)據(jù)進(jìn)行去除停用詞處理,停用詞表采用哈爾濱工業(yè)大學(xué)的停用詞表hit_stopwords[15].將數(shù)據(jù)劃分為訓(xùn)練數(shù)據(jù)集1581份,驗(yàn)證數(shù)據(jù)集678份,測(cè)試數(shù)據(jù)集549份.
3.2.2 TextCNN
TextCNN模型主要由輸入層、卷積層、池化層、全連接層和輸出層構(gòu)成,其中卷積層負(fù)責(zé)進(jìn)行卷積運(yùn)算,池化層負(fù)責(zé)進(jìn)行池化運(yùn)算而全連接層是將卷積運(yùn)算后的特征值連接起來[16].本文的TextCNN模型加入了嵌入層用于學(xué)習(xí)詞嵌入得到一個(gè)密集的詞向量.TextCNN模型使用基于python的keras深度學(xué)習(xí)框架來進(jìn)行搭建,具體的參數(shù)如表4所示,將訓(xùn)練數(shù)據(jù)集1 581份和驗(yàn)證數(shù)據(jù)集678份輸入到構(gòu)建好的TextCNN模型中,訓(xùn)練完成后載入訓(xùn)練完成的模型對(duì)測(cè)試數(shù)據(jù)集549份進(jìn)行最后一次測(cè)試,檢驗(yàn)?zāi)P偷姆夯芰?
表4 TextCNN參數(shù)設(shè)置
為了評(píng)估模型的性能,本文使用了準(zhǔn)確率、精確率以及召回率這3個(gè)指標(biāo)作為評(píng)估的標(biāo)準(zhǔn),計(jì)算公式如下:
準(zhǔn)確率表示判斷正確的次數(shù)和所有判斷的次數(shù)的比值,精確率表示在所有被判斷為正樣本的樣本中有多大比例是真正的正樣本,召回率表示在所有真正的正樣本中有多大的比例是被判斷正確了[17].在本實(shí)驗(yàn)中正樣本是沒有違反公平競(jìng)爭(zhēng)標(biāo)準(zhǔn)的文本數(shù)據(jù),負(fù)樣本是違反了公平競(jìng)爭(zhēng)標(biāo)準(zhǔn)的文本數(shù)據(jù).從實(shí)驗(yàn)結(jié)果來看,該模型在判斷文本是沒有違反公平競(jìng)爭(zhēng)標(biāo)準(zhǔn)的準(zhǔn)確度較高,而在判斷文本是違反了公平競(jìng)爭(zhēng)標(biāo)準(zhǔn)的這個(gè)情況下準(zhǔn)確度卻較低,需要做進(jìn)一步的改進(jìn).
表5 實(shí)驗(yàn)結(jié)果評(píng)估
目前公平競(jìng)爭(zhēng)審查流程如圖4所示,在人工工作模式下,對(duì)于公平競(jìng)爭(zhēng)文本初步審查(即判斷公平競(jìng)爭(zhēng)審查文本是否涉及市場(chǎng)經(jīng)濟(jì)活動(dòng)這一部分)的工作難度不大,但是工作量龐大,對(duì)于經(jīng)驗(yàn)豐富的工作人員來說是簡(jiǎn)單重復(fù)的工作,這在一定程度上增加了人工成本.在判斷公平競(jìng)爭(zhēng)審查文本是否違反了18條標(biāo)準(zhǔn)的判斷階段,工作人員一般需要查閱大量的法律文獻(xiàn)和資料作為參考,這個(gè)階段不僅耗時(shí)長,過程繁瑣,還會(huì)給判斷結(jié)果帶來一定的誤差.
圖4 公平競(jìng)爭(zhēng)審查基本流程
本文通過實(shí)現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)對(duì)公平競(jìng)爭(zhēng)審查文本的分類能夠在一定程度上幫助到工作人員進(jìn)行公平競(jìng)爭(zhēng)審查文本的排查,初步快速地對(duì)大量的公平競(jìng)爭(zhēng)的審查文本給出初步的判斷,同時(shí)在判斷沒有違反公平競(jìng)爭(zhēng)審查的文本準(zhǔn)確率較高,但是目前該算法仍然不能完全替代人工,而是作為工作人員的輔助工具.其仍然存在一定的誤差項(xiàng)和局限性,在面對(duì)較為復(fù)雜的審查文本的時(shí)候可能無法精準(zhǔn)判斷仍需要人工判斷,仍然需要進(jìn)一步地研究.
本文針對(duì)公平競(jìng)爭(zhēng)審查中的人工審查的過程首先提出了基于關(guān)鍵詞過濾篩選違反公平競(jìng)爭(zhēng)審查標(biāo)準(zhǔn)的文本,由于該方法存在準(zhǔn)確度不是很高、難以抽全關(guān)鍵詞等問題,因此難以適應(yīng)目前的實(shí)際需求.接著提出了將深度學(xué)習(xí)結(jié)合到公平審查中的方法提升了分類的準(zhǔn)確率,實(shí)現(xiàn)通過電腦程序來自動(dòng)進(jìn)行公平競(jìng)爭(zhēng)審查文本的排查,模型在訓(xùn)練數(shù)據(jù)集中各項(xiàng)指標(biāo)都達(dá)到了92.22%,驗(yàn)證數(shù)據(jù)集中各項(xiàng)指標(biāo)達(dá)到了92.48%,測(cè)試數(shù)據(jù)集中的各項(xiàng)指標(biāo)也基本在90%左右,然而模型由于樣本數(shù)據(jù)不均衡導(dǎo)致了負(fù)樣本的精確率和召回率指標(biāo)數(shù)很低,因此模型仍存在著一些問題需要進(jìn)一步的改進(jìn).感謝廣東省市場(chǎng)監(jiān)督局為我們提供實(shí)習(xí)機(jī)會(huì)并提供相關(guān)的研究數(shù)據(jù)和公平競(jìng)爭(zhēng)審查的標(biāo)準(zhǔn),幫助我們更好地了解和掌握公平競(jìng)爭(zhēng)審查的流程,在之后的工作中,會(huì)更加深入地研究以提高排查的準(zhǔn)確度.