• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于關(guān)聯(lián)規(guī)則的電子發(fā)票摘要與會(huì)計(jì)科目名稱相關(guān)性分析

      2021-08-03 06:48:06李燕萍劉凡謝軍
      電腦知識(shí)與技術(shù) 2021年17期
      關(guān)鍵詞:電子發(fā)票會(huì)計(jì)分錄關(guān)聯(lián)規(guī)則

      李燕萍 劉凡 謝軍

      摘要:目的:研究電子發(fā)票摘要與會(huì)計(jì)科目名稱之間的相關(guān)性,考察由電子發(fā)票自動(dòng)生成會(huì)計(jì)分錄的方法。方法:對(duì)收集到的電子發(fā)票中的摘要信息和會(huì)計(jì)科目名稱,運(yùn)用Apriori關(guān)聯(lián)規(guī)則算法找出兩者之間的對(duì)應(yīng)關(guān)系。結(jié)果:通過應(yīng)用Apriori關(guān)聯(lián)規(guī)則算法,在一定程度上找到了發(fā)票摘要與科目名稱之間的相關(guān)性,為下一步自動(dòng)生成會(huì)計(jì)分錄提供了可參考的信息。

      關(guān)鍵詞:電子發(fā)票;會(huì)計(jì)分錄;關(guān)聯(lián)規(guī)則

      中圖分類號(hào):TP311? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A

      文章編號(hào):1009-3044(2021)17-0244-02

      開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):

      會(huì)計(jì)分錄將記賬憑證和包括發(fā)票的原始憑證得以有效的對(duì)應(yīng)和核對(duì),實(shí)際起到了連接會(huì)計(jì)業(yè)務(wù)的紐帶作用。記賬憑證和會(huì)計(jì)賬簿是對(duì)經(jīng)濟(jì)業(yè)務(wù)往來主要內(nèi)容的簡(jiǎn)要記錄。會(huì)計(jì)科目的設(shè)置把各項(xiàng)會(huì)計(jì)要素的增減變化分門別類地歸集起來,為企業(yè)內(nèi)部經(jīng)營管理和向有關(guān)方面提供一系列具體分類核算指標(biāo)。會(huì)計(jì)科目的名稱一般不超過八個(gè)漢字,屬于短文本。按其所提供信息的詳細(xì)程度及其統(tǒng)馭關(guān)系不同,分為總分類科目和明細(xì)分類科目。發(fā)票摘要要求簡(jiǎn)明扼要,既要把情況講明白,但又不能煩瑣,文字?jǐn)⑹龊?jiǎn)短,屬于短文本。

      1 關(guān)聯(lián)規(guī)則算法

      關(guān)聯(lián)規(guī)則是反映一個(gè)事件和其他事件之間的依賴或關(guān)聯(lián)的知識(shí)。文本關(guān)聯(lián)規(guī)則挖掘是從大量文本中發(fā)現(xiàn)項(xiàng)集之間有意義的關(guān)聯(lián)或相關(guān)聯(lián)系。已不少研究在文本較短的情況下,利用關(guān)聯(lián)規(guī)則算法去找尋兩者甚至多者之間的關(guān)系,陳海霞等(2018)利用關(guān)鍵詞關(guān)聯(lián)融合CNN的短文本分類[1],荊琪等(2018)基于維基百科的短文本計(jì)算相關(guān)度[2],但尚未有學(xué)者解析發(fā)票摘要與會(huì)計(jì)科目名稱之間的關(guān)系。本文利用關(guān)聯(lián)規(guī)則中較為常用的關(guān)聯(lián)規(guī)則算法—Apriori算法計(jì)算分析發(fā)票摘要與會(huì)計(jì)科目名稱之間的相關(guān)性,為自動(dòng)生成會(huì)計(jì)分錄提供可參考的信息。

      近幾年大數(shù)據(jù)的理念和應(yīng)用逐步深入,大數(shù)據(jù)應(yīng)用滲透在各行各業(yè)中,并以此為基礎(chǔ)達(dá)到快速處理事務(wù)的目的。其中,利用數(shù)據(jù)挖掘技術(shù)研究財(cái)務(wù)報(bào)銷已為財(cái)務(wù)智能的一項(xiàng)主要內(nèi)容,且數(shù)據(jù)挖掘技術(shù)的一大優(yōu)勢(shì)就是從海量數(shù)據(jù)中發(fā)掘大量隱匿于其中的信息,本文采用的Apriori關(guān)聯(lián)規(guī)則算法在找到發(fā)票摘要與會(huì)計(jì)科目名稱之間的關(guān)聯(lián)規(guī)則之后應(yīng)用于大量處理發(fā)票內(nèi)容的數(shù)據(jù),自動(dòng)制成會(huì)計(jì)分錄。

      Apriori算法是一種較為常用的通過頻繁項(xiàng)集挖掘關(guān)聯(lián)規(guī)則的算法,它能夠發(fā)現(xiàn)事物數(shù)據(jù)庫中頻繁出現(xiàn)的數(shù)據(jù)集,構(gòu)造數(shù)據(jù)與數(shù)據(jù)之間的聯(lián)系,這些聯(lián)系構(gòu)成的規(guī)則可幫助找出某些行為特征,以便迅速地進(jìn)行事務(wù)處理。關(guān)聯(lián)規(guī)則為在某一數(shù)據(jù)或與其相似數(shù)據(jù)出現(xiàn)時(shí),可推導(dǎo)另一對(duì)應(yīng)數(shù)據(jù)信息出現(xiàn)的可能。

      Apriori算法中計(jì)算的指標(biāo)包括:

      頻繁項(xiàng)集:是指那些經(jīng)常會(huì)同時(shí)出現(xiàn)的事物,例如辦公桌對(duì)應(yīng)會(huì)計(jì)科目的管理費(fèi)用。

      支持度:一個(gè)項(xiàng)集的支持度被定義為數(shù)據(jù)集中包含該項(xiàng)集的記錄所占的比例。支持度是針對(duì)項(xiàng)集來說,在實(shí)際應(yīng)用中可設(shè)置一個(gè)最小支持度,只保留最小支持度的項(xiàng)集。

      support = [同時(shí)發(fā)生的事件(X,Y)總事件]

      置信度:反映A和B兩個(gè)事物彼此之間同時(shí)出現(xiàn)的概率。例如經(jīng)典案例{啤酒}→{尿布}這樣的關(guān)聯(lián)規(guī)則。

      confidence(X→Y) = [同時(shí)發(fā)生的事件(X,Y)X發(fā)生的事件],

      confidence(Y→X) = [同時(shí)發(fā)生的事件(X,Y)Y發(fā)生的事件]

      提升度:提升度表示含有X的條件下,同時(shí)含有Y的概率,與只看Y發(fā)生的概率之比。提升度反映了關(guān)聯(lián)規(guī)則中的X與Y的相關(guān)性,提升度大于1且越高表明正相關(guān)性越高,提升度小于1且越低表明負(fù)相關(guān)性越高,提升度等于1表明沒有相關(guān)性,即相互獨(dú)立。

      Lift(X→Y) = P(Y | X) / P(Y)

      本文運(yùn)用以上計(jì)算方法尋找發(fā)票摘要與會(huì)計(jì)科目名稱之間的關(guān)聯(lián)規(guī)則,為進(jìn)一步自動(dòng)生成會(huì)計(jì)分錄做準(zhǔn)備。

      2 發(fā)票摘要的數(shù)據(jù)準(zhǔn)備

      從搜集到的電子發(fā)票中隨機(jī)抽取200份作為教師數(shù)據(jù),按照會(huì)計(jì)學(xué)相關(guān)原理,根據(jù)發(fā)票摘要的信息內(nèi)容制作了相應(yīng)的會(huì)計(jì)分錄,保存在excel里。原始發(fā)票摘要多以日常辦公用品及辦公開銷為主,所對(duì)應(yīng)的分錄多為管理費(fèi)用、銷售費(fèi)用等。原始數(shù)據(jù)的具體準(zhǔn)備過程如下所述。

      電子發(fā)票通常為pdf格式,本文使用python開源工具包PDFMiner中的兩個(gè)內(nèi)置工具pdf2txt.py和dumppdf.py獲取發(fā)票摘要中的文字內(nèi)容。首先使用pdf2txt.py從PDF文件中提取所有文本內(nèi)容,將提取的文字按所在位置劃分區(qū)段,再用dumppdf.py把PDF文件內(nèi)容轉(zhuǎn)變成pseudo-XML格式,標(biāo)識(shí)出各區(qū)段文字的意義。最后利用PDFMiner其他工具識(shí)別電子發(fā)票提取電子發(fā)票摘要里的內(nèi)容,將其導(dǎo)出到文本文件中。

      在前期的準(zhǔn)備過程中,綜合考慮到一些發(fā)票摘要填寫不規(guī)范,以及填寫的內(nèi)容所涉及的范圍較廣,產(chǎn)品術(shù)語和名詞術(shù)語較多等方面問題,對(duì)發(fā)票摘要中的信息用jieba分詞中的全模式進(jìn)行分詞處理,使摘要中的文字信息保持一致,進(jìn)行數(shù)據(jù)挖掘及統(tǒng)計(jì)分析。

      根據(jù)發(fā)票摘要中的這些信息,按照會(huì)計(jì)學(xué)相關(guān)原理人工選取對(duì)應(yīng)的會(huì)計(jì)科目名稱,填寫會(huì)計(jì)分錄,并制成表格,表1列舉了部分發(fā)票摘要對(duì)應(yīng)的會(huì)計(jì)科目名稱。利用python的pandas工具包讀取所填的會(huì)計(jì)分錄的表格,導(dǎo)出其中的摘要文本后,再用jieba分詞將發(fā)票摘要短文本中所有可能成詞的詞語都掃描出來,這樣做便于發(fā)現(xiàn)發(fā)票摘要與會(huì)計(jì)科目名稱的關(guān)聯(lián)性。

      3 基于Apriori算法的關(guān)聯(lián)規(guī)則挖掘

      關(guān)聯(lián)規(guī)則最早出現(xiàn)在購物籃問題的研究中,如經(jīng)典的“啤酒與尿布”案例,常用的關(guān)聯(lián)規(guī)則挖掘算法包括Eclat、FP-growth、Apriori等,本文采用Apriori算法對(duì)已經(jīng)填寫過會(huì)計(jì)科目名稱的樣本數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則挖掘,旨在找出發(fā)票摘要與會(huì)計(jì)科目名稱的關(guān)聯(lián)關(guān)系。

      3.1 算法的步驟

      以apriori算法為基礎(chǔ)尋找關(guān)聯(lián)規(guī)則的方法主要由以下幾個(gè)步驟組成:

      步驟一:使用pdfminer提取發(fā)票摘要內(nèi)容,人工選取對(duì)應(yīng)的會(huì)計(jì)科目名稱,制作會(huì)計(jì)分錄表格;

      步驟二:使用pandas讀取表格,使用jieba分詞將發(fā)票摘要分詞;

      步驟三:根據(jù)發(fā)票數(shù)量及摘要的詞頻,設(shè)置最小支持度和最小置信度;

      步驟四:讀取分詞處理后的發(fā)票摘要分詞表;

      步驟五:根據(jù)最小置信度尋找符合條件的關(guān)聯(lián)規(guī)則;

      步驟六:輸出關(guān)聯(lián)規(guī)則;

      步驟七:將所有發(fā)票摘要的數(shù)據(jù)進(jìn)行處理,檢驗(yàn)規(guī)則;

      步驟八:輸出結(jié)果。

      3.2 運(yùn)行結(jié)果

      設(shè)置最小支持度為1%,最小置信度為15%,運(yùn)用Apriori算法在200份已經(jīng)處理好的實(shí)驗(yàn)發(fā)票數(shù)據(jù)中計(jì)算得到57條符合條件的關(guān)聯(lián)規(guī)則。最小支持度是根據(jù)實(shí)際情況定義衡量支持度的一個(gè)閾值,表示需要完成的項(xiàng)目集中統(tǒng)計(jì)意義上的最低程度。在本文的實(shí)驗(yàn)數(shù)據(jù)中,設(shè)置最小支持度為1%時(shí),可最快速簡(jiǎn)便地得到最想要的關(guān)聯(lián)規(guī)則;將最小支持度設(shè)置為其他數(shù)值時(shí),計(jì)算結(jié)果包含大量無效數(shù)據(jù)。表2是計(jì)算得出的部分關(guān)聯(lián)規(guī)則及其包含的支持度、置信度與提升度。

      利用Apriori關(guān)聯(lián)規(guī)則算法對(duì)收集的電子發(fā)票進(jìn)行分析,得出發(fā)票摘要和會(huì)計(jì)科目名稱之間的關(guān)聯(lián)規(guī)則,即表2中的規(guī)則項(xiàng)集欄,用A→B表示,A是發(fā)票摘要的單詞,B是會(huì)計(jì)科目名稱。

      本文使用的原始發(fā)票數(shù)據(jù)在現(xiàn)實(shí)業(yè)務(wù)中常見,上述結(jié)果經(jīng)財(cái)務(wù)專業(yè)人員檢查,符合財(cái)務(wù)制作記賬憑證填寫會(huì)計(jì)分錄的部分要求,說明關(guān)聯(lián)規(guī)則方法可以提取挖掘發(fā)票摘要和會(huì)計(jì)科目名稱之間的關(guān)聯(lián)規(guī)則,并為進(jìn)一步自動(dòng)生成會(huì)計(jì)分錄提供參考信息。

      3.3 驗(yàn)證

      在機(jī)器學(xué)習(xí)、自然語言處理及信息檢索等領(lǐng)域,評(píng)測(cè)(Evaluation)是一項(xiàng)必要工作,常采用的評(píng)測(cè)指標(biāo)有精確率(Precision)和召回率(Recall)。其中精確率=TP/(TP+FP),表示所有“正確被檢索的item(TP)”占所有“實(shí)際被檢索到的(TP+FP)”的比例;

      召回率=TP/(TP+FN),表示“正確被檢索的item(TP)”占所有“應(yīng)該檢索到的item(TP+FN)”的比例。

      本文利用上述關(guān)聯(lián)規(guī)則針對(duì)另外200份發(fā)票判斷對(duì)應(yīng)的會(huì)計(jì)科目名稱,得到精確率為0.17,召回率為0.185。表明計(jì)算的準(zhǔn)確程度不高,主要是因?yàn)榘l(fā)票摘要的內(nèi)容繁雜以及經(jīng)濟(jì)業(yè)務(wù)往來內(nèi)容的不確定。

      4 結(jié)論與展望

      本文以從眾多發(fā)票中隨機(jī)抽取的兩百張發(fā)票內(nèi)容為數(shù)據(jù)樣本進(jìn)行了摘要與科目名稱之間關(guān)聯(lián)規(guī)則的挖掘,實(shí)際驗(yàn)證了關(guān)聯(lián)規(guī)則挖掘的準(zhǔn)確程度。根據(jù)apriori算法挖掘出的關(guān)聯(lián)規(guī)則,可以為將發(fā)票摘要輸入時(shí)直接生成會(huì)計(jì)分錄提供參考,便于財(cái)會(huì)人員更快速地進(jìn)行財(cái)務(wù)處理,可節(jié)約財(cái)會(huì)人員的時(shí)間和精力。

      在本課題的調(diào)查中作者了解到,目前市場(chǎng)上的財(cái)務(wù)報(bào)銷應(yīng)用還無法將發(fā)票中的摘要自動(dòng)生成會(huì)計(jì)分錄。在后繼研究中,將采用人工填寫制作的大量會(huì)計(jì)分錄數(shù)據(jù)挖掘出關(guān)聯(lián)規(guī)則,利用規(guī)則對(duì)發(fā)票內(nèi)容進(jìn)行有規(guī)律的處理,快速精準(zhǔn)地將報(bào)銷中發(fā)票的摘要自動(dòng)生成會(huì)計(jì)分錄,為財(cái)務(wù)核算提供實(shí)際且有效的幫助。

      根據(jù)財(cái)會(huì)人員填制正確會(huì)計(jì)分錄的實(shí)際情況來看,發(fā)票摘要涉及的業(yè)務(wù)實(shí)為廣泛,難以精準(zhǔn)確定應(yīng)該歸屬于哪一類,為此在后繼研究中,將自動(dòng)推測(cè)摘要中的中心詞,并進(jìn)行擴(kuò)展,探討大幅提高短文本分類精度的方法。另外,將業(yè)務(wù)范圍進(jìn)行劃分,優(yōu)化數(shù)據(jù),在此基礎(chǔ)上再提高精確度。

      參考文獻(xiàn):

      [1] 陳海霞,楊喜旺,衛(wèi)潔潔.關(guān)鍵詞關(guān)聯(lián)融合CNN的短文本分類算法[J].電腦知識(shí)與技術(shù),2018,14(22):261-264.

      [2] 荊琪,段利國,李愛萍,等.基于維基百科的短文本相關(guān)度計(jì)算[J].計(jì)算機(jī)工程,2018,44(2):197-202.

      【通聯(lián)編輯:李雅琪】

      猜你喜歡
      電子發(fā)票會(huì)計(jì)分錄關(guān)聯(lián)規(guī)則
      聯(lián)村投資項(xiàng)目的會(huì)計(jì)核算
      現(xiàn)階段疫情防控業(yè)務(wù)的會(huì)計(jì)處理
      合作社林木類生物資產(chǎn)的會(huì)計(jì)核算
      集體資產(chǎn)對(duì)外投資的會(huì)計(jì)處理
      關(guān)聯(lián)規(guī)則,數(shù)據(jù)分析的一把利器
      數(shù)據(jù)挖掘在高校課堂教學(xué)質(zhì)量評(píng)價(jià)體系中的應(yīng)用
      關(guān)聯(lián)規(guī)則挖掘Apriori算法的一種改進(jìn)
      基于關(guān)聯(lián)規(guī)則的計(jì)算機(jī)入侵檢測(cè)方法
      C2C電子商務(wù)稅收征管問題研究
      我國小微企業(yè)實(shí)行電子發(fā)票的可行性分析
      商(2016年12期)2016-05-09 09:02:00
      田东县| 长寿区| 塔城市| 高雄县| 包头市| 运城市| 游戏| 昌黎县| 巴马| 利辛县| 蚌埠市| 兖州市| 资兴市| 赤水市| 玉田县| 锡林郭勒盟| 肥东县| 两当县| 涿鹿县| 当雄县| 鄯善县| 都兰县| 广东省| 都江堰市| 石渠县| 铜川市| 清涧县| 洛扎县| 浦东新区| 奉新县| 桦甸市| 瑞昌市| 太康县| 漠河县| 龙陵县| 阿尔山市| 海门市| 三台县| 泗阳县| 榆林市| 通州市|