黃妙紅 何勝 王玨 肖嘉麗
(廣東電網(wǎng)有限責(zé)任公司 廣東省廣州市 510000)
隨著移動應(yīng)用、智能技術(shù)、大數(shù)據(jù)不斷發(fā)展,為我們提供了提升工作水平的良好條件,通過移動裝備(筆記本電腦、平板電腦、手機等)與信息技術(shù)融合,實現(xiàn)移動技術(shù)與審計作業(yè)相結(jié)合,對審計項目遠程可視化管理,能全面提升審計項目實施過程中的技術(shù)、溝通、協(xié)作、監(jiān)管方面的效率和質(zhì)量。
本文重點研究標(biāo)準(zhǔn)化的移動作業(yè)裝備在審計現(xiàn)場中的應(yīng)用,解決非標(biāo)準(zhǔn)化移動裝備存在的不能靈活交互數(shù)據(jù)問題,發(fā)揮標(biāo)準(zhǔn)化裝備的聯(lián)動作戰(zhàn)的高效審計能力。完成實時傳遞工作信息和現(xiàn)場高效取證工作,對接審計信息系統(tǒng),解決現(xiàn)場資源共享以及工作任務(wù)派發(fā),提升移動技術(shù)在審計業(yè)務(wù)中的應(yīng)用水平。
隨著審計作業(yè)模式與手段的變革,高效的數(shù)據(jù)采集、分析已成為審計現(xiàn)場工作急需解決的問題。如何在審計項目現(xiàn)場實現(xiàn)快速取證,并且將積累的成果有效使用,本文主要研究為審計項目現(xiàn)場的審計人員提供一套簡單、易用、實用的標(biāo)準(zhǔn)化移動現(xiàn)場作業(yè)工具。工具分為審計人員個人用的個人單兵作業(yè)裝備和配套APP,以及供審計項目組使用的項目組單兵作業(yè)裝備和配套系統(tǒng)。如圖1 所示。
個人單兵作業(yè)裝備包括安裝有加密芯片的平板電腦、平板電腦支架、藍牙鼠標(biāo)以及配套使用的APP,其中APP 實現(xiàn)即時電子采集及取證功能。快速完成對語音進行識別及文字處理,并實現(xiàn)語音檢索功能。通過OCR 技術(shù),實現(xiàn)現(xiàn)場取證的紙質(zhì)文檔結(jié)構(gòu)化、并對文檔合規(guī)性進行審查,進行智能化的文檔分類及整理。并且實現(xiàn)與項目組單兵裝備的信息交互功能,通過平臺實時傳遞工作信息和現(xiàn)場取證資料,下載項目組單兵發(fā)布的工作資料及接收任務(wù)。
項目組單兵作業(yè)裝備包括筆記本電腦、高拍儀以及配套使用的項目組單兵作業(yè)系統(tǒng)。該系統(tǒng)實現(xiàn)與審計監(jiān)控中心協(xié)同作戰(zhàn)功能。通過可視化管理,實時反饋現(xiàn)場作業(yè)情況,并接收審計監(jiān)控中心發(fā)布的信息和數(shù)據(jù)。對個人單兵裝備收集的數(shù)據(jù)進行分析,實現(xiàn)審計疑點的快速挖掘,風(fēng)險點分享。另外通過審計單兵作業(yè)平臺及單兵功能服務(wù)器應(yīng)用功能,實現(xiàn)審計項目現(xiàn)場事務(wù)管理與交互,包括:管理人員權(quán)限信息;組內(nèi)局域網(wǎng)資源交互與組員交流功能;組內(nèi)任務(wù)派遣與跟蹤功能。
圖2
Android 以Java 為編程語言,使接口到功能,都有層出不窮的變化,其中Activity 等同于J2ME 的MIDlet,一個 Activity 類(class)負(fù)責(zé)創(chuàng)建視窗(window),一個活動中的Activity 就是在 foreground(前景)模式,背景運行的程序叫做Service。兩者之間通過由ServiceConnection 和AIDL 連結(jié),達到復(fù)數(shù)程序同時運行的效果。如果運行中的 Activity 全部畫面被其他 Activity 取代時,該 Activity 便被停止(stopped),甚至被系統(tǒng)清除(kill)。
View 等同于J2ME 的Displayable,程序人員可以通過 View 類與“XML layout”檔將UI 放置在視窗上,Android 1.5 的版本可以利用 View 打造出所謂的 Widgets,其實Widget 只是View 的一種,所以可以使用xml 來設(shè)計layout,HTC 的Android Hero 手機即含有大量的widget。至于ViewGroup 是各種layout 的基礎(chǔ)抽象類(abstract class),ViewGroup 之內(nèi)還可以有ViewGroup。View 的構(gòu)造函數(shù)不需要再Activity 中調(diào)用,但是Displayable 的是必須的,在Activity 中,要通過findViеwById()來從XML 中取得View,Android 的View 類的顯示很大程度上是從XML 中讀取的。View 與事件(event)息息相關(guān),兩者之間通過Listener 結(jié)合在一起,每一個View 都可以注冊一個event listener,例如:當(dāng)View 要處理用戶觸碰(touch)的事件時,就要向Android 框架注冊View.OnClickListener。另外還有Image 等同于J2ME 的BitMap。
語音識別技術(shù)就是讓機器通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的高技術(shù)。
通過語音識別技術(shù)將會議中的錄音以及審計現(xiàn)場的訪談記錄自動生成會議報告和訪談記錄,語音識別轉(zhuǎn)換準(zhǔn)確率達到90%以上。如圖2 所示。
OCR(Optical Character Recognition)通過光學(xué)掃描儀和計算機的配合,OCR 軟件將圖像數(shù)據(jù)進行運算分類后,將圖像數(shù)據(jù)轉(zhuǎn)化為計算機內(nèi)碼,極大地減輕數(shù)據(jù)錄入工作的強度、提高數(shù)據(jù)錄入的速度,并為后續(xù)文本語音分析與挖掘提供素材。 應(yīng)用場景:原始票據(jù)、圖片數(shù)據(jù)的內(nèi)容識別,解決關(guān)鍵數(shù)據(jù)提取的問題,實現(xiàn)審計業(yè)務(wù)中原始票據(jù)的自動稽核、真?zhèn)巫R別等。如圖3 所示。
數(shù)據(jù)挖掘技術(shù)是目前人工智能和數(shù)據(jù)庫領(lǐng)域研究的熱點問題,所謂數(shù)據(jù)挖掘是指從數(shù)據(jù)庫的大量數(shù)據(jù)中揭示出隱含的、先前未知的并有潛在價值的信息的非平凡過程。數(shù)據(jù)挖掘是一種決策支持過程,它主要基于人工智能、機器學(xué)習(xí)、模式識別、統(tǒng)計學(xué)、數(shù)據(jù)庫、可視化技術(shù)等,高度自動化地分析企業(yè)的數(shù)據(jù),做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調(diào)整策略,減少風(fēng)險,做出正確的決策。
采用數(shù)據(jù)挖掘分析技術(shù)對營銷數(shù)據(jù)進行分析,發(fā)現(xiàn)數(shù)據(jù)規(guī)律、發(fā)現(xiàn)審計疑點問題。
數(shù)據(jù)挖掘技術(shù)流程:
(1)信息收集:根據(jù)確定的數(shù)據(jù)分析對象抽象出在數(shù)據(jù)分析中所需要的特征信息,然后選擇合適的信息收集方法,將收集到的信息存入數(shù)據(jù)庫。對于海量數(shù)據(jù),選擇一個合適的數(shù)據(jù)存儲和管理的數(shù)據(jù)倉庫是至關(guān)重要的。
(2)數(shù)據(jù)集成:把不同來源、格式、特點性質(zhì)的數(shù)據(jù)在邏輯上或物理上有機地集中,從而為企業(yè)提供全面的數(shù)據(jù)共享。
圖3
(3)數(shù)據(jù)規(guī)約:執(zhí)行多數(shù)的數(shù)據(jù)挖掘算法即使在少量數(shù)據(jù)上也需要很長的時間,而做商業(yè)運營數(shù)據(jù)挖掘時往往數(shù)據(jù)量非常大。數(shù)據(jù)規(guī)約技術(shù)可以用來得到數(shù)據(jù)集的規(guī)約表示,它小得多,但仍然接近于保持原數(shù)據(jù)的完整性,并且規(guī)約后執(zhí)行數(shù)據(jù)挖掘結(jié)果與規(guī)約前執(zhí)行結(jié)果相同或幾乎相同。
(4)數(shù)據(jù)清理:在數(shù)據(jù)庫中的數(shù)據(jù)有一些是不完整的(有些感興趣的屬性缺少屬性值),含噪聲的(包含錯誤的屬性值),并且是不一致的(同樣的信息不同的表示方式),因此需要進行數(shù)據(jù)清理,將完整、正確、一致的數(shù)據(jù)信息存入數(shù)據(jù)倉庫中。不然,挖掘的結(jié)果會差強人意。
(5)數(shù)據(jù)變換:通過平滑聚集,數(shù)據(jù)概化,規(guī)范化等方式將數(shù)據(jù)轉(zhuǎn)換成適用于數(shù)據(jù)挖掘的形式。對于有些實數(shù)型數(shù)據(jù),通過概念分層和數(shù)據(jù)的離散化來轉(zhuǎn)換數(shù)據(jù)也是重要的一步。
(6)數(shù)據(jù)挖掘過程:根據(jù)數(shù)據(jù)倉庫中的數(shù)據(jù)信息,選擇合適的分析工具,應(yīng)用統(tǒng)計方法、事例推理、決策樹、規(guī)則推理、模糊集、甚至神經(jīng)網(wǎng)絡(luò)、遺傳算法的方法處理信息,得出有用的分析信息。
(7)模式評估:從商業(yè)角度,由行業(yè)專家來驗證數(shù)據(jù)挖掘結(jié)果的正確性。
(8)知識表示:將數(shù)據(jù)挖掘所得到的分析信息以可視化的方式呈現(xiàn)給用戶,或作為新的知識存放在知識庫中,供其他應(yīng)用程序使用。
數(shù)據(jù)挖掘過程是一個反復(fù)循環(huán)的過程,每一個步驟如果沒有達到預(yù)期目標(biāo),都需要回到前面的步驟,重新調(diào)整并執(zhí)行。不是每件數(shù)據(jù)挖掘的工作都需要這里列出的每一步,例如在某個工作中不存在多個數(shù)據(jù)源的時候,步驟(2)數(shù)據(jù)集成的步驟便可以省略。
步驟(3)數(shù)據(jù)規(guī)約(4)數(shù)據(jù)清理(5)數(shù)據(jù)變換又合稱數(shù)據(jù)預(yù)處理。在數(shù)據(jù)挖掘中,至少60%的費用可能要花在步驟(1)信息收集階段,而至少60%以上的精力和時間是花在數(shù)據(jù)預(yù)處理
數(shù)據(jù)挖掘常用算法:
(1)屬性篩選:對于經(jīng)驗豐富的業(yè)務(wù)專家來說,他們經(jīng)常會發(fā)現(xiàn)某些因素對關(guān)注的目標(biāo)有一定的影響,但是各因素對目標(biāo)的影響程度(或稱重要性)又各不相同,可是又沒法客觀地量化這種“重要性”。在建立關(guān)于目標(biāo)的預(yù)測模型時,我們需要篩選出一部分對目標(biāo)影響最大的因素進行分析(屬性越多,引入的干擾因素就越多,會降低模型對新數(shù)據(jù)預(yù)測的準(zhǔn)確率;同時,建模需要花費的時間也較多)。屬性篩選方法,幫助分析人員或決策人員將這種“重要性”關(guān)系快速量化,并為預(yù)測模型的建立提供屬性篩選標(biāo)準(zhǔn)。
(2)分類算法:從歷史數(shù)據(jù)中,自動推導(dǎo)出基于給定數(shù)據(jù)的對事物發(fā)展規(guī)律的推廣性描述,構(gòu)造一個分類函數(shù)或分類模型(分類器),該模型能把滿足一定特征的數(shù)據(jù)歸為特定的類別。在構(gòu)造模型時需要知道訓(xùn)練集中每個樣本所屬的類,因此是有指導(dǎo)的學(xué)習(xí)方法。分類算法需要設(shè)定字符型目標(biāo)字段,即我們所關(guān)注的字段,通過建立模型,根據(jù)分析字段的取值判定樣本的目標(biāo)字段取值。
(3)回歸算法:和分類預(yù)測類似,回歸分析也是從歷史數(shù)據(jù)中自動推導(dǎo)出對事物發(fā)展規(guī)律基于給定數(shù)據(jù)的推廣性描述;不同的是回歸分析的目標(biāo)是數(shù)值型指標(biāo),構(gòu)造的模型是一個回歸函數(shù);用于判定給定特征的數(shù)據(jù)的目標(biāo)應(yīng)該達到的數(shù)值,而非狀態(tài)。
(4)聚類算法:“物以類聚,人以群分”,聚類是人類一項最基本的認(rèn)識活動。聚類就是將數(shù)據(jù)對象分組成為多個類或簇,劃分的原則是在同一個簇中的對象之間具有較高的相似度,而不同簇中的對象差別較大。與分類不同的是,聚類操作中要劃分的類是事先未知的,類的形成完全是數(shù)據(jù)驅(qū)動的,屬于一種無指導(dǎo)的學(xué)習(xí)方法。
(5)關(guān)聯(lián)分析:關(guān)聯(lián)規(guī)則,最初是為了解決購物籃分析問題而提出的,其目的是發(fā)現(xiàn)超市交易數(shù)據(jù)中不同產(chǎn)品同時被購買的規(guī)律。這些規(guī)律刻畫了客戶的購買行為模式,可以用來指導(dǎo)商家科學(xué)地安排進貨、庫存以及貨架擺放設(shè)計等。 業(yè)務(wù)專家可以發(fā)現(xiàn)諸如“買牛奶的客戶一般會同時買黃油”等顯而易見的規(guī)律,但是利用數(shù)據(jù)挖掘您可能會發(fā)現(xiàn)“啤酒和尿布經(jīng)常被同時購買”這些鮮為人知,但非常有用的規(guī)律。
(6)時間序列:時間序列,就是將某一指標(biāo)值在不同時間上的不同數(shù)值,按照時間先后順序排列而成的數(shù)列。這種數(shù)列由于受到各種偶然因素的影響,往往表現(xiàn)出某種隨機性,不可能完全準(zhǔn)確地利用歷史值來預(yù)測將來,但是前后時刻的數(shù)值具有一定的相關(guān)性。時間序列挖掘,通過對歷史數(shù)據(jù)進行分析,揭示其內(nèi)在規(guī)律(如波動的周期性、振幅,趨勢的種類等),以從動態(tài)的角度刻畫某一現(xiàn)象同其他現(xiàn)象之間的內(nèi)在關(guān)系,從而掌握和控制未來行為,進而完成預(yù)測未來行為等決策性工作。根據(jù)系統(tǒng)觀測到的序列數(shù)據(jù),通過曲線擬合和參數(shù)估計的方法,建立數(shù)學(xué)模型,從而進行預(yù)測,是一種被廣泛使用的預(yù)測方法。
在本課題中,我們開發(fā)了基于審計人員使用的個人單兵作業(yè)裝備,用于審計人員在審計項目現(xiàn)場進行快速的電子取證。具體操作流程如下:
(1)審計人員利用個人單兵作業(yè)裝備在審計項目現(xiàn)場對發(fā)現(xiàn)的疑點進行拍照。
(2)利用OCR 技術(shù)對拍攝的圖片進行識別(如:合同、發(fā)票等)
(3)獲取識別的信息,并生成取證表信息。
(4)編輯好取證表后,將取證表信息同步至審計管理系統(tǒng)。
標(biāo)準(zhǔn)化的移動作業(yè)裝備幫助審計人員實現(xiàn)現(xiàn)場審計高效靈活實時工作的同時,也促進了企業(yè)審計信息化的發(fā)展,為企業(yè)帶來多方面的效益。審計工作是保證企業(yè)正常運行的重要手段,審計部門通過標(biāo)準(zhǔn)化的移動作業(yè)裝備建設(shè),大大提高了審計人員的工作效率。