王 靜
(上海實(shí)業(yè)交通電器有限公司,上海 200030)
大數(shù)據(jù)是一個(gè)近年來十分熱門的詞匯,圍繞它也存在很多誤區(qū)。如果運(yùn)用得當(dāng),大數(shù)據(jù)將為企業(yè)發(fā)展、改善運(yùn)營提供機(jī)會(huì),特別是在財(cái)務(wù)領(lǐng)域。因此,需要財(cái)務(wù)從業(yè)者能夠清晰地把握大數(shù)據(jù)技術(shù),從不同業(yè)務(wù)角度理解和運(yùn)用大數(shù)據(jù)。
當(dāng)前,大多數(shù)現(xiàn)代企業(yè)有許多的數(shù)據(jù)來源,例如,歷年的賬務(wù)記錄、客戶及供應(yīng)商資料庫數(shù)據(jù)、薪資數(shù)據(jù)庫,此外還包括客服中心的數(shù)據(jù)、網(wǎng)站訪客數(shù)據(jù)。雖然現(xiàn)代企業(yè)可以從各種來源獲得大量信息,但關(guān)鍵的挑戰(zhàn)是如何將這些數(shù)據(jù)結(jié)合起來以提供有意義的決策支撐。對此,企業(yè)可以使用大量可用數(shù)據(jù)來把握趨勢,從而為業(yè)務(wù)發(fā)展提供有價(jià)值的幫助。
大數(shù)據(jù)不僅涉及量化的大的數(shù)據(jù)集。它也包含更多特征,主要有五個(gè)特征:1.數(shù)據(jù)量Volume,數(shù)據(jù)有多少;2.數(shù)據(jù)實(shí)時(shí)性Velocity,數(shù)據(jù)的處理速度;3.數(shù)據(jù)多樣性Variety, 數(shù)據(jù)的種類是什么;⒋數(shù)據(jù)準(zhǔn)確性Veracity,數(shù)據(jù)的質(zhì)量;⒌數(shù)據(jù)價(jià)值Value。其中,最重要的就是數(shù)據(jù)的價(jià)值。這些特征的多種組合意味著有多種描述大數(shù)據(jù)的方法。它并不僅僅是大量的數(shù)據(jù),實(shí)際上可以指代具有大量來源和類型的少量非常復(fù)雜的數(shù)據(jù)。
在考慮和分析大數(shù)據(jù)及其各種來源時(shí),需要確保我們的目標(biāo)始終是將價(jià)值傳遞回企業(yè)。如果可以快速地處理數(shù)據(jù)集,但是數(shù)據(jù)的準(zhǔn)確性或質(zhì)量不可靠,那么數(shù)據(jù)集可以提供的價(jià)值就很低;相反,如果大量數(shù)據(jù)集非常準(zhǔn)確,則所獲得的見解將更有價(jià)值。使用和分析大數(shù)據(jù)使企業(yè)能夠解決現(xiàn)有的業(yè)務(wù)問題,預(yù)測未來的趨勢和問題,并對當(dāng)前和未來的機(jī)會(huì)做出反應(yīng)。例如,簡化制造過程中的生產(chǎn)流程,根據(jù)客戶的過往購買為他們提供相關(guān)報(bào)價(jià)。
結(jié)構(gòu)化數(shù)據(jù)是高度組織化的數(shù)據(jù),具有指定的長度和格式,可以輕松在記錄或文件中查找。這類數(shù)據(jù)往往存儲(chǔ)在數(shù)據(jù)庫或電子表格中,在平時(shí)財(cái)務(wù)處理的數(shù)據(jù)大多為結(jié)構(gòu)化數(shù)據(jù)。
非結(jié)構(gòu)化數(shù)據(jù)沒有規(guī)定的格式,并且更難以組織、存儲(chǔ)和分析。非結(jié)構(gòu)化的數(shù)據(jù)將不同的數(shù)據(jù)集捆綁在一起,使數(shù)據(jù)分析工作中對關(guān)鍵元素的分析和識(shí)別變得復(fù)雜??梢詫⒐ぷ髦杏龅轿臋n或圖像視為非結(jié)構(gòu)化數(shù)據(jù),因?yàn)榇祟愋畔]有固定的格式、長度或大小。對于這類數(shù)據(jù)可以使用“標(biāo)簽”用于添加結(jié)構(gòu)形式以提供上下文和標(biāo)簽,例如,作者或所有者,創(chuàng)建日期或所包含主題的信息,標(biāo)簽?zāi)軌蛟谟藐P(guān)鍵字搜索數(shù)據(jù)集時(shí)更容易找到文檔或圖像,添加標(biāo)簽后的數(shù)據(jù)集可以稱為半結(jié)構(gòu)化數(shù)據(jù)。
作為企業(yè)的財(cái)務(wù)人員,可以從大量來源收集和分析數(shù)據(jù),包括銷售數(shù)據(jù)、采購數(shù)據(jù)、成本分析數(shù)據(jù)、運(yùn)營數(shù)據(jù),以幫助企業(yè)做出更好的業(yè)務(wù)決策。此外,可以用更多的方式分析企業(yè)的數(shù)據(jù),為企業(yè)創(chuàng)造價(jià)值。但是,在最終運(yùn)用大數(shù)據(jù)創(chuàng)造價(jià)值之前,硬件設(shè)施、數(shù)據(jù)庫及數(shù)據(jù)分析并形成相關(guān)報(bào)告是必要基礎(chǔ)。制定完備、詳細(xì)的數(shù)據(jù)分析策略也是必不可少的。分析策略應(yīng)與公司的主要目標(biāo)緊密結(jié)合,以確保所有見解都與組織的總體目標(biāo)相關(guān),從而提供價(jià)值。
對于序數(shù)類的數(shù)據(jù),典型的是滿意度的數(shù)據(jù)。序數(shù)數(shù)據(jù)最好用頻率和比例表示,有時(shí)甚至用均值表示。序數(shù)數(shù)據(jù)最好用條形圖或柱形圖進(jìn)行可視化展示。
名義類數(shù)據(jù),例如,性別、年齡等??梢允褂妙l率或百分比,因?yàn)橐话闱闆r下無法計(jì)算名義數(shù)據(jù)的平均值,名義數(shù)據(jù)通常使用餅圖、柱狀圖、條形圖做可視化展示。
在做出假設(shè)前首先對數(shù)據(jù)進(jìn)行認(rèn)知及理解,這可以為創(chuàng)建商業(yè)智能模型奠定堅(jiān)實(shí)的基礎(chǔ)。因?yàn)楹芏鄶?shù)字和表格缺乏可視化,更不用說從繁多的數(shù)字中提煉重要信息。探索性分析可以幫我們克服這些困難,它主要通過隱藏?cái)?shù)據(jù)的某些方面而使其他方面更加清晰而起作用的。如果運(yùn)用恰當(dāng),它可以發(fā)現(xiàn)錯(cuò)誤或過濾不重要信息,繪制數(shù)據(jù)的基礎(chǔ)結(jié)構(gòu),確定最重要的變量,凸顯異常和異常值。
主要是找出相關(guān)的置信區(qū)間或誤差范圍。探索性數(shù)據(jù)分析通常以兩種方式進(jìn)行交叉分類。首先,每種方法既可以是非圖形的,也可以是圖形的;其次,既可以是單變量,也可以是多變量的(通常只是雙變量)。非圖形方法通常涉及匯總統(tǒng)計(jì)信息的計(jì)算,而圖形方法顯然以圖表或圖形方式匯總數(shù)據(jù)。單變量方法一次查看一個(gè)變量(數(shù)據(jù)列),而多變量方法一次查看兩個(gè)或多個(gè)變量,以探索變量之間的關(guān)系。
描述性分析使用統(tǒng)計(jì)數(shù)據(jù)來描述和匯總數(shù)據(jù)。它使我們能夠以更有意義的方式呈現(xiàn)數(shù)據(jù)。
通常有兩種用于描述數(shù)據(jù)的統(tǒng)計(jì)信息:
(1)集中趨勢分析:mean(平均)、median(中位數(shù))、mode(模式)。集中趨勢分析可以告訴我們數(shù)據(jù)集中的位置,識(shí)別大多數(shù)數(shù)據(jù)所在的位置,并使我們能夠繪制分布圖,以從數(shù)據(jù)中檢測離群值。在數(shù)據(jù)展示方面,運(yùn)用直方圖可以告訴我們很多有關(guān)數(shù)據(jù)的信息,如果直方圖是對稱的,我們可以假設(shè)均值是中心的最近似值。
如果直方圖不對稱,數(shù)據(jù)在直方圖上左偏則平均值通常小于中位數(shù)。如果數(shù)據(jù)在直方圖上右偏則平均值通常大于中位數(shù)。
以圖1數(shù)據(jù)為例,13家工廠銷售利潤率各不相同,看到圖形應(yīng)該就能理解,若圖形重心靠左則利潤處于低水平的工廠數(shù)量較多。同時(shí),一般情況下中心偏左則平均值小于中位數(shù);若重心偏右,則平均值應(yīng)大于中位數(shù)。圖中重心雖偏左但平均值依然高于中位數(shù)則可能存在高于平均值的數(shù)值離散性較高的可能。因此,對數(shù)據(jù)分布性進(jìn)行分析也就必不可少。
圖1 13家工廠銷售利潤率圖
(2)數(shù)據(jù)分布的分析:方差(與均值的平方差的平均值)、標(biāo)準(zhǔn)差(與均值之差的單位)。數(shù)據(jù)分布的分析很重要,因?yàn)槿绻麛?shù)據(jù)集中性小,分布區(qū)間大,則說明平均值缺少代表性。財(cái)務(wù)人員應(yīng)該避免使用缺少代表性的數(shù)據(jù)進(jìn)行財(cái)務(wù)分析。
根據(jù)過往的經(jīng)濟(jì)活動(dòng)預(yù)測未來的經(jīng)濟(jì)效益是每個(gè)公司迫切需要的。預(yù)測性分析結(jié)合了數(shù)據(jù)挖掘、建模、統(tǒng)計(jì)對未來做出預(yù)測,并能對數(shù)據(jù)做出一定的可視化操作。盡管我們通常將“預(yù)測性”一詞理解為“未來”,但預(yù)測性分析也可以用于分析過去和現(xiàn)在的行為。財(cái)務(wù)報(bào)表的使用者已經(jīng)開始希望財(cái)務(wù)人員能夠提供更多的有價(jià)值的信息。
因果分析可以很好地對已經(jīng)發(fā)生的經(jīng)濟(jì)活動(dòng)進(jìn)行回顧復(fù)盤以找到發(fā)生的根本原因,發(fā)現(xiàn)不足之處,以避免一些錯(cuò)誤的重復(fù)發(fā)生,盡早采取措施防范。
機(jī)制分析是試圖去了解其中一個(gè)變量的精確變化對其他變量的影響。對機(jī)制分析的理解需要建立在理解相關(guān)性和回歸分析的基礎(chǔ)上。查找變量之間的關(guān)系為相關(guān)性,而回歸分析在確定相關(guān)性后通過使用相關(guān)系數(shù)來計(jì)算相關(guān)的強(qiáng)度,確定一個(gè)變量將因另一變量的增加或減少而改變多少。
為了避免混淆,我把三項(xiàng)分析進(jìn)行比較。從主動(dòng)、被動(dòng)、“如何”三個(gè)角度分別去理解回歸分析、因果分析和機(jī)制分析。
回歸分析是一個(gè)統(tǒng)計(jì)分析技巧,它的目的是用于預(yù)測一個(gè)目標(biāo)變量,既通過一個(gè)變量來預(yù)測另一個(gè)變量。當(dāng)“被動(dòng)”的發(fā)生X時(shí),我們期望的Y是什么?;貧w關(guān)注相關(guān)關(guān)系。我們始終可以在Y和X之間獲得回歸公式,即使它們絕不存在任何因果關(guān)系。相關(guān)并不代表因果。
因果分析則可以用來試圖干預(yù)最后的效果。當(dāng)我們主動(dòng)的去發(fā)生X時(shí),Y是什么。
機(jī)制分析用來回答“如何”(How)的問題。它假定可以通過驗(yàn)證各個(gè)部分的工作方式及他們的結(jié)合方式來理解一個(gè)復(fù)雜的系統(tǒng)。
因此,不同類型的數(shù)據(jù)可以通過多種策略進(jìn)行分析。知道怎么對數(shù)據(jù)正確的提問是獲得推動(dòng)結(jié)果的信息的關(guān)鍵。
我們的企業(yè)已經(jīng)不再局限于內(nèi)部結(jié)構(gòu)化數(shù)據(jù),而是現(xiàn)在也能夠從外部匯總數(shù)據(jù)。隨著技術(shù)的進(jìn)步,企業(yè)將更快、更準(zhǔn)確地制定業(yè)務(wù)決策。過去幾十年累計(jì)的數(shù)據(jù)是呈指數(shù)級(jí)增長的,企業(yè)需要專業(yè)的技能來處理大量不同形式的數(shù)據(jù)。
數(shù)據(jù)可以以不同的方式來分析,最簡單的是把數(shù)據(jù)進(jìn)行可視化或圖形化來識(shí)別模型。這是一種集成方法,將數(shù)據(jù)分析與數(shù)據(jù)可視化和人機(jī)交互相結(jié)合。數(shù)據(jù)可視化可以把在文本環(huán)境下無法識(shí)別的趨勢、環(huán)境通過圖形或表格方式呈現(xiàn)出來,并揭示各數(shù)據(jù)之間的內(nèi)在聯(lián)系。
通過考慮各種可能的結(jié)果來分析對應(yīng)的未來事件或方案,可以用EXCEL的方案管理器。例如,在圖2和圖3中,可以在設(shè)定數(shù)量和相應(yīng)的利潤情況下通過方案管理器預(yù)測各種可能的結(jié)果,使得在各種場景下的結(jié)果一目了然。
圖2 EXCEL的方案管理器
圖3 EXCEL的方案管理器
線性規(guī)劃也稱為線性優(yōu)化,是一種使用線性數(shù)學(xué)模型基于一組約束條件確定最佳結(jié)果的方法。它能夠解決涉及最小化和最大化條件的問題,例如,“如何在最小化成本的同時(shí)最大化利潤”。如果我們有很多的限制,例如,時(shí)間、原材料等,并且想知道使它們協(xié)同工作的最佳方法,或者將資源定向到哪里以獲得最大利潤,線性規(guī)劃將非常有用。EXCEL就配備了一個(gè)工具,這個(gè)工具任何人都可以進(jìn)行這種分析,而不需要進(jìn)行編程。該工具稱為“規(guī)劃求解”(Solver)。
如圖4,若產(chǎn)品基本的售價(jià)、成本信息如下。若需要把利潤擴(kuò)大至88000元,且銷售單價(jià)不高于11元(基于充分的市場競爭定價(jià)),成本可下探至3.2元,最后還需要確保銷售數(shù)量為整數(shù)。則在Solver中設(shè)置后得出結(jié)果。
圖4 產(chǎn)品銷售利潤表一
圖5 規(guī)劃求解參數(shù)圖例
圖6 產(chǎn)品銷售利潤表二
綜上所述,我們可以通過運(yùn)用多種方式來分析不同類型的數(shù)據(jù)。而了解這些數(shù)據(jù),并對這些數(shù)據(jù)產(chǎn)生更多的疑問,或者說對這些數(shù)據(jù)提出正確問題是指導(dǎo)我們?nèi)绾胃玫剡x擇不同的工具來進(jìn)行分析并獲取結(jié)果的關(guān)鍵因素。隨著商業(yè)環(huán)境的變化及發(fā)展,我們的企業(yè)已經(jīng)不再局限于內(nèi)部結(jié)構(gòu)化數(shù)據(jù),現(xiàn)在也混合來自外部來源的數(shù)據(jù)。
財(cái)會(huì)人員現(xiàn)在都可以使用以上這些工具快速輕松地分析,并從這些數(shù)據(jù)中獲得對業(yè)務(wù)更深刻的見解,而這些有意義的見解最終目的是幫助決策。采用對決策更有利的方式來呈現(xiàn)數(shù)據(jù)是我們財(cái)務(wù)人員需要掌握的一項(xiàng)重要技能。
數(shù)據(jù)的呈現(xiàn)筆者覺得大致可分為三類:比較性數(shù)據(jù)、組成型數(shù)據(jù)、關(guān)系型數(shù)據(jù)。
靜態(tài)時(shí)點(diǎn)的比較是指單個(gè)類別或少量類別在單個(gè)時(shí)點(diǎn)的比較。例如,2020年與2021年各大類銷售額的比較。這類比較用柱狀圖呈現(xiàn)比較合適。
圖7 2020與2021年各大類產(chǎn)品銷售額
對于單個(gè)類別或少量類別,但每個(gè)類別卻有很多項(xiàng)目,條形圖是最佳選擇。若上文的柱狀圖中每個(gè)工廠都包含這些類別則垂直柱狀圖就不是很適用。這些數(shù)據(jù)可視化更有效方法是在水平條形圖中,Y 軸上列出工廠,X 軸上列出銷售額。
圖8 2020年各工廠各產(chǎn)品銷售情況
而動(dòng)態(tài)比較可以隨著時(shí)間的推移在類別之間進(jìn)行比較。對于涵蓋大量周期或少量周期且類別眾多的數(shù)據(jù),折線圖是更好的選擇。
圓餅圖是展現(xiàn)各部分相對組成的一個(gè)好方法。而瀑布圖則可以解釋每一個(gè)項(xiàng)目對總數(shù)增加或減少的金額。
而動(dòng)態(tài)的組合可以使用堆積條形圖顯示數(shù)據(jù)的組合隨時(shí)間的變化。當(dāng)每個(gè)類別的絕對值及總額數(shù)據(jù)都是重要的情況下可以用堆積條形圖。若組成部分及總額的絕對值并不重要而組成占比更重要時(shí),可以使用百分比堆積圖形。圖10和圖11是兩種圖形的示例。
圖9 2018-2020年各大類銷售額
圖10 2018-2021年各產(chǎn)品占比銷售情況
圖11 2018-2021年各產(chǎn)品占比銷售情況
散點(diǎn)圖是非常適合呈現(xiàn)兩個(gè)變量之間的關(guān)系并確定它們之間的潛在相關(guān)性。兩個(gè)變量的每個(gè)觀測值都繪制為一個(gè)點(diǎn),x 軸上的位置代表一個(gè)變量的值,y 軸上的位置代表另一個(gè)變量的值。從以下的示例中可以明顯感受到游戲銷售數(shù)量與月份之間的關(guān)系。
圖12 游戲銷量數(shù)量圖
以上是筆者在工作中積累并運(yùn)用較便利的數(shù)據(jù)呈現(xiàn)選擇的方法與工具。
數(shù)據(jù)技術(shù)在不斷地塑造商業(yè)模式,每個(gè)人的角色都受到一定的影響,而傳統(tǒng)的財(cái)務(wù)人員更是受到更多的沖擊。雖然當(dāng)前正處于數(shù)字技術(shù)革命中,但作為會(huì)計(jì)師或財(cái)務(wù)專業(yè)人員,其實(shí)已經(jīng)具備廣泛的數(shù)據(jù)分析技能的基礎(chǔ),積極主動(dòng)地嘗試新技術(shù),使用新技術(shù)解決問題、提高效率、提高數(shù)據(jù)處理及呈現(xiàn)的技能的人必定會(huì)進(jìn)一步加深對數(shù)據(jù)的認(rèn)知,在此基礎(chǔ)上對業(yè)務(wù)問題進(jìn)行更深刻的理解,形成有利于決策的參考數(shù)據(jù),從而促進(jìn)企業(yè)的健康、長遠(yuǎn)發(fā)展。