潘定 楊銀嬌
【摘 要】 XBRL分類標準中的財務元素適用性是評價分類標準的主要依據。文章從信息論的視角出發(fā),將漢語熵和冗余度作為衡量指標,從信息含量和可理解性兩個維度評價我國XBRL分類標準元素的適用性。研究表明:2015年分類標準優(yōu)于2010年分類標準,主要表現(xiàn)為信息含量的增多和語言內部規(guī)律性的增強,提高了分類標準的可理解性;與年報實務對比,目前的分類標準元素所承載的信息僅包括實物年報的核心內容,還不能完全覆蓋傳統(tǒng)的PDF年報內容,可理解性需要利用軟件展示。
【關鍵詞】 XBRL分類標準; 漢語熵; 冗余度; 適用性
【中圖分類號】 F275 【文獻標識碼】 A 【文章編號】 1004-5937(2018)07-0057-05
一、引言
在信息技術飛速發(fā)展和資本市場全球化的背景下,信息使用者更加注重差異化、實時可靠、跨時空和跨行業(yè)的可比較的會計信息,傳統(tǒng)的會計信息披露模式已無法滿足以上要求。于是,作為全球財務報告信息技術革命的開始——XBRL(可擴展業(yè)務報告語言)[ 1 ]應運而生。XBRL分類標準是XBRL技術的核心部分,也是生成和解釋實例文檔的基礎。分類標準中定義了XBRL具體數據所對應的財務元素,依照XBRL規(guī)范定義的詞匯表(元素清單)和勾稽關系。元素清單中列示的財務元素反映信息披露的基本信息單元,是XBRL分類標準的核心。
元素適用性是指作為承載財務信息基本單位的財務元素,能否準確、合規(guī)、完整、高效地滿足財務信息披露的需求。元素適用性的高低代表分類標準的優(yōu)劣,直接影響各國的XBRL技術發(fā)展和應用,因此,有必要對分類標準元素適用性進行科學的量化評價。
本文的貢獻在于從信息論角度,將漢語熵和冗余度作為衡量指標,從信息含量和可理解性兩個維度評價我國2010年、2015年XBRL分類標準元素的適用性,為分類標準制定和完善提供科學依據,也為XBRL分類標準評價研究提供一個新的研究視角。
二、文獻回顧
近年來,XBRL分類標準的評價重點在于評價元素適用性,而元素適用性主要表現(xiàn)為元素的準確性、合規(guī)性、完整性和效率性。
在準確性上,Debreceny等認為,可以從元素的定義和元素之間的關系鏈接兩方面來考察。分類標準定義的元素必須具有嚴密的概念定義,在使用過程中不會發(fā)生歧義,同時匹配正確的屬性;表示元素之間關系的鏈接庫,設置要準確,包括位置和計算關系等[ 2 ]。孫凡等依據現(xiàn)代語言學的基本原理,從語法形式化和語義形式化兩個維度對 XBRL的現(xiàn)行技術體系結構進行了分析,指出其在語法形式化方面存在元素和規(guī)則定義不足等問題,并基于未來的發(fā)展需求提出了相應改進策略,拓展了XBRL的研究視角,利于推動XBRL標準的應用[ 3 ]。張?zhí)煳鳂嫿薠BRL下的財務信息元素理論,提出粒度概念,建立元素粒度度量模型,進而構建基于元素粒度的分類標準元素遴選模型,并闡述了如何使用該模型以確定分類標準元素邊界,從而解決分類標準制定過程中的問題,提高分類標準質量[ 4-5 ]。
在合規(guī)性上,由于越來越多的國家和地區(qū)發(fā)展及應用XBRL技術,陸續(xù)制定相關的實施政策,有效保證了分類標準元素的制定嚴格遵守XBRL技術規(guī)范、XBRL財務報告分類體系結構框架以及相應地區(qū)的會計準則,所以,這方面幾乎無研究。
在完整性上,Bovee等通過元素匹配,發(fā)現(xiàn)分類標準與公司財務報表中的元素整體匹配度較好,但也存在差異,還需修訂分類標準[ 6 ]。Cohen則在Bovee的基礎上指出分類標準元素完備性欠佳和企業(yè)實際披露需求的矛盾是企業(yè)擴展元素的原因,并分析了元素擴展的優(yōu)缺點[ 7 ]。國內學者高錦萍等也通過元素對比117家上市公司的2005年年報,考察了上交所當年發(fā)布的《中國上市公司信息披露分類標準》制定的完整性,結果顯示兩者存在較大差異。研究表明,分類標準的完整性在一定程度上體現(xiàn)了XBRL財務報告信息的充分性[ 8 ]。Zhu和Wu將完整性量化為標準中定義的信息元素覆蓋原始文檔中信息元素的程度,并以此為基礎構造一個評價數據交互標準質量的框架[ 9 ]。之后,Zhu和Wu又系統(tǒng)開發(fā)了一個以復雜性、完整性、相關性和數據互操作性四個質量指標來評估大規(guī)模數據標準質量的框架,并利用兩個基于GAAP的分類標準版本和相應的上市公司財務報表進行實證研究,證實了框架的有效性,對制定和改進數據標準、選擇和采用數據標準的決策者提供有價值的參考[ 10 ]。
在效率性上,Boritz和No選取美國證監(jiān)會XBRL資源報送試點項目(VFP)的實例文檔,檢查了分類標準元素的適用性,發(fā)現(xiàn)企業(yè)擴展元素時,與分類標準中的元素重復了,實例文檔中有10%的擴展元素存在有效性、可比性差和其他錯誤,且約2/3的實例文檔存在這些問題,嚴重拉低了信息質量[ 11 ]。趙聰通過將通用分類標準與2010年120家上市公司的財務報告對比,發(fā)現(xiàn)通用分類標準存在元素定義不足,同時又存在元素冗余問題,有些標準元素在實務中不曾使用過,并提出用刪除解決冗余問題[ 12 ]。此外,黃長胤對比通用分類標準附注項目和PDF財務報告附注項目中的元素,證明了通用分類標準在實際使用中效率低下[ 13 ]。
綜上發(fā)現(xiàn):以往有關XBRL分類標準元素適用性研究中,多采用手工元素匹配的方式驗證元素的效率性和在數量上的完整性欠佳,研究視角單一;納入研究的元素類型有限,集中于貨幣型元素;利用其他領域的知識對XBRL分類標準進行跨領域研究還很少,且多為理論性研究,可操作性不強。
三、研究設計
(一)研究思路
在信息論中,信息是事物的運動狀態(tài)或存在方式的描述,而熵是描述信息不確定性的量度,語言負載的信息是語義。語言編碼具有多重性,包括語音代碼、文字代碼、手勢和表情等副語言代碼。本文的研究對象是財會領域的XBRL分類標準附注元素及財務報告附注內容,將其看成信息披露的主要載體,屬于以文字代碼傳遞語義信息的語言編碼。所以,本文從信息的角度,借助漢語熵和語言的冗余度,將更多類型的元素納入了研究范圍,從元素承載信息的完整性和元素的可理解性上評價元素適用性是恰當可行的。
本文將財會領域的XBRL分類標準的附注元素及財務報告附注內容看成信息披露的主要載體進行實證研究。利用Python編程進行文本過濾后,再進行中文分詞,批量統(tǒng)計詞頻,利用公式(2)計算詞熵H,公式(4)得出冗余度R1,公式(5)計算冗余度R2。從信息論的角度,通過計算附注元素的信息含量,從元素承載信息的完整性上而不是單純地從數量上評價元素適用性;通過計算元素的語言冗余度,從元素語言的內部規(guī)律上衡量元素的可理解性,以此評價元素適用性。
(二)衡量指標的選取
1.元素信息含量的衡量
香農將自信息定義為某一信源發(fā)出一個信息帶有的信息量,數學表達為I(xi)=-log(p(xi)),是某信息出現(xiàn)的概率。1948年,香農又在其發(fā)表的論文中借鑒熱力學中熵的概念,提出了信息熵的概念,用于度量信息量,并給出了計算信息熵的數學表達式:
信息的基本作用是消除人們對事物的不確定性,消除了多少不確定性就相當于人們獲得了多少信息。從信息學的角度來說,熵越大,系統(tǒng)越混亂,單位信息量就越大。
為確定一個字符平均擁有多少信息量,使自然語言更高效地被機器識別、存儲和傳輸,信息熵的概念被引入語言學研究中。
在自然語言中,語言的熵指信息接收者接收到語言信息之前,語言符號出現(xiàn)的不確定程度大小,即語言所負載的信息量的多少。當語言接收者接收到語言符號之后,不確定程度被消除,熵就變?yōu)榱恪8鶕戕r對信息熵的定義,在自然語言中,可以假設一種語言子集的字符V大小為L,且不考慮每一個字符之間的相關性,即每一個字符等概率出現(xiàn),概率分布為pi(i=1,2,…,L),則一個字符的平均信息量H為:
一個語料中的每一個字符都會有一個字頻,根據大數定理,該字頻在樣本量足夠大的情況下就構成了一個概率分布,可利用以上公式計算出整個語料的平均熵和信息含量。但要特別注意,某一個字符單獨的熵計算公式為-log(p(xi))。
在漢語中,信息熵被稱為漢語熵,一般是指以漢字為基本語言單位的漢字熵,用于確定一個漢字平均擁有多少信息量。馮志偉對書面文本進行手工查頻計算出了不考慮上下文影響的漢字熵為9.65比特[ 14 ]。后又得出考慮上下文影響時包含在一個漢字中的熵,即極限熵為4.0462比特[ 15 ]。其研究成果為漢語的信息化處理作出了重要貢獻。但是,在漢語中,詞本身就是人們交際的最小語言單位,而且詞也初步體現(xiàn)了前后語言符號的相關性,通過分詞,就能確定一些字之間的固定搭配。所以,以詞為語言的基本符號計算漢語的熵(又稱漢語詞熵),比以字為單位更符合漢語使用的實際情況[ 16 ]。在20世紀80年代,以當時的北京航空學院為首的十個單位進行的現(xiàn)代漢語字頻、詞頻統(tǒng)計工程,就根據選定的語料庫計算出來漢語詞的信息熵,即H漢語詞=11.4559比特/詞。
綜上,本文從信息的角度,利用漢語詞熵作為衡量XBRL分類標準元素的信息含量指標。
2.元素可理解性的度量
有研究表明,語言表達與信息熵、冗余度有密切的關系[ 17 ]。冗余信息與語言理解也存在很大的關系[ 18 ]。
信息學上的“冗余”與漢語常用的語義是有區(qū)別的。信息學上的冗余是為了避免遭受信道噪音的干擾,運用語言、文字形式的重復或累加傳輸信息。也就是說,為了保證理解,總是給出比實際需要多得多的信息。所以,冗余法則是信息論中信息傳輸和變換過程中所要求的一條重要法則。為了衡量冗余信息,香農提出了“冗余度”的概念,認為冗余度是對信息確定性、有序性和可預見性的度量,指超過傳遞需要量的信息。
語言的冗余是指存在于語言中的重疊信息,其源于語言內部的規(guī)律性,可看作語言結構帶來的信息量。冗余信息不僅是一種語言事實,在大多數情況下也是一種交際需要,并不是多余的無用信息[ 19 ]。
為解釋語言的冗余現(xiàn)象,使人們更好地進行語言理解,信息冗余度被引入語言學的研究中,演化出語言的冗余度概念。語言的冗余度越小,語言糾錯能力越差,語言信息有遺漏或不清晰時就可能失去信息的許多意義;語言的冗余度越大,說明語言的內部規(guī)律性越強。本文借助香農對冗余信息的量度計算語言的冗余度,公式如下[ 20 ]:
根據前面漢語詞熵的計算結果,加上漢字的總數一般認為是60 000,所以可得漢語的冗余度R2一般為51.9%。
綜上,本文從信息冗余的角度,利用語言的冗余度R1作為衡量XBRL分類標準元素的可理解性的主要指標,語言的冗余度R2作一定的參考。
(三)數據來源與樣本選取
本文根據證監(jiān)會公布的《2016年4季度上市公司行業(yè)分類結果》(表1),將所有上市公司股票代碼(剔除退市公司)導入Excel中利用函數進行隨機抽樣,取得200個公司名單,在巨潮網上獲取這200家上市公司2016年的PDF年報。財務報告附注是財務報告信息披露的主要部分,XBRL分類標準元素的絕大部分是針對財務報告附注而言的。所以,本研究選取200份年報的附注內容、《2015企業(yè)分類標準通用分類標準元素清單》和《2010企業(yè)分類標準通用分類標準元素清單》中附注部分的元素作為研究樣本。
四、結果分析
(1)由表2得,H2015=5.946比特/詞,H2010=5.780比特/詞,表明2015年通用分類標準元素中平均一個詞匯的信息含量高于2010年版本元素。這是因為相比2010年,2015年為滿足進一步提高財務信息披露要求,需要增加用于披露信息的XBRL元素,組成元素的選詞范圍更大,詞的不確定性也更大了。
(2)表2顯示,R1 (2015)=0.593,R1 (2010)=0.580,表明較2010年分類標準而言,2015年分類標準元素的語言內部規(guī)律性帶來的信息量高于2010年版本的,語言的內部規(guī)律性更好。從語言學上看,元素可理解性更好。冗余度以第二種估計方式計算也能得到類似結論。
(3)由表2可知,2015年分類標準元素清單與2010年分類標準元素清單相比,多了64 241比特的信息量,其中59.3%是語言的冗余度帶來的信息。因為詞熵的大小不僅和詞的數量有關,而且跟詞的頻率有關。由表3可知,2015年分類標準元素清單比2010年元素清單增加了1 000個基礎元素和893個結構元素,結構元素的增幅為96.4%,遠遠大于基礎元素的增幅51%,且結構元素占整個元素清單的比例也從32%提高到38%。說明相比2010年,2015年更加注重元素間的組織。而2015年為了更好地組織元素,在組成元素尤其是結構元素的詞匯上出現(xiàn)了較多的重復表達,詞的頻率有所變化,也使得整個元素清單的信息量有了變化。
(4)由表2得,H年報=6.694比特/詞,H年報>H2015>H2010,表明分類標準元素所承載的信息僅包括實物年報的核心內容,還未完全覆蓋傳統(tǒng)的PDF年報內容。R1 (年報)=0.671,表明年報的信息含量里有67.1%是由語言的冗余度帶來的。R年報>H2015>H2010,表明分類標準元素的可理解性也不能很好地滿足信息披露者和年報使用者的需求。所以,分類標準元素還需進一步完善以滿足信息披露的需要。
(5)研究結果顯示,H漢語詞>H年報>H2015>H2010,表明XBRL分類標準中的附注元素和年報附注的詞熵遠遠低于語言學中利用普通語料計算出來的漢語詞熵,H漢語詞=11.4559比特/詞,這是受本文研究樣本的特殊性影響的。本文的研究樣本選自財會領域,該領域的文本中經常使用財會領域的特定詞匯,在表達上也有該領域特定的風格,一般要求盡可能客觀地披露財務信息,部分句式也相對固定,這就限制了用詞的靈活性,詞的不確定就更小,詞熵也更小。而XBRL標準元素清單中的元素是反映信息披露的基本信息單元,由財會領域特定的概念術語組成的,選詞范圍相對年報來說就更小了,詞熵也就更小。
(6)此外,如圖1和圖2,通過計算一個語料中某一個語言單位的熵值,發(fā)現(xiàn)對于同一語言單位,2010年分類標準元素與2015年分類標準元素存在差異,比如期初余額,2010年熵為14.116比特/詞,2015年熵為11.253比特/詞,說明相比2010年分類標準而言,期初余額在2015年分類標準版本中出現(xiàn)的可能性更高。這樣對比單個語言單位熵的變化,可以分析不同版本的分類標準重點關注的信息是什么,也可以分析出元素制定的趨勢變化。
五、結語
本文從信息論的視角出發(fā),利用漢語熵和冗余度,通過Python編程,對分類標準的附注元素與年報附注進行切詞和統(tǒng)計詞頻,編程批量計算熵值,得出語言的冗余度。從信息含量和可理解性兩個維度,衡量我國不同版本的XBRL分類標準元素清單及其與年報實務之間的差異。研究結論表明:2015年分類標準優(yōu)于2010年分類標準,主要表現(xiàn)為元素中信息含量的增多和語言內部規(guī)律的增強提高了分類標準的可理解性;與年報實務對比,目前的分類標準元素所承載的信息僅包括實物年報的核心內容,還不能完全覆蓋傳統(tǒng)的PDF年報內容,可理解性需要利用軟件展示;通過對比單個語言單位的熵值變化,可以了解不同版本XBRL分類標準元素制定的趨勢變化。結合以上研究結論,本文嘗試給出完善XBRL分類標準元素的建議:
(1)為了滿足財務信息披露的需求,在完善XBRL分類標準過程中,應該重點提升元素的信息含量,通過增強元素清單的語言內部規(guī)律性提升元素的可理解性,而不是單純地增加元素的數量,導致元素的使用效率低下。
(2)從信息論的角度出發(fā),對比元素制定的趨勢變化和財務信息披露需求的變化是否一致,以此評價XBRL分類標準元素制定的必要性和合理性。
本文將從以下幾個方面做進一步的研究:XBRL分類標準元素和上市公司年報附注涉及的是財會領域,專業(yè)性較強,接下來將考慮財會領域的特殊性,導入財會領域的特定詞匯搭配,提高分詞在特定領域的準確性和合理性;嘗試考慮組成單個元素的語言單位之間的相關性,利用一階或多階馬爾科夫鏈計算條件熵,衡量每一個元素的信息含量;進一步考慮元素類型和元素之間層級關系所隱含的信息量,保證整個XBRL元素清單信息含量計算的精確度,以便提高評價XBRL分類標準元素適用性的準確度。
【參考文獻】
[1] 查爾斯·霍夫曼.XBRL在財務報告中的應用:IFRS和US GAAP版[M].北京:中國財政經濟出版社,2008.
[2] DEBRECENY R S,CHANDRA A, CHEH J J, et al. Financial reporting in XBRL on the SEC's EDGAR system: a critique and evaluation[J].Journal of Information Systems,2005,19(2):191-210.
[3] 孫凡,楊周南.XBRL技術體系結構的語言學分析與改進研究[J].會計研究,2013(7):13-19.
[4] 張?zhí)煳?網絡財務報告:XBRL標準的理論基礎研究[J].會計研究,2006(9):56-63.
[5] 張?zhí)煳鳎S長胤,吳忠生.XBRL中的財務信息元素的粒度研究[J].會計之友,2011(21):22-30.
[6] BOVEE M, ETTREDGE M L, SRIVASTAVA R P, et al.Does the year 2000 XBRL taxonomy accommodate current business financial reporting practice[J].Journal of Information Systems,2002,16(2):165-182.
[7] COHEN E E. Compromise or Customize: XBRL's paradoxical power[J].Canadian Accounting Perspectives,2004(3):187-206.
[8] 高錦萍,張?zhí)煳?XBRL財務報告分類標準評價:基于財務報告分類與公司偏好的報告實務的匹配性研究[J].會計研究,2006(11):24-29.
[9] ZHU H, WU H. Assessing quality of data standards:framework and illustration using XBRL GAAP taxonomy[C].Metadata and Semantic Research,2010:288-299.
[10] ZHU H, WU H. Assessing the quality of large-scale data standards: a case of XBRL GAAP taxonomy[J]. Decision Support Systems,2014,59(2):351-360.
[11] BORITZ J E, NO W G.The SEC's XBRL voluntary filing program on EDGAR: a case for quality assurance[J].Current Issues in Auditing,2008,2(2):A36-A50.
[12] 趙聰.XBRL財務報告分類標準質量評價[D].上海交通大學碩士學位論文,2011.
[13] 黃長胤.XBRL財務報告分類標準的層級擴展研究[D].上海交通大學碩士學位論文,2012.
[14] 馮志偉.漢字的熵[J].文字改革,1984(4):12-17.
[15] 馮志偉.漢字的極限熵[J].中文信息,1996(2):53-56.
[16] 徐先蓬.漢語的熵及其在語言本體研究中的應用[D].山東大學碩士學位論文,2013.
[17] 葉南.論語言表達形式與信息熵、冗余度的關系[J].西南民族大學學報(人文社科版),2004(10):293-296.
[18] 何星.冗余信息與語言理解[J].外語研究,2000(4):30-32.
[19] 蔡艷玲.談語言的冗余現(xiàn)象及功能[J].河南社會科學,2005(5):132-134.
[20] 徐盛桓.語言的冗余性[J].現(xiàn)代外語,1984(2):1-6.