APP下载

基于汉语熵的XBRL分类标准元素适用性研究

2018-04-26潘定杨银娇

会计之友 2018年7期
关键词:冗余度适用性

潘定 杨银娇

【摘 要】 XBRL分类标准中的财务元素适用性是评价分类标准的主要依据。文章从信息论的视角出发,将汉语熵和冗余度作为衡量指标,从信息含量和可理解性两个维度评价我国XBRL分类标准元素的适用性。研究表明:2015年分类标准优于2010年分类标准,主要表现为信息含量的增多和语言内部规律性的增强,提高了分类标准的可理解性;与年报实务对比,目前的分类标准元素所承载的信息仅包括实物年报的核心内容,还不能完全覆盖传统的PDF年报内容,可理解性需要利用软件展示。

【关键词】 XBRL分类标准; 汉语熵; 冗余度; 适用性

【中图分类号】 F275 【文献标识码】 A 【文章编号】 1004-5937(2018)07-0057-05

一、引言

在信息技术飞速发展和资本市场全球化的背景下,信息使用者更加注重差异化、实时可靠、跨时空和跨行业的可比较的会计信息,传统的会计信息披露模式已无法满足以上要求。于是,作为全球财务报告信息技术革命的开始——XBRL(可扩展业务报告语言)[ 1 ]应运而生。XBRL分类标准是XBRL技术的核心部分,也是生成和解释实例文档的基础。分类标准中定义了XBRL具体数据所对应的财务元素,依照XBRL规范定义的词汇表(元素清单)和勾稽关系。元素清单中列示的财务元素反映信息披露的基本信息单元,是XBRL分类标准的核心。

元素适用性是指作为承载财务信息基本单位的财务元素,能否准确、合规、完整、高效地满足财务信息披露的需求。元素适用性的高低代表分类标准的优劣,直接影响各国的XBRL技术发展和应用,因此,有必要对分类标准元素适用性进行科学的量化评价。

本文的贡献在于从信息论角度,将汉语熵和冗余度作为衡量指标,从信息含量和可理解性两个维度评价我国2010年、2015年XBRL分类标准元素的适用性,为分类标准制定和完善提供科学依据,也为XBRL分类标准评价研究提供一个新的研究视角。

二、文献回顾

近年来,XBRL分类标准的评价重点在于评价元素适用性,而元素适用性主要表现为元素的准确性、合规性、完整性和效率性。

在准确性上,Debreceny等认为,可以从元素的定义和元素之间的关系链接两方面来考察。分类标准定义的元素必须具有严密的概念定义,在使用过程中不会发生歧义,同时匹配正确的属性;表示元素之间关系的链接库,设置要准确,包括位置和计算关系等[ 2 ]。孙凡等依据现代语言学的基本原理,从语法形式化和语义形式化两个维度对 XBRL的现行技术体系结构进行了分析,指出其在语法形式化方面存在元素和规则定义不足等问题,并基于未来的发展需求提出了相应改进策略,拓展了XBRL的研究视角,利于推动XBRL标准的应用[ 3 ]。张天西构建了XBRL下的财务信息元素理论,提出粒度概念,建立元素粒度度量模型,进而构建基于元素粒度的分类标准元素遴选模型,并阐述了如何使用该模型以确定分类标准元素边界,从而解决分类标准制定过程中的问题,提高分类标准质量[ 4-5 ]。

在合规性上,由于越来越多的国家和地区发展及应用XBRL技术,陆续制定相关的实施政策,有效保证了分类标准元素的制定严格遵守XBRL技术规范、XBRL财务报告分类体系结构框架以及相应地区的会计准则,所以,这方面几乎无研究。

在完整性上,Bovee等通过元素匹配,发现分类标准与公司财务报表中的元素整体匹配度较好,但也存在差异,还需修订分类标准[ 6 ]。Cohen则在Bovee的基礎上指出分类标准元素完备性欠佳和企业实际披露需求的矛盾是企业扩展元素的原因,并分析了元素扩展的优缺点[ 7 ]。国内学者高锦萍等也通过元素对比117家上市公司的2005年年报,考察了上交所当年发布的《中国上市公司信息披露分类标准》制定的完整性,结果显示两者存在较大差异。研究表明,分类标准的完整性在一定程度上体现了XBRL财务报告信息的充分性[ 8 ]。Zhu和Wu将完整性量化为标准中定义的信息元素覆盖原始文档中信息元素的程度,并以此为基础构造一个评价数据交互标准质量的框架[ 9 ]。之后,Zhu和Wu又系统开发了一个以复杂性、完整性、相关性和数据互操作性四个质量指标来评估大规模数据标准质量的框架,并利用两个基于GAAP的分类标准版本和相应的上市公司财务报表进行实证研究,证实了框架的有效性,对制定和改进数据标准、选择和采用数据标准的决策者提供有价值的参考[ 10 ]。

在效率性上,Boritz和No选取美国证监会XBRL资源报送试点项目(VFP)的实例文档,检查了分类标准元素的适用性,发现企业扩展元素时,与分类标准中的元素重复了,实例文档中有10%的扩展元素存在有效性、可比性差和其他错误,且约2/3的实例文档存在这些问题,严重拉低了信息质量[ 11 ]。赵聪通过将通用分类标准与2010年120家上市公司的财务报告对比,发现通用分类标准存在元素定义不足,同时又存在元素冗余问题,有些标准元素在实务中不曾使用过,并提出用删除解决冗余问题[ 12 ]。此外,黄长胤对比通用分类标准附注项目和PDF财务报告附注项目中的元素,证明了通用分类标准在实际使用中效率低下[ 13 ]。

综上发现:以往有关XBRL分类标准元素适用性研究中,多采用手工元素匹配的方式验证元素的效率性和在数量上的完整性欠佳,研究视角单一;纳入研究的元素类型有限,集中于货币型元素;利用其他领域的知识对XBRL分类标准进行跨领域研究还很少,且多为理论性研究,可操作性不强。

三、研究设计

(一)研究思路

在信息论中,信息是事物的运动状态或存在方式的描述,而熵是描述信息不确定性的量度,语言负载的信息是语义。语言编码具有多重性,包括语音代码、文字代码、手势和表情等副语言代码。本文的研究对象是财会领域的XBRL分类标准附注元素及财务报告附注内容,将其看成信息披露的主要载体,属于以文字代码传递语义信息的语言编码。所以,本文从信息的角度,借助汉语熵和语言的冗余度,将更多类型的元素纳入了研究范围,从元素承载信息的完整性和元素的可理解性上评价元素适用性是恰当可行的。

本文将财会领域的XBRL分类标准的附注元素及财务报告附注内容看成信息披露的主要载体进行实证研究。利用Python编程进行文本过滤后,再进行中文分词,批量统计词频,利用公式(2)计算词熵H,公式(4)得出冗余度R1,公式(5)计算冗余度R2。从信息论的角度,通过计算附注元素的信息含量,从元素承载信息的完整性上而不是单纯地从数量上评价元素适用性;通过计算元素的语言冗余度,从元素语言的内部规律上衡量元素的可理解性,以此评价元素适用性。

(二)衡量指标的选取

1.元素信息含量的衡量

香农将自信息定义为某一信源发出一个信息带有的信息量,数学表达为I(xi)=-log(p(xi)),是某信息出现的概率。1948年,香农又在其发表的论文中借鉴热力学中熵的概念,提出了信息熵的概念,用于度量信息量,并给出了计算信息熵的数学表达式:

信息的基本作用是消除人们对事物的不确定性,消除了多少不确定性就相当于人们获得了多少信息。从信息学的角度来说,熵越大,系统越混乱,单位信息量就越大。

为确定一个字符平均拥有多少信息量,使自然语言更高效地被机器识别、存储和传输,信息熵的概念被引入语言学研究中。

在自然语言中,语言的熵指信息接收者接收到语言信息之前,语言符号出现的不确定程度大小,即语言所负载的信息量的多少。当语言接收者接收到语言符号之后,不确定程度被消除,熵就变为零。根据香农对信息熵的定义,在自然语言中,可以假设一种语言子集的字符V大小为L,且不考虑每一个字符之间的相关性,即每一个字符等概率出现,概率分布为pi(i=1,2,…,L),则一个字符的平均信息量H为:

一个语料中的每一个字符都会有一个字频,根据大数定理,该字频在样本量足够大的情况下就构成了一个概率分布,可利用以上公式计算出整个语料的平均熵和信息含量。但要特别注意,某一个字符单独的熵计算公式为-log(p(xi))。

在汉语中,信息熵被称为汉语熵,一般是指以汉字为基本语言单位的汉字熵,用于确定一个汉字平均拥有多少信息量。冯志伟对书面文本进行手工查频计算出了不考虑上下文影响的汉字熵为9.65比特[ 14 ]。后又得出考虑上下文影响时包含在一个汉字中的熵,即极限熵为4.0462比特[ 15 ]。其研究成果为汉语的信息化处理作出了重要贡献。但是,在汉语中,词本身就是人们交际的最小语言单位,而且词也初步体现了前后語言符号的相关性,通过分词,就能确定一些字之间的固定搭配。所以,以词为语言的基本符号计算汉语的熵(又称汉语词熵),比以字为单位更符合汉语使用的实际情况[ 16 ]。在20世纪80年代,以当时的北京航空学院为首的十个单位进行的现代汉语字频、词频统计工程,就根据选定的语料库计算出来汉语词的信息熵,即H汉语词=11.4559比特/词。

综上,本文从信息的角度,利用汉语词熵作为衡量XBRL分类标准元素的信息含量指标。

2.元素可理解性的度量

有研究表明,语言表达与信息熵、冗余度有密切的关系[ 17 ]。冗余信息与语言理解也存在很大的关系[ 18 ]。

信息学上的“冗余”与汉语常用的语义是有区别的。信息学上的冗余是为了避免遭受信道噪音的干扰,运用语言、文字形式的重复或累加传输信息。也就是说,为了保证理解,总是给出比实际需要多得多的信息。所以,冗余法则是信息论中信息传输和变换过程中所要求的一条重要法则。为了衡量冗余信息,香农提出了“冗余度”的概念,认为冗余度是对信息确定性、有序性和可预见性的度量,指超过传递需要量的信息。

语言的冗余是指存在于语言中的重叠信息,其源于语言内部的规律性,可看作语言结构带来的信息量。冗余信息不仅是一种语言事实,在大多数情况下也是一种交际需要,并不是多余的无用信息[ 19 ]。

为解释语言的冗余现象,使人们更好地进行语言理解,信息冗余度被引入语言学的研究中,演化出语言的冗余度概念。语言的冗余度越小,语言纠错能力越差,语言信息有遗漏或不清晰时就可能失去信息的许多意义;语言的冗余度越大,说明语言的内部规律性越强。本文借助香农对冗余信息的量度计算语言的冗余度,公式如下[ 20 ]:

根据前面汉语词熵的计算结果,加上汉字的总数一般认为是60 000,所以可得汉语的冗余度R2一般为51.9%。

综上,本文从信息冗余的角度,利用语言的冗余度R1作为衡量XBRL分类标准元素的可理解性的主要指标,语言的冗余度R2作一定的参考。

(三)数据来源与样本选取

本文根据证监会公布的《2016年4季度上市公司行业分类结果》(表1),将所有上市公司股票代码(剔除退市公司)导入Excel中利用函数进行随机抽样,取得200个公司名单,在巨潮网上获取这200家上市公司2016年的PDF年报。财务报告附注是财务报告信息披露的主要部分,XBRL分类标准元素的绝大部分是针对财务报告附注而言的。所以,本研究选取200份年报的附注内容、《2015企业分类标准通用分类标准元素清单》和《2010企业分类标准通用分类标准元素清单》中附注部分的元素作为研究样本。

四、结果分析

(1)由表2得,H2015=5.946比特/词,H2010=5.780比特/词,表明2015年通用分类标准元素中平均一个词汇的信息含量高于2010年版本元素。这是因为相比2010年,2015年为满足进一步提高财务信息披露要求,需要增加用于披露信息的XBRL元素,组成元素的选词范围更大,词的不确定性也更大了。

(2)表2显示,R1 (2015)=0.593,R1 (2010)=0.580,表明较2010年分类标准而言,2015年分类标准元素的语言内部规律性带来的信息量高于2010年版本的,语言的内部规律性更好。从语言学上看,元素可理解性更好。冗余度以第二种估计方式计算也能得到类似结论。

(3)由表2可知,2015年分类标准元素清单与2010年分类标准元素清单相比,多了64 241比特的信息量,其中59.3%是语言的冗余度带来的信息。因为词熵的大小不仅和词的数量有关,而且跟词的频率有关。由表3可知,2015年分类标准元素清单比2010年元素清单增加了1 000个基础元素和893个结构元素,结构元素的增幅为96.4%,远远大于基础元素的增幅51%,且结构元素占整个元素清单的比例也从32%提高到38%。说明相比2010年,2015年更加注重元素间的组织。而2015年为了更好地组织元素,在组成元素尤其是结构元素的词汇上出现了较多的重复表达,词的频率有所变化,也使得整个元素清单的信息量有了变化。

(4)由表2得,H年报=6.694比特/词,H年报>H2015>H2010,表明分类标准元素所承载的信息仅包括实物年报的核心内容,还未完全覆盖传统的PDF年报内容。R1 (年报)=0.671,表明年报的信息含量里有67.1%是由语言的冗余度带来的。R年报>H2015>H2010,表明分类标准元素的可理解性也不能很好地满足信息披露者和年报使用者的需求。所以,分类标准元素还需进一步完善以满足信息披露的需要。

(5)研究结果显示,H汉语词>H年报>H2015>H2010,表明XBRL分类标准中的附注元素和年报附注的词熵远远低于语言学中利用普通语料计算出来的汉语词熵,H汉语词=11.4559比特/词,这是受本文研究样本的特殊性影响的。本文的研究样本选自财会领域,该领域的文本中经常使用财会领域的特定词汇,在表达上也有该领域特定的风格,一般要求尽可能客观地披露财务信息,部分句式也相对固定,这就限制了用词的灵活性,词的不确定就更小,词熵也更小。而XBRL标准元素清单中的元素是反映信息披露的基本信息单元,由财会领域特定的概念术语组成的,选词范围相对年报来说就更小了,词熵也就更小。

(6)此外,如图1和图2,通过计算一个语料中某一个语言单位的熵值,发现对于同一语言单位,2010年分类标准元素与2015年分类标准元素存在差异,比如期初余额,2010年熵为14.116比特/词,2015年熵为11.253比特/词,说明相比2010年分类标准而言,期初余额在2015年分类标准版本中出现的可能性更高。这样对比单个语言单位熵的变化,可以分析不同版本的分类标准重点关注的信息是什么,也可以分析出元素制定的趋势变化。

五、结语

本文从信息论的视角出发,利用汉语熵和冗余度,通过Python编程,对分类标准的附注元素与年报附注进行切词和统计词频,编程批量计算熵值,得出语言的冗余度。从信息含量和可理解性两个维度,衡量我国不同版本的XBRL分类标准元素清单及其与年报实务之间的差异。研究结论表明:2015年分类标准优于2010年分类标准,主要表现为元素中信息含量的增多和语言内部规律的增强提高了分类标准的可理解性;与年报实务对比,目前的分类标准元素所承载的信息仅包括实物年报的核心内容,还不能完全覆盖传统的PDF年报内容,可理解性需要利用软件展示;通过对比单个语言单位的熵值变化,可以了解不同版本XBRL分类标准元素制定的趋势变化。结合以上研究结论,本文尝试给出完善XBRL分类标准元素的建议:

(1)为了满足财务信息披露的需求,在完善XBRL分类标准过程中,应该重点提升元素的信息含量,通过增强元素清单的语言内部规律性提升元素的可理解性,而不是单纯地增加元素的数量,导致元素的使用效率低下。

(2)从信息论的角度出发,对比元素制定的趋势变化和财务信息披露需求的变化是否一致,以此评价XBRL分类标准元素制定的必要性和合理性。

本文将从以下几个方面做进一步的研究:XBRL分类标准元素和上市公司年报附注涉及的是财会领域,专业性较强,接下来将考虑财会领域的特殊性,导入财会领域的特定词汇搭配,提高分词在特定领域的准确性和合理性;尝试考虑组成单个元素的语言单位之间的相关性,利用一阶或多阶马尔科夫链计算条件熵,衡量每一个元素的信息含量;进一步考虑元素类型和元素之间层级关系所隐含的信息量,保证整个XBRL元素清单信息含量计算的精确度,以便提高评价XBRL分类标准元素适用性的准确度。

【参考文献】

[1] 查尔斯·霍夫曼.XBRL在财务报告中的应用:IFRS和US GAAP版[M].北京:中国财政经济出版社,2008.

[2] DEBRECENY R S,CHANDRA A, CHEH J J, et al. Financial reporting in XBRL on the SEC's EDGAR system: a critique and evaluation[J].Journal of Information Systems,2005,19(2):191-210.

[3] 孫凡,杨周南.XBRL技术体系结构的语言学分析与改进研究[J].会计研究,2013(7):13-19.

[4] 张天西.网络财务报告:XBRL标准的理论基础研究[J].会计研究,2006(9):56-63.

[5] 张天西,黄长胤,吴忠生.XBRL中的财务信息元素的粒度研究[J].会计之友,2011(21):22-30.

[6] BOVEE M, ETTREDGE M L, SRIVASTAVA R P, et al.Does the year 2000 XBRL taxonomy accommodate current business financial reporting practice[J].Journal of Information Systems,2002,16(2):165-182.

[7] COHEN E E. Compromise or Customize: XBRL's paradoxical power[J].Canadian Accounting Perspectives,2004(3):187-206.

[8] 高锦萍,张天西.XBRL财务报告分类标准评价:基于财务报告分类与公司偏好的报告实务的匹配性研究[J].会计研究,2006(11):24-29.

[9] ZHU H, WU H. Assessing quality of data standards:framework and illustration using XBRL GAAP taxonomy[C].Metadata and Semantic Research,2010:288-299.

[10] ZHU H, WU H. Assessing the quality of large-scale data standards: a case of XBRL GAAP taxonomy[J]. Decision Support Systems,2014,59(2):351-360.

[11] BORITZ J E, NO W G.The SEC's XBRL voluntary filing program on EDGAR: a case for quality assurance[J].Current Issues in Auditing,2008,2(2):A36-A50.

[12] 趙聪.XBRL财务报告分类标准质量评价[D].上海交通大学硕士学位论文,2011.

[13] 黄长胤.XBRL财务报告分类标准的层级扩展研究[D].上海交通大学硕士学位论文,2012.

[14] 冯志伟.汉字的熵[J].文字改革,1984(4):12-17.

[15] 冯志伟.汉字的极限熵[J].中文信息,1996(2):53-56.

[16] 徐先蓬.汉语的熵及其在语言本体研究中的应用[D].山东大学硕士学位论文,2013.

[17] 叶南.论语言表达形式与信息熵、冗余度的关系[J].西南民族大学学报(人文社科版),2004(10):293-296.

[18] 何星.冗余信息与语言理解[J].外语研究,2000(4):30-32.

[19] 蔡艳玲.谈语言的冗余现象及功能[J].河南社会科学,2005(5):132-134.

[20] 徐盛桓.语言的冗余性[J].现代外语,1984(2):1-6.

猜你喜欢

冗余度适用性
高速公路桥梁设计冗余度应用
强调简洁和适用性 MICHI by Rotel X5/X3合并功放
小议阶级分析理论的适用性
冗余度理念在桥梁结构设计中的应用研究
三集一体机在西北地区适用性分析
上海某基坑工程考虑冗余度的支撑体系设计
桥梁设计的冗余度分析
桥梁设计的冗余度分析
新一代车上转换装置在厂矿企业铁路运输中的适用性研究
茶油总DNA提取技术及扩增适用性