基于本体的语义异构XBRL数据集成的策略分析.docx

上传人:rrsccc 文档编号:8947017 上传时间:2021-01-26 格式:DOCX 页数:4 大小:15.48KB
返回 下载 相关 举报
基于本体的语义异构XBRL数据集成的策略分析.docx_第1页
第1页 / 共4页
基于本体的语义异构XBRL数据集成的策略分析.docx_第2页
第2页 / 共4页
基于本体的语义异构XBRL数据集成的策略分析.docx_第3页
第3页 / 共4页
基于本体的语义异构XBRL数据集成的策略分析.docx_第4页
第4页 / 共4页
亲,该文档总共4页,全部预览完了,如果喜欢就下载吧!
资源描述

《基于本体的语义异构XBRL数据集成的策略分析.docx》由会员分享,可在线阅读,更多相关《基于本体的语义异构XBRL数据集成的策略分析.docx(4页珍藏版)》请在三一文库上搜索。

1、基于本体的语义异构XBRL数据集成的策略分析0 引言XBRL(eXtensible Business Report Language)是一种以XML为基础,用于编制、交换和分析财务报告的语言。财务报告使用结构化的XBRL格式,不仅易于复用,而且方便扩展,能根据需要添加语义,制定分类标准,计算机能够识别所添加的信息。目前,不同国家所制定的XBRL分类标准不同,例如国际上有IFRS(国际财务报告分类标准),US-GAAP(美国公认会计准则)等;国内有CLCID(中国上市公司信息披露分类标准)、CFCID(中国基金公司信息披露分类标准)等。此外,不同行业、不同实体也基于分类标准进行扩展,制定了适用于

2、自身的标准,这些分类标准根据不同的会计准则制定,存在大量语义异构。XBRL数据的语义异构,导致XBRL数据交换存在潜在的语义冲突问题,即语义转换困难和单一关键词匹配功能缺陷,制约了全球范围内进行财务信息的集成【1】。针对上述问题,本文引入本体理论和方法,提出一种XBRL集成方法。以XBRL数据集成为场景,研究XBRL本体转换模型,通过RDF数据查询解析技术实现对XBRL报告进行单一关键词匹配,并利用Jena API实现RDF到SQL的查询转换。1 XBRL概述XBRL中文译为通用业务报告语言;,是XML在业务报告信息交换方面的一种应用,它是目前应用于非结构化信息处理,尤其是财务信息处理领域的最

3、新技术。XBRL架构分为3个层次:基础架构层,即XBRL技术规范;应用架构层,即XBRL分类标准;实例应用层,即将财务报表内容编制成XBRL实例文档。(1)技术规范。XBRL技术规范由XBRL国际组织制定,对基本规则进行描述,是分类标准与实例文档必须遵守的规范。XBRL技术规范共经历了3个版本:1.0版、2.0版和2.1版,目前广泛使用且稳定的是XBRL技术规范2.1版。(2)分类标准。XBRL分类标准用于对业务报告信息进行描述和分类,相当于一个数据字典。各国依据会计准则和技术规范所制定,物理上由多个XML文件共同构成,分为两个部分:分类模式和链接库。其中,分类模式定义业务报告使用的元素及其属

4、性;链接库定义元素之间的关联关系。(3)实例文件。实例文档包含分类标准定义的元素值,同时描述与该值相关的背景信息,背景信息有非数值型如财务报告实体、会计期间等,还有数值型如数值精度和计量单元。2 XBRL语义异构性本文分别从模式异构、背景异构和本体异构3个角度分析XBRL的语义异构性。模式异构是从分类标准角度;背景异构是从XBRL实例文档中事实数据取值上下文的角度;而本体异构则是从语义描述逻辑的角度【2】。(1)模式异构。不同国家的会计准则不同,导致依据会计准则制定的分类标准存在差异,称为模式异构。主要有两种:元素命名和元素关系。元素命名异构是指同一概念在不同分类标准中使用不同的元素名。比如对

5、同一个会计概念营业利润;,US GAAP和CLCID使用不同元素名分别为OperatingProfit和YingYeLiRun。元素关系异构是指不同分类标准中对应的会计概念和其它元素关系的异构,比如OperatingProfit在US GAAP中定义的计算关系为:营业利润=净利润-运营费用;而YingYeLiRun在CLCID中定义的计算关系为:营业利润=主营业务利润+其它营业利润-营业费用-管理费用-财务费用。(2)背景异构。本文所称背景;有别于XBRL中的context元素,泛指事实数据取值的上下文。除了描述会计报告实体entity和期间period的context元素外,还包括其它属性,

6、如货币单位属性unit、精确度属性precision。(3)本体异构。本体异构是指使用不同的逻辑描述方式来表达XBRL语义,本文讨论中忽略了本体异构性,也就是说探讨的前提是使用同一种描述逻辑表达语义。XBRL的语义异构存在两个潜在问题,语义转换困难和单一关键词匹配的功能缺陷,比如多家公司使用不同分类标准编制XBRL报告,要从这些报告中通过单一关键词匹配来查询这些公司上个财年的营业利润并进行比较便无法实现,从而阻碍了全球范围内进行财务信息集成。3 本体工具引入上述问题一方面是由于计算机不具备人类的思维能力,不能理解数据内容的本意;另一方面,由于人们的认知和会计准则不同,对财务报告的元素和其关系定

7、义也就不同。归根到底,这就是元数据的语义理解问题。本体在计算机领域的应用为语义问题研究开拓了领域。一般说来,本体是共享的概念化的、明确的、形式化的规范说明;【3】。本体主要由概念和关系组成。概念表示领域中的一组或一类实体;关系主要描述概念之间或概念属性之间的互相作用。基本的关系有4种:partof,kindof,instanceof及attributeof。partof表达概念之间部分与整体的关系;kindof表达概念之间的继承关系,类似于面向对象中父类和子类之间的关系;instanceof表达概念的实例和概念之间的关系,类似于面向对象中类和对象之间的关系;attributeof表达某个概念是

8、另外一个概念的属性。元数据与本体的关系可以简单地看成微观与宏观的关系。在数据共享领域,可以应用本体和元数据的双重作用。资源的组织在微观层面都是依据各种规范的元数据方案,元数据可以理解为语义注解。资源之间的宏观联系依据本体所形式化的联系模型,本体使各类元数据方案联系成一个立体的知识网络,并使资源按照网络中的不同属性,使同一种属性的不同编码体系,呈现出规范有序的知识地图,供浏览或检索。为提高财务决策的效率,XBRL数据集成十分必要。国内外已经有大量研究和实践指出本体工具是用于XBRL数据集成的必然选择。然而,将本体工具用于XBRL领域还没有实际应用和满意的结果【4】。目前,很多将XBRL转换成OW

9、L的研究丢失了XBRL所包含的复杂而且重要的财务语义。4 基于本体的集成方法相对于XML、RDF,OWL拥有更多的机制来表达语义,从而超越了仅仅能表达机器可读的文档内容的能力。相关研究表明,以RDF作为元数据描述语言,以OWL(Web本体语言)作为本体描述层提供知识表示和逻辑推理是一种优秀的表达方案【5】。针对异构XBRL报告中存在的语义问题,基于本体设计相应的解决方案。4.1 XBRL本体转换模型XBRL是以XML技术为基础,为将XBRL实例文档和分类标准转换为本体模型,本文使用XML语义重用方法(Semantics Reuse Methodology),将分类标准中的XML模式文件转换为O

10、WL,将实例文档中的XML文件(XBRL文件)转换为RDF,此方法已经在多媒体元数据领域显示了其优势。XML模式文件到OWL的映射用来表示模式文件的语义,将元素定义及元素之间关系使用OWL表达。一旦XML模式文件元数据使用OWL本体表达出来,就可以将XBRL实例文档使用RDF进行映射。图1 XBRL本体转换示意图图1描述了XBRL本体转换的过程。其中,XSD2OWL Translator将XBRL的模式文件即*.xsd转换为OWL本体,XML2RDF Translator将XBRL实例文档转换为RDF文件,使用XSLT进行转换过程。每个XBRL概念转换成一个OWL类或属性。Merger将RDF

11、文件和OWL本体结合起来,OWL本体定义了分类标准中的概念。Knowledge Base存储了Merger得到的结果,即通过匹配得到的映射规则集。4.2 基于本体的语义异构XBRL数据集成方法尽管利用OWL建立了相关的本体对象,但实际上每个面向领域语义化Ontology就是一个遵从RDFS的RDF文档。实现XBRL报告的集成需要借助RDF查询技术来实现,图2描述了通过RDF查询得到分析结果的过程。其中,Query Manager模块在存储映射规则集的Knowledge Base上执行RDF查询,生成HTML报告,RDF查询由用户进行定义。因此需要解决如何处理RDF问题。图2 RDF查询示意图首

12、先需要解决RDF中的属性和关系表中的列名不一致的问题。在RDF中,属性是以URI的形式出现,而在关系数据库中,表的列名则是普通字符串。为满足兼容性,在RDFSchema和数据库的表结构之间须有一个映射关系。此问题可用Hash表来解决,即使用Hash表来记录URI与数据库表之间的对应关系。实现RDF的查询是通过一个Jena API来实现的。Jena由HP公司的BrianMcBride开发。Jena允许解析、创建和查询RDF模型。从2004年2月起,Jena 2.1版本开始支持OWL文档处理。Jena 定义了很多接口来访问和处理RDF查询。转换思路是将RDF查询转换为SQL后,执行SQL语句并将查

13、找结果按照RDF的格式返回,为RDF用户提供了一个透明的针对关系数据库的RDF查询层。其工作流程如图3所示。步骤为:用户将RDF查询语句发送到Jena;Jena将查询语句发送到RDF查询引擎;收到RDF查询语句时,查询引擎调用RDF2SQL转换模块,根据数据模型的设置,将其转换为SQL语句;若属于不能转换的情况,抛出异常;查询引擎使用SQL语句,根据配置文件查找关系数据库,该查找使用JDBC,兼容各类关系数据库;查询引擎根据URI和关系表中列的对应关系,将查找到的结果转换回RDF语言;查询引擎将RDF表示的结果返回给Jena;Jena将查询到的RDF结果返回给用户。通过将RDF的查找转换为对关

14、系数据库的查找,实现了一个透明的对关系数据库查找的RDF查询引擎,使用户既可以利用RDF语义方面的优点,又可以不丧失其性能。此外,使关系数据库具有RDF的查找特性,应用程序只需处理RDF,而无需应付各种不同的数据库,这样易于实现不同数据库之间的信息交换。图3 RDF查询流程5 结语XBRL分类标准的语义多样性为数据集成方法提供了实现和检验平台。本文从模式、背景和本体3个方面探讨了XBRL的语义异构性,提出一种集成方法并实现,该方法使用本体工具保留了XBRL包含的复杂而且重要的财务语义,解决了XBRL数据交换潜在的语义冲突问题, 即语义转换困难和单一关键词匹配功能缺陷,使得XBRL在全球范围内提

15、高财务信息交换效率成为可能。下一步需将基于现有的大量XBRL分类标准和实例文档进行该方案的性能评估及优化。参考文献参考文献:【1】DAVID S.XBRL and semantic interoperability.MDA Journal, 2009(6):14.【2】 ZHU HA.Lightweight ontology approach to scalable interoperability.http:/ideas.repec.org/p/mit/sloanp/37307.html.【3】 NECHES R, FIKES R, FININ T, etc. Enabling technology for knowledge sharing.AI Magazine, 1991,12(3): 3656.【4】 GRUBER T, ONTOLINGUA.A translation approach to portable ontology specifications. Knowledge Acquisition, 1993,5(2):199200.

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 社会民生


经营许可证编号:宁ICP备18001539号-1