APP下载

大数据在构建新型企业级发票池综合管理平台中的应用研究

2020-01-26艾琳宋瑜辉张侠王慧婷

电脑知识与技术 2020年34期
关键词:电子发票数据挖掘大数据

艾琳 宋瑜辉 张侠 王慧婷

摘要:基于当前发票电子化在企业信息管理系统的深度应用,本文提出构建新型企业级发票池综合管理平台的处理解决方案。同时,利用成熟的大数据技术优势进行技术框架设计,构建高并发,高可靠性服务平台,为业务系统提供发票数据支撑,为税务指标监控与发票综合分析等提供数据支撑。

关键词:大数据;数据挖掘;电子发票

中图分类号: TP311        文献标识码:A

文章編号:1009-3044(2020)34-0027-02

当前,“金税三期”全面升级,“互联网+税务”持续推进, 增值税发票电子化及新税控应用模式转变实质上是整个发票管理体制的重大调整和变革,集团型企业税务管理必须主动适应新形势,向数字化运营、智能化管理转型。

基于国家电网公司在江苏、福建、山东等省电子发票池综合管理平台的应用实践得出,企业电子发票池综合管理平台建设已成为推进财税管理信息化的重要举措。大中型企业利用大数据与云平台技术优势,对接税务总局大数据平台,采集进销项发票全量数据,形成企业级“发票池”。依托此平台,解决企业增值税发票多业务部门、多入口验票处理,多业务系统重复应用、月底海量发票集中登录税局网站,扫描或勾选认证时效性差等问题。

进而实现发票纵向数据全量贯通、横向数据全面整合,基于发票全量数据、指标数据和关联数据展示,实现财税管理全过程、全视角洞察。

1 业务与技术研究

1.1 业务研究

从当前多业务链条综合分析来看,各类业务的交易结算过程按照业务环节不同,分布在各业务系统、财务系统、资金系统中进行处理;从交易业务单侧链条看,合同签约、收/发货、服务提供/确认、发票开具/接收、财务结算、资金收付等交易环节分布在各业务管理部门及信息系统中;从交易双方的全链条看,目前尚无针对购销双方交易结算过程进行监管的信息化手段,尤其对于公司外部客户及供应商而言,缺乏交易数据监管的系统支撑。

结合国家电网等大中型企业的管理应用实践分析,建立财税系统与企业级发票池一体化应用体系,确保财务数据与发票全量数据实时核对并对差异提出预警。另一方面,在发票认证所属期经过筛选后,把符合认证的增值税专用发票进行批量勾选,直接在企业发票池发起认证,并自动核对发票金额与凭证过账金额。此应用模式改变多岗位手工核对税票与账务一致性,税务专责登录税局网站勾选认证低效烦琐等传统工作模式。基于入池后的巨量发票信息,结合实时获取的税局发票底账数据,企业可积极利用宝贵的涉税数字资源,针对增值税发票数据做大量涉税分析,并对发票状态全程监管进行深度探索。

通过企业级发票池综合管理平台建设,实现票据业务全过程、全角度展现,确保发票信息更新及时,业务信息深度共享。以企业数据中台建设为契机,依托发票池基础数据的广泛聚合,打造企业财税智慧应用中心。基于全量发票数据关联分析,配置灵活拓展的财税洞察应用场景,改善用户数据应用体验;依托大数据和发票云平台等技术支撑,打造基于发票平台的高阶数据服务,形成财税数字管理超级视野。

1.2 系统设计和实现研究

搭建企业级发票池综合管理平台,在设计时需考虑对海量数据的处理分析,传统关系型数据库技术对于海量数据的处理已不能够满足要求,不但开发成本高、效率低、扩展性能差,最大的问题是难以满足业务发展需求,数据量一旦增大,这部分问题将成为瓶颈。然而,基于大数据技术能够很好地解决这个难题,且其成本低、扩展性能好、数据安全可靠等优势。

系统的基本设计思路是:从数据层、服务层、应用层三方面进行设计。数据层包括数据源、数据接入、数据存储,其中数据源包含手工录用、集成税局抵账库、开票终端等;对数据源的接入方式包括利用kafka接收实时数据、OCR识别发票信息录入、http接入第三方数据集成。数据存储分为传统关系型数据存储和基于hadoop/hbase/hive/redis的分布式数据库。其中,热点数据存储到内存数据库Redis中,可提供微秒级别的响应速度;实时非结构化数据存储到分布式数据库Hbase中;非实时类数据存储到hadoop/hive中。服务层包括数据分析和数据服务两个模块,数据分析主要通过大数据分析平台spark、impala等工具对数据进行数据挖掘,分析处理(采用机器学习等),生成报表,提供管理决策支持;数据服务主要采用微服务架构,以微服务方式对外提供各种数据可视化、数据预测等服务;应用层主要提供企业门户portal、移动终端接入、分析功能;系统整体架构设计如下:

2 关键技术研究

整个解决方案的实现关键在于几个重要问题的解决,其中发票全量入池、发票认证和数据分析是重要的数据处理逻辑模块,以下对这3个模块进行详细描述。

2.1 发票全量入池过程

随着接入用户数的快速增长,发票数据源的多样化,对发票全量入池处理环节提出了更高的要求。因此,通过引入分布式并行计算、实时处理技术与分布式存储技术,改造与关系数据库混搭的技术架构,提高发票录入的处理速度。

其中,企业发票底账的获取,需要构建与国税验证云服务平台间的数据通道,通过内外网电子底账代理服务定时从税局获取企业所属增值税发票底账数据信息;实体发票信息的获取,通过统一发票签收入口规范,利用OCR识别技术或扫描二维码技术提取增值税发票相关信息。

以增值税专用发票为例,表结果设计如下:

2.2 发票认证过程

发票认证是构建与国税增值税发票选择确认平台的数据通道,通过勾选发票信息并触发认证请求,更新发票认证状态。具体方案为通过restful、webService形式将当期需抵扣、退税、代办退税的发票数据采用JSON或XML的格式以POST方式提交参数到通道,通过通道发送给当地税局验证发票有效性,通道将税局的认证结构异步返回给发票池。

2.3 数据分析过程

发票池数据信息为省公司发票大数据分析提供基础数据源,根据采集到发票池中的发票数据,运用大数据和云计算等先进技术,结合税务稽查对企业发票全量数据进行统计分析。下图以国家电网某网省公司购电费结算业务场景为例,描述发票签收、状态监控、发票认证、账税核对、发票综合分析等整体分析过程。

如图所示,查询和分析的种类较多,为满足各类型分析计算需求,平台采用流计算、内存计算、批量计算和查询计算四类计算能力。其中流计算主要用于对业务执行过程中实时产生数据的即时处理,其一般特征是处理不落地数据、计算过程不使用历史数据、即時响应要求很高;内存计算主要用于对存储在内存中的数据做即时处理,其一般特征是处理过程不与持久化数据做交互、需要使用的历史数据提前加载到内存中、即时响应要求很高,如发票过账会计凭证生成;批量计算主要用于离线独立执行的计算任务,其一般特征是计算过程主要使用历史数据、往往服务与某个特定的场景和需求、往往对计算过程的实现和数据格式有特殊需求,如发票入池;查询计算基于分布式文件存储,提供类似SQL的查询分析技术,将查询语句转译为并行的分布式计算任务,主要是MPP数据库、Hbase的直接查询。

3 结束语

成熟的大数据技术为发票池平台建设提供了一个稳定且有效的数据保障、数据处理、数据分析的解决方案,在现代财税改革大背景之下,将体现其越来越重要的自身价值。本文从业务流程及技术实现两方面给出了解决思路,并验证了可行性。

未来随着公司数据中台及业务中台战略的逐渐落地,结合微服务微应用的架构方式形成独立的大数据发票服务平台,为企业财税信息化建设提供更优质的服务。

参考文献:

[1] 原学军,张帅,吴凡,等.分布式账本技术在业财融合中的应用研究[J].中国市场,2020(5):155-156.

[2] 冉迅,袁建华,刘玉国,等.基于负载均衡的移动发票管理系统研究[J].计算机与现代化,2016(10):121-126.

[3] 韩荣鑫,杜青,郭淳,等.电力企业供应商服务大厅增值税专用发票业务优化研究[J].电力大数据,2019,22(1):35-40.

[4] 宋瑜辉.基于MongoDB存储和分析辅助决策系统中的海量日志[J].科技创新与应用,2019(33):5-8.

[5] 毋毅赵康.基于大数据平台的电网全业务数据分析域研究[J].电脑知识与技术,2016,12(34):15-17.

【通联编辑:唐一东】

猜你喜欢

电子发票数据挖掘大数据
基于并行计算的大数据挖掘在电网中的应用
电子发票对会计的影响探讨
一种基于Hadoop的大数据挖掘云服务及应用
基于GPGPU的离散数据挖掘研究