首页 > 共享知识库

浅析图片识别在财务领域的应用

*本文来自令才科技CEO王泽投稿,欢迎大家投稿!

一、图片识别现状

人工智能在财务领域的应用有两个方向:

一个是数据应用,即数据模型建规则,执行规则、验证规则看偏差,通过数据分析能够更加细化、精准进行历史分析及未来预测。

另一个是数据获取,即图片识别,通过机器把各种纸质信息转换成图片,然后通过图片识别技术转换成结构化数据用来做决策、分析。

最早的时候,财务对图片识别并无兴趣,即使是与人工智能的结合,可能大家并未看到太多业务场景。但是随着税务的开放我们看到了发票验真可以实现自动化,随着移动互联网的应用看到了越来越多的企业尝试移动报销,图片识别被越来越多人提及。

本篇来聊一聊关于图片识别的技术,以及此技术在财务领域可能的应用场景。

二、图片识别需求

首先还是聊需求和痛点。

图片识别是一个纯粹的基础性技术,对于财务人员而言,一般说有个技术可以把影像文件转化成结构化数据,图片识别不是第一需求。换个角度从财务工作来看,通常会遇到以下问题:

1、发票验真

同事提交发票要入账付款,发票需要验证真伪,传统方式是人工登陆税务局网站输入相关信息后逐个查询。此工作能否实现自动化?

2、单据审核

会计岗每天收到大量原始凭证,需要进行合规性、真实性审核。企业需要大量会计人员,能否有自动化方案替代人工?

实际上,发票的真伪验证也是原始凭证审核的一个环节,只是,目前市场上很多需求只关注在发票验真,并未有太多人提及所有原始凭证的审核。

3、记账

会计岗审核原始凭证是第一步,完成后需要根据记账规则选择核算科目,确定核算科目是否可以自动化?

4、财务风险分析

财务风险分析是站在财务的角度分析业务风险;越能还原业务本质,就越能发展问题。原始凭证是第一手业务信息,再结合其他电算化信息,能够把业务看的更完整。而原始凭证信息在纸面上或者影像化文件上,如何获取此类数据进行量化分析?

并且,目前人工智能的应用还是依靠历史数据训练来实现,数据如果没有,如何谈人工智能?

当然,目前的业财一体化、集中采购可以减少原始凭证的产生,通过规则映射可以实现自动记账生成核算科目。

三、场景解析

以上4个场景可以发现,都有一个共同的环节,即获取原始凭证上的信息,之后才能根据不同的规则完成业务需求。

传统模式下,人需要看发票上的关键信息后,才能填写到税局网站,然后根据网站上显示的信息与发票打印信息一一比对;人需要看原始凭证上的所有信息,根据审核规则完成所看到信息的比对,并根据记账规则选择核算科目;只有把纸质或者影像化数据转换成计算机能够计算的结构化数据,才能做各种数据分析和数据挖掘。

分四个场景再详细说明一下识别技术如何应用解决业务场景。

1.发票验证

共享模式下,发票扫描进入影像池,后通过OCR识别全票面信息(约15个字段);票面信息与抵账库数据完成真实性验证。验真规则非常简单,设置好15个字段信息,完全一致通过,有任何不一致提示。

市场上还有一种方式,识别模式与扫描仪一体,即在扫描同时完成识别,扫描的影像进入影像池,识别的数据去验真。

完整图例如下:

通常情况下,第二种方案扫描后马上识别的识别率更高。

原理是:第二种方案的识别模型是在扫描仪,在图片未压缩的前提下识别,图片像素更高、识别正确率更高。第一种方案在进入影像池后识别,图片扫描后传输前会压缩处理,原因是全国各地扫描的影像传输到影像池服务器并存储,所以一般影像系统会把图片压缩至300DPI,这个值正好是肉眼能看清,传输速度和存储也合适。但是,300DPI大概1M或者几百k,与压缩前4-6M的图片像素比,识别率肯定会下降。

扫描后识别方案的代价是,专属扫描仪,并且识别模型更新不及时。市场常见还是第一种方案。

2.单据审核

单据审核的信息来源有两个,一个是原始凭证,共享模式下来源于影像;一个是提单信息,共享模式下在报账系统的全部单据信息。

如果要实现自动审核,一方面使用图片识别获取到原始凭证上的有用信息,一方面建立审核规则模型。审核规则需要那些信息,就让识别模型自动获取那些信息。

图例如下:

在这里的识别有一个问题。目前的识别技术,对标准化模板、识别信息位置固定之类图片(发票、身份证等)的识别率较好,对于无规则的其他原始凭证图片,尚不能达到业务需求。

审核规则相对发票验真规则涉及的经济事项很多,复杂度也更大,需要在规则模型设计上用产品化思维下更多功夫。不过即使再复杂,技术上并不需要人工智能,传统的软件开发技能即可。

3.记账

如果单据审核能够实现,记账更容易轻松搞定。只需将记账所需的信息增加至审核识别环节,识别后的信息进入记账规则模型中即可。

在此环节,记账所需要的结构化数据可能与审核所需数据相同,也可能不同。所以对于业务复杂的公司,需要在识别环节综合考虑,一次性完成数据获取。

当然,记账环节还有其他两种情况,一种是无需原始凭证信息,根据报账系统的提单信息如费用项目、预算段值通过规则映射到核算科目。一种是多元化的大型企业,记账规则复杂,人工无法根据特定段值通过规则映射确定核算科目,也无法根据原始凭证信息通过记账规则模型确定核算科目。这里就用到了机器学习模型,机器学习模型可以根据历史数据用模型自带规则建立自己的一套确定核算科目的规则,并能够在实践中不断优化自有规则,以实现准确率的不断提高。

4.风险分析

这个场景可拓展的空间非常大。

常规分析中,例如通过识别将发票号码提取后,后台排序就能发现是否有重复号码或者连号;哪些供应商不是对公付款都是个人报销,是否有一些个人报销的供应商都是同一个;发票数据与外部数据对比,供应商地址与公司地址的远近与否,供应商股东或者管理层是否与员工及员工家属有关联。非常规分析,就可以用到大数据、数据挖掘等工具了。

此点略敏感,每个行业有每个行业的关注点,不多举例。但,大数据分析的基础是海量、高质量的数据是毋庸置疑。

四、图片识别关注点

目前市场上识别技术有两种。

一种比较常见即OCR光学字符识别。其原理是将扫描后的图片进行纠偏、补光等预处理,获取图片上文字特征,跟字库进行比对,然后进行后期识别矫正,比如词组等,输出识别后数据。

一种智能识别。其用卷积神经网络替代特征提取,输入图片直接输出文字,无需字库比对。使用深度机器学习技术的识别,对图片的要求更低、识别率更高一些。

1.识别技术评估

除了实际测试之外,需要从以下几个方面去评估:

■ 识别正确率。正确率当然是第一要求,如果识别信息质量不高,还需要大量人工补录,此技术不如不用。

正确率要关注是字段识别率还是整张图片识别率。举例,如果一个图片识别3个字段,每个字段识别正确率是99%,那么整张图片的识别正确率是99%*99%*99%=97.03%。

■ 识别效率。虽然很多人关注,并且在技术PK中会做对比,但是一秒内的技术PK,对于一般业务上的需求是完全能够满足的。

即使是应用在提单环节,拍照后马上识别提单,一秒一张也能接受,但是基于网速的问题,实际体验可能会有差异。

■ 服务方式。是标准化识别模型,还是可提供专属识别模型。标准化识别模型类似阿里、百度提供的识别服务,识别模型是固定的,所有使用方都一样;此模式成本非常低,但识别正确率也不敢恭维。另外的专属识别模型,是可以为企业定制化训练、开发。

对于企业而言,一方面图片类型不同影响识别效果,一方面即使是类似增值税发票类型相同,但是图片获取方式不同(手机拍照或者扫描仪扫描)也会影响识别效果。

当然,如果有标准化识别模型服务商已经将其识别模型训练到能够适应各类图片类型和各类效果的图片,定价要高一些。

■ 运营方式。有公有云识别和私有部署识别两种。

企业太看重信息安全问题的前提下,会选择私有部署,即识别模型部署在企业内部服务器。但目前主流还是公有云方式。一方面,识别对硬件要求比较高,私有部署对企业硬件投入大。另一方面,对于智能识别,公有云模式下能够实现实时训练实时提高识别正确率,私有部署就需要单独提供图片单独训练后再升级私有部署的模型。

■ 新图片类型的研发速度。从技术角度看,基于深度学习的智能识别需要大量服务器并经过一定的数据训练方能达到一定效果。

智能识别在训练图片数量足够的前提下,大概需要2周左右时间能够达到90%左右的正确率。如果要提高正确率,需要增加训练时间,并且可能比2周更长。

■ 图片质量。图片质量受清晰度、倾斜度、光线亮度、像素等因素影响。不同企业获取图片方式不同,图片识别效果可能会大不相同。扫描图片在图片质量方面比手机拍照的要好,识别率也就更高。这也对标准化识别模型提出挑战。

2、识别技术澄清

■ 并不是所有图片都能识别。对打印字体、具有标准化格式的图片识别率会更高一些。

■ 考察识别技术,一方面是正确率,一方面是成本。正确率越高,投入的成本越高,定价肯定越高,不能拿开源或者开放的识别接口与专属的定制化识别模型比。到底是90%还是99%的识别正确率能满足业务需求,还需要根据业务特点评估。

■ 无论哪种技术,无论谁家技术,识别的图片越多,识别正确率就越高,成本就越低,这是肯定的。需要评估在企业现阶段,这个产品、这个服务能否满足现在及未来的企业自己的需求。

■ 现有技术不可能对一类图片达到100%的识别正确率,也不可能对所有图片识别都能达到一个满意的效果。以增值税发票全票面信息识别为例,达到90%的技术已经非常不错。我们需要考虑剩余的10%如何处理。是自己员工录,还是采用财务众包模式。