400-690-0167
【影研之家】图文慧眼金睛,基于AI技术的新一代智能引擎
2022-12-01

现阶段的无纸化办公,首先需要依托于PC和移动设备,一份纸质材料要想实现在PC、移动端的数据分析应用,首先需要对纸质材料进行数字化加工,目前通常利用高拍仪、扫描仪等采集设备进行影像材料生成,接下来会对生成的图片进行OCR文字识别形成文本数据,再接着需要对文本进行要素抽取,形成结构化的数据进行存储,最后将结构化数据提供给业务系统进行数据分析和利用。



在将生成的图片转换形成文本数据这一环节,需利用OCR技术进行图文识别,但由于纸质文档的形态越来越复杂化、多样化,低抗噪、小样本、单一字体的传统OCR已无法满足文档“多样性”的识别及利用需求。


另一方面,从用户采购利用的角度来说,传统的OCR多以SDK形式提供给软件应用开发商做二次开发利用,识别能力与应用系统绑定,需要为多个系统提供识别服务时,通常需要多次采购、部署、对接;识别服务也多以后台方式运行,能力使用情况无法实时掌握,数据无法实时分析,出现问题无法及时排查。因此,业务应用上亟需一款集约、稳定、准确的OCR图文识别能力引擎。


汉王影研图文识别能力引擎正是基于以上需求痛点专门打造,引擎具备以下三大特点:

一是安全无忧:完全在内网或政务专网内部署,数据不外漏,保证信息安全;

二是快速灵动:采用新一代云计算架构,支持高并发,成熟稳定,易于整合,面对海量数据也能快速灵动;

三是精准可靠:基于AI机器学习、深度学习技术,包含文字识别、图像识别、图像处理、材料识别、文本解析抽取等功能,识别处理解析准确率高、速度快。


汉王影研图文识别能力引擎从功能上围绕电子卷宗电子档案电子文件同步生成深度应用等应用场景专门打造。引擎包含12项能力组合,不仅仅是文字识别,还涉及CV图像处理OCR文字识别NLP自然语言处理技术,并利用海量行业数据进行深度学习,生成模型后不断优化应用。



一、产品功能


1、精准识别


印刷体文字识别:识别准确率高达99%;

手写体文字识别:识别准确率高达95%,高于人眼辨认;

表格识别:可将表格线精准还原,一键导出EXCEL;

证件识别:支持20+类常见个人企事业证件材料;

图像元素检出:支持印章、手印、签字、图片、国徽、人像、条码、二维码等10+类元素检出。


2、优化阅览

汉王影研图文识别能力引擎支持双层PDF合成/双层OFD合成,自由复制文本复用;版式精准还原,段落版式1:1精确还原;图像智能处理,“脏图”智能过滤、无惧干扰;材料自动命名分类,支持文件切分、标题提取、文本规则匹配。


3、要素抽取

汉王影研图文识别能力引擎支持NLP结构化、半结构化要素抽取,包含文本内容要素抽取、表格要素抽取、卡证要素抽取。


二、优势亮点


汉王影研图文识别能力引擎基于新一代云计算架构设计,可为工作内网、涉密专网、互联网24小时提供AI识别能力。采用微服务架构,快速灵便,业务应用可根据不同场景进行识别服务的API调用;提供日志记录、权限控制、可视化监控,实时查看能力应用状况;可部署在政务云、公有云、工作内网独立服务器,基于Docker和k8s部署,提供负载均衡,支持弹性扩展,实现一次建设、多系统调用,避免资源建设浪费。


1、识别干扰自适应

针对表格、混排等复杂版面,版面污损,自有手写,扭曲形变,文字划线涂抹,指印扣章,带有底灰底纹的复印证照噪声干扰情况,引擎利用海量脏图进行深度学习,识别效果丝毫不受干扰,不影响识别的准确率。


2、快速优化提升

引擎基于机器学习技术,可结合不同行业的业务数据进行训练,具体的训练流程为:

获取文档材料→进行样本标注→生成深度学习算法模型→大规模算法迭代→引擎服务化→上线部署→人机耦合→循环标注,最终达到持续优化的目的。

可在线搭建深度学习流水线,不断自我完善,成为活化的图文识别引擎。


3、识别速度快

引擎基于常规GPU服务器配置,整机识别吞吐率可达10张/秒,可根据实际业务并发需求进行弹性扩展,支撑批量化、实时同步调用需求。


4、支持多种部署平台

引擎支持X86平台部署,同时支持国产化平台部署,支持飞腾+寒武纪、鲲鹏+Atlas300、海光+寒武纪多种国产化硬件计算资源,支持国家信息化应用创新战略。


5、支持多生态适配

截至目前,汉王图文识别能力引擎经过统信、麒麟、华为、达梦、东方通严格的兼容性功能测试、性能测试及安全测试,图文识别能力引擎满足测试要求,成功与统信服务器操作系统、银河麒麟高级服务器操作系统、华为鲲鹏&昇腾芯片、武汉达梦数据库、东方通中间件完成国产化适配认证,并取得兼容性认证证书。可根据不同项目要求进行快速适配,提供更完善的信创图文识别生态。


汉王影研始终坚持以用户为核心,以OCR识别、NLP自然语言处理等核心技术为手段,通过对用户需求的不断探索,实现技术、产品的迭代升级。在安全、高效提升图文识别质效的同时,响应国家“双碳”战略目标和绿色环保的理念,提升“青山”颜值,做大“银山”价值,实现绿色高质量发展,汉王影研将与合作伙伴一起迎接美好的绿色发展未来。



原文链接:https://mp.weixin.qq.com/s/1RVsNWoBXW3qtDtQQUK-eA