马思硕:主数据的应用与数据质量息息相关
栏目:金源最新资讯 发布时间:2024-04-07
主数据的应用与数据质量息息相关。国家电网公司为进一步完善业务应用数据的质量和安全管理,推进建设了主数据管理系统。然而目前主数据管理系统的数据创建效率有待提升

(1.国网北京电力公司信息通信分公司,北京;

2.国家电网公司信息通信分公司,北京; 3.北京国电网络技术有限公司,北京)

摘要:主数据的应用与数据质量密切相关。 为进一步提高业务应用数据质量和安全管理,国家电网公司推进主数据管理系统建设。 但目前主数据管理系统的数据创建效率有待提高,供应商主数据的审核仍采用人工审核。 本文利用汉字OCR技术实现了供应商主数据的自动辅助审核功能,提高了数据质量和维护效率,改善了用户体验,获得了较高的用户满意度。

关键词:主数据; 数据质量; 光学字符识别技术

0 前言

随着国家电网公司信息化工程的进一步深化和推进,公司更加注重业务数据和信息化数据。 数据质量和数据安全已成为公司的首要任务。 当前,信息产业越来越重视大数据的应用,利用现有的业务数据来判断和预测行业和企业的发展。 未来的服务中心、咨询中心的核心也将是数据的分析和处理。 这对信息数据的标准化和质量提出了更高的要求。 通过进一步规范数据、提高数据质量,可以满足大数据时代对数据更加严格的要求[1]。

主数据应用与数据质量相辅相成、相互促进。 主数据管理系统的建设和实施是提高公司数据管理和应用水平、保证可靠数据质量的关键举措。 为了提高数据的一致性、完整性、相关性和准确性,国家电网公司推进主数据管理系统建设,实现了大部分主数据的统一管理[2]。 在公司层面,我们整合从多个业务系统提取的主数据,进行集中的数据清洗,并将统一、完整、准确的主数据以服务的形式分发到企业的运营和分析应用中。 使公司能够有效管理分布式系统中存储的数据并验证数据。

1 主数据管理系统应用现状

国家电网主数据管理系统依托数据资源管理平台,建立主数据管理的标准规范和管理制度。 公司自上线以来,通过主数据管理系统实现了物料、财务、项目、人力资源、营销五大类主数据的集中管理和维护[3-4],提供实时业务系统数据完整、准确。 主数据信息。

主数据管理系统的建设目标是创建低成本、高扩展性、标准化、高质量、可共享的主数据。 主数据管理系统需要实现不同业务系统之间数据传输和同步的自动化,同时保证较高的数据质量。 为保证数据准确性,国家电网公司主数据管理系统创建了数据审批机制。 数据审核包括自动审核和人工审批。 主数据创建申请提交后,系统将通过数据重复检查等简单规则进行标准化和唯一性验证。 经过系统自动验证的主数据申请,必须按照工作流程在线审批后才能入库。

主数据创建效率和准确性是衡量系统的重要标准之一。 为了保证数据创建的效率,对于数据标准化要求较高的主数据,至少设置两级审批流程。 主数据维护的准确性有了很大的提高,但创建效率却不是很理想。 供应商主数据是主数据管理系统中最重要的数据类型。 供应商主数据提交,经过两级审批,最后统一分发,至少需要1天时间。 如果数据量大或者工作比较忙,至少需要1天。 在其他情况下,整个过程甚至可能会延长数天。 对于仓储紧急程度较高的主数据,现有的审核流程无法满足用户的需求。

本文重点针对这一问题进行分析研究,提出一套基于OCR技术的优化解决方案,利用技术创新对上述问题的功能进行优化,并通过解决方案论证、测试部署验证,有效提高了工作效率,改进了主要数据管理系统功能。

2 利用OCR技术实现供应商主数据自动审核功能

2.1 供应商主数据审批功能

主数据管理系统的数据管理模块是本系统的核心。 该模块包括主数据查询、申请、审批等主要功能,以及数据和配置管理、数据分发、报表管理等功能。

用户申请供应商主数据时,将分省(市)公司运维和总部主数据运维两级审批。 批准后,将创建或更新主数据。 据统计,仅2014年,通过主数据管理平台申请创建和更新的供应商主数据就有8.2万条,其中公司数据占90%以上,而该类需要上传的信息数据包括组织机构代码证、税务登记证、营业执照三类电子扫描图像,需要两级审批人员人工比对审核,效率低下,需要大量人力支持。 总部运维情况如表1所示。

从上表可以看出,需要3-6名运维人员,长期的重复工作必然导致效率和准确性的下降。 此外,运维团队还需要承担其他类型主数据审批、电话咨询、工单处理、应用分析、专项工作等诸多工作。 工作量大,运维效率亟待提高。

2.2 OCR技术简介

光学字符识别(OCR)技术是通过检测深色和浅色图案来确定打印或手写文本的形状,然后使用字符识别方法将形状转换为计算机文本的过程[5]。

目前,OCR技术已广泛应用于图书行业、印刷行业等相关行业,对数字和西文字母印刷字体的识别率已达到99.99%以上[6]。 我国从20世纪70年代末开始研究汉字识别技术( )。 目前,国内已有多种成熟的汉字识别技术广泛应用网站推广,印刷体汉字识别成功率在99.96%左右[7]。 例如,北京信息工学院开发的BI-OCR、清华大学开发的TH-OCR等。汉字识别OCR技术原理框图如图1所示。

从图1可以看出,汉字识别的具体步骤为:首先对文本进行预处理,将灰度值转换为黑白二进制值,然后进行图像处理、分析、行分割、字符分割等。汉字文本规范化。 (字符大小、位置、笔划粗细等规格)。 提取特征后,通过将输入的汉字与词典中存储的已知标准汉字特征集进行匹配,即可对输入汉字进行识别。 最后,利用上下文匹配或机器学习等方法进行后处理,进一步提高识别的准确性。

2.3 供应商主数据自动审核功能实现步骤

本研究的具体思路是在不改变原有审批流程和准确性的情况下,进一步提高审批工作效率。 根据这个思路,设计了以下自动审核步骤。

(1) 规范供应商材料格式

由于使用的扫描仪型号不同,操作人员水平不同,需要在分辨率、清晰度、扫描方式等方面对上传图像的质量提出要求。 通过设置输入图像格式的要求,可以大大提高自动审核的能力。 准确性和成功率。

分辨率:统一分辨率为;

清晰度:彩色扫描,文字清晰,边框线条清晰;

扫描方法:拆下上盖,将扫描仪设置为原稿扫描模式。

当用户上传供应商数据时,系统会做出预判。 如果不符合格式要求,将要求用户重新上传。

(2) OCR技术自动审批

为了更好地适应现行系统并保证准确性,自动审批流程保留了原来省(市)公司和总部层面的手动审批。 自动批准可能在三种情况下发生,见表2。

由于主数据审批存在正确的参考文本,前两种情况不会对审批准确性产生影响。 为了尽可能杜绝第三种情况的发生,采用BI-OCR和TH-OCR两种OCR技术进行自动识别,进一步降低审批错误率。 由于两种技术打印汉字的成功率都很高,因此两种识别技术验证正确后即可认为通过审批。 如果机器识别结果两次不同,则未通过自动审批的文件将被标记并转至手动审批。 具体审批流程如图2所示。

(3) OCR自动审批界面设计

系统界面中,除供应商主数据申请流程中对数据格式有一定限制外,在省(市)、总部主数据运维两步审批流程中设置自动审批按钮,自动审批。通过调用OCR识别开发包(SDK)对图片中的文字进行识别并认可,如图3所示。

2.4 供应商主数据自动审核功能实现测试

通过对供应商主数据自动审核功能的多次设计实验,单次自动审核即可达到较高的识别率。 随机抽取110份原件扫描件进行检测,其中工商登记证、税务登记证30份,组织机构代码证40份,身份证10份。 字符识别率达到94%,现场识别率达到90%。 。 利用主数据自动辅助审批流程,采用手动、自动双重审批机制,准确率达到100%。

3 效益分析

通过以上功能优化,工作效率得到了极大的提高。 通过OCR技术的应用,大量的日常审批任务可以由机器自动完成,节省人工成本。 通过这样的功能优化,不仅提高了效率,也提高了用户满意度。 下面对功能优化带来的效率提升和精度提升进行定量分析。

3.1 效率提升

由于熟练运维人员的工作效率是一定的,因此本研究采用工作量进行效率分析。

在供应商主数据审批功能的优化中,采用两种技术,一张图片的识别审批时间约为1s。 供应商的公司数据对应三个必要的文件。 采用两种技术独立串行审批耗时约6s,并行审批仅需3s左右。 这三份必备文件,两次自动审批通过率约占60%。 转人工审批的单据中存在关键字段字体重叠、打印位置不正确等问题,导致无法自动审批。 大约50%。 也就是说,机台认可数量可以占到总数的80%左右。 机辅审批工作量统计如表3,效率提升统计如表4。

从表4可以看出,审批效率提升了5倍左右,且审批项目越多,效率越高。 对于一般的审批工作量,一名运维人员已经完全可以胜任。

3.2 精度提升

众所周知,人类的注意力处于变化状态,受到身体状况、情绪、睡眠状态等多种因素的影响[8]。 不过,机器的注意力可以认为是不会下降的,甚至随着机器学习的进步,识别准确率还会进一步提高。

由于有两级审批,人工识别准确率在99%左右。 机辅审批通过两种算法进行判断识别,识别准确率保持在99.99%以上。

4。结论

主数据管理作为数据治理的核心部分,是企业获得完整、可信的数据视图的必由之路。 本文研究了国家电网公司主数据管理系统的相关功能,采用先进的OCR技术实现数据的自动辅助审批。 在实际应用中,运维效率和运维质量得到了极大的提升。 据测算,运维效率提升了3倍左右,让运维资源更多地向咨询和应用分析倾斜。 在改进运维、提高质量的同时,也提高了用户服务满意度。

下一步建设和运维工作重点是建立有效的主数据运维体系,挖掘主数据运维潜力,切实提高主数据运维质量,充分体现主数据运维的作用。数据是企业中的一种无形资产。 核心价值。

参考

[1]张忠忠. 汉字识别技术综述[J]. 语言与文字应用,1997(2):77-86。

[2]马玲. 基于主数据管理的电网调度数据集成[D]. 昆明: 云南大学. 2014年。

[3] 岳晓峰,焦胜熙,韩立强,等。 光学字符识别技术及其在模式识别中的应用综述[J]. 河北工业科技,2006,23(5):312-316。

[4] 陆东. 山东电力ERP与SG-MDM实现项目主数据垂直整合[J]. 电力信息化。 2011, 9(3): 28-31。

[5] 张扬森,于世文。 文本自动校对技术研究综述[J]. 计算机应用研究,2006,06:8-12。

[6]李成成,白涛,赵淑芳网络推广公司,等.基于OCR的竖排文本校对研究与实现[J]. 计算机应用研究,2006,(4):234-236。

[7]贾红龙. 面向服务架构(SOA)的主数据管理(MDM)和流程监控(PM)研究[J]. 信息技术与信息化,2010(2):78-82。

[8] 严鲁林. 利用SPSS对大学生学习注意力的多元线性回归分析[D]. 兰州: 兰州大学. 2012年。

文章原创于金源网络科技有限公司:http://haimianbeibei.com/