档案数字化

档案OCR识别
分享到:

档案OCR识别

回顾档案现代化管理发展历程,经历过两次实质性的跨越式发展:第一次,二十世纪八十年代开始,档案目录实现计算机检索,建立可供计算机检索的档案信息目录数据库(包括案卷级和文件级目录)。第二次,从二十一世纪初开始,档案信息数字化的管理与利用,即通过对档案信息的电子扫描,建立档案信息图像文件以及全文信息数据库,使用户可以做到在授权范围内实现档案信息任意关键词的全文检索和查阅。

第一次的跨越式发展实际是从传统的手工管理向计算机数据库管理的转变,也就是机读档案目录替换纸质档案目录检索,其关键技术是依托计算机数据库技术。由于计算机扫描技术和存储技术应用费用昂贵、工序繁杂,以及档案形成部门的电子文件还没有完全普及,所以在此过程中很少涉及到全文检索和利用。而第二次跨越式发展实质是彻底改变了传统档案信息管理中目录级检索和调卷的方法,真正把纸质档案信息通过数据录入或计算机扫描技术以及OCR技术把档案信息以数据库和图像格式保存在计算机存储设备上,实现档案信息的全文检索和阅读。其关键技术就是把文本类电子文件中档案信息提纯出来,以数据库形式存放,提供检索和利用,或者在案件级和文件级目录下挂接电子文件,如图像格式(TIF、JPG、PDF)等,实现不进库房,不调案卷,不翻实体,而利用相当于原始纸质档案的信息,缩短了利用时间、拓展了利用人群、增加了利用效果、提高了工作效率。

在扫描生成页面后,OCR技术针对印刷体的页面文件一般识别率可达98%以上,在自动纠错、人工校对后,基本符合档案数字化的要求。从扫描和识别的速度分析,一般中档扫描仪每分钟扫描在40-60页面左右,配合主流OCR识别软件以及处理、分析、校对每页档案全文数字化用时在1分钟以内,装订50个页面的案卷数字化时间在30分钟左右。与人工单字符输入法相比,工作效率提高近十倍,工作强度成倍减少。运用OCR识别技术进行档案全文数字化,工作人员可以长时间连续工作,而纯人工输入连续工作的后果是差错率的居高不下,从而影响档案信息全文的检索和使用。







Copyright © 2023 库盛睿存(上海)档案信息技术有限公司 All Rights Reserved 沪ICP备2023021695号

Copyright © 2023 库盛睿存(上海)档案信息技术有限公司 All Rights Reserved 沪ICP备2023021695号