印刷体汉字识别系统四
2021-07-23 来源:普洱机械信息网
印刷体汉字识别系统(四)
六、结论与展望
总体来说,近几年来国内对印刷体汉字识别的研究还是相当深入的,也取得了很大成绩,使系统的识别率不断上升。目前印刷体汉字识别系统的应用已经相当成熟。例如,刚刚通过国家教委组织的鉴定的清华TH-OCR97综合集成汉字识别系统,对中等质量的样本,识别率已经可以达到99%左右或更高。不过,这些系统还存在着一些可改进之处:
从识别角度
(1) 汉字识别率总是汉字识别中最重要的指标,应该达到更新的高度,从而最大程度地减少用户校对、修改的工作量。
(2) 印刷体汉字识别的鲁棒性(Robustness)还不够强。Robust在英文中是“健壮的”或“强的”之意。鲁棒性可以理解为识别系统对于不同质量、不同字号、不同字体的文本图象表示出来的适应性。在文字识别中,识别系统的鲁棒性尤其反应在随着印刷质量的下降,系统误识率的上升趋势上。
目前的OCR系统都对扫描图象的质量有一定要求,扫描亮度不能太暗也不能太亮,保证文字的图象即不会暗成一个黑块也不会亮得笔画发生很多断裂。这就对用户的使用提出了较高要求。
印刷文本的质量可能千差万别,一般用户对扫描仪的操作也可能不够合适,这往往造成识别图象的质量不佳,为使任何未经训练的用户都能用好OCR系统,系统的鲁棒性必须不断提高。
(3) 汉英混排文本的切分仍不够成熟。与识别技术相比,对切分的理论和方法还缺乏系统的研究和理论。随着汉字识别率的上升以及汉英混排文本的增多,切分错误在所有错误中所占的比重不断上升,怎样使文字正确分割变成了另一个还未很好解决的问题。
用户界面和自动化程度方面
(1) 扫描仪自动亮度调节,无须用户选择门限,自动随文本种类、印刷质量不同选择合适的扫描仪亮度门限,以保证识别率。
(2) 版面的自动分析,无需人工干预,可以将印刷文本材料,如报纸、杂志等,上面有各种插图、表格、花边,且同时存在横、竖版面等加以区分和作相应的标记,以便分别处理。
(3) 中文印刷表格的自动录入,对于中文印刷表格,可以进行框线的自动检测、栏目自动切分,直至将各栏目中的内容识别出来,并且可以和数据库直接相连,完成印刷表格自动录入至数据库的任务。
(4) 版面自动恢复,仅有文字识别往往不能满足实际需要。能够保持原来的排版形式、字体信息、表格和插入的图形图象,以便在Word、北大方正等排版软件中直接修改,一直是许多用户的梦想。
(5) 系统提供用户自学习功能,使用户自由地扩大专业识别字符集;以及适用于各种应用环境的汉字识别系统。例如:MS-DOS环境、Windows环境和UNIX环境下中文OCR版本,满足不同用户的需求。
其它方面
(1) 系统总体性能的进一步提高。解决象报纸这种栏目多而位置排列复杂的印刷文本材料的版面自动理解;利用自然语言理解知识进行识别后处理;进一步提高英文的识别率和适应性,降低系统的误识率,等等。
(2) Internet/Intranet上的网络版本。充分利用网络上的资源及计算能力,提高系统的性能,使用户能够更方便地协同工作。
(3) 系统固化以及系统各部分的质量和性能的稳定提高。
(4) 扩大OCR核心技术的应用范围,开发更多的应用系统,并将研究成果迅速转化为产品,提高软件的商品化水平,使之能大量地走出国门,走向全世界。
这些都是汉字识别系统急待解决的问题,也是汉字识别技术今后努力发展的重要方向。
声明:
本文来源于网络版权归原作者所有,仅供大家共同分享学习,如作者认为涉及侵权,请与我们联系,我们核实后立即删除。
- 上一篇:江苏浙江最严限气限产来了包装厂或临督查风暴
- 下一篇:亚洲印刷业仍具发展潜力