|
西北民族大学于洪志教授带领的藏文信息处理技术研究小组在国家自然科学基金项目"藏文字型的生成与识别"等项目的支持下,以印刷体现代藏文识别为研究目标,完成了9种字体的藏文TrueType字库;通过与清华大学电子系智能图文信息处理研究室三年的合作,完成了实用的"多字体印刷藏文(混排汉英)文档识别系统"。系统具有藏文文档图像输入及版面分析,印刷藏文与汉英混排文本识别,识别后文本编辑(包括文本图像与识别结果对照、识别候选字显示及选择、编辑插入、删除等)功能。藏文白体、黑体等6种字体单字平均识别率达到99.83%,实际藏汉英混排文本的平均识别率达到97.28%以上。
该项目首先应用于藏文系统平台的研制,2001年西北民族大学开发的《藏文视窗平台、字处理软件和藏文网站》获国家科技进步奖二等奖。2004年《多字体印刷藏文(混排汉英)文档识别系统》获北京市科技进步奖三等奖。
(1)藏文字型的设计与生成
设计与生成藏文字型,是计算机进行藏文信息处理的基本要素。课题组设计生成现代藏文字体库1730个,梵文样本库105个;完成了藏文白体、黑体、圆体、竹体、长体、通用体、仿古体、木刻体、石刻体True
Type 字型。
(2)藏文识别
藏文识别属于模式识别领域,根据藏文文稿和藏文字的特殊性,藏文识别研究和OCR系统开发,只能部分借鉴汉文和英文识别中一些成熟的适合于藏文识别的方法和技术,更多的是要根据藏文字、藏文句子、藏文版面自身的特殊性进行全面深入的研究。在此之前,藏文识别方面的论文很少,也都局限于理论探讨,系统开发方面基本上是空白。该课题组解决了藏文字符不等高、不等宽、相似形字符多的难题,实现了纯藏文、藏汉混排、藏汉英混排等多种形式的文档识别。
藏文识别是重要而比较困难的模式识别问题之一,对藏文识别方法的进一步研究,不仅对模式识别的发展和人类认知的研究具有重要的理论意义,而且具有重要的实用价值。 |