少数民族文字文档识别系统问世
2007-01-30 08:14
来源:科学时报
由教育部组织研发的“多体蒙古文(混排汉英)印刷文档识别暨统一平台少数民族文字识别系统” 1月29日通过鉴定。该系统由清华大学教授丁晓青主持研制,由清华大学、内蒙古大学、内蒙古师范大学、新疆大学、西北民族大学的40多位科研人员参与研制,前后历时8年之久。系统在汉字和英文文档识别的基础上,将我国最主要的四种类型六种文字的少数民族文字,即蒙古文、藏文、维吾尔文、哈萨克文、朝鲜文和柯尔克孜文(混排汉英)文档识别综合集成在一个统一的平台系统中,使我国最主要的少数民族文字(混排汉英)文档能够识别输入计算机。系统良好的扩展能力,很容易扩展应用于少数民族文字文档的识别。同时,该系统还支持阿拉伯文的识别。
最新完成的多体蒙古文(混排汉英)印刷文档识别系统,能识别印刷多字体的蒙古文字符和文档,并能识别处理多字体蒙古文字符混排汉英的文档,是集版面分析、文本行字切分、识别、纵向文档图文对照编改等技术于一体的完整的蒙古文文档识别的实用系统。文本识别率可达96.89%,并可经过形名变换输出Unicode编码。
鉴定委员会专家一致认为,“多体蒙古文(混排汉英)印刷文档识别暨统一平台少数民族文字识别系统”在国内外首次在统一平台上解决了实用的多字体印刷蒙古文文档及其混排汉英的识别问题,并在国内外首次完成了在统一平台上蒙、藏、维、哈、朝鲜、柯、(混排汉英)文档识别的综合集成平台和系统,其主要技术指标达到了国际领先水平。
一周排行