||
ShopSign: 大规模中文标牌图像数据集发布了! 共计25770张商铺标牌图像。
希望该数据集能够促进汉字场景图像的识别研究! 目前,汉字识别的正确率不超过50%! 甚至更低。
为了构建ShopSign, 我在河南大学组织了40名学生(研究助理),另有10名标注人员,历时两年多,纯手工构建了一个大规模的中文场景图像数据集。该数据集的特点是均为商铺标牌(匾额),共计25,770张图像。 横跨北京、上海、新疆、福建厦门、辽宁、黑龙江、内蒙古(呼和浩特),以及河南的郑州、开封,及商丘、周口、信阳的县级市,及城市中的落后地区(城市中的郊区)。
该数据集上拟研制的技术,对于电子地图、基于位置的服务等领域具有重要作用! 很多图像都自带有GPS位置信息!
图像几乎全部用手机拍摄,少部分用单反相机拍摄。由于汉字的特点,该数据集极为稀疏和不均衡。 由于没有第三方平台和公司的资助,我们耗时两年零四个月才完成该数据集的收集及标注加工。
尤其值得说明的是,很多有代表性的图像大多是我本人亲自采集的!
【街景店铺(中文)牌匾图像数据集】’shopsign - The Website of Our Shop Sign Dataset (a large-scale natural scene images with Chinese texts)'
GitHub: http://t.cn/EJR9dix
paper:《ShopSign: a Diverse Scene Text Dataset of Chinese Shop Signs in Street Views》(2019) http://t.cn/EJR9diJ
微博大v爱可可报道了这个数据集。
该数据集将全部对外开放,不做任何保留。尤其是不保留测试集的标注。
欢迎来信合作! 希望大家多多提意见!
张重生
河南大学(cszhang@henu.edu.cn)
arxiv论文地址: https://arxiv.org/pdf/1903.10412v1
github地址: https://github.com/chongshengzhang/shopsign
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-9-27 09:56
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社