由百度联合马来亚大学、华南理工大学、西班牙巴塞罗那自治大学-计算机视觉中心、中国图象图形学会主办的ICDAR 2019-LSVT(Large-scale Street View Text with Partial Labeling,弱标注大规模街景文字)、ICDAR 2019-ArT(Arbitrary-Shaped Text,任意形状场景文字)国际权威竞赛任务于5月圆满结束。此次竞赛共吸引来自业界顶尖技术团队、高校及科研机构共118支团队参赛,有效提交结果总计339个。经过两个月的激烈角逐,ICDAR 2019-ArT竞赛五项子任务的冠军分别由中科院(文字检测)、旷视(Latin文字识别)、韩国NAVER(Latin中文混合文字识别)、北京航空航天大学(Latin文字、Latin中文混合端到端文字识别)获得,ICDAR 2019-LSVT竞赛文字检测和端到端文字识别两项任务冠军由腾讯团队获得。
精英荟聚ICDAR2019 桂冠引群雄争夺
ICDAR“Robust Reading Competitions”竞赛是评估自然场景/网络图片/复杂视频文本提取与智能识别新技术进展的权威国际赛事及评测标准,竞赛中涌现出诸多方法持续推动业界新技术的创新与应用。在ICDAR2019百度发布的两项极具挑战的竞赛任务中, ICDAR 2019-LSVT竞赛数据包括5万张精标注街景图像、40万张弱标注街景图像,聚焦探索大规模数据场景下深度学习文字识别能力极限。ICDAR2019-ArT竞赛数据总计10176张,是业界最大的任意形状场景文字集合,聚焦推动自然场景下任意形状文字检测识别能力新突破。
各工业界与学术界顶尖团队充分发挥各自技术优势,针对竞赛任务不断优化创新方案与算法效果,经过激烈角逐的比赛结果展现出大规模街景文字识别深度学习、任意形状文字检测与识别技术新高度。百度联合学术界将持续对该竞赛集合及榜单进行维护,为推进相关视觉AI技术领域不断发展贡献力量。
图1. ICDAR 2019-LSVT竞赛结果示例:人工标注 vs 算法效果
图2. ICDAR 2019-ArT竞赛结果示例:人工标注 vs 算法效果
百度OCR实力强劲 多场景应用实践丰富
此次ICDAR 2019国际竞赛任务推动了大规模街景深度学习文字识别及任意形状文字识别方向的发展,是一场学术交流与技术碰撞的盛宴。而在ICDAR 2019国际竞赛中,百度OCR承担竞赛组织者角色,这也进一步加强了百度的国际影响力。
百度曾在2015至2019年期间多次获得ICDAR 2013、 ICDAR 2015、ICDAR 2017-MLT、ICDAR2017-RCTW权威集合检测、识别、端到端各项任务榜单第一,处于业内领先水平。近两年来,百度OCR也多次在CVPR,ICCV,BMVC,ACCV,ICDAR等会议上发表论文,此次ICDAR 2019有两篇新工作被接收。"An End-to-end Video Text Detector with Online Tracking" 致力于解决视频OCR检测问题,将视频文字检测和在线跟踪任务高效集成到统一、可训练的网络框架中。"EATEN: Entity-aware Attention for Single Shot Visual Text Extraction"提出端到端的结构化信息提取方法,同时公开了结构化信息提取领域的大型数据集合。
百度不仅致力于OCR技术领域的纵深研究,同时也是“领先且实用AI视觉技术”的坚定实践者。多年实践经验积累形成了丰富的百度OCR产品矩阵。通用系列文字识别能力不仅能高精度的识别文字,还支持中、英、日、韩、法等十国语言的识别以及置信度、位置等信息的返回;卡证识别能力不仅支持对身份证、银行卡、护照、名片等常见卡证的识别,还支持卡证采集、分类、属性判断等能力;票据识别能力不仅支持财务场景全品类识别,还支持金融、医疗等场景票据识别;针对终端文字识别场景,百度领先的模型压缩技术应用于所有OCR终端产品,OCR终端SDK与多家手机厂商达成合作,将识字能力赋予手机。目前,百度OCR产品能力已超50项,在各行业实现了诸多技术突破与产品落地,覆盖了财务、银行、医疗、政法、教育、交通、电商、快递等场景。
未来,百度会与各企业持续探索OCR的落地可能性,让OCR赋能更多企业,同时也将持续秉持普惠的价值理念,在产业实践中不断打磨,持续赋能服务客户,持续打造领先且实用的AI技术,用科技的力量让复杂的世界更简单。