[ECCV 2022] Levenshtein OCR(已开源)

AI 1年前 (2022) admin
670 0 0
[ECCV 2022] Levenshtein OCR(已开源)

本文简要介绍ECCV 2022录用论文“Levenshtein OCR”的主要工作,该论文提出一个新的场景文本识别模型LevOCR。相比于过去的方法,LevOCR主要有两个创新点,分别为利用Vision-Language Transformer作为backbone来更好地聚合视觉特征和文本特征,和利用了Levenshtein Transformer的解码策略,从而可以同时实现并行解码和动态长度变化,并且具有更好的可解释性。LevOCR在场景文本识别的标准benchmark上实现了SOTA效果。本文的代码将会开源。

[ECCV 2022] Levenshtein OCR(已开源)

图1 LevOCR的解码过程。在视觉模型完成识别后,对视觉模型的输出或者空白的字符串迭代地执行删除、插入占位符和将占位符识别为码表中的字符这三个步骤,从而得到更准确的识别结果.

一、研究背景



场景文本识别作为计算机视觉一个基础且活跃的研究课题,有着广泛的应用。由于存在文本风格和形状多变、光照不均、受到遮挡和扭曲等问题,在真实场景中应用场景文本识别模型仍然是一个具有挑战的任务。
从自然语言处理领域中获取灵感来解决计算机视觉领域的问题正逐渐成为趋势,比如ViT[1]、DETR[2]和Swin-Transformer[3]。同样,在场景文本识别领域,一些最近的工作[4,5]开始通过融合视觉和语言这两个模态的信息来实现更高的识别准确率。

受前面这些工作的启发,作者提出了一个新的场景文本识别模型LevOCR。LevOCR是对ABINet[5]的改进,相比于ABINet,该方法有两点关键的不同之处。首先,LevOCR利用Vision-Language Transformer[6,7]作为Backbone,这使得视觉信息和语义信息可以更好地交互。其次,也是最关键的,相比于ABINet在每次迭代中重新预测整个字符序列,LevOCR采用了更加细粒度的方法,即对上一次迭代的输出结果预测字符级的修改(删除或者插入一些字符)。这既使得LevOCR可以在迭代的过程中比ABINet更灵活地调整字符序列的长度,也使得LevOCR有更高的可解释性,能够通过可视化方法来分析模型做出某个修改操作的依据。

二、方法原理简述



[ECCV 2022] Levenshtein OCR(已开源)图2 LevOCR整体框架图
整体结构
LevOCR的整体结构如图2所示,主要由Visual Model、Textual Model、Transformer Blocks和3个Action Decoder构成。给定一张输入图片[ECCV 2022] Levenshtein OCR(已开源),先用Visual Model对其进行处理,得到视觉特征[ECCV 2022] Levenshtein OCR(已开源)。将[ECCV 2022] Levenshtein OCR(已开源)输入并行注意力解码器,得到初步的识别结果[ECCV 2022] Levenshtein OCR(已开源)
为了对视觉特征和文本特征进行融合,LevOCR一方面将[ECCV 2022] Levenshtein OCR(已开源)输入Textual Model,得到文本特征[ECCV 2022] Levenshtein OCR(已开源),另一方面用两层卷积对视觉特征[ECCV 2022] Levenshtein OCR(已开源)的高度进行下采样,得到[ECCV 2022] Levenshtein OCR(已开源)。得到下采样后的视觉特征V和文本特征[ECCV 2022] Levenshtein OCR(已开源)后,将它们在序列长度这个维度上拼接起来,然后输入到Transformer Blocks,得到融合后的特征[ECCV 2022] Levenshtein OCR(已开源)。其中,为文本特征的长度,[ECCV 2022] Levenshtein OCR(已开源)为下采样后的视觉特征的长度。
融合特征H的长度为[ECCV 2022] Levenshtein OCR(已开源),维度为D。其中,前N个特征与长度为N的输入文本一一对应。因此,将前个特征取出来,作为后续3个Action Decoder的输入。3个Action Decoder对应于删除、插入占位符和将占位符预测为码表中的字符这3个操作,这3个操作依次进行。首先,Deletion Decoder分别对个特征进行二分类,预测对应的字符是否应该删除。根据Deletion Decoder的预测结果,对初始字符序列执行相应的删除操作,并更新特征融合特征,即可得到Placeholder Insertion Decoder的输入。Placeholder Insertion Decoder的输入为前N-1个特征,对应N-1个字符间隔。Placeholder Insertion Decoder的预测结果是任意相邻的两个字符之间应该插入多少个字符(可以为0)。根据Placeholder Insertion Decoder的预测结果,对字符序列插入相应的占位符,并更新融合特征,得到Token Prediction Decoder的输入。Token Prediction Decoder对每个占位符进行分类,得到最终的结果。上述3个操作可以迭代多次,从而得到更准确的识别结果。
模仿学习

由于在LevOCR的解码过程中,需要根据3个Action Decoder的预测结果对字符序列执行相应的操作,而这个过程是不可导的,因此无法端到端地训练LevOCR。为了解决这个问题,本文利用模仿学习来训练LevOCR。具体实现为,通过对GT执行随机的删除或者插入操作,得到含有噪声的字符序列,然后通过动态规划得到最优的操作,最后把含有噪声的字符序列作为输入,最优的操作作为GT,去训练Textual Model、Transformer Blocks和3个Action Decoder,而Visual Model和并行注意力解码器仍然以传统的方式进行训练。

三、主要实验结果



表1 LevOCR在不同初始序列和不同迭代次数下的准确率

[ECCV 2022] Levenshtein OCR(已开源)
如表1所示,在分别利用视觉模型的输出、空白序列、加入随机噪声的GT和GT作为初始序列的时候,LevOCR最终的识别准确率不相同,这表明LevOCR的确利用了文本信息,而不是仅仅考虑视觉信息,并且LevOCR同时具有Text Refinement和Text Generation的能力。此外,LevOCR的识别准确率随着迭代次数的增加而提高,也进一步证明了LevOCR Text Refinement的能力。

表2 LevOCR在采用不同的Backbone时的准确率

[ECCV 2022] Levenshtein OCR(已开源)
如表2的后4行所示,不管是采用ViT作为Backbone还是采用CNN作为Backbone,LevOCR都能在视觉模型的基础上提高识别准确率,这表明了LevOCR的通用性。表2的第2行和第3行分别表示用传统的识别Loss替代3个Action Decoder时视觉模型的表现和LevOCR最终的表现,可以发现LevOCR无法进一步提高识别准确率,这证明了3个Action Decoder的重要性。

表3 和SOTA方法的对比

[ECCV 2022] Levenshtein OCR(已开源)

如表3所示,LevOCR在IIIT、IC15和CUTE这3个测试集上取得了最高的识别准确率,在另外3个测试集上取得次高的识别准确率,并且平均准确率最高。
[ECCV 2022] Levenshtein OCR(已开源)
图3 LevOCR最后一层注意力热图的可视化结果

图3可视化了LevOCR在预测某个动作时的最后一层Transformer Blocks的注意力热图,可以看出LevOCR能够准确地关注到对应的视觉特征和文本特征。同时,在图片清晰的时候模型更加关注视觉特征(第一行),而在图片模糊的时候模型更加关注文本特征(第二行)。

四、总结及讨论



受其他领域启发,这篇文章提出一个新的场景文本识别模型LevOCR,利用Vision-Language Model来聚合视觉特征和文本特征,用Levenshtein Transformer的解码策略来进行Text Refinement或Text Generation,从而具有更高的识别准确率和更强的可解释性。

五、相关资源



  • 本文地址:
    https://link.springer.com/chapter/10.1007/978-3-031-19815-1_19

  • 本文开源代码地址:
    https://github.com/wdp-007/Levenshtein-OCR (代码还没放出来)

参考文献



[1]Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., … & Houlsby, N. (2020, September). An Image is Worth 16×16 Words: Transformers for Image Recognition at Scale. In International Conference on Learning Representations.
[2]Carion, N., Massa, F., Synnaeve, G., Usunier, N., Kirillov, A., & Zagoruyko, S. (2020, August). End-to-End Object Detection with Transformers. In European Conference on Computer Vision (pp. 213-229). Springer, Cham.
[3]Liu, Z., Lin, Y., Cao, Y., Hu, H., Wei, Y., Zhang, Z., … & Guo, B. (2021). Swin  Transformer: Hierarchical Vision Transformer Using Shifted Windows. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 10012-10022).
[4]Yu D, Li X, Zhang C, et al. Towards Accurate Scene Text Recognition with Semantic Reasoning Networks[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 12113-12122.
[5]Fang S, Xie H, Wang Y, et al. Read Like Humans: Autonomous, Bidirectional and Iterative Language Modeling for Scene Text Recognition[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 7098-7107.
[6]Su, W., Zhu, X., Cao, Y., Li, B., Lu, L., Wei, F., & Dai, J. (2019, September). VL-BERT: Pre-training of Generic Visual-Linguistic Representations. In International Conference on Learning Representations.
[7]Chen, Y. C., Li, L., Yu, L., El Kholy, A., Ahmed, F., Gan, Z., … & Liu, J. (2020, August). UNITER: UNiversal Image-TExt Representation Learning. In European Conference on Computer Vision (pp. 104-120). Springer, Cham.

原文作者: Cheng Da, Peng Wang, Cong Yao

撰稿:李鸿亮
编排:高 学
审校:连宙辉
发布:金连文 


免责声明:1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。

往期精彩内容回顾



欢迎加入中国图象图形学学会!(附入会攻略)


征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布 (联系Email: [email protected])。


扫码关注,获取最新OCR资讯


[ECCV 2022] Levenshtein OCR(已开源)

原文始发于微信公众号(CSIG文档图像分析与识别专委会):[ECCV 2022] Levenshtein OCR(已开源)

版权声明:admin 发表于 2022年11月24日 上午10:52。
转载请注明:[ECCV 2022] Levenshtein OCR(已开源) | CTF导航

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...