一、研究背景及本文试图解决的问题
1.标注成本高:现有的场景文字识别和检测的方法需要昂贵的边界框(水平框、旋转框、四边形框和多边形框)注释。用一个点表示文本的位置,能够将标注时间降低到11s。
二、SPTS V2方法
2.1. 总体结构
模型的总体结构参考pix2seq,由CNN、Transformer Encoder和Decoder组成。每个输入图像首先由CNN和Transformer编码器编码,以提取视觉和上下文特征,然后由Transformer解码器对捕获的特征进行解码。与以前的算法不同,SPTS进一步将边界框简化为位于第一个字符左上角的角点或文本实例中心点,这种简单有效的设计可以避开基于先验知识精心设计的模块,例如基于分割的方法中使用的分组策略和基于框的文本检测器中配备的特征采样模块(ROIAlign,BezierAlign)。
2.2.序列建模
为了通过序列来表达目标文本实例,需要将连续描述(例如,边界框)转换为离散空间。为此本文将坐标框简化为一个点,并使用可变长度的文本转录标记对象类别。SPTS的主要限制是长序列会显著减慢推理速度。这是因为对于字级和行级文本实例,识别结果通常固定为分别等于25和100的最大长度。为此,在SPTS v2中,作者设计了实例分配解码器(IAD)和并行识别解码器(PRD)来克服这些限制。
2.3.实例分配解码器(IAD)
SPTS v2将检测和识别分为两个阶段的工作流程,并共享相同的Transformer解码器。第一阶段被称为实例分配解码器(Instance Assignment Decoder,IAD)。在第一阶段中,SPTS v2只解码每个文本实例的中心点,直到序列的结束。文本实例的中心点的连续坐标被均匀地离散为[1,nbins]之间的整数。文本实例的中心点是通过对上中点和下中点进行平均来获得的,<SOS>和<EOS>指示序列的开始和结束,第一阶段的解码过程如下图所示。
2.4.并行识别解码器(PRD)
IAD将不同的文本实例分离,不同文本实例的内容将在并行识别解码器中同时获得。与目标检测不同的是文本转录具有不固定的长度,导致目标序列的长度可变,预测出的序列错位问题严重且消耗更多的计算资源。为了消除这些问题,本文将文本填充或截断为固定长度K,其中<pad>标记用于填补较短文本实例的空缺。并行解码过程如下图所示,PRD将位置先验信息作为前两个查询来指示解码器,从而并行识别所有文本实例。
若一个图像中包含N个文本实例并且每个实例包含K个字符,那么SPTS需要(2+K)×N+1次自回归循环,而SPTSV2只需要2N+K+1次循环。在本文的实验设置下,SPTS需要1621个自回归循环,而SPTS V2只需要146个自回归循环,减少了91%。
2.5.信息传递
上述两个解码器的参数由检测和识别梯度共享和监督,但是,不同的文本实例之间存在信息丢失。SPTS的串行解码,使其可以通过识别令牌感知先前检测到的文本的信息,并且可以传递文本识别的梯度来监督不同文本实例的预测。这种交互对于SPTS v2中的并行识别解码器找到文本的正确位置也很重要。为了解决这个问题,本文提出了一种信息传递方法,首先提取文本实例隐藏位置特征和文本位置的相应预测结果(例如,x1,y1)。然后,本文将文本实例位置结果转换为嵌入,然后将其添加到文本实例隐藏位置特征中。PRD将这些先验信息作为前两个查询来指示解码器,从而并行识别所有文本实例。
三、实验结果
1.评测标准
现有的文本识别任务评估协议由两个步骤组成。首先,计算地面实况(GT)和检测到的盒子之间的联合交集(IoU)分数;并且只有当IoU分数大于指定阈值(通常设置为0.5)时,框才匹配。然后,将每个匹配的边界框内的识别内容与GT转录进行比较;只有当预测的文本与GT相同时,它才会有助于端到端的准确性。本文基于单点标注提出了一种新的评测方法,将距离度量替换IoU度量,即,将选择与GT框的中心点具有最近距离的预测点,并且将通过在现有基准中使用的相同的完全匹配规则来测量识别结果。下表的结果表明,基于点的评估协议能够很好地反映性能,其中基于框和基于点的度量评估的值之间的差异不超过0.5%。
3.信息传递模块的消融实验
共享参数以及Feat和Embedding都能提升模型性能。
4. 标注点位置的消融实验
尽管与其他格式相比,中心点显示出最佳性能,但这表明性能对点注释的位置不是很敏感。
5.位置表示方式的消融实验
6. 文本实例排序方式的消融实验
随机点排序达到了最佳性能,这是因为顺序预测时难以处理丢失的对象。在这种情况下,随机顺序可能会解决这个问题,因为它可能会在以后捕获那些丢失的对象。由于在不同迭代中为同一图像构建的不同序列,这使模型更加鲁棒。
7. 输入尺寸的消融实验
提升输入尺寸能提高模型性能。
8.对于噪声的鲁棒性
在SCUT-CTW1500上对框或者点的坐标加上扰动,实验结果表明SPTSV2相比于ABCNetV2具有更好的鲁棒性。
9.与其他方法的对比
10. 在仅仅使用文本转录训练的情况下,NPTS取得了比TOSS更好的性能,表明该模型已经获得了仅基于转录隐式定位文本的能力。
四、总结
相关资源
论文地址1:https://arxiv.org/abs/2301.01635
论文地址2:https://ieeexplore.ieee.org/document/10239535
参考文献
[1]Dezhi Peng, et al. “SPTS: Single-Point Text Spotting.” Proceedings of the 30th ACM international conference on Multimedia. 2022.
原文作者: Yuliang Liu, Jiaxin Zhang, Dezhi Peng, Mingxin Huang, Xinyu Wang, Jingqun Tang, Can Huang, Dahua Lin, Chunhua Shen, Xiang Bai, Lianwen Jin
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
往期精彩内容回顾
-
[ICCV 2023] MRN:多路复用路由网络的增量多语言文本识别方法
-
[AAAI2023]一种基于问答流程的表单文档图像键值对抽取方案
-
[BMVC2023] 通过基于截断奇异值分解的知识蒸馏引导神经网络搜索构建轻量化文本识别器
-
[IJCAI 2023] 具有显式位置增强的鲁棒场景文本图像超分辨率网络
-
[IJCAI 2023] 结合图例解析文本子句的多模态神经几何解题器
-
[ACM MM 2023] 面向场景文本识别的关系对比学习
-
[ICCV 2023] 基于自监督字符到字符蒸馏的文本识别
-
[CVPR 2023] 基于自监督隐式字形注意力的文本识别
-
[ICCV 2023] 从数据角度重新审视场景文字识别
-
[CVPR 2023]基于“视觉-结构”对齐的生成式表格结构识别
欢迎加入中国图象图形学学会!(附入会攻略)
原文始发于微信公众号(CSIG文档图像分析与识别专委会):[TPAMI 2023] SPTS v2: Single-Point Scene Text Spotting(已开源)