[TPAMI 2023] SPTS v2: Single-Point Scene Text Spotting（已开源）

AI 7个月前 admin

98 0 0

[TPAMI 2023] SPTS v2: Single-Point Scene Text Spotting（已开源）

本文简要介绍2023年9月在线发表于TPAMI的论文“SPTS v2: Single-Point Scene Text Spotting”的主要工作。该工作针对端到端场景文本检测识别任务，提出基于单点标注的SPTS v2方法。该方法在前作SPTS[1]的基础上进行改进，针对其自回归推理速度较慢的问题，通过将检测识别解耦为自回归的单点检测和并行的文本识别进行推理加速。此外，该方法同样采用了单点来指示文本位置，极大地降低了标注成本，并且使用序列预测的方式完成端到端场景文本检测识别任务，使得两个任务的融合更加紧密，也免除了先验知识的介入和复杂的后处理操作。实验证明该方法在多个场景文本端到端检测识别数据集上优于现有方法，同时相对于SPTS v1达到了19倍的推理加速。

一、研究背景及本文试图解决的问题

1.标注成本高：现有的场景文字识别和检测的方法需要昂贵的边界框（水平框、旋转框、四边形框和多边形框）注释。用一个点表示文本的位置，能够将标注时间降低到11s。

2.自回归推理时间长：SPTS将所有实例放到一个长序列中输出，由于自回归解码的单向依赖性，解码过程是串行的，导致推理时间长。SPTS V2将检测和识别解耦，首先根据实例分配解码器预测所有实例的位置，然后用位置信息作为query并行预测出不同实例的识别结果，两个解码器是共享参数的。文本识别时不同实例的并行解码过程极大地提高了推理速度。

二、SPTS V2方法

2.1. 总体结构

模型的总体结构参考pix2seq，由CNN、Transformer Encoder和Decoder组成。每个输入图像首先由CNN和Transformer编码器编码，以提取视觉和上下文特征，然后由Transformer解码器对捕获的特征进行解码。与以前的算法不同，SPTS进一步将边界框简化为位于第一个字符左上角的角点或文本实例中心点，这种简单有效的设计可以避开基于先验知识精心设计的模块，例如基于分割的方法中使用的分组策略和基于框的文本检测器中配备的特征采样模块（ROIAlign，BezierAlign）。

2.2.序列建模

为了通过序列来表达目标文本实例，需要将连续描述（例如，边界框）转换为离散空间。为此本文将坐标框简化为一个点，并使用可变长度的文本转录标记对象类别。SPTS的主要限制是长序列会显著减慢推理速度。这是因为对于字级和行级文本实例，识别结果通常固定为分别等于25和100的最大长度。为此，在SPTS v2中，作者设计了实例分配解码器（IAD）和并行识别解码器（PRD）来克服这些限制。

2.3.实例分配解码器（IAD）

SPTS v2将检测和识别分为两个阶段的工作流程，并共享相同的Transformer解码器。第一阶段被称为实例分配解码器（Instance Assignment Decoder，IAD）。在第一阶段中，SPTS v2只解码每个文本实例的中心点，直到序列的结束。文本实例的中心点的连续坐标被均匀地离散为[1，nbins]之间的整数。文本实例的中心点是通过对上中点和下中点进行平均来获得的，<SOS>和<EOS>指示序列的开始和结束，第一阶段的解码过程如下图所示。

2.4.并行识别解码器（PRD）

IAD将不同的文本实例分离，不同文本实例的内容将在并行识别解码器中同时获得。与目标检测不同的是文本转录具有不固定的长度，导致目标序列的长度可变，预测出的序列错位问题严重且消耗更多的计算资源。为了消除这些问题，本文将文本填充或截断为固定长度K，其中<pad>标记用于填补较短文本实例的空缺。并行解码过程如下图所示，PRD将位置先验信息作为前两个查询来指示解码器，从而并行识别所有文本实例。

若一个图像中包含N个文本实例并且每个实例包含K个字符，那么SPTS需要（2+K）×N+1次自回归循环，而SPTSV2只需要2N+K+1次循环。在本文的实验设置下，SPTS需要1621个自回归循环，而SPTS V2只需要146个自回归循环，减少了91%。

2.5.信息传递

上述两个解码器的参数由检测和识别梯度共享和监督，但是，不同的文本实例之间存在信息丢失。SPTS的串行解码，使其可以通过识别令牌感知先前检测到的文本的信息，并且可以传递文本识别的梯度来监督不同文本实例的预测。这种交互对于SPTS v2中的并行识别解码器找到文本的正确位置也很重要。为了解决这个问题，本文提出了一种信息传递方法，首先提取文本实例隐藏位置特征和文本位置的相应预测结果（例如，x1，y1）。然后，本文将文本实例位置结果转换为嵌入，然后将其添加到文本实例隐藏位置特征中。PRD将这些先验信息作为前两个查询来指示解码器，从而并行识别所有文本实例。

三、实验结果

1.评测标准

现有的文本识别任务评估协议由两个步骤组成。首先，计算地面实况（GT）和检测到的盒子之间的联合交集（IoU）分数；并且只有当IoU分数大于指定阈值（通常设置为0.5）时，框才匹配。然后，将每个匹配的边界框内的识别内容与GT转录进行比较；只有当预测的文本与GT相同时，它才会有助于端到端的准确性。本文基于单点标注提出了一种新的评测方法，将距离度量替换IoU度量，即，将选择与GT框的中心点具有最近距离的预测点，并且将通过在现有基准中使用的相同的完全匹配规则来测量识别结果。下表的结果表明，基于点的评估协议能够很好地反映性能，其中基于框和基于点的度量评估的值之间的差异不超过0.5%。

3.信息传递模块的消融实验

共享参数以及Feat和Embedding都能提升模型性能。

4. 标注点位置的消融实验

尽管与其他格式相比，中心点显示出最佳性能，但这表明性能对点注释的位置不是很敏感。

5.位置表示方式的消融实验

6. 文本实例排序方式的消融实验

[TPAMI 2023] SPTS v2: Single-Point Scene Text Spotting（已开源）

随机点排序达到了最佳性能，这是因为顺序预测时难以处理丢失的对象。在这种情况下，随机顺序可能会解决这个问题，因为它可能会在以后捕获那些丢失的对象。由于在不同迭代中为同一图像构建的不同序列，这使模型更加鲁棒。

7. 输入尺寸的消融实验

提升输入尺寸能提高模型性能。

8.对于噪声的鲁棒性

在SCUT-CTW1500上对框或者点的坐标加上扰动，实验结果表明SPTSV2相比于ABCNetV2具有更好的鲁棒性。

9.与其他方法的对比

10. 在仅仅使用文本转录训练的情况下，NPTS取得了比TOSS更好的性能，表明该模型已经获得了仅基于转录隐式定位文本的能力。

四、总结

本文的方法能够在任意形状的文本上获得更好的准确性的原因可能是：所提出的方法丢弃了基于先验知识设计的特定任务模块（例如RoI模块）；因此，识别精度与检测结果解耦，即使检测位置发生偏移，本文的方法也能获得可接受的识别结果。另一方面，馈送到识别模块的特征在训练期间基于地面实况位置而在测试期间根据检测结果进行采样，这导致特征失准。然而，通过以序列建模的方式处理场景文本检测识别任务，所提出的方法消除了这些问题，从而展现出更强的鲁棒性。实验证明SPTS v2在多个场景文本端到端检测识别数据集中均有出色的表现，且推理速度可达到SPTS的19倍。SPTS v2的一个主要优势是它能大大减少所需的序列长度。其训练方法的直接性使其特别适合多任务场景，使得多模态数据可以通过一个协同的标记到语言模型中进行处理，使用更大的模型来研究这一点可能是一个值得探索的方向。

相关资源

论文地址1：https://arxiv.org/abs/2301.01635

论文地址2：https://ieeexplore.ieee.org/document/10239535

代码地址：https://github.com/Yuliang-Liu/SPTSv2

参考文献

[1]Dezhi Peng, et al. “SPTS: Single-Point Text Spotting.” Proceedings of the 30th ACM international conference on Multimedia. 2022.

[2]Yuliang Liu, et al. “SPTS v2: Single-Point Scene Text Spotting.” IEEE Transactions on Pattern Analysis and Machine Intelligence. 2023.

原文作者: Yuliang Liu, Jiaxin Zhang, Dezhi Peng, Mingxin Huang, Xinyu Wang, Jingqun Tang, Can Huang, Dahua Lin, Chunhua Shen, Xiang Bai, Lianwen Jin

撰稿：李长、彭德智

编排：高学

审校：殷飞

发布：金连文

免责声明：（1）本文仅代表撰稿者观点，撰稿者不一定是原文作者，其个人理解及总结不一定准确及全面，论文完整思想及论点应以原论文为准。（2）本文观点不代表本公众号立场。

往期精彩内容回顾

欢迎加入中国图象图形学学会!（附入会攻略）

征稿启事：本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果，欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布 (联系Email: [email protected])。

扫码关注，获取最新OCR资讯

原文始发于微信公众号（CSIG文档图像分析与识别专委会）：[TPAMI 2023] SPTS v2: Single-Point Scene Text Spotting（已开源）

版权声明：admin 发表于 2023年10月9日上午11:11。
转载请注明：[TPAMI 2023] SPTS v2: Single-Point Scene Text Spotting（已开源） | CTF导航

【论文分享】基于风格操纵的语言模型隐藏触发后门攻击

admin

334

白泽带你读论文 | V0Finder

admin

594

基于指针网络和深度强化学习的漏洞优先级方法

admin

574

【顶会论文分享】OWAD：应对正常数据漂移的通用框架

admin

卷积在图像处理中的应用

admin

780

机器学习模型污染：一种危险的新型攻击向量

admin

460

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

[TPAMI 2023] SPTS v2: Single-Point Scene Text Spotting（已开源）

[ICCV 2023] MRN：多路复用路由网络的增量多语言文本识别方法

[AAAI2023]一种基于问答流程的表单文档图像键值对抽取方案

[BMVC2023] 通过基于截断奇异值分解的知识蒸馏引导神经网络搜索构建轻量化文本识别器

[IJCAI 2023] 具有显式位置增强的鲁棒场景文本图像超分辨率网络

[IJCAI 2023] 结合图例解析文本子句的多模态神经几何解题器

[ACM MM 2023] 面向场景文本识别的关系对比学习

[ICCV 2023] 基于自监督字符到字符蒸馏的文本识别

[CVPR 2023] 基于自监督隐式字形注意力的文本识别

[ICCV 2023] 从数据角度重新审视场景文字识别

[CVPR 2023]基于“视觉-结构”对齐的生成式表格结构识别

欢迎加入中国图象图形学学会!（附入会攻略）

凯斯西储大学 | iDev：跨GitHub和StackOverflow平台间的用户识别

大模型对齐强化开源数据集必备：兼谈ULTRAFEEDBACK偏好数据集构建思路

相关文章

暂无评论

相关文章

[TPAMI 2023] SPTS v2: Single-Point Scene Text Spotting（已开源）

凯斯西储大学 | iDev：跨GitHub和StackOverflow平台间的用户识别

大模型对齐强化开源数据集必备：兼谈ULTRAFEEDBACK偏好数据集构建思路

相关文章

广告位

相关文章