一、研究背景
随着深度学习的发展及应用,许多方法显著提升了手写数学公式识别的性能。目前主流的识别方法主要为序列识别方法和树解码方法。然而,如图1(a)(b)所示,这些方法都或多或少忽视了公式中的语法信息。为了解决公式识别中的结构预测错误并提升复杂语法树的理解,论文提出了一个语法规则,自然地将语法树划分成不同的组件,有效地减少树结构的歧义。同时,论文提出了一个语法感知网络(Syntax-Aware Network, SAN),将语法约束和特征学习结合到统一的框架中。如图1(c)所示,SAN的预测过程遵循语法树的遍历过程,其子树是数学表达式的重要组成成分。通过此方式,相邻组件的关系得以在SAN中进行编码建模。因此,SAN的预测是从一个组件到另一个组件进行的。
![[CVPR 2022]基于语法感知网络的手写数学公式识别(已开源) [CVPR 2022]基于语法感知网络的手写数学公式识别(已开源)](https://ctfiot.oss-cn-beijing.aliyuncs.com/uploads/2022/11/4-1667721724.png)
二、方法原理简述
该论文将SAN用一个7元组来表示。其中,N为非终端符号,包括起始符号S和拓展符号E;
表示终止符,即数据集中的公式符号;R表示产生式规则,即建模方式;
表示符号间的关系,共有7种(右、上、下、左上、右下、右上和里面);C表示提取输入图片特征的Dense-Net编码器;D表示如图2所示的语法感知解码器。
在解码器中,第一个GRU网络以上一个解码的符号或关系的编码特征作为输入向量,以历史状态的特征
作为隐藏向量,得到输出向量
,作为第二个GRU的隐藏向量。第二个GRU的输入向量为语法感知注意力模块的输出
。该注意力模块利用
、编码器特征输出E(X)和语法感知注意力向量
得到归一化加权向量
,和其对E(X)加权后的特征
。语法感知注意力向量
则是对语法树中从根节点到当前解码节点的所有归一化加权向量
的求和。最后,解码器利用
、
和第二个GRU的输出向量
进行符号预测和关系预测。
模型在训练时使用了注意力自正则策略,通过额外的反向解码器,根据子节点预测父节点类别,并对相同符号的注意力权重采用KL散度进行正则化。
![[CVPR 2022]基于语法感知网络的手写数学公式识别(已开源) [CVPR 2022]基于语法感知网络的手写数学公式识别(已开源)](https://ctfiot.oss-cn-beijing.aliyuncs.com/uploads/2022/11/1-1667721729.png)
三、HME100K数据集
此数据集包含了74502张训练图片和24607张测试图片,共有245个符号。数据集收集自约1万名书写者,在颜色、模糊、复杂背景、扭曲、照明、更长的长度和复杂的结构等方面具有一定挑战性,如图3所示。
图3 (a)CROHME数据集样本;(b-h)HME100K数据集样本
四、实验结果
论文在CROHME2014、CROHME2016和CROHME2019三个数据集上和其他方法进行性能对比。如表1所示,论文的方法SAN取得了当前最好的性能。
表1 与SOTA方法在CROHME2014、CROHME2016和CROHME2019三个数据集上的性能对比
![[CVPR 2022]基于语法感知网络的手写数学公式识别(已开源) [CVPR 2022]基于语法感知网络的手写数学公式识别(已开源)](https://ctfiot.oss-cn-beijing.aliyuncs.com/uploads/2022/11/6-1667721732.png)
论文在HME100K数据集上和其他方法进行性能对比。如表2所示,论文的方法SAN取得了当前最好的性能,并拥有最快的推理速度。
表2 在HME100K数据集上的性能对比
![[CVPR 2022]基于语法感知网络的手写数学公式识别(已开源) [CVPR 2022]基于语法感知网络的手写数学公式识别(已开源)](https://ctfiot.oss-cn-beijing.aliyuncs.com/uploads/2022/11/2-1667721733.png)
表3 SAN在CROHME和HME100K数据集上的消融实验
![[CVPR 2022]基于语法感知网络的手写数学公式识别(已开源) [CVPR 2022]基于语法感知网络的手写数学公式识别(已开源)](https://ctfiot.oss-cn-beijing.aliyuncs.com/uploads/2022/11/7-1667721734.png)
五、总结
相关资源
论文地址:
https://openaccess.thecvf.com/content/CVPR2022/html/Yuan_Syntax-Aware_Network_for_Handwritten_Mathematical_Expression_Recognition_CVPR_2022_paper.html
开源地址:https://github.com/tal-tech/SAN
原文作者: Ye Yuan, Xiao Liu, Wondimu Dikubab, Hui Liu, Zhilong Ji, Zhongqin Wu, Xiang Bai
往期精彩内容回顾
-
[ACM MM 2022] 解耦检测与识别:单阶段自依赖场景文本识别器
-
[ECCV 2022] CoMER: 基于Transformer与覆盖注意力机制建模的手写数学公式识别(已开源)
-
[ECCV 2022] 场景文字端到端识别中的全局到局部注意
-
[ECCV2022] MGP-STR:一种基于视觉Transformer的多粒度文字识别方法(已开源)
-
[IEEE TMM 2022] |手写汉字纠错的树结构分析网络
-
[SIGGRAPH 2022] 利用真实数据来提升文档图像矫正性能(有源码)
-
[IEEE TIP 2022] | 基于EM算法的混合监督场景文本检测
-
[ACM 2022] 基于判别式和生成式的自监督文本图像识别方法
-
[TMM 2022] | 基于多层次跨模态模仿学习的跨语言文本图像识别与翻译方法
-
[ACM MM 2022] SPTS: Single-Point Text Spotting(已开源)
欢迎加入中国图象图形学学会!(附入会攻略)
原文始发于微信公众号(CSIG文档图像分析与识别专委会):[CVPR 2022]基于语法感知网络的手写数学公式识别(已开源)