[CVPR 2022]基于语法感知网络的手写数学公式识别(已开源)

AI 4周前 admin
131 0 0

[CVPR 2022]基于语法感知网络的手写数学公式识别(已开源)

本文简要介绍CVPR 2022录用论文”Syntax-Aware Network for Handwritten Mathematical Expression Recognition”的主要工作。该论文针对公式识别任务,提出一个语法感知网络,将语法信息融入到编码器-解码器网络中。论文提出了一套语法规则,用于将每个公式的LaTeX标记序列转换为解析树,并利用深度神经网络将标记序列预测建模为树遍历过程。论文同时构建了一个包含10万张手写样本图片的数学公式数据集。

一、研究背景



随着深度学习的发展及应用,许多方法显著提升了手写数学公式识别的性能。目前主流的识别方法主要为序列识别方法和树解码方法。然而,如图1(a)(b)所示,这些方法都或多或少忽视了公式中的语法信息。为了解决公式识别中的结构预测错误并提升复杂语法树的理解,论文提出了一个语法规则,自然地将语法树划分成不同的组件,有效地减少树结构的歧义。同时,论文提出了一个语法感知网络(Syntax-Aware Network, SAN),将语法约束和特征学习结合到统一的框架中。如图1(c)所示,SAN的预测过程遵循语法树的遍历过程,其子树是数学表达式的重要组成成分。通过此方式,相邻组件的关系得以在SAN中进行编码建模。因此,SAN的预测是从一个组件到另一个组件进行的。

[CVPR 2022]基于语法感知网络的手写数学公式识别(已开源)
图1 比较不同的公式识别方法:(a)序列方法WAP;(b)树解码方法DWAP-TD;(c)论文提出的方法SAN

二、方法原理简述



该论文将SAN用一个7元组[CVPR 2022]基于语法感知网络的手写数学公式识别(已开源)来表示。其中,N为非终端符号,包括起始符号S和拓展符号E;[CVPR 2022]基于语法感知网络的手写数学公式识别(已开源)表示终止符,即数据集中的公式符号;R表示产生式规则,即建模方式;[CVPR 2022]基于语法感知网络的手写数学公式识别(已开源)表示符号间的关系,共有7种(右、上、下、左上、右下、右上和里面);C表示提取输入图片特征的Dense-Net编码器;D表示如图2所示的语法感知解码器。

在解码器中,第一个GRU网络以上一个解码的符号或关系的编码特征[CVPR 2022]基于语法感知网络的手写数学公式识别(已开源)作为输入向量,以历史状态的特征[CVPR 2022]基于语法感知网络的手写数学公式识别(已开源)作为隐藏向量,得到输出向量[CVPR 2022]基于语法感知网络的手写数学公式识别(已开源),作为第二个GRU的隐藏向量。第二个GRU的输入向量为语法感知注意力模块的输出[CVPR 2022]基于语法感知网络的手写数学公式识别(已开源)。该注意力模块利用[CVPR 2022]基于语法感知网络的手写数学公式识别(已开源)、编码器特征输出E(X)和语法感知注意力向量[CVPR 2022]基于语法感知网络的手写数学公式识别(已开源)得到归一化加权向量[CVPR 2022]基于语法感知网络的手写数学公式识别(已开源),和其对E(X)加权后的特征[CVPR 2022]基于语法感知网络的手写数学公式识别(已开源)。语法感知注意力向量[CVPR 2022]基于语法感知网络的手写数学公式识别(已开源)则是对语法树中从根节点到当前解码节点的所有归一化加权向量[CVPR 2022]基于语法感知网络的手写数学公式识别(已开源)的求和。最后,解码器利用[CVPR 2022]基于语法感知网络的手写数学公式识别(已开源)[CVPR 2022]基于语法感知网络的手写数学公式识别(已开源)和第二个GRU的输出向量[CVPR 2022]基于语法感知网络的手写数学公式识别(已开源)进行符号预测和关系预测。

模型在训练时使用了注意力自正则策略,通过额外的反向解码器,根据子节点预测父节点类别,并对相同符号的注意力权重采用KL散度进行正则化。

[CVPR 2022]基于语法感知网络的手写数学公式识别(已开源)
图2 语法感知解码器

三、HME100K数据集



此数据集包含了74502张训练图片和24607张测试图片,共有245个符号。数据集收集自约1万名书写者,在颜色、模糊、复杂背景、扭曲、照明、更长的长度和复杂的结构等方面具有一定挑战性,如图3所示。

[CVPR 2022]基于语法感知网络的手写数学公式识别(已开源)

图3 (a)CROHME数据集样本;(b-h)HME100K数据集样本

四、实验结果



论文在CROHME2014、CROHME2016和CROHME2019三个数据集上和其他方法进行性能对比。如表1所示,论文的方法SAN取得了当前最好的性能。

表1 与SOTA方法在CROHME2014、CROHME2016和CROHME2019三个数据集上的性能对比

[CVPR 2022]基于语法感知网络的手写数学公式识别(已开源)

论文在HME100K数据集上和其他方法进行性能对比。如表2所示,论文的方法SAN取得了当前最好的性能,并拥有最快的推理速度。

表2 在HME100K数据集上的性能对比

[CVPR 2022]基于语法感知网络的手写数学公式识别(已开源)
论文还对语法模块和语法感知注意力模块进行消融实验。如表3所示,论文提出的两个模块能带来显著的性能提升。

表3 SAN在CROHME和HME100K数据集上的消融实验

[CVPR 2022]基于语法感知网络的手写数学公式识别(已开源)

五、总结



该论文提出第一个有效地将语法规则整合到深度特征学习中的网络SAN,通过结合语法信息和视觉表示来进行鲁棒的预测,并在多个数据集上证明了方法的有效性。论文还构建了一个含有10万张图片的手写数学公式数据集HME100K。

相关资源



论文地址:

https://openaccess.thecvf.com/content/CVPR2022/html/Yuan_Syntax-Aware_Network_for_Handwritten_Mathematical_Expression_Recognition_CVPR_2022_paper.html

开源地址:https://github.com/tal-tech/SAN

数据集地址:https://ai.100tal.com/dataset

原文作者: Ye Yuan, Xiao Liu, Wondimu Dikubab, Hui Liu, Zhilong Ji, Zhongqin Wu, Xiang Bai


撰稿:李 喆
编排:高 学
审校:殷 飞
发布:金连文 


免责声明:1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。

往期精彩内容回顾



欢迎加入中国图象图形学学会!(附入会攻略)


征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布 (联系Email: eelwjin@scut.edu.cn)。


扫码关注,获取最新OCR资讯


[CVPR 2022]基于语法感知网络的手写数学公式识别(已开源)

原文始发于微信公众号(CSIG文档图像分析与识别专委会):[CVPR 2022]基于语法感知网络的手写数学公式识别(已开源)

版权声明:admin 发表于 2022年11月6日 上午10:46。
转载请注明:[CVPR 2022]基于语法感知网络的手写数学公式识别(已开源) | CTF导航

相关文章

暂无评论

暂无评论...