[CVPR 2022]基于语法感知网络的手写数学公式识别（已开源）

AI 1年前 (2022) admin

1,186 0 0

本文简要介绍CVPR 2022录用论文”Syntax-Aware Network for Handwritten Mathematical Expression Recognition”的主要工作。该论文针对公式识别任务，提出一个语法感知网络，将语法信息融入到编码器-解码器网络中。论文提出了一套语法规则，用于将每个公式的LaTeX标记序列转换为解析树，并利用深度神经网络将标记序列预测建模为树遍历过程。论文同时构建了一个包含10万张手写样本图片的数学公式数据集。

一、研究背景

随着深度学习的发展及应用，许多方法显著提升了手写数学公式识别的性能。目前主流的识别方法主要为序列识别方法和树解码方法。然而，如图1（a）（b）所示，这些方法都或多或少忽视了公式中的语法信息。为了解决公式识别中的结构预测错误并提升复杂语法树的理解，论文提出了一个语法规则，自然地将语法树划分成不同的组件，有效地减少树结构的歧义。同时，论文提出了一个语法感知网络（Syntax-Aware Network, SAN），将语法约束和特征学习结合到统一的框架中。如图1（c）所示，SAN的预测过程遵循语法树的遍历过程，其子树是数学表达式的重要组成成分。通过此方式，相邻组件的关系得以在SAN中进行编码建模。因此，SAN的预测是从一个组件到另一个组件进行的。

图1 比较不同的公式识别方法：（a）序列方法WAP；（b）树解码方法DWAP-TD；（c）论文提出的方法SAN

二、方法原理简述

该论文将SAN用一个7元组 [CVPR 2022]基于语法感知网络的手写数学公式识别（已开源）来表示。其中，N为非终端符号，包括起始符号S和拓展符号E；表示终止符，即数据集中的公式符号；R表示产生式规则，即建模方式；表示符号间的关系，共有7种（右、上、下、左上、右下、右上和里面）；C表示提取输入图片特征的Dense-Net编码器；D表示如图2所示的语法感知解码器。

在解码器中，第一个GRU网络以上一个解码的符号或关系的编码特征 [CVPR 2022]基于语法感知网络的手写数学公式识别（已开源）作为输入向量，以历史状态的特征作为隐藏向量，得到输出向量，作为第二个GRU的隐藏向量。第二个GRU的输入向量为语法感知注意力模块的输出。该注意力模块利用、编码器特征输出E(X)和语法感知注意力向量 [CVPR 2022]基于语法感知网络的手写数学公式识别（已开源）得到归一化加权向量，和其对E(X)加权后的特征。语法感知注意力向量则是对语法树中从根节点到当前解码节点的所有归一化加权向量的求和。最后，解码器利用、和第二个GRU的输出向量 [CVPR 2022]基于语法感知网络的手写数学公式识别（已开源）进行符号预测和关系预测。

模型在训练时使用了注意力自正则策略，通过额外的反向解码器，根据子节点预测父节点类别，并对相同符号的注意力权重采用KL散度进行正则化。

图2 语法感知解码器

三、HME100K数据集

此数据集包含了74502张训练图片和24607张测试图片，共有245个符号。数据集收集自约1万名书写者，在颜色、模糊、复杂背景、扭曲、照明、更长的长度和复杂的结构等方面具有一定挑战性，如图3所示。

[CVPR 2022]基于语法感知网络的手写数学公式识别（已开源）

图3 （a）CROHME数据集样本；（b-h）HME100K数据集样本

四、实验结果

论文在CROHME2014、CROHME2016和CROHME2019三个数据集上和其他方法进行性能对比。如表1所示，论文的方法SAN取得了当前最好的性能。

表1 与SOTA方法在CROHME2014、CROHME2016和CROHME2019三个数据集上的性能对比

论文在HME100K数据集上和其他方法进行性能对比。如表2所示，论文的方法SAN取得了当前最好的性能，并拥有最快的推理速度。

表2 在HME100K数据集上的性能对比

论文还对语法模块和语法感知注意力模块进行消融实验。如表3所示，论文提出的两个模块能带来显著的性能提升。

表3 SAN在CROHME和HME100K数据集上的消融实验

五、总结

该论文提出第一个有效地将语法规则整合到深度特征学习中的网络SAN，通过结合语法信息和视觉表示来进行鲁棒的预测，并在多个数据集上证明了方法的有效性。论文还构建了一个含有10万张图片的手写数学公式数据集HME100K。

相关资源

论文地址：

https://openaccess.thecvf.com/content/CVPR2022/html/Yuan_Syntax-Aware_Network_for_Handwritten_Mathematical_Expression_Recognition_CVPR_2022_paper.html

开源地址：https://github.com/tal-tech/SAN

数据集地址：https://ai.100tal.com/dataset

原文作者: Ye Yuan, Xiao Liu, Wondimu Dikubab, Hui Liu, Zhilong Ji, Zhongqin Wu, Xiang Bai

撰稿：李喆

编排：高学

审校：殷飞

发布：金连文

免责声明：（1）本文仅代表撰稿者观点，撰稿者不一定是原文作者，其个人理解及总结不一定准确及全面，论文完整思想及论点应以原论文为准。（2）本文观点不代表本公众号立场。

往期精彩内容回顾

欢迎加入中国图象图形学学会!（附入会攻略）

征稿启事：本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果，欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布 (联系Email: [email protected])。

扫码关注，获取最新OCR资讯

原文始发于微信公众号（CSIG文档图像分析与识别专委会）：[CVPR 2022]基于语法感知网络的手写数学公式识别（已开源）

版权声明：admin 发表于 2022年11月6日上午10:46。
转载请注明：[CVPR 2022]基于语法感知网络的手写数学公式识别（已开源） | CTF导航

NLP文本计算与分析项目实践：诗人足迹可视化生成与事件监测分析开放组件总结

admin

483

基于文心大模型套件ERNIEKit实现文本匹配算法，模块化方便应用落地

admin

287

AI系列（一）：换个思路检测隐蔽C2

admin

690

DEAR：一种基于深度学习的程序自动修复方法

admin

515

结合图学习和自动数据收集的代码漏洞检测模型

admin

339

卷积在图像处理中的应用

admin

777

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

[CVPR 2022]基于语法感知网络的手写数学公式识别（已开源）

[ACM MM 2022] 解耦检测与识别：单阶段自依赖场景文本识别器

[ECCV 2022] CoMER: 基于Transformer与覆盖注意力机制建模的手写数学公式识别（已开源）

[ECCV 2022] 场景文字端到端识别中的全局到局部注意

[ECCV2022] MGP-STR:一种基于视觉Transformer的多粒度文字识别方法(已开源)

[IEEE TMM 2022] |手写汉字纠错的树结构分析网络

[SIGGRAPH 2022] 利用真实数据来提升文档图像矫正性能（有源码）

[IEEE TIP 2022] | 基于EM算法的混合监督场景文本检测

[ACM 2022] 基于判别式和生成式的自监督文本图像识别方法

[TMM 2022] | 基于多层次跨模态模仿学习的跨语言文本图像识别与翻译方法

[ACM MM 2022] SPTS: Single-Point Text Spotting（已开源）

欢迎加入中国图象图形学学会!（附入会攻略）

Usenix Sec22｜基于文本风格的隐式NLP后门攻击

智造讲堂：经典卷积神经网络模型

相关文章

暂无评论

相关文章

[CVPR 2022]基于语法感知网络的手写数学公式识别（已开源）

Usenix Sec22｜基于文本风格的隐式NLP后门攻击

智造讲堂：经典卷积神经网络模型

相关文章

广告位

相关文章