[IJCAI 2023] 结合图例解析文本子句的多模态神经几何解题器

AI 11个月前 admin

104 0 0

这里简要介绍被IJCAI 2023录用的论文 “A Multi-Modal Neural Geometric Solver with Textual Clauses Parsed from Diagram”的主要研究工作。文章提出了一种新的图文融合的几何题神经求解器PGPSNet。该模型能够将几何图形、从图中解析出的文本子句以及文本问题相结合，并生成用于解决几何问题的求解程序。该工作还构建了一个细粒度标注的几何题数据集PGPS9K，包含基元级别的图形标记和可解释的问题求解过程。在Geometry3K和PGPS9K数据集上的实验表明，PGPSNet显著提高了几何题求解的性能，大幅度超越现有的神经求解器。

一、研究背景

[IJCAI 2023] 结合图例解析文本子句的多模态神经几何解题器

图1 几何题示例

自动几何问题求解(GPS)是一项具有挑战性且研究历史悠久的人工智能任务。几何问题一般由文本问题和几何图例构成，其中文本问题用自然语言描述几何问题条件并设定求解目标，几何图蕴含了文本问题之外丰富的结构和语义信息以辅助问题求解。GPS要求解题器具备数学和多模态推理能力，能同时处理文本问题和几何图例。现有的GPS工作可以分为符号求解器和神经求解器两类。符号求解器[1,2]将图例和文本问题解析为统一的形式语言，通过路径搜索和条件匹配进行符号推理，直到找到搜索目标。与神经求解器相比，符号求解器虽然具有更好的可解释性，但它们规则复杂，难以扩展。最近提出的神经求解器[3,4]，使用混合编码器和自监督辅助任务，将图表和文本问题嵌入到统一特征空间，并生成序列求解表达式来求解。但是这些框架主要用于自然场景中的视觉推理，并不适用于几何图例，甚至破坏几何中的结构和语义信息。考虑到目前神经求解器对几何图例表示欠佳和跨模态融合困难，论文作者使用文本子句来表示几何图，并提出了一种新的图文融合的神经求解器PGPSNet。模型借助结构和语义预训练、数据增强和自限解码器充分融合结构和语义信息，被赋予丰富的几何定理和几何表示的知识。

二、数据集简介

现有的几何题数据集要么样本规模很小，仅适用于基于规则的符号求解器，要么是粗粒度标注的，忽略了图例中的丰富信息。为了促进几何题神经求解器的发展，作者构建了一个大规模几何题数据集PGPS9K，同时标记了细粒度图例注释和可解释的求解程序。该数据集由9022个文本问题与不重复的4000个几何图例配对组成，划分的30个题型几乎涵盖了6-12年级平面几何问题的所有题型。PGPS9K数据具有以下五种特点，如图2展示：1）基于几何定理：解题过程中，需要运用几何定理或者公理知识进行代数计算，最后得到数值结果；2）图例依赖性：90%以上的问题必须结合几何图例来解决，因为部分变量内容和几何结构等必要条件是通过视觉图例来展示的，而在文本题目中无法获取；3）抽象性：图例仅包含基本的几何基元(点、线、圆)和非几何基元(文本、符号)，且问题不涉及复杂的语义场景；4）细粒度：同一图例对应的几何问题在条件或求解目标上是不同的，文本问题的细微差别通常会导致完全不同的问题解决方案；5）条件冗余性：文本问题或者语义子句中部分条件在解决问题的过程中并不一定会用到。综上，这五个属性使PGPS9K专注于几何推理方面的挑战，并缓解文本问题可能引入的偏置。

表1 几何题数据集对比

PGPS9K数据集的标注包括图例标注和解题程序。图例标注采用与几何图例解析工作[5,6]相同的基元级标注，然后将其转化成结构和语义两种文本子句。结构子句描述几何基元之间的连接关系，例如点在线上或点在圆上的描述子句，其中点是按一定顺序排列的。连接关系揭示了最基本的几何结构关系，这种关系显示在几何图例中而往往被文本问题所省略。语义子句用自然语言刻画几何基元与非几何基元之间的基本关系。语义子句对应的关系是问题求解的必要组成部分，图例和文本问题相互补充。

图2 PGPS9K数据集示例样本

解题程序是由多个演绎步骤组成的几何解题过程。如图3所示，解题程序由运算符OP和操作数PN组成，其中操作数包括问题变量N(出现在文本问题和语义子句中)、过程变量V（求解过程中产生的变量）、参数ARG（字母未知数[a-z]）和常量C。一个运算符和一些操作数组成一个求解步骤，每个求解步骤涉及一个几何定理或公理，其中相关的操作数按照定理公式的变量语义顺序排列。与现有标注相比，该标注方法使用定理操作替换基本的算术运算，具有结构化、知识引导和可解释性等优点。搭配求解程序的标注方式，作者还构建了一个强大的程序执行器来计算数值结果。

[IJCAI 2023] 结合图例解析文本子句的多模态神经几何解题器

图3 几何题求解程序的标注方式及其可解释性

三、方法原理简述

[IJCAI 2023] 结合图例解析文本子句的多模态神经几何解题器

图4 几何题求解器PGPSNet框架

为充分融合几何题的多模态信息，作者提出一种新的神经求解器PGPSNet，如图4所示。PGPSNet的输入不但包括几何图例D和文本问题 [IJCAI 2023] 结合图例解析文本子句的多模态神经几何解题器，还包含从几何图例中解析出的结构子句和语义子句，与文本问题一起构成几何问题的文本模态。几何图例经过卷积神经网络（CNN）提取视觉特征向量，所有文本模态通过一个结构和语义预训练语言模型编码。然后将这两个模态的特征向量（通常称为Token）拼接在一起，送入双向GRU编码器进行混合编码。接着，它们通过自限GRU解码器解码得到对应的求解程序序列 [IJCAI 2023] 结合图例解析文本子句的多模态神经几何解题器。

3.1结构与语义预训练

从图例中解析出的文本子句是低层次的，缺乏整体结构以及上下文联系。该研究受到预训练语言模型的启发，如图5所示，基于掩码语言模型（MLM）任务，设计了一种结构和语义预训练方法。首先，为每个Token分配类别标签（Token的语义类别）和章节标签（Token所属的部分）。模型的文本模态输入Token不但融合了位置编码，还集成了类别标签和章节标签的嵌入。然后，仿照MLM的工作，用掩码Token[M]遮掉了30%的文本Token，但是保持类别标签和章节标签不变。预训练目标是以统一的文本生成方式恢复遮盖掉的文本Token。预训练使得模型具备基本的几何认知能力，而这正是几何问题推理求解的基础。

图5 结构和语义预训练流程

3.2 混合编码器和自限解码器

CNN编码器仅提取如几何风格的粗粒度的图例全局视觉特征，以快速确定可能的运算操，加速模型学习的收敛。双向GRU编码器将编码为视觉Token的图例，和通过结构和语义预训练语言模型增强的文本Token，进行融合学习，并输出混合的上下文编码 [IJCAI 2023] 结合图例解析文本子句的多模态神经几何解题器。由于几何问题求解过程的复杂性和灵活性，求解程序无法转换为二叉树或一般表达式树。论文设计了一个自限制的GRU解码器，以自回归的方式生成顺序的解决方案程序。一方面，输入到解码器的问题变量N特征和参数ARG特征是从编码器输出的上下文编码中复制过来，这不但降低输入空间表示的复杂度，也使得解码器的输入融入丰富的上下文语义信息。另一方面，自限解码器将问题变量N和参数ARG的输出候选项限制在文本模态中出现过的，从而缩小了求解程序的搜索空间。

3.3 几何表示的数据增广

图6 几何题数据增广策略

尽管PGPS9K是迄今为止最大且高质量的几何题数据集，但仍然不能很好满足PGPSNet的模型学习，特别是对于结构和语义预训练任务。因此，作者采用了基于几何表示多样性和等价性的五种数据增广策略，并以图6中的问题作为示例进行说明：1）Token替换；2）连接关系轮换；3）表示法转置；4）文本子句顺序随机打乱；5）图例翻转。这五种增强策略是相互独立的，又可以相互结合。数据增广产生的大量样本赋予PGPSNet模型基本的几何表示知识，进而促进高层次的几何推理。

四、主要实验结果

实验首先将PGPSNet与最近提出的符号求解器InterGPS [2]和神经求解器NGS [3]、Geoformer [4]进行了比较，如表2展示。在数据集Geometry3K上，填空评价结果显示，PGPSNet大幅优于Inter-GPS(Predict)，并取得了与Inter-GPS(Diagram GT)相当的性能，但略逊于InterGPS(All GT)。在选择形式上，PGPSNet已经超越了所有的输入模式下的InterGPS方法，甚至比Inter-GPS(diagram GT)高出2%。在填空和选择评价方式上，相比Inter-GPS(Diagram GT)方法，PGPSNet显示出更多的性能提升，而Top-3的结果意味着PGPSNet还有很多提升的潜力。由于合适的模态表示方法和有效的模态融合策略，与基线神经求解器、NGS和Geoformer相比，PGPSNet展示了优越的性能提升。

表2 几何题数据集对比

为了说明PGPSNet不同模块或策略的效果，实验以自限解码器、数据增广、结构子句和预训练语言模型作为对象，进行了消融实验，如表3所示：第1行和第4行之间的对比表明，数据增广通过在增广数据中注入几何表示知识，促进了几何逻辑推理；通过比较第2行和第4行，发现自限解码器提高了几何推理的性能。因为其简化了特征表示空间并限制了搜索空间，从而降低了模型学习的难度；结构和语义预训练语言模型给求解器带来了惊人的性能提升，尤其是在填空形式的评价结果上，答案准确率提升了26.6%，如第4行和第6行所示；对比第3行和第4行，还发现在未经预训练的条件下，结构子句对几何解题性能影响较小。但经过预训练后，结构子句使得几何解题性能获得大幅度的提升，如第5行和第6行所示，这揭示了基本的连接关系可以通过合适的模态融合方法，促进模型对几何结构认知，进而助力几何逻辑推理。

表3 几何题求解器性能对比

实验还进行了解题案例分析，以讨论解题器的能力和局限性，如图7所示。案例(a)考察了角度平分线定理的应用。方法NGS和PGPSNet w/o LM均不能正确处理在角平分线分割下，三角形对应边边长的比例关系，而PGPSNet 生成了正确的求解程序。案例(b)需要应用两类截弦长度定理，并涉及多步定理操作。对于这道题，所有解题器的解题方案都是错误的，但是PGPSNet 生成的求解程序是最接近真值标注的。综合结果表明，PGPSNet目前还不具备复杂几何推理的能力，但其具有巨大的潜力。

图7 解题案例分析

五、总结和讨论

该工作提出了一个结合从图例解析出的文本子句的几何题神经求解器PGPSNet，并构建了一个大规模和精细标注的几何题数据集PGPS9K。受益于有效的模态表示和高效的模态融合，PGPSNet充分利用基本结构和语义信息来实现几何推理。此外，可解释的求解程序和精心设计的数据增广方案，为模型提供了几何定理、几何表示等几何题求解的关键几何知识。对于未来工作，在模态细粒度融合和显式几何知识结合方面，模型仍有很大的改进提升空间。

六、相关资源

1、论文资源

https://arxiv.org/pdf/2302.11097.pdf

2、代码地址

https://github.com/mingliangzhang2018/PGPS

3、数据集地址

http://www.nlpr.ia.ac.cn/databases/CASIA-PGPS9K

参考文献

[1] Minjoon Seo, Hannaneh Hajishirzi, Ali Farhadi, Oren Etzioni, and Clint Malcolm. Solving geometry problems: Combining text and diagram interpretation. In EMNLP, 2015.

[2] Pan Lu, Ran Gong, Shibiao Jiang, Liang Qiu, Siyuan Huang, Xiaodan Liang, and Song-Chun Zhu. Inter-GPS: Interpretable geometry problem solving with formal language and symbolic reasoning. In ACL-IJCNLP, 2021.

[3] Jiaqi Chen, Jianheng Tang, Jinghui Qin, Xiaodan Liang, Lingbo Liu, Eric Xing, and Liang Lin.

GeoQA: A geometric question answering benchmark towards multimodal numerical reasoning. In Findings of ACL, 2021.

[4] Jiaqi Chen, Tong Li, Jinghui Qin, Pan Lu, Liang Lin, Chongyu Chen, and Xiaodan Liang. Unigeo: Unifying geometry logical reasoning via reformulating mathematical expression. In EMNLP, 2022.

[5] Ming-Liang Zhang, Fei Yin, Yi-Han Hao, and Cheng-Lin Liu. Plane geometry diagram parsing. In IJCAI, 2022.

[6] Yihan Hao, Ming-Liang Zhang, Fei Yin, and Linlin Huang. PGDP5K: A diagram parsing dataset for plane geometry problems. In ICPR, 2022.

原文作者:Zhang MingLiang, Fei Yin, Liu ChengLin

撰稿：张明亮

编排：高学

审校：殷飞

发布：金连文

免责声明：（1）本文仅代表撰稿者观点，撰稿者不一定是原文作者，其个人理解及总结不一定准确及全面，论文完整思想及论点应以原论文为准。（2）本文观点不代表本公众号立场。

往期精彩内容回顾

欢迎加入中国图象图形学学会!（附入会攻略）

征稿启事：本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果，欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布 (联系Email: [email protected])。

扫码关注，获取最新OCR资讯

原文始发于微信公众号（CSIG文档图像分析与识别专委会）：[IJCAI 2023] 结合图例解析文本子句的多模态神经几何解题器

版权声明：admin 发表于 2023年9月11日上午11:31。
转载请注明：[IJCAI 2023] 结合图例解析文本子句的多模态神经几何解题器 | CTF导航

机器学习之模型训练

admin

277

[ECCV 2022] Levenshtein OCR（已开源）

admin

680

NLP对话系统及实战项目分享【含源码】

admin

292

洞见RSAC 2024｜大模型驱动的智能安全运营

admin

机器学习之搭建神经网络

admin

323

NLP文本计算与分析项目实践：诗人足迹可视化生成与事件监测分析开放组件总结

admin

503

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

[IJCAI 2023] 结合图例解析文本子句的多模态神经几何解题器

[ACM MM 2023] 面向场景文本识别的关系对比学习

[ICCV 2023] 基于自监督字符到字符蒸馏的文本识别

[CVPR 2023] 基于自监督隐式字形注意力的文本识别

[ICCV 2023] 从数据角度重新审视场景文字识别

[CVPR 2023]基于“视觉-结构”对齐的生成式表格结构识别

Large Multimodal Model is all you need in OCR？

[TPAMI 2023]DAN: 一个用于手写文档识别的无需分割的文档注意网络

[PR 2023]|异构文档图像的鲁棒表检测与结构识别

[ICLR 2023] DINO: 带去噪训练的端到端目标检测器

[CVPR 2023] 视觉、文本和布局多模态模态通用文档处理统一模型

欢迎加入中国图象图形学学会!（附入会攻略）

复旦大学自然语言处理实验室《大规模语言模型·从理论到实践》网络初版发布｜文末转发赠签名版书籍

G.O.S.S.I.P 阅读推荐 2023-09-11 机器学习 x 安全应用的“十宗罪”

相关文章

暂无评论

相关文章

[IJCAI 2023] 结合图例解析文本子句的多模态神经几何解题器

复旦大学自然语言处理实验室《大规模语言模型·从理论到实践》网络初版发布｜文末转发赠签名版书籍

G.O.S.S.I.P 阅读推荐 2023-09-11 机器学习 x 安全应用的“十宗罪”

相关文章

广告位

相关文章