[ACM MM2022] 针对真实场景文档信息抽取的查询驱动生成网络

AI 1年前 (2022) admin
277 0 0
[ACM MM2022] 针对真实场景文档信息抽取的查询驱动生成网络
本文简要介绍ACM MM2022录用论文“Query-driven Generative Network for Document Information Extraction in the Wild”的主要工作。该论文主要针对实际应用中出现未知版式未知键以及存在OCR错误的Document Information Extraction in the wild任务,提出了QGN。QGN采用生成范式,使用Transformer Encoder-decoder结构,设计了Layout Context-aware Module(LCM)、Prefix Query Extraction和受到PGN[1]的启发的Structrual Generation三种特殊机制,在DIE In The Wild任务上取得良好效果。同时,本文还贡献了一个多版式、多关键信息实体类别的大型文档信息抽取数据集LastDoc4000。

一、研究背景



当前研究使用的数据集,大多有着几乎完美的OCR结果,合理的训练、验证集划分,而在文档信息抽取的实际任务中,由于多变的图像收集方式和部分糟糕的图像质量,OCR错误不可避免地会被引入后续的文档理解模型。不同使用场景下,也会面临多种多样的版式文档,如不同类型的收据、小票、发票、运单等,推理过程中很有可能会出现训练集中并没有出现过的版式,实际上这些问题同样充满挑战,本文将存在这些问题的任务定义为Document Information Extraction In The Wild。

已有的文档信息抽取模型大致可以分为三类。第一类,也是当前最常见的一类,是基于序列标注的方法,近期随着多模态的兴起,这类工作一般是提取融合多个模态特征,建模得到一个足够好的序列特征结果,然后直接进行序列分类标注。代表性的工作LiLT[2]通过改进Attention机制在序列建模时引入Layout信息,更好地完成序列标注任务。第二类是基于生成的方法,代表性工作TCPN[3]在CharGrid的基础上,同时使用了生成式方法和序列标注的方法,取得良好效果。第三类是基于连接的方法,代表性方法MatchVIE[4]设计了一个基于图神经网络的解码器,得到不同Sentence之间的连接关系。本文采用生成范式,设计了LCM、前缀查询生成以及拷贝-生成三种特殊机制,在DIE In The Wild任务上取得良好效果。图1为四类方法在不同程度的DIE In The Wild任务上的表现。

[ACM MM2022] 针对真实场景文档信息抽取的查询驱动生成网络

1 不同类型方法针对不同难度任务的表现

二、方法原理简述



[ACM MM2022] 针对真实场景文档信息抽取的查询驱动生成网络2 整体流程

图2是本文提出方法的整体流程,该方法首先根据文档图像和OCR结果生成Embeddings,Embeddings的生成方式与LayoutLM[7]相同,将Embeddings送入QGN,主体部分QGN为一个加入Layout Content-aware Module(LCM)机制的Transformer Encoder-decoder结构,先经过Encoder对序列建模,预测出前缀Query,最后将前缀Query送入后续Decoder经过拷贝-生成机制生成得到Kvpair,最终组织为信息抽取结果。

2.1 Layout Content-aware Module(LCM)

许多序列建模方法更多关注临近位置信息的机制,在DIE In The Wild场景下并不奏效,面对不良阅读顺序的OCR结果,过度关注相对临近“位置”的信息反而容易导致结果的错误。同时仅有文本语义模态时,OCR错误带来有噪声的标注,同样容易削弱这种局部感知。LCM机制通过计算不同Token之间视觉、语义和空间模态向量的欧式距离并加入Attention Score,加强网络对于位置上弱关联Token的感知,缓解了上述问题。实际使用时,同时加入Mask,遮盖掉不同模态欧式距离过大的Token分数,起到滤除噪声的作用。LCM机制结构图如下图3所示:

[ACM MM2022] 针对真实场景文档信息抽取的查询驱动生成网络
3 LCM机制结构图

2.2 Prefix Query Extraction(前缀query生成)

序列标注方法经过Encoder后直接进行序列标注,很容易受到错误阅读顺序和OCR噪声的影响,尤其难以判断标签的边界和始末。而本文的前缀Query生成阶段,对Encoder输出的序列先进行Value和Other的二分类,得到Value后分别与窗内其他Token聚合,得到输入Decoder的Query,进一步通过Decoder生成出需要提取的键值对,前缀Query生成流程如下图4所示:

[ACM MM2022] 针对真实场景文档信息抽取的查询驱动生成网络
4 前缀Query生成流程图

2.3 Structrual Generation(拷贝-生成机制)

Structural Generation受PGN[1]的启发,采用了拷贝-生成机制。[ACM MM2022] 针对真实场景文档信息抽取的查询驱动生成网络经仿射变换得到概率[ACM MM2022] 针对真实场景文档信息抽取的查询驱动生成网络Decoder生成结果和初始Attention Score分布依概率加权得到选词概率分布,最终取概率最高词为生成结果。Structural Generation流程如下图5所示:

[ACM MM2022] 针对真实场景文档信息抽取的查询驱动生成网络
5 Structrual Generation流程图

预训练任务设计为掩码语言建模MLM,与UniLM[8]相同,预训练过程分为三阶段,第一阶段序列中所有Token计算Attention时都互相可见,第二阶段前半序列可见后半序列,后半序列不可见前半序列,第三阶段序列仅左边的Token可见右边Token,模型部分使用LayoutXLM[6]初始化,在IIT-CDIP和网上爬取的中英文文档共43M数据上,共预训练5个Epoch。Finetue阶段损失函数简单由两部分损失加权得到,公式如下:

[ACM MM2022] 针对真实场景文档信息抽取的查询驱动生成网络

为了模拟DIE In The Wild场景,提升模型鲁棒性,训练模型时使用了语义、空间和视觉三种增广,分别主要为10%字符替换、框抖动、图像的仿射变换和增强。

2.4 大型文档信息抽取数据集LastDoc4000

本文贡献了一个多版式、多关键信息实体类别的大型文档信息抽取数据集LastDoc4000。该数据集与其他主流信息抽取数据集的版式类型、文档Token长度以及需提取的Entity类别数量如表1和表2所示:

表1 版式类型及文档长度对比
[ACM MM2022] 针对真实场景文档信息抽取的查询驱动生成网络

表2 需提取的Entity类比数量对比

[ACM MM2022] 针对真实场景文档信息抽取的查询驱动生成网络
(需注意的是LastDoc4000中对Entity类别的定义与通常使用的主流信息抽取数据集的定义不同,分类标准为Kvpair不同键的数量,LastDoc4000固然存在非常多的需抽取信息类别,但并不像表2中直观展示的数据与主流数据集存在悬殊差距。)

三、实验结果



文中实验的不同Setup含义如下表3所示:

表3 不同Setup含义

[ACM MM2022] 针对真实场景文档信息抽取的查询驱动生成网络

QGN在主流信息抽取数据集上的表现如下表4所示:

表4 主流信息抽取数据集实验结果

[ACM MM2022] 针对真实场景文档信息抽取的查询驱动生成网络
[ACM MM2022] 针对真实场景文档信息抽取的查询驱动生成网络

QGN和常用方法InfoXLM以及LayoutXLM在LastDoc4000上的实验结果和部分可视化结果如下表5、图6和图7所示:

表5 在LastDoc4000上的实验结果

[ACM MM2022] 针对真实场景文档信息抽取的查询驱动生成网络

[ACM MM2022] 针对真实场景文档信息抽取的查询驱动生成网络6 各模型在存在OCR错误输入下的可视化结果
[ACM MM2022] 针对真实场景文档信息抽取的查询驱动生成网络
7 各模型对未见过版式和键的信息抽取结果

不同实验设置下的消融实验如下表6所示:

表6 不同实验设置下的消融实验

[ACM MM2022] 针对真实场景文档信息抽取的查询驱动生成网络

四、总结及讨论



针对信息抽取实际应用时的复杂场景文档信息抽取任务,特别是存在未见过的版式和键以及存在OCR错误的情况,本文提出了查询驱动生成网络QGN以及一个大型文档信息抽取数据集LastDoc4000(目前未开源)。查询驱动生成网络QGN采用生成范式,使用Transformer Encoder-decoder结构,设计了Layout Context-aware Module(LCM)、Prefix Query Extraction和受到PGN[1]的启发的Structrual Generation三种特殊机制,缓解了现有的文档信息抽取方法在DIE In The Wild任务上的不足,取得良好效果。本文最后提到,信息抽取中的生成范式不可避免地会遇到真实性和忠实性的问题,广泛使用还需要进一步研究和验证。

五、相关资源



论文地址: https://dl.acm.org/doi/10.1145/3503161.3547877

参考文献



[1] Abigail See, Peter J. Liu, and Christopher D. Manning. 2017. Get To The Point: Summarization with Pointer-Generator Networks. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 1073–1083, Vancouver, Canada. Association for Computational Linguistics.

[2] Jiapeng Wang, Lianwen Jin, and Kai Ding. 2022. LiLT: A Simple yet Effective Language-Independent Layout Transformer for Structured Document Understanding. In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 7747–7757, Dublin, Ireland. Association for Computational Linguistics.

[3] Jiapeng Wang, Tianwei Wang, Guozhi Tang, Lianwen Jin, Weihong Ma, Kai Ding, and Yichao Huang. 2021. Tag, Copy or Predict: A Unified Weakly-Supervised Learning Framework for Visual Information Extraction using Sequences. In Proceedings of the Thirtieth International Joint Conference on Artificial Intelligence, IJCAI 2021, Virtual Event / Montreal, Canada, 19-27 August 2021, Zhi-Hua Zhou (Ed.). ijcai.org, 1082–1090.

[4] Guozhi Tang, Lele Xie, Lianwen Jin, Jiapeng Wang, Jingdong Chen, Zhen Xu, Qianying Wang, Yaqiang Wu, and Hui Li. 2021. MatchVIE: Exploiting Match Relevancy between Entities for Visual Information Extraction. In Proceedings of the Thirtieth International Joint Conference on Artificial Intelligence, IJCAI 2021, Virtual Event / Montreal, Canada, 19-27 August 2021, Zhi-Hua Zhou (Ed.). ijcai.org, 1039–1045.

[5] Zewen Chi, Li Dong, Furu Wei, Nan Yang, Saksham Singhal, Wenhui Wang, Xia Song, Xian-Ling Mao, Heyan Huang, and Ming Zhou. 2021. InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language Model PreTraining. In Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, NAACL-HLT 2021, Online, June 6-11, 2021, Kristina Toutanova, Anna Rumshisky, Luke Zettlemoyer, Dilek Hakkani-Tür, Iz Beltagy, Steven Bethard, Ryan Cotterell, Tanmoy Chakraborty, and Yichao Zhou (Eds.). Association for Computational Linguistics, 3576–3588.

[6] Yiheng Xu, Tengchao Lv, Lei Cui, Guoxin Wang, Yijuan Lu, Dinei Florêncio, Cha Zhang, and Furu Wei. 2021. LayoutXLM: Multimodal Pre-training for Multilingual Visually-rich Document Understanding. CoRR abs/2104.08836 (2021).

[7] Yiheng Xu, Minghao Li, Lei Cui, Shaohan Huang, Furu Wei, and Ming Zhou. 2020. LayoutLM: Pre-training of Text and Layout for Document Image Understanding. In KDD ’20: The 26th ACM SIGKDD Conference on Knowledge Discovery and Data Mining, Virtual Event, CA, USA, August 23-27, 2020, Rajesh Gupta, Yan Liu, Jiliang Tang, and B. Aditya Prakash (Eds.). ACM, 1192–1200.

[8] Li Dong, Nan Yang, Wenhui Wang, Furu Wei, Xiaodong Liu, Yu Wang, Jianfeng Gao, Ming Zhou, and Hsiao-Wuen Hon. 2019. Unified Language Model Pretraining for Natural Language Understanding and Generation. In Advances in Neural Information Processing Systems 32: Annual Conference on Neural Information Processing Systems 2019, NeurIPS 2019, December 8-14, 2019, Vancouver, BC, Canada, Hanna M. Wallach, Hugo Larochelle, Alina Beygelzimer, Florence d’Alché-Buc, Emily B. Fox, and Roman Garnett (Eds.). 13042–13054.



原文作者: Haoyu Cao, Xin Li, Jiefeng Ma, Deqiang Jiang, Antai Guo, Yiqing Hu, Hao Liu, Yinsong Liu, Bo ren

撰稿:李 腾

编排:高 学

审校:殷 飞

发布:金连文 



免责声明:1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。

往期精彩内容回顾



欢迎加入中国图象图形学学会!(附入会攻略)


征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布 (联系Email: [email protected])。


扫码关注,获取最新OCR资讯


[ACM MM2022] 针对真实场景文档信息抽取的查询驱动生成网络

原文始发于微信公众号(CSIG文档图像分析与识别专委会):[ACM MM2022] 针对真实场景文档信息抽取的查询驱动生成网络

版权声明:admin 发表于 2022年12月30日 上午9:13。
转载请注明:[ACM MM2022] 针对真实场景文档信息抽取的查询驱动生成网络 | CTF导航

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...