本文简要介绍CVPR 2023录用论文“Handwritten Text Generation from Visual Archetypes”的主要工作。作者为少样本风格的手写文本生成设计了一个基于Transformer的模型,并专注于获得文本和风格的鲁棒和信息丰富的表示。对于文本内容表示方法,作者将文本序列表示为从图像中获得的高维向量。这些图像是以标准GNU Unifont字形编写的符号,可以被视为文本的视觉原型。对于风格表示,作者利用在大型合成数据集上进行预训练来获得未见过的书写者风格的鲁棒表示。定量和定性的实验结果表明该方法在生成未见过的风格和带有稀有字符的单词时,比依赖于字符One-hot编码的文本生成方法更有效。图1为本文方法与使用One-hot编码作为文本标记的方法HWT[1]的区别示例图。
图1本文方法与使用One-hot编码作为文本标记的方法HWT[1]的区别
-
一、研究背景
-
二、方法原理
本文方法VATr的架构示意图如图2所示。CNN编码器通过在大型合成数据集上的预训练学习了少量的书法风格。输出向量通过Transformer编码器传递,从而创建具有鲁棒风格向量的潜在空间(如图2左侧的风格编码器)。要生成的文本被呈现为GNU Unifont二进制图像序列,代表字符的视觉原型。这些原型会作为Transformer解码器的查询向量,用于与风格向量进行交叉注意力。然后,将得到的内容-风格表示馈送到CNN解码器以输出风格化的手写文本图像。最后两个组件是图2中的内容指导编码器D。
假设每个书写者有P个手写单词图像样本,得到数据集。假设有Q个任意长度的文本单词,其中每个单词包含个字符。本文目标是生成具有书写者的w风格和文本内容为C的图像。
1、风格编码器
风格编码器包含CNN编码器和Transformer编码器,它将样本图像转换为风格特征。与其他方法的区别是CNN编码器会经过预训练过程从风格样本图像中获得鲁棒特征。
作者构建了一个以不同书法字体呈现的单词图像的大型数据集来进行预训练。作者从英语词汇中渲染了10400个随机单词,每个单词都是10400种免费在线可用的书法字体,背景是从一堆纸质图像中随机选择的,从而获得了超过100M个样本。为了获得更好的真实感,作者应用TPS变换[3],如旋转和弹性变形引入形状可变性,高斯模糊以避免尖锐的边界并模拟手写笔划,灰度膨胀和颜色抖动以模拟不同的墨水类型。随后通过最小化交叉熵损失来识别单词图像的风格。
2、内容指导解码器D
内容指导解码器D的第一个模块是一个多层多头解码器。解码器在文本内容表示中的内容C向量之间首先进行自注意力,随后在内容向量序列(被视为查询向量)和风格向量(被用作关键字向量和值向量)之间执行交叉注意力。通过这种方式,模型可以学习内容风格纠缠,因为每个查询向量都被迫关注风格向量。内容指导解码器D的第二个模块是CNN解码器。CNN解码器生成风格化的单词图像。
与现有的将内容查询表示为One-hot编码的字符嵌入方法不同,本文利用一种捕捉字符之间相似性的表示。首先,本文以GNU Unifont字体呈现字符,它与所有其他字体不同,包含所有Unicode字符。然后,渲染产生16X16的二进制图像,再将其展平并线性投影到d维嵌入向量。
图3展示了一些示例的视觉原型(GNU Unifont字符)和不同风格的相应手写字符。可以观察到,原型之间的几何相似性反映在风格化的字符身上。
3、模型训练
VATr模型设定为。CNN判别器训练区分真实图像和生成的图像,从而让生成器生成逼真的图像。为了优化和,本文采用具有对抗性损失:
本文还利用HTR模型[4]识别生成的图像中的文本,从而迫使生成器再现所需的文本内容,而不是渲染样式。HTR模型使用真实图像进行训练。HTR模型的损失如下:
其中x可以为真实图像或生成图像。
此外,文本使用CNN分类器对真实图像和生成图像的书法风格(即书写者w风格)进行分类,从而迫使生成器呈现正确的风格。该分类器也使用真实图像进行训练,并且其在生成图像上的损失值用于指导生成器。该模块的损失如下:
其中x可以为真实图像或生成图像。
为了进一步强制生成所需风格的图像,本文使用额外的正则化损失,即下式给出的循环一致性损失:
总的来说,本文训练模型的完整目标函数是通过将上述同等权重的损失项组合起来给出的,即:
-
三、主要实验结果
本文在广泛使用的IAM数据集[5]上进行实验。本文使用Frechet Inception Distance(FID)[6]和Geometry Score(GS)[7]来测量生成图像的视觉质量。为进一步评估所考虑的方法生成稀有字符的能力,本文计算了在IAM数据集[5]上训练的HTR网络在识别生成图像中的文本时的字符错误率(CER)。请注意,对于所有指标,数值越低越好。
从表1中看出,本文所提出的合成预训练比在真实数据上的训练带来了更多的增益,尤其是当与视觉原型结合使用时。
从表2看出,本文方法给出了最好的FID分数,并且在GS方面排名第二,差距很小,这表明其生成的图像是真实的。
表3 通过考虑见过和未见过的书法风格、在词表中和不在词表中的文本内容
从表3可以看出,本文方法在所有四种设置中都大大优于其他方法。图4中展示了一些定性结果,这些结果指的是生成具有不同未见过风格的文本。由于本文的大规模合成预训练策略,VATr能够专注于风格的形状属性来再现,而不是在背景上。从图5可以看出,本文方法生成的图像在笔迹上更清晰,没有受到背景的干扰。
表4 通过考虑IAM数据集中长尾字符中至少包含一个字符的单词以及仅包含数字来生成图像质量评估
-
四、总结与讨论
-
五、相关资源
-
参考文献
[1] Bhunia A K, Khan S, Cholakkal H, et al. Handwriting transformers[C]. Proceedings of the IEEE/CVF international conference on computer vision. 2021: 1086-1094.
[2] Bhunia A K, Das A, Bhunia A K, et al. Handwriting recognition in low-resource scripts using adversarial learning[C]. Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019: 4767-4776.
[3] Duchon J. Splines minimizing rotation-invariant semi-norms in Sobolev spaces[C]. Constructive Theory of Functions of Several Variables: Proceedings of a Conference Held at Oberwolfach April 25–May 1, 1976. Springer Berlin Heidelberg, 1977: 85-100.
[4] Shi B, Bai X, Yao C. An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition[J]. IEEE transactions on pattern analysis and machine intelligence, 2016, 39(11): 2298-2304.
[5] Marti U V, Bunke H. The IAM-database: an English sentence database for offline handwriting recognition[J]. International Journal on Document Analysis and Recognition, 2002, 5: 39-46.
[6] Heusel M, Ramsauer H, Unterthiner T, et al. Gans trained by a two time-scale update rule converge to a local nash equilibrium[J]. Advances in neural information processing systems, 2017, 30.
[7] Khrulkov V, Oseledets I. Geometry score: A method for comparing generative adversarial networks[C]. International conference on machine learning. PMLR, 2018: 2621-2629.
原文作者:Vittorio Pippi, Silvia Cascianelli, Rita Cucchiara
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
往期精彩内容回顾
-
[CVPR 2023] 利用解耦扩散模型统一版面生成任务
-
[ICLR 2023] StrucTexTv2:“化繁为简”的端到端文档图像理解预训练框架
-
[CVPR 2023] CF-Font: Content Fusion for Few-shot Font Generation
-
[NeurIPS 2022] 文档图像分类器的分布外性能评估
-
论文推荐|[CVPR 2023] Turning a CLIP Model into a Scene Text Detector
-
论文推荐|[AAAI 2023] 用于提升场景文本超分辨率的双先验调制网络
-
[ECCV 2022]基于纯Transformer和集成专家的场景文本识别方法
-
[ACM MM2022] 针对真实场景文档信息抽取的查询驱动生成网络
-
[COLING 2022] 广泛阅读,巧妙聚焦: 一种视觉富文档实体抽取的跨文档语义增强方法
-
[IJCV 2022] PageNet: 面向端到端弱监督篇幅级手写中文文本识别(已开源)
欢迎加入中国图象图形学学会!(附入会攻略)
原文始发于微信公众号(CSIG文档图像分析与识别专委会):[CVPR 2023] 基于视觉原型的手写文本生成(已开源)