[CVPR 2023] 基于视觉原型的手写文本生成(已开源)

AI 11个月前 admin
287 0 0

本文简要介绍CVPR 2023录用论文“Handwritten Text Generation from Visual Archetypes”的主要工作。作者为少样本风格的手写文本生成设计了一个基于Transformer的模型,并专注于获得文本和风格的鲁棒和信息丰富的表示。对于文本内容表示方法,作者将文本序列表示为从图像中获得的高维向量。这些图像是以标准GNU Unifont字形编写的符号,可以被视为文本的视觉原型。对于风格表示,作者利用在大型合成数据集上进行预训练来获得未见过的书写者风格的鲁棒表示。定量和定性的实验结果表明该方法在生成未见过的风格和带有稀有字符的单词时,比依赖于字符One-hot编码的文本生成方法更有效。图1为本文方法与使用One-hot编码作为文本标记的方法HWT[1]的区别示例图。

[CVPR 2023] 基于视觉原型的手写文本生成(已开源)图1本文方法与使用One-hot编码作为文本标记的方法HWT[1]的区别

  • 一、研究背景



风格化手写文本生成(HTG)旨在产生与书写者书法风格相似的、具有特定书写者风格的手写文本图像[1]。该研究课题的实际应用范围从合成高质量的个性化手写文本识别(HTR)模型的训练数据[2]到为身体受损者的人自动生成手写笔记。此外,作为该任务设计的副产品,模型可以获得特定书写者风格的表示,这可以应用于其他任务,如书写者识别和签名验证。当关注风格化手写生成时,仅采用风格转移是有限的。事实上,模仿特定书写者的书法不仅涉及材质(例如背景和墨水的颜色和质地),而且还包括笔画的粗细、倾斜、扭曲、圆润以及单个字符形状和连字的形状等。此外,必须正确处理这些视觉方面,以避免可能导致的内容改变(例如小的额外或缺失笔画)。
  • 二、方法原理



本文方法VATr的架构示意图如图2所示。CNN编码器通过在大型合成数据集上的预训练学习了少量的书法风格。输出向量通过Transformer编码器传递,从而创建具有鲁棒风格向量的潜在空间(如图2左侧的风格编码器[CVPR 2023] 基于视觉原型的手写文本生成(已开源))。要生成的文本被呈现为GNU Unifont二进制图像序列,代表字符的视觉原型。这些原型会作为Transformer解码器的查询向量,用于与风格向量进行交叉注意力。然后,将得到的内容-风格表示馈送到CNN解码器以输出风格化的手写文本图像。最后两个组件是图2中的内容指导编码器D

[CVPR 2023] 基于视觉原型的手写文本生成(已开源)图2本文方法VATr架构示意图

假设每个书写者[CVPR 2023] 基于视觉原型的手写文本生成(已开源)有P个手写单词图像样本,得到数据集[CVPR 2023] 基于视觉原型的手写文本生成(已开源)假设有Q个任意长度的文本单词[CVPR 2023] 基于视觉原型的手写文本生成(已开源),其中每个单词包含[CVPR 2023] 基于视觉原型的手写文本生成(已开源)个字符。本文目标是生成具有书写者的w风格和文本内容为C的图像[CVPR 2023] 基于视觉原型的手写文本生成(已开源)

1、风格编码器[CVPR 2023] 基于视觉原型的手写文本生成(已开源)

风格编码器包含CNN编码器和Transformer编码器,它将样本图像[CVPR 2023] 基于视觉原型的手写文本生成(已开源)转换为风格特征[CVPR 2023] 基于视觉原型的手写文本生成(已开源)与其他方法的区别是CNN编码器会经过预训练过程从风格样本图像中获得鲁棒特征。

作者构建了一个以不同书法字体呈现的单词图像的大型数据集来进行预训练。作者从英语词汇中渲染了10400个随机单词,每个单词都是10400种免费在线可用的书法字体,背景是从一堆纸质图像中随机选择的,从而获得了超过100M个样本。为了获得更好的真实感,作者应用TPS变换[3],如旋转和弹性变形引入形状可变性,高斯模糊以避免尖锐的边界并模拟手写笔划,灰度膨胀和颜色抖动以模拟不同的墨水类型。随后通过最小化交叉熵损失来识别单词图像的风格。

2、内容指导解码器D

内容指导解码器D的第一个模块是一个多层多头解码器。解码器在文本内容表示中的内容C向量之间首先进行自注意力,随后在内容向量序列(被视为查询向量)和风格向量[CVPR 2023] 基于视觉原型的手写文本生成(已开源)(被用作关键字向量和值向量)之间执行交叉注意力。通过这种方式,模型可以学习内容风格纠缠,因为每个查询向量都被迫关注风格向量。内容指导解码器D的第二个模块是CNN解码器。CNN解码器生成风格化的单词图像[CVPR 2023] 基于视觉原型的手写文本生成(已开源)

与现有的将内容查询表示为One-hot编码的字符嵌入方法不同,本文利用一种捕捉字符之间相似性的表示。首先,本文以GNU Unifont字体呈现字符,它与所有其他字体不同,包含所有Unicode字符。然后,渲染产生16X16的二进制图像,再将其展平并线性投影到d维嵌入向量。

图3展示了一些示例的视觉原型(GNU Unifont字符)和不同风格的相应手写字符。可以观察到,原型之间的几何相似性反映在风格化的字符身上。

[CVPR 2023] 基于视觉原型的手写文本生成(已开源)图3 Unifont字符(上方)和不同书法风格的相同字符之间的比较(下方)

3、模型训练

VATr模型设定为[CVPR 2023] 基于视觉原型的手写文本生成(已开源)CNN判别器[CVPR 2023] 基于视觉原型的手写文本生成(已开源)训练区分真实图像和[CVPR 2023] 基于视觉原型的手写文本生成(已开源)生成的图像,从而让生成器生成逼真的图像。为了优化[CVPR 2023] 基于视觉原型的手写文本生成(已开源)[CVPR 2023] 基于视觉原型的手写文本生成(已开源),本文采用具有对抗性损失:

[CVPR 2023] 基于视觉原型的手写文本生成(已开源)

本文还利用HTR模型[4]识别生成的图像中的文本,从而迫使生成器再现所需的文本内容,而不是渲染样式。HTR模型使用真实图像[CVPR 2023] 基于视觉原型的手写文本生成(已开源)进行训练。HTR模型的损失如下:

[CVPR 2023] 基于视觉原型的手写文本生成(已开源)

其中x可以为真实图像或生成图像。

此外,文本使用CNN分类器[CVPR 2023] 基于视觉原型的手写文本生成(已开源)对真实图像和生成图像的书法风格(即书写者w风格)进行分类,从而迫使生成器[CVPR 2023] 基于视觉原型的手写文本生成(已开源)呈现正确的风格。该分类器也使用真实图像进行训练,并且其在生成图像上的损失值用于指导生成器。该模块的损失如下:

[CVPR 2023] 基于视觉原型的手写文本生成(已开源)

其中x可以为真实图像或生成图像。

为了进一步强制生成所需风格的图像,本文使用额外的正则化损失,即下式给出的循环一致性损失:

[CVPR 2023] 基于视觉原型的手写文本生成(已开源)

总的来说,本文训练模型的完整目标函数是通过将上述同等权重的损失项组合起来给出的,即:

[CVPR 2023] 基于视觉原型的手写文本生成(已开源)

  • 三、主要实验结果



本文在广泛使用的IAM数据集[5]上进行实验。本文使用Frechet Inception Distance(FID)[6]和Geometry Score(GS)[7]来测量生成图像的视觉质量。为进一步评估所考虑的方法生成稀有字符的能力,本文计算了在IAM数据集[5]上训练的HTR网络在识别生成图像中的文本时的字符错误率(CER)。请注意,对于所有指标,数值越低越好。

表1 VATr各部分的消融分析
[CVPR 2023] 基于视觉原型的手写文本生成(已开源)

从表1中看出,本文所提出的合成预训练比在真实数据上的训练带来了更多的增益,尤其是当与视觉原型结合使用时。

表2 在IAM测试集上生成的图像质量评估
[CVPR 2023] 基于视觉原型的手写文本生成(已开源)

从表2看出,本文方法给出了最好的FID分数,并且在GS方面排名第二,差距很小,这表明其生成的图像是真实的。

表3 通过考虑见过和未见过的书法风格、在词表中和不在词表中的文本内容

[CVPR 2023] 基于视觉原型的手写文本生成(已开源)
[CVPR 2023] 基于视觉原型的手写文本生成(已开源)图4 在生成具有所需书法风格和文本内容的图像方面,本文方法与其他方法的定性比较

[CVPR 2023] 基于视觉原型的手写文本生成(已开源)图5 具有背景伪影的风格生成图像示例

从表3可以看出,本文方法在所有四种设置中都大大优于其他方法。图4中展示了一些定性结果,这些结果指的是生成具有不同未见过风格的文本。由于本文的大规模合成预训练策略,VATr能够专注于风格的形状属性来再现,而不是在背景上。从图5可以看出,本文方法生成的图像在笔迹上更清晰,没有受到背景的干扰。

表4 通过考虑IAM数据集中长尾字符中至少包含一个字符的单词以及仅包含数字来生成图像质量评估

[CVPR 2023] 基于视觉原型的手写文本生成(已开源)

[CVPR 2023] 基于视觉原型的手写文本生成(已开源)
图6本文方法和HWT[1]生成的数字图像的比较

[CVPR 2023] 基于视觉原型的手写文本生成(已开源)
图7 生成的一些不同风格的字符集外符号(希腊字母)的图像
从表4的FID值可以观察到,依赖于内容的One-hot编码的SOTA方法很难生成逼真的图像,尤其是当这些图像只包含不常见的字符时,比如数字等。相反,本文方法则可以通过利用字符视觉原型之间的形状相似性更容易地处理这些单词。
  • 四、总结与讨论



本文提出了一种少样本风格的HTG方法VATr,能够再现未见过的书法风格,并生成训练集中很少遇到的字符。这些能力是通过在书法字体的大型合成数据集上的监督预训练,以及通过将文本内容表示为一系列视觉原型,即Unifont渲染字符的二进制图像等途径来实现的。实验结果表明,通过预训练,本文能够提取出更具代表性的风格特征,而不考虑背景和墨水纹理。此外,通过使用视觉原型,本文能够利用字符之间的形状相似性,这简化了罕见字符的生成。
  • 五、相关资源



论文地址:
https://arxiv.org/abs/2303.15269
代码地址:
https://github.com/aimagelab/VATr
  • 参考文献



[1] Bhunia A K, Khan S, Cholakkal H, et al. Handwriting transformers[C]. Proceedings of the IEEE/CVF international conference on computer vision. 2021: 1086-1094.

[2] Bhunia A K, Das A, Bhunia A K, et al. Handwriting recognition in low-resource scripts using adversarial learning[C]. Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019: 4767-4776.

[3] Duchon J. Splines minimizing rotation-invariant semi-norms in Sobolev spaces[C]. Constructive Theory of Functions of Several Variables: Proceedings of a Conference Held at Oberwolfach April 25–May 1, 1976. Springer Berlin Heidelberg, 1977: 85-100.

[4] Shi B, Bai X, Yao C. An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition[J]. IEEE transactions on pattern analysis and machine intelligence, 2016, 39(11): 2298-2304.

[5] Marti U V, Bunke H. The IAM-database: an English sentence database for offline handwriting recognition[J]. International Journal on Document Analysis and Recognition, 2002, 5: 39-46.

[6] Heusel M, Ramsauer H, Unterthiner T, et al. Gans trained by a two time-scale update rule converge to a local nash equilibrium[J]. Advances in neural information processing systems, 2017, 30.

[7] Khrulkov V, Oseledets I. Geometry score: A method for comparing generative adversarial networks[C]. International conference on machine learning. PMLR, 2018: 2621-2629.


原文作者:Vittorio Pippi, Silvia Cascianelli, Rita Cucchiara

撰稿:张晓怡
编排:高 学
审校:殷 飞
发布:金连文 


免责声明:1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。

往期精彩内容回顾



欢迎加入中国图象图形学学会!(附入会攻略)


征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布 (联系Email: [email protected])。


扫码关注,获取最新OCR资讯


[CVPR 2023] 基于视觉原型的手写文本生成(已开源)

原文始发于微信公众号(CSIG文档图像分析与识别专委会):[CVPR 2023] 基于视觉原型的手写文本生成(已开源)

版权声明:admin 发表于 2023年6月1日 上午11:16。
转载请注明:[CVPR 2023] 基于视觉原型的手写文本生成(已开源) | CTF导航

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...