[ICLR 2023] DINO: 带去噪训练的端到端目标检测器

AI 11个月前 admin

392 0 0

本文简要介绍发表于ICLR2023的目标检测模型DINO。该论文通过：1）在去噪训练过程中添加正负样本的学习；2）在Position Query中加入Query Selection；3）改进Decoder的梯度回传策略，三方面的改进使得DETR类型的检测模型的性能合训练推理速度都得到了大幅的提升。相较于之前最好的目标检测器DN-DETR，在同样使用RestNet-50作为bakcbone时，DINO在12Epoch和24Epoch的Map分别提升了6.0和2.7。并且在使用SwinL作为Bakbone以及Object365数据集预训练之后，本文在COCO数据集上取得了最佳的结果，并且相较于其他模型，DINO的收敛速度和模型大小都显著更优。

一、研究背景

目标检测是计算机视觉的基础任务，目前主要包含两个大类：1）基于卷积的经典目标检测器，但是包含大量需要手工设计的模块，如NMS；2）DETR类型目标检测器，虽然去掉了经典目标检测器中手工设计的模块，但是存在收敛非常慢，Query意义不明确等问题。本文就比较好地改进了DETR类型检测器存在的两个问题。

图1 本文方法在COCO数据集上与其他方法的对比

二、DINO原理简述

图2 DINO的整体结构

图2是DINO的整体结构。如图2所示，DINO的模型结构和DETR是一致的，包含Backbone，Encoder，Decoder三个部分。主要的改进集中在Encoder和Decoder部分，可分为三部分：

1）对比式的去噪训练。本文在DN-DETR模型的基础之上，在去噪训练过程中添加正负样本的学习。训练模型去拒绝和真实框接近但是不是真实框的困难样本，从而提升了模型的表现和收敛速度。

图3对比式去噪训练示意图

2）混合式的Query选择策略：区别于原始DETR完全使用静态的Query作为Decoder的输入以及Deformable DETR将Decoder的Positon Query和Content Query都使用Encoder挑选的特征作为Decoder的输入，DINO只把Encoder的挑选的特征作为Position Query，而Conetnt Query和原始DETR一致使用静态的Query。

图4混合式的Query选择策略

3）“看两次”的梯度更新策略：此前Deformable DETR对Decoder的更新策略是第i层的Loss仅更新第i层的参数，DINO则将梯度更新策略改成了第i层Loss更新第i层和第i-1层参数。

图5“看两次”的梯度更新策略

三、主要实验结果及可视化效果

受益于DINO的各项改进，从表1与表2中可以看到DETR类型的检测器收敛速度明显加快，在COCO数据集上相较于其它同样实验设置下的模型，DINO表现优异。

表1 使用ResNet50作为Backbone在COCO上训12Epochs的表现

表2 使用ResNet50作为Backbone在COCO上训24,36Epochs的表现

从表3中可以看到相较于其他DETR改进模型，DINO的收敛速度有非常明显的提升。

表3 DINO与其他DETR类型检测器的收敛速度对比

从表4中看到作为唯一一个端到端的检测器，DINO不仅在性能指标上和经典检测器的SOTA方法持平而且参数量也少了很多。

表4 DINO和SOTA模型对比

在表5中，作者做了消融实验验证各个模块的有效性，可以看到，作者提出的改进都有一定的提升。

表5 DINO消融实验

四、总结及讨论

1.作者针对DETR类型检测收敛慢，Query意义不明的问题，提出了一系列的改进措施

2.作者通过一系列的实验证明了DINO在检测指标上相较于其他模型的优越性，并且在收敛速度和模型参数量上面也优于之前的方法。

五、相关资源

DINO论文地址：https://arxiv.org/abs/2203.03605
DINO开源代码和预训练模型下载：https://github.com/IDEA-Research/DINO

参考文献

[1]Carion, Nicolas, et al. “End-to-end object detection with transformers.” ECCV2020

[2]Zhu, Xizhou, et al. “Deformable detr: Deformable transformers for end-to-end object detection.” ICLR2021.

[3]Li, Feng, et al. “DN-DETR: Accelerate detr training by introducing query denoising.” CVPR2022

原文作者:Hao Zhang, Feng Li, Shilong Liu, Lei Zhang, Hang Su, Jun Zhu, Lionel M. Ni, Heung-Yeung Shum

撰稿：张宁

编排：高学

审校：连宙辉

发布：金连文

免责声明：（1）本文仅代表撰稿者观点，撰稿者不一定是原文作者，其个人理解及总结不一定准确及全面，论文完整思想及论点应以原论文为准。（2）本文观点不代表本公众号立场。

往期精彩内容回顾

欢迎加入中国图象图形学学会!（附入会攻略）

征稿启事：本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果，欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布 (联系Email: [email protected])。

扫码关注，获取最新OCR资讯

原文始发于微信公众号（CSIG文档图像分析与识别专委会）：[ICLR 2023] DINO: 带去噪训练的端到端目标检测器

版权声明：admin 发表于 2023年6月15日上午10:49。
转载请注明：[ICLR 2023] DINO: 带去噪训练的端到端目标检测器 | CTF导航

检测成熟度级别 (DML) 模型

admin

结合图学习和自动数据收集的代码漏洞检测模型

admin

341

基于文心大模型套件ERNIEKit实现文本匹配算法，模块化方便应用落地

admin

288

[CVPR 2023] 基于视觉原型的手写文本生成（已开源）

admin

289

无本体约束的开放知识图谱构建：以OpenIE为代表的开放信息抽取项目技术方案解读

admin

541

G.O.S.S.I.P 阅读推荐 2023-06-29

admin

229

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

[ICLR 2023] DINO: 带去噪训练的端到端目标检测器

[CVPR 2023] 视觉、文本和布局多模态模态通用文档处理统一模型

[CVPR 2023] 基于颜色感知背景的文档图像阴影去除

[CVPR 2023] 基于视觉原型的手写文本生成（已开源）

[ICLR 2023] StrucTexTv2：“化繁为简”的端到端文档图像理解预训练框架

[CVPR 2023] CF-Font: Content Fusion for Few-shot Font Generation

[NeurIPS 2022] 文档图像分类器的分布外性能评估

论文推荐|[CVPR 2023] Turning a CLIP Model into a Scene Text Detector

论文推荐|[AAAI 2023] 用于提升场景文本超分辨率的双先验调制网络

[ECCV 2022]基于纯Transformer和集成专家的场景文本识别方法

[ACM MM2022] 针对真实场景文档信息抽取的查询驱动生成网络

欢迎加入中国图象图形学学会!（附入会攻略）

深度学习应用篇-推荐系统[12]：经典模型-DeepFM模型、DSSM模型召回排序策略以及和其他模型对比

反人脸识别技术概述

相关文章

暂无评论

相关文章

[ICLR 2023] DINO: 带去噪训练的端到端目标检测器

深度学习应用篇-推荐系统[12]：经典模型-DeepFM模型、DSSM模型召回排序策略以及和其他模型对比

反人脸识别技术概述

相关文章

广告位

相关文章