End-to-End Object Detection with Transformers

- **Abstract**
  本文提出了新的目标检测框架DETR，将NLP中的Transformer结构引入，把目标检测问题看作是集合的预测问题，避免了一些需要人为先验信息的环节，如NMS操作以及anchor的生成策略等，将目标检测任务变成端到端的。框架的主要组成除了Transformer结构外，主要是set-based global loss（通过二分匹配获得单一的预测结果，从而避免NMS）。给定一组learned object queries，Transformer结构利用目标与全局图像信息间的关系直接输出预测目标结果，在检测方面取得了良好的表现，同时还可以拓展到其他CV相关的领域。