- **Abstract** 本文提出了新的目标检测框架DETR,将NLP中的Transformer结构引入,把目标检测问题看作是集合的预测问题,避免了一些需要人为先验信息的环节,如NMS操作以及anchor的生成策略等,将目标检测任务变成端到端的。框架的主要组成除了Transformer结构外,主要是set-based global loss(通过二分匹配获得单一的预测结果,从而避免NMS)。给定一组learned object queries,Transformer结构利用目标与全局图像信息间的关系直接输出预测目标结果,在检测方面取得了良好的表现,同时还可以拓展到其他CV相关的领域。