End-to-End Video Instance Segmentation with Transformers

### **Abstract**
&emsp;&emsp;本文基于Transformer提出了新的视频实例分割框架VisTR，将视频实力分割任务看成是直接端到端并行序列预测/解码问题。给定视频片段，直接输出每个实例的按顺序的mask序列。不同于现有方法，VisTR从同一角度出发处理实例分割与跟踪问题，利用相似度学习进行分析，实现了又快又准的视频实例分割