### **Abstract**   本文基于Transformer提出了新的视频实例分割框架VisTR,将视频实力分割任务看成是直接端到端并行序列预测/解码问题。给定视频片段,直接输出每个实例的按顺序的mask序列。不同于现有方法,VisTR从同一角度出发处理实例分割与跟踪问题,利用相似度学习进行分析,实现了又快又准的视频实例分割