Awesome Video Object Segmentation

A list of video object segmentation (VOS) papers published after 2019. Previous works can be found at here.

Please don't hesitate to let me know if there are some missing papers or any suggestions :)

1. Semi-Supervised Video Object Segmentation (aka One-Shot Video Object Segmentation)

2. Unsupervised Video Object Segmentation (aka Zero-Shot Video Object Segmentation)

3. Self-Supervised Video Object Segmentation

4. Interactive Video Object Segmentation

5. Weakly-Supervised Video Object Segmentation

6. Referring Video Object Segmentation

7. Popular Datasets

Semi-Supervised VOS

2019

TIS: Tukey-Inspired Video Object Segmentation, WACV [Paper] [arXiv] [Code]
MHP-VOS: Multiple Hypotheses Propagation for Video Object Segmentation, CVPR [Paper] [arXiv] [Code]
STCNN: Spatiotemporal CNN for Video Object Segmentation, CVPR [Paper] [arXiv] [Code]
RVOS: End-To-End Recurrent Network for Video Object Segmentation, CVPR [Paper] [arXiv] [Code]
BubbleNets: Learning to Select the Guidance Frame in Video Object Segmentation by Deep Sorting Frames, CVPR [Paper] [arXiv] [Code]
A-GAME: A Generative Appearance Model for End-To-End Video Object Segmentation, CVPR [Paper] [arXiv] [Code]
FEELVOS: Fast End-To-End Embedding Learning for Video Object Segmentation, CVPR [Paper] [arXiv] [Code]
DMM-Net: Differentiable Mask-Matching Network for Video Object Segmentation, ICCV [Paper] [arXiv] [Code]
AGSS-VOS: Attention Guided Single-Shot Video Object Segmentation, ICCV [Paper] [Code]
RANet: Ranking Attention Network for Fast Video Object Segmentation, ICCV [Paper] [arXiv] [Code]
DTN: Fast Video Object Segmentation via Dynamic Targeting Network, ICCV [Paper]
CapsuleVOS: Semi-Supervised Video Object Segmentation Using Capsule Routing, ICCV [Paper] [arXiv] [Code]
STM: Video Object Segmentation Using Space-Time Memory Networks, ICCV [Paper] [arXiv] [Code]

2020

DIPNet: Dynamic Identity Propagation Network for Video Object Segmentation, WACV [Paper]
SAT: State-Aware Tracker for Real-Time Video Object Segmentation, CVPR [Paper] [arXiv] [Code]
FRTM: Learning Fast and Robust Target Models for Video Object Segmentation, CVPR [Paper] [arXiv] [Code]
TVOS: A Transductive Approach for Video Object Segmentation, CVPR [Paper] [arXiv] [Code]
TAN-DTTM: Fast Video Object Segmentation With Temporal Aggregation Network and Dynamic Template Matching, CVPR [Paper] [arXiv]
LWL: Learning What to Learn for Video Object Segmentation, ECCV [Paper] [arXiv] [Code]
EGMN: Video Object Segmentation with Episodic Graph Memory Networks, ECCV [Paper] [arXiv] [Code]
CFBI: Collaborative Video Object Segmentation by Foreground-Background Integration, ECCV [Paper] [arXiv] [Code]
GC: Fast Video Object Segmentation using the Global Context Module, ECCV [Paper] [arXiv]
KMN: Kernelized Memory Network for Video Object Segmentation, ECCV [Paper] [arXiv]
STM-cycle: Delving into the Cyclic Mechanism in Semi-supervised Video Object Segmentation, NeurIPS [Paper] [arXiv] [Code]
AFB-URR: Video Object Segmentation with Adaptive Feature Bank and Uncertain-Region Refinement, NeurIPS [Paper] [arXiv] [Code]
e-OSVOS: Make One-Shot Video Object Segmentation Efficient Again, NeurIPS [Paper] [arXiv] [Code]

2021

TAO-VOS: Reducing the Annotation Effort for Video Object Segmentation Datasets, WACV [Paper] [arXiv] [Page]
STG-Net: Spatiotemporal Graph Neural Network Based Mask Reconstruction for Video Object Segmentation, AAAI [Paper] [arXiv]
RMNet: Efficient Regional Memory Network for Video Object Segmentation, CVPR [Paper] [arXiv] [Code]
LCM: Learning Position and Target Consistency for Memory-Based Video Object Segmentation, CVPR [Paper] [arXiv]
GIEL: Video Object Segmentation Using Global and Instance Embedding Learning, CVPR [Paper]
SwiftNet: Real-time Video Object Segmentation, CVPR [Paper] [arXiv] [Code]
SSTVOS: Sparse Spatiotemporal Transformers for Video Object Segmentation, CVPR [Paper] [arXiv] [Code]
Reuse-VOS: Learning Dynamic Network Using a Reuse Gate Function in Semi-Supervised Video Object Segmentation, CVPR [Paper] [arXiv] [Code]
JOINT: Joint Inductive and Transductive Learning for Video Object Segmentation, ICCV [Paper] [arXiv] [Code]
HMMN: Hierarchical Memory Matching Network for Video Object Segmentation, ICCV [Paper] [arXiv] [Code]
DMN-AOA: Video Object Segmentation with Dynamic Memory Networks and Adaptive Object Alignment, ICCV [Paper] [Code]
AOT: Associating Objects with Transformers for Video Object Segmentation, NeurIPS [Paper] [arXiv] [Code]
STCN: Rethinking Space-Time Networks with Improved Memory Coverage for Efficient Video Object Segmentation, NeurIPS [Paper] [arXiv] [Code]

2022

BMVOS: Pixel-Level Bijective Matching for Video Object Segmentation, WACV [Paper] [arXiv] [Code]
RPCMVOS: Reliable Propagation-Correction Modulation for Video Object Segmentation, AAAI [Paper] [arXiv] [Code]
RDE-VOS: Recurrent Dynamic Embedding for Video Object Segmentation, CVPR [Paper] [arXiv] [Code]
YouMVOS: An Actor-centric Multi-shot Video Object Segmentation Dataset, CVPR [Paper] [Page]
PCVOS: Per-Clip Video Object Segmentation, CVPR [Paper]
CoVOS: Accelerating Video Object Segmentation with Compressed Video, CVPR [Paper] [arXiv] [Code]
SWEM: Towards Real-Time Video Object Segmentation with Sequential Weighted Expectation-Maximization, CVPR [Paper] [Code]
AOC: Towards Robust Video Object Segmentation with Adaptive Object Calibration, ACMMM [arXiv] [Code]
TBD: Tackling Background Distraction in Video Object Segmentation, ECCV [arXiv] [Code]
XMem: Long-Term Video Object Segmentation with an Atkinson-Shiffrin Memory Model, ECCV [arXiv] [Code]

Unsupervised VOS

2019

AGS: Learning Unsupervised Video Object Segmentation Through Visual Attention, CVPR [Paper] [Code]
COSNet: See More, Know More: Unsupervised Video Object Segmentation With Co-Attention Siamese Networks, CVPR [Paper] [arXiv] [Code]
AD-Net: Anchor Diffusion for Unsupervised Video Object Segmentation, ICCV [Paper] [arXiv] [Code]
AGNN: Zero-Shot Video Object Segmentation via Attentive Graph Neural Networks, ICCV [Paper] [arXiv] [Code]

2020

UnOVOST: Unsupervised Offline Video Object Segmentation and Tracking, WACV [Paper] [arXiv] [Code]
MATNet: Motion-Attentive Transition for Zero-Shot Video Object Segmentation, AAAI [Paper] [arXiv] [Code]
WCS-Net: Unsupervised Video Object Segmentation with Joint Hotspot Tracking, ECCV [Paper] [Code]
DFNet: Learning Discriminative Feature with CRF for Unsupervised Video Object Segmentation, ECCV [Paper] [arXiv]
3DC-Seg: Making a Case for 3D Convolutions for Object Segmentation in Videos, BMVC [Paper] [arXiv] [Code]

2021

FrameSelect: Mask Selection and Propagation for Unsupervised Video Object Segmentation, WACV [Paper] [Code]
F2Net: Learning to Focus on the Foreground for Unsupervised Video Object Segmentation, AAAI [Paper] [arXiv] [Code]
RTNet: Reciprocal Transformations for Unsupervised Video Object Segmentation, CVPR [Paper] [Code]
FSNet: Full-Duplex Strategy for Video Object Segmentation, ICCV [Paper] [arXiv] [Code]
TransportNet: Deep Transport Network for Unsupervised Video Object Segmentation, ICCV [Paper]
AMC-Net: Learning Motion-Appearance Co-Attention for Zero-Shot Video Object Segmentation, ICCV [Paper] [Code]

2022

D^2Conv3D: Dynamic Dilated Convolutions for Object Segmentation in Videos, WACV [Paper] [arXiv] [Code]
CFAM: Video Salient Object Detection via Contrastive Features and Attention Modules, WACV [Paper] [arXiv]
IMP: Iteratively Selecting an Easy Reference Frame Makes Unsupervised Video Object Segmentation Easier, AAAI [Paper] [arXiv]

Self-Supervised VOS

2020

MAST: A Memory-Augmented Self-Supervised Tracker, CVPR [Paper] [arXiv] [Code]
MuG: Learning Video Object Segmentation From Unlabeled Videos, CVPR [Paper] [arXiv] [Code]
CRW: Space-Time Correspondence as a Contrastive Random Walk, NeurIPS [Paper] [arXiv] [Code]

2021

MotionGroup: Self-supervised Video Object Segmentation by Motion Grouping, ICCV [Paper] [arXiv] [Code]
DUL: Dense Unsupervised Learning for Video Segmentation, NeurIPS [Paper] [arXiv] [Code]
AMD: The Emergence of Objectness: Learning Zero-Shot Segmentation from Videos, NeurIPS [Paper] [arXiv] [Code]

Interactive VOS

2019

IPNet: Fast User-Guided Video Object Segmentation by Interaction-And-Propagation Networks, CVPR [Paper] [arXiv] [Code]

2020

MA-Net: Memory Aggregation Networks for Efficient Interactive Video Object Segmentation, CVPR [Paper] [arXiv] [Code]
ScribbleBox: Interactive Annotation Framework for Video Object Segmentation, ECCV [Paper] [arXiv] [Page]
ATNet: Interactive Video Object Segmentation Using Global and Local Transfer Modules, ECCV [Paper] [arXiv] [Code]

2021

IVOS-W: Learning to Recommend Frame for Interactive Video Object Segmentation in the Wild, CVPR [Paper] [arXiv] [Code]
GIS: Guided Interactive Video Object Segmentation Using Reliability-Based Attention Maps, CVPR [Paper] [arXiv] [Code]
MiVOS: Modular Interactive Video Object Segmentation: Interaction-to-Mask, Propagation and Difference-Aware Fusion, CVPR [Paper] [arXiv] [Code]

Weakly-Supervised VOS

2019

SiamMask: Fast Online Object Tracking and Segmentation: A Unifying Approach, CVPR [Paper] [arXiv] [Code]

2020

FTMU: Fast Template Matching and Update for Video Object Tracking and Segmentation, CVPR [Paper] [arXiv] [Code]

2021

QMRA: Query-Memory Re-Aggregation for Weakly-Supervised Video Object Segmentation, AAAI [Paper]

Referring VOS

2020

URVOS: Unified Referring Video Object Segmentation Network with a Large-Scale Benchmark, ECCV [Paper] [Code]

2022

YOFO: You Only Infer Once: Cross-Modal Meta-Transfer for Referring Video Object Segmentation, AAAI [Paper]
MTTR: End-to-End Referring Video Object Segmentation with Multimodal Transformers, CVPR [Paper] [arXiv] [Code]
ReferFormer: Language as Queries for Referring Video Object Segmentation, CVPR [Paper] [arXiv] [Code]
LBDT: Language-Bridged Spatial-Temporal Interaction for Referring Video Object Segmentation, CVPR [Paper] [arXiv] [Code]
MLRL: Multi-Level Representation Learning with Semantic Alignment for Referring Video Object Segmentation, CVPR [Paper]

Popular Datasets

DAVIS: Densely Annotated VIdeo Segmentation [Page]
YouTube-VOS: A Large-Scale Benchmark for Video Object Segmentation [Page]
BL30K: A Large-Scale Synthetic Dataset based on Blender engine [Page]
YouTube-Objects: A Large-Scale Database of Object Videos from YouTube [Page]
FBMS: Freiburg-Berkeley Motion Segmentation Dataset [Page]

awesome-video-object-segmentation
awesome-video-object-segmentation copied to clipboard

Metadata

Awesome Video Object Segmentation

Contents

Semi-Supervised VOS

2019

2020

2021

2022

Unsupervised VOS

2019

2020

2021

2022

Self-Supervised VOS

2020

2021

Interactive VOS

2019

2020

2021

Weakly-Supervised VOS

2019

2020

2021

Referring VOS

2020

2022

Popular Datasets

← Metadata

Owner

Metadata

awesome-video-object-segmentation awesome-video-object-segmentation copied to clipboard

Metadata

Awesome Video Object Segmentation

Contents

Semi-Supervised VOS

2019

2020

2021

2022

Unsupervised VOS

2019

2020

2021

2022

Self-Supervised VOS

2020

2021

Interactive VOS

2019

2020

2021

Weakly-Supervised VOS

2019

2020

2021

Referring VOS

2020

2022

Popular Datasets

← Metadata

Owner

Metadata

awesome-video-object-segmentation
awesome-video-object-segmentation copied to clipboard