Top Vision Language Papers

This repository collects and categorizes top vision-language papers based on their approaches and applications, with a special focus on the CLIP model.

Vision-Language Pre-training

Learning Transferable Visual Models From Natural Language Supervision - CLIP (ICML 2021) [Paper][Code]
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision - ALIGN (ICML 2021) [Paper][Code]
MaskCLIP: Masked Self-Distillation Advances Contrastive Language-Image Pretraining (CVPR 2023) [paper][Code]
Scaling Language-Image Pre-training via Masking (CVPR 2023) [paper][Code]

Prompt Learning for Vision-Language Models

Feature Adapters for Vision-Language Models

CLIP-Adapter: Better Vision-Language Models with Feature Adapters (IJCV 2024) [Paper][Code]
MMA: Multi-Modal Adapter for Vision-Language Models (CVPR 2024) [Paper][Code]

Regularization-Based Prompt Learning

Self-regulating Prompts: Foundational Model Adaptation without Forgetting (ICCV 2023) [Paper][Code]
Consistency-guided Prompt Learning for Vision-Language Models (ICLR 2024) [Paper][Code]
Style-Pro: Style-Guided Prompt Learning for Generalizable Vision-Language Models (WACV 2025) [Paper][Code]

Test-Time Adaptation of Vision-Language Models

Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language Models (NeurIPS 2022) [Paper][Code]
Align Your Prompts: Test-Time Prompting with Distribution Alignment for Zero-Shot Generalization (NeurIPS 2023) [Paper][Code]
SwapPrompt: Test-Time Prompt Adaptation for Vision-Language Models (NeurIPS 2024) [paper] [code]
Efficient Test-Time Adaptation of Vision-Language Models (CVPR 2024) [paper] [code]
Visual-Text Cross Alignment: Refining the Similarity Score in Vision-Language Models (ICML 2024) [paper] [code]
BaFTA: Backprop-Free Test-Time Adaptation For Zero-Shot Vision-Language Models (submitted to ICLR 2025) [paper] [code]

CLIP-based Domain Generalization

STYLIP: Multi-Scale Style-Conditioned Prompt Learning for CLIP-based Domain Generalization (WACV 2024) [paper] [code]
AD-CLIP: Adapting Domains in Prompt Space Using CLIP (ICCV-W 2023) [paper] [code]
Any-Shift Prompting for Generalization over Distributions (CVPR 2024) [paper] [code]

CLIP-based Object Detection

Revisiting Few-Shot Object Detection with Vision-Language Models (NeurIPS 2024) [paper] [code]
CORA: Adapting CLIP for Open-Vocabulary Detection with Region Prompting and Anchor Pre-Matching (CVPR 2023) [paper] [code]

CLIP-based Open-Vocabulary Segmentation

ProxyCLIP: Proxy Attention Improves CLIP for Open-Vocabulary Segmentation (ECCV 2024) [paper] [code]
Self-Calibrated CLIP for Training-Free Open-Vocabulary Segmentation (Under review) [paper] [code]

Name		Name	Last commit message	Last commit date
Latest commit History 59 Commits
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Top Vision Language Papers

Contents

Vision-Language Pre-training

Prompt Learning for Vision-Language Models

Feature Adapters for Vision-Language Models

Regularization-Based Prompt Learning

Test-Time Adaptation of Vision-Language Models

CLIP-based Domain Generalization

CLIP-based Object Detection

CLIP-based Open-Vocabulary Segmentation

About

Releases

Packages

NilouAp/Top-Vision-Language-Papers

Folders and files

Latest commit

History

Repository files navigation

Top Vision Language Papers

Contents

Vision-Language Pre-training

Prompt Learning for Vision-Language Models

Feature Adapters for Vision-Language Models

Regularization-Based Prompt Learning

Test-Time Adaptation of Vision-Language Models

CLIP-based Domain Generalization

CLIP-based Object Detection

CLIP-based Open-Vocabulary Segmentation

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Packages