language-vision

Here are 7 public repositories matching this topic...

unum-cloud / UForm

Pocket-Sized Multimodal AI for content understanding and generation across multilingual texts, images, and 🔜 video, up to 5x faster than OpenAI CLIP and LLaVA 🖼️ & 🖋️

Updated Oct 30, 2025
Python

JacobYuan7 / RLIPv2

Star

[ICCV 2023] RLIPv2: Fast Scaling of Relational Language-Image Pre-training

detection human-object-interaction scene-graph-generation language-vision

Updated May 28, 2024
Python

Fsoft-AIC / Language-Conditioned-Affordance-Pose-Detection-in-3D-Point-Clouds

Star

[ICRA 2024] Language-Conditioned Affordance-Pose Detection in 3D Point Clouds

robotics pose-estimation diffusion-models language-vision affordance-detection icra-2024

Updated Jan 10, 2025
Python

jwu114 / CAP

Star

[NAACL Findings 2025] Code and data of "Mitigating Hallucinations in Multimodal Spatial Relations through Constraint-Aware Prompting"

vqa multimodal language-vision spatial-relation-recognition prompting hallucination-mitigation

Updated May 2, 2025
Python

youcefgheffari3 / VisualGroundingAutonomy

Star

Visual Grounding for Autonomous Agents: linking language and vision for robotics or autonomous navigation

deep-learning robotics autonomy scene-understanding visual-grounding language-vision

Updated Jul 25, 2025
Python

CharlesYang030 / MTA

Star

MTA: A Lightweight Multilingual Text Alignment Model for Cross-language Visual Word Sense Disambiguation

multilingual image-text multimodal language-vision visualwsd

Updated May 31, 2023
Jupyter Notebook

ElDokmak / MultiModal-Models

Star

Hands on some MultiModal Models

tts multimodality language-vision fuyu llava gpt-4-vision

Updated Nov 23, 2023
Jupyter Notebook

Improve this page

Add a description, image, and links to the language-vision topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the language-vision topic, visit your repo's landing page and select "manage topics."

Learn more

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

language-vision

Here are 7 public repositories matching this topic...

unum-cloud / UForm

JacobYuan7 / RLIPv2

Fsoft-AIC / Language-Conditioned-Affordance-Pose-Detection-in-3D-Point-Clouds

jwu114 / CAP

youcefgheffari3 / VisualGroundingAutonomy

CharlesYang030 / MTA

ElDokmak / MultiModal-Models

Improve this page

Add this topic to your repo