#

vision-language-model

Here are 212 public repositories matching this topic...

llm-jp / awesome-japanese-llm

日本語LLMまとめ - Overview of Japanese LLMs

japanese generative-model japanese-language language-models language-model generative-models multimodal vision-and-language vision-language foundation-models large-language-models llm llms generative-ai large-language-model vision-language-model japanese-llm japanese-language-model llm-japanese

Updated Nov 13, 2024
TypeScript

Blaizzy / mlx-vlm

MLX-VLM is a package for running Vision LLMs locally on your Mac using MLX.

mlx vision-framework apple-silicon vision-transformer llm vision-language-model llava local-ai idefics paligemma

Updated Nov 13, 2024
Python

gptscript-ai / gptparse

Document parser for RAG

ocr vision-language-model retrieval-augmented-generation

Updated Nov 13, 2024
Python

wjpoom / SPEC

[CVPR 2024] The official implementation of paper "synthesize, diagnose, and optimize: towards fine-grained vision-language understanding"

language computer-vision vision clip image-retrieval fine-grained robustness text-retrieval multimodal compositionality vision-language vision-language-model cvpr2024 compostional

Updated Nov 12, 2024
Jupyter Notebook

Nerif-AI / Nerif

LLM-powered Python

python workflow ai openai multiagent llm large-language-model vision-language-model

Updated Nov 12, 2024
Python

illuin-tech / vidore-benchmark

Vision Document Retrieval (ViDoRe): Benchmark. Evaluation code for the ColPali paper.

search retrieval rag vision-language-model colpali

Updated Nov 12, 2024
Python

RobustVLM

chs20 / RobustVLM

[ICML 2024] Unsupervised Adversarial Fine-Tuning of Vision Embeddings for Robust Large Vision-Language Models

ai ml clip adversarial-attacks adversarial-defense vision-language-model

Updated Nov 11, 2024
Python

OpenBMB / VisRAG

Parsing-free RAG supported by VLMs

retrieval multi-modal document-retrieval rag multi-modality document-understanding vision-language-model retrieval-augmented-generation

Updated Nov 11, 2024
Python

equipeAdalove / Front-API-SEMESTRE2

Repositório destinado ao Front-end do Software para automatizar a extração de informações de documentos (Análise de Relatórios de Casos Clínicos)

front-end-development vision-language-model

Updated Nov 11, 2024
CSS

equipeAdalove / API-SEMESTRE2

Este é o repositório do projeto API desenvolvido na FATEC - Prof. Jessen Vidal (2/6)

java scrum fatec-sjc vision-language-model

Updated Nov 11, 2024

Event-AHU / Medical_Image_Analysis

Foundation models based medical image analysis

mamba mae medical-image-analysis state-space-model pre-training llm medical-report-generation foundation-model large-language-model vision-language-model x-ray-image masked-auto-encoder context-sample-retrieval

Updated Nov 11, 2024
Python

StarlightSearch / EmbedAnything

A minimalist yet highly performant, lightweight, lightning fast, multisource, multimodal and local embedding solution, built in rust.

rust machine-learning information-retrieval indexing rust-lang embedding-models rag jina large-language-models splade vision-language-model colpali late-interaction

Updated Nov 11, 2024
Rust

tonywu71 / colpali-cookbooks

Recipes for learning, fine-tuning, and adapting ColPali to your multimodal RAG use cases. 👨🏻‍🍳

search retrieval cookbooks rag vision-language-model colpali

Updated Nov 10, 2024

equipeAdalove / Back-API-SEMESTRE2

Repositório destinado ao Back-end do Software para automatizar a extração de informações de documentos (Análise de Relatórios de Casos Clínicos)

java backend vision-language-model

Updated Nov 10, 2024
Java

illuin-tech / colpali

The code used to train and run inference with the ColPali architecture.

information-retrieval vision-language-model retrieval-augmented-generation colpali

Updated Nov 10, 2024
Python

PKU-Alignment / align-anything

Align Anything: Training All-modality Model with Feedback

chameleon multimodal dpo large-language-models rlhf vision-language-model

Updated Nov 10, 2024
Python

liupei101 / VLSA

Interpretable Vision-Language Survival Analysis with Ordinal Inductive Bias for Computational Pathology

survival-analysis computational-pathology vision-language-model whole-slide-images

Updated Nov 10, 2024
Jupyter Notebook

neonwatty / meme_search

Index your memes by their content and text, making them easily retrievable for your meme warfare pleasures. Find funny fast.

machine-learning demo-app text-embedding vector-database large-language-models generative-ai vision-language-model

Updated Nov 9, 2024
Jupyter Notebook

FreedomIntelligence / TRIM

We introduce new approach, Token Reduction using CLIP Metric (TRIM), aimed at improving the efficiency of MLLMs without sacrificing their performance.

vlm multimodal vision-and-language llm mllm vision-language-model

Updated Nov 9, 2024
Python

BatsResearch / menghini-neurips23-code

Exploring prompt tuning with pseudolabels for multiple modalities, learning settings, and training strategies.

self-training clip prompt-tuning vision-language-model pseudolabels

Updated Nov 8, 2024
Python

Improve this page

Add a description, image, and links to the vision-language-model topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the vision-language-model topic, visit your repo's landing page and select "manage topics."