Fine-Tuning VLM and Demo App

This repository contains a notebook for fine-tuning the BLIP-2 vision-language model with LoRA on the Flickr8k dataset for image captioning and a demo for interacting with the finetuned model.

Here is a blog explaining how I fine-tuned this VLM, you can also read about this on my website Fine-Tuning BLIP-2 with LoRA on the Flickr8k Dataset for Image Captioning

Name		Name	Last commit message	Last commit date
Latest commit History 21 Commits
blip2_finetuned		blip2_finetuned
.gitignore		.gitignore
README.md		README.md
main.py		main.py
model.py		model.py
requirements.txt		requirements.txt
stt.py		stt.py
tts.py		tts.py
vlm_finetuning.ipynb		vlm_finetuning.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Fine-Tuning VLM and Demo App

About

Uh oh!

Releases

Packages

Uh oh!

Languages

Holy-Morphism/VLM

Folders and files

Latest commit

History

Repository files navigation

Fine-Tuning VLM and Demo App

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Languages

Packages