Сделано приложение, способное осуществлять QA при учитывании контента из любых предоставляемых сайтов. Надо передать список ссылок и далее можно задавать вопросы по данному материалу.
docker compose up -d --build
Сайт по работе с LLM (чат-бот с рагом) станет доступен после запуска компоуза по этому адресу - http://localhost:8501/
Код для работы с раг из python - rag_example.ipynb
Туториал по проекту - видео
Модели, что использованы в проекте (поднимаются локально):
LLM: Qwen/Qwen2.5-7B-Instruct-GPTQ-Int4
Embedder : intfloat/multilingual-e5-large-instruct
Reranker : BAAI/bge-reranker-v2-m3
Для Visual LLM могу рекомендовать такие модели:
Qwen/Qwen3-VL-8B-Instruct-FP8 - нужно порядка 25-30 Гб
Qwen/Qwen2-VL-7B-Instruct-GPTQ-Int4 - 16 Гб хватает при img=1
Как предустановить модель Qwen чтобы вольюм ее увидел и без инета запускал:
cd models/nlp/llm
git clone https://huggingface.co/Qwen/Qwen2.5-7B-Instruct-GPTQ-Int4
PS: если заменить command: --model /models/Qwen2.5-7B-Instruct-GPTQ-Int4 на --model Qwen/Qwen2.5-7B-Instruct-GPTQ-Int4 то модель сама скачается в кэш и не надо будет ее через git скачивать с хагингфеса (но тогда при каждом перезапуске будет качать ее)
В ветке GPT_VQA_Example можно найти примеры инференса готовых моделей в python по api. В том числе там пример с Visual LLM (VQA).