За основу брал эту статью, но вместо NeMo использую whisperx (проще ставится) и в конце скармливаю в GPT для выжимки полученного
- ffmpeg для преобразования видео в .wav аудио, чтоб whisper-у было проще и лучше работать
- whisper — делает транскрибацию из аудио в речь
- whisperx — делает диаризация, разбивает речь по спикерам
poetry install- Поставить ffmpeg системно
- Для whisperx:
- Зарегаться и получить Read токен на huggingface и указать в .env. Обязательно получить доступ на репо speaker-diarization-3.1 и segmentation-3.0
- Установить прочие переменные окружения в .env: опираться на .env.example
- Загрузить видео для транскрибации в директорию settings.INTERVIEWS_PATH
poetry run python main.py— начинает пайплайн для всех интервью, у которых еще нет готовой транскрибации (их нет в директории settings.SCRAPED_RESULT_PATH)- Есть флаги
--skip-ffmpeg,--skip-whisperи--skip-whisperx, если нужно пропустить какой-то из этапов
Скормить полученное любой LLM (например GPT) и попросить сделать выжимку. Лучше перед этим разбить по удобным чанкам:
python -m core.chunk_transcribed.py <filename>- filename без расширения, он берется из директории settings.SCRAPED_RESULT_PATH- Гайд на промпт для выжимки: prompt-guide.txt
-
ffmpeg:
- Затем
python -m core.ffmpeg_scribe input.mp4(файл берется из директории settings.INTERVIEWS_PATH)
- Затем
-
whisper:
python -m core.whisper_scribe input.wav(файл берется из директории settings.SCRAPED_FFMPEG_PATH)
-
whisperx (диаризация):
python -m core.whisperx_diarize <filename>filename должен быть без расширения, подразуемевается, что есть filename.wav (после ffmpeg) и filename.json (после whisper)