Transcritor de Mídia com IA

Um script de linha de comando eficiente para transcrever arquivos de áudio e vídeo em legendas .srt usando a tecnologia Whisper.

📖 Sobre o Projeto

Este projeto foi criado para automatizar a tarefa de transcrever aulas, palestras, reuniões e outros conteúdos de mídia. Utilizando o poder dos modelos de IA da família Whisper, este script oferece uma solução robusta e flexível que pode ser executada localmente, com suporte para aceleração via GPU para um desempenho ainda maior.

O objetivo é fornecer uma ferramenta simples, mas poderosa, para que usuários possam obter transcrições de alta qualidade sem depender de serviços online.

✨ Funcionalidades Principais

Menu Interativo: Selecione facilmente qual arquivo transcrever a partir de uma lista de mídias válidas no diretório.
Suporte a Vários Formatos: Transcreva os formatos de áudio e vídeo mais comuns (mp3, mp4, wav, m4a, webm, etc.).
Saída em .srt: Gera arquivos de legenda no formato SubRip (.srt), prontos para uso em players de vídeo ou para leitura.
Aceleração por GPU: Suporte total para processamento em GPUs NVIDIA (CUDA) para uma transcrição significativamente mais rápida.
Seleção de Modelo: Escolha entre diferentes tamanhos de modelo (tiny, base, small, medium, large-v3) para balancear velocidade e precisão.
Feedback em Tempo Real: Acompanhe o progresso da transcrição diretamente no seu terminal.

📂 Documentação Completa

Toda a documentação formal do projeto, incluindo a Especificação de Requisitos do Usuário (URS), a Especificação de Requisitos do Software (SRS), o Desenho da Arquitetura (SDS) com fluxogramas está disponível na pasta /docs deste repositório.

🛠️ Pré-requisitos

Antes de começar, certifique-se de que você tem os seguintes softwares instalados:

Python 3.12
astral-uv

Para aceleração GPU, instale:

Nvidia Cuda ToolKit
Nvidia cuNND
Nvidia CuBlas

🚀 Instalação

Clone o repositório:

git clone https://github.com/thawancomt/whisper-transcript.git
cd whisper-transcript

Instale as dependencias:
```
uv sync
```

(Como Usar)

Coloque os arquivos de áudio ou vídeo que você deseja transcrever na pasta do projeto.
Execute o script no seu terminal.

Uso Básico (com CPU):

(Modelos disponíveis: tiny, base, small, medium, large-v2, large-v3)

python app.py [--cpu-threads] [--model=modelo_desejado]

O script irá listar os arquivos disponíveis e você poderá escolher um número para iniciar a transcrição.

Uso com GPU (Requer NVIDIA CUDA) e drivers instalados no sistema:

python app.py --cuda [--cpu-threads] [--model=modelo_desejado]

📜 Licença

Este projeto está licenciado sob a Licença MIT. Veja o arquivo LICENSE para mais detalhes.

Instalação para rodar no linux

Name		Name	Last commit message	Last commit date
Latest commit History 34 Commits
.vscode		.vscode
docs		docs
utils		utils
.gitignore		.gitignore
CODE_OF_CONDUCT.md		CODE_OF_CONDUCT.md
Dockerfile		Dockerfile
LICENSE		LICENSE
README.md		README.md
app.py		app.py
pyproject.toml		pyproject.toml
ruff.toml		ruff.toml
uv.lock		uv.lock

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Transcritor de Mídia com IA

📖 Sobre o Projeto

✨ Funcionalidades Principais

📂 Documentação Completa

🛠️ Pré-requisitos

🚀 Instalação

(Como Usar)

Uso Básico (com CPU):

Uso com GPU (Requer NVIDIA CUDA) e drivers instalados no sistema:

📜 Licença

Instalação para rodar no linux

About

Uh oh!

Releases 1

Languages

License

thawancomt/AI-Transcriber-Audio-Video-CLI-Tool

Folders and files

Latest commit

History

Repository files navigation

Transcritor de Mídia com IA

📖 Sobre o Projeto

✨ Funcionalidades Principais

📂 Documentação Completa

🛠️ Pré-requisitos

🚀 Instalação

(Como Usar)

Uso Básico (com CPU):

Uso com GPU (Requer NVIDIA CUDA) e drivers instalados no sistema:

📜 Licença

Instalação para rodar no linux

About

Topics

Resources

License

Code of conduct

Uh oh!

Stars

Watchers

Forks

Releases 1

Languages