Transcrição rápida de voz para texto usando Faster-Whisper, ativada por atalhos globais de teclado, com suporte a Português e Inglês, execução local e cópia automática do resultado para a área de transferência.
- Gravação ativada por hotkey global.
- Transcrição local utilizando Faster-Whisper.
- Suporte a GPU NVIDIA via CUDA.
- Alternância rápida entre Português e Inglês.
- Cópia automática da transcrição para o clipboard.
- Feedback sonoro para todas as ações principais.
- Encerramento seguro via hotkey dedicada.
- Não depende de serviços externos ou APIs.
- Pressione
Ctrl + Shift + Alt + R - Fale normalmente.
- Pressione
Ctrl + Shift + Alt + Rnovamente. - Aguarde a transcrição.
- O texto será automaticamente copiado para a área de transferência.
- Cole onde desejar usando
Ctrl + V.
| Atalho | Ação |
|---|---|
Ctrl + Shift + Alt + R |
Iniciar / parar gravação |
Ctrl + Shift + Alt + L |
Alternar idioma (Português ↔ English) |
Ctrl + Shift + Alt + Q |
Encerrar aplicação |
Ctrl + C |
Encerrar pelo terminal |
- Microfone funcional
- GPU NVIDIA (recomendado)
- Drivers NVIDIA instalados
- Linux
- Python 3.13+
- CUDA 12
- cuBLAS
- cuDNN
git clone <url-do-repositorio>
cd AudioToTextApppython -m venv .venv
source .venv/bin/activatepip install -U pip
pip install \
faster-whisper \
sounddevice \
pynput \
python-xlib \
pyperclip \
numpy
pip install \
nvidia-cublas-cu12 \
nvidia-cudnn-cu12python recorder.pyou
./start_service.shO sistema trabalha com idioma forçado para aumentar a precisão.
Idiomas disponíveis:
pt→ Portuguêsen→ English
A troca é feita em tempo real usando:
Ctrl + Shift + Alt + L
A aplicação utiliza diferentes sinais sonoros para indicar eventos:
| Evento | Feedback |
|---|---|
| Inicialização | Bipe de startup |
| Modelo carregado | Bipe de confirmação |
| Início da gravação | Sequência ascendente |
| Fim da gravação | Sequência descendente |
| Mudança de idioma | Tom específico por idioma |
| Transcrição concluída | Bipe de sucesso |
| Encerramento | Bipe de shutdown |
AudioToTextApp/
├── recorder.py
├── start_service.sh
├── requirements.txt
├── .gitignore
└── .venv/
-
O programa carrega o modelo Whisper.
-
Fica aguardando atalhos globais.
-
Ao iniciar a gravação, captura áudio do microfone.
-
Ao finalizar:
- processa o áudio;
- executa a transcrição;
- copia o resultado para o clipboard.
-
O usuário apenas cola o texto onde desejar.
- Faster-Whisper
- CTranslate2
- SoundDevice
- NumPy
- Pynput
- Pyperclip
- Atualmente suporta apenas Português e Inglês.
- O caminho CUDA é configurado especificamente para a estrutura atual do ambiente virtual.
- O código assume Python 3.13 ao localizar bibliotecas CUDA dentro da
.venv. - Testado apenas em Linux.
- Suporte a mais idiomas.
- Configuração via arquivo JSON/TOML.
- Interface gráfica.
- Seleção de modelo (small, medium, large).
- Modo tradução automática.
- Execução como serviço de sistema.
- Histórico de transcrições.
- Indicador visual na bandeja do sistema.
Uso pessoal e educacional.
Adapte livremente conforme sua necessidade.