AudioToTextApp

Transcrição rápida de voz para texto usando Faster-Whisper, ativada por atalhos globais de teclado, com suporte a Português e Inglês, execução local e cópia automática do resultado para a área de transferência.

Funcionalidades

Gravação ativada por hotkey global.
Transcrição local utilizando Faster-Whisper.
Suporte a GPU NVIDIA via CUDA.
Alternância rápida entre Português e Inglês.
Cópia automática da transcrição para o clipboard.
Feedback sonoro para todas as ações principais.
Encerramento seguro via hotkey dedicada.
Não depende de serviços externos ou APIs.

Demonstração do Fluxo

Pressione Ctrl + Shift + Alt + R
Fale normalmente.
Pressione Ctrl + Shift + Alt + R novamente.
Aguarde a transcrição.
O texto será automaticamente copiado para a área de transferência.
Cole onde desejar usando Ctrl + V.

Atalhos

Atalho	Ação
`Ctrl + Shift + Alt + R`	Iniciar / parar gravação
`Ctrl + Shift + Alt + L`	Alternar idioma (Português ↔ English)
`Ctrl + Shift + Alt + Q`	Encerrar aplicação
`Ctrl + C`	Encerrar pelo terminal

Requisitos

Hardware

Microfone funcional
GPU NVIDIA (recomendado)
Drivers NVIDIA instalados

Software

Linux
Python 3.13+
CUDA 12
cuBLAS
cuDNN

Instalação

Clonar o repositório

git clone <url-do-repositorio>
cd AudioToTextApp

Criar ambiente virtual

python -m venv .venv
source .venv/bin/activate

Instalar dependências

pip install -U pip

pip install \
faster-whisper \
sounddevice \
pynput \
python-xlib \
pyperclip \
numpy

pip install \
nvidia-cublas-cu12 \
nvidia-cudnn-cu12

Executando

python recorder.py

./start_service.sh

Idiomas

O sistema trabalha com idioma forçado para aumentar a precisão.

Idiomas disponíveis:

pt → Português
en → English

A troca é feita em tempo real usando:

Ctrl + Shift + Alt + L

Feedback Sonoro

A aplicação utiliza diferentes sinais sonoros para indicar eventos:

Evento	Feedback
Inicialização	Bipe de startup
Modelo carregado	Bipe de confirmação
Início da gravação	Sequência ascendente
Fim da gravação	Sequência descendente
Mudança de idioma	Tom específico por idioma
Transcrição concluída	Bipe de sucesso
Encerramento	Bipe de shutdown

Estrutura do Projeto

AudioToTextApp/
├── recorder.py
├── start_service.sh
├── requirements.txt
├── .gitignore
└── .venv/

Como Funciona

O programa carrega o modelo Whisper.
Fica aguardando atalhos globais.
Ao iniciar a gravação, captura áudio do microfone.
Ao finalizar:
- processa o áudio;
- executa a transcrição;
- copia o resultado para o clipboard.
O usuário apenas cola o texto onde desejar.

Dependências Principais

Faster-Whisper
CTranslate2
SoundDevice
NumPy
Pynput
Pyperclip

Limitações Conhecidas

Atualmente suporta apenas Português e Inglês.
O caminho CUDA é configurado especificamente para a estrutura atual do ambiente virtual.
O código assume Python 3.13 ao localizar bibliotecas CUDA dentro da .venv.
Testado apenas em Linux.

Possíveis Melhorias Futuras

Suporte a mais idiomas.
Configuração via arquivo JSON/TOML.
Interface gráfica.
Seleção de modelo (small, medium, large).
Modo tradução automática.
Execução como serviço de sistema.
Histórico de transcrições.
Indicador visual na bandeja do sistema.

Licença

Uso pessoal e educacional.

Adapte livremente conforme sua necessidade.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

AudioToTextApp

Funcionalidades

Demonstração do Fluxo

Atalhos

Requisitos

Hardware

Software

Instalação

Clonar o repositório

Criar ambiente virtual

Instalar dependências

Executando

Idiomas

Feedback Sonoro

Estrutura do Projeto

Como Funciona

Dependências Principais

Limitações Conhecidas

Possíveis Melhorias Futuras

Licença

FilesExpand file tree

README.md

Latest commit

History

README.md

File metadata and controls

AudioToTextApp

Funcionalidades

Demonstração do Fluxo

Atalhos

Requisitos

Hardware

Software

Instalação

Clonar o repositório

Criar ambiente virtual

Instalar dependências

Executando

Idiomas

Feedback Sonoro

Estrutura do Projeto

Como Funciona

Dependências Principais

Limitações Conhecidas

Possíveis Melhorias Futuras

Licença