Skip to content

Thomaskynol/AudioToTextApp

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

5 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

AudioToTextApp

Transcrição rápida de voz para texto usando Faster-Whisper, ativada por atalhos globais de teclado, com suporte a Português e Inglês, execução local e cópia automática do resultado para a área de transferência.

Funcionalidades

  • Gravação ativada por hotkey global.
  • Transcrição local utilizando Faster-Whisper.
  • Suporte a GPU NVIDIA via CUDA.
  • Alternância rápida entre Português e Inglês.
  • Cópia automática da transcrição para o clipboard.
  • Feedback sonoro para todas as ações principais.
  • Encerramento seguro via hotkey dedicada.
  • Não depende de serviços externos ou APIs.

Demonstração do Fluxo

  1. Pressione Ctrl + Shift + Alt + R
  2. Fale normalmente.
  3. Pressione Ctrl + Shift + Alt + R novamente.
  4. Aguarde a transcrição.
  5. O texto será automaticamente copiado para a área de transferência.
  6. Cole onde desejar usando Ctrl + V.

Atalhos

Atalho Ação
Ctrl + Shift + Alt + R Iniciar / parar gravação
Ctrl + Shift + Alt + L Alternar idioma (Português ↔ English)
Ctrl + Shift + Alt + Q Encerrar aplicação
Ctrl + C Encerrar pelo terminal

Requisitos

Hardware

  • Microfone funcional
  • GPU NVIDIA (recomendado)
  • Drivers NVIDIA instalados

Software

  • Linux
  • Python 3.13+
  • CUDA 12
  • cuBLAS
  • cuDNN

Instalação

Clonar o repositório

git clone <url-do-repositorio>
cd AudioToTextApp

Criar ambiente virtual

python -m venv .venv
source .venv/bin/activate

Instalar dependências

pip install -U pip

pip install \
faster-whisper \
sounddevice \
pynput \
python-xlib \
pyperclip \
numpy

pip install \
nvidia-cublas-cu12 \
nvidia-cudnn-cu12

Executando

python recorder.py

ou

./start_service.sh

Idiomas

O sistema trabalha com idioma forçado para aumentar a precisão.

Idiomas disponíveis:

  • pt → Português
  • en → English

A troca é feita em tempo real usando:

Ctrl + Shift + Alt + L

Feedback Sonoro

A aplicação utiliza diferentes sinais sonoros para indicar eventos:

Evento Feedback
Inicialização Bipe de startup
Modelo carregado Bipe de confirmação
Início da gravação Sequência ascendente
Fim da gravação Sequência descendente
Mudança de idioma Tom específico por idioma
Transcrição concluída Bipe de sucesso
Encerramento Bipe de shutdown

Estrutura do Projeto

AudioToTextApp/
├── recorder.py
├── start_service.sh
├── requirements.txt
├── .gitignore
└── .venv/

Como Funciona

  1. O programa carrega o modelo Whisper.

  2. Fica aguardando atalhos globais.

  3. Ao iniciar a gravação, captura áudio do microfone.

  4. Ao finalizar:

    • processa o áudio;
    • executa a transcrição;
    • copia o resultado para o clipboard.
  5. O usuário apenas cola o texto onde desejar.


Dependências Principais

  • Faster-Whisper
  • CTranslate2
  • SoundDevice
  • NumPy
  • Pynput
  • Pyperclip

Limitações Conhecidas

  • Atualmente suporta apenas Português e Inglês.
  • O caminho CUDA é configurado especificamente para a estrutura atual do ambiente virtual.
  • O código assume Python 3.13 ao localizar bibliotecas CUDA dentro da .venv.
  • Testado apenas em Linux.

Possíveis Melhorias Futuras

  • Suporte a mais idiomas.
  • Configuração via arquivo JSON/TOML.
  • Interface gráfica.
  • Seleção de modelo (small, medium, large).
  • Modo tradução automática.
  • Execução como serviço de sistema.
  • Histórico de transcrições.
  • Indicador visual na bandeja do sistema.

Licença

Uso pessoal e educacional.

Adapte livremente conforme sua necessidade.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors