Transcrição em tempo real, no seu PC, em ~200 ms.
Whisper large-v3-turbo acelerado por CUDA + Silero VAD. Hotkey global F8, pill flutuante minimalista, paste híbrido (clipboard + SendInput) que funciona até em apps refratárias. Zero rede — o áudio nunca sai da máquina.
Transcrever áudio precisava virar mais barato que uma chamada cURL.
Otter, Rev, Google Speech, qualquer API de cloud — todas exigem rede, conta, e latência de upload. Whisper.cpp é local mas roda em CPU lenta. A gente queria: aperta F8, fala, solta — e em ~200 ms o texto aparece no app que estiver com foco. Sem cloud, sem login, sem upload. A GPU local da máquina faz o trabalho pesado.
O que esse produto realmente faz.
Hotkey global F8
Aperta de qualquer lugar — Discord, Slack, IDE, navegador. Modo push-to-talk (segura) ou toggle (liga/desliga), sua escolha.
Partials em tempo real
Sliding window de 1.5s com overlap de 200 ms. Você vê o texto sendo transcrito enquanto fala, não só no final — feedback ao vivo sem stutter.
Silero VAD automático
Em modo toggle, o Silero VAD v5 detecta fim de fala natural e fecha a sessão sozinho. Fallback RMS-VAD se o Silero falhar.
Paste híbrido
Clipboard primário + fallback de SendInput nativo. Funciona até em apps que recusam Ctrl+V — alguns terminais, alguns IMEs, alguns RDPs.
Pill flutuante
420×72 px de UI. VU meter animado, glass blur, ocupa o canto da tela. Não rouba foco, não bloqueia clique abaixo.
Configuração hot-reload
Troca de modelo, dispositivo (CPU/GPU) ou modo (PTT vs toggle) sem reiniciar. Tudo persistido em `data/config.json` versionado.
Por que essas escolhas técnicas.
GPU local, modelo de ponta
faster-whisper roda Whisper sobre CTranslate2 com FP16 nativo na GPU NVIDIA. Real-time factor sub-unitário no large-v3-turbo — mais rápido que falar.
Detecção de fala em ~2 MB
Modelo deep learning leve com 95%+ de precisão em PT-BR e EN. Decide quando você parou de falar pra fechar a sessão automaticamente.
Shell nativo Windows
Hotkey global via Win32. Clipboard via arboard. SendInput via enigo. Captura HWND da janela com foco antes do paste — garante o caractere certo no app certo.
Pipeline async em localhost
Backend Python asyncio servindo websockets em 127.0.0.1:7979. Frontend Tauri fala protocolo versionado documentado. Zero rede externa, ponto final.
A ficha técnica.
- Latência (release)
- ~200–800 ms
- Modelo padrão
- large-v3-turbo · ~1.5 GB
- Formato de áudio
- PCM float32 · 16 kHz · mono
- Plataformas
- Windows 11 · NVIDIA CUDA 12+
- Licença
- MIT
- Versão atual
- v0.0.1 · pre-release
- Testes
- 183 verdes · 31 Rust · 48 Vitest · 104 pytest
Onde estamos · onde vamos.
- [×] STT GPU (faster-whisper) done
- [×] Hotkey global F8 done
- [×] Modos PTT + toggle done
- [×] Silero VAD + fallback RMS done
- [×] Paste híbrido done
- [×] Pill flutuante done
- [×] Settings UI com hot-reload done
- [×] Single-instance + autostart done
- [ ] Hotkey customizável pelo usuário planned
- [ ] Polish PT-BR (pontuação + capitalização) planned