← todos os apps v0.0.1 · released
JarvsTranscript // built by coslu labz

Transcrição em tempo real, no seu PC, em ~200 ms.

Whisper large-v3-turbo acelerado por CUDA + Silero VAD. Hotkey global F8, pill flutuante minimalista, paste híbrido (clipboard + SendInput) que funciona até em apps refratárias. Zero rede — o áudio nunca sai da máquina.

JarvsTranscript · janela de configurações
fig. 1 · JarvsTranscript · janela de configurações
§ 01
why

Transcrever áudio precisava virar mais barato que uma chamada cURL.

Otter, Rev, Google Speech, qualquer API de cloud — todas exigem rede, conta, e latência de upload. Whisper.cpp é local mas roda em CPU lenta. A gente queria: aperta F8, fala, solta — e em ~200 ms o texto aparece no app que estiver com foco. Sem cloud, sem login, sem upload. A GPU local da máquina faz o trabalho pesado.

§ 02
features

O que esse produto realmente faz.

№ 01

Hotkey global F8

Aperta de qualquer lugar — Discord, Slack, IDE, navegador. Modo push-to-talk (segura) ou toggle (liga/desliga), sua escolha.

~ № 02

Partials em tempo real

Sliding window de 1.5s com overlap de 200 ms. Você vê o texto sendo transcrito enquanto fala, não só no final — feedback ao vivo sem stutter.

№ 03

Silero VAD automático

Em modo toggle, o Silero VAD v5 detecta fim de fala natural e fecha a sessão sozinho. Fallback RMS-VAD se o Silero falhar.

№ 04

Paste híbrido

Clipboard primário + fallback de SendInput nativo. Funciona até em apps que recusam Ctrl+V — alguns terminais, alguns IMEs, alguns RDPs.

№ 05

Pill flutuante

420×72 px de UI. VU meter animado, glass blur, ocupa o canto da tela. Não rouba foco, não bloqueia clique abaixo.

№ 06

Configuração hot-reload

Troca de modelo, dispositivo (CPU/GPU) ou modo (PTT vs toggle) sem reiniciar. Tudo persistido em `data/config.json` versionado.

§ 03
under the hood

Por que essas escolhas técnicas.

01 faster-whisper · CTranslate2 · CUDA

GPU local, modelo de ponta

faster-whisper roda Whisper sobre CTranslate2 com FP16 nativo na GPU NVIDIA. Real-time factor sub-unitário no large-v3-turbo — mais rápido que falar.

02 Silero VAD v5

Detecção de fala em ~2 MB

Modelo deep learning leve com 95%+ de precisão em PT-BR e EN. Decide quando você parou de falar pra fechar a sessão automaticamente.

03 Tauri 2 · Rust · WinAPI

Shell nativo Windows

Hotkey global via Win32. Clipboard via arboard. SendInput via enigo. Captura HWND da janela com foco antes do paste — garante o caractere certo no app certo.

04 Python async · websockets

Pipeline async em localhost

Backend Python asyncio servindo websockets em 127.0.0.1:7979. Frontend Tauri fala protocolo versionado documentado. Zero rede externa, ponto final.

§ 04
specs

A ficha técnica.

Latência (release)
~200–800 ms
Modelo padrão
large-v3-turbo · ~1.5 GB
Formato de áudio
PCM float32 · 16 kHz · mono
Plataformas
Windows 11 · NVIDIA CUDA 12+
Licença
MIT
Versão atual
v0.0.1 · pre-release
Testes
183 verdes · 31 Rust · 48 Vitest · 104 pytest
§ 05
roadmap

Onde estamos · onde vamos.

  • [×] STT GPU (faster-whisper) done
  • [×] Hotkey global F8 done
  • [×] Modos PTT + toggle done
  • [×] Silero VAD + fallback RMS done
  • [×] Paste híbrido done
  • [×] Pill flutuante done
  • [×] Settings UI com hot-reload done
  • [×] Single-instance + autostart done
  • [ ] Hotkey customizável pelo usuário planned
  • [ ] Polish PT-BR (pontuação + capitalização) planned
§ 06 · next O próximo produto COSLU. COSLU Reader