- Modelo de fala para texto de nova geração com reconhecimento de fala em tempo real de ultrabaixa latência e separação de locutores de alta precisão
- Composto por dois modelos: Voxtral Mini Transcribe V2 para processamento em lote e Voxtral Realtime com arquitetura voltada a aplicações em tempo real
- O modelo Realtime processa áudio em streaming com latência abaixo de 200 ms e foi publicado com pesos abertos sob Apache 2.0
- O Mini Transcribe V2 oferece suporte a 13 idiomas, incluindo coreano, além de recursos corporativos como timestamps por palavra, context biasing e separação de locutores
- Ambos os modelos oferecem suporte a implantações em conformidade com GDPR e HIPAA, melhorando significativamente a precisão, velocidade e eficiência de custo de aplicações baseadas em voz
Visão geral do Voxtral Transcribe 2
- O Voxtral Transcribe 2 é composto por dois modelos, com foco em qualidade de reconhecimento de fala de última geração, separação precisa de locutores (diarization) e processamento de ultrabaixa latência
- Voxtral Mini Transcribe V2: para transcrição em lote
- Voxtral Realtime: para aplicações em tempo real
- O modelo Realtime é disponibilizado sob licença Apache 2.0, podendo ser implantado inclusive em ambientes de edge
- É possível testar a transcrição imediatamente pelo Audio Playground no Mistral Studio
Resumo dos principais recursos
- Voxtral Mini Transcribe V2: suporte a 13 idiomas, separação de locutores, context biasing e timestamps por palavra
- Voxtral Realtime: transcrição em tempo real com latência abaixo de 200 ms, ideal para agentes de voz e aplicações em tempo real
- Eficiência: oferece precisão de alto nível com um dos menores custos do setor
- Pesos abertos: o modelo Realtime é publicado sob Apache 2.0, permitindo implantações com foco em privacidade
Voxtral Realtime
- Modelo projetado para aplicações em que a latência é crítica, realizando transcrição em tempo real com arquitetura de streaming, sem processar o áudio em chunks
- Configurável para latência abaixo de 200 ms; com 2,4 s de latência, alcança a mesma precisão do modelo em lote, e com 480 ms de latência mantém taxa de erro de 1 a 2%
- Suporte a 13 idiomas (inglês, chinês, hindi, espanhol, árabe, francês, português, russo, alemão, japonês, coreano, italiano e neerlandês)
- Com 4B parâmetros, roda de forma eficiente até em dispositivos de edge, com segurança e privacidade garantidas
- Os pesos do modelo estão disponíveis no Hugging Face Hub
Voxtral Mini Transcribe V2
- A qualidade de transcrição e separação de locutores melhorou significativamente em diferentes idiomas e domínios
- No benchmark FLEURS, atinge taxa de erro de palavras de cerca de 4% e entrega desempenho de ponta em custo-benefício por $0.003/minuto
- Mais preciso que GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal e Deepgram Nova; é 3 vezes mais rápido que ElevenLabs Scribe v2 e custa 1/5 do preço
Recursos corporativos
- Separação de locutores (Speaker diarization): identifica os falantes e marca os horários de início/fim, ideal para reuniões, entrevistas e chamadas com múltiplas pessoas
- Context biasing: permite definir até 100 palavras ou frases para melhorar o reconhecimento de nomes próprios e termos técnicos (otimizado para inglês; experimental em outros idiomas)
- Timestamps por palavra: úteis para geração de legendas, busca em áudio e alinhamento de conteúdo
- Suporte ampliado a idiomas: suporte a 13 idiomas, com desempenho superior ao de modelos concorrentes também fora do inglês
- Robustez a ruído: mantém a precisão mesmo em ambientes ruidosos, como fábricas e call centers
- Processamento de áudio longo: consegue processar em uma única requisição arquivos gravados de até 3 horas
Audio Playground
- É possível testar o Voxtral Transcribe 2 diretamente no Mistral Studio
- Suporta upload de até 10 arquivos de áudio e configuração de separação de locutores, unidade de timestamp e context biasing
- Formatos suportados: .mp3, .wav, .m4a, .flac, .ogg, com até 1 GB por arquivo
Diferentes casos de uso
- Inteligência de reuniões: transcrição multilíngue e identificação de locutores para análise de grandes volumes de dados de reuniões
- Agentes de voz e assistentes virtuais: implementação de interfaces conversacionais naturais com latência abaixo de 200 ms
- Automação de contact center: transcrição de chamadas em tempo real para análise de sentimento, sugestão de respostas e preenchimento automático de CRM
- Mídia e radiodifusão: geração de legendas multilíngues em tempo real e melhor reconhecimento de nomes próprios e termos especializados
- Conformidade regulatória e documentação: trilha de auditoria com base em timestamps por locutor
- Ambos os modelos oferecem suporte a implantações em conformidade com GDPR e HIPAA e podem operar com segurança em ambientes on-premises ou de nuvem privada
Uso e preços
- Voxtral Mini Transcribe V2: $0.003/minuto via API, disponível no Mistral Studio ou no Le Chat
- Voxtral Realtime: $0.006/minuto via API, com pesos abertos disponíveis no Hugging Face
- Mais informações podem ser consultadas na documentação de áudio e transcrição da Mistral
1 comentários
Comentários no Hacker News
Esta demo foi realmente impressionante
Mesmo quando mostra que não há microfone, ao apertar o botão de gravação o navegador pede permissão e já começa a funcionar
Mesmo falando rápido e misturando termos técnicos, ele transcreve com precisão. Até a grafia de WebAssembly saiu perfeita
E ainda por cima ter pesos abertos é algo realmente digno de agradecimento
Testei falando dois idiomas ao mesmo tempo e ainda assim reconheceu com precisão. Realmente impressionante
O reconhecimento em inglês é bem bom, mas se eu falo em polonês ele reconhece como russo ou ucraniano
Para uma empresa baseada na Europa, eu acharia que o suporte aos principais idiomas europeus deveria ser melhor
Quando misturei inglês e polonês na fala, o resultado saiu completamente misturado
Ele suporta 13 idiomas, e fico curioso sobre como o número de parâmetros ou a quantidade de dados de treino mudariam quando há muitas línguas com raízes semelhantes
Os números de 4% de taxa de erro por palavra no FLEURS e $0.003 por minuto chamam atenção
O Amazon Transcribe custa $0.024 por minuto, então a diferença é grande
Por exemplo, a API Whisper da fal.ai cobra “$0.00125 por segundo de computação”, mas processa de 10 a 25 vezes em tempo real, então sai muito mais barato
Este modelo é multilíngue e entende 14 idiomas
Mas, na maioria dos casos de uso, só é necessário um idioma, então os outros podem acabar apenas aumentando a latência
Acho que no futuro veremos uma tendência de reduzir partes desnecessárias desses modelos mais gerais
O artigo relacionado pode ser visto aqui
Ex.: “voila”, “el camino real”
Ainda assim, parece que internamente eles usam uma arquitetura baseada em LLM parecida
O desempenho foi competitivo com o Deepgram nova-3 e, na maioria dos casos, melhor que Assembly ou ElevenLabs
Em testes internos, foi avaliado com um conjunto de dados de chamadas 8kHz com forte sotaque britânico, e o nível é praticamente SOTA
Porém, a distribuição de latência (latency) estava um pouco instável. Parece que isso deve melhorar rodando localmente
Fiquei curioso sobre que recursos de hardware são necessários
Não ficou claro se precisa de várias GPUs NVIDIA de ponta ou se também seria possível rodar offline em dispositivos de baixo consumo como um ESP32
Queria saber se isso é melhor que o Nvidia Parakeet V3. Até agora, esse era o melhor modelo local para mim
Veja o link do modelo, a porta de inference e a versão GGUF
Achei que a função de diarização viesse integrada por padrão, mas a versão em tempo real não tinha isso
O Voxtral-Mini-4B-Realtime-2602 é um modelo de cerca de 9GB
Testei a demo e o reconhecimento em inglês é excelente, além de detectar em tempo real a troca de idioma
Mas o ucraniano não é reconhecido de forma alguma e sempre é transcrito como russo
Outros modelos de STT lidam bem com ucraniano, então é uma pena; parece que nos dados de treino há muito russo e pouco mais além disso
O modelo é bom, mas a versão anterior não era melhor que o Parakeet
É preciso uma comparação objetiva com modelos mais recentes como o Qwen3-ASR
Os benchmarks selecionados que as empresas mostram já estão cada vez mais difíceis de confiar
No momento, para o meu uso, o Parakeet v3 continua sendo o mais rápido e eficiente
Fiquei curioso sobre qual app você usa no celular