Lançado o modelo Voxtral Transcribe 2

(mistral.ai)

13 pontos por GN⁺ 2026-02-05 | 1 comentários | Compartilhar no WhatsApp

Modelo de fala para texto de nova geração com reconhecimento de fala em tempo real de ultrabaixa latência e separação de locutores de alta precisão
Composto por dois modelos: Voxtral Mini Transcribe V2 para processamento em lote e Voxtral Realtime com arquitetura voltada a aplicações em tempo real
O modelo Realtime processa áudio em streaming com latência abaixo de 200 ms e foi publicado com pesos abertos sob Apache 2.0
O Mini Transcribe V2 oferece suporte a 13 idiomas, incluindo coreano, além de recursos corporativos como timestamps por palavra, context biasing e separação de locutores
Ambos os modelos oferecem suporte a implantações em conformidade com GDPR e HIPAA, melhorando significativamente a precisão, velocidade e eficiência de custo de aplicações baseadas em voz

Visão geral do Voxtral Transcribe 2

O Voxtral Transcribe 2 é composto por dois modelos, com foco em qualidade de reconhecimento de fala de última geração, separação precisa de locutores (diarization) e processamento de ultrabaixa latência
- Voxtral Mini Transcribe V2: para transcrição em lote
- Voxtral Realtime: para aplicações em tempo real
O modelo Realtime é disponibilizado sob licença Apache 2.0, podendo ser implantado inclusive em ambientes de edge
É possível testar a transcrição imediatamente pelo Audio Playground no Mistral Studio

Resumo dos principais recursos

Voxtral Mini Transcribe V2: suporte a 13 idiomas, separação de locutores, context biasing e timestamps por palavra
Voxtral Realtime: transcrição em tempo real com latência abaixo de 200 ms, ideal para agentes de voz e aplicações em tempo real
Eficiência: oferece precisão de alto nível com um dos menores custos do setor
Pesos abertos: o modelo Realtime é publicado sob Apache 2.0, permitindo implantações com foco em privacidade

Voxtral Realtime

Modelo projetado para aplicações em que a latência é crítica, realizando transcrição em tempo real com arquitetura de streaming, sem processar o áudio em chunks
Configurável para latência abaixo de 200 ms; com 2,4 s de latência, alcança a mesma precisão do modelo em lote, e com 480 ms de latência mantém taxa de erro de 1 a 2%
Suporte a 13 idiomas (inglês, chinês, hindi, espanhol, árabe, francês, português, russo, alemão, japonês, coreano, italiano e neerlandês)
Com 4B parâmetros, roda de forma eficiente até em dispositivos de edge, com segurança e privacidade garantidas
Os pesos do modelo estão disponíveis no Hugging Face Hub

Voxtral Mini Transcribe V2

A qualidade de transcrição e separação de locutores melhorou significativamente em diferentes idiomas e domínios
No benchmark FLEURS, atinge taxa de erro de palavras de cerca de 4% e entrega desempenho de ponta em custo-benefício por $0.003/minuto
Mais preciso que GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal e Deepgram Nova; é 3 vezes mais rápido que ElevenLabs Scribe v2 e custa 1/5 do preço

Recursos corporativos

Separação de locutores (Speaker diarization): identifica os falantes e marca os horários de início/fim, ideal para reuniões, entrevistas e chamadas com múltiplas pessoas
Context biasing: permite definir até 100 palavras ou frases para melhorar o reconhecimento de nomes próprios e termos técnicos (otimizado para inglês; experimental em outros idiomas)
Timestamps por palavra: úteis para geração de legendas, busca em áudio e alinhamento de conteúdo
Suporte ampliado a idiomas: suporte a 13 idiomas, com desempenho superior ao de modelos concorrentes também fora do inglês
Robustez a ruído: mantém a precisão mesmo em ambientes ruidosos, como fábricas e call centers
Processamento de áudio longo: consegue processar em uma única requisição arquivos gravados de até 3 horas

Audio Playground

É possível testar o Voxtral Transcribe 2 diretamente no Mistral Studio
Suporta upload de até 10 arquivos de áudio e configuração de separação de locutores, unidade de timestamp e context biasing
Formatos suportados: .mp3, .wav, .m4a, .flac, .ogg, com até 1 GB por arquivo

Diferentes casos de uso

Inteligência de reuniões: transcrição multilíngue e identificação de locutores para análise de grandes volumes de dados de reuniões
Agentes de voz e assistentes virtuais: implementação de interfaces conversacionais naturais com latência abaixo de 200 ms
Automação de contact center: transcrição de chamadas em tempo real para análise de sentimento, sugestão de respostas e preenchimento automático de CRM
Mídia e radiodifusão: geração de legendas multilíngues em tempo real e melhor reconhecimento de nomes próprios e termos especializados
Conformidade regulatória e documentação: trilha de auditoria com base em timestamps por locutor

Ambos os modelos oferecem suporte a implantações em conformidade com GDPR e HIPAA e podem operar com segurança em ambientes on-premises ou de nuvem privada

Uso e preços

Voxtral Mini Transcribe V2: $0.003/minuto via API, disponível no Mistral Studio ou no Le Chat
Voxtral Realtime: $0.006/minuto via API, com pesos abertos disponíveis no Hugging Face
Mais informações podem ser consultadas na documentação de áudio e transcrição da Mistral

1 comentários

GN⁺ 2026-02-05

Comentários no Hacker News

Esta demo foi realmente impressionante
Mesmo quando mostra que não há microfone, ao apertar o botão de gravação o navegador pede permissão e já começa a funcionar
Mesmo falando rápido e misturando termos técnicos, ele transcreve com precisão. Até a grafia de WebAssembly saiu perfeita
- Usei quase todos os modelos de voz dos últimos 3 anos, e este está facilmente entre os melhores que já vi até agora
  E ainda por cima ter pesos abertos é algo realmente digno de agradecimento
- Obrigado pelo link. O playground padrão da Mistral só permite upload de arquivo, então era difícil perceber a velocidade e a precisão, mas este link mostra muito bem o desempenho em tempo real
  Testei falando dois idiomas ao mesmo tempo e ainda assim reconheceu com precisão. Realmente impressionante
- No meu ambiente não funcionou. Tanto no Firefox quanto no Chromium a forma de onda aparece, mas só mostra “Awaiting audio input”
- Este link da API retorna erro 404. Aparece como erro em vermelho no canto superior direito da UI
- A velocidade é impressionante a ponto de transcrever em tempo real até trechos de rap rápido do Eminem
O reconhecimento em inglês é bem bom, mas se eu falo em polonês ele reconhece como russo ou ucraniano
Para uma empresa baseada na Europa, eu acharia que o suporte aos principais idiomas europeus deveria ser melhor
Quando misturei inglês e polonês na fala, o resultado saiu completamente misturado
- O modelo declara explicitamente que não oferece suporte a polonês, mas oferece suporte a russo
  Ele suporta 13 idiomas, e fico curioso sobre como o número de parâmetros ou a quantidade de dados de treino mudariam quando há muitas línguas com raízes semelhantes
- Recomendo testar apenas com idiomas que estejam na lista de idiomas suportados
- É uma pena que o desempenho seja bom só em certos idiomas. Oficialmente, ele dá suporte forte a apenas 13 idiomas
- Se você mistura polonês e ucraniano, o resultado sai em russo. Mesmo falando apenas ucraniano, ele sempre transcreve como russo, o que é decepcionante
- Do ponto de vista da estrutura fonológica, o polonês seria mais natural de representar em alfabeto cirílico, mas por razões históricas não é assim. Parece que esse tipo de coisa confunde a IA
Os números de 4% de taxa de erro por palavra no FLEURS e $0.003 por minuto chamam atenção
O Amazon Transcribe custa $0.024 por minuto, então a diferença é grande
- Mas fiquei curioso se esse preço é por minuto de áudio ou por minuto de computação
  Por exemplo, a API Whisper da fal.ai cobra “$0.00125 por segundo de computação”, mas processa de 10 a 25 vezes em tempo real, então sai muito mais barato
Este modelo é multilíngue e entende 14 idiomas
Mas, na maioria dos casos de uso, só é necessário um idioma, então os outros podem acabar apenas aumentando a latência
Acho que no futuro veremos uma tendência de reduzir partes desnecessárias desses modelos mais gerais
O artigo relacionado pode ser visto aqui
- Mas, como há muitas palavras emprestadas entre idiomas, um modelo multilíngue pode na verdade ajudar
  Ex.: “voila”, “el camino real”
- Parece que este modelo provou eficiência e precisão ao mesmo tempo
- Serviços STT já estabelecidos como Azure, Google e Amazon exigem que o idioma seja especificado, mas a qualidade continua alta
  Ainda assim, parece que internamente eles usam uma arquitetura baseada em LLM parecida
- As pessoas não usam só um idioma. Code-switching é algo natural, então modelos de um único idioma têm limitações
- O engraçado é que, neste comentário acima, estão dizendo para reduzir idiomas, enquanto em outros comentários reclamam que faltam idiomas
O desempenho foi competitivo com o Deepgram nova-3 e, na maioria dos casos, melhor que Assembly ou ElevenLabs
Em testes internos, foi avaliado com um conjunto de dados de chamadas 8kHz com forte sotaque britânico, e o nível é praticamente SOTA
Porém, a distribuição de latência (latency) estava um pouco instável. Parece que isso deve melhorar rodando localmente
Fiquei curioso sobre que recursos de hardware são necessários
Não ficou claro se precisa de várias GPUs NVIDIA de ponta ou se também seria possível rodar offline em dispositivos de baixo consumo como um ESP32
Queria saber se isso é melhor que o Nvidia Parakeet V3. Até agora, esse era o melhor modelo local para mim
- Eu mesmo estou usando uma porta do Nemotron ASR e estou satisfeito
  Veja o link do modelo, a porta de inference e a versão GGUF
- Usei o Parakeet V3 localmente, e na minha percepção este modelo é um pouco mais lento, mas tem precisão maior
- Eu gostava do Parakeet v3, mas às vezes ele simplesmente pulava frases inteiras
- O Parakeet é 0.6B, então roda até em dispositivos de edge. O Voxtral é 4B, então parece difícil rodá-lo em tempo real em Orin ou Hailo
- Eu também vim aqui para fazer a mesma pergunta!
Achei que a função de diarização viesse integrada por padrão, mas a versão em tempo real não tinha isso
O Voxtral-Mini-4B-Realtime-2602 é um modelo de cerca de 9GB
- A diarização só está incluída na versão Voxtral Mini Transcribe V2
Testei a demo e o reconhecimento em inglês é excelente, além de detectar em tempo real a troca de idioma
Mas o ucraniano não é reconhecido de forma alguma e sempre é transcrito como russo
Outros modelos de STT lidam bem com ucraniano, então é uma pena; parece que nos dados de treino há muito russo e pouco mais além disso
- Como o modelo só oferece suporte a russo, ele mapeia o ucraniano de entrada para a palavra russa mais próxima
O modelo é bom, mas a versão anterior não era melhor que o Parakeet
É preciso uma comparação objetiva com modelos mais recentes como o Qwen3-ASR
Os benchmarks selecionados que as empresas mostram já estão cada vez mais difíceis de confiar
No momento, para o meu uso, o Parakeet v3 continua sendo o mais rápido e eficiente
- Existe o Open ASR Leaderboard, mas ele não é atualizado há meio ano
- Eu também gosto do Parakeet e uso no Mac com o app Handy.
  Fiquei curioso sobre qual app você usa no celular

Lançado o modelo Voxtral Transcribe 2

Visão geral do Voxtral Transcribe 2

Resumo dos principais recursos

Voxtral Realtime

Voxtral Mini Transcribe V2

Recursos corporativos

Audio Playground

Diferentes casos de uso

Uso e preços

Leituras relacionadas

1 comentários

Comentários no Hacker News