13 pontos por GN⁺ 2026-02-05 | 1 comentários | Compartilhar no WhatsApp
  • Modelo de fala para texto de nova geração com reconhecimento de fala em tempo real de ultrabaixa latência e separação de locutores de alta precisão
  • Composto por dois modelos: Voxtral Mini Transcribe V2 para processamento em lote e Voxtral Realtime com arquitetura voltada a aplicações em tempo real
  • O modelo Realtime processa áudio em streaming com latência abaixo de 200 ms e foi publicado com pesos abertos sob Apache 2.0
  • O Mini Transcribe V2 oferece suporte a 13 idiomas, incluindo coreano, além de recursos corporativos como timestamps por palavra, context biasing e separação de locutores
  • Ambos os modelos oferecem suporte a implantações em conformidade com GDPR e HIPAA, melhorando significativamente a precisão, velocidade e eficiência de custo de aplicações baseadas em voz

Visão geral do Voxtral Transcribe 2

  • O Voxtral Transcribe 2 é composto por dois modelos, com foco em qualidade de reconhecimento de fala de última geração, separação precisa de locutores (diarization) e processamento de ultrabaixa latência
    • Voxtral Mini Transcribe V2: para transcrição em lote
    • Voxtral Realtime: para aplicações em tempo real
  • O modelo Realtime é disponibilizado sob licença Apache 2.0, podendo ser implantado inclusive em ambientes de edge
  • É possível testar a transcrição imediatamente pelo Audio Playground no Mistral Studio

Resumo dos principais recursos

  • Voxtral Mini Transcribe V2: suporte a 13 idiomas, separação de locutores, context biasing e timestamps por palavra
  • Voxtral Realtime: transcrição em tempo real com latência abaixo de 200 ms, ideal para agentes de voz e aplicações em tempo real
  • Eficiência: oferece precisão de alto nível com um dos menores custos do setor
  • Pesos abertos: o modelo Realtime é publicado sob Apache 2.0, permitindo implantações com foco em privacidade

Voxtral Realtime

  • Modelo projetado para aplicações em que a latência é crítica, realizando transcrição em tempo real com arquitetura de streaming, sem processar o áudio em chunks
  • Configurável para latência abaixo de 200 ms; com 2,4 s de latência, alcança a mesma precisão do modelo em lote, e com 480 ms de latência mantém taxa de erro de 1 a 2%
  • Suporte a 13 idiomas (inglês, chinês, hindi, espanhol, árabe, francês, português, russo, alemão, japonês, coreano, italiano e neerlandês)
  • Com 4B parâmetros, roda de forma eficiente até em dispositivos de edge, com segurança e privacidade garantidas
  • Os pesos do modelo estão disponíveis no Hugging Face Hub

Voxtral Mini Transcribe V2

  • A qualidade de transcrição e separação de locutores melhorou significativamente em diferentes idiomas e domínios
  • No benchmark FLEURS, atinge taxa de erro de palavras de cerca de 4% e entrega desempenho de ponta em custo-benefício por $0.003/minuto
  • Mais preciso que GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal e Deepgram Nova; é 3 vezes mais rápido que ElevenLabs Scribe v2 e custa 1/5 do preço

Recursos corporativos

  • Separação de locutores (Speaker diarization): identifica os falantes e marca os horários de início/fim, ideal para reuniões, entrevistas e chamadas com múltiplas pessoas
  • Context biasing: permite definir até 100 palavras ou frases para melhorar o reconhecimento de nomes próprios e termos técnicos (otimizado para inglês; experimental em outros idiomas)
  • Timestamps por palavra: úteis para geração de legendas, busca em áudio e alinhamento de conteúdo
  • Suporte ampliado a idiomas: suporte a 13 idiomas, com desempenho superior ao de modelos concorrentes também fora do inglês
  • Robustez a ruído: mantém a precisão mesmo em ambientes ruidosos, como fábricas e call centers
  • Processamento de áudio longo: consegue processar em uma única requisição arquivos gravados de até 3 horas

Audio Playground

  • É possível testar o Voxtral Transcribe 2 diretamente no Mistral Studio
  • Suporta upload de até 10 arquivos de áudio e configuração de separação de locutores, unidade de timestamp e context biasing
  • Formatos suportados: .mp3, .wav, .m4a, .flac, .ogg, com até 1 GB por arquivo

Diferentes casos de uso

  • Inteligência de reuniões: transcrição multilíngue e identificação de locutores para análise de grandes volumes de dados de reuniões
  • Agentes de voz e assistentes virtuais: implementação de interfaces conversacionais naturais com latência abaixo de 200 ms
  • Automação de contact center: transcrição de chamadas em tempo real para análise de sentimento, sugestão de respostas e preenchimento automático de CRM
  • Mídia e radiodifusão: geração de legendas multilíngues em tempo real e melhor reconhecimento de nomes próprios e termos especializados
  • Conformidade regulatória e documentação: trilha de auditoria com base em timestamps por locutor
  • Ambos os modelos oferecem suporte a implantações em conformidade com GDPR e HIPAA e podem operar com segurança em ambientes on-premises ou de nuvem privada

Uso e preços

  • Voxtral Mini Transcribe V2: $0.003/minuto via API, disponível no Mistral Studio ou no Le Chat
  • Voxtral Realtime: $0.006/minuto via API, com pesos abertos disponíveis no Hugging Face
  • Mais informações podem ser consultadas na documentação de áudio e transcrição da Mistral

1 comentários

 
GN⁺ 2026-02-05
Comentários no Hacker News
  • Esta demo foi realmente impressionante
    Mesmo quando mostra que não há microfone, ao apertar o botão de gravação o navegador pede permissão e já começa a funcionar
    Mesmo falando rápido e misturando termos técnicos, ele transcreve com precisão. Até a grafia de WebAssembly saiu perfeita

    • Usei quase todos os modelos de voz dos últimos 3 anos, e este está facilmente entre os melhores que já vi até agora
      E ainda por cima ter pesos abertos é algo realmente digno de agradecimento
    • Obrigado pelo link. O playground padrão da Mistral só permite upload de arquivo, então era difícil perceber a velocidade e a precisão, mas este link mostra muito bem o desempenho em tempo real
      Testei falando dois idiomas ao mesmo tempo e ainda assim reconheceu com precisão. Realmente impressionante
    • No meu ambiente não funcionou. Tanto no Firefox quanto no Chromium a forma de onda aparece, mas só mostra “Awaiting audio input”
    • Este link da API retorna erro 404. Aparece como erro em vermelho no canto superior direito da UI
    • A velocidade é impressionante a ponto de transcrever em tempo real até trechos de rap rápido do Eminem
  • O reconhecimento em inglês é bem bom, mas se eu falo em polonês ele reconhece como russo ou ucraniano
    Para uma empresa baseada na Europa, eu acharia que o suporte aos principais idiomas europeus deveria ser melhor
    Quando misturei inglês e polonês na fala, o resultado saiu completamente misturado

    • O modelo declara explicitamente que não oferece suporte a polonês, mas oferece suporte a russo
      Ele suporta 13 idiomas, e fico curioso sobre como o número de parâmetros ou a quantidade de dados de treino mudariam quando há muitas línguas com raízes semelhantes
    • Recomendo testar apenas com idiomas que estejam na lista de idiomas suportados
    • É uma pena que o desempenho seja bom só em certos idiomas. Oficialmente, ele dá suporte forte a apenas 13 idiomas
    • Se você mistura polonês e ucraniano, o resultado sai em russo. Mesmo falando apenas ucraniano, ele sempre transcreve como russo, o que é decepcionante
    • Do ponto de vista da estrutura fonológica, o polonês seria mais natural de representar em alfabeto cirílico, mas por razões históricas não é assim. Parece que esse tipo de coisa confunde a IA
  • Os números de 4% de taxa de erro por palavra no FLEURS e $0.003 por minuto chamam atenção
    O Amazon Transcribe custa $0.024 por minuto, então a diferença é grande

    • Mas fiquei curioso se esse preço é por minuto de áudio ou por minuto de computação
      Por exemplo, a API Whisper da fal.ai cobra “$0.00125 por segundo de computação”, mas processa de 10 a 25 vezes em tempo real, então sai muito mais barato
  • Este modelo é multilíngue e entende 14 idiomas
    Mas, na maioria dos casos de uso, só é necessário um idioma, então os outros podem acabar apenas aumentando a latência
    Acho que no futuro veremos uma tendência de reduzir partes desnecessárias desses modelos mais gerais
    O artigo relacionado pode ser visto aqui

    • Mas, como há muitas palavras emprestadas entre idiomas, um modelo multilíngue pode na verdade ajudar
      Ex.: “voila”, “el camino real”
    • Parece que este modelo provou eficiência e precisão ao mesmo tempo
    • Serviços STT já estabelecidos como Azure, Google e Amazon exigem que o idioma seja especificado, mas a qualidade continua alta
      Ainda assim, parece que internamente eles usam uma arquitetura baseada em LLM parecida
    • As pessoas não usam só um idioma. Code-switching é algo natural, então modelos de um único idioma têm limitações
    • O engraçado é que, neste comentário acima, estão dizendo para reduzir idiomas, enquanto em outros comentários reclamam que faltam idiomas
  • O desempenho foi competitivo com o Deepgram nova-3 e, na maioria dos casos, melhor que Assembly ou ElevenLabs
    Em testes internos, foi avaliado com um conjunto de dados de chamadas 8kHz com forte sotaque britânico, e o nível é praticamente SOTA
    Porém, a distribuição de latência (latency) estava um pouco instável. Parece que isso deve melhorar rodando localmente

  • Fiquei curioso sobre que recursos de hardware são necessários
    Não ficou claro se precisa de várias GPUs NVIDIA de ponta ou se também seria possível rodar offline em dispositivos de baixo consumo como um ESP32

  • Queria saber se isso é melhor que o Nvidia Parakeet V3. Até agora, esse era o melhor modelo local para mim

    • Eu mesmo estou usando uma porta do Nemotron ASR e estou satisfeito
      Veja o link do modelo, a porta de inference e a versão GGUF
    • Usei o Parakeet V3 localmente, e na minha percepção este modelo é um pouco mais lento, mas tem precisão maior
    • Eu gostava do Parakeet v3, mas às vezes ele simplesmente pulava frases inteiras
    • O Parakeet é 0.6B, então roda até em dispositivos de edge. O Voxtral é 4B, então parece difícil rodá-lo em tempo real em Orin ou Hailo
    • Eu também vim aqui para fazer a mesma pergunta!
  • Achei que a função de diarização viesse integrada por padrão, mas a versão em tempo real não tinha isso
    O Voxtral-Mini-4B-Realtime-2602 é um modelo de cerca de 9GB

    • A diarização só está incluída na versão Voxtral Mini Transcribe V2
  • Testei a demo e o reconhecimento em inglês é excelente, além de detectar em tempo real a troca de idioma
    Mas o ucraniano não é reconhecido de forma alguma e sempre é transcrito como russo
    Outros modelos de STT lidam bem com ucraniano, então é uma pena; parece que nos dados de treino há muito russo e pouco mais além disso

    • Como o modelo só oferece suporte a russo, ele mapeia o ucraniano de entrada para a palavra russa mais próxima
  • O modelo é bom, mas a versão anterior não era melhor que o Parakeet
    É preciso uma comparação objetiva com modelos mais recentes como o Qwen3-ASR
    Os benchmarks selecionados que as empresas mostram já estão cada vez mais difíceis de confiar
    No momento, para o meu uso, o Parakeet v3 continua sendo o mais rápido e eficiente

    • Existe o Open ASR Leaderboard, mas ele não é atualizado há meio ano
    • Eu também gosto do Parakeet e uso no Mac com o app Handy.
      Fiquei curioso sobre qual app você usa no celular