- Modelo moderno de reconhecimento automático de fala (ASR) com 2B (2 bilhões) de parâmetros, com suporte a 14 idiomas, incluindo inglês, coreano e chinês
- Usa uma arquitetura encoder-decoder baseada em Conformer e é distribuído sob a licença Apache 2.0
- Em inglês, supera os principais modelos concorrentes, como Whisper Large v3, com taxa média de erro por palavra (WER) de 5,42%, e ocupa o 1º lugar no Hugging Face Open ASR Leaderboard
- Mostrou alta precisão e consistência tanto em avaliações em ambientes reais quanto em avaliações humanas, mantendo desempenho estável também em transcrição multilíngue
- Alcança baixa latência e alta eficiência de processamento ao mesmo tempo, sendo adequado para produtos e fluxos de trabalho em tempo real
Visão geral do Cohere Transcribe
- A fala está emergindo como uma forma central de entrada para automação de trabalho baseada em IA, como atas de reuniões, análise de voz e suporte ao cliente em tempo real
- Este modelo foi treinado do zero com o objetivo de minimizar a taxa de erro por palavra (WER) e foi projetado pensando no uso em ambientes de serviço reais, e não apenas em pesquisa
- A inferência pode ser feita com eficiência em GPUs e também em ambientes locais, e o modelo também está disponível na plataforma gerenciada de inferência da Cohere, o Model Vault
- Ao conquistar o 1º lugar em precisão no Open ASR Leaderboard da Hugging Face, estabelece uma nova referência de desempenho de transcrição em ambientes reais
Arquitetura do modelo
- O nome do modelo é cohere-transcribe-03-2026, e ele usa uma arquitetura encoder-decoder baseada em Conformer
- A entrada converte a forma de onda de áudio em espectrograma log-Mel, e a saída é o texto transcrito
- Um grande encoder Conformer com 2B (2 bilhões) de parâmetros extrai representações acústicas, e um decoder Transformer leve gera os tokens
- Foi treinado do zero com aprendizado supervisionado usando perda padrão de entropia cruzada
-
Suporte a 14 idiomas
- Europa: inglês, francês, alemão, italiano, espanhol, português, grego, neerlandês, polonês
- Ásia-Pacífico: chinês (mandarim), japonês, coreano, vietnamita
- Oriente Médio e Norte da África: árabe
- Disponibilizado sob a licença Apache 2.0
Desempenho do modelo
- Atinge o padrão mais recente em precisão de reconhecimento de fala em inglês, com WER médio de 5,42%, o melhor desempenho entre modelos ASR públicos e privados
- Supera concorrentes importantes como Whisper Large v3, ElevenLabs Scribe v2 e Qwen3-ASR-1.7B
- Mantém desempenho robusto em diversos ambientes reais, como múltiplos locutores, acústica de sala de reunião e diferentes sotaques
- Principais resultados de benchmark
- AMI: 8.13, LS clean: 1.25, LS other: 2.37, Voxpopuli: 5.87
- Com WER médio de 5,42, supera Zoom Scribe v1 (5.47), IBM Granite 4.0 (5.52) e NVIDIA Canary Qwen 2.5B (5.63)
- O Hugging Face Open ASR Leaderboard avalia com WER padronizado em vários conjuntos de dados, e um WER menor significa maior precisão de transcrição
Resultados da avaliação humana
- Foi confirmado o mesmo excelente desempenho em avaliações de ambientes reais fora dos benchmarks
- Avaliadores experientes analisaram resultados de transcrição de áudios reais com base em precisão, consistência e usabilidade
- Tanto a avaliação automática quanto a humana mostraram desempenho superior consistente
- Na avaliação comparativa da qualidade de transcrição em inglês, obteve alta preferência em preservação de significado, prevenção de alucinações, reconhecimento de nomes próprios e precisão de formatação
- Nas avaliações humanas por idioma suportado, também registrou taxa de preferência acima de 50%, comprovando desempenho estável em ambientes multilíngues
Velocidade de processamento e eficiência
- Em ambientes reais de serviço, latência e throughput são restrições centrais
- Mesmo com alta precisão, se for lento ou consumir muitos recursos, impacta diretamente a experiência do usuário e os custos
- O Cohere Transcribe mantém eficiência de processamento de alto nível entre modelos com mais de 1B de parâmetros, alcançando ao mesmo tempo baixo WER e alto RTFx (múltiplo de processamento em tempo real)
- RTFx é um indicador de quão mais rápido o áudio é processado em relação ao tempo real, e o Transcribe amplia a fronteira de Pareto tanto em precisão quanto em velocidade
-
Avaliação da Radical Ventures
- A vice-presidente da Radical Ventures, Paige Dickie, elogiou bastante a velocidade e a qualidade do Transcribe
- Ela afirmou que “transcreve áudios de vários minutos em poucos segundos, abrindo novas possibilidades para produtos e fluxos de trabalho em tempo real”
- Também avaliou que ele oferece qualidade de transcrição forte e confiável até mesmo para fala cotidiana, com uma experiência de uso fluida
Direções futuras de desenvolvimento
- A Cohere planeja integrar o Transcribe à plataforma de orquestração de agentes de IA North
- No futuro, o Transcribe deve ir além de um simples modelo de transcrição e se expandir como base de inteligência de voz para empresas
Uso e implantação
- O modelo pode ser baixado no Hugging Face e executado também em ambientes locais ou de edge
- É possível experimentá-lo gratuitamente por meio da API da Cohere, embora haja rate limit para as requisições
- O modo de uso e os guias de integração são fornecidos na documentação oficial
- Com o Model Vault, é possível fazer inferência privada em nuvem com baixa latência sem gerenciar infraestrutura
- Aplica-se um plano de cobrança por instância por hora, com descontos para uso de longo prazo
- Consultas sobre implantação corporativa podem ser feitas com a equipe comercial da Cohere
2 comentários
Então não é open source, e sim um serviço pago?
Opiniões no Hacker News
Tenho receio de que ASR (reconhecimento automático de fala) acabe virando algo como OCR
Se IAs grandes multimodais ficarem rápidas o suficiente e tiverem compreensão de contexto profunda, parece que vão acabar absorvendo todas as tecnologias existentes
No OCR também acontece isso: mesmo quando os caracteres são escaneados de forma borrada, a IA infere o significado do documento e identifica padrões como “o ID do pedido normalmente fica abaixo da data do pedido”
Se o ASR também passar a “adivinhar” com base em contexto desse jeito, existe o risco de distorcer a fala real
Um bom ASR entende até fala com ruído que eu mesmo não consigo compreender, mas às vezes corrige demais e troca palavras raras por palavras comuns
No OCR também podem surgir dados plausíveis, porém errados, como no caso da Xerox
Por isso eu uso OCR apenas para busca e sempre guardo o escaneamento original
LLMs multimodais como gpt-4o-transcribe são muito melhores do que simples reconhecimento de fala
Dá para colocar no prompt a terminologia especializada ou o organograma da empresa, então uma frase como “peça para a Kaitlyn revisar o PR” consegue distinguir corretamente as pessoas
Com uma ferramenta open source para Mac que eu fiz, dá para testar isso usando chave da API da OpenAI e prompts personalizados
Quando a tecnologia evolui, mesmo que algumas técnicas desapareçam, no fim não estamos indo para algo melhor?
Desde o surgimento do Whisper, explodiu o número de modelos de reconhecimento de fala que rodam localmente
Ex.: superwhisper.com, carelesswhisper.app, macwhisper.com
Processar direto no dispositivo com microfone pode reduzir muito a largura de banda e talvez nem exija envio para a nuvem
É uma pena que o modelo não tenha timestamps nem separação de falantes (diarization)
Fico curioso se o WhisperX ainda é a melhor escolha para esse objetivo
O Chirp do Google teve muitos problemas, como trechos omitidos, alucinações (hallucination) e inconsistência nos timestamps
A AWS é um pouco melhor, mas a sincronização por palavra ainda é instável
O Whisper também alucina com frequência, e o novo modelo da OpenAI é preciso, mas não oferece timestamps
No fim dá para resolver com pós-processamento, mas seria bom ter uma API em que desse simplesmente para confiar
Parece que uma versão integrada para o Cohere Transcribe deve sair em breve
No fim da página há exemplos com timestamps
Ele usa os pesos de cross-attention do Whisper para alinhar com Dynamic Time Warping, sem modelo adicional
Estou muito satisfeito com o serviço da Cohere
Alguns meses atrás migrei para o modelo de clip-style embedding, e entre todos os serviços externos que já usei ele tem a latência P50 mais estável
Os modelos da Cohere costumam ser menores e ter desempenho inferior
Muitos modelos de STT são treinados só com fala de pronúncia perfeita, então são fracos com sotaques estrangeiros
Como eu tenho sotaque francês falando inglês, quero muito testar esse modelo
Até agora, o que funcionou melhor no meu app de aprendizado de idiomas (Copycat Cafe) foi o Soniox, e os modelos baseados em Whisper tendiam mais a criar frases alucinadas
Testamos no nosso conjunto de dados interno (250 áudios de códigos postais britânicos) e ele foi bem competitivo
Soniox 71%, ElevenLabs 68.5%, AssemblyAI 66.9%, Deepgram 63.7%, Cohere 59.7%, Speechmatics 54%
É uma pena que esse modelo não ofereça dicionário de palavras personalizado, word boosting nem adição de prompt
Provavelmente é só mais um modelo de ASR voltado para benchmark
Eu gero legendas com Whisper-large-v3 para subir no YouTube versões editadas de streams da Twitch
O que define um bom ASR é
Com o WhisperX dá para transcrever em 5 minutos, mas o maior problema ainda é a omissão de frases
Quando dizem “open source”, fico na dúvida se existe código-fonte ou se só liberaram os pesos do modelo
e também existe uma versão convertida para ONNX, então dá para rodar até em CPU
Como treinar o modelo custa caro demais, compartilhar só o resultado final já é útil o suficiente
Queria saber se esse modelo é SOTA dentro da mesma faixa de tamanho
Quero saber se ele é melhor que o Parakeet
o Parakeet (0.6B) é rápido, mas em WER fica mais ou menos entre os 10 melhores
Eu usava o Dragon Dictate no passado, mas demorava muito para treinar e o resultado nem era tão bom
Recentemente fiz uma entrevista em podcast, e a Apple Podcasts gerou automaticamente uma transcrição por IA
Não havia muitos erros, mas o mais incômodo foi a falta de separação entre falantes
Quando eu era criança, baixei software shareware de TTS/reconhecimento de fala demais