Cohere Transcribe - modelo de reconhecimento de fala open source SOTA

(cohere.com)

3 pontos por GN⁺ 26 일 전 | 2 comentários | Compartilhar no WhatsApp

Modelo moderno de reconhecimento automático de fala (ASR) com 2B (2 bilhões) de parâmetros, com suporte a 14 idiomas, incluindo inglês, coreano e chinês
Usa uma arquitetura encoder-decoder baseada em Conformer e é distribuído sob a licença Apache 2.0
Em inglês, supera os principais modelos concorrentes, como Whisper Large v3, com taxa média de erro por palavra (WER) de 5,42%, e ocupa o 1º lugar no Hugging Face Open ASR Leaderboard
Mostrou alta precisão e consistência tanto em avaliações em ambientes reais quanto em avaliações humanas, mantendo desempenho estável também em transcrição multilíngue
Alcança baixa latência e alta eficiência de processamento ao mesmo tempo, sendo adequado para produtos e fluxos de trabalho em tempo real

Visão geral do Cohere Transcribe

A fala está emergindo como uma forma central de entrada para automação de trabalho baseada em IA, como atas de reuniões, análise de voz e suporte ao cliente em tempo real
Este modelo foi treinado do zero com o objetivo de minimizar a taxa de erro por palavra (WER) e foi projetado pensando no uso em ambientes de serviço reais, e não apenas em pesquisa
A inferência pode ser feita com eficiência em GPUs e também em ambientes locais, e o modelo também está disponível na plataforma gerenciada de inferência da Cohere, o Model Vault
Ao conquistar o 1º lugar em precisão no Open ASR Leaderboard da Hugging Face, estabelece uma nova referência de desempenho de transcrição em ambientes reais

Arquitetura do modelo

O nome do modelo é cohere-transcribe-03-2026, e ele usa uma arquitetura encoder-decoder baseada em Conformer
- A entrada converte a forma de onda de áudio em espectrograma log-Mel, e a saída é o texto transcrito
- Um grande encoder Conformer com 2B (2 bilhões) de parâmetros extrai representações acústicas, e um decoder Transformer leve gera os tokens
Foi treinado do zero com aprendizado supervisionado usando perda padrão de entropia cruzada
Suporte a 14 idiomas
- Europa: inglês, francês, alemão, italiano, espanhol, português, grego, neerlandês, polonês
- Ásia-Pacífico: chinês (mandarim), japonês, coreano, vietnamita
- Oriente Médio e Norte da África: árabe
- Disponibilizado sob a licença Apache 2.0

Desempenho do modelo

Atinge o padrão mais recente em precisão de reconhecimento de fala em inglês, com WER médio de 5,42%, o melhor desempenho entre modelos ASR públicos e privados
- Supera concorrentes importantes como Whisper Large v3, ElevenLabs Scribe v2 e Qwen3-ASR-1.7B
Mantém desempenho robusto em diversos ambientes reais, como múltiplos locutores, acústica de sala de reunião e diferentes sotaques
Principais resultados de benchmark
- AMI: 8.13, LS clean: 1.25, LS other: 2.37, Voxpopuli: 5.87
- Com WER médio de 5,42, supera Zoom Scribe v1 (5.47), IBM Granite 4.0 (5.52) e NVIDIA Canary Qwen 2.5B (5.63)
O Hugging Face Open ASR Leaderboard avalia com WER padronizado em vários conjuntos de dados, e um WER menor significa maior precisão de transcrição

Resultados da avaliação humana

Foi confirmado o mesmo excelente desempenho em avaliações de ambientes reais fora dos benchmarks
- Avaliadores experientes analisaram resultados de transcrição de áudios reais com base em precisão, consistência e usabilidade
- Tanto a avaliação automática quanto a humana mostraram desempenho superior consistente
Na avaliação comparativa da qualidade de transcrição em inglês, obteve alta preferência em preservação de significado, prevenção de alucinações, reconhecimento de nomes próprios e precisão de formatação
Nas avaliações humanas por idioma suportado, também registrou taxa de preferência acima de 50%, comprovando desempenho estável em ambientes multilíngues

Velocidade de processamento e eficiência

Em ambientes reais de serviço, latência e throughput são restrições centrais
- Mesmo com alta precisão, se for lento ou consumir muitos recursos, impacta diretamente a experiência do usuário e os custos
O Cohere Transcribe mantém eficiência de processamento de alto nível entre modelos com mais de 1B de parâmetros, alcançando ao mesmo tempo baixo WER e alto RTFx (múltiplo de processamento em tempo real)
RTFx é um indicador de quão mais rápido o áudio é processado em relação ao tempo real, e o Transcribe amplia a fronteira de Pareto tanto em precisão quanto em velocidade
Avaliação da Radical Ventures
- A vice-presidente da Radical Ventures, Paige Dickie, elogiou bastante a velocidade e a qualidade do Transcribe
- Ela afirmou que “transcreve áudios de vários minutos em poucos segundos, abrindo novas possibilidades para produtos e fluxos de trabalho em tempo real”
- Também avaliou que ele oferece qualidade de transcrição forte e confiável até mesmo para fala cotidiana, com uma experiência de uso fluida

Direções futuras de desenvolvimento

A Cohere planeja integrar o Transcribe à plataforma de orquestração de agentes de IA North
- No futuro, o Transcribe deve ir além de um simples modelo de transcrição e se expandir como base de inteligência de voz para empresas

Uso e implantação

O modelo pode ser baixado no Hugging Face e executado também em ambientes locais ou de edge
É possível experimentá-lo gratuitamente por meio da API da Cohere, embora haja rate limit para as requisições
- O modo de uso e os guias de integração são fornecidos na documentação oficial
Com o Model Vault, é possível fazer inferência privada em nuvem com baixa latência sem gerenciar infraestrutura
- Aplica-se um plano de cobrança por instância por hora, com descontos para uso de longo prazo
- Consultas sobre implantação corporativa podem ser feitas com a equipe comercial da Cohere

2 comentários

j2sus91 26 일 전

Então não é open source, e sim um serviço pago?

GN⁺ 26 일 전

Opiniões no Hacker News

Tenho receio de que ASR (reconhecimento automático de fala) acabe virando algo como OCR
Se IAs grandes multimodais ficarem rápidas o suficiente e tiverem compreensão de contexto profunda, parece que vão acabar absorvendo todas as tecnologias existentes
No OCR também acontece isso: mesmo quando os caracteres são escaneados de forma borrada, a IA infere o significado do documento e identifica padrões como “o ID do pedido normalmente fica abaixo da data do pedido”
Se o ASR também passar a “adivinhar” com base em contexto desse jeito, existe o risco de distorcer a fala real
- Isso tem lados bons e ruins
  Um bom ASR entende até fala com ruído que eu mesmo não consigo compreender, mas às vezes corrige demais e troca palavras raras por palavras comuns
  No OCR também podem surgir dados plausíveis, porém errados, como no caso da Xerox
  Por isso eu uso OCR apenas para busca e sempre guardo o escaneamento original
- Isso já está acontecendo na prática
  LLMs multimodais como gpt-4o-transcribe são muito melhores do que simples reconhecimento de fala
  Dá para colocar no prompt a terminologia especializada ou o organograma da empresa, então uma frase como “peça para a Kaitlyn revisar o PR” consegue distinguir corretamente as pessoas
  Com uma ferramenta open source para Mac que eu fiz, dá para testar isso usando chave da API da OpenAI e prompts personalizados
- Não entendo por que isso seria motivo de preocupação
  Quando a tecnologia evolui, mesmo que algumas técnicas desapareçam, no fim não estamos indo para algo melhor?
- ASR já é uma tecnologia com utilidade comprovada
  Desde o surgimento do Whisper, explodiu o número de modelos de reconhecimento de fala que rodam localmente
  Ex.: superwhisper.com, carelesswhisper.app, macwhisper.com
- STT (fala→texto) provavelmente continuará sendo mais vantajoso localmente por um bom tempo
  Processar direto no dispositivo com microfone pode reduzir muito a largura de banda e talvez nem exija envio para a nuvem
É uma pena que o modelo não tenha timestamps nem separação de falantes (diarization)
Fico curioso se o WhisperX ainda é a melhor escolha para esse objetivo
- Mesmo entre APIs comerciais, quase não há opções que suportem com estabilidade separação de falantes e timestamps por palavra
  O Chirp do Google teve muitos problemas, como trechos omitidos, alucinações (hallucination) e inconsistência nos timestamps
  A AWS é um pouco melhor, mas a sincronização por palavra ainda é instável
  O Whisper também alucina com frequência, e o novo modelo da OpenAI é preciso, mas não oferece timestamps
  No fim dá para resolver com pós-processamento, mas seria bom ter uma API em que desse simplesmente para confiar
- WhisperX não é um modelo, e sim um pacote de software que reúne o Whisper com outros modelos
  Parece que uma versão integrada para o Cohere Transcribe deve sair em breve
- Recomendo o Qwen-ASR
  No fim da página há exemplos com timestamps
- O Mistral Voxtral suporta timestamps e separação de falantes, e mostrou bom desempenho em alemão
- Também existe o whisper-timestamped
  Ele usa os pesos de cross-attention do Whisper para alinhar com Dynamic Time Warping, sem modelo adicional
Estou muito satisfeito com o serviço da Cohere
Alguns meses atrás migrei para o modelo de clip-style embedding, e entre todos os serviços externos que já usei ele tem a latência P50 mais estável
- Fico curioso sobre a qualidade geral
  Os modelos da Cohere costumam ser menores e ter desempenho inferior
Muitos modelos de STT são treinados só com fala de pronúncia perfeita, então são fracos com sotaques estrangeiros
Como eu tenho sotaque francês falando inglês, quero muito testar esse modelo
Até agora, o que funcionou melhor no meu app de aprendizado de idiomas (Copycat Cafe) foi o Soniox, e os modelos baseados em Whisper tendiam mais a criar frases alucinadas
Testamos no nosso conjunto de dados interno (250 áudios de códigos postais britânicos) e ele foi bem competitivo
Soniox 71%, ElevenLabs 68.5%, AssemblyAI 66.9%, Deepgram 63.7%, Cohere 59.7%, Speechmatics 54%
- No compare-stt.com, dizem que a Gladia ficou em 1º em teste cego
- Para renderizar a tabela, basta deixar duas linhas em branco entre as linhas
- Queria saber se a referência humana foi 248/248
É uma pena que esse modelo não ofereça dicionário de palavras personalizado, word boosting nem adição de prompt
Provavelmente é só mais um modelo de ASR voltado para benchmark
Eu gero legendas com Whisper-large-v3 para subir no YouTube versões editadas de streams da Twitch
O que define um bom ASR é
1. suporte a timestamps
2. reconhecimento de falantes simultâneos
3. transcrição precisa
4. inclusão de expressões não verbais como [tosse], [risos]
5. possibilidade de injetar mais de 10 mil palavras de contexto
  Com o WhisperX dá para transcrever em 5 minutos, mas o maior problema ainda é a omissão de frases
- Os itens 3 e 4 talvez sejam até recursos desnecessários para a maioria dos clientes
Quando dizem “open source”, fico na dúvida se existe código-fonte ou se só liberaram os pesos do modelo
- Dá para baixar os arquivos no Hugging Face,
  e também existe uma versão convertida para ONNX, então dá para rodar até em CPU
- Na maioria dos casos, “open source” significa pesos abertos
  Como treinar o modelo custa caro demais, compartilhar só o resultado final já é útil o suficiente
- Provavelmente a expressão se refere ao modelo em si
Queria saber se esse modelo é SOTA dentro da mesma faixa de tamanho
Quero saber se ele é melhor que o Parakeet
- Se olhar o leaderboard de ASR do Hugging Face,
  o Parakeet (0.6B) é rápido, mas em WER fica mais ou menos entre os 10 melhores
- O modelo da Cohere tem 2B de parâmetros, maior que o Parakeet (0.6B, 1.1B), e também mostra desempenho melhor nos benchmarks
Eu usava o Dragon Dictate no passado, mas demorava muito para treinar e o resultado nem era tão bom
Recentemente fiz uma entrevista em podcast, e a Apple Podcasts gerou automaticamente uma transcrição por IA
Não havia muitos erros, mas o mais incômodo foi a falta de separação entre falantes
- Naquela época existiam programas de reconhecimento de fala que rodavam até com 64MB de RAM
  Quando eu era criança, baixei software shareware de TTS/reconhecimento de fala demais

Cohere Transcribe - modelo de reconhecimento de fala open source SOTA

Visão geral do Cohere Transcribe

Arquitetura do modelo

Suporte a 14 idiomas

Desempenho do modelo

Resultados da avaliação humana

Velocidade de processamento e eficiência

Avaliação da Radical Ventures

Direções futuras de desenvolvimento

Uso e implantação

Leituras relacionadas

2 comentários

Opiniões no Hacker News