3 pontos por GN⁺ 26 일 전 | 2 comentários | Compartilhar no WhatsApp
  • Modelo moderno de reconhecimento automático de fala (ASR) com 2B (2 bilhões) de parâmetros, com suporte a 14 idiomas, incluindo inglês, coreano e chinês
  • Usa uma arquitetura encoder-decoder baseada em Conformer e é distribuído sob a licença Apache 2.0
  • Em inglês, supera os principais modelos concorrentes, como Whisper Large v3, com taxa média de erro por palavra (WER) de 5,42%, e ocupa o 1º lugar no Hugging Face Open ASR Leaderboard
  • Mostrou alta precisão e consistência tanto em avaliações em ambientes reais quanto em avaliações humanas, mantendo desempenho estável também em transcrição multilíngue
  • Alcança baixa latência e alta eficiência de processamento ao mesmo tempo, sendo adequado para produtos e fluxos de trabalho em tempo real

Visão geral do Cohere Transcribe

  • A fala está emergindo como uma forma central de entrada para automação de trabalho baseada em IA, como atas de reuniões, análise de voz e suporte ao cliente em tempo real
  • Este modelo foi treinado do zero com o objetivo de minimizar a taxa de erro por palavra (WER) e foi projetado pensando no uso em ambientes de serviço reais, e não apenas em pesquisa
  • A inferência pode ser feita com eficiência em GPUs e também em ambientes locais, e o modelo também está disponível na plataforma gerenciada de inferência da Cohere, o Model Vault
  • Ao conquistar o 1º lugar em precisão no Open ASR Leaderboard da Hugging Face, estabelece uma nova referência de desempenho de transcrição em ambientes reais

Arquitetura do modelo

  • O nome do modelo é cohere-transcribe-03-2026, e ele usa uma arquitetura encoder-decoder baseada em Conformer
    • A entrada converte a forma de onda de áudio em espectrograma log-Mel, e a saída é o texto transcrito
    • Um grande encoder Conformer com 2B (2 bilhões) de parâmetros extrai representações acústicas, e um decoder Transformer leve gera os tokens
  • Foi treinado do zero com aprendizado supervisionado usando perda padrão de entropia cruzada
  • Suporte a 14 idiomas

    • Europa: inglês, francês, alemão, italiano, espanhol, português, grego, neerlandês, polonês
    • Ásia-Pacífico: chinês (mandarim), japonês, coreano, vietnamita
    • Oriente Médio e Norte da África: árabe
    • Disponibilizado sob a licença Apache 2.0

Desempenho do modelo

  • Atinge o padrão mais recente em precisão de reconhecimento de fala em inglês, com WER médio de 5,42%, o melhor desempenho entre modelos ASR públicos e privados
    • Supera concorrentes importantes como Whisper Large v3, ElevenLabs Scribe v2 e Qwen3-ASR-1.7B
  • Mantém desempenho robusto em diversos ambientes reais, como múltiplos locutores, acústica de sala de reunião e diferentes sotaques
  • Principais resultados de benchmark
    • AMI: 8.13, LS clean: 1.25, LS other: 2.37, Voxpopuli: 5.87
    • Com WER médio de 5,42, supera Zoom Scribe v1 (5.47), IBM Granite 4.0 (5.52) e NVIDIA Canary Qwen 2.5B (5.63)
  • O Hugging Face Open ASR Leaderboard avalia com WER padronizado em vários conjuntos de dados, e um WER menor significa maior precisão de transcrição

Resultados da avaliação humana

  • Foi confirmado o mesmo excelente desempenho em avaliações de ambientes reais fora dos benchmarks
    • Avaliadores experientes analisaram resultados de transcrição de áudios reais com base em precisão, consistência e usabilidade
    • Tanto a avaliação automática quanto a humana mostraram desempenho superior consistente
  • Na avaliação comparativa da qualidade de transcrição em inglês, obteve alta preferência em preservação de significado, prevenção de alucinações, reconhecimento de nomes próprios e precisão de formatação
  • Nas avaliações humanas por idioma suportado, também registrou taxa de preferência acima de 50%, comprovando desempenho estável em ambientes multilíngues

Velocidade de processamento e eficiência

  • Em ambientes reais de serviço, latência e throughput são restrições centrais
    • Mesmo com alta precisão, se for lento ou consumir muitos recursos, impacta diretamente a experiência do usuário e os custos
  • O Cohere Transcribe mantém eficiência de processamento de alto nível entre modelos com mais de 1B de parâmetros, alcançando ao mesmo tempo baixo WER e alto RTFx (múltiplo de processamento em tempo real)
  • RTFx é um indicador de quão mais rápido o áudio é processado em relação ao tempo real, e o Transcribe amplia a fronteira de Pareto tanto em precisão quanto em velocidade
  • Avaliação da Radical Ventures

    • A vice-presidente da Radical Ventures, Paige Dickie, elogiou bastante a velocidade e a qualidade do Transcribe
    • Ela afirmou que “transcreve áudios de vários minutos em poucos segundos, abrindo novas possibilidades para produtos e fluxos de trabalho em tempo real”
    • Também avaliou que ele oferece qualidade de transcrição forte e confiável até mesmo para fala cotidiana, com uma experiência de uso fluida

Direções futuras de desenvolvimento

  • A Cohere planeja integrar o Transcribe à plataforma de orquestração de agentes de IA North
    • No futuro, o Transcribe deve ir além de um simples modelo de transcrição e se expandir como base de inteligência de voz para empresas

Uso e implantação

  • O modelo pode ser baixado no Hugging Face e executado também em ambientes locais ou de edge
  • É possível experimentá-lo gratuitamente por meio da API da Cohere, embora haja rate limit para as requisições
    • O modo de uso e os guias de integração são fornecidos na documentação oficial
  • Com o Model Vault, é possível fazer inferência privada em nuvem com baixa latência sem gerenciar infraestrutura
    • Aplica-se um plano de cobrança por instância por hora, com descontos para uso de longo prazo
    • Consultas sobre implantação corporativa podem ser feitas com a equipe comercial da Cohere

2 comentários

 
j2sus91 26 일 전

Então não é open source, e sim um serviço pago?

 
GN⁺ 26 일 전
Opiniões no Hacker News
  • Tenho receio de que ASR (reconhecimento automático de fala) acabe virando algo como OCR
    Se IAs grandes multimodais ficarem rápidas o suficiente e tiverem compreensão de contexto profunda, parece que vão acabar absorvendo todas as tecnologias existentes
    No OCR também acontece isso: mesmo quando os caracteres são escaneados de forma borrada, a IA infere o significado do documento e identifica padrões como “o ID do pedido normalmente fica abaixo da data do pedido”
    Se o ASR também passar a “adivinhar” com base em contexto desse jeito, existe o risco de distorcer a fala real

    • Isso tem lados bons e ruins
      Um bom ASR entende até fala com ruído que eu mesmo não consigo compreender, mas às vezes corrige demais e troca palavras raras por palavras comuns
      No OCR também podem surgir dados plausíveis, porém errados, como no caso da Xerox
      Por isso eu uso OCR apenas para busca e sempre guardo o escaneamento original
    • Isso já está acontecendo na prática
      LLMs multimodais como gpt-4o-transcribe são muito melhores do que simples reconhecimento de fala
      Dá para colocar no prompt a terminologia especializada ou o organograma da empresa, então uma frase como “peça para a Kaitlyn revisar o PR” consegue distinguir corretamente as pessoas
      Com uma ferramenta open source para Mac que eu fiz, dá para testar isso usando chave da API da OpenAI e prompts personalizados
    • Não entendo por que isso seria motivo de preocupação
      Quando a tecnologia evolui, mesmo que algumas técnicas desapareçam, no fim não estamos indo para algo melhor?
    • ASR já é uma tecnologia com utilidade comprovada
      Desde o surgimento do Whisper, explodiu o número de modelos de reconhecimento de fala que rodam localmente
      Ex.: superwhisper.com, carelesswhisper.app, macwhisper.com
    • STT (fala→texto) provavelmente continuará sendo mais vantajoso localmente por um bom tempo
      Processar direto no dispositivo com microfone pode reduzir muito a largura de banda e talvez nem exija envio para a nuvem
  • É uma pena que o modelo não tenha timestamps nem separação de falantes (diarization)
    Fico curioso se o WhisperX ainda é a melhor escolha para esse objetivo

    • Mesmo entre APIs comerciais, quase não há opções que suportem com estabilidade separação de falantes e timestamps por palavra
      O Chirp do Google teve muitos problemas, como trechos omitidos, alucinações (hallucination) e inconsistência nos timestamps
      A AWS é um pouco melhor, mas a sincronização por palavra ainda é instável
      O Whisper também alucina com frequência, e o novo modelo da OpenAI é preciso, mas não oferece timestamps
      No fim dá para resolver com pós-processamento, mas seria bom ter uma API em que desse simplesmente para confiar
    • WhisperX não é um modelo, e sim um pacote de software que reúne o Whisper com outros modelos
      Parece que uma versão integrada para o Cohere Transcribe deve sair em breve
    • Recomendo o Qwen-ASR
      No fim da página há exemplos com timestamps
    • O Mistral Voxtral suporta timestamps e separação de falantes, e mostrou bom desempenho em alemão
    • Também existe o whisper-timestamped
      Ele usa os pesos de cross-attention do Whisper para alinhar com Dynamic Time Warping, sem modelo adicional
  • Estou muito satisfeito com o serviço da Cohere
    Alguns meses atrás migrei para o modelo de clip-style embedding, e entre todos os serviços externos que já usei ele tem a latência P50 mais estável

    • Fico curioso sobre a qualidade geral
      Os modelos da Cohere costumam ser menores e ter desempenho inferior
  • Muitos modelos de STT são treinados só com fala de pronúncia perfeita, então são fracos com sotaques estrangeiros
    Como eu tenho sotaque francês falando inglês, quero muito testar esse modelo
    Até agora, o que funcionou melhor no meu app de aprendizado de idiomas (Copycat Cafe) foi o Soniox, e os modelos baseados em Whisper tendiam mais a criar frases alucinadas

  • Testamos no nosso conjunto de dados interno (250 áudios de códigos postais britânicos) e ele foi bem competitivo
    Soniox 71%, ElevenLabs 68.5%, AssemblyAI 66.9%, Deepgram 63.7%, Cohere 59.7%, Speechmatics 54%

    • No compare-stt.com, dizem que a Gladia ficou em 1º em teste cego
    • Para renderizar a tabela, basta deixar duas linhas em branco entre as linhas
    • Queria saber se a referência humana foi 248/248
  • É uma pena que esse modelo não ofereça dicionário de palavras personalizado, word boosting nem adição de prompt

  • Provavelmente é só mais um modelo de ASR voltado para benchmark
    Eu gero legendas com Whisper-large-v3 para subir no YouTube versões editadas de streams da Twitch
    O que define um bom ASR é

    1. suporte a timestamps
    2. reconhecimento de falantes simultâneos
    3. transcrição precisa
    4. inclusão de expressões não verbais como [tosse], [risos]
    5. possibilidade de injetar mais de 10 mil palavras de contexto
      Com o WhisperX dá para transcrever em 5 minutos, mas o maior problema ainda é a omissão de frases
    • Os itens 3 e 4 talvez sejam até recursos desnecessários para a maioria dos clientes
  • Quando dizem “open source”, fico na dúvida se existe código-fonte ou se só liberaram os pesos do modelo

    • Dá para baixar os arquivos no Hugging Face,
      e também existe uma versão convertida para ONNX, então dá para rodar até em CPU
    • Na maioria dos casos, “open source” significa pesos abertos
      Como treinar o modelo custa caro demais, compartilhar só o resultado final já é útil o suficiente
    • Provavelmente a expressão se refere ao modelo em si
  • Queria saber se esse modelo é SOTA dentro da mesma faixa de tamanho
    Quero saber se ele é melhor que o Parakeet

    • Se olhar o leaderboard de ASR do Hugging Face,
      o Parakeet (0.6B) é rápido, mas em WER fica mais ou menos entre os 10 melhores
    • O modelo da Cohere tem 2B de parâmetros, maior que o Parakeet (0.6B, 1.1B), e também mostra desempenho melhor nos benchmarks
  • Eu usava o Dragon Dictate no passado, mas demorava muito para treinar e o resultado nem era tão bom
    Recentemente fiz uma entrevista em podcast, e a Apple Podcasts gerou automaticamente uma transcrição por IA
    Não havia muitos erros, mas o mais incômodo foi a falta de separação entre falantes

    • Naquela época existiam programas de reconhecimento de fala que rodavam até com 64MB de RAM
      Quando eu era criança, baixei software shareware de TTS/reconhecimento de fala demais