4 pontos por GN⁺ 2026-03-22 | 1 comentários | Compartilhar no WhatsApp
  • Omnilingual Machine Translation (OMT), desenvolvida pela Meta AI, é o primeiro sistema de tradução automática a oferecer suporte a mais de 1.600 idiomas, superando o limite de 200 idiomas do projeto NLLB anterior
  • Combina corpus públicos, retrotradução e mineração de dados para construir um grande conjunto de dados multilíngue que abrange até idiomas de poucos recursos e minoritários
  • Integra diversas ferramentas de avaliação de qualidade e toxicidade, como BLASER 3, OmniTOX, BOUQuET e Met-BOUQuET, para medir com alta confiabilidade o desempenho de tradução
  • Usa em paralelo um modelo decoder-only baseado em LLaMA3 e o OMT-NLLB com arquitetura encoder–decoder, alcançando tradução de alta qualidade mesmo em ambientes com baixo poder computacional
  • Alcança geração consistente de sentenças e melhor transferência entre idiomas em 1.600 línguas, sendo avaliado como um avanço importante para a ampliação da inclusão linguística global

Visão geral do Omnilingual MT

  • Omnilingual Machine Translation (OMT) é o primeiro sistema de tradução automática a oferecer suporte a mais de 1.600 idiomas, desenvolvido pela Meta AI
  • Com base nos avanços do projeto No Language Left Behind (NLLB), que havia se expandido até 200 idiomas, passa a abranger um conjunto muito maior de línguas
  • A tradução baseada em grandes modelos de linguagem (LLMs) já apresentava alta qualidade, mas com cobertura linguística limitada; em especial, a baixa capacidade de geração em idiomas minoritários e de poucos recursos era apontada como um problema
  • Para superar essas limitações, o OMT ampliou de forma abrangente a estratégia de dados, a arquitetura dos modelos e o sistema de avaliação

Estratégia de dados e expansão da cobertura linguística

  • O OMT amplia significativamente a cobertura de idiomas ao integrar corpus multilíngues públicos com novos conjuntos de dados gerados
    • Combina MeDLEY bitext (dados paralelos refinados manualmente), retrotradução sintética (synthetic backtranslation) e técnicas de mineração de dados (mining)
    • Com isso, passa a abranger idiomas da cauda longa (long-tail languages), além de diversos domínios e registros de linguagem (register)
  • Essa estratégia de dados estabelece a base para representar uma parcela significativa dos cerca de 7.000 idiomas que sistemas anteriores não conseguiam cobrir

Sistema de avaliação e medição de qualidade

  • Para garantir confiabilidade e escalabilidade, combina métricas padrão com várias ferramentas de avaliação
    • BLASER 3: modelo de avaliação reference-free que estima a qualidade sem frases de referência

      • OmniTOX: classificador que detecta toxicidade nos resultados de tradução
      • BOUQuET: grande conjunto de dados de avaliação multilíngue construído manualmente e cobrindo várias famílias linguísticas
      • Met-BOUQuET: conjunto de dados expansível para estimativa de qualidade multilíngue em larga escala
      • Esses conjuntos de dados são disponibilizados junto com um leaderboard público atualizado continuamente, permitindo uso livre por pesquisadores

Arquitetura dos modelos e abordagem de treinamento

  • O OMT especializa LLMs para tradução de duas formas
    • OMT-LLaMA

      • Modelo decoder-only baseado em LLaMA3
      • Reforça a adaptabilidade na inferência por meio de pré-treinamento contínuo multilíngue (multilingual continual pretraining) e tradução aumentada por recuperação (retrieval-augmented translation)
    • OMT-NLLB

      • Possui arquitetura encoder–decoder, construída sobre um espaço de alinhamento multilíngue chamado OmniSONAR
      • Introduz métodos de treinamento capazes de usar dados não paralelos (non-parallel data)
      • Permite integrar dados de pré-treinamento de modelos decoder-only ao treinamento encoder–decoder
      • Modelos de 1B a 8B parâmetros alcançaram desempenho de tradução equivalente ou superior ao de modelos de referência LLM de 70B, comprovando a possibilidade de tradução de alta qualidade mesmo em ambientes com poucos recursos computacionais

Desempenho e capacidade de geração linguística

  • Na avaliação de tradução de inglês para 1.600 idiomas, modelos anteriores frequentemente conseguiam entender idiomas de poucos recursos, mas falhavam em gerar frases significativas
  • O modelo OMT-LLaMA ampliou significativamente a geração coerente (coherent generation) nesses idiomas
  • O desempenho de transferência entre idiomas (cross-lingual transfer) também melhorou, praticamente resolvendo os problemas no aspecto de compreensão (understanding) para 1.600 idiomas
  • Com ajuste fino (finetuning) e geração aumentada por recuperação (RAG), é possível melhorar ainda mais a qualidade em idiomas ou domínios específicos

Recursos públicos e expansão da pesquisa

  • Os conjuntos de dados BOUQuET e Met-BOUQuET são disponibilizados gratuitamente e continuam sendo expandidos em direção à omnilinguality
  • A equipe de pesquisa tem como objetivo melhorar a acessibilidade para idiomas de poucos recursos e estabelecer uma base para a pesquisa em IA multilíngue
  • O OMT é avaliado como o primeiro sistema de tradução realmente prático a abranger diversidade linguística em larga escala, representando um avanço importante para a inclusão linguística global

1 comentários

 
GN⁺ 2026-03-22
Comentários do Hacker News
  • Senti que a qualidade de tradução da Meta é bem inferior à de outros serviços
    Isso é ainda pior em idiomas menos conhecidos
    O Google Tradutor é aceitável como padrão, mas a tradução baseada em LLM é muito melhor em entender contexto e transmitir nuances culturais
    Moro no Camboja, então comparo com frequência a qualidade da tradução para o khmer

    • Saudações de Siem Reap! É bom encontrar outro entusiasta de tecnologia do Camboja
      Na minha experiência, a tradução do Facebook é mais natural em frases longas do que a do Google
      O khmer é um idioma dependente de contexto e prolixo, então um LLM parece que ajudaria bastante
      Por outro lado, ao traduzir do inglês para o khmer, moradores locais dizem que o resultado fica com um tom formal e robótico, o que é interessante
    • Kagi Translate é realmente excelente
      Acho que o suporte multilíngue é uma das vantagens mais legais dos LLMs
    • É interessante que LLMs sejam melhores do que o Google para tradução de khmer
      Fico me perguntando por que o Google não usa o Gemini internamente, talvez por causa de problemas de alucinação
      Gostaria de ver um teste quantitativo comparando vários LLMs e APIs de tradução
    • A tradução para chinês também é ruim
    • Correção de typo (they're)
  • Dizem que conseguem traduzir 1.600 idiomas, mas não conseguem nem acertar a concordância entre sujeito e verbo na primeira frase do resumo em inglês
    Alegam ter alcançado tradução de alta qualidade expandida para 200 idiomas por meio do projeto NLLB (No Language Left Behind)

  • Abri uma empresa fazendo algo parecido — 6k.ai
    Estamos focados na coleta de dados para idiomas de poucos recursos
    Se você olhar datasets como Common Crawl, finepdfs e fineweb, verá que (1) quase não há dados de boa qualidade e (2) a forma de processamento é grosseira demais
    Por exemplo, o finepdfs classifica cada página de PDF como um único idioma, mas na prática há muitos dados em pares de idiomas

    • Também pesquiso idiomas de poucos recursos, especialmente línguas da família maia
      Publiquei materiais em wikilangs.org, omneitylabs.com e blog relacionado
      O maior gargalo não é coletar texto, e sim a precisão da identificação de idioma
      Em datasets como Common Crawl e Fineweb, a separação entre idiomas é ambígua
      Trabalhei em melhorias relacionadas à minha língua nativa no Fineweb 2, então talvez isso possa servir de inspiração
      Como problemas parecidos se repetem em várias regiões, eu gostaria de colaborar depois
    • O Common Crawl também está conduzindo um projeto de idiomas de poucos recursos há um ano e meio; é um problema realmente difícil
    • Vários órgãos governamentais também estão pesquisando esse problema
      Fico curioso para saber se vocês analisaram esses datasets públicos e quais idiomas estão priorizando
  • Levei um tempão para encontrar o link de download dos pesos do modelo
    Se são open weights, fico me perguntando por que não há um link de acesso direto

    • Não há menção de que este modelo seja open weight desta vez (o NLLB anterior era aberto)
      Em vez disso, o leaderboard e o dataset de avaliação estão públicos
      No artigo, só mencionam que “nosso modelo de tradução foi construído sobre modelos livremente disponíveis”
  • Estamos em 2026 e eu ainda não entendo por que não existe transcrição automática de mensagens de voz

  • Dizem que conseguem traduzir 1.600 idiomas, mas nem a separação básica de parágrafos está correta

    • Resumos de artigos, por regra, são escritos originalmente em um único parágrafo
  • 1.600 idiomas é muita coisa, mas ainda está longe de merecer o nome “Omni”
    Normalmente, o número de idiomas é estimado entre 4 mil e 8 mil, e conseguir os primeiros 1.000 idiomas é a parte mais difícil

    • No marketing, é preciso usar palavras como “frontier” e “edge” para dar um ar profissional
  • Em pesquisas antigas (Lauscher 2020), dizia-se que existia uma maldição do multilinguismo em que a qualidade da tradução caía à medida que o número de idiomas aumentava
    Mas a Meta parece ter superado isso
    Pelo resumo do artigo, eles afirmam ter introduzido melhorias na qualidade dos dados de treino e novas ferramentas de avaliação
    Também dizem que o OMT-LLaMA tem melhor qualidade de geração de texto do que modelos anteriores

  • Um ponto interessante é o benchmark BOUQuET apresentado pela Meta
    É uma iniciativa aberta para avaliar a qualidade de tradução de forma panlinguística
    huggingface.co/spaces/facebook/bouquet

  • Depois da febre da IA, a tradução da documentação da MS ficou um desastre
    Por exemplo, traduzem try/catch para o alemão como “versuchen/fangen”

    • Esse tipo de tradução na verdade tem valor negativo
      Especialmente em ambiente corporativo, é ainda mais incômodo porque é difícil mudar a configuração de localidade
      Também há muitos erros básicos, como traduzir “shortly” como “short”