OMT omnilíngue da Meta para 1.600 idiomas

(ai.meta.com)

4 pontos por GN⁺ 2026-03-22 | 1 comentários | Compartilhar no WhatsApp

Omnilingual Machine Translation (OMT), desenvolvida pela Meta AI, é o primeiro sistema de tradução automática a oferecer suporte a mais de 1.600 idiomas, superando o limite de 200 idiomas do projeto NLLB anterior
Combina corpus públicos, retrotradução e mineração de dados para construir um grande conjunto de dados multilíngue que abrange até idiomas de poucos recursos e minoritários
Integra diversas ferramentas de avaliação de qualidade e toxicidade, como BLASER 3, OmniTOX, BOUQuET e Met-BOUQuET, para medir com alta confiabilidade o desempenho de tradução
Usa em paralelo um modelo decoder-only baseado em LLaMA3 e o OMT-NLLB com arquitetura encoder–decoder, alcançando tradução de alta qualidade mesmo em ambientes com baixo poder computacional
Alcança geração consistente de sentenças e melhor transferência entre idiomas em 1.600 línguas, sendo avaliado como um avanço importante para a ampliação da inclusão linguística global

Visão geral do Omnilingual MT

Omnilingual Machine Translation (OMT) é o primeiro sistema de tradução automática a oferecer suporte a mais de 1.600 idiomas, desenvolvido pela Meta AI
Com base nos avanços do projeto No Language Left Behind (NLLB), que havia se expandido até 200 idiomas, passa a abranger um conjunto muito maior de línguas
A tradução baseada em grandes modelos de linguagem (LLMs) já apresentava alta qualidade, mas com cobertura linguística limitada; em especial, a baixa capacidade de geração em idiomas minoritários e de poucos recursos era apontada como um problema
Para superar essas limitações, o OMT ampliou de forma abrangente a estratégia de dados, a arquitetura dos modelos e o sistema de avaliação

Estratégia de dados e expansão da cobertura linguística

O OMT amplia significativamente a cobertura de idiomas ao integrar corpus multilíngues públicos com novos conjuntos de dados gerados
- Combina MeDLEY bitext (dados paralelos refinados manualmente), retrotradução sintética (synthetic backtranslation) e técnicas de mineração de dados (mining)
- Com isso, passa a abranger idiomas da cauda longa (long-tail languages), além de diversos domínios e registros de linguagem (register)
Essa estratégia de dados estabelece a base para representar uma parcela significativa dos cerca de 7.000 idiomas que sistemas anteriores não conseguiam cobrir

Sistema de avaliação e medição de qualidade

Para garantir confiabilidade e escalabilidade, combina métricas padrão com várias ferramentas de avaliação
- BLASER 3: modelo de avaliação reference-free que estima a qualidade sem frases de referência
  - OmniTOX: classificador que detecta toxicidade nos resultados de tradução
  - BOUQuET: grande conjunto de dados de avaliação multilíngue construído manualmente e cobrindo várias famílias linguísticas
  - Met-BOUQuET: conjunto de dados expansível para estimativa de qualidade multilíngue em larga escala
  - Esses conjuntos de dados são disponibilizados junto com um leaderboard público atualizado continuamente, permitindo uso livre por pesquisadores

Arquitetura dos modelos e abordagem de treinamento

O OMT especializa LLMs para tradução de duas formas
- OMT-LLaMA
  - Modelo decoder-only baseado em LLaMA3
  - Reforça a adaptabilidade na inferência por meio de pré-treinamento contínuo multilíngue (multilingual continual pretraining) e tradução aumentada por recuperação (retrieval-augmented translation)
- OMT-NLLB
  - Possui arquitetura encoder–decoder, construída sobre um espaço de alinhamento multilíngue chamado OmniSONAR
  - Introduz métodos de treinamento capazes de usar dados não paralelos (non-parallel data)
  - Permite integrar dados de pré-treinamento de modelos decoder-only ao treinamento encoder–decoder
  - Modelos de 1B a 8B parâmetros alcançaram desempenho de tradução equivalente ou superior ao de modelos de referência LLM de 70B, comprovando a possibilidade de tradução de alta qualidade mesmo em ambientes com poucos recursos computacionais

Desempenho e capacidade de geração linguística

Na avaliação de tradução de inglês para 1.600 idiomas, modelos anteriores frequentemente conseguiam entender idiomas de poucos recursos, mas falhavam em gerar frases significativas
O modelo OMT-LLaMA ampliou significativamente a geração coerente (coherent generation) nesses idiomas
O desempenho de transferência entre idiomas (cross-lingual transfer) também melhorou, praticamente resolvendo os problemas no aspecto de compreensão (understanding) para 1.600 idiomas
Com ajuste fino (finetuning) e geração aumentada por recuperação (RAG), é possível melhorar ainda mais a qualidade em idiomas ou domínios específicos

Recursos públicos e expansão da pesquisa

Os conjuntos de dados BOUQuET e Met-BOUQuET são disponibilizados gratuitamente e continuam sendo expandidos em direção à omnilinguality
A equipe de pesquisa tem como objetivo melhorar a acessibilidade para idiomas de poucos recursos e estabelecer uma base para a pesquisa em IA multilíngue
O OMT é avaliado como o primeiro sistema de tradução realmente prático a abranger diversidade linguística em larga escala, representando um avanço importante para a inclusão linguística global

1 comentários

GN⁺ 2026-03-22

Comentários do Hacker News

Senti que a qualidade de tradução da Meta é bem inferior à de outros serviços
Isso é ainda pior em idiomas menos conhecidos
O Google Tradutor é aceitável como padrão, mas a tradução baseada em LLM é muito melhor em entender contexto e transmitir nuances culturais
Moro no Camboja, então comparo com frequência a qualidade da tradução para o khmer
- Saudações de Siem Reap! É bom encontrar outro entusiasta de tecnologia do Camboja
  Na minha experiência, a tradução do Facebook é mais natural em frases longas do que a do Google
  O khmer é um idioma dependente de contexto e prolixo, então um LLM parece que ajudaria bastante
  Por outro lado, ao traduzir do inglês para o khmer, moradores locais dizem que o resultado fica com um tom formal e robótico, o que é interessante
- Kagi Translate é realmente excelente
  Acho que o suporte multilíngue é uma das vantagens mais legais dos LLMs
- É interessante que LLMs sejam melhores do que o Google para tradução de khmer
  Fico me perguntando por que o Google não usa o Gemini internamente, talvez por causa de problemas de alucinação
  Gostaria de ver um teste quantitativo comparando vários LLMs e APIs de tradução
- A tradução para chinês também é ruim
- Correção de typo (they're)
Dizem que conseguem traduzir 1.600 idiomas, mas não conseguem nem acertar a concordância entre sujeito e verbo na primeira frase do resumo em inglês
Alegam ter alcançado tradução de alta qualidade expandida para 200 idiomas por meio do projeto NLLB (No Language Left Behind)
Abri uma empresa fazendo algo parecido — 6k.ai
Estamos focados na coleta de dados para idiomas de poucos recursos
Se você olhar datasets como Common Crawl, finepdfs e fineweb, verá que (1) quase não há dados de boa qualidade e (2) a forma de processamento é grosseira demais
Por exemplo, o finepdfs classifica cada página de PDF como um único idioma, mas na prática há muitos dados em pares de idiomas
- Também pesquiso idiomas de poucos recursos, especialmente línguas da família maia
  Publiquei materiais em wikilangs.org, omneitylabs.com e blog relacionado
  O maior gargalo não é coletar texto, e sim a precisão da identificação de idioma
  Em datasets como Common Crawl e Fineweb, a separação entre idiomas é ambígua
  Trabalhei em melhorias relacionadas à minha língua nativa no Fineweb 2, então talvez isso possa servir de inspiração
  Como problemas parecidos se repetem em várias regiões, eu gostaria de colaborar depois
- O Common Crawl também está conduzindo um projeto de idiomas de poucos recursos há um ano e meio; é um problema realmente difícil
- Vários órgãos governamentais também estão pesquisando esse problema
  Fico curioso para saber se vocês analisaram esses datasets públicos e quais idiomas estão priorizando
Levei um tempão para encontrar o link de download dos pesos do modelo
Se são open weights, fico me perguntando por que não há um link de acesso direto
- Não há menção de que este modelo seja open weight desta vez (o NLLB anterior era aberto)
  Em vez disso, o leaderboard e o dataset de avaliação estão públicos
  No artigo, só mencionam que “nosso modelo de tradução foi construído sobre modelos livremente disponíveis”
Estamos em 2026 e eu ainda não entendo por que não existe transcrição automática de mensagens de voz
Dizem que conseguem traduzir 1.600 idiomas, mas nem a separação básica de parágrafos está correta
- Resumos de artigos, por regra, são escritos originalmente em um único parágrafo
1.600 idiomas é muita coisa, mas ainda está longe de merecer o nome “Omni”
Normalmente, o número de idiomas é estimado entre 4 mil e 8 mil, e conseguir os primeiros 1.000 idiomas é a parte mais difícil
- No marketing, é preciso usar palavras como “frontier” e “edge” para dar um ar profissional
Em pesquisas antigas (Lauscher 2020), dizia-se que existia uma maldição do multilinguismo em que a qualidade da tradução caía à medida que o número de idiomas aumentava
Mas a Meta parece ter superado isso
Pelo resumo do artigo, eles afirmam ter introduzido melhorias na qualidade dos dados de treino e novas ferramentas de avaliação
Também dizem que o OMT-LLaMA tem melhor qualidade de geração de texto do que modelos anteriores
Um ponto interessante é o benchmark BOUQuET apresentado pela Meta
É uma iniciativa aberta para avaliar a qualidade de tradução de forma panlinguística
huggingface.co/spaces/facebook/bouquet
Depois da febre da IA, a tradução da documentação da MS ficou um desastre
Por exemplo, traduzem try/catch para o alemão como “versuchen/fangen”
- Esse tipo de tradução na verdade tem valor negativo
  Especialmente em ambiente corporativo, é ainda mais incômodo porque é difícil mudar a configuração de localidade
  Também há muitos erros básicos, como traduzir “shortly” como “short”

OMT omnilíngue da Meta para 1.600 idiomas

Visão geral do Omnilingual MT

Estratégia de dados e expansão da cobertura linguística

Sistema de avaliação e medição de qualidade

BLASER 3: modelo de avaliação reference-free que estima a qualidade sem frases de referência

Arquitetura dos modelos e abordagem de treinamento

OMT-LLaMA

OMT-NLLB

Desempenho e capacidade de geração linguística

Recursos públicos e expansão da pesquisa

Leituras relacionadas

1 comentários

Comentários do Hacker News