- Omnilingual Machine Translation (OMT), desenvolvida pela Meta AI, é o primeiro sistema de tradução automática a oferecer suporte a mais de 1.600 idiomas, superando o limite de 200 idiomas do projeto NLLB anterior
- Combina corpus públicos, retrotradução e mineração de dados para construir um grande conjunto de dados multilíngue que abrange até idiomas de poucos recursos e minoritários
- Integra diversas ferramentas de avaliação de qualidade e toxicidade, como BLASER 3, OmniTOX, BOUQuET e Met-BOUQuET, para medir com alta confiabilidade o desempenho de tradução
- Usa em paralelo um modelo decoder-only baseado em LLaMA3 e o OMT-NLLB com arquitetura encoder–decoder, alcançando tradução de alta qualidade mesmo em ambientes com baixo poder computacional
- Alcança geração consistente de sentenças e melhor transferência entre idiomas em 1.600 línguas, sendo avaliado como um avanço importante para a ampliação da inclusão linguística global
Visão geral do Omnilingual MT
- Omnilingual Machine Translation (OMT) é o primeiro sistema de tradução automática a oferecer suporte a mais de 1.600 idiomas, desenvolvido pela Meta AI
- Com base nos avanços do projeto No Language Left Behind (NLLB), que havia se expandido até 200 idiomas, passa a abranger um conjunto muito maior de línguas
- A tradução baseada em grandes modelos de linguagem (LLMs) já apresentava alta qualidade, mas com cobertura linguística limitada; em especial, a baixa capacidade de geração em idiomas minoritários e de poucos recursos era apontada como um problema
- Para superar essas limitações, o OMT ampliou de forma abrangente a estratégia de dados, a arquitetura dos modelos e o sistema de avaliação
Estratégia de dados e expansão da cobertura linguística
- O OMT amplia significativamente a cobertura de idiomas ao integrar corpus multilíngues públicos com novos conjuntos de dados gerados
- Combina MeDLEY bitext (dados paralelos refinados manualmente), retrotradução sintética (synthetic backtranslation) e técnicas de mineração de dados (mining)
- Com isso, passa a abranger idiomas da cauda longa (long-tail languages), além de diversos domínios e registros de linguagem (register)
- Essa estratégia de dados estabelece a base para representar uma parcela significativa dos cerca de 7.000 idiomas que sistemas anteriores não conseguiam cobrir
Sistema de avaliação e medição de qualidade
- Para garantir confiabilidade e escalabilidade, combina métricas padrão com várias ferramentas de avaliação
-
BLASER 3: modelo de avaliação reference-free que estima a qualidade sem frases de referência
- OmniTOX: classificador que detecta toxicidade nos resultados de tradução
- BOUQuET: grande conjunto de dados de avaliação multilíngue construído manualmente e cobrindo várias famílias linguísticas
- Met-BOUQuET: conjunto de dados expansível para estimativa de qualidade multilíngue em larga escala
- Esses conjuntos de dados são disponibilizados junto com um leaderboard público atualizado continuamente, permitindo uso livre por pesquisadores
Arquitetura dos modelos e abordagem de treinamento
- O OMT especializa LLMs para tradução de duas formas
-
OMT-LLaMA
- Modelo decoder-only baseado em LLaMA3
- Reforça a adaptabilidade na inferência por meio de pré-treinamento contínuo multilíngue (multilingual continual pretraining) e tradução aumentada por recuperação (retrieval-augmented translation)
-
OMT-NLLB
- Possui arquitetura encoder–decoder, construída sobre um espaço de alinhamento multilíngue chamado OmniSONAR
- Introduz métodos de treinamento capazes de usar dados não paralelos (non-parallel data)
- Permite integrar dados de pré-treinamento de modelos decoder-only ao treinamento encoder–decoder
- Modelos de 1B a 8B parâmetros alcançaram desempenho de tradução equivalente ou superior ao de modelos de referência LLM de 70B, comprovando a possibilidade de tradução de alta qualidade mesmo em ambientes com poucos recursos computacionais
Desempenho e capacidade de geração linguística
- Na avaliação de tradução de inglês para 1.600 idiomas, modelos anteriores frequentemente conseguiam entender idiomas de poucos recursos, mas falhavam em gerar frases significativas
- O modelo OMT-LLaMA ampliou significativamente a geração coerente (coherent generation) nesses idiomas
- O desempenho de transferência entre idiomas (cross-lingual transfer) também melhorou, praticamente resolvendo os problemas no aspecto de compreensão (understanding) para 1.600 idiomas
- Com ajuste fino (finetuning) e geração aumentada por recuperação (RAG), é possível melhorar ainda mais a qualidade em idiomas ou domínios específicos
Recursos públicos e expansão da pesquisa
- Os conjuntos de dados BOUQuET e Met-BOUQuET são disponibilizados gratuitamente e continuam sendo expandidos em direção à omnilinguality
- A equipe de pesquisa tem como objetivo melhorar a acessibilidade para idiomas de poucos recursos e estabelecer uma base para a pesquisa em IA multilíngue
- O OMT é avaliado como o primeiro sistema de tradução realmente prático a abranger diversidade linguística em larga escala, representando um avanço importante para a inclusão linguística global
1 comentários
Comentários do Hacker News
Senti que a qualidade de tradução da Meta é bem inferior à de outros serviços
Isso é ainda pior em idiomas menos conhecidos
O Google Tradutor é aceitável como padrão, mas a tradução baseada em LLM é muito melhor em entender contexto e transmitir nuances culturais
Moro no Camboja, então comparo com frequência a qualidade da tradução para o khmer
Na minha experiência, a tradução do Facebook é mais natural em frases longas do que a do Google
O khmer é um idioma dependente de contexto e prolixo, então um LLM parece que ajudaria bastante
Por outro lado, ao traduzir do inglês para o khmer, moradores locais dizem que o resultado fica com um tom formal e robótico, o que é interessante
Acho que o suporte multilíngue é uma das vantagens mais legais dos LLMs
Fico me perguntando por que o Google não usa o Gemini internamente, talvez por causa de problemas de alucinação
Gostaria de ver um teste quantitativo comparando vários LLMs e APIs de tradução
Dizem que conseguem traduzir 1.600 idiomas, mas não conseguem nem acertar a concordância entre sujeito e verbo na primeira frase do resumo em inglês
Alegam ter alcançado tradução de alta qualidade expandida para 200 idiomas por meio do projeto NLLB (No Language Left Behind)
Abri uma empresa fazendo algo parecido — 6k.ai
Estamos focados na coleta de dados para idiomas de poucos recursos
Se você olhar datasets como Common Crawl, finepdfs e fineweb, verá que (1) quase não há dados de boa qualidade e (2) a forma de processamento é grosseira demais
Por exemplo, o finepdfs classifica cada página de PDF como um único idioma, mas na prática há muitos dados em pares de idiomas
Publiquei materiais em wikilangs.org, omneitylabs.com e blog relacionado
O maior gargalo não é coletar texto, e sim a precisão da identificação de idioma
Em datasets como Common Crawl e Fineweb, a separação entre idiomas é ambígua
Trabalhei em melhorias relacionadas à minha língua nativa no Fineweb 2, então talvez isso possa servir de inspiração
Como problemas parecidos se repetem em várias regiões, eu gostaria de colaborar depois
Fico curioso para saber se vocês analisaram esses datasets públicos e quais idiomas estão priorizando
Levei um tempão para encontrar o link de download dos pesos do modelo
Se são open weights, fico me perguntando por que não há um link de acesso direto
Em vez disso, o leaderboard e o dataset de avaliação estão públicos
No artigo, só mencionam que “nosso modelo de tradução foi construído sobre modelos livremente disponíveis”
Estamos em 2026 e eu ainda não entendo por que não existe transcrição automática de mensagens de voz
Dizem que conseguem traduzir 1.600 idiomas, mas nem a separação básica de parágrafos está correta
1.600 idiomas é muita coisa, mas ainda está longe de merecer o nome “Omni”
Normalmente, o número de idiomas é estimado entre 4 mil e 8 mil, e conseguir os primeiros 1.000 idiomas é a parte mais difícil
Em pesquisas antigas (Lauscher 2020), dizia-se que existia uma maldição do multilinguismo em que a qualidade da tradução caía à medida que o número de idiomas aumentava
Mas a Meta parece ter superado isso
Pelo resumo do artigo, eles afirmam ter introduzido melhorias na qualidade dos dados de treino e novas ferramentas de avaliação
Também dizem que o OMT-LLaMA tem melhor qualidade de geração de texto do que modelos anteriores
Um ponto interessante é o benchmark BOUQuET apresentado pela Meta
É uma iniciativa aberta para avaliar a qualidade de tradução de forma panlinguística
huggingface.co/spaces/facebook/bouquet
Depois da febre da IA, a tradução da documentação da MS ficou um desastre
Por exemplo, traduzem try/catch para o alemão como “versuchen/fangen”
Especialmente em ambiente corporativo, é ainda mais incômodo porque é difícil mudar a configuração de localidade
Também há muitos erros básicos, como traduzir “shortly” como “short”