Olmo 3: um novo caminho para o fluxo de modelos em busca de liderar a IA open source

(allenai.org)

5 pontos por GN⁺ 2025-11-22 | 1 comentários | Compartilhar no WhatsApp

Olmo 3 divulga não apenas o resultado final do modelo, mas também todo o processo de desenvolvimento (model flow), oferecendo rastreabilidade completa até dados, código e checkpoints
É composto por quatro modelos — Base, Think, Instruct e RL Zero — nas escalas de 7B e 32B parâmetros, podendo ser usado para diversos objetivos de pesquisa, como raciocínio, diálogo e aprendizado por reforço
Com base nos datasets Dolma 3 e Dolci, disponibiliza dados de treinamento transparentes em escala de cerca de 9,3 trilhões de tokens, cobrindo web, código, matemática, ciência e mais
Com a ferramenta OlmoTrace, é possível rastrear em tempo real de quais dados de treinamento veio a saída do modelo, reforçando transparência e confiabilidade
Com uma liberação totalmente open source, qualquer pessoa pode intervir, modificar e retreinar o modelo em etapas específicas, ajudando a construir um ecossistema de pesquisa em IA verificável

Visão geral do Olmo 3

O Olmo 3 é uma família de modelos de linguagem open source de nova geração lançada pelo Allen Institute for AI (Ai2), e seu principal diferencial é tornar público todo o fluxo de desenvolvimento do modelo (model flow)
- O model flow inclui todas as etapas, como coleta de dados, pré-processamento, treinamento, ajuste fino e aprendizado por reforço
- Com isso, pesquisadores e desenvolvedores podem analisar e modificar o funcionamento interno do modelo
O Olmo 3 é oferecido em versões com 7B e 32B parâmetros, podendo rodar em ambientes variados, de notebooks a clusters de pesquisa

Principais modelos

Olmo 3-Base (7B, 32B)
- Modelo base totalmente aberto, com desempenho de ponta em áreas como código, matemática e compreensão de leitura
- Compete com modelos da mesma categoria, como Qwen 2.5 e Gemma 3, com suporte a contexto expandido de 65K tokens
Olmo 3-Think (7B, 32B)
- Modelo especializado em raciocínio treinado para problemas de raciocínio em múltiplas etapas, adequado para pesquisa em RL e experimentos de pensamento de longo prazo
- O modelo 32B apresenta desempenho entre os melhores da categoria em benchmarks como MATH, OMEGA e BigBenchHard
Olmo 3-Instruct (7B)
- Modelo otimizado para diálogo, execução de instruções e uso de ferramentas, com desempenho equivalente ou superior a Qwen 2.5, Gemma 3 e Llama 3.1 na mesma faixa
Olmo 3-RL Zero (7B)
- Fornece um caminho totalmente aberto para avaliação de algoritmos de aprendizado por reforço, incluindo checkpoints em 4 domínios como matemática, código e seguimento de instruções

Desempenho e benchmarks

O Olmo 3-Base 32B supera modelos totalmente abertos como Marin 32B e Apertus 70B
- Apresenta ótimos resultados em benchmarks importantes, como 80,5 no GSM8k (matemática) e 66,5 no HumanEval (código)
O Olmo 3-Think 32B mostra desempenho semelhante ou próximo ao Qwen 3 32B, registrando as maiores pontuações em testes como HumanEvalPlus e IFEval
O Olmo 3-Instruct 7B alcançou 87,3 no quesito segurança (Safety), a maior nota entre os modelos comparados

Arquitetura e processo de treinamento

Usa uma arquitetura Transformer somente decodificadora, composta por 3 etapas de pré-treinamento (base → intermediária → contexto longo) e 3 etapas de pós-treinamento (SFT → DPO → RLVR)
Checkpoints de cada etapa são publicados, permitindo que pesquisadores façam fork do modelo ou experimentem no ponto desejado
Com os datasets Dolma 3 (cerca de 9,3 trilhões de tokens) e Dolci, garante transparência de dados em todo o processo de treinamento
- Inclui composições detalhadas como Dolma 3 Mix (6 trilhões de tokens), Dolmino (100B tokens) e Longmino (50B tokens)
- O Dolci fornece misturas de dados separadas para cada etapa: SFT, DPO e RLVR

Infraestrutura de treinamento eficiente

Foi treinado com até 1.024 GPUs H100, alcançando velocidade de processamento de 7,7K tokens/s no modelo 7B
Com in-flight weight updates, continuous batching e melhorias de threading, a eficiência do treinamento em RL aumentou em 4 vezes
O modelo 32B do Olmo 3 foi posicionado como um ponto de equilíbrio entre desempenho e acessibilidade, permitindo ajuste fino direto por pesquisadores

Transparência e ecossistema de ferramentas

O OlmoTrace permite rastrear visualmente a conexão entre a saída do modelo e os dados de treinamento
Todos os datasets e toolchains são publicados como open source
- Inclui Olmo-core (framework de treinamento distribuído), Open Instruct (pipeline de pós-treinamento), datamap-rs (limpeza de dados), duplodocus (remoção de duplicatas) e OLMES (toolkit de avaliação), entre outros
Pesquisadores podem analisar etapas intermediárias de raciocínio e pontos de falha para entender a causa do comportamento do modelo

Uso e significado

O Olmo 3 dá suporte à construção de sistemas de IA confiáveis em pesquisa, educação e desenvolvimento de aplicações
Como todas as etapas do modelo são públicas, ele promove reprodutibilidade, verificabilidade e pesquisa colaborativa
A Ai2 afirma que “a verdadeira IA open source não significa apenas acesso, mas também confiança, responsabilidade e desenvolvimento coletivo”
Com transparência total, o Olmo 3 propõe um novo paradigma de pesquisa aberta em que qualquer pessoa pode entender e melhorar o interior da IA

1 comentários

GN⁺ 2025-11-22

Comentários do Hacker News

O que eu imagino como o futuro da IA são sistemas com etapas de raciocínio totalmente rastreáveis
Sem esse nível de transparência, acho que o público em geral não terá como entender nem controlar sistemas baseados em LLMs de grande porte
No fim, existe o risco de deixar a situação nas mãos da Big Tech, de autoritários ou da própria IA
- Por isso é interessante que tanta gente queira eliminar esse tipo de abordagem
- No mínimo, deveríamos saber quais dados de treinamento cada modelo usou
  Acho que precisamos de uma estrutura em que uma terceira entidade faça auditorias e forneça relatórios de transparência
- Transparência é ótimo, mas tornar as respostas ajustáveis é um grande desafio de UI/UX
  Espero que esse tipo de tentativa continue se repetindo
O termo “IA de código aberto” já parece distorcido pelo marketing
Chamar de open source algo que só divulga os pesos é uma prática equivocada
Modelos realmente open source precisam de um novo nome, algo como “modelo transparente”
Perguntei se a girafa é comida kosher e o modelo respondeu que “não”
Mas, pela minha interpretação e pela lei talmúdica, girafa seria permitida, e o GPT5.1 concordou com a minha interpretação
- É estranho que o modelo esteja memorizando esse tipo de detalhe religioso
  Esse tipo de informação deveria vir de busca, como RAG
  Um modelo que respondesse “não sei” provavelmente seria mais útil
- Fico curioso para saber quantas tentativas foram feitas e como estavam configurados os valores de temperature e top_p
- Na verdade, é interessante que perguntas assim já não possam mais servir como critério de bem público
Recentemente estou migrando meu fluxo principal da OpenAI para modelos locais
Modelos pequenos tendem a tentar resolver à força os casos de borda
Então, se você cria uma saída chamada “edge_case”, eles funcionam muito melhor
Queria que existisse um repositório central para reunir essas dicas de prompt hacking
- Fico me perguntando se “edge_case” é uma chave (key) de um esquema de saída estruturada
- Também queria saber se você usa frontends como Open WebUI ou LibreChat, ou se faz as chamadas diretamente
Cliquei em “Show OlmoTrace” no AllenAI Playground
Dizem que ele mostra os documentos de dados de treinamento que correspondem à resposta do modelo
Mas, na prática, parece só procurar correspondências de N-gram, então é difícil chamar isso de rastreabilidade
Em alguns casos, os resultados vieram de documentos sem relação com a pergunta
Explicação sobre N-gram
- Falando como pesquisador do Olmo, o objetivo do OlmoTrace não é atribuir a resposta a um documento específico
  Em vez disso, ele mostra por quais fragmentos dos dados de treinamento o modelo foi influenciado
  Por exemplo, dá para rastrear por que vários modelos repetem a mesma piada ou os mesmos números
Acho que o tamanho ideal de modelos é ter três linhas: 7B, 20B e 32B
7B serve para GPU de 8 GB, 32B para GPU de 24 GB, e um modelo na faixa de 20B cabe perfeitamente em GPU de 16 GB
- Claro que isso depende da arquitetura
  Ainda estão em andamento experimentos para encontrar o tamanho ideal
  Pessoalmente, queria que GPUs tivessem VRAM escalável
Perguntei ao modelo 7B “hi, who are u” e ele travou enquanto analisava internamente a frase
Provavelmente parece um bug do OpenWebUI
- Sempre que sai um modelo novo, muita gente testa em softwares que ainda não oferecem suporte
  Foi assim com o GPT-OSS, e provavelmente a mesma situação vai se repetir com o OLMo
- Eu mesmo testei no playground
  O 7B responde “Hi! I'm Olmo 3…”, e o 32B responde “Hi! I'm Olmo…”
- Sou pesquisador da equipe de pós-treinamento da Ai2 e queria saber onde isso foi testado
- Isso me lembra a piada de analisar demais “good morning”
  No fim, até uma saudação simples acaba virando uma interpretação filosófica
- Eu recomendaria verificar se não havia algum limite de completion token ativo
Vi o dataset Dolma3 no Hugging Face
Fiquei surpreso porque logo na primeira linha já havia texto de site adulto
- Provavelmente ainda está na fase pré-curadoria
  Para divulgar o pipeline completo, esse tipo de dado também precisa estar incluído
  Ainda assim, talvez fosse melhor ajustar a prévia para que esse tipo de trecho não aparecesse de cara
- De qualquer forma, ficção erótica também é um dos principais casos de uso desses modelos
Fico curioso sobre os usos práticos de modelos pequenos
A maioria parece voltada para inferência on-device, mas será que há outros casos?
- Falando como pesquisador da Ai2, o 7B é um modelo local para GPUs de consumidor, enquanto o 32B pode servir para aplicações mais variadas
  Muitas empresas podem acabar migrando de modelos ajustados do Qwen 3 para o Olmo 32B
- Nossa equipe faz fine-tuning de modelos 7B como classificadores especializados por domínio
  O desempenho foi melhor do que o de modelos pequenos não LLM
- Eu deixo o Qwen3-30B-VL carregado o tempo todo na VRAM
  Ele é mais rápido que uma busca simples no Google e ainda resolve comandos de terminal, navegação de arquivos e organização de notas
  Graças à velocidade (90tok/s) e à baixa latência, consigo fazer tarefas pequenas com muito mais eficiência
  Já o Sonnet 4.5 é lento e erra de forma sutil, então acaba sendo ineficiente no uso real
O Qwen3-30B-VL é quase perfeito para uso cotidiano
É rápido (90tok/s) e cobre a maioria das tarefas
Esse tipo de pesquisa é importante, mas vai ser difícil para modelos densos (dense) alcançarem essa velocidade
- Falando como desenvolvedor do Olmo, os modelos Qwen são rápidos por causa da arquitetura MoE
  A próxima versão do Olmo também deve adotar MoE
- Testei em um MacBook novo e foi lento, mas em compensação o Qwen2.5:14B dava retorno imediato
  Eu até conseguia conversar naturalmente em esperanto com ele
- Fico curioso se o Qwen3-30B-VL parece mais “inteligente” por diferença de arquitetura, e não apenas por ser maior

Olmo 3: um novo caminho para o fluxo de modelos em busca de liderar a IA open source

Visão geral do Olmo 3

Principais modelos

Desempenho e benchmarks

Arquitetura e processo de treinamento

Infraestrutura de treinamento eficiente

Transparência e ecossistema de ferramentas

Uso e significado

Leituras relacionadas

1 comentários

Comentários do Hacker News