- Olmo 3 divulga não apenas o resultado final do modelo, mas também todo o processo de desenvolvimento (model flow), oferecendo rastreabilidade completa até dados, código e checkpoints
- É composto por quatro modelos — Base, Think, Instruct e RL Zero — nas escalas de 7B e 32B parâmetros, podendo ser usado para diversos objetivos de pesquisa, como raciocínio, diálogo e aprendizado por reforço
- Com base nos datasets Dolma 3 e Dolci, disponibiliza dados de treinamento transparentes em escala de cerca de 9,3 trilhões de tokens, cobrindo web, código, matemática, ciência e mais
- Com a ferramenta OlmoTrace, é possível rastrear em tempo real de quais dados de treinamento veio a saída do modelo, reforçando transparência e confiabilidade
- Com uma liberação totalmente open source, qualquer pessoa pode intervir, modificar e retreinar o modelo em etapas específicas, ajudando a construir um ecossistema de pesquisa em IA verificável
Visão geral do Olmo 3
- O Olmo 3 é uma família de modelos de linguagem open source de nova geração lançada pelo Allen Institute for AI (Ai2), e seu principal diferencial é tornar público todo o fluxo de desenvolvimento do modelo (model flow)
- O model flow inclui todas as etapas, como coleta de dados, pré-processamento, treinamento, ajuste fino e aprendizado por reforço
- Com isso, pesquisadores e desenvolvedores podem analisar e modificar o funcionamento interno do modelo
- O Olmo 3 é oferecido em versões com 7B e 32B parâmetros, podendo rodar em ambientes variados, de notebooks a clusters de pesquisa
Principais modelos
- Olmo 3-Base (7B, 32B)
- Modelo base totalmente aberto, com desempenho de ponta em áreas como código, matemática e compreensão de leitura
- Compete com modelos da mesma categoria, como Qwen 2.5 e Gemma 3, com suporte a contexto expandido de 65K tokens
- Olmo 3-Think (7B, 32B)
- Modelo especializado em raciocínio treinado para problemas de raciocínio em múltiplas etapas, adequado para pesquisa em RL e experimentos de pensamento de longo prazo
- O modelo 32B apresenta desempenho entre os melhores da categoria em benchmarks como MATH, OMEGA e BigBenchHard
- Olmo 3-Instruct (7B)
- Modelo otimizado para diálogo, execução de instruções e uso de ferramentas, com desempenho equivalente ou superior a Qwen 2.5, Gemma 3 e Llama 3.1 na mesma faixa
- Olmo 3-RL Zero (7B)
- Fornece um caminho totalmente aberto para avaliação de algoritmos de aprendizado por reforço, incluindo checkpoints em 4 domínios como matemática, código e seguimento de instruções
Desempenho e benchmarks
- O Olmo 3-Base 32B supera modelos totalmente abertos como Marin 32B e Apertus 70B
- Apresenta ótimos resultados em benchmarks importantes, como 80,5 no GSM8k (matemática) e 66,5 no HumanEval (código)
- O Olmo 3-Think 32B mostra desempenho semelhante ou próximo ao Qwen 3 32B, registrando as maiores pontuações em testes como HumanEvalPlus e IFEval
- O Olmo 3-Instruct 7B alcançou 87,3 no quesito segurança (Safety), a maior nota entre os modelos comparados
Arquitetura e processo de treinamento
- Usa uma arquitetura Transformer somente decodificadora, composta por 3 etapas de pré-treinamento (base → intermediária → contexto longo) e 3 etapas de pós-treinamento (SFT → DPO → RLVR)
- Checkpoints de cada etapa são publicados, permitindo que pesquisadores façam fork do modelo ou experimentem no ponto desejado
- Com os datasets Dolma 3 (cerca de 9,3 trilhões de tokens) e Dolci, garante transparência de dados em todo o processo de treinamento
- Inclui composições detalhadas como Dolma 3 Mix (6 trilhões de tokens), Dolmino (100B tokens) e Longmino (50B tokens)
- O Dolci fornece misturas de dados separadas para cada etapa: SFT, DPO e RLVR
Infraestrutura de treinamento eficiente
- Foi treinado com até 1.024 GPUs H100, alcançando velocidade de processamento de 7,7K tokens/s no modelo 7B
- Com in-flight weight updates, continuous batching e melhorias de threading, a eficiência do treinamento em RL aumentou em 4 vezes
- O modelo 32B do Olmo 3 foi posicionado como um ponto de equilíbrio entre desempenho e acessibilidade, permitindo ajuste fino direto por pesquisadores
Transparência e ecossistema de ferramentas
- O OlmoTrace permite rastrear visualmente a conexão entre a saída do modelo e os dados de treinamento
- Todos os datasets e toolchains são publicados como open source
- Inclui Olmo-core (framework de treinamento distribuído), Open Instruct (pipeline de pós-treinamento), datamap-rs (limpeza de dados), duplodocus (remoção de duplicatas) e OLMES (toolkit de avaliação), entre outros
- Pesquisadores podem analisar etapas intermediárias de raciocínio e pontos de falha para entender a causa do comportamento do modelo
Uso e significado
- O Olmo 3 dá suporte à construção de sistemas de IA confiáveis em pesquisa, educação e desenvolvimento de aplicações
- Como todas as etapas do modelo são públicas, ele promove reprodutibilidade, verificabilidade e pesquisa colaborativa
- A Ai2 afirma que “a verdadeira IA open source não significa apenas acesso, mas também confiança, responsabilidade e desenvolvimento coletivo”
- Com transparência total, o Olmo 3 propõe um novo paradigma de pesquisa aberta em que qualquer pessoa pode entender e melhorar o interior da IA
1 comentários
Comentários do Hacker News
Sem esse nível de transparência, acho que o público em geral não terá como entender nem controlar sistemas baseados em LLMs de grande porte
No fim, existe o risco de deixar a situação nas mãos da Big Tech, de autoritários ou da própria IA
Acho que precisamos de uma estrutura em que uma terceira entidade faça auditorias e forneça relatórios de transparência
Espero que esse tipo de tentativa continue se repetindo
Chamar de open source algo que só divulga os pesos é uma prática equivocada
Modelos realmente open source precisam de um novo nome, algo como “modelo transparente”
Mas, pela minha interpretação e pela lei talmúdica, girafa seria permitida, e o GPT5.1 concordou com a minha interpretação
Esse tipo de informação deveria vir de busca, como RAG
Um modelo que respondesse “não sei” provavelmente seria mais útil
Modelos pequenos tendem a tentar resolver à força os casos de borda
Então, se você cria uma saída chamada “edge_case”, eles funcionam muito melhor
Queria que existisse um repositório central para reunir essas dicas de prompt hacking
Dizem que ele mostra os documentos de dados de treinamento que correspondem à resposta do modelo
Mas, na prática, parece só procurar correspondências de N-gram, então é difícil chamar isso de rastreabilidade
Em alguns casos, os resultados vieram de documentos sem relação com a pergunta
Explicação sobre N-gram
Em vez disso, ele mostra por quais fragmentos dos dados de treinamento o modelo foi influenciado
Por exemplo, dá para rastrear por que vários modelos repetem a mesma piada ou os mesmos números
7B serve para GPU de 8 GB, 32B para GPU de 24 GB, e um modelo na faixa de 20B cabe perfeitamente em GPU de 16 GB
Ainda estão em andamento experimentos para encontrar o tamanho ideal
Pessoalmente, queria que GPUs tivessem VRAM escalável
Provavelmente parece um bug do OpenWebUI
Foi assim com o GPT-OSS, e provavelmente a mesma situação vai se repetir com o OLMo
O 7B responde “Hi! I'm Olmo 3…”, e o 32B responde “Hi! I'm Olmo…”
No fim, até uma saudação simples acaba virando uma interpretação filosófica
Fiquei surpreso porque logo na primeira linha já havia texto de site adulto
Para divulgar o pipeline completo, esse tipo de dado também precisa estar incluído
Ainda assim, talvez fosse melhor ajustar a prévia para que esse tipo de trecho não aparecesse de cara
A maioria parece voltada para inferência on-device, mas será que há outros casos?
Muitas empresas podem acabar migrando de modelos ajustados do Qwen 3 para o Olmo 32B
O desempenho foi melhor do que o de modelos pequenos não LLM
Ele é mais rápido que uma busca simples no Google e ainda resolve comandos de terminal, navegação de arquivos e organização de notas
Graças à velocidade (90tok/s) e à baixa latência, consigo fazer tarefas pequenas com muito mais eficiência
Já o Sonnet 4.5 é lento e erra de forma sutil, então acaba sendo ineficiente no uso real
É rápido (90tok/s) e cobre a maioria das tarefas
Esse tipo de pesquisa é importante, mas vai ser difícil para modelos densos (dense) alcançarem essa velocidade
A próxima versão do Olmo também deve adotar MoE
Eu até conseguia conversar naturalmente em esperanto com ele