5 pontos por GN⁺ 2025-11-22 | 1 comentários | Compartilhar no WhatsApp
  • Olmo 3 divulga não apenas o resultado final do modelo, mas também todo o processo de desenvolvimento (model flow), oferecendo rastreabilidade completa até dados, código e checkpoints
  • É composto por quatro modelos — Base, Think, Instruct e RL Zero — nas escalas de 7B e 32B parâmetros, podendo ser usado para diversos objetivos de pesquisa, como raciocínio, diálogo e aprendizado por reforço
  • Com base nos datasets Dolma 3 e Dolci, disponibiliza dados de treinamento transparentes em escala de cerca de 9,3 trilhões de tokens, cobrindo web, código, matemática, ciência e mais
  • Com a ferramenta OlmoTrace, é possível rastrear em tempo real de quais dados de treinamento veio a saída do modelo, reforçando transparência e confiabilidade
  • Com uma liberação totalmente open source, qualquer pessoa pode intervir, modificar e retreinar o modelo em etapas específicas, ajudando a construir um ecossistema de pesquisa em IA verificável

Visão geral do Olmo 3

  • O Olmo 3 é uma família de modelos de linguagem open source de nova geração lançada pelo Allen Institute for AI (Ai2), e seu principal diferencial é tornar público todo o fluxo de desenvolvimento do modelo (model flow)
    • O model flow inclui todas as etapas, como coleta de dados, pré-processamento, treinamento, ajuste fino e aprendizado por reforço
    • Com isso, pesquisadores e desenvolvedores podem analisar e modificar o funcionamento interno do modelo
  • O Olmo 3 é oferecido em versões com 7B e 32B parâmetros, podendo rodar em ambientes variados, de notebooks a clusters de pesquisa

Principais modelos

  • Olmo 3-Base (7B, 32B)
    • Modelo base totalmente aberto, com desempenho de ponta em áreas como código, matemática e compreensão de leitura
    • Compete com modelos da mesma categoria, como Qwen 2.5 e Gemma 3, com suporte a contexto expandido de 65K tokens
  • Olmo 3-Think (7B, 32B)
    • Modelo especializado em raciocínio treinado para problemas de raciocínio em múltiplas etapas, adequado para pesquisa em RL e experimentos de pensamento de longo prazo
    • O modelo 32B apresenta desempenho entre os melhores da categoria em benchmarks como MATH, OMEGA e BigBenchHard
  • Olmo 3-Instruct (7B)
    • Modelo otimizado para diálogo, execução de instruções e uso de ferramentas, com desempenho equivalente ou superior a Qwen 2.5, Gemma 3 e Llama 3.1 na mesma faixa
  • Olmo 3-RL Zero (7B)
    • Fornece um caminho totalmente aberto para avaliação de algoritmos de aprendizado por reforço, incluindo checkpoints em 4 domínios como matemática, código e seguimento de instruções

Desempenho e benchmarks

  • O Olmo 3-Base 32B supera modelos totalmente abertos como Marin 32B e Apertus 70B
    • Apresenta ótimos resultados em benchmarks importantes, como 80,5 no GSM8k (matemática) e 66,5 no HumanEval (código)
  • O Olmo 3-Think 32B mostra desempenho semelhante ou próximo ao Qwen 3 32B, registrando as maiores pontuações em testes como HumanEvalPlus e IFEval
  • O Olmo 3-Instruct 7B alcançou 87,3 no quesito segurança (Safety), a maior nota entre os modelos comparados

Arquitetura e processo de treinamento

  • Usa uma arquitetura Transformer somente decodificadora, composta por 3 etapas de pré-treinamento (base → intermediária → contexto longo) e 3 etapas de pós-treinamento (SFT → DPO → RLVR)
  • Checkpoints de cada etapa são publicados, permitindo que pesquisadores façam fork do modelo ou experimentem no ponto desejado
  • Com os datasets Dolma 3 (cerca de 9,3 trilhões de tokens) e Dolci, garante transparência de dados em todo o processo de treinamento
    • Inclui composições detalhadas como Dolma 3 Mix (6 trilhões de tokens), Dolmino (100B tokens) e Longmino (50B tokens)
    • O Dolci fornece misturas de dados separadas para cada etapa: SFT, DPO e RLVR

Infraestrutura de treinamento eficiente

  • Foi treinado com até 1.024 GPUs H100, alcançando velocidade de processamento de 7,7K tokens/s no modelo 7B
  • Com in-flight weight updates, continuous batching e melhorias de threading, a eficiência do treinamento em RL aumentou em 4 vezes
  • O modelo 32B do Olmo 3 foi posicionado como um ponto de equilíbrio entre desempenho e acessibilidade, permitindo ajuste fino direto por pesquisadores

Transparência e ecossistema de ferramentas

  • O OlmoTrace permite rastrear visualmente a conexão entre a saída do modelo e os dados de treinamento
  • Todos os datasets e toolchains são publicados como open source
    • Inclui Olmo-core (framework de treinamento distribuído), Open Instruct (pipeline de pós-treinamento), datamap-rs (limpeza de dados), duplodocus (remoção de duplicatas) e OLMES (toolkit de avaliação), entre outros
  • Pesquisadores podem analisar etapas intermediárias de raciocínio e pontos de falha para entender a causa do comportamento do modelo

Uso e significado

  • O Olmo 3 dá suporte à construção de sistemas de IA confiáveis em pesquisa, educação e desenvolvimento de aplicações
  • Como todas as etapas do modelo são públicas, ele promove reprodutibilidade, verificabilidade e pesquisa colaborativa
  • A Ai2 afirma que “a verdadeira IA open source não significa apenas acesso, mas também confiança, responsabilidade e desenvolvimento coletivo
  • Com transparência total, o Olmo 3 propõe um novo paradigma de pesquisa aberta em que qualquer pessoa pode entender e melhorar o interior da IA

1 comentários

 
GN⁺ 2025-11-22
Comentários do Hacker News
  • O que eu imagino como o futuro da IA são sistemas com etapas de raciocínio totalmente rastreáveis
    Sem esse nível de transparência, acho que o público em geral não terá como entender nem controlar sistemas baseados em LLMs de grande porte
    No fim, existe o risco de deixar a situação nas mãos da Big Tech, de autoritários ou da própria IA
    • Por isso é interessante que tanta gente queira eliminar esse tipo de abordagem
    • No mínimo, deveríamos saber quais dados de treinamento cada modelo usou
      Acho que precisamos de uma estrutura em que uma terceira entidade faça auditorias e forneça relatórios de transparência
    • Transparência é ótimo, mas tornar as respostas ajustáveis é um grande desafio de UI/UX
      Espero que esse tipo de tentativa continue se repetindo
  • O termo “IA de código aberto” já parece distorcido pelo marketing
    Chamar de open source algo que só divulga os pesos é uma prática equivocada
    Modelos realmente open source precisam de um novo nome, algo como “modelo transparente
  • Perguntei se a girafa é comida kosher e o modelo respondeu que “não”
    Mas, pela minha interpretação e pela lei talmúdica, girafa seria permitida, e o GPT5.1 concordou com a minha interpretação
    • É estranho que o modelo esteja memorizando esse tipo de detalhe religioso
      Esse tipo de informação deveria vir de busca, como RAG
      Um modelo que respondesse “não sei” provavelmente seria mais útil
    • Fico curioso para saber quantas tentativas foram feitas e como estavam configurados os valores de temperature e top_p
    • Na verdade, é interessante que perguntas assim já não possam mais servir como critério de bem público
  • Recentemente estou migrando meu fluxo principal da OpenAI para modelos locais
    Modelos pequenos tendem a tentar resolver à força os casos de borda
    Então, se você cria uma saída chamada “edge_case”, eles funcionam muito melhor
    Queria que existisse um repositório central para reunir essas dicas de prompt hacking
    • Fico me perguntando se “edge_case” é uma chave (key) de um esquema de saída estruturada
    • Também queria saber se você usa frontends como Open WebUI ou LibreChat, ou se faz as chamadas diretamente
  • Cliquei em “Show OlmoTrace” no AllenAI Playground
    Dizem que ele mostra os documentos de dados de treinamento que correspondem à resposta do modelo
    Mas, na prática, parece só procurar correspondências de N-gram, então é difícil chamar isso de rastreabilidade
    Em alguns casos, os resultados vieram de documentos sem relação com a pergunta
    Explicação sobre N-gram
    • Falando como pesquisador do Olmo, o objetivo do OlmoTrace não é atribuir a resposta a um documento específico
      Em vez disso, ele mostra por quais fragmentos dos dados de treinamento o modelo foi influenciado
      Por exemplo, dá para rastrear por que vários modelos repetem a mesma piada ou os mesmos números
  • Acho que o tamanho ideal de modelos é ter três linhas: 7B, 20B e 32B
    7B serve para GPU de 8 GB, 32B para GPU de 24 GB, e um modelo na faixa de 20B cabe perfeitamente em GPU de 16 GB
    • Claro que isso depende da arquitetura
      Ainda estão em andamento experimentos para encontrar o tamanho ideal
      Pessoalmente, queria que GPUs tivessem VRAM escalável
  • Perguntei ao modelo 7B “hi, who are u” e ele travou enquanto analisava internamente a frase
    Provavelmente parece um bug do OpenWebUI
    • Sempre que sai um modelo novo, muita gente testa em softwares que ainda não oferecem suporte
      Foi assim com o GPT-OSS, e provavelmente a mesma situação vai se repetir com o OLMo
    • Eu mesmo testei no playground
      O 7B responde “Hi! I'm Olmo 3…”, e o 32B responde “Hi! I'm Olmo…”
    • Sou pesquisador da equipe de pós-treinamento da Ai2 e queria saber onde isso foi testado
    • Isso me lembra a piada de analisar demais “good morning”
      No fim, até uma saudação simples acaba virando uma interpretação filosófica
    • Eu recomendaria verificar se não havia algum limite de completion token ativo
  • Vi o dataset Dolma3 no Hugging Face
    Fiquei surpreso porque logo na primeira linha já havia texto de site adulto
    • Provavelmente ainda está na fase pré-curadoria
      Para divulgar o pipeline completo, esse tipo de dado também precisa estar incluído
      Ainda assim, talvez fosse melhor ajustar a prévia para que esse tipo de trecho não aparecesse de cara
    • De qualquer forma, ficção erótica também é um dos principais casos de uso desses modelos
  • Fico curioso sobre os usos práticos de modelos pequenos
    A maioria parece voltada para inferência on-device, mas será que há outros casos?
    • Falando como pesquisador da Ai2, o 7B é um modelo local para GPUs de consumidor, enquanto o 32B pode servir para aplicações mais variadas
      Muitas empresas podem acabar migrando de modelos ajustados do Qwen 3 para o Olmo 32B
    • Nossa equipe faz fine-tuning de modelos 7B como classificadores especializados por domínio
      O desempenho foi melhor do que o de modelos pequenos não LLM
    • Eu deixo o Qwen3-30B-VL carregado o tempo todo na VRAM
      Ele é mais rápido que uma busca simples no Google e ainda resolve comandos de terminal, navegação de arquivos e organização de notas
      Graças à velocidade (90tok/s) e à baixa latência, consigo fazer tarefas pequenas com muito mais eficiência
      Já o Sonnet 4.5 é lento e erra de forma sutil, então acaba sendo ineficiente no uso real
  • O Qwen3-30B-VL é quase perfeito para uso cotidiano
    É rápido (90tok/s) e cobre a maioria das tarefas
    Esse tipo de pesquisa é importante, mas vai ser difícil para modelos densos (dense) alcançarem essa velocidade
    • Falando como desenvolvedor do Olmo, os modelos Qwen são rápidos por causa da arquitetura MoE
      A próxima versão do Olmo também deve adotar MoE
    • Testei em um MacBook novo e foi lento, mas em compensação o Qwen2.5:14B dava retorno imediato
      Eu até conseguia conversar naturalmente em esperanto com ele
    • Fico curioso se o Qwen3-30B-VL parece mais “inteligente” por diferença de arquitetura, e não apenas por ser maior