LIMO: quanto menos raciocínio, melhor (Less is More for Reasoning)

(arxiv.org)

3 pontos por GN⁺ 2025-02-10 | 1 comentários | Compartilhar no WhatsApp

O LIMO mostra que, ao contrário da noção comum de que o raciocínio matemático complexo exige grandes volumes de dados supervisionados, é possível obter capacidade avançada de raciocínio com apenas 800 amostras
Aplicando um simples ajuste fino supervisionado (SFT) ao Qwen2.5-32B-Instruct, alcançou 63,3% de acurácia no AIME24 e 95,6% no MATH500, superando com ampla margem os 6,5% e 59,2% de modelos previamente ajustados
Os dados de treino correspondem a apenas 1% dos usados em abordagens anteriores, mas ainda assim mostram melhor generalização em vários benchmarks e em cenários inéditos do que modelos treinados com 100 vezes mais dados
A ideia central é a hipótese de que o conhecimento de domínio já codificado no modelo base, somado a alguns poucos exemplos de alta qualidade que orientam o processo de resolução, funciona como um template cognitivo
O gargalo do aprendizado de raciocínio depende menos da complexidade da tarefa em si e mais do grau de completude do conhecimento de pré-treinamento e da qualidade dos exemplos de pós-treinamento que fazem o modelo explorar cadeias de raciocínio

A noção estabelecida que a hipótese LIMO busca desafiar

No aprendizado de raciocínio, predominava a visão de que resolver problemas de matemática e programação exigia dezenas de milhares a centenas de milhares de exemplos
Essa abordagem usa grandes volumes de dados supervisionados para mostrar ao modelo lógica em múltiplas etapas, aplicação de conhecimento de domínio e caminhos de resolução estruturados
Embora tenha havido casos de sucesso, a coleta de grandes volumes de dados e o treinamento trazem um custo computacional significativo
A hipótese LIMO sustenta que o limiar para extrair raciocínio complexo depende menos da dificuldade da tarefa e mais de duas condições
- se o conhecimento necessário existe de forma latente nos parâmetros do modelo
- se um pequeno número de exemplos mostra de forma eficaz o processo de resolução e leva o modelo a explorar o espaço computacional durante a inferência

Por que isso é possível mesmo com poucos dados

Modelos base recentes passaram a incluir muito mais conteúdo matemático na etapa de pré-treinamento
- O volume total de dados de treino do Llama 2 foi de 1,8T tokens
- O Llama 3 usou 3,7T tokens para raciocínio matemático
Com essa mudança, o foco do aprendizado de raciocínio se desloca de inserir novo conhecimento matemático para extrair o conhecimento já codificado
A ampliação do cálculo em tempo de inferência também é uma condição importante
- Técnicas que expandem cadeias longas de raciocínio aumentam bastante a capacidade de raciocinar
- O cálculo em tempo de inferência funciona como um espaço de trabalho cognitivo no qual o modelo destrincha e aplica o conhecimento obtido no pré-treinamento
O LIMO argumenta que, quando conhecimento abundante de pré-treinamento e recursos suficientes de cálculo em tempo de inferência se combinam, é possível ativar a capacidade de raciocínio com poucas amostras de alta qualidade em vez de grandes volumes de dados

Como as 800 amostras são escolhidas

Em vez de reunir muitos dados, a abordagem LIMO começa com uma triagem rigorosa para encontrar amostras de alta qualidade
Foi aplicada uma filtragem em múltiplas camadas a um grande conjunto de pares de QA
- primeiro, uma filtragem aproximada por dificuldade para remover problemas fáceis
- depois, uma avaliação mais detalhada para identificar problemas desafiadores
- por fim, diversificação dos pontos de conhecimento para garantir cobertura abrangente
As cadeias de raciocínio também foram revisadas separadamente
- consistência lógica
- clareza passo a passo
- precisão da resolução
Ao final desse processo, foi criado um dataset pequeno, mas forte, com 800 amostras de treinamento

Desempenho nos benchmarks

O LIMO usa o Qwen2.5-32B-Instruct como base e realiza um SFT simples com apenas as 800 amostras selecionadas
Os principais resultados são os seguintes
- acurácia de 63,3% no AIME24
- acurácia de 95,6% no MATH500
Modelos previamente ajustados registraram 6,5% no AIME24 e 59,2% no MATH500, mostrando uma grande diferença em relação ao LIMO
O volume de dados de treino necessário fica em apenas 1% do usado em abordagens anteriores
Mostrou forte generalização fora de distribuição em vários benchmarks de matemática e multidisciplinares, com ganho absoluto total de 45,8%
Também obteve desempenho superior ao de modelos treinados com 100 vezes mais dados em vários cenários inéditos

Contribuições e materiais públicos

A principal contribuição do LIMO é formalizar a Less-Is-More Reasoning Hypothesis, segundo a qual poucos exemplos podem extrair capacidade de raciocínio complexo
Seguindo os princípios do LIMO, o dataset foi montado e o Qwen2.5-32B-Instruct foi ajustado com SFT simples
Os resultados experimentais mostram desempenho competitivo em benchmarks difíceis de raciocínio matemático e excelente desempenho fora de distribuição
As análises e o ablation study validam o efeito dos princípios de seleção de dados e exploram a aplicabilidade conforme o nível de conhecimento do modelo base, o tamanho do modelo e diferenças de arquitetura
Também foi investigado o requisito mínimo de dados para alcançar desempenho competitivo
O modelo, o código e o dataset selecionado estão disponíveis no repositório no GitHub

1 comentários

GN⁺ 2025-02-10

Opiniões no Hacker News

É um resultado impressionante, mas vale destacar duas coisas: o modelo foi ajustado a partir do Qwen-2.5 Instruct, que já incluía milhões de exemplos de matemática cuidadosamente selecionados no pré-treinamento e no ajuste fino supervisionado.
Além disso, para criar os 817 exemplos de matemática perfeitos para o LIMO, eles filtraram um conjunto de 10 milhões de problemas de matemática usando modelos recentes como o R1.
Ou seja, muita inteligência já foi investida para produzir dados de ajuste fino o mais informativos e destilados possível, então não sei dizer se isso é mais ou menos impressionante do que simplesmente fazer ajuste fino com todo o conjunto inicial de 10 milhões e obter o mesmo resultado.
Mas esta última opção provavelmente seria menos atraente como manchete.
- Os próprios autores deixam esses dois pontos explícitos no resumo como condições críticas para extrair raciocínio complexo: um modelo de base extremamente bem desenvolvido após pré-treinamento e um conjunto de exemplos de altíssima qualidade para pós-treinamento.
  Quanto ao ajuste fino com o conjunto inicial de 10 milhões, intuitivamente parece que seria necessária uma quantidade enorme de dados de ajuste fino para mexer no desempenho, e seria difícil alterar muito o gradiente com apenas 817 exemplos.
  Esse conjunto inicial, na prática, impõe uma regularização bastante forte.
  Hoje há um interesse crescente em mostrar que poucos dados e escalonamento em tempo de inferência trazem grandes ganhos.
  Exemplos recentes incluem TinyZero: https://github.com/Jiayi-Pan/TinyZero e s1 Simple Test Time Scaling: https://arxiv.org/abs/2501.19393.
- Não entendo por que há tanta crítica a usar informações de modelos anteriores para criar um modelo mais eficiente.
  Avançar aproveitando pesquisas anteriores não é errado, e ganho de eficiência também é progresso.
  Ninguém critica alguém por fazer kombucha sem montar um SCOBY micróbio por micróbio.
- Também dá para ver a escolha de 817 amostras entre 10 milhões como algo que incorpora 12.290 bits de informação.
- Imagine um livro didático que forneça o entendimento necessário para tirar notas altas em olimpíadas de matemática, mas explique menos de 1.000 problemas.
  Isso, por si só, é uma grande descoberta em metacognição.
- O artigo e esta explicação se parecem bastante com a tarefa de criar um livro didático de exemplos cognitivos “o mais informativos e destilados possível” para ensinar raciocínio de próxima etapa a um aluno que já concluiu a aprendizagem básica.
  Nos últimos anos, a evolução dos LLMs mostrou que respostas humanas de “raciocínio” podem ser previstas modelando reações humanas plausíveis como se fossem geradas por um LLM.
  Em outras palavras, muitas respostas não são raciocínio especialmente ponderado, mas algo mais próximo de uma cadeia de geração de tokens.
  Isso fica mais claro quando você se senta ao lado de alguém que “pensa em voz alta” enquanto resolve um problema.
  A definição de tokgen pode ser entendida ouvindo uma conversa em um restaurante.
  Grande parte das conversas não é pensamento profundo, mas respostas que seguem prompts de forma quase perfeitamente previsível.
  Para diferenciar isso de palavras que surgem após uma pausa e reflexão, dá para usar os rótulos thought e token generation, ou seja, tokgen.
Não sou especialista na área, mas acho que modelos pré-treinados na internet já adquirem a maior parte das capacidades necessárias para raciocínio matemático.
Só que, como o objetivo é prever a distribuição da próxima palavra em toda a internet, e a maior parte dos textos da internet não é desse tipo de raciocínio, parece que eles normalmente não usam muito essa capacidade.
É parecido com alguns anos atrás, quando acrescentar “unreal engine” ao prompt de modelos de geração de imagem melhorava muito a qualidade dos resultados.
O modelo foi treinado para gerar a distribuição de imagens da internet, e a maior parte delas não é particularmente impressionante, mas imagens contendo “unreal engine” geralmente eram screenshots de alta qualidade, então a distribuição gerada também se deslocava para uma qualidade maior.
Por isso faz sentido que a capacidade de raciocínio matemático melhore com poucos exemplos de treinamento: o modelo já tem a maior parte da capacidade latente, e só é preciso ajustar algumas conexões para que ele realmente a utilize.
- Isso é bem parecido com o que a Anthropic fez ao analisar e manipular ativações para criar o golden gate Claude, ou ao maximizar/minimizar características como “buggy code”[0].
  [0]: https://www.anthropic.com/news/mapping-mind-language-model
- Acrescentando um pouco a isso, identificar padrões e continuá-los também pode se aplicar à avaliação de raciocínio simbólico.
  Por exemplo, isso aparece quando se define a semântica de uma linguagem de programação funcional como regras de reescrita.
  Se o modelo puder transformar o problema em uma linguagem suficientemente precisa, começar a fazer correspondência de padrões com programas generativos codificados no LLM e avaliar implicações lógicas, entramos em um território muito interessante.
  A previsão autorregressiva pode se transformar em avaliação incremental simbólica e computação, enquanto o LLM de fundo ainda guia a escolha das avaliações e a busca por objetivos.
  Se o modelo de base já tiver conteúdo suficiente para acoplar de forma limpa uma linguagem mais precisa, talvez não seja necessário um corpus gigantesco para reforçar essas regras de avaliação.
- O raciocínio que o R1 mostra na maior parte do tempo soa para mim como a fala de um aluno do 5º ano do ensino fundamental, o que sustenta a explicação acima.
  Ainda assim, se continuarmos comprimindo o conhecimento necessário para raciocínio matemático, talvez acabemos chegando a algo que combine teoria das categorias com algum sistema baseado em regras, como Prolog.
- Isso pode significar que ajustar um modelo-base com aprendizado supervisionado ou aprendizado por reforço, em geral, não torna o modelo essencialmente mais inteligente; talvez apenas o autoaprendizado supervisionado inicial durante o pré-treinamento faça isso.
  Claro, se nenhuma quantidade de aprendizado por reforço puder realmente tornar um LLM mais inteligente, isso também seria estranho.
Pelo meu palpite, algumas áreas como matemática são gerais, mas têm um tamanho de vocabulário efetivo anormalmente grande, como todos os números possíveis, então ficam mais caras quando treinadas do jeito que funciona para áreas com vocabulário de tamanho normal.
Ao treinar etapas de raciocínio nesse tipo de domínio problemático, é possível reforçar um vocabulário geral relativamente pequeno, como “somar”, “inverso” e “resolver”.
Assim, a aritmética das combinações de números fica separada dos problemas individuais, e a resposta pontual deixa de ser enfatizada.
Basta treinar N exemplos de raciocínio e M exemplos de aritmética, não é preciso treinar N*M problemas matemáticos completos.
Por isso, embora seja necessário gastar mais recursos de raciocínio, dá para obter respostas melhores com menos treinamento.
Deixando a teoria de lado, no lado das aplicações parece bom usar esse processo geral de raciocínio para estruturar a fórmula final e depois passá-la para um avaliador tradicional.
Então o raciocínio e seu treinamento só precisam chegar até a manipulação simbólica.
É uma abordagem como a do Wolfram Alpha, em que o processamento de linguagem natural é passado ao avaliador muito mais tarde.
- Uma pergunta relacionada: já existiu um LLM que fosse uma calculadora perfeita?
  Algo que, ao receber uma expressão com operações padrão +/- e inteiros etc., sempre retorne o resultado correto.
  Não me lembro de ter visto um artigo relacionado, mas não sou especialista.
Acho que li recentemente duas coisas que parecem se contradizer: que LLMs jamais conseguirão generalizar provas de teoremas, e a afirmação deste artigo de que “LLMs modernos já podem ter conhecimento matemático abundante no espaço de parâmetros, e a tarefa passa de aquisição de conhecimento para indução de conhecimento”.
Agora já não sei o que é o quê.
- Para engolir esse remédio amargo, talvez seja preciso admitir que todo o conhecimento humano é, na prática, uma distribuição finita relativamente “pequena”, e que os modelos agora ficaram grandes o bastante para fazer correspondência de padrões sobre ela, por isso LLMs conseguem “generalizar”.
- Talvez LLMs consigam gerar o espaço de busca correto para um problema, mas o processo de identificar a solução dentro dele seja ineficiente?
  Dito de outro modo, a maioria dos alunos que estudou apostilas de matemática do ensino médio tem dentro de si a possibilidade de ganhar uma medalha de ouro na Olimpíada.
  Isso porque a matemática em si não vai muito além do conteúdo do ensino médio.
  Mas levar um estudante real do ensino médio ao nível de medalha de ouro da Olimpíada é difícil, e pode ser algo parecido com P versus NP.
- Seja do lado dos exagerados ou dos céticos, veremos muita gente continuar dizendo coisas verificáveis.
  Às vezes continuam fazendo a mesma afirmação mesmo quando você tem uma captura de tela que a contradiz.
  Especialmente no caso dos céticos, dá para usar diretamente os LLMs de ponta e verificar: “isto realmente faz algo que alguém afirma que não faz?”
  Muitas vezes, faz mesmo.
  Em artigos submetidos recentemente por céticos, às vezes eles fazem afirmações sobre LLMs de última geração, mas testam apenas versões de mais de um ano atrás.
  Isso de fato aconteceu recentemente^
  Para ter certeza do que está certo, não há alternativa a não ser usar diretamente e julgar o que é verdadeiro.
  ^ https://x.com/tylercowen/status/1881051976102035880
- É possível ter conhecimento matemático abundante e ainda assim não ser bom em provar teoremas.
  Por outro lado, também é possível ser bom em provar problemas de matemática de competição sem ter conhecimento matemático abundante.
  Também é possível ter conhecimento matemático abundante e ser bom em provar teoremas, mas principalmente apenas na própria área de especialidade.
- A frase “LLMs nunca conseguirão fazer X” simplesmente parece estar sempre errada.
Assim como modelos de difusão de imagens mostraram que conseguem resumir uma aproximação plausível de todo o mundo visual em um modelo de 5 GB, será que padrões de raciocínio também podem ser comprimidos de modo parecido?
Será que os padrões de raciocínio usados em todas as áreas são, na prática, poucos o bastante para serem capturados com um conjunto de treinamento relativamente pequeno?
- Acho que não existem tantos “padrões de raciocínio” verdadeiramente gerais, isto é, estratégias ou abordagens.
  Mas o raciocínio aplicado exige não só padrões de raciocínio, como também um repertório de etapas de raciocínio válidas específicas de domínio que possam ser aplicadas conforme essa abordagem.
  Também exige uma combinação de capacidades para superar impasses quando todo o conhecimento e as etapas de raciocínio aprendidas ainda não levam à solução.
  Em áreas como matemática, talvez dê para ir bem longe com um número pequeno de etapas de raciocínio específicas de matemática, mas a própria matemática tem muitas subáreas, como álgebra, geometria, cálculo e topologia.
  Pelo que sei, as técnicas de uma área só são úteis em outra na medida em que é possível mapear o problema para esse outro domínio.
Fico curioso se um conjunto cuidadosamente selecionado de 817 problemas de matemática também seria útil como livro didático para treinar estudantes de matemática com problemas variados.
Se, como na hipótese LIMO, for possível extrair o potencial de raciocínio eficiente dentro de um modelo pequeno fazendo ajuste fino com um dataset pequeno, pode haver uma grande transferência de poder dos modelos gigantes para modelos pequenos.
Se esse processo puder ser repetido iterativamente, ele parece oferecer uma força quase ilimitada.
Mas, para alimentar esse ciclo, o dataset precisa ter certas propriedades.
Ele deve ensinar a ajustar o raciocínio ao tamanho do modelo e ser validado de algo como uma cobertura mínima que expanda a profundidade das cadeias de raciocínio com baixo fator de ramificação no espaço de busca para detectar padrões profundos.
É interessante ver a área se transformando cada vez mais em pedagogia de LLMs.
Raciocínio é a arte da previsão.
É destilar muitas observações da realidade em um pequeno modelo da realidade que prevê novas observações suficientemente bem.
“Qual é o modelo mais simples que explica a maior parte do que estou vendo?” é a pergunta central que a mente tenta responder.
Quando aprendemos a arte de criar esse tipo de modelo, passamos a fazer correspondência de padrões de novos problemas com nossos modelos e a usar esses modelos para prever os resultados.

LIMO: quanto menos raciocínio, melhor (Less is More for Reasoning)

A noção estabelecida que a hipótese LIMO busca desafiar

Por que isso é possível mesmo com poucos dados

Como as 800 amostras são escolhidas

Desempenho nos benchmarks

Contribuições e materiais públicos

Leituras relacionadas

1 comentários

Opiniões no Hacker News