3 pontos por GN⁺ 2025-02-10 | Ainda não há comentários. | Compartilhar no WhatsApp
  • Visão geral da pesquisa

    • O modelo LIMO apresenta descobertas que levam a uma nova compreensão de como capacidades complexas de raciocínio emergem em grandes modelos de linguagem.
    • Ao contrário do que se pensava, o raciocínio matemático complexo pode ser induzido de forma eficaz mesmo com um pequeno número de exemplos.
    • Com apenas 817 amostras de treinamento, o LIMO alcançou 57,1% de acurácia no AIME e 94,8% no MATH.
    • Isso representa uma grande melhora em relação aos 6,5% e 59,2% dos modelos anteriores baseados em SFT, usando apenas 1% dos dados de treinamento das abordagens anteriores.
  • Desempenho do LIMO

    • O LIMO mostrou um ganho absoluto de 40,5% de desempenho em 10 benchmarks diferentes, superando modelos treinados com 100 vezes mais dados.
    • Isso desafia a ideia anterior de que o SFT leva mais à memorização do que à generalização.
  • Hipótese LIMO

    • A hipótese LIMO propõe que, quando o conhecimento de domínio está completamente codificado no modelo de base durante o pré-treinamento, capacidades complexas de raciocínio podem emergir com demonstrações mínimas.
    • O limiar para induzir raciocínio complexo é determinado por dois fatores principais:
      1. A completude da base de conhecimento codificada no modelo durante o pré-treinamento.
      2. A eficácia dos exemplos de pós-treinamento como um "template cognitivo" que mostra como o modelo deve usar sua base de conhecimento para resolver tarefas complexas de raciocínio.
  • Disponibilização em open source

    • O LIMO está sendo disponibilizado como um conjunto abrangente open source para promover a reprodutibilidade e futuras pesquisas sobre raciocínio eficiente em dados.

Ainda não há comentários.

Ainda não há comentários.