-
Visão geral da pesquisa
- O modelo LIMO apresenta descobertas que levam a uma nova compreensão de como capacidades complexas de raciocínio emergem em grandes modelos de linguagem.
- Ao contrário do que se pensava, o raciocínio matemático complexo pode ser induzido de forma eficaz mesmo com um pequeno número de exemplos.
- Com apenas 817 amostras de treinamento, o LIMO alcançou 57,1% de acurácia no AIME e 94,8% no MATH.
- Isso representa uma grande melhora em relação aos 6,5% e 59,2% dos modelos anteriores baseados em SFT, usando apenas 1% dos dados de treinamento das abordagens anteriores.
-
Desempenho do LIMO
- O LIMO mostrou um ganho absoluto de 40,5% de desempenho em 10 benchmarks diferentes, superando modelos treinados com 100 vezes mais dados.
- Isso desafia a ideia anterior de que o SFT leva mais à memorização do que à generalização.
-
Hipótese LIMO
- A hipótese LIMO propõe que, quando o conhecimento de domínio está completamente codificado no modelo de base durante o pré-treinamento, capacidades complexas de raciocínio podem emergir com demonstrações mínimas.
- O limiar para induzir raciocínio complexo é determinado por dois fatores principais:
- A completude da base de conhecimento codificada no modelo durante o pré-treinamento.
- A eficácia dos exemplos de pós-treinamento como um "template cognitivo" que mostra como o modelo deve usar sua base de conhecimento para resolver tarefas complexas de raciocínio.
-
Disponibilização em open source
- O LIMO está sendo disponibilizado como um conjunto abrangente open source para promover a reprodutibilidade e futuras pesquisas sobre raciocínio eficiente em dados.
Ainda não há comentários.