S1: um concorrente do R1 por US$ 6?

(timkellogg.me)

14 pontos por GN⁺ 2025-02-06 | 2 comentários | Compartilhar no WhatsApp

O novo artigo publicado em 3 de fevereiro, "s1: Simple test-time scaling", está gerando bastante repercussão na área de IA
Mais importante do que o modelo em si é o fato de ele sugerir que pode haver um grande avanço no campo da IA
Este modelo não alcança o estado da arte mais recente (SOTA), mas é um modelo pequeno que pode rodar até em um notebook
O ponto importante é que ele ajuda a entender como essa técnica funciona sem recorrer a explicações complexas

Escalonamento da inferência: "Espere" por mim!

A OpenAI apresentou um gráfico defendendo a ideia de que “quanto mais longo o tempo de raciocínio, melhor o desempenho do LLM”
Basicamente, se um LLM puder "pensar" por mais tempo, ele pode apresentar desempenho melhor
O problema era como controlar o modelo para que ele pudesse “pensar” por mais tempo antes de responder, e faltavam explicações sobre como isso poderia ser feito
O artigo do s1 explica essa parte em detalhes, e isso é interessante
> Quando um LLM "pensa" durante o raciocínio, ele guarda seu processo interno de pensamento dentro das tags <think> e </think>, e é treinado para mudar para uma voz confiante e autoritativa para a resposta final quando </think> aparece
No artigo do s1, é descrita uma técnica simples que força a substituição de "</think>" por "Wait", fazendo o modelo “refletir” por mais tempo
- Ao remover ou substituir "</think>", o modelo é induzido a continuar pensando
- Também é possível encurtar o raciocínio abruptamente inserindo "</think>" de repente
Por meio desse método, estima-se que modelos como o o3-mini-low e o o3-mini-high tenham sido treinados para aplicar diferentes tempos médios de raciocínio
- Eles provavelmente treinaram 3 modelos, cada um com um tempo médio de pensamento diferente (medido durante o treinamento)
- No fim, o processo de treinamento começa a codificar esse comportamento nos pesos do modelo

Relação com o Entropix

A técnica de "Wait" apresentada no artigo s1 não é muito diferente da abordagem buscada pelo Entropix
Entropix é uma técnica que altera a forma de seleção de tokens observando a entropia dos logits e da atenção, além da entropia de variância (varentropy)
- Parece ter havido uma tentativa de fazer o modelo reconsiderar sua própria resposta por meio de tokens como "Wait"
Espera-se que esse tipo de abordagem possa ser aplicado tanto no momento da inferência quanto no treinamento

Frugalidade extrema de dados

O motivo de afirmarem que o modelo s1 foi desenvolvido com apenas 6 dólares é que ele foi treinado com um modelo pequeno e uma quantidade reduzida de dados
O processo consistiu em selecionar e usar apenas os 1K exemplos mais valiosos de um conjunto de 56K exemplos
- A conclusão foi que dados adicionais não melhoraram em nada o desempenho do modelo
Como é um modelo na faixa de 32B, ele pode rodar até em um notebook
Foram usadas 16 NVIDIA H100 por cerca de 26 minutos, e o custo disso foi estimado em aproximadamente 6 dólares
Como o custo era baixo, foi possível tentar muitos experimentos (ablations) e, de fato, repetir o retreinamento completo mudando pequenas variáveis
- Ex.: medir diretamente qual token é mais eficaz entre "Wait" e "Hmm"
- Também foram feitos testes para descobrir quais partes dos dados de exemplo centrais forneciam os sinais mais significativos

Implicações geopolíticas

Há uma visão de que a IA está estreitamente ligada à segurança nacional
É daí que vem o motivo de empresas como OpenAI e Anthropic investirem orçamentos gigantescos
Surgiram inovações de redução de custo como o s1, mas também é importante notar que, com grande capital, é possível conduzir muito mais tentativas em paralelo
Também há quem defenda que são necessários investimentos ainda maiores para acelerar ainda mais o avanço da IA

Distealing (destilação não autorizada de modelos)

O dataset do s1 é basicamente o resultado de uma destilação que usou thought traces de outro modelo (Qwen2.5)
A OpenAI suspeita que a DeepSeek tenha destilado indevidamente seu modelo o1 para criar o modelo V3
No entanto, está ficando cada vez mais difícil impedir esse tipo de destilação
- Cerca de 1.000 exemplos já é um volume que uma pessoa consegue coletar com facilidade
O fato de a OpenAI ter optado recentemente por não distribuir diretamente o modelo o3, mas sim lançá-lo em formato de agente, também parece ser uma tentativa de evitar esse tipo de destilação não autorizada

Conclusão

O surgimento do s1 mostra bem a rapidez com que a IA está evoluindo no campo aberto
Empresas como OpenAI e Anthropic têm grande chance de avançar ainda mais rápido usando muito mais recursos computacionais
O s1 não copiou simplesmente o R1 ou o o1, mas sugere que possibilidades semelhantes podem ser abertas apenas com SFT (Supervised Fine Tuning), sem RL
A expectativa é de inovações ainda maiores em 2025

2 comentários

hoonix 2025-02-06

Achei divertida essa expressão que faz um trocadilho com distillation, transformando em distealing!

GN⁺ 2025-02-06

Comentários no Hacker News

A expansão do raciocínio por meio do hack de 'Wait' é interessante. O fato de um método simples poder afetar o desempenho faz o avanço da ciência da computação parecer quase como lançar um feitiço. Fico curioso sobre como começar a pensar desse jeito
Se a cadeia de pensamento fornece ao modelo uma 'camada' temporária que atua como buffer para processar texto, fico me perguntando se faria sentido transformar esse buffer em um contexto separado, com sua própria FNN e mecanismo de atenção. Isso poderia se combinar com um microprocesso explicado em linguagem natural para oferecer uma representação de 'pensamentos' mais densa
CoT é uma técnica amplamente conhecida, mas a DeepSeek, por causa das limitações de computação, se concentrou em encontrar otimizações de memória, largura de banda e paralelismo. As otimizações deles em nível de infraestrutura e software são notáveis
Acho que os benchmarks atuais não são fortes o bastante, e os laboratórios americanos de LLM provavelmente reconhecem a falta de otimização de infraestrutura e hardware. O nível de RL e o treinamento-base vão se tornar ainda mais importantes
É interessante que métodos experimentados via hacking de IA também estejam sendo usados em laboratórios. Usei o método de substituir por 'Okay' para fazer o R1 continuar pensando
Salvei o blog do Tim nos favoritos. Os avanços em IA e redes neurais são impressionantes. Pessoalmente, estou tendo dificuldade para criar agentes baseados em LLM com modelos on-device fracos
Ter 10.000 H100 significa poder fazer 625 vezes mais experimentos do que com o S1. Nas grandes empresas, há uma tendência de desperdiçar recursos computacionais
É interessante como controlam o comprimento da saída dos modelos de raciocínio. Descobriram uma forma de injetar CoT e facilitar o jailbreak substituindo por 'Wait'
Fornece o link para o artigo original sobre o S1
Em grandes organizações, não dá para fazer muitos experimentos, e os funcionários se concentram em apresentar resultados rapidamente. O trabalho é conduzido com pressa por ganhos temporários
Moldar a saída de um LLM é como fazer uma escultura. É preciso colocar o modelo em um game loop e interagir a cada tick para obter o resultado desejado. A sede por recursos computacionais vai continuar