Grok 3: outra vitória da The Bitter Lesson

(thealgorithmicbridge.com)

3 pontos por GN⁺ 2025-02-21 | 3 comentários | Compartilhar no WhatsApp

I. As leis de escala que dominam o avanço da IA

É bem possível que Elon Musk não tenha exagerado ao chamar o Grok 3 de "a IA mais inteligente da Terra"
Em comparação com o Grok 2, houve um salto enorme, e ele está no mesmo nível dos modelos de laboratórios maduros como OpenAI, Google DeepMind e Anthropic, ou até superior em algumas áreas
No LMSys Arena, ficou em 1º lugar em todas as categorias e também mostrou desempenho de alto nível (nível o3) em matemática, programação e problemas científicos
Em algumas tarefas específicas, fica abaixo dos melhores modelos, mas na maioria dos critérios está em nível co-state-of-the-art
O Grok 3 vai além de um simples sucesso da xAI e representa mais uma vitória da The Bitter Lesson, que enfatiza a importância da escala na pesquisa em IA
Ao contrário da visão crítica ou da cobertura da imprensa, as leis de escala (Scaling Laws) continuam válidas no avanço da IA, e sua importância está aumentando ainda mais

II. DeepSeek: a exceção que prova a regra

O contexto do sucesso da DeepSeek
- A DeepSeek conseguiu competir com os principais nomes do setor mesmo com recursos computacionais relativamente menores (cerca de 50K GPUs Nvidia Hopper)
- Enquanto laboratórios dos EUA usaram mais de 100K Nvidia H100, a DeepSeek obteve resultados ao otimizar toda a pilha tecnológica
- Isso levou a comunidade a questionar a "Bitter Lesson" e o "paradigma de escala" em que acreditava
Conclusões erradas e o verdadeiro significado da Bitter Lesson
- Algumas pessoas interpretaram o sucesso da DeepSeek como prova de que "GPU não importa, e otimização algorítmica importa mais"
- Mas a Bitter Lesson não significa que "melhorias algorítmicas não são necessárias"; significa que, quando possível, usar mais recursos computacionais é a melhor opção
- A DeepSeek teve de focar em otimização porque faltavam GPUs; se tivesse treinado com 100K GPUs, teria obtido resultados melhores
- Ou seja, o que a DeepSeek provou foi a possibilidade de otimização, não que "escala é irrelevante"
A posição do CEO da DeepSeek
- Até o CEO, Liang Wenfeng, afirmou que os controles de exportação dos EUA são o principal obstáculo para desenvolver modelos melhores
- O fato de ele ter dito isso mesmo usando 50K GPUs Hopper significa exatamente o oposto da interpretação de que "GPU não importa"
- O sucesso da DeepSeek pode ser visto como um caso que apoia a Bitter Lesson e o paradigma de escala, sendo apenas uma exceção extraordinária

III. A xAI prova que "escala > otimização"

Grok 3 e a abordagem da xAI
- Fica a dúvida se os resultados da xAI conseguirão mudar a percepção dos céticos de que "escala importa mais que otimização"
- Não está claro se houve mudanças de arquitetura no Grok 3 ou qual foi o nível de otimização de infraestrutura, mas é certo que ele foi treinado no supercomputador Colossus, em Memphis, com 100K GPUs H100
- Isso é muito mais do que o número de GPUs que a DeepSeek possui
Uma estratégia diferente da DeepSeek
- A DeepSeek precisou otimizar ao extremo recursos limitados de GPU, mas a xAI não teve essa necessidade e pôde trabalhar apenas com um nível de otimização padrão
- O cerne da Bitter Lesson é: "se você tem recursos computacionais suficientes, não perca tempo com otimizações desnecessárias; simplesmente faça escala"
- A xAI investiu ainda mais recursos computacionais do que a OpenAI para treinar o Grok 3 e, como resultado, produziu um modelo de ponta
A Bitter Lesson é uma verdade geral, não só da IA
- "Se o recurso principal é abundante, não há por que perder tempo espremendo recursos auxiliares"
- É como os Fremen do deserto reciclarem suor em vez de simplesmente viver num planeta onde chove: a segunda opção é mais eficiente
- Melhorias algorítmicas e aumento de poder computacional são ambos importantes, mas, depois de certo ponto, colocar mais recursos é mais eficaz do que otimizar
- Poder computacional pode ser resolvido com dinheiro; melhorias algorítmicas revolucionárias são imprevisíveis e não há garantia de que continuarão escalando no futuro
O importante é não parar de escalar
- Ao bater num limite, em vez de otimizar, basta mudar o elemento que será escalado
- Recursos limitados podem estimular inovação, mas, no fim, "mais recursos" vencem "melhor otimização"
- A DeepSeek foi obrigada a focar em otimização, mas xAI e OpenAI não vão escolher trabalhar sob as mesmas restrições de inovação da DeepSeek
- No fim, xAI e DeepSeek são casos representativos de "apostar recursos massivos" versus "extrair o máximo de recursos limitados"
- As duas empresas fizeram o melhor possível em seus contextos, mas enquanto a DeepSeek continuar com escassez de computação, é provável que a xAI mantenha vantagem
- Assim, apesar de muito discutida no meio acadêmico, a Bitter Lesson vem se provando válida no desenvolvimento real de IA há mais de uma década

IV. A mudança de paradigma que ajudou xAI e DeepSeek

A dificuldade de quem chega depois na corrida da IA
- Começar tarde na corrida da IA parecia um handicap difícil de superar
- No início, não havia certeza de que a xAI conseguiria alcançar OpenAI ou Anthropic
- Mas, na evolução do Grok 2 (agosto de 2024) para o Grok 3 (fevereiro de 2025), houve além do cluster de GPUs Colossus outro fator que trabalhou a favor da xAI
- Foi justamente a mudança no paradigma de escala da IA
A era do pré-treinamento (2019-2024)
- No começo, avançar em IA significava treinar modelos maiores com datasets maiores e recursos computacionais mais poderosos
- Exemplo: o GPT-2 (fevereiro de 2019) tinha 1,5 bilhão de parâmetros, enquanto o GPT-4 (março de 2023) tinha cerca de 1,76 trilhão, um aumento de mais de 1.000 vezes
- Esse método favorecia pioneiros como a OpenAI
  - porque eles tiveram mais tempo para coletar dados, ampliar modelos e garantir GPUs
- Além disso, muitas vezes cada modelo levava mais de meio ano para ser treinado, o que tornava lenta a iteração entre gerações e dificultava a recuperação dos concorrentes tardios
A era do pós-treinamento (2024-???)
- A partir de 2024, o setor de IA percebeu que apenas aumentar os modelos já não trazia melhorias graduais de desempenho no mesmo ritmo
- A imprensa entendeu isso errado como "o fim da era da escala", mas na prática houve apenas uma mudança de paradigma (veja a palestra de Ilya Sutskever na NeurIPS 2024)
- O foco mudou para:
  - "expandir a computação no momento do teste (test-time compute)" → permitir que o modelo pense mais profundamente antes de responder
  - a combinação de RLHF com SFT se mostrou eficaz
  - especialmente em domínios estruturados como matemática e programação, onde é possível aplicar funções de recompensa verificáveis e obter grandes ganhos de desempenho
- A OpenAI liderou isso com o o1-preview e, depois disso, as empresas de IA passaram a focar menos em aumentar o tamanho dos modelos e mais em criar "modelos com melhor capacidade de raciocínio"
Por que o novo paradigma favoreceu xAI e DeepSeek
- O pós-treinamento ainda está em estágio inicial, então é possível obter ganhos rápidos de desempenho com custo relativamente baixo
- Foi isso que permitiu à OpenAI evoluir do o1 para o o3 em apenas 3 meses
- É também a mesma razão pela qual a DeepSeek conseguiu alcançar o nível do R1 mesmo com menos GPUs e GPUs inferiores
- O Grok, por sua vez, alcançou o nível dos melhores modelos de IA em apenas 2 anos
Mudança na dinâmica competitiva
- A OpenAI ainda mantém alguma vantagem, mas não num nível impossível de ser alcançado por quem chegou depois
- A OpenAI precisa equilibrar pesquisa de ponta e operação de produto por causa da carga de manter o ChatGPT, com 300M de usuários semanais
- Já xAI e DeepSeek podem focar com mais flexibilidade na inovação técnica
- O app da DeepSeek ficou popular e depois caiu novamente justamente porque faltavam recursos computacionais para sustentar inferência em larga escala
- Com a abertura desse novo paradigma, uma nova configuração competitiva está se formando

V. Como entender corretamente os resultados de xAI e DeepSeek

A Bitter Lesson e a mudança de paradigma não diminuem essas conquistas
- A Bitter Lesson e a mudança no paradigma de escala facilitaram o sucesso de xAI e DeepSeek, mas no fim das contas eles conseguiram entregar
- Outras empresas com a mesma oportunidade (Mistral, Character, Inflection) fracassaram
- O Grok 3 é uma vitória da Bitter Lesson, e a DeepSeek é um caso excepcional que prova a regra, mas os dois significam mais do que isso
Computação não é tudo
- Assim como a Bitter Lesson não nega o valor de algoritmos e otimização de infraestrutura, recursos humanos e estratégia empresarial também importam
- A xAI atualmente tem cerca de 1.000 funcionários, comparável à OpenAI (cerca de 2.000) e à Anthropic (cerca de 700)
- Além disso, graças à rede técnica e financeira de Elon Musk, a xAI consegue captar investimentos gigantescos com facilidade
- A DeepSeek também merece grande reconhecimento por ter inovado em um ambiente limitado
  - o ecossistema de IA na China tinha relativamente menos ambição e experiência, além de pouco apoio governamental (embora isso possa mudar em breve)
É preciso entender isso em contexto histórico
- OpenAI, Google DeepMind e Anthropic tiveram de desenvolver modelos na era do pré-treinamento
  - naquela época, escalar IA era muito mais difícil, lento e caro do que agora
  - não era nem certo que um produto como o ChatGPT daria certo, e a própria OpenAI hesitou em lançá-lo (foi publicado primeiro apenas como uma prévia de pesquisa)
  - essas empresas foram pioneiras que lideraram a inovação em IA com forte convicção em meio à incerteza
- Já DeepSeek e xAI partiram sobre os ombros desses gigantes
  - puderam evitar erros e tentativas já feitas na pesquisa anterior e avançar rapidamente com abordagens já validadas
  - além disso, justamente quando o paradigma de IA mudou para o pós-treinamento, elas puderam gerar resultados rápidos com custo mais baixo
  - tiveram muito menos necessidade de assumir o investimento inicial massivo e a incerteza enfrentados pelos primeiros pioneiros da IA
Reconheça a vitória, mas lembre-se também do caminho
- Não é preciso diminuir os resultados de xAI e DeepSeek, mas também não devemos esquecer como o avanço da IA chegou até aqui
- Sem pioneiros iniciais como OpenAI, DeepMind e Anthropic, os resultados de hoje também não teriam sido possíveis
- Em outras palavras, é mais adequado ver o sucesso de xAI e DeepSeek não como "sorte", mas como "o resultado de ter feito o melhor possível no momento certo"

VI. O pós-treinamento é barato agora, mas logo ficará caro

A principal lição mostrada pelo Grok 3 e pela xAI
- Hoje, o pós-treinamento é relativamente barato, mas em breve passará a exigir investimentos tão massivos quanto o pré-treinamento
- No momento em que as empresas descobrirem como escalar o pós-treinamento em grande escala, dinheiro e recursos computacionais serão indispensáveis para sobreviver à competição
- As empresas de IA já estão acumulando centenas de milhares de GPUs e construindo grandes clusters
- Ao contrário da ideia de que "GPU não importa", a corrida por GPUs deve se tornar um elemento central da competição em IA
- Por isso Dario Amodei (cofundador da OpenAI) e outros destacam a importância dos controles de exportação (export controls)
O forte posicionamento da xAI
- Neste momento, a xAI está em posição mais favorável não só que a DeepSeek, mas também que OpenAI e Anthropic
- Motivo: possui um cluster com 100K GPUs H100 e deve expandi-lo em breve para 200K
- Isso oferece uma vantagem enorme na corrida pelo desenvolvimento da próxima geração de IA
- A Meta também segue a mesma estratégia e está treinando o Llama 4 em um cluster de 100K+ H100
Limites e possibilidades da DeepSeek
- Só a excelente capacidade de engenharia da DeepSeek já não basta para competir no estágio em que entramos
- Por mais que otimize a pilha tecnológica, é impossível superar uma diferença de 150K GPUs
- Se fosse possível, a DeepSeek também teria escolhido escalar como a xAI, mas os controles de exportação dos EUA limitam seu crescimento
- Ainda assim, há a possibilidade de resolver esse problema por meio de cooperação com a Huawei
Vantagens adicionais da xAI
- Nem mesmo OpenAI e Anthropic estão em posição tão estável quanto a xAI quando se trata de garantir clusters de GPU
- Graças ao apoio da Nvidia, a xAI está recebendo com prioridade o hardware de IA de próxima geração
- Com a rede de Elon Musk e a postura favorável da Nvidia, é muito provável que a xAI conquiste uma vantagem singular na futura competição em IA

VII. Daqui a um ano, quem estará na frente?

A vantagem dos líderes atuais
- Apesar de tudo isso, OpenAI, Google DeepMind e Anthropic ainda mantêm uma pequena vantagem inicial
- OpenAI: deve lançar GPT-4.5/GPT-5 em breve e depois já trabalha também no modelo o4
- Anthropic: deve lançar o Claude 4
- Google DeepMind: trabalha para melhorar a versão "Thinking-model" do Gemini 2.0, ao mesmo tempo em que busca reduzir custos e ampliar a janela de contexto
Um futuro incerto
- Em 2024, esperava-se que o Google liderasse a competição em IA, mas agora isso já não é algo de que se possa ter certeza
- A corrida da IA está mais acirrada do que nunca e não há vencedor claro na disputa por AGI
- O novo paradigma favorece quem chega depois e exige rápida capacidade de adaptação
- Não está claro se o Google tem essa agilidade
- Ou talvez o Google simplesmente não esteja conseguindo divulgar seus resultados de forma eficaz
Conclusão: a escala vence no fim
- A conclusão deste texto não é prever quem vencerá a corrida da IA
- A principal lição é que a escala acaba superando a engenhosidade humana
  - lamento trazer essa notícia, mas há coisas que estão além da nossa capacidade de controlar
- O sucesso do Grok 3 lembra mais uma vez que, no avanço da IA, "mais capacidade de computação" impulsiona mais do que "algoritmos mais inteligentes"

3 comentários

kobings 2025-02-23

"OpenAI tem o ChatGPT com 300 milhões de usuários semanais"
Ao ver o original, está como 300M, então peço que corrijam para 300 milhões.

doolayer 2025-02-22

ortogonal, mas não ortonormal.

GN⁺ 2025-02-21

Opiniões no Hacker News

A criação de um modelo "co-state-of-the-art" não é uma vitória das leis de escalonamento
- O fato de a xAI não ter superado amplamente os modelos existentes mesmo colocando mais computação no Grok 3 pode ser evidência de que o hiperescalaonamento traz apenas melhorias graduais
- É uma observação óbvia que mais poder computacional torna os computadores melhores
- Este artigo tenta aplicar à diferença entre GPT-4 e Grok 3 a diferença entre a IA simbólica dos anos 70 e as redes neurais dos anos 2010
- Muitas pessoas duvidam do desempenho real do Grok 3 e suspeitam que ele foi treinado para benchmarks específicos
- Sabine Hossenfelder mencionou que o Grok 3 falhou em explicar o teorema de Bell
- Isso mostra que o escalonamento em larga escala não melhora a inteligência
O Deepseek levou 17 meses para atingir resultados SOTA, e o modelo da xAI não supera o Deepseek R1 por uma margem significativa
- A xAI investirá $2.5 billion dos $3 billion em GPUs e $0.5 billion em talentos
- O Deepseek investirá $1 billion em GPUs e $2 billion em talentos
- Afirma-se que a abordagem do Deepseek é mais escalável
Há ceticismo sobre um modelo sem raciocínio ter marcado 75% no GPQA Diamond
- A xAI vai disponibilizar a API do Grok 3 na próxima semana, e há interesse em verificar o desempenho real por meio de avaliação própria
- O número de 50k GPUs Hopper do DeepSeek pode ser exagerado
- O anúncio de recrutamento de estagiários da DeepSeek menciona apenas "acesso ilimitado a 10k A100s"
Tira conclusões estranhas a partir das mudanças recentes
- Muito dinheiro está entrando na onda da IA, mas isso logo vai acabar
- Pessoas com muita experiência em melhoria de tecnologia estarão na posição mais vantajosa no longo prazo
Se o Grok tiver inteligência semelhante à de outros modelos líderes, surge a dúvida de quais empresas migrariam para o Grok
Quando colocar mais computação passa a custar bilhões, a "lição amarga" pode deixar de ser sobre hardware e passar a ser sobre dinheiro
- Há um caminho em que modelos com menor consumo de energia podem ser viáveis mesmo sem capital de VC
A alegação do artigo sobre a "lição amarga" depende de uma falácia lógica
- Ela enquadra escalonamento e otimização como estratégias mutuamente excludentes
- As inovações algorítmicas da DeepSeek complementam os esforços de escalonamento
- A afirmação de que a computação dominará a "era pós-treinamento" ignora possíveis fatores de disrupção
É interessante como a disputa por talentos vai evoluir
- Muitos engenheiros estão decepcionados por causa de um PR fortemente centrado em DEI
- Fica a dúvida se pessoas que evitavam relações próximas com a China por razões éticas aplicarão o mesmo critério aos EUA
Mais uma postagem de blog de hype sobre IA
- Não há sequer menção às barras com cores diferentes nos resultados de benchmark
- O Grok-3 não prova nem refuta de forma significativa as leis de escalonamento