I. As leis de escala que dominam o avanço da IA
- É bem possível que Elon Musk não tenha exagerado ao chamar o Grok 3 de "a IA mais inteligente da Terra"
- Em comparação com o Grok 2, houve um salto enorme, e ele está no mesmo nível dos modelos de laboratórios maduros como OpenAI, Google DeepMind e Anthropic, ou até superior em algumas áreas
- No LMSys Arena, ficou em 1º lugar em todas as categorias e também mostrou desempenho de alto nível (nível o3) em matemática, programação e problemas científicos
- Em algumas tarefas específicas, fica abaixo dos melhores modelos, mas na maioria dos critérios está em nível co-state-of-the-art
- O Grok 3 vai além de um simples sucesso da xAI e representa mais uma vitória da The Bitter Lesson, que enfatiza a importância da escala na pesquisa em IA
- Ao contrário da visão crítica ou da cobertura da imprensa, as leis de escala (Scaling Laws) continuam válidas no avanço da IA, e sua importância está aumentando ainda mais
II. DeepSeek: a exceção que prova a regra
- O contexto do sucesso da DeepSeek
- A DeepSeek conseguiu competir com os principais nomes do setor mesmo com recursos computacionais relativamente menores (cerca de 50K GPUs Nvidia Hopper)
- Enquanto laboratórios dos EUA usaram mais de 100K Nvidia H100, a DeepSeek obteve resultados ao otimizar toda a pilha tecnológica
- Isso levou a comunidade a questionar a "Bitter Lesson" e o "paradigma de escala" em que acreditava
- Conclusões erradas e o verdadeiro significado da Bitter Lesson
- Algumas pessoas interpretaram o sucesso da DeepSeek como prova de que "GPU não importa, e otimização algorítmica importa mais"
- Mas a Bitter Lesson não significa que "melhorias algorítmicas não são necessárias"; significa que, quando possível, usar mais recursos computacionais é a melhor opção
- A DeepSeek teve de focar em otimização porque faltavam GPUs; se tivesse treinado com 100K GPUs, teria obtido resultados melhores
- Ou seja, o que a DeepSeek provou foi a possibilidade de otimização, não que "escala é irrelevante"
- A posição do CEO da DeepSeek
- Até o CEO, Liang Wenfeng, afirmou que os controles de exportação dos EUA são o principal obstáculo para desenvolver modelos melhores
- O fato de ele ter dito isso mesmo usando 50K GPUs Hopper significa exatamente o oposto da interpretação de que "GPU não importa"
- O sucesso da DeepSeek pode ser visto como um caso que apoia a Bitter Lesson e o paradigma de escala, sendo apenas uma exceção extraordinária
III. A xAI prova que "escala > otimização"
- Grok 3 e a abordagem da xAI
- Fica a dúvida se os resultados da xAI conseguirão mudar a percepção dos céticos de que "escala importa mais que otimização"
- Não está claro se houve mudanças de arquitetura no Grok 3 ou qual foi o nível de otimização de infraestrutura, mas é certo que ele foi treinado no supercomputador Colossus, em Memphis, com 100K GPUs H100
- Isso é muito mais do que o número de GPUs que a DeepSeek possui
- Uma estratégia diferente da DeepSeek
- A DeepSeek precisou otimizar ao extremo recursos limitados de GPU, mas a xAI não teve essa necessidade e pôde trabalhar apenas com um nível de otimização padrão
- O cerne da Bitter Lesson é: "se você tem recursos computacionais suficientes, não perca tempo com otimizações desnecessárias; simplesmente faça escala"
- A xAI investiu ainda mais recursos computacionais do que a OpenAI para treinar o Grok 3 e, como resultado, produziu um modelo de ponta
- A Bitter Lesson é uma verdade geral, não só da IA
- "Se o recurso principal é abundante, não há por que perder tempo espremendo recursos auxiliares"
- É como os Fremen do deserto reciclarem suor em vez de simplesmente viver num planeta onde chove: a segunda opção é mais eficiente
- Melhorias algorítmicas e aumento de poder computacional são ambos importantes, mas, depois de certo ponto, colocar mais recursos é mais eficaz do que otimizar
- Poder computacional pode ser resolvido com dinheiro; melhorias algorítmicas revolucionárias são imprevisíveis e não há garantia de que continuarão escalando no futuro
- O importante é não parar de escalar
- Ao bater num limite, em vez de otimizar, basta mudar o elemento que será escalado
- Recursos limitados podem estimular inovação, mas, no fim, "mais recursos" vencem "melhor otimização"
- A DeepSeek foi obrigada a focar em otimização, mas xAI e OpenAI não vão escolher trabalhar sob as mesmas restrições de inovação da DeepSeek
- No fim, xAI e DeepSeek são casos representativos de "apostar recursos massivos" versus "extrair o máximo de recursos limitados"
- As duas empresas fizeram o melhor possível em seus contextos, mas enquanto a DeepSeek continuar com escassez de computação, é provável que a xAI mantenha vantagem
- Assim, apesar de muito discutida no meio acadêmico, a Bitter Lesson vem se provando válida no desenvolvimento real de IA há mais de uma década
IV. A mudança de paradigma que ajudou xAI e DeepSeek
- A dificuldade de quem chega depois na corrida da IA
- Começar tarde na corrida da IA parecia um handicap difícil de superar
- No início, não havia certeza de que a xAI conseguiria alcançar OpenAI ou Anthropic
- Mas, na evolução do Grok 2 (agosto de 2024) para o Grok 3 (fevereiro de 2025), houve além do cluster de GPUs Colossus outro fator que trabalhou a favor da xAI
- Foi justamente a mudança no paradigma de escala da IA
- A era do pré-treinamento (2019-2024)
- No começo, avançar em IA significava treinar modelos maiores com datasets maiores e recursos computacionais mais poderosos
- Exemplo: o GPT-2 (fevereiro de 2019) tinha 1,5 bilhão de parâmetros, enquanto o GPT-4 (março de 2023) tinha cerca de 1,76 trilhão, um aumento de mais de 1.000 vezes
- Esse método favorecia pioneiros como a OpenAI
- porque eles tiveram mais tempo para coletar dados, ampliar modelos e garantir GPUs
- Além disso, muitas vezes cada modelo levava mais de meio ano para ser treinado, o que tornava lenta a iteração entre gerações e dificultava a recuperação dos concorrentes tardios
- A era do pós-treinamento (2024-???)
- A partir de 2024, o setor de IA percebeu que apenas aumentar os modelos já não trazia melhorias graduais de desempenho no mesmo ritmo
- A imprensa entendeu isso errado como "o fim da era da escala", mas na prática houve apenas uma mudança de paradigma (veja a palestra de Ilya Sutskever na NeurIPS 2024)
- O foco mudou para:
- "expandir a computação no momento do teste (test-time compute)" → permitir que o modelo pense mais profundamente antes de responder
- a combinação de RLHF com SFT se mostrou eficaz
- especialmente em domínios estruturados como matemática e programação, onde é possível aplicar funções de recompensa verificáveis e obter grandes ganhos de desempenho
- A OpenAI liderou isso com o o1-preview e, depois disso, as empresas de IA passaram a focar menos em aumentar o tamanho dos modelos e mais em criar "modelos com melhor capacidade de raciocínio"
- Por que o novo paradigma favoreceu xAI e DeepSeek
- O pós-treinamento ainda está em estágio inicial, então é possível obter ganhos rápidos de desempenho com custo relativamente baixo
- Foi isso que permitiu à OpenAI evoluir do o1 para o o3 em apenas 3 meses
- É também a mesma razão pela qual a DeepSeek conseguiu alcançar o nível do R1 mesmo com menos GPUs e GPUs inferiores
- O Grok, por sua vez, alcançou o nível dos melhores modelos de IA em apenas 2 anos
- Mudança na dinâmica competitiva
- A OpenAI ainda mantém alguma vantagem, mas não num nível impossível de ser alcançado por quem chegou depois
- A OpenAI precisa equilibrar pesquisa de ponta e operação de produto por causa da carga de manter o ChatGPT, com 300M de usuários semanais
- Já xAI e DeepSeek podem focar com mais flexibilidade na inovação técnica
- O app da DeepSeek ficou popular e depois caiu novamente justamente porque faltavam recursos computacionais para sustentar inferência em larga escala
- Com a abertura desse novo paradigma, uma nova configuração competitiva está se formando
V. Como entender corretamente os resultados de xAI e DeepSeek
- A Bitter Lesson e a mudança de paradigma não diminuem essas conquistas
- A Bitter Lesson e a mudança no paradigma de escala facilitaram o sucesso de xAI e DeepSeek, mas no fim das contas eles conseguiram entregar
- Outras empresas com a mesma oportunidade (Mistral, Character, Inflection) fracassaram
- O Grok 3 é uma vitória da Bitter Lesson, e a DeepSeek é um caso excepcional que prova a regra, mas os dois significam mais do que isso
- Computação não é tudo
- Assim como a Bitter Lesson não nega o valor de algoritmos e otimização de infraestrutura, recursos humanos e estratégia empresarial também importam
- A xAI atualmente tem cerca de 1.000 funcionários, comparável à OpenAI (cerca de 2.000) e à Anthropic (cerca de 700)
- Além disso, graças à rede técnica e financeira de Elon Musk, a xAI consegue captar investimentos gigantescos com facilidade
- A DeepSeek também merece grande reconhecimento por ter inovado em um ambiente limitado
- o ecossistema de IA na China tinha relativamente menos ambição e experiência, além de pouco apoio governamental (embora isso possa mudar em breve)
- É preciso entender isso em contexto histórico
- OpenAI, Google DeepMind e Anthropic tiveram de desenvolver modelos na era do pré-treinamento
- naquela época, escalar IA era muito mais difícil, lento e caro do que agora
- não era nem certo que um produto como o ChatGPT daria certo, e a própria OpenAI hesitou em lançá-lo (foi publicado primeiro apenas como uma prévia de pesquisa)
- essas empresas foram pioneiras que lideraram a inovação em IA com forte convicção em meio à incerteza
- Já DeepSeek e xAI partiram sobre os ombros desses gigantes
- puderam evitar erros e tentativas já feitas na pesquisa anterior e avançar rapidamente com abordagens já validadas
- além disso, justamente quando o paradigma de IA mudou para o pós-treinamento, elas puderam gerar resultados rápidos com custo mais baixo
- tiveram muito menos necessidade de assumir o investimento inicial massivo e a incerteza enfrentados pelos primeiros pioneiros da IA
- Reconheça a vitória, mas lembre-se também do caminho
- Não é preciso diminuir os resultados de xAI e DeepSeek, mas também não devemos esquecer como o avanço da IA chegou até aqui
- Sem pioneiros iniciais como OpenAI, DeepMind e Anthropic, os resultados de hoje também não teriam sido possíveis
- Em outras palavras, é mais adequado ver o sucesso de xAI e DeepSeek não como "sorte", mas como "o resultado de ter feito o melhor possível no momento certo"
VI. O pós-treinamento é barato agora, mas logo ficará caro
- A principal lição mostrada pelo Grok 3 e pela xAI
- Hoje, o pós-treinamento é relativamente barato, mas em breve passará a exigir investimentos tão massivos quanto o pré-treinamento
- No momento em que as empresas descobrirem como escalar o pós-treinamento em grande escala, dinheiro e recursos computacionais serão indispensáveis para sobreviver à competição
- As empresas de IA já estão acumulando centenas de milhares de GPUs e construindo grandes clusters
- Ao contrário da ideia de que "GPU não importa", a corrida por GPUs deve se tornar um elemento central da competição em IA
- Por isso Dario Amodei (cofundador da OpenAI) e outros destacam a importância dos controles de exportação (export controls)
- O forte posicionamento da xAI
- Neste momento, a xAI está em posição mais favorável não só que a DeepSeek, mas também que OpenAI e Anthropic
- Motivo: possui um cluster com 100K GPUs H100 e deve expandi-lo em breve para 200K
- Isso oferece uma vantagem enorme na corrida pelo desenvolvimento da próxima geração de IA
- A Meta também segue a mesma estratégia e está treinando o Llama 4 em um cluster de 100K+ H100
- Limites e possibilidades da DeepSeek
- Só a excelente capacidade de engenharia da DeepSeek já não basta para competir no estágio em que entramos
- Por mais que otimize a pilha tecnológica, é impossível superar uma diferença de 150K GPUs
- Se fosse possível, a DeepSeek também teria escolhido escalar como a xAI, mas os controles de exportação dos EUA limitam seu crescimento
- Ainda assim, há a possibilidade de resolver esse problema por meio de cooperação com a Huawei
- Vantagens adicionais da xAI
- Nem mesmo OpenAI e Anthropic estão em posição tão estável quanto a xAI quando se trata de garantir clusters de GPU
- Graças ao apoio da Nvidia, a xAI está recebendo com prioridade o hardware de IA de próxima geração
- Com a rede de Elon Musk e a postura favorável da Nvidia, é muito provável que a xAI conquiste uma vantagem singular na futura competição em IA
VII. Daqui a um ano, quem estará na frente?
- A vantagem dos líderes atuais
- Apesar de tudo isso, OpenAI, Google DeepMind e Anthropic ainda mantêm uma pequena vantagem inicial
- OpenAI: deve lançar GPT-4.5/GPT-5 em breve e depois já trabalha também no modelo o4
- Anthropic: deve lançar o Claude 4
- Google DeepMind: trabalha para melhorar a versão "Thinking-model" do Gemini 2.0, ao mesmo tempo em que busca reduzir custos e ampliar a janela de contexto
- Um futuro incerto
- Em 2024, esperava-se que o Google liderasse a competição em IA, mas agora isso já não é algo de que se possa ter certeza
- A corrida da IA está mais acirrada do que nunca e não há vencedor claro na disputa por AGI
- O novo paradigma favorece quem chega depois e exige rápida capacidade de adaptação
- Não está claro se o Google tem essa agilidade
- Ou talvez o Google simplesmente não esteja conseguindo divulgar seus resultados de forma eficaz
- Conclusão: a escala vence no fim
- A conclusão deste texto não é prever quem vencerá a corrida da IA
- A principal lição é que a escala acaba superando a engenhosidade humana
- lamento trazer essa notícia, mas há coisas que estão além da nossa capacidade de controlar
- O sucesso do Grok 3 lembra mais uma vez que, no avanço da IA, "mais capacidade de computação" impulsiona mais do que "algoritmos mais inteligentes"
3 comentários
"OpenAI tem o ChatGPT com 300 milhões de usuários semanais"
Ao ver o original, está como 300M, então peço que corrijam para 300 milhões.
ortogonal, mas não ortonormal.
Opiniões no Hacker News
A criação de um modelo "co-state-of-the-art" não é uma vitória das leis de escalonamento
O Deepseek levou 17 meses para atingir resultados SOTA, e o modelo da xAI não supera o Deepseek R1 por uma margem significativa
Há ceticismo sobre um modelo sem raciocínio ter marcado 75% no GPQA Diamond
Tira conclusões estranhas a partir das mudanças recentes
Se o Grok tiver inteligência semelhante à de outros modelos líderes, surge a dúvida de quais empresas migrariam para o Grok
Quando colocar mais computação passa a custar bilhões, a "lição amarga" pode deixar de ser sobre hardware e passar a ser sobre dinheiro
A alegação do artigo sobre a "lição amarga" depende de uma falácia lógica
É interessante como a disputa por talentos vai evoluir
Mais uma postagem de blog de hype sobre IA