3 pontos por GN⁺ 2025-02-21 | 3 comentários | Compartilhar no WhatsApp

I. As leis de escala que dominam o avanço da IA

  • É bem possível que Elon Musk não tenha exagerado ao chamar o Grok 3 de "a IA mais inteligente da Terra"
  • Em comparação com o Grok 2, houve um salto enorme, e ele está no mesmo nível dos modelos de laboratórios maduros como OpenAI, Google DeepMind e Anthropic, ou até superior em algumas áreas
  • No LMSys Arena, ficou em 1º lugar em todas as categorias e também mostrou desempenho de alto nível (nível o3) em matemática, programação e problemas científicos
  • Em algumas tarefas específicas, fica abaixo dos melhores modelos, mas na maioria dos critérios está em nível co-state-of-the-art
  • O Grok 3 vai além de um simples sucesso da xAI e representa mais uma vitória da The Bitter Lesson, que enfatiza a importância da escala na pesquisa em IA
  • Ao contrário da visão crítica ou da cobertura da imprensa, as leis de escala (Scaling Laws) continuam válidas no avanço da IA, e sua importância está aumentando ainda mais

II. DeepSeek: a exceção que prova a regra

  • O contexto do sucesso da DeepSeek
    • A DeepSeek conseguiu competir com os principais nomes do setor mesmo com recursos computacionais relativamente menores (cerca de 50K GPUs Nvidia Hopper)
    • Enquanto laboratórios dos EUA usaram mais de 100K Nvidia H100, a DeepSeek obteve resultados ao otimizar toda a pilha tecnológica
    • Isso levou a comunidade a questionar a "Bitter Lesson" e o "paradigma de escala" em que acreditava
  • Conclusões erradas e o verdadeiro significado da Bitter Lesson
    • Algumas pessoas interpretaram o sucesso da DeepSeek como prova de que "GPU não importa, e otimização algorítmica importa mais"
    • Mas a Bitter Lesson não significa que "melhorias algorítmicas não são necessárias"; significa que, quando possível, usar mais recursos computacionais é a melhor opção
    • A DeepSeek teve de focar em otimização porque faltavam GPUs; se tivesse treinado com 100K GPUs, teria obtido resultados melhores
    • Ou seja, o que a DeepSeek provou foi a possibilidade de otimização, não que "escala é irrelevante"
  • A posição do CEO da DeepSeek
    • Até o CEO, Liang Wenfeng, afirmou que os controles de exportação dos EUA são o principal obstáculo para desenvolver modelos melhores
    • O fato de ele ter dito isso mesmo usando 50K GPUs Hopper significa exatamente o oposto da interpretação de que "GPU não importa"
    • O sucesso da DeepSeek pode ser visto como um caso que apoia a Bitter Lesson e o paradigma de escala, sendo apenas uma exceção extraordinária

III. A xAI prova que "escala > otimização"

  • Grok 3 e a abordagem da xAI
    • Fica a dúvida se os resultados da xAI conseguirão mudar a percepção dos céticos de que "escala importa mais que otimização"
    • Não está claro se houve mudanças de arquitetura no Grok 3 ou qual foi o nível de otimização de infraestrutura, mas é certo que ele foi treinado no supercomputador Colossus, em Memphis, com 100K GPUs H100
    • Isso é muito mais do que o número de GPUs que a DeepSeek possui
  • Uma estratégia diferente da DeepSeek
    • A DeepSeek precisou otimizar ao extremo recursos limitados de GPU, mas a xAI não teve essa necessidade e pôde trabalhar apenas com um nível de otimização padrão
    • O cerne da Bitter Lesson é: "se você tem recursos computacionais suficientes, não perca tempo com otimizações desnecessárias; simplesmente faça escala"
    • A xAI investiu ainda mais recursos computacionais do que a OpenAI para treinar o Grok 3 e, como resultado, produziu um modelo de ponta
  • A Bitter Lesson é uma verdade geral, não só da IA
    • "Se o recurso principal é abundante, não há por que perder tempo espremendo recursos auxiliares"
    • É como os Fremen do deserto reciclarem suor em vez de simplesmente viver num planeta onde chove: a segunda opção é mais eficiente
    • Melhorias algorítmicas e aumento de poder computacional são ambos importantes, mas, depois de certo ponto, colocar mais recursos é mais eficaz do que otimizar
    • Poder computacional pode ser resolvido com dinheiro; melhorias algorítmicas revolucionárias são imprevisíveis e não há garantia de que continuarão escalando no futuro
  • O importante é não parar de escalar
    • Ao bater num limite, em vez de otimizar, basta mudar o elemento que será escalado
    • Recursos limitados podem estimular inovação, mas, no fim, "mais recursos" vencem "melhor otimização"
    • A DeepSeek foi obrigada a focar em otimização, mas xAI e OpenAI não vão escolher trabalhar sob as mesmas restrições de inovação da DeepSeek
    • No fim, xAI e DeepSeek são casos representativos de "apostar recursos massivos" versus "extrair o máximo de recursos limitados"
    • As duas empresas fizeram o melhor possível em seus contextos, mas enquanto a DeepSeek continuar com escassez de computação, é provável que a xAI mantenha vantagem
    • Assim, apesar de muito discutida no meio acadêmico, a Bitter Lesson vem se provando válida no desenvolvimento real de IA há mais de uma década

IV. A mudança de paradigma que ajudou xAI e DeepSeek

  • A dificuldade de quem chega depois na corrida da IA
    • Começar tarde na corrida da IA parecia um handicap difícil de superar
    • No início, não havia certeza de que a xAI conseguiria alcançar OpenAI ou Anthropic
    • Mas, na evolução do Grok 2 (agosto de 2024) para o Grok 3 (fevereiro de 2025), houve além do cluster de GPUs Colossus outro fator que trabalhou a favor da xAI
    • Foi justamente a mudança no paradigma de escala da IA
  • A era do pré-treinamento (2019-2024)
    • No começo, avançar em IA significava treinar modelos maiores com datasets maiores e recursos computacionais mais poderosos
    • Exemplo: o GPT-2 (fevereiro de 2019) tinha 1,5 bilhão de parâmetros, enquanto o GPT-4 (março de 2023) tinha cerca de 1,76 trilhão, um aumento de mais de 1.000 vezes
    • Esse método favorecia pioneiros como a OpenAI
      • porque eles tiveram mais tempo para coletar dados, ampliar modelos e garantir GPUs
    • Além disso, muitas vezes cada modelo levava mais de meio ano para ser treinado, o que tornava lenta a iteração entre gerações e dificultava a recuperação dos concorrentes tardios
  • A era do pós-treinamento (2024-???)
    • A partir de 2024, o setor de IA percebeu que apenas aumentar os modelos já não trazia melhorias graduais de desempenho no mesmo ritmo
    • A imprensa entendeu isso errado como "o fim da era da escala", mas na prática houve apenas uma mudança de paradigma (veja a palestra de Ilya Sutskever na NeurIPS 2024)
    • O foco mudou para:
      • "expandir a computação no momento do teste (test-time compute)" → permitir que o modelo pense mais profundamente antes de responder
      • a combinação de RLHF com SFT se mostrou eficaz
      • especialmente em domínios estruturados como matemática e programação, onde é possível aplicar funções de recompensa verificáveis e obter grandes ganhos de desempenho
    • A OpenAI liderou isso com o o1-preview e, depois disso, as empresas de IA passaram a focar menos em aumentar o tamanho dos modelos e mais em criar "modelos com melhor capacidade de raciocínio"
  • Por que o novo paradigma favoreceu xAI e DeepSeek
    • O pós-treinamento ainda está em estágio inicial, então é possível obter ganhos rápidos de desempenho com custo relativamente baixo
    • Foi isso que permitiu à OpenAI evoluir do o1 para o o3 em apenas 3 meses
    • É também a mesma razão pela qual a DeepSeek conseguiu alcançar o nível do R1 mesmo com menos GPUs e GPUs inferiores
    • O Grok, por sua vez, alcançou o nível dos melhores modelos de IA em apenas 2 anos
  • Mudança na dinâmica competitiva
    • A OpenAI ainda mantém alguma vantagem, mas não num nível impossível de ser alcançado por quem chegou depois
    • A OpenAI precisa equilibrar pesquisa de ponta e operação de produto por causa da carga de manter o ChatGPT, com 300M de usuários semanais
    • Já xAI e DeepSeek podem focar com mais flexibilidade na inovação técnica
    • O app da DeepSeek ficou popular e depois caiu novamente justamente porque faltavam recursos computacionais para sustentar inferência em larga escala
    • Com a abertura desse novo paradigma, uma nova configuração competitiva está se formando

V. Como entender corretamente os resultados de xAI e DeepSeek

  • A Bitter Lesson e a mudança de paradigma não diminuem essas conquistas
    • A Bitter Lesson e a mudança no paradigma de escala facilitaram o sucesso de xAI e DeepSeek, mas no fim das contas eles conseguiram entregar
    • Outras empresas com a mesma oportunidade (Mistral, Character, Inflection) fracassaram
    • O Grok 3 é uma vitória da Bitter Lesson, e a DeepSeek é um caso excepcional que prova a regra, mas os dois significam mais do que isso
  • Computação não é tudo
    • Assim como a Bitter Lesson não nega o valor de algoritmos e otimização de infraestrutura, recursos humanos e estratégia empresarial também importam
    • A xAI atualmente tem cerca de 1.000 funcionários, comparável à OpenAI (cerca de 2.000) e à Anthropic (cerca de 700)
    • Além disso, graças à rede técnica e financeira de Elon Musk, a xAI consegue captar investimentos gigantescos com facilidade
    • A DeepSeek também merece grande reconhecimento por ter inovado em um ambiente limitado
      • o ecossistema de IA na China tinha relativamente menos ambição e experiência, além de pouco apoio governamental (embora isso possa mudar em breve)
  • É preciso entender isso em contexto histórico
    • OpenAI, Google DeepMind e Anthropic tiveram de desenvolver modelos na era do pré-treinamento
      • naquela época, escalar IA era muito mais difícil, lento e caro do que agora
      • não era nem certo que um produto como o ChatGPT daria certo, e a própria OpenAI hesitou em lançá-lo (foi publicado primeiro apenas como uma prévia de pesquisa)
      • essas empresas foram pioneiras que lideraram a inovação em IA com forte convicção em meio à incerteza
    • DeepSeek e xAI partiram sobre os ombros desses gigantes
      • puderam evitar erros e tentativas já feitas na pesquisa anterior e avançar rapidamente com abordagens já validadas
      • além disso, justamente quando o paradigma de IA mudou para o pós-treinamento, elas puderam gerar resultados rápidos com custo mais baixo
      • tiveram muito menos necessidade de assumir o investimento inicial massivo e a incerteza enfrentados pelos primeiros pioneiros da IA
  • Reconheça a vitória, mas lembre-se também do caminho
    • Não é preciso diminuir os resultados de xAI e DeepSeek, mas também não devemos esquecer como o avanço da IA chegou até aqui
    • Sem pioneiros iniciais como OpenAI, DeepMind e Anthropic, os resultados de hoje também não teriam sido possíveis
    • Em outras palavras, é mais adequado ver o sucesso de xAI e DeepSeek não como "sorte", mas como "o resultado de ter feito o melhor possível no momento certo"

VI. O pós-treinamento é barato agora, mas logo ficará caro

  • A principal lição mostrada pelo Grok 3 e pela xAI
    • Hoje, o pós-treinamento é relativamente barato, mas em breve passará a exigir investimentos tão massivos quanto o pré-treinamento
    • No momento em que as empresas descobrirem como escalar o pós-treinamento em grande escala, dinheiro e recursos computacionais serão indispensáveis para sobreviver à competição
    • As empresas de IA já estão acumulando centenas de milhares de GPUs e construindo grandes clusters
    • Ao contrário da ideia de que "GPU não importa", a corrida por GPUs deve se tornar um elemento central da competição em IA
    • Por isso Dario Amodei (cofundador da OpenAI) e outros destacam a importância dos controles de exportação (export controls)
  • O forte posicionamento da xAI
    • Neste momento, a xAI está em posição mais favorável não só que a DeepSeek, mas também que OpenAI e Anthropic
    • Motivo: possui um cluster com 100K GPUs H100 e deve expandi-lo em breve para 200K
    • Isso oferece uma vantagem enorme na corrida pelo desenvolvimento da próxima geração de IA
    • A Meta também segue a mesma estratégia e está treinando o Llama 4 em um cluster de 100K+ H100
  • Limites e possibilidades da DeepSeek
    • Só a excelente capacidade de engenharia da DeepSeek já não basta para competir no estágio em que entramos
    • Por mais que otimize a pilha tecnológica, é impossível superar uma diferença de 150K GPUs
    • Se fosse possível, a DeepSeek também teria escolhido escalar como a xAI, mas os controles de exportação dos EUA limitam seu crescimento
    • Ainda assim, há a possibilidade de resolver esse problema por meio de cooperação com a Huawei
  • Vantagens adicionais da xAI
    • Nem mesmo OpenAI e Anthropic estão em posição tão estável quanto a xAI quando se trata de garantir clusters de GPU
    • Graças ao apoio da Nvidia, a xAI está recebendo com prioridade o hardware de IA de próxima geração
    • Com a rede de Elon Musk e a postura favorável da Nvidia, é muito provável que a xAI conquiste uma vantagem singular na futura competição em IA

VII. Daqui a um ano, quem estará na frente?

  • A vantagem dos líderes atuais
    • Apesar de tudo isso, OpenAI, Google DeepMind e Anthropic ainda mantêm uma pequena vantagem inicial
    • OpenAI: deve lançar GPT-4.5/GPT-5 em breve e depois já trabalha também no modelo o4
    • Anthropic: deve lançar o Claude 4
    • Google DeepMind: trabalha para melhorar a versão "Thinking-model" do Gemini 2.0, ao mesmo tempo em que busca reduzir custos e ampliar a janela de contexto
  • Um futuro incerto
    • Em 2024, esperava-se que o Google liderasse a competição em IA, mas agora isso já não é algo de que se possa ter certeza
    • A corrida da IA está mais acirrada do que nunca e não há vencedor claro na disputa por AGI
    • O novo paradigma favorece quem chega depois e exige rápida capacidade de adaptação
    • Não está claro se o Google tem essa agilidade
    • Ou talvez o Google simplesmente não esteja conseguindo divulgar seus resultados de forma eficaz
  • Conclusão: a escala vence no fim
    • A conclusão deste texto não é prever quem vencerá a corrida da IA
    • A principal lição é que a escala acaba superando a engenhosidade humana
      • lamento trazer essa notícia, mas há coisas que estão além da nossa capacidade de controlar
    • O sucesso do Grok 3 lembra mais uma vez que, no avanço da IA, "mais capacidade de computação" impulsiona mais do que "algoritmos mais inteligentes"

3 comentários

 
kobings 2025-02-23

"OpenAI tem o ChatGPT com 300 milhões de usuários semanais"
Ao ver o original, está como 300M, então peço que corrijam para 300 milhões.

 
doolayer 2025-02-22

ortogonal, mas não ortonormal.

 
GN⁺ 2025-02-21
Opiniões no Hacker News
  • A criação de um modelo "co-state-of-the-art" não é uma vitória das leis de escalonamento

    • O fato de a xAI não ter superado amplamente os modelos existentes mesmo colocando mais computação no Grok 3 pode ser evidência de que o hiperescalaonamento traz apenas melhorias graduais
    • É uma observação óbvia que mais poder computacional torna os computadores melhores
    • Este artigo tenta aplicar à diferença entre GPT-4 e Grok 3 a diferença entre a IA simbólica dos anos 70 e as redes neurais dos anos 2010
    • Muitas pessoas duvidam do desempenho real do Grok 3 e suspeitam que ele foi treinado para benchmarks específicos
    • Sabine Hossenfelder mencionou que o Grok 3 falhou em explicar o teorema de Bell
    • Isso mostra que o escalonamento em larga escala não melhora a inteligência
  • O Deepseek levou 17 meses para atingir resultados SOTA, e o modelo da xAI não supera o Deepseek R1 por uma margem significativa

    • A xAI investirá $2.5 billion dos $3 billion em GPUs e $0.5 billion em talentos
    • O Deepseek investirá $1 billion em GPUs e $2 billion em talentos
    • Afirma-se que a abordagem do Deepseek é mais escalável
  • Há ceticismo sobre um modelo sem raciocínio ter marcado 75% no GPQA Diamond

    • A xAI vai disponibilizar a API do Grok 3 na próxima semana, e há interesse em verificar o desempenho real por meio de avaliação própria
    • O número de 50k GPUs Hopper do DeepSeek pode ser exagerado
    • O anúncio de recrutamento de estagiários da DeepSeek menciona apenas "acesso ilimitado a 10k A100s"
  • Tira conclusões estranhas a partir das mudanças recentes

    • Muito dinheiro está entrando na onda da IA, mas isso logo vai acabar
    • Pessoas com muita experiência em melhoria de tecnologia estarão na posição mais vantajosa no longo prazo
  • Se o Grok tiver inteligência semelhante à de outros modelos líderes, surge a dúvida de quais empresas migrariam para o Grok

  • Quando colocar mais computação passa a custar bilhões, a "lição amarga" pode deixar de ser sobre hardware e passar a ser sobre dinheiro

    • Há um caminho em que modelos com menor consumo de energia podem ser viáveis mesmo sem capital de VC
  • A alegação do artigo sobre a "lição amarga" depende de uma falácia lógica

    • Ela enquadra escalonamento e otimização como estratégias mutuamente excludentes
    • As inovações algorítmicas da DeepSeek complementam os esforços de escalonamento
    • A afirmação de que a computação dominará a "era pós-treinamento" ignora possíveis fatores de disrupção
  • É interessante como a disputa por talentos vai evoluir

    • Muitos engenheiros estão decepcionados por causa de um PR fortemente centrado em DEI
    • Fica a dúvida se pessoas que evitavam relações próximas com a China por razões éticas aplicarão o mesmo critério aos EUA
  • Mais uma postagem de blog de hype sobre IA

    • Não há sequer menção às barras com cores diferentes nos resultados de benchmark
    • O Grok-3 não prova nem refuta de forma significativa as leis de escalonamento