7 pontos por GN⁺ 2025-07-11 | 6 comentários | Compartilhar no WhatsApp
  • Grok 4 é o mais novo modelo de IA lançado pela xAI após cerca de 2 anos, entregando inteligência e capacidade de raciocínio que superam alunos de pós-graduação em todas as áreas
  • A escala de treinamento e os recursos computacionais aumentaram mais de 100 vezes, evoluindo com foco em aprendizado por reforço (RL) e comprovando capacidade de resolução de problemas acima do nível humano
  • Alcançou 15,9% no ARC-AGI, registrando excelente desempenho em uma das mais avançadas avaliações atuais de raciocínio abstrato e inteligência geral
  • Em diversos benchmarks, como o Humanity’s Last Exam (HLE), apresentou resultados inovadores de 26,9% sem ferramentas externas e 41~50,7% com uso de ferramentas
  • Com a introdução do modo de voz nativo, implementa interações mais próximas das humanas, com conversa em tempo real, expressão emocional e respostas de baixa latência

Grok 4

  • A xAI, fundada por Elon Musk, apresentou o Grok 4 após cerca de 2 anos, destacando-o como “o melhor modelo de IA do mundo”
  • Obteve pontuação máxima em testes padronizados como SAT e GRE, e mostrou desempenho sem precedentes em questões de nível de mestrado e doutorado em todas as áreas acadêmicas
    > "Quando se trata de perguntas acadêmicas, o Grok 4 é mais inteligente do que alunos de pós-graduação em todas as disciplinas"
  • O Grok 2 foi um modelo conceitual, o Grok 3 focou em pré-treinamento com várias fontes de dados, e o Grok 4 foi treinado com 100 vezes mais recursos computacionais e dados que o 2, e 10 vezes mais que o 3
  • Foi treinado no supercomputador Colossus (200 mil GPUs), com foco em pré-treinamento e RL
    • Houve forte foco em aprendizado por reforço (RL), adotando uma estrutura de autocorreção de erros na qual o modelo recebe feedback durante a resolução de problemas e melhora gradualmente seu desempenho
    • Foi enfatizado que ele alcançou o maior avanço em pouco tempo com base em capacidade de resolução lógica de problemas e pensamento de “first principles”

2 versões do modelo

  • O modelo base, Grok 4, e a versão de desempenho ampliado, Grok 4 Heavy
  • O Grok 4 Heavy implementa inteligência coletiva com uma abordagem multiagente, em que vários agentes resolvem o problema ao mesmo tempo e encontram a melhor resposta comparando os resultados entre si
    • Disponível no serviço de assinatura SuperGrok Heavy (US$ 300 por mês)

Avanço na pontuação de AGI

  • O Grok 4 registrou 15,9% no teste ARC-AGI, uma pontuação no mais alto nível do setor
  • O ARC-AGI avalia a inteligência geral e a capacidade de resolver problemas abstratos do modelo, com foco em reconhecimento de padrões visuais e aplicação em novos cenários

Desempenho no Humanity's Last Exam (HLE)

  • O Humanity’s Last Exam (HLE), introduzido em janeiro de 2025, é um benchmark de altíssima dificuldade composto por mais de 100 áreas e 2.500 questões, incluindo matemática, biologia, ciências sociais, física, IA, engenharia e química

  • Resultado do Grok 4: “um nível inacessível para humanos reais ou IAs anteriores”

    • Sem uso de ferramentas: 26,9%
    • Com uso de ferramentas (Grok 4 Heavy): 41%
    • Com computação adicional no teste (32x): até 50,7%
  • Sem uso de ferramentas significa resolver os problemas apenas com as capacidades internas de linguagem e raciocínio; com uso de ferramentas significa uma abordagem combinada com sistema multiagente, incluindo execução de código, busca na web e uso de dados externos

  • O training compute foi feito no supercomputador Colossus com base em 200 mil GPUs para treinar o conhecimento do modelo e sua capacidade de usar ferramentas, enquanto o test-time compute inclui executar vários modelos em paralelo durante a resolução e validar os resultados

    > “O Grok 4 está em nível de PhD ou acima em todas as áreas”
    > "Em breve, esperamos até mesmo a descoberta de novas tecnologias/nova física"

Principais resultados em benchmarks de IA

  • AIME: capacidade de resolver problemas complexos de matemática de nível ensino médio
  • GPQA: avaliação de raciocínio científico em nível de pós-graduação, como física
  • LiveCodeBench: medição de habilidade de programação com base em desafios em Python
  • MMLU-Pro: capacidade de resolver questões objetivas difíceis em várias áreas especializadas
  • LOFT: avaliação da capacidade de extrair informações necessárias para consultas complexas em textos longos

Casos práticos e aplicação no mundo real

  • Em simulação de negócios (VendingBench), o Grok 4 mostrou mais do que o dobro do desempenho em relação ao modelo anterior e consistência, comprovando capacidade de executar estratégias por longos períodos
  • Em laboratórios de ciências da vida e outros ambientes, foi aplicado à análise de grandes logs experimentais, geração de hipóteses e leitura de imagens médicas, comprovando eficiência em trabalho real
  • No desenvolvimento de jogos, ajuda desde a coleta automática de assets de jogo até a geração de código, permitindo que um único desenvolvedor conclua rapidamente um jogo 3D

Inovação no modo de voz nativo

  • O Grok 4 oferece suporte a conversa por voz em tempo real, com interrupções naturais no meio do diálogo, compreensão/reprodução de entonação emocional e respostas de ultrabaixa latência, entregando uma interação humanizada que supera sistemas TTS anteriores
  • Foram adicionados vários tipos de voz (britânica, estilo trailer etc.) e, em uma demo ao vivo, foram mostradas a fluidez, a rapidez e a versatilidade do uso em conversas em tempo real

API e expansão do ecossistema

  • O Grok 4 também foi lançado via API, permitindo que qualquer pessoa faça testes de benchmark e aplicações de negócios
  • Parceiros de diversas áreas, como finanças, ciência e entretenimento, já estão adotando a tecnologia, ampliando o impacto no mundo real
  • Oferece 256k context length, reforçando a capacidade de lidar com tarefas longas e complexas

Limitações e próximos avanços

  • No momento, a maior fraqueza do Grok 4 é a limitação em entendimento/geração multimodal, como imagem e vídeo
  • Com o modelo foundation v7, cujo treinamento será concluído em breve, e RL adicionalmente reforçado, estão previstas melhorias amplas em visão, vídeo e áudio
  • Também foi anunciado o desenvolvimento e lançamento de um modelo de geração de vídeo (com uso de mais de 100.000 GPUs GB200)

Próximo roadmap da xAI

  • Agosto de 2025: lançamento previsto de um modelo de código
  • Setembro de 2025: apresentação de um agente multimodal
  • Outubro de 2025: anúncio planejado de um modelo de geração de vídeo
  • A empresa pretende continuar fortalecendo continuamente as ferramentas e o desempenho dos modelos

Conclusão e implicações

  • O Grok 4 demonstra um nível que compete de forma concreta ou supera as melhores IAs atuais em raciocínio e resolução de problemas acadêmicos
  • Com inteligência e raciocínio sem precedentes, interação por voz em tempo real, uso de ferramentas e estrutura multiagente, apresenta um ponto de virada concreto rumo à próxima geração de AGI
  • Junto com sua expansibilidade em trabalho real, negócios, jogos, pesquisa e entretenimento, a xAI tende a se consolidar como a empresa de AGI mais rápida
  • O rápido ciclo de desenvolvimento e a postura agressiva da xAI mostram que a competição na indústria de IA continua acelerando

6 comentários

 
xguru 2025-07-11

Bom, só dá para saber mesmo usando na prática, mas com 200 mil GPUs e esse nível de reserva de talentos, dá para crescer de forma bem agressiva assim.
Quando o Colossus chegar a 1 milhão de GPUs, até onde será que vai melhorar?

Considerando o H100 a 50 milhões de won, só o preço das GPUs dá 50 trilhões de won. Somando a construção do data center e a necessidade de energia ao redor, dizem que isso adiciona mais uns 20 trilhões de won, então dá 70 trilhões de won. A IA parece estar virando cada vez mais uma disputa de dinheiro.

 
jujumilk3 2025-07-11

Por que, do nada, foram pegar no pé de um pós-graduando? kkk

 
sknah 2025-07-11

kkkkkkk o pós-graduando que levou um golpe do nada ficou sem reação ..

 
lcanon 2025-07-11

Entendo que o Grok 4 é impressionante, mas essas frases típicas do mundo anglófono como "em breve esperamos até mesmo a descoberta de novas tecnologias/novas leis da física" são engraçadas. Se em breve ele provar ou refutar a hipótese de Riemann, aí realmente não vai mais precisar de benchmark nenhum, né?

 
GN⁺ 2025-07-11
Opiniões do Hacker News
  • O modelo "Heavy" custa 300 dólares por mês; dá a sensação de que os preços só sobem, quando antes parecia que tinham prometido que continuariam caindo. Isso provavelmente acontece porque muitas empresas estão com falta de GPU; empresas como a Google parecem não ter esse problema. O Gemini 2.5 Pro já pode ser usado de graça no AI Studio e, mesmo configurando até 32k, não há cobrança nenhuma. Talvez até exista a chance de o Gemini 3.0 também ser liberado gratuitamente
    • Acho que ninguém nunca prometeu que modelos de altíssimo desempenho seriam sempre baratos. O preço está caindo quando se compara desempenho no mesmo nível e mesma quantidade de tokens. É como a lei de Moore: os chips ficam cada vez mais complexos, mas o desempenho por unidade fica mais barato
    • É o mesmo princípio de uma Ferrari ser mais cara que um Model T, ou de os computadores mais caros de hoje serem muito mais caros que os primeiros PCs. O que realmente cai de preço é a faixa de entrada ou a linha que mantém o mesmo nível de desempenho. É natural que a faixa total de preços fique mais ampla. Vejo isso como um sinal de que o setor está amadurecendo. A diferença agora é que o nível de entrada estava artificialmente em 0 ou muito baixo por causa do financiamento de VC
    • Também é importante notar que o Gemini igualmente está ficando mais caro, link relacionado
    • Isso é um efeito de escalonamento de custos causado pelo tempo de raciocínio (inference time). No fim, a diferença entre quem pode e quem não pode pagar por acesso à IA vai aumentar muito. A maior parte do mundo não consegue arcar com assinaturas de centenas de dólares
    • O O3 teve recentemente uma redução de preço de 80%. O Grok 4 acabou de ser lançado, tem bom desempenho e um preço bem razoável. Tirando a versão Heavy, o custo por token é igual ao do Grok 3. A Google parece estar absorvendo custos para ganhar presença, então não entendo muito bem a reclamação original
  • Parece mesmo que o que saiu agora é um novo SOTA (State of the Art, modelo de ponta mais atual). As pontuações ficaram visivelmente mais altas que o o3, Gemini e Claude em Human’s Last Exam, GPQA, AIME25, HMMT25, USAMO 2025, LiveCodeBench, ARC-AGI 1 e 2 etc. Também está previsto para as próximas semanas o lançamento de um modelo especializado em código. Vale notar que hoje não falaram muito sobre desempenho em programação
    • Concordo. Hoje, na simulação da World Series, tive a sensação de um raciocínio instável. Ele pegou números do Polymarket e respondeu como se fossem dados próprios. Claro, posso ter entendido errado por não olhar com mais cuidado, mas casos assim reforçam para mim a necessidade de haver alguém com visão crítica sobre a equipe de segurança de um modelo pioneiro. Ainda assim, é um avanço enorme. Se os benchmarks não estiverem contaminados, acho que vai explodir como modelo de uso diário. Em código, minha única frustração é o contexto de apenas 256k, mas espero melhorias no v7 com contexto maior — especialmente para vídeo. De qualquer forma, quero testar logo
    • Eu queria que o modelo de código estivesse disponível para agentes de programação; não consigo encontrá-lo em lugar nenhum
    • Já foi demonstrado há bastante tempo que, quando se censura um modelo, a pontuação cai drasticamente. Por exemplo, claro que é preciso bloquear instruções para fabricar bombas, mas o Grok 3 continuou adotando posições progressistas mesmo tendo acesso ao pior tipo de dado possível (considerando o histórico do patrocinador)
    • Mesmo sem simpatizar com Elon Musk, é realmente impressionante que o Grok tenha alcançado o mesmo patamar da tríade Google, OpenAI e Anthropic. Agora está praticamente no mesmo nível
  • Acabei de usar o Grok 4 e ele é muito bom. Gerou de uma vez só 1000 linhas de código em Java CDK para provisionar uma instância EC2, incluindo VPC e Security Groups, sem um único erro de sintaxe. O que mais me impressionou foi que, ao gerar o userData (comandos #!/bin/bash), ele usou wget com o endereço exato do artefato de software mais recente no GitHub. Realmente impressionante
    • Se puder compartilhar o resultado, queria muito ver. Se uma quantidade tão grande de código saiu sem erro de uma vez só, isso realmente é impressionante. Fico curioso se o Grok também executa ferramentas nessas consultas, como linter, execução em sandbox, busca na web etc.
    • Como código descartável, é excelente, mas ainda está longe de gerar código realmente manutenível, com controle de versão, colaboração, conformidade com SDLC padrão, imutabilidade e histórico de mudanças de estado. Se um estagiário escrevesse assim um código de deploy em EC2, eu provavelmente teria uma longa conversa sobre cada decisão tomada
    • Fiquei curioso por que você escolheu Java em vez de TypeScript para CDK. A ideia era padronizar todos os ambientes em uma única linguagem?
  • O truque central do Grok Heavy é executar vários agentes em paralelo e comparar os resultados. No geral, os benchmarks são muito impressionantes. É inevitável que seja caro e lento, mas parece o caminho lógico do design da próxima geração de agentes. Quero muito testar. E, por sinal, a API também foi aberta. Parece que a xAI realmente conseguiu algo importante
    • Entendo como funciona, mas ainda assim isso me parece um pouco um “hack”. Dá a sensação de que o próprio LLM já não evolui de forma claramente perceptível, e só expande a superfície em profundidade, comprimento, largura etc. No fim, o crescimento parece vir de adicionar ferramentas ou lógica “não IA” ao redor. Acho que essa direção pode de fato ser a solução, assim como a abordagem das redes neurais brutas acabou basicamente esperando um crescimento exponencial do hardware
    • É caro e lento, mas para treinar de fato o próximo modelo SOTA de qualquer jeito será necessário algo assim, usando boa amostragem sintética com rejection sampling e afins. Cobrar 300 dólares do usuário para oferecer essa experiência me parece um acordo bem razoável
    • É parecido com o llm-consortium, mas com menos diversidade de modelos. Dá para consultar o tuíte do Karpathy e o open source do llm-consortium
    • Pessoalmente, eu preferiria ver esse tipo de técnica sendo implementada por outro lugar, e não por uma “empresa problemática”. Quero continuar mantendo meus próprios princípios
    • Acho que o o3 pro provavelmente também funciona dessa forma
  • Se você não tem tempo para assistir ao vídeo de lançamento, alguém preparou uma versão em clipes. A conclusão é que é realmente impressionante e a disputa em IA está ficando cada vez mais intensa, ver clipes curtos
  • Resolvi com o Grok 4 um problema de comportamento inconsistente ao rodar o lldb em Python. Havia diferença entre Docker e meu ambiente Linux local, e a causa era o address sanitizer, que se comportava de forma diferente conforme o ambiente. O O3 não tinha conseguido identificar isso, mas o Grok 4 apontou corretamente, o que me impressionou
  • "Grok 4 (Thinking)" alcançou 15,9% no ARC-AGI-2, quase dobrando o SOTA comercial anterior e ainda batendo o atual melhor resultado da competição no Kaggle, mais detalhes
  • É muito impressionante, mas fico com a grande dúvida de se empresas conseguiriam escolher facilmente como provedor de API um modelo pós-treinado para se alinhar às inclinações pessoais do Elon. Tecnicamente é excelente, mas vejo limitações no lado comercial
  • Eu não uso a API do Grok, mas para deep research ele sempre foi de altíssimo nível. O Grok 4 parece ampliar ainda mais esse potencial
    • A integração do Grok com o Twitter é, de longe, o melhor caso de uso prático. Poder perguntar em tempo real sobre contexto ou significado de termos dentro dos tuítes é muito útil
    • Para mim, a OpenAI continua claramente melhor do que todas as concorrentes (embora eu não diria que seja boa), mas reconheço que o Grok é excelente para atualizações em tempo real e perguntas de suporte de TI
    • Você poderia explicar de forma um pouco mais concreta o que quer dizer com <deep research>?
  • Fico curioso se alguém já integrou o Grok de verdade. Já fiz muita integração com LLMs, mas nunca vi um caso real de uso do Grok. Se isso não for superado, ninguém vai confiar nesse modelo. Até demonstrar competência de verdade, empresa nenhuma vai usar. Também não passa uma imagem empresarial
    • O Grok 3 está disponível no Azure AI Foundry, e também anunciaram integração com o Telegram, embora na prática tenha sido o Grok pagando 300 milhões de dólares ao Telegram. Links: Grok 3 e mini no Azure Foundry, artigo da BBC. De todo modo, eu consideraria escolher o Grok um sério risco reputacional
    • Tenho ainda mais curiosidade sobre de onde e como o Grok recruta talentos. Hoje há muito dinheiro circulando e muitos bons laboratórios de pesquisa, então parece difícil decidir mudar de emprego sem uma ideologia ou crença muito forte. Fico em dúvida se realmente existem tantos pesquisadores de IA querendo tratar o Elon como imperador
    • Eu uso o Grok para análise visual de imagens de comida, e funciona bem. Reconhece marcas e também entende fotos tiradas de forma estranha pelos usuários. A API também é realmente fácil de usar
    • Acho insano integrar em um serviço real um modelo que, na semana passada, chamou a si mesmo de “Mecha Hitler”. Sou fã do Musk, mas quero apontar que, enquanto critica o Sama, ele próprio está lançando uma IA igualmente poderosa e com pouco controle