Lançamento do Grok 4
(twitter.com/xai)- Grok 4 é o mais novo modelo de IA lançado pela xAI após cerca de 2 anos, entregando inteligência e capacidade de raciocínio que superam alunos de pós-graduação em todas as áreas
- A escala de treinamento e os recursos computacionais aumentaram mais de 100 vezes, evoluindo com foco em aprendizado por reforço (RL) e comprovando capacidade de resolução de problemas acima do nível humano
- Alcançou 15,9% no ARC-AGI, registrando excelente desempenho em uma das mais avançadas avaliações atuais de raciocínio abstrato e inteligência geral
- Em diversos benchmarks, como o Humanity’s Last Exam (HLE), apresentou resultados inovadores de 26,9% sem ferramentas externas e 41~50,7% com uso de ferramentas
- Com a introdução do modo de voz nativo, implementa interações mais próximas das humanas, com conversa em tempo real, expressão emocional e respostas de baixa latência
Grok 4
- A xAI, fundada por Elon Musk, apresentou o Grok 4 após cerca de 2 anos, destacando-o como “o melhor modelo de IA do mundo”
- Obteve pontuação máxima em testes padronizados como SAT e GRE, e mostrou desempenho sem precedentes em questões de nível de mestrado e doutorado em todas as áreas acadêmicas
> "Quando se trata de perguntas acadêmicas, o Grok 4 é mais inteligente do que alunos de pós-graduação em todas as disciplinas" - O Grok 2 foi um modelo conceitual, o Grok 3 focou em pré-treinamento com várias fontes de dados, e o Grok 4 foi treinado com 100 vezes mais recursos computacionais e dados que o 2, e 10 vezes mais que o 3
- Foi treinado no supercomputador Colossus (200 mil GPUs), com foco em pré-treinamento e RL
- Houve forte foco em aprendizado por reforço (RL), adotando uma estrutura de autocorreção de erros na qual o modelo recebe feedback durante a resolução de problemas e melhora gradualmente seu desempenho
- Foi enfatizado que ele alcançou o maior avanço em pouco tempo com base em capacidade de resolução lógica de problemas e pensamento de “first principles”
2 versões do modelo
- O modelo base, Grok 4, e a versão de desempenho ampliado, Grok 4 Heavy
- O Grok 4 Heavy implementa inteligência coletiva com uma abordagem multiagente, em que vários agentes resolvem o problema ao mesmo tempo e encontram a melhor resposta comparando os resultados entre si
- Disponível no serviço de assinatura SuperGrok Heavy (US$ 300 por mês)
Avanço na pontuação de AGI
- O Grok 4 registrou 15,9% no teste ARC-AGI, uma pontuação no mais alto nível do setor
- O ARC-AGI avalia a inteligência geral e a capacidade de resolver problemas abstratos do modelo, com foco em reconhecimento de padrões visuais e aplicação em novos cenários
Desempenho no Humanity's Last Exam (HLE)
-
O Humanity’s Last Exam (HLE), introduzido em janeiro de 2025, é um benchmark de altíssima dificuldade composto por mais de 100 áreas e 2.500 questões, incluindo matemática, biologia, ciências sociais, física, IA, engenharia e química
-
Resultado do Grok 4: “um nível inacessível para humanos reais ou IAs anteriores”
- Sem uso de ferramentas: 26,9%
- Com uso de ferramentas (Grok 4 Heavy): 41%
- Com computação adicional no teste (32x): até 50,7%
-
Sem uso de ferramentas significa resolver os problemas apenas com as capacidades internas de linguagem e raciocínio; com uso de ferramentas significa uma abordagem combinada com sistema multiagente, incluindo execução de código, busca na web e uso de dados externos
-
O training compute foi feito no supercomputador Colossus com base em 200 mil GPUs para treinar o conhecimento do modelo e sua capacidade de usar ferramentas, enquanto o test-time compute inclui executar vários modelos em paralelo durante a resolução e validar os resultados
> “O Grok 4 está em nível de PhD ou acima em todas as áreas”
> "Em breve, esperamos até mesmo a descoberta de novas tecnologias/nova física"
Principais resultados em benchmarks de IA
- AIME: capacidade de resolver problemas complexos de matemática de nível ensino médio
- GPQA: avaliação de raciocínio científico em nível de pós-graduação, como física
- LiveCodeBench: medição de habilidade de programação com base em desafios em Python
- MMLU-Pro: capacidade de resolver questões objetivas difíceis em várias áreas especializadas
- LOFT: avaliação da capacidade de extrair informações necessárias para consultas complexas em textos longos
Casos práticos e aplicação no mundo real
- Em simulação de negócios (VendingBench), o Grok 4 mostrou mais do que o dobro do desempenho em relação ao modelo anterior e consistência, comprovando capacidade de executar estratégias por longos períodos
- Em laboratórios de ciências da vida e outros ambientes, foi aplicado à análise de grandes logs experimentais, geração de hipóteses e leitura de imagens médicas, comprovando eficiência em trabalho real
- No desenvolvimento de jogos, ajuda desde a coleta automática de assets de jogo até a geração de código, permitindo que um único desenvolvedor conclua rapidamente um jogo 3D
Inovação no modo de voz nativo
- O Grok 4 oferece suporte a conversa por voz em tempo real, com interrupções naturais no meio do diálogo, compreensão/reprodução de entonação emocional e respostas de ultrabaixa latência, entregando uma interação humanizada que supera sistemas TTS anteriores
- Foram adicionados vários tipos de voz (britânica, estilo trailer etc.) e, em uma demo ao vivo, foram mostradas a fluidez, a rapidez e a versatilidade do uso em conversas em tempo real
API e expansão do ecossistema
- O Grok 4 também foi lançado via API, permitindo que qualquer pessoa faça testes de benchmark e aplicações de negócios
- Parceiros de diversas áreas, como finanças, ciência e entretenimento, já estão adotando a tecnologia, ampliando o impacto no mundo real
- Oferece 256k context length, reforçando a capacidade de lidar com tarefas longas e complexas
Limitações e próximos avanços
- No momento, a maior fraqueza do Grok 4 é a limitação em entendimento/geração multimodal, como imagem e vídeo
- Com o modelo foundation v7, cujo treinamento será concluído em breve, e RL adicionalmente reforçado, estão previstas melhorias amplas em visão, vídeo e áudio
- Também foi anunciado o desenvolvimento e lançamento de um modelo de geração de vídeo (com uso de mais de 100.000 GPUs GB200)
Próximo roadmap da xAI
- Agosto de 2025: lançamento previsto de um modelo de código
- Setembro de 2025: apresentação de um agente multimodal
- Outubro de 2025: anúncio planejado de um modelo de geração de vídeo
- A empresa pretende continuar fortalecendo continuamente as ferramentas e o desempenho dos modelos
Conclusão e implicações
- O Grok 4 demonstra um nível que compete de forma concreta ou supera as melhores IAs atuais em raciocínio e resolução de problemas acadêmicos
- Com inteligência e raciocínio sem precedentes, interação por voz em tempo real, uso de ferramentas e estrutura multiagente, apresenta um ponto de virada concreto rumo à próxima geração de AGI
- Junto com sua expansibilidade em trabalho real, negócios, jogos, pesquisa e entretenimento, a xAI tende a se consolidar como a empresa de AGI mais rápida
- O rápido ciclo de desenvolvimento e a postura agressiva da xAI mostram que a competição na indústria de IA continua acelerando
6 comentários
Grok 4 agora é o modelo de IA líder
Review do Grok 4 por Simon Willison
O Grok pesquisa o que Elon Musk diz no X sobre a questão Israel-Palestina
Bom, só dá para saber mesmo usando na prática, mas com 200 mil GPUs e esse nível de reserva de talentos, dá para crescer de forma bem agressiva assim.
Quando o Colossus chegar a 1 milhão de GPUs, até onde será que vai melhorar?
Considerando o H100 a 50 milhões de won, só o preço das GPUs dá 50 trilhões de won. Somando a construção do data center e a necessidade de energia ao redor, dizem que isso adiciona mais uns 20 trilhões de won, então dá 70 trilhões de won. A IA parece estar virando cada vez mais uma disputa de dinheiro.
Por que, do nada, foram pegar no pé de um pós-graduando? kkk
kkkkkkk o pós-graduando que levou um golpe do nada ficou sem reação ..
Entendo que o Grok 4 é impressionante, mas essas frases típicas do mundo anglófono como "em breve esperamos até mesmo a descoberta de novas tecnologias/novas leis da física" são engraçadas. Se em breve ele provar ou refutar a hipótese de Riemann, aí realmente não vai mais precisar de benchmark nenhum, né?
Opiniões do Hacker News
inference time). No fim, a diferença entre quem pode e quem não pode pagar por acesso à IA vai aumentar muito. A maior parte do mundo não consegue arcar com assinaturas de centenas de dólaresuserData(comandos#!/bin/bash), ele usouwgetcom o endereço exato do artefato de software mais recente no GitHub. Realmente impressionanteaddress sanitizer, que se comportava de forma diferente conforme o ambiente. O O3 não tinha conseguido identificar isso, mas o Grok 4 apontou corretamente, o que me impressionou