Review de acesso antecipado do Grok 3 por Andrej Karpathy

xguru · 2025-02-19T10:14:21+09:00

Thinking ✅ Tem um modelo de raciocínio de última geração Ao usar o botão "Think", demonstra uma capacidade de raciocínio muito impressionante Ex.: executou com precisão o pedido de gerar um jogo de tabuleiro web no estilo Settlers of Catan Quase não há modelos que façam isso de forma confiável Está em um nível parecido com o melhor, o o1-pro da OpenAI (US$ 200/mês), mas DeepSeek-R1, Gemini 2.0 Flash Thinking e Claude não conseguiram resolver o mesmo problema ❌ Falha no "Emoji mystery" Trata-se de decodificar uma mensagem escondida em um variation selector do Unicode Nenhum modelo resolveu esse problema, mas o DeepSeek-R1 já conseguiu decodificar parte dele ❓ Resolvendo um problema de jogo da velha Analisa corretamente o tabuleiro dado e mostra um processo de raciocínio sofisticado Mas falha ao gerar por conta própria um tabuleiro "difícil" (o o1-pro também falha da mesma forma) ✅ Resolver um problema complexo de cálculo após enviar o paper do GPT-2 Foi pedido para estimar o número de FLOPs necessários para treinar o GPT-2 Mas como o número de tokens não está explicitado no paper, é preciso fazer parte estimativa, parte cálculo, mobilizando busca, conhecimento e matemática, então é uma tarefa complicada Grok 3 e GPT-4o falham nessa tarefa, mas o Grok 3 with Thinking faz o raciocínio correto Esse problema de cálculo também derrota o o1-pro (modelo de raciocínio da GPT) Desafio da hipótese de Riemann A maioria dos modelos (o1-pro, Claude, Gemini 2.0 Flash Thinking) desiste imediatamente dizendo que é um "problema em aberto" Grok 3 e DeepSeek-R1 realmente tentam resolver Não conseguiram resolver, mas foi impressionante ver a disposição de encarar o desafio Impressão geral: Ainda são necessários resultados reais de benchmarks, mas mostra desempenho acima do DeepSeek-R1 e em nível semelhante ao o1-pro DeepSearch Um produto elegante que parece combinar o que OpenAI e Perplexity chamam de "Deep Research" com Thinking Tirando o fato de que é "Deep Search" em vez de "Deep Research"...(suspiro) Gera respostas de alta qualidade para vários tipos de perguntas de pesquisa/busca em que dá para imaginar que a resposta exista em matérias na internet Busca informações aprofundadas na internet e fornece um resumo Perguntas testadas e se deram certo ou não ✅ "Como será este Apple Launch? Há rumores?" ✅ "Por que as ações da Palantir estão subindo?" ✅ "Onde a 3ª temporada de White Lotus foi filmada e é a mesma equipe das temporadas 1 e 2?" ✅ "Qual pasta de dente Bryan Johnson usa?" ❌ "Onde está agora o elenco da 4ª temporada de Single's Inferno?" ❌ "Qual programa de reconhecimento de voz Simon Willison disse que usa?" ❌ Basicamente, o modelo não usa muito o X (Twitter) como fonte. (É preciso pedir explicitamente) Às vezes inventa URLs que não existem (alucinação) Em alguns casos fornece informação incorreta sem fonte Ex.: "Kim Jeong-su de Single's Inferno 4 ainda está namorando Kim Min-seol" → (não parece ser o caso. Talvez?) Além disso, quando foi pedido um relatório sobre os principais laboratórios de LLM, volume total de financiamento e estimativa de número de funcionários, listou 12 laboratórios importantes, mas o próprio xAI não estava incluído No momento, o DeepSearch está em um nível parecido com o DeepResearch da Perplexity, mas abaixo do "Deep Research" da OpenAI Random LLM "Gotcha" Também foram testadas outras consultas aleatórias e divertidas para LLM. Coisas fáceis para humanos, mas difíceis para LLMs. ✅ Número de 'r' em "strawberry" (3) ✅ Número de 'L' em "LOLLAPALOOZA" (4) → ❌ (respondeu 3, mas acertou no modo Thinking) ✅ "9.11 > 9.9?" → ❌ (errou no começo, corrigiu no modo Thinking) ✅ "Sally (mulher) tem 3 irmãos. Cada irmão tem 2 irmãs. Quantas irmãs Sally tem?" (o GPT-4o disse 2 e errou) ❌ Infelizmente, o senso de humor do modelo não melhorou de forma perceptível. Esse é um problema que vejo na maioria dos LLMs Em 1008 pedidos feitos ao ChatGPT para criar piadas, 90% repetiram 25 piadas ❌ Dá respostas excessivamente cautelosas para perguntas sobre "problemas éticos complexos" Ex.: "Se isso pudesse salvar 1 milhão de pessoas, usar o gênero errado seria eticamente justificável?" → escreve um ensaio de uma página e evita responder ❌ Falha no pedido de "gerar um SVG de um pelicano andando de bicicleta" Como LLMs são baseados em texto, a dificuldade de organizar layouts 2D ainda continua sendo um problema Os modelos Claude são os mais capazes na geração de SVG Avaliação geral Grok 3 + Thinking está em nível semelhante ao principal modelo da OpenAI (o1-pro, US$ 200/mês) Um pouco melhor que DeepSeek-R1 e Gemini 2.0 Flash Thinking É um feito surpreendente ter criado, em apenas 1 ano desde o lançamento, uma IA capaz de competir com modelos SOTA (State of the Art) Como o modelo é estocástico, as respostas podem variar a cada vez, e ainda serão necessárias mais avaliações Os resultados iniciais no LM Arena são bastante animadores A velocidade de evolução da equipe da xAI é impressionante, e há planos de testar o Grok 3 mais a fundo no futuro

(x.com)

14 pontos por xguru 2025-02-19 | 6 comentários | Compartilhar no WhatsApp

Thinking

✅ Tem um modelo de raciocínio de última geração
- Ao usar o botão "Think", demonstra uma capacidade de raciocínio muito impressionante
- Ex.: executou com precisão o pedido de gerar um jogo de tabuleiro web no estilo Settlers of Catan
- Quase não há modelos que façam isso de forma confiável
- Está em um nível parecido com o melhor, o o1-pro da OpenAI (US$ 200/mês), mas DeepSeek-R1, Gemini 2.0 Flash Thinking e Claude não conseguiram resolver o mesmo problema
❌ Falha no "Emoji mystery"
- Trata-se de decodificar uma mensagem escondida em um variation selector do Unicode
- Nenhum modelo resolveu esse problema, mas o DeepSeek-R1 já conseguiu decodificar parte dele
❓ Resolvendo um problema de jogo da velha
- Analisa corretamente o tabuleiro dado e mostra um processo de raciocínio sofisticado
- Mas falha ao gerar por conta própria um tabuleiro "difícil" (o o1-pro também falha da mesma forma)
✅ Resolver um problema complexo de cálculo após enviar o paper do GPT-2
- Foi pedido para estimar o número de FLOPs necessários para treinar o GPT-2
- Mas como o número de tokens não está explicitado no paper, é preciso fazer parte estimativa, parte cálculo, mobilizando busca, conhecimento e matemática, então é uma tarefa complicada
- Grok 3 e GPT-4o falham nessa tarefa, mas o Grok 3 with Thinking faz o raciocínio correto
  - Esse problema de cálculo também derrota o o1-pro (modelo de raciocínio da GPT)
Desafio da hipótese de Riemann
- A maioria dos modelos (o1-pro, Claude, Gemini 2.0 Flash Thinking) desiste imediatamente dizendo que é um "problema em aberto"
- Grok 3 e DeepSeek-R1 realmente tentam resolver
- Não conseguiram resolver, mas foi impressionante ver a disposição de encarar o desafio
Impressão geral:
- Ainda são necessários resultados reais de benchmarks, mas mostra desempenho acima do DeepSeek-R1 e em nível semelhante ao o1-pro

DeepSearch

Um produto elegante que parece combinar o que OpenAI e Perplexity chamam de "Deep Research" com Thinking
- Tirando o fato de que é "Deep Search" em vez de "Deep Research"...(suspiro)
Gera respostas de alta qualidade para vários tipos de perguntas de pesquisa/busca em que dá para imaginar que a resposta exista em matérias na internet
- Busca informações aprofundadas na internet e fornece um resumo
Perguntas testadas e se deram certo ou não
- ✅ "Como será este Apple Launch? Há rumores?"
- ✅ "Por que as ações da Palantir estão subindo?"
- ✅ "Onde a 3ª temporada de White Lotus foi filmada e é a mesma equipe das temporadas 1 e 2?"
- ✅ "Qual pasta de dente Bryan Johnson usa?"
- ❌ "Onde está agora o elenco da 4ª temporada de Single's Inferno?"
- ❌ "Qual programa de reconhecimento de voz Simon Willison disse que usa?"
❌ Basicamente, o modelo não usa muito o X (Twitter) como fonte. (É preciso pedir explicitamente)
- Às vezes inventa URLs que não existem (alucinação)
- Em alguns casos fornece informação incorreta sem fonte
  - Ex.: "Kim Jeong-su de Single's Inferno 4 ainda está namorando Kim Min-seol" → (não parece ser o caso. Talvez?)
- Além disso, quando foi pedido um relatório sobre os principais laboratórios de LLM, volume total de financiamento e estimativa de número de funcionários, listou 12 laboratórios importantes, mas o próprio xAI não estava incluído
No momento, o DeepSearch está em um nível parecido com o DeepResearch da Perplexity, mas abaixo do "Deep Research" da OpenAI

Random LLM "Gotcha"

Também foram testadas outras consultas aleatórias e divertidas para LLM. Coisas fáceis para humanos, mas difíceis para LLMs.
✅ Número de 'r' em "strawberry" (3)
✅ Número de 'L' em "LOLLAPALOOZA" (4) → ❌ (respondeu 3, mas acertou no modo Thinking)
✅ "9.11 > 9.9?" → ❌ (errou no começo, corrigiu no modo Thinking)
✅ "Sally (mulher) tem 3 irmãos. Cada irmão tem 2 irmãs. Quantas irmãs Sally tem?" (o GPT-4o disse 2 e errou)
❌ Infelizmente, o senso de humor do modelo não melhorou de forma perceptível. Esse é um problema que vejo na maioria dos LLMs
- Em 1008 pedidos feitos ao ChatGPT para criar piadas, 90% repetiram 25 piadas
❌ Dá respostas excessivamente cautelosas para perguntas sobre "problemas éticos complexos"
- Ex.: "Se isso pudesse salvar 1 milhão de pessoas, usar o gênero errado seria eticamente justificável?" → escreve um ensaio de uma página e evita responder
❌ Falha no pedido de "gerar um SVG de um pelicano andando de bicicleta"
- Como LLMs são baseados em texto, a dificuldade de organizar layouts 2D ainda continua sendo um problema
- Os modelos Claude são os mais capazes na geração de SVG

Avaliação geral

Grok 3 + Thinking está em nível semelhante ao principal modelo da OpenAI (o1-pro, US$ 200/mês)
Um pouco melhor que DeepSeek-R1 e Gemini 2.0 Flash Thinking
É um feito surpreendente ter criado, em apenas 1 ano desde o lançamento, uma IA capaz de competir com modelos SOTA (State of the Art)
Como o modelo é estocástico, as respostas podem variar a cada vez, e ainda serão necessárias mais avaliações
Os resultados iniciais no LM Arena são bastante animadores
A velocidade de evolução da equipe da xAI é impressionante, e há planos de testar o Grok 3 mais a fundo no futuro

6 comentários

aer0700 2025-02-20

No dia em que a gente mandar uma IA provar a hipótese de Riemann e ela passar um dia pensando para então apresentar a resposta certinha, vai ser uma loucura.

ffdd270 2025-02-19

Eu achei que a pergunta sobre Single's Inferno tivesse sido localizada, mas você realmente perguntou mesmo... kkkkkkkkkkkkkkkkkkkkkk

mssmss 2025-02-21

Achei que fosse uma tradução livre.

cladio 2025-02-19

Eu estava lendo achando que finalmente tinha saído uma avaliação do Grok 3 em que dava para confiar, mas aí vi que ele assiste Single’s Inferno e fiquei sem reação..
Fui procurar depois de ver o comentário acima e descobri que há um tweet de 2023. A namorada dele é coreana e ele disse que assiste bastante drama coreano com ela.
Eu nunca teria imaginado que alguém na linha de frente do setor mais maluco do mundo assistiria Single’s Inferno… kkkkk

knsimuel 2025-02-19

Parece que a esposa dele é coreana.

xguru 2025-02-19

Eu não assisti a Single's Inferno... Vi o título, fui pesquisar e só então entendi kkk. Até pesquisei separadamente os nomes do elenco.