- GPT-5.4 Pro resolveu um problema do tipo Ramsey relacionado a hipergrafos em colaboração com Kevin Barreto e Liam Price
- O proponente do problema, Will Brian, verificou a correção da solução, e o registro completo da conversa e o documento final de explicação da IA foram divulgados
- A solução elimina ineficiências das construções de limite inferior existentes e apresenta a estrutura simétrica do limite superior, alcançando uma consistência rara na teoria de Ramsey
- Depois disso, no framework FrontierMath: Open Problems, vários modelos resolveram o mesmo problema, comprovando sua validade como ferramenta de verificação da capacidade de raciocínio matemático da IA
- Esse resultado é avaliado como um caso que mostra que a IA pode contribuir de forma prática para a solução de problemas matemáticos em aberto
Resolução de um problema do tipo Ramsey em hipergrafos
- GPT-5.4 Pro resolveu um difícil problema do tipo Ramsey relacionado a hipergrafos em colaboração com Kevin Barreto e Liam Price
- O proponente do problema, Will Brian, verificou a correção da solução
- O registro completo da conversa durante o processo de resolução e o documento final de explicação do GPT-5.4 Pro foram divulgados
- Brian avaliou que essa solução elimina a ineficiência das construções de limite inferior existentes e mostra a complexidade e a estrutura simétrica da construção do limite superior
- Como resultado, os limites inferior e superior coincidem de forma consistente, alcançando um nível raro de coerência em problemas da teoria de Ramsey
- Ele pretende organizar esse resultado em um artigo, possivelmente incluindo pesquisas adicionais derivadas das ideias da IA
- Depois disso, a Epoch AI concluiu o framework de testes FrontierMath: Open Problems e aplicou o mesmo problema a vários modelos
- Os modelos Opus 4.6 (max), Gemini 3.1 Pro e GPT-5.4 (xhigh) também conseguiram resolver o problema
- Isso mostra que o ambiente FrontierMath é válido para avaliar a capacidade de raciocínio matemático de modelos de IA
Definição do problema
- O problema se concentra em melhorar o limite inferior da sequência (H(n)), que surge no estudo da convergência simultânea de conjuntos de séries infinitas
- Dizer que um hipergrafo ((V, \mathcal H)) contém uma partição (partition) de tamanho (n) significa que existem (D \subseteq V), (\mathcal P \subseteq \mathcal H) tais que (|D| = n), e cada elemento de (D) pertence a exatamente um elemento de (\mathcal P)
- (H(n)) é definido como o maior número de vértices (k) de um hipergrafo sem vértices isolados e que não contém nenhuma partição de tamanho maior que (n)
- O limite inferior conhecido de (H(n)) provavelmente não é ótimo, e considera-se possível melhorá-lo com uma nova construção de hipergrafo
- O objetivo é encontrar um algoritmo que satisfaça (H(n) \ge c \cdot k_n) (com (c > 1))
- (k_n) é definido pela recorrência (k_1 = 1), (k_n = \lfloor n/2 \rfloor + k_{\lfloor n/2 \rfloor} + k_{\lfloor (n+1)/2 \rfloor})
Etapas de formulação do problema
-
Etapa Warm-up
- Construir um hipergrafo para valores de (n) para os quais já existe uma solução conhecida
- Condições: (|V| ≥ 64), (|H| ≤ 20), sem partição de tamanho superior a 20
-
Etapa Single Challenge
- Tarefa de encontrar um hipergrafo sob as mesmas condições para valores de (n) sem solução conhecida
- Condições: (|V| ≥ 66), (|H| ≤ 20), sem partição de tamanho superior a 20
-
Etapa Full Problem
- Exige um algoritmo geral que funcione para todo (n)
- Para uma entrada (n), deve gerar um hipergrafo que satisfaça (H(n) ≥ c \cdot k_n)
- Para (n ≤ 100), deve ser executável em até 10 minutos em um notebook comum
Avaliação dos matemáticos
- Estima-se que apenas cerca de 10 matemáticos estejam familiarizados com esse problema, incluindo muitos pesquisadores da área
- O número de matemáticos que realmente tentaram resolver o problema é estimado em 5 a 10
- O tempo esperado para um especialista resolver o problema é de 1 a 3 meses
- Em caso de solução, ela é avaliada como em nível de publicação em periódico acadêmico especializado
- Devido à riqueza do problema, há grande probabilidade de que a solução leve a novas pesquisas matemáticas
- Sob as condições especificadas, a probabilidade de o problema ser solucionável foi avaliada em 95–99%
1 comentários
Comentários no Hacker News
Fico surpreso ao ver tanta gente afirmar categoricamente que “LLMs não podem ter criatividade real”
Simplesmente dizer “é impossível porque não estava nos dados de treino” é insuficiente. Já existem muitos contraexemplos
Então, é preciso justificar por que se acha que algumas tarefas novas são possíveis e outras impossíveis
Se admitirmos que a “novidade” está em um contínuo, fico curioso sobre onde se traça a linha e que tipo de evidência faria alguém mudar de ideia
Mas também há contra-argumentos. Depois de ver um modelo ganhar ouro em olimpíada de matemática, abandonei a primeira tese
E, com RL e memória adicionados, parece que a segunda limitação também pode ser superada
Talvez LLMs grandes consigam internalizar informação como humanos
Exemplo relacionado: post no blog da METR
Humanos definem “novidade verdadeira” de forma grandiosa demais — por exemplo, fórmula para supercondutores ou descoberta de novos remédios
Mas, na verdade, até um novo jeito de amarrar cadarços é “formalmente” novidade
LLMs podem resolver incontáveis probleminhas assim, mas talvez não sejam inovações significativas a ponto de impressionar humanos
Recusou com precisão por causa do overhead de desempenho e propôs uma abordagem totalmente diferente
Não é um problema tremendamente novo, mas foi uma solução bem criativa, o que me surpreendeu
Imagem do projeto
Não é simples memorização, mas a internalização de uma operação generalizada em circuitos internos da rede neural
Eu achava que só acreditaria se a IA conseguisse resolver sozinha um problema difícil, e se esse resultado for real, sinto que agora virei crente
Quero ver mais casos, mas o mundo realmente está ficando novo e interessante
Mas em áreas de definição ambígua, como qualidade de código, as alucinações aumentam
Como não existe uma função de valor aprendida sozinha como no AlphaGo, RL por si só tem limites
A IA vai produzir conteúdo “razoável” sem parar, mas o verdadeiro impacto desaparece
As coisas boas que os humanos trocavam entre si diminuem, e só as ruins parecem amplificadas
A maioria dos humanos também não resolve esse tipo de problema, enquanto a IA já é excelente em trabalho intelectual geral
Com esse critério, estamos falando mais de uma definição próxima de AGI ou ASI
É preciso verificar que problema era de fato e ter uma validação de especialistas
Sinto que a premissa básica de que humanos são especiais continua forte demais
As pessoas não consideram o suficiente que a explicação “simplesmente funciona depois de várias tentativas” também pode se aplicar aos humanos
Mesmo em comunidades que valorizam o pensamento científico, o excepcionalismo humano está profundamente enraizado
A IA não define seus próprios objetivos nem reconhece suas realizações
Talvez o que se obteve a um custo enorme tenha sido apenas um pequeno avanço matemático
Sou funcionalista, mas não acho que aquilo que nos LLMs “parece inteligência” seja inteligência de verdade
A conversa completa com o GPT‑5.4 Pro e o relatório de resultados foram publicados
Conversa completa / Resumo dos resultados
Também achei interessante a forma como o usuário atualizava o uso de tokens no meio do processo para expandir o contexto
Como o Opus 4.6 consumiu cerca de 250 mil tokens, fico imaginando usar número de tokens como indicador de dificuldade do problema
Dá até para brincar que o refactor em React que fiz hoje tinha metade da dificuldade de um problema matemático em aberto
Alguns problemas talvez só tenham sido tentados por 5 a 10 pessoas no mundo
Como software inacabado por falta de motivação, problemas matemáticos também podem permanecer sem solução simplesmente porque pouca gente tentou
Ainda assim, a IA ter resolvido esse tipo de problema é algo quase milagroso
À medida que o contexto cresce, o custo aumenta, e os fornecedores podem até elevar o preço por token
A capacidade da IA é determinada pela função de custo (cost function) em que foi treinada
No fim, inteligência é o processo de minimizar funções de custo complexas
Em áreas como matemática e programação, onde há verificação automática possível, abordagens como RLVR devem avançar rapidamente
Mas em áreas com recompensa social ou muita incerteza, o progresso pode ser mais lento
Por exemplo, a introdução dos números complexos pode ser vista como resultado de uma otimização de representação
Especialistas de domínio estão ensinando aos LLMs suas próprias formas de resolver problemas
No fim, os LLMs passam a imitar esses padrões de pensamento para resolver problemas
Acho que há muitos problemas que podem ser resolvidos por reamostragem de provas existentes
A máquina pode fazer com persistência uma busca repetitiva que deixaria um humano enlouquecido
Talvez não seja um grande salto, mas pode servir para transformar conjecturas em teoremas
Raramente abre uma perspectiva totalmente nova
Pode ser só desperdício de tokens
Na página Open Problems da Epoch, há 15 problemas e uma classificação de dificuldade
O resolvido desta vez estava no nível ‘moderately interesting’, pertencendo ao grupo mais fácil
Ainda assim, impressiona o fato de ser um problema público antes mesmo de ser resolvido
Agora fico curioso para saber com que rapidez os outros 3 problemas do mesmo nível serão resolvidos
O título é um pouco enganoso
O título real é “A Ramsey-style Problem on Hypergraphs”, e não foi só o GPT‑5.4, mas vários modelos recentes que resolveram
Mesmo assim, continua sendo uma conquista impressionante