2 pontos por GN⁺ 2026-03-25 | 1 comentários | Compartilhar no WhatsApp
  • GPT-5.4 Pro resolveu um problema do tipo Ramsey relacionado a hipergrafos em colaboração com Kevin Barreto e Liam Price
  • O proponente do problema, Will Brian, verificou a correção da solução, e o registro completo da conversa e o documento final de explicação da IA foram divulgados
  • A solução elimina ineficiências das construções de limite inferior existentes e apresenta a estrutura simétrica do limite superior, alcançando uma consistência rara na teoria de Ramsey
  • Depois disso, no framework FrontierMath: Open Problems, vários modelos resolveram o mesmo problema, comprovando sua validade como ferramenta de verificação da capacidade de raciocínio matemático da IA
  • Esse resultado é avaliado como um caso que mostra que a IA pode contribuir de forma prática para a solução de problemas matemáticos em aberto

Resolução de um problema do tipo Ramsey em hipergrafos

  • GPT-5.4 Pro resolveu um difícil problema do tipo Ramsey relacionado a hipergrafos em colaboração com Kevin Barreto e Liam Price
    • O proponente do problema, Will Brian, verificou a correção da solução
    • O registro completo da conversa durante o processo de resolução e o documento final de explicação do GPT-5.4 Pro foram divulgados
  • Brian avaliou que essa solução elimina a ineficiência das construções de limite inferior existentes e mostra a complexidade e a estrutura simétrica da construção do limite superior
    • Como resultado, os limites inferior e superior coincidem de forma consistente, alcançando um nível raro de coerência em problemas da teoria de Ramsey
    • Ele pretende organizar esse resultado em um artigo, possivelmente incluindo pesquisas adicionais derivadas das ideias da IA
  • Depois disso, a Epoch AI concluiu o framework de testes FrontierMath: Open Problems e aplicou o mesmo problema a vários modelos
    • Os modelos Opus 4.6 (max), Gemini 3.1 Pro e GPT-5.4 (xhigh) também conseguiram resolver o problema
    • Isso mostra que o ambiente FrontierMath é válido para avaliar a capacidade de raciocínio matemático de modelos de IA

Definição do problema

  • O problema se concentra em melhorar o limite inferior da sequência (H(n)), que surge no estudo da convergência simultânea de conjuntos de séries infinitas
    • Dizer que um hipergrafo ((V, \mathcal H)) contém uma partição (partition) de tamanho (n) significa que existem (D \subseteq V), (\mathcal P \subseteq \mathcal H) tais que (|D| = n), e cada elemento de (D) pertence a exatamente um elemento de (\mathcal P)
    • (H(n)) é definido como o maior número de vértices (k) de um hipergrafo sem vértices isolados e que não contém nenhuma partição de tamanho maior que (n)
  • O limite inferior conhecido de (H(n)) provavelmente não é ótimo, e considera-se possível melhorá-lo com uma nova construção de hipergrafo
    • O objetivo é encontrar um algoritmo que satisfaça (H(n) \ge c \cdot k_n) (com (c > 1))
    • (k_n) é definido pela recorrência (k_1 = 1), (k_n = \lfloor n/2 \rfloor + k_{\lfloor n/2 \rfloor} + k_{\lfloor (n+1)/2 \rfloor})

Etapas de formulação do problema

  • Etapa Warm-up

    • Construir um hipergrafo para valores de (n) para os quais já existe uma solução conhecida
    • Condições: (|V| ≥ 64), (|H| ≤ 20), sem partição de tamanho superior a 20
  • Etapa Single Challenge

    • Tarefa de encontrar um hipergrafo sob as mesmas condições para valores de (n) sem solução conhecida
    • Condições: (|V| ≥ 66), (|H| ≤ 20), sem partição de tamanho superior a 20
  • Etapa Full Problem

    • Exige um algoritmo geral que funcione para todo (n)
    • Para uma entrada (n), deve gerar um hipergrafo que satisfaça (H(n) ≥ c \cdot k_n)
    • Para (n ≤ 100), deve ser executável em até 10 minutos em um notebook comum

Avaliação dos matemáticos

  • Estima-se que apenas cerca de 10 matemáticos estejam familiarizados com esse problema, incluindo muitos pesquisadores da área
  • O número de matemáticos que realmente tentaram resolver o problema é estimado em 5 a 10
  • O tempo esperado para um especialista resolver o problema é de 1 a 3 meses
  • Em caso de solução, ela é avaliada como em nível de publicação em periódico acadêmico especializado
  • Devido à riqueza do problema, há grande probabilidade de que a solução leve a novas pesquisas matemáticas
  • Sob as condições especificadas, a probabilidade de o problema ser solucionável foi avaliada em 95–99%

1 comentários

 
GN⁺ 2026-03-25
Comentários no Hacker News
  • Fico surpreso ao ver tanta gente afirmar categoricamente que “LLMs não podem ter criatividade real
    Simplesmente dizer “é impossível porque não estava nos dados de treino” é insuficiente. Já existem muitos contraexemplos
    Então, é preciso justificar por que se acha que algumas tarefas novas são possíveis e outras impossíveis
    Se admitirmos que a “novidade” está em um contínuo, fico curioso sobre onde se traça a linha e que tipo de evidência faria alguém mudar de ideia

    • Tentando responder à minha própria pergunta, também existem argumentos lógicos sobre as limitações fundamentais dos LLMs
      1. como aprendem com dados humanos, imitam os limites humanos
      2. não aprendem com experiência
        Mas também há contra-argumentos. Depois de ver um modelo ganhar ouro em olimpíada de matemática, abandonei a primeira tese
        E, com RL e memória adicionados, parece que a segunda limitação também pode ser superada
        Talvez LLMs grandes consigam internalizar informação como humanos
        Exemplo relacionado: post no blog da METR
    • LLMs são, em essência, capazes de gerar qualquer coisa. Só que não entendem o que produziram
      Humanos definem “novidade verdadeira” de forma grandiosa demais — por exemplo, fórmula para supercondutores ou descoberta de novos remédios
      Mas, na verdade, até um novo jeito de amarrar cadarços é “formalmente” novidade
      LLMs podem resolver incontáveis probleminhas assim, mas talvez não sejam inovações significativas a ponto de impressionar humanos
    • Eu estava criando um utilitário no macOS para “enxergar através” das janelas de apps, e o Claude Code sugeriu não usar o ScreenCaptureKit
      Recusou com precisão por causa do overhead de desempenho e propôs uma abordagem totalmente diferente
      Não é um problema tremendamente novo, mas foi uma solução bem criativa, o que me surpreendeu
      Imagem do projeto
    • A razão de LLMs conseguirem resolver novos problemas de multiplicação é que, durante o treino, viram inúmeros exemplos e aprenderam uma estratégia abstrata comprimida
      Não é simples memorização, mas a internalização de uma operação generalizada em circuitos internos da rede neural
    • A maioria das invenções é o resultado de uma interpolação entre três ideias já existentes. Esses sistemas fazem isso muito bem
  • Eu achava que só acreditaria se a IA conseguisse resolver sozinha um problema difícil, e se esse resultado for real, sinto que agora virei crente
    Quero ver mais casos, mas o mundo realmente está ficando novo e interessante

    • Problemas de matemática e competições de programação são fáceis de aprender porque as regras são claras e a verificação é simples
      Mas em áreas de definição ambígua, como qualidade de código, as alucinações aumentam
      Como não existe uma função de valor aprendida sozinha como no AlphaGo, RL por si só tem limites
    • Em vez de um “mundo novo e interessante”, parece que a partir de agora teremos uma era de reciclagem infinita
      A IA vai produzir conteúdo “razoável” sem parar, mas o verdadeiro impacto desaparece
      As coisas boas que os humanos trocavam entre si diminuem, e só as ruins parecem amplificadas
    • LLMs são apenas remixadores. Só preveem combinações de caracteres que já existiram no passado; não criam sozinhos padrões completamente novos
    • Não entendo por que “resolver problemas difíceis” virou o critério para IA
      A maioria dos humanos também não resolve esse tipo de problema, enquanto a IA já é excelente em trabalho intelectual geral
      Com esse critério, estamos falando mais de uma definição próxima de AGI ou ASI
    • VCs famosos disseram que o DeepSeek era um “modelo supergênio” porque resolveu problemas introdutórios de eletromagnetismo, mas isso parece exagerado
      É preciso verificar que problema era de fato e ter uma validação de especialistas
  • Sinto que a premissa básica de que humanos são especiais continua forte demais
    As pessoas não consideram o suficiente que a explicação “simplesmente funciona depois de várias tentativas” também pode se aplicar aos humanos
    Mesmo em comunidades que valorizam o pensamento científico, o excepcionalismo humano está profundamente enraizado

    • Humanos têm a capacidade de raciocinar sem experiência consumindo apenas 20 watts. Isso claramente é especial
    • Mesmo essa conquista só faz sentido porque humanos criaram o problema e colaboraram para validar a solução
      A IA não define seus próprios objetivos nem reconhece suas realizações
      Talvez o que se obteve a um custo enorme tenha sido apenas um pequeno avanço matemático
    • Dizer que humanos são especiais não é mera crença, mas um fato empírico tratado por neurociência e ciência cognitiva
      Sou funcionalista, mas não acho que aquilo que nos LLMs “parece inteligência” seja inteligência de verdade
    • Para entender a singularidade humana, vale olhar a teoria da Redução Objetiva Orquestrada
    • Não é que humanos sejam especiais, e sim que modelos estatísticos quase não conseguem pensar fora da caixa
  • A conversa completa com o GPT‑5.4 Pro e o relatório de resultados foram publicados
    Conversa completa / Resumo dos resultados

    • Fiquei curioso sobre o conteúdo real do arquivo de solution template fornecido
      Também achei interessante a forma como o usuário atualizava o uso de tokens no meio do processo para expandir o contexto
  • Como o Opus 4.6 consumiu cerca de 250 mil tokens, fico imaginando usar número de tokens como indicador de dificuldade do problema
    Dá até para brincar que o refactor em React que fiz hoje tinha metade da dificuldade de um problema matemático em aberto

    • Parece piada, mas matemática é, por natureza, um campo muito fechado, então talvez isso seja mesmo possível
      Alguns problemas talvez só tenham sido tentados por 5 a 10 pessoas no mundo
      Como software inacabado por falta de motivação, problemas matemáticos também podem permanecer sem solução simplesmente porque pouca gente tentou
      Ainda assim, a IA ter resolvido esse tipo de problema é algo quase milagroso
    • Gerenciamento de contexto é importante. Desperdiçar tokens leva à queda de desempenho
      À medida que o contexto cresce, o custo aumenta, e os fornecedores podem até elevar o preço por token
    • Comparando as saídas do Opus 4.6 e do GPT‑5.4 Pro, o primeiro mostrou mais diversidade de tentativas de verificação e fluxo de pensamento, o que foi interessante
    • Em matemática, uma variável ocupa um token; em software, por causa da legibilidade, gastam-se muito mais tokens
    • Número de tokens não é indicador de complexidade. Problemas centrados em dados consomem muito mais tokens do que problemas de raciocínio simples
  • A capacidade da IA é determinada pela função de custo (cost function) em que foi treinada
    No fim, inteligência é o processo de minimizar funções de custo complexas
    Em áreas como matemática e programação, onde há verificação automática possível, abordagens como RLVR devem avançar rapidamente
    Mas em áreas com recompensa social ou muita incerteza, o progresso pode ser mais lento

    • Há a objeção de que “existem problemas que não podem ser expressos como função de custo”
      Por exemplo, a introdução dos números complexos pode ser vista como resultado de uma otimização de representação
  • Especialistas de domínio estão ensinando aos LLMs suas próprias formas de resolver problemas
    No fim, os LLMs passam a imitar esses padrões de pensamento para resolver problemas

  • Acho que há muitos problemas que podem ser resolvidos por reamostragem de provas existentes
    A máquina pode fazer com persistência uma busca repetitiva que deixaria um humano enlouquecido
    Talvez não seja um grande salto, mas pode servir para transformar conjecturas em teoremas

    • A questão é se essa prova é significativa. Na maior parte dos casos, provavelmente será repetição dentro do paradigma existente
      Raramente abre uma perspectiva totalmente nova
      Pode ser só desperdício de tokens
    • Acho que toda descoberta é fruto de síntese combinatória. Quase nada surge do absoluto nada
    • Nesse caso, fico curioso sobre como deveríamos projetar um benchmark para avaliar “novidade verdadeira”
  • Na página Open Problems da Epoch, há 15 problemas e uma classificação de dificuldade
    O resolvido desta vez estava no nível ‘moderately interesting’, pertencendo ao grupo mais fácil
    Ainda assim, impressiona o fato de ser um problema público antes mesmo de ser resolvido
    Agora fico curioso para saber com que rapidez os outros 3 problemas do mesmo nível serão resolvidos

    • Só o fato de um LLM resolver qualquer problema em aberto já é, para mim, algo em nível de ficção científica
  • O título é um pouco enganoso
    O título real é “A Ramsey-style Problem on Hypergraphs”, e não foi só o GPT‑5.4, mas vários modelos recentes que resolveram
    Mesmo assim, continua sendo uma conquista impressionante