- Claude Opus 4.6, da Anthropic, resolveu o problema da decomposição em ciclos hamiltonianos direcionados que Donald Knuth vinha estudando havia várias semanas
- O problema consiste em encontrar uma decomposição em três ciclos hamiltonianos de um grafo direcionado com (m^3) vértices, e Claude o resolveu completamente para m ímpar
- Claude executou em etapas várias estratégias de busca, incluindo decomposição em fibras, padrão serpentino 3D, busca em profundidade (DFS) e simulated annealing
- Ao final, derivou uma solução geral na forma de um programa em Python, e Filip Stappers a verificou para m ímpar de 3 a 101, confirmando a decomposição completa
- Knuth avalia o resultado como um avanço revolucionário em raciocínio automatizado e solução criativa de problemas e afirma que o caso de m par continua em aberto
Contexto e definição do problema
- O tema de pesquisa trata de ciclos hamiltonianos direcionados, e está previsto para um futuro volume de The Art of Computer Programming, de Knuth
- O grafo é composto por (m^3) vértices (ijk), e de cada vértice saem três arestas: (i+jk), (ij+k), (ijk+)
- O objetivo é encontrar, para todo (m>2), uma solução geral que decomponha essas arestas em três ciclos direcionados de comprimento (m^3)
Processo de busca do Claude
- Claude Opus 4.6 é o modelo de raciocínio híbrido da Anthropic; Filip Stappers apresentou o problema e instruiu o modelo a documentar o processo
- Na etapa inicial, Claude reformulou o problema como um grafo funcional e um problema de atribuição de permutações, e tentou abordagens com funções lineares e quadráticas, mas sem sucesso
- Depois disso, experimentou sucessivamente busca DFS, análise de padrões serpentinos 2D e padrões baseados em código Gray 3D
- Em seguida, introduziu a abordagem de decomposição em fibras, analisando uma estrutura estratificada com base em (s = (i+j+k) \mod m), e encontrou soluções parciais por meio de simulated annealing (SA)
Descoberta e verificação da solução
- Na etapa 31 da busca, Claude gerou um programa em Python usando uma regra dependente de uma única coordenada para cada fibra
- Esse programa gera três ciclos hamiltonianos completos para m=3,5,7,9,11
- Filip Stappers o testou para todos os valores ímpares de m entre 3 e 101, confirmando a decomposição completa
- Knuth simplificou isso em código C e apresentou uma prova matemática de que cada ciclo tem de fato comprimento (m^3)
Generalização e análise matemática
- Foi confirmado que parte dos ciclos hamiltonianos de m=3 pode ser generalizada para todo m ímpar
- Em (m=3), entre 11.502 ciclos, 1.012 se generalizam para (m=5), e 996 se generalizam até (m=7)
- Esses 996 podem ser generalizados para todo m ímpar > 1
- A decomposição do tipo "Claude-like" é definida por regras simples que dependem apenas dos valores de fronteira de i, j e s (0 ou m−1)
- Teorema: para que uma decomposição "Claude-like" seja válida para todo m ímpar > 1, os três ciclos em m=3 devem ser ciclos hamiltonianos generalizáveis
- Segundo os cálculos, 760 decomposições "Claude-like" são válidas para todo m ímpar
O caso em aberto para m par e a conclusão
- No caso de m par, o problema continua em aberto
- Estudos anteriores já provaram que (m=2) é impossível
- Claude encontrou soluções parciais para (m=4,6,8), mas falhou em generalizá-las
- Durante a exploração de m par, Claude apresentou erros e comportamento anormal, e a busca foi interrompida
- Knuth avalia isso como uma conquista histórica do raciocínio automatizado baseado em IA e menciona que é um avanço à altura do nome de Claude Shannon
Apêndice: regras dos outros dois ciclos
- Segundo ciclo (c=1):
- Se (s=0), j aumenta; se (0<s<m−1), i aumenta; quando (s=m−1), se i>0 então k aumenta, e se i=0 então j aumenta
- Terceiro ciclo (c=2):
- Em (s=0), se j<m−1 então i aumenta, e se j=m−1 então k aumenta
- Em (0<s<m−1), se i<m−1 então k aumenta, e se i=m−1 então j aumenta
- Em (s=m−1), i aumenta
- A ordem dos vértices em s=0 de cada ciclo está explicitada, o que permite demonstrar a estrutura do ciclo completo
1 comentários
Comentários no Hacker News
É interessante pensar em que tipos de problema a escalabilidade de RL pode ser aplicada
Antes, isso dependia da cognição humana, mas agora esse tipo de padrão está embutido em uma distribuição de probabilidade, então qualquer um pode acessá-lo
Ainda assim, fica a dúvida se os modelos conseguirão acompanhar à medida que a fronteira da ciência continuar se expandindo
Em 2030, para a Anthropic manter o Claude atualizado, vai precisar de (a) aprendizado contínuo em um modelo fixo ou (b) treinamento contínuo, e nenhum dos dois é simples
Depois do ponto de corte de conhecimento, eles ficam presos naquele momento para sempre
Dá até para imaginar um modelo que oferece inferência gratuita a pesquisadores em troca de usar esse rastro de raciocínio (trace) como dado de treino
Modelos como Qwen3-next, Qwen3.5 e Nemotron 3 Nano suportam janelas de milhões de tokens com atenção híbrida, reduzindo o custo de memória
Loops de feedback em tempo real com validação humana, execução de código e busca funcionam como sinal de treino para os modelos
É meio brincadeira, mas não é algo totalmente impossível
Isso lembra a antiga conversa entre Wolfram e Knuth sobre o GPT-4
Knuth era cético na época, mas ao ver modelos recentes como o Opus 4.6, parece ter suavizado a postura
É admirável mudar de ideia diante de novas evidências
A conversa relacionada pode ser vista aqui
E também o cerne do pensamento científico
A introdução do texto do Knuth parece um tanto passível de interpretação equivocada
Fica parecendo que o Claude resolveu o problema diretamente, mas na prática o Claude criou exemplos e o Knuth generalizou isso e transformou em prova
LLMs são fracos em definir a direção, mas, uma vez dada a direção, fazem uma exploração profunda muito bem
Se deixados sozinhos, vão para lugares estranhos, mas, quando uma pessoa lidera, viram ótimos parceiros
O Claude teve o papel de penetrar no cerne do problema, e o humano só refinou isso
Organizar a prova é só um trabalho secundário
A parte em que o Claude parou no caso par é interessante
Ele provavelmente usou claude.ai ou claude code, e parece ter entrado numa zona burra por excesso de contexto (dumb zone)
Algo como mostrar um gráfico de uso de contexto como no Copilot, para o usuário perceber isso, seria útil
Alguém testou fazer o Claude resolver o famoso quebra-cabeça de pentominós popularizado por Arthur C. Clarke
Ao representar o tabuleiro e as peças com inteiros de 64 bits, ele criou um programa em C# que resolveu rápido, mas no caso 20x3 deu uma resposta errada por causa de um mapeamento incorreto
É interessante porque parece um erro que um humano cometeria
Resumindo, Knuth propôs o problema e um amigo fez mais de 30 explorações com o Claude
O Claude criou um programa em Python que resolve os casos ímpares, e o Knuth provou essa abordagem
O caso par continua sendo um problema em aberto
Na prática, o Claude travava ou errava com frequência, e o humano só dava alguns lembretes de vez em quando
Não fica claro de quem veio a ideia central
Hoje em dia é realmente um momento divertido para lidar com problemas em aberto
Dá vontade de revisitar pesquisas de 10 anos atrás e explorá-las de novo com o Claude
Os pontos fortes dos LLMs parecem ser três: conhecimento vasto, capacidade de fazer conexões e tentativa e erro incansáveis
Quando essas três coisas se juntam, às vezes surgem resultados surpreendentes
Talvez até a prova de P≠NP esteja em alguma ligação tênue que humanos ainda não perceberam
O LLM é só um dos componentes ali dentro
Mantidas as demais condições, isso pode ser a diferença decisiva
Ainda é difícil criar conexões realmente novas
Fico em dúvida se a frase “LLM é só uma máquina de prever a próxima palavra” está mesmo correta
Se for assim, como explicar esse tipo de resolução de problemas? Isso seria ‘pensar’?
A expressão “a palavra mais provável” é uma simplificação excessiva
No fim, a própria “capacidade de prever bem o que vai acontecer em seguida” talvez seja a definição de inteligência
Graças ao RLHF, ele é recompensado não por prever qualquer coisa, mas por dar respostas úteis
É por isso que expressões como “delve” aparecem com frequência excessiva
Veja também o documento AI SIGNS
Os LLMs estão aprendendo essa distribuição
Reduzir isso a uma caricatura irônica é perder de vista a essência da tecnologia
É interessante ver que é um relatório do próprio Knuth
É hora de ler e entender isso sem ajuda de LLM