Ouroboros, open source de um desenvolvedor coreano, supera o Claude Plan Mode e fica em 1º lugar em benchmark de modelagem e simulação

(github.com/Q00)

2 pontos por shaun0927 1 시간 전 | Ainda não há comentários. | Compartilhar no WhatsApp

O projeto open source Ouroboros, criado por um desenvolvedor coreano,
ficou recentemente em 1º lugar geral no benchmark "AI-assisted discrete-event simulation".

O ponto especialmente significativo foi que, mesmo tendo sido executado no mesmo ambiente Claude Max, apresentou resultados melhores do que o próprio plan mode do Claude.

Esse benchmark não era um simples teste de capacidade de programação, mas uma tarefa de alta complexidade que avaliava o quanto um agente de IA consegue realmente entender um sistema, modelá-lo e até produzir resultados de simulação executáveis.

A tarefa tinha como alvo um sistema de transporte em mineração e exigia, em linhas gerais, as seguintes capacidades.

entender a estrutura do sistema, incluindo caminhões de mineração, pontos de carregamento, pontos de descarga, rotas e filas
abstrair processos complexos do mundo real em um modelo de discrete-event simulation
projetar quais eventos ocorrerão, quais estados mudarão e quais métricas serão medidas
implementar código de simulação realmente executável
interpretar resultados como gargalos, throughput e tempo de espera
gerar entregáveis fáceis de entender por humanos, como topology diagram e animações

Ouroboros foi executado dentro do Claude Code com o workflow ooo,
e a submissão foi além de uma simples implementação de código, incluindo até uma animação de caminhões de mineração transportando minério e um topology diagram.

Um ponto interessante é que, mesmo com a falha do MCP server durante a execução,
o Ouroboros conseguiu recorrer a uma abordagem baseada em skills como fallback e ainda assim obteve um bom resultado.
Pessoalmente, considero essa parte especialmente significativa.
Isso porque, em ambientes reais, workflows de IA nem sempre funcionam de forma ideal,
e a capacidade de se recuperar de falhas e continuar por outro caminho é importante.

A direção que o Ouroboros busca não é simplesmente “fazer a IA escrever código”.

Ele cria um workflow em que a IA esclarece o problema, faz um plano, executa, se recupera de falhas, avalia os resultados e, quando necessário, melhora novamente.

Considero este benchmark uma boa validação de que essa abordagem também faz sentido na resolução de problemas complexos do mundo real.

Outro ponto interessante foi que simplesmente adicionar muitas instruções ou skills grandes nem sempre produziu bons resultados.
Neste resultado, algumas abordagens baseadas em fat skills, como superpowers, tiveram desempenho inferior até mesmo ao plan mode básico,
enquanto, por outro lado, workflows estruturados como o Ouroboros — com definição do problema, planejamento, execução, avaliação e recuperação — obtiveram resultados melhores.

Pessoalmente, sinto orgulho pelo fato de este ser “um caso em que um workflow open source de IA criado por um desenvolvedor coreano
superou o plan mode padrão da Anthropic”.
Mas, mais importante do que isso, vejo este resultado como um pequeno experimento sobre que tipo de estrutura os agentes de IA deverão ter para resolver problemas reais no futuro.

Ouroboros GitHub: https://github.com/Q00/ouroboros
Benchmark: https://lnkd.in/dhGMsGVD

Ouroboros, open source de um desenvolvedor coreano, supera o Claude Plan Mode e fica em 1º lugar em benchmark de modelagem e simulação

Leituras relacionadas

Ainda não há comentários.