- A.T.L.A.S (Adaptive Test-time Learning and Autonomous Specialization) é um sistema de IA auto-hospedado que entrega desempenho de geração de código em nível de grandes modelos usando uma única GPU de consumo
- No LiveCodeBench v5, registrou 74.6% pass@1-v(k=3), superando o Claude 4.5 Sonnet (71.4%) e alcançando uma melhoria de desempenho quase duas vezes maior em relação à versão anterior
- Mantendo congelado um modelo de 14B de parâmetros (Qwen3-14B-Q4_K_M), obtém alto desempenho com geração baseada em restrições, loop de autoverificação e correção e seleção de candidatos com Geometric Lens
- Executa de forma totalmente autônoma em ambiente local, sem nuvem nem chamadas de API, e o custo se resume ao consumo de energia, oferecendo alta eficiência de custo em comparação com modelos baseados em API
- Em um ambiente com RTX 5060 Ti 16GB GPU, processa 599 tarefas em cerca de 2 horas, mostrando que é possível reproduzir em hardware pessoal a capacidade de geração de código de grandes modelos
Resultados do benchmark
- LiveCodeBench v5: 74.6% pass@1-v(k=3), 599 tarefas executadas
- Pipeline V3: PlanSearch + self-verified PR-CoT repair
- GPQA Diamond: 47.0%, 198 tarefas
- SciCode: 14.7%, 341 tarefas
- pass@k-v(k=3) não é o resultado de uma única tentativa, mas um método que inclui geração de 3 candidatos, seleção com Lens e correções iterativas em caso de falha
-
Contribuição por etapa da V3 (Ablation Study)
- A: base (sem V3) → 54.9%
- B: Phase 1 (PlanSearch + BudgetForcing + DivSampling) → 67.3% (+12.4pp)
- C: Phase 1+2 (Lens routing) → 67.3% (+0.0pp)
- D: Phase 1+3 (self-verified refinement) → 74.6% (+7.3pp)
- A Phase 3 realiza verificação interna com casos de teste gerados pelo próprio modelo, sem usar as respostas reais
- O PR-CoT recuperou 36 de 42 problemas (85.7%) na Phase 3
Comparação de custo e desempenho
| Sistema |
LCB pass@1 |
Custo por tarefa |
Observações |
| DeepSeek V3.2 Reasoning |
86.2% |
~$0.002 |
API, tentativa única |
| GPT-5 (high) |
84.6% |
~$0.043 |
API, tentativa única |
| ATLAS V3 |
74.6% |
~$0.004 |
Apenas energia local, best-of-3 + repair |
| Claude 4.5 Sonnet |
71.4% |
~$0.066 |
API, tentativa única |
| Claude 4 Sonnet |
65.5% |
~$0.066 |
API, tentativa única |
- O ATLAS gera apenas custo de energia, sem custo de API
- Com uma GPU de 165W, as 599 tarefas levam cerca de 1 hora e 55 minutos
- A latência é maior, mas a eficiência de custo é muito alta
Como funciona
-
Pipeline completo
- Phase 1: Generate
- PlanSearch: extração de restrições e geração de planos variados
- Budget Forcing: controle do uso de tokens
- Etapa de Verify
- Geometric Lens (C(x)): energy scoring com embeddings próprios de 5120 dimensões
- Sandbox: execução e verificação do código
- Phase 3: Repair
- Self-Test Generation: o modelo gera seus próprios pares de entrada e saída
- PR-CoT Repair: correção de código baseada em chain-of-thought de múltiplas perspectivas
- Uma única instância do llama-server roda sobre K3s e realiza ao mesmo tempo speculative decoding e geração dos próprios embeddings
- O Geometric Lens seleciona o melhor código entre os candidatos (87.8% de precisão em tarefas com resultados mistos)
- As tarefas que falham seguem para a Phase 3, onde passam por geração de testes próprios e correções iterativas
Instalação e execução
- Clone o repositório no GitHub, copie o arquivo de configuração e execute o script de instalação
- Execute o benchmark V3 com
benchmark/v3_runner.py
- Consulte docs/SETUP.md para o procedimento detalhado de instalação
Hardware e reprodução
| Recurso |
Mínimo |
Ambiente de teste |
| GPU VRAM |
16 GB |
RTX 5060 Ti 16 GB |
| RAM do sistema |
14 GB |
16 GB |
| Python |
3.10+ |
3.11 |
| OS |
RHEL 9 / Ubuntu 24 |
RHEL 9 (Proxmox VM) |
- Reproduzido em ambiente com Proxmox VM + passthrough de GPU via VFIO
- Também pode rodar em outras GPUs NVIDIA com VRAM de 16GB ou mais, mas requer ajustes de driver e configuração de VRAM
- Principais parâmetros de ajuste:
- número de slots
--parallel (padrão 2, reduzir para 1 em caso de VRAM insuficiente)
- quantização do KV cache (Q4_0)
- comprimento de contexto por slot (padrão de 20480 tokens)
- testes concluídos com CUDA 12.8
- V3.1 deve melhorar a portabilidade
Roadmap
-
V3.0 (concluído, 2026-03-05)
- Baseado em Qwen3-14B-Q4_K_M, com desempenho de 74.6% no LCB
- Pipeline PlanSearch + BudgetForcing + Geometric Lens + PR-CoT concluído
-
Limitações conhecidas
- Otimização focada em LCB: pouca otimização para outros benchmarks, como GPQA e SciCode
- Phase 2 (Lens routing): efeito mínimo devido à falta de dataset (+0.0pp)
- G(x) metric tensor desativado: C(x) não treinado, sem estrutura geométrica significativa
- Processamento single-thread: sem suporte a paralelização de tarefas
- Bug de stdio no SandboxAdapter: função de separação de entrada desativada (correção prevista para V3.1)
-
V3.1 (em andamento)
- Troca de modelo: Qwen3-14B → Qwen3.5-9B (DeltaNet linear attention, 3~4x mais rápido)
- Retreinamento do Lens: recalibração de C(x) com base em feedback em tempo real
- Redesenho da Phase 2: reimplementação ou remoção de G(x), correção do bug no SandboxAdapter
- Introdução de paralelização: aumento da velocidade de processamento com execução paralela de tarefas
- Suite de benchmarks expandida: inclusão de avaliação de raciocínio e conhecimento além de programação
-
Benchmarks planejados para V3.1
- Programação: LiveCodeBench v5, SciCode e datasets adicionais resistentes a contaminação
- Raciocínio/Conhecimento: GPQA Diamond, AA-LCR, AA-Omniscience, Humanity’s Last Exam, CritPt etc.
- O Confidence Router seleciona o caminho conforme a dificuldade da tarefa:
- consulta simples → inferência rápida baseada em RAG (~30 segundos)
- problema complexo de programação → pipeline completo (~20 minutos)
- Meta: 80~90% LCB pass@1-v(k=3) e maior velocidade de processamento
Licença
- A.T.L.A.S Source Available License v1.0
1 comentários
Comentários no Hacker News
Eu não espero que um agente gere grandes blocos de código
Em vez disso, ele é muito mais útil para vasculhar logs ou analisar vários arquivos-fonte e explicar a causa de falhas em testes
Acho que precisamos de benchmarks de depuração para avaliar essa capacidade. Seria bom ter testes que medissem familiaridade com sistemas de build ou CLI
Por exemplo, refatorei o app inteiro de hard delete para soft delete, e precisei alterar tanto a lógica de exclusão quanto as queries
Fazer isso manualmente é tedioso e sujeito a erros, então fiquei realmente grato por o agente ter resolvido rápido
O SWE Bench Pro ainda não foi otimizado em excesso, então é confiável
Já o SWE comum ou o LCB perderam muita utilidade por causa da competição de inflar números
Só para contextualizar, sou fundador da Quesma
Hoje em dia quase não escrevo código diretamente, seja na empresa ou em projetos paralelos
Trabalho principalmente criando ferramentas para desenvolvedores em Rust e TypeScript
Faço deploy com kubectl / helm e, quando surge um problema, o agente depura por conta própria
É surpreendente como algo que levava horas termina num instante
Eu gostaria de recomendar a desenvolvedores que experimentassem modelos como MiniMax e Kimi no trabalho real
Mas as desvantagens também aparecem rápido — maior consumo de tokens de raciocínio, saída lenta, queda de qualidade etc.
Ainda assim, dá para economizar bastante se você gerenciar bem o roteamento de modelos e o reasoning budget
Também é importante otimizar o app e os prompts para reduzir os tokens de saída
Mas, em tarefas difíceis, a eficiência importa mais do que o simples preço por token
A abordagem do link também funciona com Sonnet e Opus
Só que MiniMax e Qwen ainda não chegam nesse nível
No fim, o principal é projetar um harness que diferencie qual modelo é mais custo-efetivo para cada tarefa
Testei o Opus 4.6 medium e me arrependi na hora. A diferença de qualidade é grande demais
resultado comparativo do aibenchy
Não ligo para consumo de tokens; no plano de 10 euros por mês dá para fazer 1500 requisições a cada 5 horas
Na prática, ele não é mais lento que Opus ou Sonnet
Nos benchmarks, os modelos da Anthropic parecem melhores, mas em trabalho real a diferença quase não existe
Quando o MiniMax trava, eu mudo para o Opus, e depois volto para o MiniMax
O Opus consome o orçamento rapidamente, mas o MiniMax é praticamente ilimitado
Ele encontra problemas mais rápido que Claude ou GPT
Mas o problema de consistência de contexto é sério — ao reescrever código, pequenos desvios podem estragar tudo
Neste momento, é uma corrida interminável por preço
O DeepSeek vence todos os modelos em execução única, e o custo também fica na faixa de metade da energia elétrica local
A ideia é gerar várias respostas, selecionar candidatos promissores com um modelo pequeno, testá-los e repetir com feedback
Ele converge gradualmente, como uma espécie de algoritmo genético
Modelos pequenos foram ajustados demais para os testes, e no ambiente real o desempenho é péssimo
Eu sempre sou cético
Benchmarks são aprovados, mas na prática muitas vezes falta generalidade
Ainda assim, a tentativa de enxugar os modelos em si é interessante
Em programação de sistemas (C++, Rust), ainda existe uma grande distância em relação ao nível do Sonnet 4.5
Modelos abertos passam tempo demais resolvendo erros de sintaxe e frequentemente perdem consistência lógica
Tenho GPUs locais suficientes, mas também me preocupo com os problemas de licença dos modelos em nuvem
Ele gera várias soluções e calcula uma impressão digital de embeddings (fingerprint) de cada código para prever a exatidão
Uma pequena rede neural chamada Cost Field dá uma pontuação a isso e escolhe o código mais provável de estar correto
Assim, reduz o tempo de teste e ainda seleciona a resposta certa com 88% de precisão
Paradoxalmente, um modelo grande pode ser estruturalmente mais simples
Enquanto eu lia, o preço da GPU já virou US$ 1000
Este projeto feito por IA roda seu próprio benchmark de uma forma completamente diferente do LiveCodeBench
No README, está explícito que a pontuação do ATLAS vem do resultado do pipeline V3 (best-of-3 + Lens + reparo iterativo) com base em 599 tarefas do LCB
Já as pontuações dos modelos concorrentes usam execução única (pass@1), então a comparação é injusta
Sonnet ou GPT5.4 também poderiam ter pontuações maiores se fossem testados do mesmo jeito
O README tem muitas estruturas que nem são realmente usadas, o que mostra a fragilidade de código gerado automaticamente por IA
Fico curioso se esse tipo de benchmark só funciona para otimização específica do problema
No fim, vamos acabar aprendendo os limites de não conseguir comprimir a generalidade
A expressão “Geometric Lens routing” soa estranha demais
Parece só um termo inventado pelo GPT
Apesar do ceticismo, fico muito feliz de ver esse tipo de experimento com modelos abertos
Se der para rodar modelos localmente até em PCs intermediários para avançados, já é um grande progresso