[2026/06/08 ~ 14] Uma seleção de artigos de AI/ML para conferir nesta semana
(discuss.pytorch.kr)PyTorchKR🔥🇰🇷 🤔💭
Ao analisar os 10 artigos selecionados desta semana, é possível identificar três tendências claras em que a pesquisa em inteligência artificial busca ir além da simples melhoria de desempenho dos modelos para romper os limites de autonomia, confiabilidade e eficiência.
1️⃣ Evolução do autoaperfeiçoamento autônomo e dos sistemas multiagentes: Nos artigos desta semana, destaca-se a tendência de evolução dos agentes para sistemas autônomos capazes de se organizar por conta própria e melhorar suas fraquezas, indo além de instruções explícitas de humanos ou trajetórias fixas. Economy of Minds e AutoScientists propõem sistemas cooperativos distribuídos nos quais os agentes dividem papéis espontaneamente e mantêm exploração de longo prazo por meio de interações econômicas (leilões, acumulação de capital) ou fóruns compartilhados, sem controle central. Além disso, Self-Harness apresentou um framework em que o agente analisa seus próprios padrões de falha passados e modifica iterativamente o prompt de sistema e as políticas operacionais (Harness), elevando seu desempenho por conta própria. Isso sugere que a IA está deixando de ser uma ferramenta passiva para tarefas isoladas e se tornando um agente evolutivo ativo, capaz de realizar planejamento e colaboração de longo prazo.
2️⃣ Validação rigorosa das capacidades de IA e uso complementar (híbrido): Também aparecem como tendência principal estudos mais críticos, que apontam limitações reais por trás do desempenho superficial da IA e tentam superá-las combinando-a com humanos ou algoritmos clássicos. LiveBrowseComp destacou o ponto cego de que agentes de busca, na prática, muitas vezes não descobrem informação nova, apenas confirmam conhecimento prévio já presente no modelo. O estudo sobre revisores de IA demonstrou que, embora a IA seja excelente em detectar erros minuciosos, ela é fraca para compreender contextos de longo prazo e, por isso, não pode substituir totalmente revisores humanos, funcionando como um “complemento”. Indo além, o estudo sobre otimização de hiperparâmetros (HPO) confirmou que a capacidade dos LLMs de rastrear estado é inferior à de algoritmos clássicos e obteve o melhor desempenho com uma abordagem híbrida que compartilha com o LLM o estado interno de uma metodologia clássica (CMA-ES). Trata-se de uma tentativa realista de evitar benchmarks inflados e projetar estruturas de colaboração mais eficazes a partir do reconhecimento claro das fraquezas da IA.
3️⃣ Otimização inteligente de dados, ambiente e recursos computacionais: Em vez de apenas aumentar a escala dos modelos, está em alta uma abordagem mais infraestrutural que busca maximizar a eficiência do ambiente de treinamento, dos dados e do hardware computacional para elevar a densidade de desempenho por custo. AutoForge resolveu o problema de escalabilidade do aprendizado ao sintetizar automaticamente ambientes complexos de simulação para aprendizado por reforço de agentes em cenários difíceis. APEX mostrou eficiência máxima no uso de dados ao classificar dinamicamente sua dificuldade e concentrar a computação de otimização de prompts apenas nos dados mais informativos. Além disso, FP8 is All You Need rompeu os limites da computação de alto desempenho (HPC) baseada em operações caras de dupla precisão (FP64) ao usar operações tensoriais de baixa precisão em 8 bits, e DySIB demonstrou eficiência matemática ao extrair apenas a informação dinâmica essencial de dados observacionais de alta dimensionalidade. Trata-se de um esforço intenso para usar recursos limitados da forma mais inteligente possível e ampliar a aplicabilidade prática da IA na indústria e na ciência.
Resumo dos pontos principais de cada artigo
-
Economy of Minds propõe um sistema distribuído em que, sem controle centralizado, agentes adquirem o direito de agir por meio de leilões e acumulam riqueza com recompensas do ambiente com base em regras de interação econômica, evoluindo espontaneamente e formando inteligência coletiva de alto nível, como raciocínio em múltiplas etapas.
-
AutoForge apresenta um pipeline integrado no nível do ambiente que sintetiza automaticamente, em grande escala, ambientes de simulação difíceis e verificáveis para aprendizado por reforço eficaz de agentes de linguagem de grande porte, superando a instabilidade do usuário e a heterogeneidade entre ambientes para melhorar a estabilidade do treinamento.
-
APEX foi concebido para corrigir a ineficiência dos métodos existentes, que desperdiçam todo o conjunto de avaliação ao otimizar prompts de grandes modelos de linguagem, selecionando dinamicamente faixas mistas em que respostas corretas e incorretas se cruzam para maximizar a eficiência dos dados dentro de um orçamento computacional limitado.
-
Self-Harness apresenta um framework em que, sem intervenção de especialistas humanos nem ajuda de modelos externos mais poderosos, o próprio agente analisa padrões de falha encontrados em rastros de execução passados e, após testes de regressão, modifica autonomamente a política operacional que medeia a interação entre ele e o ambiente.
-
O estudo autoresearch revela que grandes modelos de linguagem ainda não superam totalmente algoritmos clássicos em ambientes de otimização de hiperparâmetros devido à dificuldade de rastreamento explícito de estado e propõe uma abordagem híbrida que compartilha com o modelo de linguagem o estado interno da estratégia evolutiva de adaptação de matriz de covariância, alcançando o melhor desempenho.
-
FP8 is All You Need contesta a ideia de que hardware nativo de ponto flutuante em dupla precisão é indispensável em computação de alto desempenho e demonstra que, ao combinar o teorema chinês do resto com operações tensoriais de baixa precisão em 8 bits para maximizar a vazão de tensores, é possível recuperar desempenho de execução sem perda de precisão.
-
O estudo sobre revisores de IA analisa em múltiplas camadas, com base em resultados anotados e validados em larga escala por 45 especialistas de domínio sobre artigos do grupo Nature, como a inteligência artificial pode atuar como excelente complemento ao identificar problemas únicos que humanos deixaram passar, mas também possui limitações estruturais, como gestão de contexto longo e falta de conhecimento tácito em áreas específicas.
-
LiveBrowseComp diagnostica o fenômeno de agentes de busca existentes dependerem mais da reconfirmação de conhecimento pré-existente do que da descoberta de novos fatos na web externa e introduz um novo benchmark para avaliar com rigor a verdadeira capacidade de deep search sobre fatos recentes além da fronteira de conhecimento do modelo.
-
DySIB propõe uma metodologia para aprender com precisão e interpretabilidade coordenadas geométricas de um espaço de fase de baixa dimensionalidade que governa a dinâmica de um sistema, maximizando a informação mútua preditiva entre janelas de observação passadas e futuras em dados temporais observacionais de alta dimensionalidade, sem reconstruir diretamente as imagens brutas.
-
AutoScientists construiu um sistema autônomo de pesquisa em que uma equipe distribuída de agentes discute, se organiza e conduz por conta própria o ciclo iterativo de formulação de hipóteses, execução de experimentos, análise de resultados e revisão exigido em experimentos científicos computacionais de longo prazo, preservando o conhecimento de explorações fracassadas e colaborando em direções promissoras.
A economia das mentes: inteligência multiagente emergente por meio de interações econômicas / Economy of Minds: Emerging Multi-Agent Intelligence with Economic Interactions
Introdução ao artigo
Este estudo, que trata de como múltiplos agentes podem evoluir espontaneamente para uma inteligência coletiva mais forte sem controle centralizado, chama atenção por representar uma tentativa de levar a teoria de coordenação descentralizada de mercado de Friedrich Hayek para a inteligência artificial multiagente. Para isso, os autores propõem o framework de uma economia de agentes (agent economy), em que cada agente não apenas coopera, mas é projetado para adquirir o direito de agir por meio de leilões (auction), realizar pagamentos entre si e acumular riqueza com as recompensas obtidas no ambiente. Esses sinais econômicos tornam possível a atribuição distribuída de crédito (decentralized credit assignment) entre os agentes, mesmo sem orquestração global separada nem protocolos explícitos de comunicação, fazendo com que o valor de cada ação emerja naturalmente. Como resultado, o planejamento não é imposto de fora para dentro, mas se forma internamente à medida que cada agente segue seus próprios incentivos econômicos. Em outras palavras, em vez de projetar minuciosamente mecanismos complexos de colaboração, a abordagem faz o pensamento coletivo emergir ao definir bem as próprias regras de interação.
Outro ponto central do artigo é que o sistema não permanece preso a uma estrutura fixa, mas evolui continuamente por meio de seleção econômica (economic selection). Agentes eficientes acumulam mais riqueza e ganham oportunidades de melhoria voltadas à exploração de valor já conhecido (exploitation), enquanto agentes de baixo desempenho perdem recursos e são substituídos por novos agentes, abrindo caminhos para exploração de novas possibilidades (exploration). Ao usar riqueza (wealth) como variável de estado, esse desenho vai além da simples otimização de parâmetros e forma um mecanismo evolutivo distribuído em que incentivos locais dos agentes (local incentives) se conectam ao desempenho coletivo de longo prazo (long-term global performance). É especialmente importante que, mesmo começando com agentes iniciais fracos, estratégias de ação mais sofisticadas possam ser gradualmente acumuladas e combinadas por meio dessa dinâmica econômica. Os autores mostram, em particular, que comportamentos de alto nível como raciocínio em múltiplas etapas (multi-step reasoning) podem surgir espontaneamente nesse processo, sustentando que os agentes evoluem de políticas meramente reativas para estratégias que incluem planejamento e verificação.
Experimentalmente, o estudo valida a eficácia desse sistema econômico em cinco tarefas agentic: raciocínio matemático, pesquisa financeira, pesquisa científica, design de aceleradores (accelerator design) e otimização de sistemas distribuídos (distributed-system optimization). Como resultado, foi relatado que o método proposto apresentou desempenho superior ao de um modelo único monolítico (monolithic baseline) mais forte, sugerindo que a expansão da inteligência multiagente não precisa necessariamente depender de coordenação centralizada. A principal mensagem deste estudo é que, em vez de projetar diretamente a coordenação, deve-se projetar uma estrutura de incentivos na qual a coordenação surja naturalmente. O argumento é que mecanismos econômicos simples, como leilões, pagamentos, riqueza, falência e substituição, podem organizar simultaneamente competição e cooperação e, nesse processo, fazer emergir melhores estratégias de raciocínio e resolução de problemas. Além disso, os autores também apresentam insights teóricos sobre como a dinâmica econômica molda o comportamento dos agentes, mostrando que esse fenômeno não é um resultado empírico acidental, mas uma área de projeto possível baseada em princípios. Em última análise, este artigo explica como estruturas de incentivos distribuídas podem impulsionar o crescimento da inteligência coletiva e propõe um novo paradigma para projetar a inteligência artificial multiagente no futuro.
Resumo (Abstract)
Como uma população de agentes pode se auto-organizar e se auto-adaptar para evoluir em uma inteligência coletiva mais forte sem controle centralizado? Inspirados pela teoria econômica de Friedrich Hayek sobre coordenação descentralizada nos mercados, estudamos essa questão por meio de uma economia de agentes na qual os agentes competem, via leilões, pelo direito de agir, trocam pagamentos e acumulam riqueza a partir das recompensas do ambiente. Esses sinais econômicos simples induzem uma atribuição de crédito descentralizada, conduzindo o planejamento sem orquestração global nem protocolos explícitos de comunicação. A população evolui por seleção econômica. Agentes eficazes acumulam riqueza e sofrem mutação por meio de exploitation, enquanto agentes ineficazes vão à falência e são substituídos por meio de exploration. Mostramos que, mesmo inicializada com agentes fracos, essa economia produz estratégias emergentes de raciocínio em múltiplas etapas e supera baselines monolíticos mais fortes em cinco tarefas agentic, incluindo raciocínio matemático, pesquisa financeira, pesquisa científica, design de aceleradores e otimização de sistemas distribuídos. Também apresentamos insights teóricos sobre como a dinâmica econômica molda o comportamento dos agentes, explicando como incentivos locais se conectam ao desempenho global de longo prazo. Nossos resultados sugerem um novo caminho para a inteligência multiagente: em vez de projetar diretamente a coordenação, podemos projetar estruturas de incentivos descentralizadas sob as quais ela emerge automaticamente.
How can a population of agents self-orchestrate and self-adapt into stronger collective intelligence without centralized control? Inspired by Friedrich Hayek's economic theory of decentralized coordination in markets, we study this question through an agent economy in which agents compete via auctions for the right to act, exchange payments, and accumulate wealth from environmental rewards. These simple economic signals induce decentralized credit assignment, driving planning without global orchestration or explicit communication protocols. The population evolves through economic selection: effective agents accumulate wealth and are mutated via exploitation, while ineffective ones go bankrupt and are replaced via exploration. We show that, initialized with weak agents, the economy produces emergent multi-step reasoning strategies and outperforms stronger monolithic baselines across five agentic tasks, including mathematical reasoning, financial research, scientific research, accelerator design, and distributed-system optimization. We further provide theoretical insights into how economic dynamics shape agent behaviors, linking local incentives to long-term global performance. Our results suggest a new path to multi-agent intelligence: rather than engineering coordination, we can design decentralized incentive structures under which it automatically emerges.
Link do artigo
https://arxiv.org/abs/2606.02859
Leia mais
https://zhentingqi.github.io/internal/projects/EoM/
https://github.com/zhentingqi/EoM
AutoForge: síntese automatizada de ambientes para aprendizado por reforço agentic / AutoForge: Automated Environment Synthesis for Agentic Reinforcement Learning
Introdução ao artigo
Para treinar agentes baseados em grandes modelos de linguagem de forma mais próxima do mundo real, são necessários, ao mesmo tempo, um método para produzir em massa ambientes de simulação de baixo custo, mas suficientemente complexos, de forma estável, e um procedimento de treinamento capaz de suportar o ruído de interação que surge nesses ambientes. Para resolver esse problema, o AutoForge propõe um pipeline unificado que sintetiza automaticamente ambientes de simulação conectados a tarefas verificáveis de alta dificuldade (high-difficulty but easily verifiable tasks), além de um algoritmo de aprendizado por reforço em nível de ambiente (reinforcement learning, RL) projetado de acordo com as características desses ambientes. A ideia central é tratar o ambiente não como um simples conjunto de prompts, mas como um sistema executável composto por uma estrutura de estados e um conjunto de funções operacionais, gerando esses ambientes em larga escala com base em documentos de descrição de ferramentas. Em especial, na geração da estrutura de estados, os nomes dos atributos são separados dos valores reais, e, na geração do conjunto de funções, código Python dependente da estrutura de estados é sintetizado automaticamente, de modo que diferentes tarefas possam ser consistentemente construídas sobre um esquema de ambiente reutilizável.
Em seguida, na etapa de geração de sequências de ferramentas, em vez de uma simples enumeração de ferramentas, é construído um grafo acíclico direcionado (directed acyclic graph, DAG) no qual chamadas de ferramentas e raciocínio de ordem superior se entrelaçam por meio de random walk baseado em grafos, fusão de sequências, inserção de nós de raciocínio e inserção de arestas de raciocínio. Esse procedimento busca criar tarefas que exijam dependências muito mais complexas do que desafios de consulta única, oferecendo um nível de dificuldade mais parecido com o processo real em que um agente chama ferramentas, interpreta os resultados e decide a próxima ação. O grafo gerado é então repassado à etapa de geração de tarefas, onde é novamente refinado em amostras de treinamento verificáveis que contêm tanto o estado inicial quanto o estado final, e a correção é julgada não pela correspondência de um caminho específico de ferramentas, mas pela correspondência do estado final. Esse ponto reflete a característica dos ambientes de agentes, em que o mesmo objetivo pode ser alcançado por vários caminhos, e é significativo por alinhar tanto a geração de dados quanto os critérios de avaliação em torno do estado.
O algoritmo de aprendizado ERPO expande o GRPO existente para lidar simultaneamente com a instabilidade de usuários simulados (simulated user) e com a heterogeneidade entre ambientes. O agente realiza rollouts alternando entre chamadas de ferramentas e solicitações de informação ao usuário e, nesse processo, usa interleaved thinking para manter o conteúdo de raciocínio anterior enquanto continua o planejamento e o replanejamento de longo prazo. Além disso, ao aplicar a estratégia masking erroneous user behaviors (MEU), que identifica previamente comportamentos incorretos do usuário e os exclui do sinal de aprendizado, reduz-se o problema de erros de usuários sintéticos contaminarem a estimativa de recompensa e a atualização da política. A contribuição mais importante é a advantage estimation em nível de ambiente: em vez de calcular a advantage normalizando recompensas para o mesmo conjunto de perguntas, ela é calculada normalizando as recompensas dentro do mesmo ambiente, o que a torna menos sensível a diferenças de dificuldade e a outliers entre ambientes, aumentando a estabilidade do aprendizado.
No fim, esse desenho pode ser visto como uma tentativa de reunir, em um único framework coerente, três camadas — geração de ambientes, procedimento de interação e estimativa de recompensa — para garantir ao mesmo tempo escala, estabilidade e capacidade de generalização exigidas pelo aprendizado por reforço agêntico. As validações em tau-bench, tau2-Bench e VitaBench, junto da análise de generalização fora do domínio, sugerem que o AutoForge pode funcionar não apenas como uma técnica de geração de dados sintéticos, mas como uma infraestrutura fundamental para o treinamento de agentes reais.
Resumo(Abstract)
Realizar aprendizado por reforço (RL) em ambientes simulados oferece uma forma econômica e altamente escalável de melhorar agentes baseados em linguagem. No entanto, trabalhos anteriores ficaram restritos à síntese semiautomatizada de ambientes ou a tarefas com dificuldade insuficiente, carecendo de amplitude e profundidade. Além disso, a instabilidade dos usuários simulados integrados a esses ambientes, bem como a heterogeneidade entre os ambientes simulados, impõem desafios adicionais ao RL agêntico. Neste trabalho, propomos: (1) um pipeline unificado para a síntese automatizada e escalável de ambientes simulados associados a tarefas de alta dificuldade, mas de verificação simples; e (2) um algoritmo de RL em nível de ambiente que não apenas mitiga de forma eficaz a instabilidade do usuário, como também realiza estimativa de advantage no nível do ambiente, melhorando assim a eficiência e a estabilidade do treinamento. Avaliações abrangentes em benchmarks agênticos, incluindo tau-bench, tau2-Bench e VitaBench, validam a eficácia do método proposto. Análises adicionais em profundidade destacam sua forte capacidade de generalização fora do domínio.
Conducting reinforcement learning (RL) in simulated environments offers a cost-effective and highly scalable way to enhance language-based agents. However, previous work has been limited to semi-automated environment synthesis or tasks lacking sufficient difficulty, offering little breadth or depth. In addition, the instability of simulated users integrated into these environments, along with the heterogeneity across simulated environments, poses further challenges for agentic RL. In this work, we propose: (1) a unified pipeline for automated and scalable synthesis of simulated environments associated with high-difficulty but easily verifiable tasks; and (2) an environment level RL algorithm that not only effectively mitigates user instability but also performs advantage estimation at the environment level, thereby improving training efficiency and stability. Comprehensive evaluations on agentic benchmarks, including tau-bench, tau2-Bench, and VitaBench, validate the effectiveness of our proposed method. Further in-depth analyses underscore its out-of-domain generalization.
Link do artigo
https://arxiv.org/abs/2512.22857
APEX: especialista em engenharia automática de prompts com seleção dinâmica de dados / APEX: Automated Prompt Engineering eXpert with Dynamic Data Selection
Introdução ao artigo
Como os grandes modelos de linguagem (Large Language Models, LLMs) são altamente sensíveis à forma como um prompt é formulado, a otimização automática de prompts (automatic prompt optimization) se torna uma tarefa central para extrair plenamente seu potencial. Abordagens anteriores baseadas em algoritmos evolutivos (evolutionary algorithms) mostraram força em modificar prompts de forma gradual, mas revelaram a limitação de consumir o orçamento computacional de modo ineficiente ao reutilizar repetidamente o dataset de desenvolvimento como um recurso fixo de avaliação. O APEX (Automatic Prompt Engineering eXpert) propõe um novo framework para resolver esse gargalo, otimizando ao mesmo tempo a exploração de prompts e o uso dos dados. No centro desse método está uma estratégia de reconfigurar dinamicamente o dataset em três camadas — Easy, Hard e Mixed — ao longo da linhagem de otimização (optimization lineage), considerando especialmente a camada Mixed, onde respostas corretas e incorretas do modelo aparecem juntas, como a faixa de maior conteúdo informacional. Essa perspectiva mostra claramente que, mais do que simplesmente ver muitos exemplos, o mais importante é identificar quais exemplos realmente fornecem sinais úteis para melhorar o prompt.
O APEX extrai duas fronteiras de alto valor da camada Mixed. Uma é a addressable frontier, favorável à geração de mutações informativas, e a outra é a rank-sensitive frontier, sensível para distinguir a superioridade entre prompts candidatos. A primeira fornece direção para a modificação do prompt, enquanto a segunda permite determinar se uma transformação de fato leva a um desempenho melhor; assim, as duas fronteiras se complementam entre os papéis de exploração e avaliação. Em especial, diferentemente das abordagens anteriores que tratam o dataset inteiro de forma uniforme, essa estrutura aumenta bastante a eficiência no uso dos dados ao concentrar computação nas amostras mais significativas para o estágio atual da otimização. Em outras palavras, em vez de alterar o prompt indiscriminadamente muitas vezes, o APEX ataca estrategicamente os pontos em que o comportamento do modelo é mais instável e, portanto, carrega mais informação. Esse desenho redefine a otimização de prompts não como um simples problema de geração, mas como um problema de exploração adaptativa que combina seleção de dados e comparação de candidatos.
Experimentalmente, o APEX foi validado em três benchmarks de naturezas distintas — IFBench, SimpleQA Verified e FACTS Grounding — e mostrou melhorias consistentes mesmo sob a condição de um orçamento fixo de 5.000 chamadas de avaliação. Como resultado, alcançou ganhos médios de desempenho de 11,2% no Gemini 2.5 Flash e de 6,8% no Gemma 3 27B em relação ao prompt inicial, demonstrando o quanto uma abordagem centrada em dados é importante para uma otimização de prompts eficiente e poderosa. Esses resultados são significativos porque mostram empiricamente que o sucesso da engenharia de prompts depende não apenas de melhorar o algoritmo de exploração, mas de escolher quais dados usar, quando usá-los e como usá-los. Em última análise, este estudo desloca o foco central da otimização automática de prompts de “mais avaliações” para “uso mais inteligente dos dados”, apresentando uma metodologia prática e generalizável capaz de alcançar desempenho mais alto dentro de recursos computacionais limitados.
Resumo(Abstract)
Os grandes modelos de linguagem (LLMs) são altamente sensíveis à formulação de prompts, o que torna necessária a otimização automática de prompts para extrair todo o seu potencial. Embora os algoritmos evolutivos tenham surgido como o paradigma dominante, eles sofrem de um gargalo crítico: eficiência de dados. Os métodos atuais tratam o conjunto de dados de desenvolvimento como um benchmark estático, desperdiçando uma parte significativa do orçamento computacional com dados pouco informativos. Neste trabalho, apresentamos o APEX (Automatic Prompt Engineering eXpert), uma nova estrutura que otimiza o uso de dados junto com a busca por prompts. O APEX estratifica dinamicamente o conjunto de dados em camadas Easy, Hard e Mixed com base na linhagem de otimização. Ao priorizar a camada Mixed, que identifica os dados em que o LLM apresenta desempenho inconsistente, identificamos dois subconjuntos de alto impacto: a addressable frontier, para gerar mutações informativas, e a rank-sensitive frontier, para distinguir a qualidade dos candidatos. Avaliamos o APEX em três benchmarks diversos: IFBench, SimpleQA Verified e FACTS Grounding. Sob um orçamento fixo de 5.000 chamadas de avaliação, graças à sua eficiência de dados, o APEX superou o prompt inicial em média em 11,2% no Gemini 2.5 Flash e em 6,8% no Gemma 3 27B, demonstrando que uma abordagem centrada em dados é fundamental para uma otimização de prompts eficiente e eficaz.
Large Language Models are highly sensitive to prompt formulation, necessitating automatic prompt optimization to unlock their full potential. While evolutionary algorithms have emerged as the dominant paradigm, they suffer from a critical bottleneck: data efficiency. Current methods treat the development dataset as a static benchmark, wasting significant compute budget on uninformative data. In this work, we introduce APEX (Automatic Prompt Engineering eXpert), a novel framework that optimizes the data usage alongside the prompt search. APEX dynamically stratifies the dataset into Easy, Hard, and Mixed tiers based on the optimization lineage. By prioritizing the Mixed tier, which identifies the data where the LLM has mixed performance, we identify two high-leverage subsets: the addressable frontier for generating informative mutations and the rank-sensitive frontier for distinguishing candidate quality. We evaluate APEX across three diverse benchmarks: IFBench, SimpleQA Verified, and FACTS Grounding. Under a fixed budget of 5,000 evaluation calls, due to its data efficiency, APEX outperforms the initial prompt by an average of 11.2% on Gemini 2.5 Flash and 6.8% on Gemma 3 27B, demonstrating that a data-centric approach is key to efficient and effective prompt optimization.
Link do artigo
https://arxiv.org/abs/2606.11459
Self-Harness: harnesses que melhoram a si mesmos / Self-Harness: Harnesses That Improve Themselves
Apresentação do artigo
O desempenho de agentes baseados em Large Language Models (LLMs) não é determinado apenas pela capacidade de raciocínio do modelo de base, mas também é fortemente influenciado pelo projeto do harness, que intermedeia a interação com o ambiente. O harness funciona como uma camada operacional que abrange desde o prompt de sistema até a forma de uso de ferramentas, os procedimentos de verificação e as políticas de recuperação de falhas; assim, mesmo com o mesmo modelo, padrões de comportamento completamente diferentes podem surgir dependendo de qual harness é aplicado. Os autores chamam atenção justamente para esse ponto e levantam a questão de que o harness não deve mais ser um ativo fixo projetado manualmente apenas por especialistas humanos, mas sim algo que precisa ser capaz de se aprimorar com base nos padrões reais de falha do modelo. Nessa perspectiva, o Self-Harness mostra um novo paradigma no qual um agente baseado em LLM melhora iterativamente seu próprio harness operacional sem depender de um agente externo mais poderoso nem de engenheiros humanos.
A metodologia central do Self-Harness está em um loop iterativo composto por Weakness Mining, Harness Proposal e Proposal Validation. Primeiro, ele encontra padrões de falha específicos de cada modelo a partir de execution traces, diagnosticando de forma estruturada quais comportamentos prejudicam repetidamente o desempenho. Em seguida, gera de forma variada propostas mínimas de modificação do harness diretamente ligadas a essas fraquezas, buscando não mudanças excessivamente grandes, mas edições locais no nível de refinamento fino das políticas reais de operação. Por fim, por meio de regression testing, as alterações candidatas só são adotadas depois de verificar que não degradam o desempenho existente, formando assim um sistema de melhoria segura e cumulativa, e não apenas um ajuste simples de prompt. Esse desenho implementa tecnicamente a ideia de que o harness não apenas orienta o comportamento do modelo, mas também pode voltar a aprender a partir das falhas do próprio modelo.
O artigo validou essa estrutura no ambiente Terminal-Bench-2.0 e, partindo de um estado inicial com apenas um harness muito simples, aplicou o método a três modelos de base de famílias diferentes: MiniMax M2.5, Qwen3.5-35B-A3B e GLM-5. Nos experimentos, a taxa de aprovação em holdout subiu de 40,5% para 61,9%, de 23,8% para 38,1% e de 42,9% para 57,1%, respectivamente, mostrando que o Self-Harness pode produzir ganhos consistentes independentemente do tipo de modelo. Em especial, a análise qualitativa revelou que a melhoria não consiste apenas em acrescentar instruções genéricas, mas em converter as fraquezas de cada modelo em mudanças de harness concretas e executáveis. Isso sugere fortemente que o gargalo para melhorar o desempenho de agentes não está apenas dentro dos parâmetros do modelo, e que avanços práticos também podem ser alcançados apenas por meio de um aprendizado mais refinado das políticas operacionais. Em última análise, o Self-Harness propõe uma nova direção de pesquisa: agentes baseados em LLM não apenas são moldados por seus harnesses, como também podem remoldá-los.
Resumo (Abstract)
O desempenho de agentes baseados em LLM é moldado em conjunto pelo modelo base e pelo harness que intermedeia sua interação com o ambiente. Como modelos diferentes exibem comportamentos distintos, um design de harness eficaz é inerentemente específico para cada modelo. Ainda assim, os harnesses de agentes continuam sendo em grande parte projetados por especialistas humanos, um paradigma que escala mal à medida que os LLMs modernos se tornam cada vez mais diversos e evoluem rapidamente. Neste artigo, os autores apresentam o Self-Harness, um novo paradigma no qual um agente baseado em LLM melhora seu próprio harness operacional sem depender de engenheiros humanos ou de agentes externos mais poderosos. O Self-Harness é implementado como um loop iterativo de três etapas. A Mineração de Fraquezas (Weakness Mining) identifica padrões de falha específicos do modelo a partir de rastros de execução; a Proposição de Harness (Harness Proposal) gera modificações no harness que são diversas, mas mínimas, e conectadas a essas falhas; e a Validação de Propostas (Proposal Validation) aceita edições candidatas apenas quando elas passam em testes de regressão. Os autores aplicaram o Self-Harness ao Terminal-Bench-2.0 usando um harness inicial mínimo e três modelos base de famílias diferentes: MiniMax M2.5, Qwen3.5-35B-A3B e GLM-5. Nos três modelos, o Self-Harness melhorou o desempenho de forma consistente, com as taxas de aprovação em holdout subindo de 40,5% para 61,9%, de 23,8% para 38,1% e de 42,9% para 57,1%, respectivamente. A análise qualitativa também mostra que o Self-Harness não se limita a adicionar instruções genéricas, mas transforma com eficácia fraquezas específicas de cada modelo em mudanças concretas e executáveis no harness. Esses resultados apontam para um caminho em que agentes baseados em LLM não são apenas moldados por seus harnesses, mas também podem participar de sua reformulação.
The performance of LLM-based agents is jointly shaped by their base models and the harnesses that mediate their interaction with the environment. Because different models exhibit distinct behaviors, effective harness design is inherently model-specific. Yet agent harnesses are still largely engineered by human experts, a paradigm that scales poorly as modern LLMs become increasingly diverse and rapidly evolving. In this paper, we introduce Self-Harness, a new paradigm in which an LLM-based agent improves its own operating harness, without relying on human engineers or stronger external agents. We operationalize Self-Harness as an iterative loop with three stages: Weakness Mining, which identifies model-specific failure patterns from execution traces; Harness Proposal, which generates diverse yet minimal harness modifications tied to these failures; and Proposal Validation, which accepts candidate edits only after regression testing. We instantiate Self-Harness on Terminal-Bench-2.0 using a minimal initial harness and three base models from diverse families: MiniMax M2.5, Qwen3.5-35B-A3B, and GLM-5. Across all three models, Self-Harness consistently improves performance, with held-out pass rates increasing from 40.5% to 61.9%, 23.8% to 38.1%, and 42.9% to 57.1%, respectively. Qualitative analyses further show that Self-Harness does not simply add generic instructions, but effectively turns model-specific weaknesses into concrete, executable harness changes. These results suggest a path toward LLM-based agents that are not merely shaped by their harnesses, but can also participate in reshaping them.
Link do artigo
https://arxiv.org/abs/2606.09498
Os grandes modelos de linguagem (LLM) podem superar algoritmos clássicos de otimização de hiperparâmetros? Um estudo sobre o autoresearch / Can LLMs Beat Classical Hyperparameter Optimization Algorithms? A Study on autoresearch
Introdução ao artigo
Este estudo, que investiga se agentes baseados em grandes modelos de linguagem (LLM) podem superar algoritmos clássicos em ambientes reais de otimização de hiperparâmetros (HPO), usa o repositório autoresearch como campo de experimentação para examinar de frente as possibilidades e os limites da otimização por edição de código. Aqui, o agente não precisa apenas escolher hiperparâmetros numéricos, mas melhorar o desempenho de um pequeno modelo de linguagem modificando diretamente o próprio código de treinamento, e o objetivo é minimizar o validation bits-per-byte (val_bpb) dentro de um orçamento computacional fixo. Em especial, como esse problema lida com um amplo espaço de código que inclui arquitetura, otimizador, loop de treinamento e até o tamanho do modelo, ele é muito mais desafiador do que a otimização clássica de caixa-preta, pois exige ao mesmo tempo capacidade de compreensão de linguagem e de rastreamento do estado da otimização. Nesse ambiente, os autores comparam diretamente técnicas clássicas como Covariance Matrix Adaptation Evolution Strategy (CMA-ES) e Tree-structured Parzen Estimator (TPE) com abordagens baseadas em LLM, analisando de forma sistemática o que realmente determina o desempenho. Como resultado, métodos clássicos se mostraram consistentemente superiores em espaços de busca fixos, e ficou claro, em especial, que reduzir falhas de execução é mais importante do que aumentar a diversidade dos candidatos gerados.
Um ponto interessante é que, quando se permite ao LLM editar diretamente o código-fonte, a diferença diminui um pouco, mas nem mesmo modelos de ponta da época, como Claude Opus 4.6 e Gemini 3.1 Pro Preview, conseguiram alcançar totalmente os métodos clássicos. Isso leva à observação de que, embora LLMs possam propor mudanças úteis em trials individuais, eles ainda têm dificuldade para manter de forma consistente o estado da otimização ao longo de experimentos iterativos. Em contraste, algoritmos clássicos têm menos conhecimento de domínio, mas possuem a vantagem de atualizar de maneira estável estados explícitos, como vetor médio, tamanho do passo e matriz de covariância. Com base nessa complementaridade, os autores propõem um método híbrido chamado Centaur, projetado para compartilhar com o LLM o estado interno interpretável do CMA-ES, permitindo que o modelo de linguagem reflita melhor o contexto da busca. O Centaur apresentou o melhor desempenho ao longo dos experimentos e, de forma surpreendente, até mesmo com um pequeno LLM de 0.8B conseguiu superar tanto métodos puramente clássicos quanto métodos puramente baseados em LLM. Por outro lado, a abordagem de edição de código sem restrições exigiu modelos maiores, sugerindo que a interface de otimização e a representação de estado influenciam mais o desempenho do que o simples tamanho do modelo. Além disso, ao analisar detalhadamente a diversidade da busca, o escalonamento dos modelos e a proporção de trials propostos pelo LLM no Centaur, os autores mostram com precisão quando o LLM se torna um ponto forte e quando vira uma limitação. Em resumo, este estudo mostra de forma convincente que o maior impacto dos LLMs não está em substituir otimizadores clássicos, mas em atuar como componentes colaborativos que complementam estados explícitos de busca.
Resumo (Abstract)
O repositório autoresearch permite que um agente de LLM otimize hiperparâmetros editando diretamente o código de treinamento. Nós o usamos como testbed para comparar algoritmos clássicos de HPO com métodos baseados em LLM no problema de ajustar os hiperparâmetros de um pequeno modelo de linguagem sob um orçamento fixo de computação. Ao definir um espaço de busca fixo em todo o autoresearch, métodos clássicos como CMA-ES e TPE apresentaram desempenho consistentemente superior ao de agentes baseados em LLM, e nesse contexto evitar falhas por falta de memória (OOM) foi mais importante do que a diversidade da busca. Permitir que o LLM edite diretamente o código-fonte reduz a diferença em relação aos métodos clássicos, mas não a elimina completamente, mesmo usando modelos de ponta disponíveis no momento da redação, como Claude Opus 4.6 e Gemini 3.1 Pro Preview. Observamos que os LLMs têm dificuldade para acompanhar o estado da otimização ao longo de múltiplas execuções. Em contraste, os métodos clássicos carecem do conhecimento de domínio dos LLMs. Para combinar os pontos fortes das duas abordagens, propomos o Centaur, um método híbrido que compartilha com o LLM o estado interno interpretável do CMA-ES, incluindo vetor médio, step-size e matriz de covariância. O Centaur alcançou os melhores resultados em nossos experimentos, e apenas um LLM de 0.8B já foi suficiente para superar todos os métodos clássicos e os métodos puramente baseados em LLM. A edição irrestrita de código exige modelos maiores para competir com os métodos clássicos. Também analisamos adicionalmente a diversidade da busca, o escalonamento de modelos de 0.8B até modelos de ponta e estudos de ablação sobre a proporção de execuções propostas pelo LLM no Centaur. Em conjunto, nossos resultados sugerem que os LLMs são mais eficazes ao complementar otimizadores clássicos, e não ao substituí-los. O código pode ser encontrado em https://github.com/ferreirafabio/autoresearch-automl, e a demonstração interativa em https://ferreirafabio.github.io/autoresearch-automl.
The autoresearch repository enables an LLM agent to optimize hyperparameters by editing training code directly. We use it as a testbed to compare classical HPO algorithms against LLM-based methods on tuning the hyperparameters of a small language model under a fixed compute budget. When defining a fixed search space over autoresearch, classical methods such as CMA-ES and TPE consistently outperform LLM-based agents, where avoiding out-of-memory failures matters more than search diversity. Allowing the LLM to directly edit source code narrows the gap to the classical methods but does not close it, even with frontier models available at the time of writing such as Claude Opus 4.6 and Gemini 3.1 Pro Preview. We observe that LLMs struggle to track optimization state across trials. In contrast, classical methods lack the domain knowledge of LLMs. To combine the strengths of both, we introduce Centaur, a hybrid that shares CMA-ES's interpretable internal state, including mean vector, step-size, and covariance matrix, with an LLM. Centaur achieves the best result in our experiments, and a 0.8B LLM already suffices to outperform all classical and pure LLM methods. Unconstrained code editing requires larger models to be competitive with classical methods. We further analyze search diversity, model scaling from 0.8B to frontier models, and ablate the fraction of LLM-proposed trials in Centaur. All in all, our results suggest that LLMs are most effective as a complement to classical optimizers, not as a replacement. Code is available at https://github.com/ferreirafabio/autoresearch-automl & interactive demo at https://ferreirafabio.github.io/autoresearch-automl.
Link do artigo
https://arxiv.org/abs/2603.24647
Leia mais
https://github.com/ferreirafabio/autoresearch-automl
https://ferreirafabio.github.io/autoresearch-automl
FP8 é suficiente (Parte 1): Desmistificando o FP64 em hardware como o Santo Graal do HPC / FP8 is All You Need (Part 1): Debunking Hardware FP64 as the HPC Holy Grail
Introdução ao artigo
Na área de computação de alto desempenho (HPC, high-performance computing), durante muito tempo se considerou que operações de ponto flutuante de dupla precisão (FP64, double-precision floating point) fornecidas diretamente pelo hardware eram praticamente um requisito indispensável para computação científica, mas este artigo argumenta que esse pressuposto talvez já não se sustente nas gerações mais recentes de GPUs otimizadas para inteligência artificial. Em especial, tomando como ponto de partida o fato de que o throughput nativo de FP64 no NVIDIA Blackwell Ultra (B300) foi bastante reduzido, o trabalho mostra que pode ser mais prático seguir o caminho oposto: aproveitar o abundante throughput tensorial em FP8 (8-bit floating point) para restaurar a precisão de FP64. Para isso, os autores adotam uma abordagem que combina o Teorema Chinês do Resto (CRT, Chinese Remainder Theorem) com o Ozaki Scheme II para decompor valores em múltiplos canais residuais modulares e depois reconstruí-los com exatidão, projetando esse processo para preservar a precisão numérica no nível de FP64 enquanto continua explorando o alto throughput de operações tensoriais de baixa precisão. A metodologia central não é apenas uma aceleração aproximada simples, mas sim transferir o próprio caminho de cálculo para tensor cores de baixa precisão e depois restaurar rigorosamente o resultado por meio de reconstrução baseada em inteiros, o que a distingue claramente das abordagens convencionais centradas em dupla precisão.
Outra contribuição importante deste artigo é o modelo Tensor-Memory Equilibrium (TME), uma extensão do modelo Roofline tradicional. O TME não observa apenas o equilíbrio entre desempenho computacional e largura de banda de memória, mas também incorpora o multiplicador computacional, o multiplicador de largura de banda e a latência de reconstrução gerados no processo de conversão da emulação baseada em FP8 para cargas de trabalho em FP64, permitindo interpretar o desempenho real de execução. Por meio dessa estrutura, os autores explicam que a fusão em nível de registrador (register-level fusion) pode evitar que resultados intermediários sejam gravados com frequência na memória, fazendo com que o bandwidth multiplier convirja, na prática, para algo próximo de 1; com isso, apresenta-se uma estrutura em que o overhead de reconstrução fica oculto atrás da parede de memória. Em outras palavras, mesmo que existam etapas adicionais de conversão e reconstrução, o desempenho total pode ser mantido quase sem perdas nas regiões em que a movimentação de memória domina.
O kernel Ozaki Scheme II apresentado do ponto de vista de implementação mostra bem como essas ideias funcionam na prática. A estrutura que decompõe a matriz e o vetor de entrada em vários canais de resíduos, acumula cada canal com operações tensoriais baseadas em wmma e, ao final, restaura tudo em um único valor double por meio da reconstrução de Garner revela uma filosofia de projeto que separa precisão e velocidade para atribuir a cada uma o caminho de hardware mais adequado. Nesse processo, o fato de kernels clássicos de HPC como SpMV (sparse matrix-vector multiplication), GEMV (general matrix-vector multiplication) e stencil poderem todos ser tratados com a mesma lógica mostra que essa abordagem não é uma otimização limitada a uma tarefa específica. Os resultados de desempenho também sustentam essa afirmação: os autores explicam que, enquanto o FP64 nativo do B300 foi fortemente enfraquecido, o caminho Ozaki II consegue atingir o limite de memória com uma vazão efetiva muito maior, e indicam que, em comparação com o H100, ele apresenta desempenho equivalente ou superior.
No fim, a principal mensagem deste estudo é que a noção tradicional de que, para manter a precisão de dupla precisão, é indispensável depender de hardware FP64 nativo já não é mais absoluta. Ao combinar throughput tensorial em FP8, reconstrução baseada em CRT e fusão em nível de registrador, torna-se possível garantir ao mesmo tempo precisão FP64 e eficiência de largura de banda de memória em HPC de produção, obtendo inclusive um potencial de desempenho superior ao de projetos antigos centrados em FP64. Essa tese leva a repensar as prioridades no projeto de hardware e sugere fortemente que a computação científica do futuro não precisará mais depender de unidades de operação de precisão única.
Resumo(Abstract)
A visão convencional em HPC sustenta que o silício FP64 nativo em hardware é a base irredutível da computação científica, isto é, o “Santo Graal” da simulação em dupla precisão. No entanto, este artigo afirma que essa visão está errada. Em GPUs otimizadas para IA da geração B300 em diante, ao combinar o abundante throughput tensorial em FP8 com o Ozaki Scheme II baseado no Teorema Chinês do Resto (Chinese Remainder Theorem), é possível recuperar execução no nível do teto de memória com precisão FP64 completa em todo o espectro de kernels canônicos de HPC. O Blackwell Ultra (B300) da NVIDIA reduz o FP64 nativo para cerca de 1,3 TFLOPS, uma regressão de 31 vezes em relação ao B200, transformando até mesmo kernels limitados por memória (SpMV, GEMV, stencils) em kernels limitados por computação. Apresentamos quatro contribuições. Primeiro, propomos um modelo analítico unificado, o modelo de Equilíbrio Tensor-Memória (Tensor-Memory Equilibrium, TME), que amplia o Roofline com um multiplicador de computação α, um multiplicador de largura de banda β e uma latência de reconstrução γ. Segundo, mostramos que a fusão em nível de registrador é o mecanismo que leva β → 1, tornando a emulação essencialmente gratuita por trás da parede de memória. Terceiro, projetamos que o Ozaki II eleva o FP64 emulado do piso nativo de cerca de 1 TFLOPS para aproximadamente 500 TFLOPS no B300 e cerca de 400 TFLOPS no Rubin R200, superando em mais de uma ordem de magnitude até mesmo o teto do FP64 nativo do B200 no regime limitado por computação e igualando o teto de memória no regime limitado por largura de banda. Quarto, tomando o H100 como linha de base, o Ozaki II iguala ou supera o H100 em todas as cargas de trabalho analisadas, enquanto o FP64 nativo do B300 impõe uma regressão de até 50 vezes. Combinado com a análise de FFT apresentada no artigo complementar Part(2) (reconstrução em ponto fixo de Kulisch no pipeline INT32 remanescente) e com reduções FP32+Kahan, todas as classes de kernel investigadas no B300 atingem o teto de memória com FP64 completo. As evidências sustentam a afirmação do título: FP8, com Ozaki II e rotas de escape de Kulisch, é tudo o que se precisa para HPC de produção; o silício FP64 nativo já não é mais o Santo Graal que se acreditava ser.
Conventional HPC dogma holds that native hardware FP64 silicon is the irreducible foundation of scientific computing -- the "holy grail" of double-precision simulation. This paper argues the dogma is wrong: on AI-optimised GPUs of the B300 generation and beyond, abundant FP8 tensor throughput combined with the Chinese Remainder Theorem-based Ozaki Scheme II recovers memory-roof execution at full FP64 accuracy across the canonical HPC kernel spectrum. NVIDIA's Blackwell Ultra (B300) collapses native FP64 to ~1.3 TFLOPS -- a 31x regression from the B200 -- rendering even memory-bound kernels (SpMV, GEMV, stencils) compute-bound. We make four contributions. First, a unified analytic model, the Tensor-Memory Equilibrium (TME) model, augmenting the Roofline with a compute multiplier alpha, a bandwidth multiplier beta, and a reconstruction latency gamma. Second, we identify register-level fusion as the mechanism driving beta -> 1, making emulation essentially free behind the memory wall. Third, we project that Ozaki II vaults emulated FP64 from the ~1 TFLOPS native floor to ~500 TFLOPS (B300) and ~400 TFLOPS (Rubin R200), exceeding even B200's native FP64 ceiling by over an order of magnitude in the compute-bound regime while matching the memory roof in the bandwidth-bound regime. Fourth, against an H100 baseline, Ozaki II matches or exceeds H100 on every workload studied, versus the up-to-50x regression that B300 native FP64 imposes. Combined with a companion FFT analysis (Kulisch fixed-point reconstruction on the surviving INT32 pipe) and FP32+Kahan reductions reported in the companion Part(2) paper, every surveyed kernel class on B300 reaches the memory roof at full FP64. The evidence supports the title's claim: FP8, with Ozaki II and Kulisch escape routes, is all one needs for production HPC; native FP64 silicon is no longer the holy grail it has been taken to be.
Link do artigo
https://arxiv.org/abs/2606.06510
Limites e oportunidades de revisores de IA: estudo em que 45 cientistas especialistas analisaram reviews de artigos da família Nature / On the limits and opportunities of AI reviewers: Reviewing the reviews of Nature-family papers with 45 expert scientists
Apresentação do artigo
À medida que revisores de inteligência artificial (AI) passam a ser introduzidos gradualmente no processo de avaliação de artigos científicos, fica cada vez mais clara a limitação de julgar seu desempenho apenas pela concordância com o veredito final. Na prática, a qualidade da revisão muda bastante conforme a precisão de cada crítica feita pelo revisor, a relevância do problema apontado e a suficiência das evidências que sustentam essa afirmação; por isso, os autores buscaram revelar com precisão as capacidades reais e os limites dos revisores de AI por meio dessa avaliação em nível microscópico. Para isso, foi projetado um estudo de anotação em larga escala com a participação de 45 cientistas especialistas das áreas de física, biologia e ciências da saúde, que avaliaram separadamente 2.960 críticas individuais escritas por humanos e por AI sobre 82 artigos da família Nature. Cada crítica foi avaliada em três eixos — correctness (precisão), significance (importância) e sufficiency of evidence (suficiência das evidências) — e, ao longo de um total de 469 horas de análise, foi possível examinar de forma multicamadas o que os revisores de AI realmente fazem bem e onde falham. Essa metodologia vai além de perguntar simplesmente se “a AI chega a conclusões parecidas com as de humanos” e é especialmente significativa porque mostra de forma concreta que tipos de problema ela detecta melhor e em que contextos tende, ao contrário, a emitir julgamentos excessivos ou imprecisos. Os resultados quantitativos sugerem que os revisores de AI atuais estão longe de ser apenas ferramentas auxiliares superficiais. Por exemplo, um agente de revisão baseado em GPT-5.2 registrou pontuação superior à do revisor humano mais bem avaliado de cada artigo em um critério que integrava os três eixos de avaliação; outros revisores de AI, incluindo Gemini 3.0 Pro e Claude Opus 4.5, também superaram o revisor humano com pior desempenho em todos os eixos. Além disso, críticas corretas levantadas por revisores de AI foram avaliadas com mais frequência como importantes e bem fundamentadas, e eles identificaram adicionalmente 26% de questões que os humanos não apontaram, confirmando também a expansão de seu alcance de detecção. Ao mesmo tempo, porém, os revisores de AI mostraram forte tendência a repetir críticas muito semelhantes entre si, com uma taxa de sobreposição muito maior que a dos humanos, e também revelaram fraquezas recorrentes como falta de conhecimento tácito em determinados subcampos, limitações para lidar com contexto longo e excesso de criticidade diante de problemas menores. Os exemplos qualitativos do apêndice mostram que essas fraquezas não se resumem a respostas erradas, mas estão ligadas a problemas estruturais, como leitura equivocada de práticas específicas da área, erros de contexto temporal, exigências excessivas sem considerar a possibilidade de correção e negligência de inconsistências entre código e texto. No fim, este estudo apresenta de forma convincente que revisores de AI são promissores não como substitutos de avaliadores humanos, mas como complementos capazes de detectar rapidamente uma gama mais ampla de problemas e realizar verificações minuciosas, oferecendo uma base importante para redefinir no futuro a divisão de papéis entre humanos e AI na revisão científica.
Resumo(Abstract)
Com o avanço do desempenho da AI, revisores de AI estão começando a ser adotados na revisão por pares científica, mas sua capacidade e confiabilidade ainda seguem em dúvida. Muitos cientistas os veem apenas como sistemas probabilísticos sem a especialização necessária para avaliar pesquisas, enquanto outros pesquisadores avaliam com mais otimismo seu grau de prontidão sem apresentar evidências concretas. Entender o que revisores de AI fazem bem, onde ficam aquém e quais desafios ainda restam é essencial. No entanto, as avaliações existentes sobre revisores de AI têm se concentrado principalmente em saber se seus vereditos coincidem com os de revisores humanos (por exemplo, alinhamento de notas e previsão de aceitação), o que não basta para caracterizar suas capacidades e limitações. Neste artigo, buscamos preencher essa lacuna por meio de um estudo de anotação em larga escala com especialistas. Quarenta e cinco cientistas de domínio das áreas de ciências físicas, ciências da vida e ciências da saúde dedicaram 469 horas para avaliar 2.960 críticas individuais — cada uma direcionada a um aspecto específico de um artigo — extraídas de revisões escritas por humanos e geradas por AI sobre 82 artigos da família Nature, considerando precisão, importância e suficiência das evidências. Em uma métrica composta que integra as três dimensões, um agente de revisão impulsionado por GPT-5.2 superou o revisor humano mais bem avaliado de cada artigo (60.0% vs. 48.2%, p = 0.009), enquanto todos os revisores de AI, incluindo Gemini 3.0 Pro e Claude Opus 4.5, apresentaram desempenho superior ao do humano pior avaliado em todas as dimensões. Além disso, críticas corretas feitas por revisores de AI foram mais frequentemente avaliadas como importantes e respaldadas por evidências suficientes, e revelaram adicionalmente 26% de problemas distintos que nenhum humano levantou. No entanto, a sobreposição entre revisores de AI foi muito maior do que entre humanos (21% vs. 3% em pares de revisores), e eles também exibiram 16 fraquezas recorrentes que humanos não compartilham, como conhecimento limitado de subáreas, incapacidade de gerenciar contexto longo distribuído por vários arquivos e postura excessivamente crítica em relação a problemas menores. Em conjunto, nossos resultados mostram que os revisores de AI atuais devem ser vistos como complementos, e não substitutos, dos revisores humanos.
With the advancement of AI capabilities, AI reviewers are beginning to be deployed in scientific peer review, yet their capability and credibility remain in question: many scientists simply view them as probabilistic systems without the expertise to evaluate research, while other researchers are more optimistic about their readiness without concrete evidence. Understanding what AI reviewers do well, where they fall short, and what challenges remain is essential. However, existing evaluations of AI reviewers have focused on whether their verdicts match human verdicts (e.g., score alignment, acceptance prediction), which is insufficient to characterize their capabilities and limits. In this paper, we close this gap through a large-scale expert annotation study, in which 45 domain scientists in Physical, Biological, and Health Sciences spent 469 hours rating 2,960 individual criticisms (each targeting one specific aspect of a paper) from human-written and AI-generated reviews of 82 Nature-family papers on correctness, significance, and sufficiency of evidence. On a composite of all three dimensions, a reviewing agent powered by GPT-5.2 scores above each paper's top-rated human reviewer (60.0% vs. 48.2%, p = 0.009), while all three AI reviewers (including Gemini 3.0 Pro and Claude Opus 4.5) exceed the lowest-rated human across every dimension. AI reviewers' accurate criticisms are also more often rated significant and well-evidenced, and surface a distinct 26% of issues no human raises. However, AI reviewers overlap far more than humans do (21% vs. 3% for cross-reviewer pairs), and exhibit 16 recurring weaknesses humans do not share, such as limited subfield knowledge, lack of long context management over multiple files, and overly critical stance on minor issues. Overall, our results position current AI reviewers as complements to, not substitutes for, human reviewers.
Link do artigo
https://arxiv.org/abs/2605.20668
Leia mais
https://prometheus-eval.github.io/cmu-paper-reviewer/
https://github.com/prometheus-eval/cmu-paper-reviewer
https://huggingface.co/datasets/prometheus-eval/peerreview-bench
LiveBrowseComp: os agentes de busca estão realmente pesquisando ou apenas verificando o que já sabem? / LiveBrowseComp: Are Search Agents Searching, or Just Verifying What They Already Know?
Apresentação do artigo
Os agentes de busca baseados em grandes modelos de linguagem (Large Language Models, LLMs) vêm chamando atenção por sua capacidade de navegar na web externa e encontrar fatos recentes, mas este estudo parte de uma preocupação importante: em muitos casos, em vez de descobrir informações novas, eles acabam apenas confirmando na web conhecimentos já internalizados. Os autores definem esse fenômeno como Dependência de Conhecimento Intrínseco (Intrinsic Knowledge Dependence, IKD) e, para diagnosticar com precisão até que ponto as ferramentas de busca realmente expandem o raciocínio do agente, elaboram uma análise sob três perspectivas. Primeiro, medem quanto o modelo consegue responder em um cenário closed-book, sem ferramenta alguma, para verificar o quanto os benchmarks existentes já estão, desde o início, contidos no conhecimento interno do modelo. Segundo, permitem a busca, mas removem os documentos de evidência que sustentam a resposta correta, para observar se o agente realmente usa evidências externas ou se depende apenas de confirmar uma hipótese que já havia formulado. Terceiro, rastreiam a trajetória de busca e classificam se a consulta partiu de uma hipótese gerada internamente pelo modelo ou de uma pista obtida nos resultados da busca, buscando distinguir se a busca é um processo de descoberta ou de verificação. Essa metodologia vai além de uma simples comparação de acurácia e é significativa por dissecar o mecanismo real de funcionamento dos agentes de busca.
Os resultados deixam claro que benchmarks de busca existentes podem confundir capacidade de busca com revalidação baseada em memória. Alguns modelos conseguiram resolver até 44,5% das perguntas do BrowseComp sem ferramentas; mais da metade das consultas de busca começou de hipóteses geradas internamente pelo modelo, e, quando as evidências que sustentavam a resposta correta foram removidas, o desempenho ficou até pior do que no cenário closed-book. Isso sugere que os agentes de busca têm uma forte tendência a usar a busca para verificar algo que já sabem, em vez de encontrar fatos novos na web. Para enfrentar esse problema, os autores propõem um novo benchmark de deep search chamado LiveBrowseComp. O LiveBrowseComp é composto por 335 perguntas escritas por humanos, cujas respostas dependem de fatos publicados nos 90 dias anteriores à construção do benchmark, e foi criado com base em seis fontes continuamente atualizadas — GDELT, TMDB, RAWG, CVE/NVD, SportsDB e USGS — para que não possa ser resolvido facilmente com o conhecimento prévio dos modelos existentes. Além disso, exclui eventos amplamente conhecidos no mundo todo, reduzindo a chance de que simples lembrança ou suposições de senso comum levem à resposta correta. Como resultado, todos os agentes avaliados ficaram com menos de 2% de acurácia em closed-book, as pontuações com busca caíram de 25 a 40 pontos em relação ao BrowseComp, e o ranking anterior dos modelos deixou de prever o desempenho de forma estável. Em última análise, o estudo argumenta de forma convincente que, ao avaliar agentes de busca, não devemos medir “o quão bem eles confirmam o que já sabem”, mas sim “o quanto conseguem de fato encontrar fatos desconhecidos além das fronteiras do conhecimento atual”.
Resumo (Abstract)
Os agentes de busca baseados em LLM realmente estão pesquisando ou estão usando a web para verificar o que já sabem? Investigamos essa questão no BrowseComp com três métricas diagnósticas. Nossa análise revela a Dependência de Conhecimento Intrínseco (Intrinsic Knowledge Dependence, IKD): mesmo com acesso a ferramentas, os agentes frequentemente dependem de conhecimento intrínseco — informações codificadas no modelo antes da recuperação — em vez de evidências externas obtidas pela busca. Os agentes respondem a até 44,5% das perguntas do BrowseComp sem ferramentas, geram mais da metade de suas consultas de busca a partir de hipóteses produzidas internamente e não de pistas obtidas na busca, e têm desempenho pior que a linha de base closed-book quando as evidências que sustentam a resposta são removidas. Esses resultados sugerem que benchmarks estáticos de busca podem recompensar verificação baseada em memória, em vez de descoberta guiada por evidências, confundindo o que os agentes já sabem com o que eles realmente conseguem encontrar.
Em seguida, apresentamos o LiveBrowseComp, um benchmark de deep search projetado para avaliar agentes além do alcance do conhecimento intrínseco. Esse benchmark é composto por 335 perguntas escritas por humanos, cujas respostas dependem de fatos publicados dentro dos 90 dias anteriores à construção do benchmark. As perguntas foram extraídas de 6 fontes atualizadas, e eventos amplamente conhecidos no mundo todo foram filtrados para exclusão. No LiveBrowseComp, a acurácia closed-book de todos os agentes avaliados fica abaixo de 2%, as pontuações com busca caem de 25 a 40 pontos em relação ao BrowseComp, e o ranking anterior dos modelos deixa de prever o desempenho de forma estável. O LiveBrowseComp está disponível em https://huggingface.co/datasets/Forival/LiveBrowseComp.
Are LLM-based search agents genuinely searching, or using the web to verify what they already know? We study this question on BrowseComp with three diagnostics. Our analysis reveals Intrinsic Knowledge Dependence (IKD): even with tool access, agents often rely on intrinsic knowledge -- information encoded in the model before retrieval -- rather than on external evidence. Agents answer up to 44.5% of BrowseComp questions without tools, generate more than half of their search queries from internally produced hypotheses rather than retrieved leads, and perform worse than closed-book baselines when answer-supporting evidence is removed. These results suggest that static search benchmarks can reward memory-backed verification rather than evidence-driven discovery, conflating what agents already know with what they can find. We then introduce LiveBrowseComp, a deep-search benchmark designed to evaluate agents beyond intrinsic coverage. It contains 335 human-authored questions whose answers depend on facts published within the 90 days preceding benchmark construction, drawn from six updated sources and filtered to exclude globally salient events. On LiveBrowseComp, all evaluated agents fall below 2% closed-book accuracy, search-augmented scores drop by 25-40 points relative to BrowseComp, and prior model rankings no longer reliably predict performance. LiveBrowseComp is available at https://huggingface.co/datasets/Forival/LiveBrowseComp.
Link do artigo
https://arxiv.org/abs/2605.28721
Leitura adicional
https://huggingface.co/datasets/Forival/LiveBrowseComp
Gargalo de informação para aprender o espaço de fases de dinâmicas a partir de dados experimentais de alta dimensão / Information bottleneck for learning the phase space of dynamics from high-dimensional experimental data
Apresentação do artigo
O problema de identificar, em imagens de alta dimensionalidade ou observações de séries temporais, as variáveis de estado que de fato governam a dinâmica real de um sistema é considerado uma tarefa extremamente importante em física, biologia e no estudo de sistemas complexos em geral. Embora as próprias observações frequentemente contenham muito ruído e informação redundante, por trás delas costuma existir uma estrutura de espaço de fase de dimensionalidade relativamente baixa. Por isso, o ponto central não é reconstruir as observações literalmente, mas encontrar coordenadas latentes que expliquem melhor essa dinâmica. Com base nessa perspectiva, os autores propõem o DySIB (Dynamical Symmetric Information Bottleneck), que aprende representações de baixa dimensionalidade ao maximizar a informação mútua preditiva entre janelas de observação passadas e futuras, ao mesmo tempo em que restringe a complexidade da representação latente. Uma característica importante dessa abordagem é que, ao contrário de autoencoders que minimizam diretamente o erro de reconstrução, o aprendizado ocorre apenas no espaço latente, sem restaurar as imagens de entrada; assim, ela pode remover de forma agressiva variações de detalhe que não têm relação com a previsão da dinâmica.
A metodologia do DySIB expande o princípio do Information Bottleneck para o problema de aprendizado de dinâmica, sendo projetada para que a representação latente não seja apenas um vetor comprimido, mas funcione como algo próximo de uma estatística suficiente que prevê bem o futuro. Para isso, adota uma estrutura que trata passado e futuro de forma simétrica, estima a informação preditiva usando o limite inferior InfoNCE e controla a complexidade da representação por meio de uma distribuição a priori gaussiana. Além disso, ao usar embedding com atraso temporal e um shared encoder para mapear janelas passadas e futuras segundo o mesmo referencial geométrico, o método aumenta a comparabilidade e a interpretabilidade no espaço latente. Esse desenho se distingue dos modelos preditivos convencionais porque seu foco não é simplesmente gerar quadros futuros, mas aprender um sistema de coordenadas que capture a estrutura essencial da dinâmica.
A validação empírica foi realizada com dados experimentais em vídeo de um pêndulo físico, um banco de testes ideal porque se trata de um sistema cujo espaço de estados real já é conhecido, permitindo avaliar com rigor a consistência das coordenadas latentes aprendidas. Como resultado, o DySIB selecionou de forma autoconsistente a dimensão latente e o comprimento da janela temporal adequados aos dados, recuperando uma representação bidimensional compatível com os graus de liberdade reais do pêndulo. As coordenadas aprendidas corresponderam de maneira suave ao ângulo e à velocidade angular. Além disso, essa representação reproduziu ponto de equilíbrio estável, sela instável, separatrix e até a estrutura topológica anular que distingue rotação e oscilação, mostrando que o método capturou simultaneamente dimensionalidade, topologia e geometria, indo além de uma simples semelhança visual. O fato de essa recuperação ter sido possível mesmo com vídeos de baixa resolução reforça que o DySIB é eficaz em descartar detalhes observacionais desnecessários e extrair apenas a informação dinamicamente relevante.
A importância deste estudo está em mostrar que é possível descobrir diretamente coordenadas dinâmicas interpretáveis a partir de observações de alta dimensionalidade. Em especial, ao reconstruir de forma orientada por dados conceitos como variáveis de estado, variáveis efetivas e parâmetros de ordem, usados há muito tempo na física, o DySIB pode ser visto como uma ponte metodológica entre a física teórica tradicional e o aprendizado moderno de representações. Ao mesmo tempo, também deixa claras limitações como a não unicidade das representações latentes, a gauge freedom e a possibilidade de extensão para sistemas não lineares mais complexos, abrindo espaço para futuras generalizações envolvendo ruído intenso, sistemas caóticos e sistemas multiescala. Ainda assim, ao demonstrar experimentalmente que apenas a informação preditiva já basta para restaurar coordenadas do espaço de fase real, este artigo propõe um novo caminho de pesquisa que vai de observações brutas até equações de movimento interpretáveis.
Resumo(Abstract)
Identificar as variáveis de estado dinâmicas de um sistema a partir de observações de alta dimensionalidade é um problema central em toda a ciência física. O desafio é que as variáveis de estado não são diretamente observáveis e precisam ser inferidas de dados brutos de alta dimensionalidade sem supervisão. Aqui, apresentamos o DySIB (Dynamical Symmetric Information Bottleneck) como um método para aprender representações de baixa dimensionalidade de dados de séries temporais, maximizando a informação mútua preditiva entre janelas de observação passadas e futuras enquanto penaliza a complexidade da representação. Esse objetivo opera inteiramente no espaço latente e não exige reconstrução das observações. Aplicamos o DySIB a um conjunto de dados experimental em vídeo de um pêndulo físico, no qual o espaço de estados subjacente é conhecido. Com hiperparâmetros da arquitetura de aprendizado definidos de forma autoconsistente pelos dados, o método recuperou uma representação bidimensional que corresponde à dimensionalidade, topologia e geometria do espaço de fase do pêndulo, com as coordenadas aprendidas alinhando-se suavemente ao ângulo canônico e à velocidade angular. Esses resultados demonstram, em um sistema experimental bem caracterizado, que a informação preditiva no espaço latente pode ser usada para recuperar diretamente coordenadas dinâmicas interpretáveis a partir de dados de alta dimensionalidade.
Identifying the dynamical state variables of a system from high-dimensional observations is a central problem across physical sciences. The challenge is that the state variables are not directly observable and must be inferred from raw high-dimensional data without supervision. Here we introduce DySIB (Dynamical Symmetric Information Bottleneck) as a method to learn low-dimensional representations of time-series data by maximizing predictive mutual information between past and future observation windows while penalizing representation complexity. This objective operates entirely in latent space and avoids reconstruction of the observations. We apply DySIB to an experimental video dataset of a physical pendulum, where the underlying state space is known. The method, with hyperparameters of the learning architecture set self-consistently by the data, recovers a two-dimensional representation that matches the dimensionality, topology, and geometry of the pendulum phase space, with the learned coordinates aligning smoothly with the canonical angle and angular velocity. These results demonstrate, on a well-characterized experimental system, that predictive information in latent space can be used to recover interpretable dynamical coordinates directly from high-dimensional data.
Link do artigo
https://arxiv.org/abs/2604.24662
AutoScientists: equipes de agentes auto-organizadas para experimentação científica de longa duração / AutoScientists: Self-Organizing Agent Teams for Long-Running Scientific Experimentation
Introdução ao artigo
Em experimentos científicos de longo prazo, repete-se um ciclo de formular hipóteses, projetar experimentos, executá-los e então ajustar a direção com base nos resultados. O AutoScientists formaliza esse processo como um problema de exploração iterativa e propõe um sistema de agentes distribuídos para executá-lo. Diferentemente dos agentes de inteligência artificial existentes, que em geral seguem uma única trajetória de pesquisa ou executam apenas objetivos fixados por um planejador central, esse método foi projetado para que vários agentes leiam e escrevam juntos em um estado compartilhado (shared state) e formem e reorganizem equipes por conta própria. A ideia central é que, em vez de receber instruções centralizadas em bloco, os agentes se reúnam de forma autônoma em torno de hipóteses promissoras conforme as evidências se acumulam, revisem criticamente as propostas uns dos outros antes de gastar recursos experimentais e compartilhem tanto sucessos quanto fracassos para reduzir explorações redundantes desnecessárias. Para isso, o artigo define um problema de otimização que busca, dentro de um espaço de busca, o programa que maximiza o desempenho de avaliação com base na descrição da tarefa, no programa inicial, no conjunto de dados de treinamento e nas métricas de avaliação, além de distinguir dados de treinamento e validação e, quando necessário, validação cruzada (cross-validation, CV), esclarecendo assim os critérios de avaliação de experimentos de longo prazo. Essa formulação é especialmente significativa por tratar a descoberta científica não como uma previsão pontual, mas como um processo de pesquisa em que modificações e validações no nível do programa vão se acumulando continuamente.
O funcionamento do AutoScientists consiste principalmente em um ciclo entre a fase de discussão e a fase de execução. Na fase de discussão, os agentes debatem quais hipóteses são promissoras com base no modelo campeão atual, no histórico de experimentos anteriores e no conteúdo do fórum compartilhado; no início, propõem de forma ampla várias direções de exploração e depois criticam as ideias uns dos outros para identificar pontos cegos no espaço de busca. Em seguida, na fase de execução, as equipes assim formadas conduzem experimentos em paralelo e registram os resultados de cada experimento nos logs de experimento e no fórum compartilhado, para que outras equipes possam consultá-los imediatamente. Em especial, o sistema separa funções de modo que agentes no papel de analistas descubram e proponham direções ainda não tentadas, enquanto agentes no papel de experimentadores realizem alterações reais no código e o treinamento, reduzindo gargalos comuns em processos experimentais longos. Além disso, ele armazena experimentos fracassados em uma lista separada para evitar repetir a mesma direção e adota um procedimento em que, se uma melhora de desempenho puder ser apenas ruído estatístico, ela só é promovida após revalidação com seeds adicionais, evitando que melhorias acidentais sejam confundidas com progresso real.
A maior força dessa abordagem não está simplesmente em gerar mais ideias, mas em estruturar de forma sistemática o acúmulo de conhecimento experimental. Os agentes mantêm estado interno e memória, aprendem ao longo de períodos prolongados, analisam o mecanismo das modificações bem-sucedidas para conectá-las a hipóteses subsequentes e preservam até mesmo direções fracassadas como ativos de aprendizado de todo o sistema. Como resultado, o AutoScientists produz como resultado de pesquisa não apenas o programa de melhor desempenho, mas também um model card (model card) e um relatório dos resultados da pesquisa, garantindo ao mesmo tempo reprodutibilidade e interpretabilidade. Esse desenho se distingue claramente das abordagens anteriores com agentes por reunir em um único sistema a adaptabilidade, o paralelismo e o aprendizado a partir de falhas, todos essenciais em experimentos científicos de longa duração. Na prática, o método mostrou desempenho superior ao de agentes anteriores em aprendizado de máquina biomédico, otimização de treinamento de modelos de linguagem e previsão de fitness de proteínas; no BioML-Bench, alcançou uma média de 74,4% no percentil do leaderboard em 24 tarefas e um resultado 8,33% melhor que o do agente individual mais forte. Além disso, na otimização de treinamento de GPT, atingiu o bits-per-byte de validação alvo 1,9 vez mais rápido que o Autoresearch e, no ProteinGym, mostrou melhorias que superaram o melhor desempenho anterior tanto no problema de ligação ACE2-Spike quanto em 217 assays no total, demonstrando que agentes distribuídos auto-organizados podem ter efeito prático real na exploração científica de longo prazo.
Resumo(Abstract)
A pesquisa científica avança por ciclos iterativos de geração de hipóteses, desenho de experimentos, execução e revisão. Agentes de IA podem automatizar partes desse processo, mas as abordagens existentes normalmente seguem uma única trajetória de pesquisa ou são coordenadas por um planejador central com objetivos fixos. Como resultado, elas têm dificuldade para sustentar a exploração paralela, se adaptar conforme as evidências experimentais mudam ou preservar o conhecimento sobre direções fracassadas em experimentos de longa duração. Apresentamos o AutoScientists, uma equipe descentralizada de agentes de IA para experimentação científica computacional de longa duração. Os agentes interpretam um estado experimental compartilhado, se auto-organizam em equipes em torno de hipóteses promissoras, criticam propostas antes de usar recursos computacionais experimentais e compartilham sucessos e fracassos para reduzir a exploração redundante. Com o mesmo orçamento experimental, o AutoScientists supera agentes de IA anteriores em machine learning biomédico, otimização de treinamento de modelos de linguagem e previsão de fitness de proteínas. No BioML-Bench, que abrange imageamento biomédico, engenharia de proteínas, ômicas de célula única e descoberta de fármacos, o AutoScientists alcança um percentil médio de 74,4% no leaderboard em 24 tarefas, superando o agente de IA mais forte em +8,33%. Na otimização de treinamento de GPT, o AutoScientists atinge um bits-per-byte de validação alvo 1,9x mais rápido que o Autoresearch e continua descobrindo melhorias a partir de um estado campeão inicial em que a abordagem de agente único não encontra nenhuma (7 melhorias aceitas contra 0). Na previsão de fitness do ProteinGym, o AutoScientists descobre um método para ligação ACE2-Spike que melhora o modelo estado da arte atual em +12,5% na correlação de Spearman. Aplicado sem modificações a todos os 217 ensaios do ProteinGym, o mesmo método melhora o estado da arte anterior em +6,5% na correlação de Spearman.
A pesquisa científica avança por ciclos iterativos de geração de hipóteses, desenho de experimentos, execução e revisão. Agentes de IA podem automatizar partes desse processo, mas as abordagens existentes normalmente seguem uma única trajetória de pesquisa ou são coordenadas por um planejador central com objetivos fixos. Como resultado, elas têm dificuldade para sustentar a exploração paralela, se adaptar conforme as evidências experimentais mudam ou preservar o conhecimento sobre direções fracassadas em experimentos de longa duração. Apresentamos o AutoScientists, uma equipe descentralizada de agentes de IA para experimentação científica computacional de longa duração. Os agentes interpretam um estado experimental compartilhado, se auto-organizam em equipes em torno de hipóteses promissoras, criticam propostas antes de usar recursos computacionais experimentais e compartilham sucessos e fracassos para reduzir a exploração redundante. Com o mesmo orçamento experimental, o AutoScientists supera agentes de IA anteriores em machine learning biomédico, otimização de treinamento de modelos de linguagem e previsão de fitness de proteínas. No BioML-Bench, que abrange imageamento biomédico, engenharia de proteínas, ômicas de célula única e descoberta de fármacos, o AutoScientists alcança um percentil médio de 74,4% no leaderboard em 24 tarefas, superando o agente de IA mais forte em +8,33%. Na otimização de treinamento de GPT, o AutoScientists atinge um bits-per-byte de validação alvo 1,9x mais rápido que o Autoresearch e continua descobrindo melhorias a partir de um estado campeão inicial em que a abordagem de agente único não encontra nenhuma (7 melhorias aceitas contra 0). Na previsão de fitness do ProteinGym, o AutoScientists descobre um método para ligação ACE2-Spike que melhora o modelo estado da arte atual em +12,5% na correlação de Spearman. Aplicado sem modificações a todos os 217 ensaios do ProteinGym, o mesmo método melhora o estado da arte anterior em +6,5% na correlação de Spearman.
Link do artigo
https://arxiv.org/abs/2605.28655
Leia mais
https://autoscientists.openscientist.ai/
https://github.com/mims-harvard/AutoScientists
⚠️Anúncio⚠️: 🔥Este texto organizado pelo grupo de usuários do PyTorch na Coreia 🇰🇷 foi útil para você? Ao se tornar membro, você receberá os principais textos por e-mail 💌! Você também pode receber notificações de novos textos pelo Telegram ou por Slack/Discord/Teams/Dooray/GoogleChat etc.. :D
Ainda não há comentários.