ML para conferir nesta semana

(discuss.pytorch.kr)

11 pontos por ninebow 2025-09-10 | Ainda não há comentários. | Compartilhar no WhatsApp

[2025/09/01 ~ 07] Coletânea de artigos de AI/ML para conferir nesta semana

PyTorchKR🔥🇰🇷 🤔💭

1️⃣ Limites e controle de grandes modelos de linguagem: vários artigos discutiram os limites dos grandes modelos de linguagem (LLMs) e formas de controlá-los. Em especial, "On the Fundamental Impossibility of Hallucination Control in Large Language Models" apresentou a impossibilidade teórica de um LLM alcançar simultaneamente a expressão de conhecimento verdadeiro e a preservação da informação, destacando a identidade matemática entre alucinação e criatividade. Isso fornece uma base para gerenciar esse tipo de comportamento em sistemas de IA.

2️⃣ Técnicas eficientes de treinamento e otimização: artigos como "Fantastic Pretraining Optimizers and Where to Find Them" e "Communication Efficient LLM Pre-training with SparseLoCo" exploram novas técnicas de otimização para aumentar a eficiência no processo de treinamento de LLMs. Em particular, o SparseLoCo mostrou resultados melhores tanto em desempenho quanto em custo de comunicação ao usar esparsificação e quantização para aumentar a eficiência de comunicação.

3️⃣ Melhorias em colaboração e memória em sistemas multiagentes: "Anemoi: A Semi-Centralized Multi-agent Systems Based on Agent-to-Agent Communication MCP server from Coral Protocol" e "Memp: Exploring Agent Procedural Memory" propõem abordagens para melhorar a forma de colaboração em sistemas multiagentes e a memória procedural dos agentes. O Anemoi melhora o desempenho por meio da colaboração direta entre agentes, e o Memp permite que agentes tenham memória procedural aprendível, possibilitando atualizações e melhorias contínuas.

Estudo sobre a impossibilidade fundamental do controle de alucinação em grandes modelos de linguagem / On the Fundamental Impossibility of Hallucination Control in Large Language Models

Introdução ao artigo

O problema das alucinações em grandes modelos de linguagem (LLMs) é um tema que afeta de forma significativa a confiabilidade e a precisão dos sistemas de inteligência artificial, e este estudo buscou esclarecer matematicamente a impossibilidade fundamental desse problema. Os autores explicam conjuntos de informação em bits com a ideia de um leilão e analisam o processo pelo qual vários componentes formam uma resposta usando seu conhecimento parcial. O estudo fornece uma base matemática para alucinação e criatividade por meio de três áreas matemáticas independentes: teoria do desenho de mecanismos, teoria de regras de pontuação apropriadas e análise direta da arquitetura Transformer. Em particular, os autores apresentam uma forma de quantificar a geração de respostas excessivamente confiantes ou intuitivas, algo que aparece como característica tanto da alucinação quanto da criatividade.

Além disso, o estudo introduz os conceitos de medição de informação semântica e operador emergente para modelar inferência limitada, enfatizando que a inferência limitada gera informação acessível, enquanto a inferência ideal e ilimitada preserva rigorosamente o conteúdo semântico. Com essa análise, os autores demonstraram que alucinação e imaginação são fenômenos matematicamente idênticos, originados de desvios em veracidade, preservação da informação semântica, divulgação de conhecimento relevante e optimalidade sob restrições de conhecimento. O estudo oferece uma base teórica que pode ter impacto importante no projeto e na avaliação de sistemas de IA, além de sugerir caminhos para pesquisas futuras. Espera-se que essas contribuições levantem novas questões na interseção entre teoria da informação e IA e ajudem a aprofundar a compreensão sobre a natureza da informação.

Resumo do artigo (Abstract)

Este artigo estabelece um teorema fundamental de impossibilidade: nenhum LLM capaz de realizar agregação de conhecimento não trivial (non-trivial) pode, ao mesmo tempo, alcançar representação verídica do conhecimento, conservação da informação semântica, revelação completa do conhecimento relevante e optimalidade sob restrições de conhecimento. Essa impossibilidade não é uma limitação de engenharia, mas decorre da própria estrutura matemática da agregação de informação. Os autores estabelecem esse resultado ao descrever o processo de inferência como um leilão de ideias, no qual componentes distribuídos competem explorando seu conhecimento parcial para moldar as respostas. A prova abrange três domínios matemáticos independentes: teoria de design de mecanismos (Green-Laffont), teoria das regras de pontuação apropriadas (Savage) e análise arquitetural direta de transformers (convexidade Log-Sum-Exp). Em particular, os autores mostram como quantificar a criação de respostas excessivamente confiantes (overconfidence) ou intuitivas — a assinatura tanto da alucinação (hallucination) quanto da criatividade (creativity) ou imaginação. Para sustentar essa análise, eles introduzem os conceitos complementares de medida de informação semântica e operador de emergência para modelar raciocínio limitado em um contexto geral. Eles provam que, embora o raciocínio limitado gere informação acessível, oferecendo insights e inspirações valiosos, o raciocínio idealizado sem restrições preserva estritamente o conteúdo semântico. Ao demonstrar que alucinação e imaginação são fenômenos matematicamente idênticos — fundamentados em desvios de veracidade, conservação da informação semântica, revelação do conhecimento relevante e optimalidade sob restrições de conhecimento —, os autores oferecem uma base principiológica para gerenciar esses comportamentos em sistemas avançados de IA. Por fim, apresentam algumas ideias especulativas para inspirar a avaliação e o refinamento da teoria proposta.
> This paper establishes a fundamental impossibility theorem: no LLM capable of performing non-trivial knowledge aggregation can simultaneously achieve truthful knowledge representation, semantic information conservation, complete revelation of relevant knowledge, and knowledge-constrained optimality. The impossibility is not an engineering limitation but arises from the mathematical structure of information aggregation itself. We establish this result by describing the inference process as an auction of ideas, where distributed components compete exploiting their partial knowledge to shape responses. The proof spans three independent mathematical domains: mechanism design theory (Green-Laffont), the theory of proper scoring rules (Savage), and direct architectural analysis of transformers (Log-Sum-Exp convexity). In particular, we show how to quantify the creation of overconfident or intuitive responses-the signature of both hallucination and creativity, or imagination. To support this analysis, we introduce the complementary concepts of the semantic information measure and the emergence operator to model bounded reasoning in a general setting. We prove that while bounded reasoning generates accessible information, providing valuable insights and inspirations, the idealized unconstrained reasoning strictly preserves semantic content. By demonstrating that hallucination and imagination are mathematically identical phenomena-grounded in departures from truthfulness, semantic information conservation, revelation of relevant knowledge, and knowledge-constrained optimality-we offer a principled foundation for managing these behaviors in advanced AI systems. Finally, we present some speculative ideas to inspire evaluation and refinements of the proposed theory.

Link do artigo

https://arxiv.org/abs/2506.06382

Otimizadores fantásticos de pré-treinamento e onde encontrá-los / Fantastic Pretraining Optimizers and Where to Find Them

Introdução ao artigo

Os otimizadores de pré-treinamento desempenham um papel importante no treinamento de grandes modelos de linguagem e, em especial, o AdamW se consolidou como padrão por muito tempo. No entanto, estudos recentes têm afirmado que otimizadores alternativos oferecem ganhos de velocidade de 1,4x a 2x, mas mostram que essas alegações, na prática, são exageradas. Neste estudo, os autores apontam dois problemas principais por trás dessas afirmações. Primeiro, o ajuste de hiperparâmetros pode ser feito de forma desequilibrada; segundo, as configurações de avaliação podem ser limitadas ou induzir a interpretações equivocadas. Para resolver isso, os autores compararam sistematicamente 10 otimizadores de deep learning em diferentes escalas de modelo e proporções entre dados e modelo.

A metodologia central da pesquisa divide o framework de ajuste de hiperparâmetros em três etapas. Na primeira, os hiperparâmetros de cada otimizador são ajustados minuciosamente para extrair o melhor desempenho. Na segunda, para reduzir os requisitos de memória, otimiza-se seletivamente apenas as partes do ajuste de hiperparâmetros que precisam ser ajustadas. Por fim, na terceira etapa, são aplicadas leis de escala para prever os valores ótimos dos hiperparâmetros de acordo com o tamanho do modelo e o orçamento de dados. Essa metodologia garante comparações justas e reproduzíveis entre otimizadores, e os resultados do estudo destacam que otimizadores baseados em matriz apresentam desempenho consistentemente superior aos otimizadores baseados em escalar.

Este estudo enfatiza a importância do ajuste de hiperparâmetros e a necessidade de avaliação em diferentes escalas de modelo e proporções entre dados e modelo, mostrando que hiperparâmetros ótimos para um otimizador podem ser subótimos para outro. Essas descobertas serão uma contribuição importante para estabelecer critérios de projeto e avaliação de otimizadores no futuro.

Resumo(Abstract)

O AdamW há muito tempo é o otimizador dominante no pré-treinamento de modelos de linguagem, apesar de inúmeras alegações de que otimizadores alternativos oferecem aceleração de 1,4x a 2x. Argumentamos que duas limitações metodológicas obscureceram comparações justas e dificultaram a adoção prática: (i) ajuste desigual de hiperparâmetros e (ii) configurações de avaliação limitadas ou enganosas. Para abordar esses dois problemas, realizamos um estudo sistemático de dez otimizadores de aprendizado profundo em quatro escalas de modelo (0,1B–1,2B de parâmetros) e proporções dados-modelo (1–8x o ótimo de Chinchilla). Descobrimos que comparações justas e informativas exigem ajuste rigoroso de hiperparâmetros e avaliações em uma variedade de escalas de modelo e proporções dados-modelo, realizadas ao fim do treinamento. Primeiro, hiperparâmetros ideais para um otimizador podem ser subótimos para outro, tornando injusta a transferência cega de hiperparâmetros. Segundo, a aceleração real de muitos otimizadores propostos em relação a baselines bem ajustadas é menor do que a alegada e diminui com o tamanho do modelo, chegando a apenas 1,1x para modelos de 1,2B de parâmetros. Terceiro, comparar checkpoints intermediários antes de atingir os orçamentos-alvo de treinamento pode ser enganoso, pois o ranking entre dois otimizadores pode se inverter durante o treinamento devido ao decaimento da taxa de aprendizado. Por meio de nossa investigação minuciosa, descobrimos que todos os otimizadores mais rápidos, como Muon e Soap, usam matrizes como pré-condicionadores — multiplicando gradientes por matrizes em vez de escalares elemento a elemento. No entanto, o ganho de velocidade dos otimizadores baseados em matrizes é inversamente proporcional à escala do modelo, caindo de 1,4x sobre o AdamW para modelos de 0,1B de parâmetros para meros 1,1x em modelos de 1,2B de parâmetros.
> AdamW has long been the dominant optimizer in language model pretraining, despite numerous claims that alternative optimizers offer 1.4 to 2x speedup. We posit that two methodological shortcomings have obscured fair comparisons and hindered practical adoption: (i) unequal hyperparameter tuning and (ii) limited or misleading evaluation setups. To address these two issues, we conduct a systematic study of ten deep learning optimizers across four model scales (0.1B-1.2B parameters) and data-to-model ratios (1-8x the Chinchilla optimum). We find that fair and informative comparisons require rigorous hyperparameter tuning and evaluations across a range of model scales and data-to-model ratios, performed at the end of training. First, optimal hyperparameters for one optimizer may be suboptimal for another, making blind hyperparameter transfer unfair. Second, the actual speedup of many proposed optimizers over well-tuned baselines is lower than claimed and decreases with model size to only 1.1x for 1.2B parameter models. Thirdly, comparing intermediate checkpoints before reaching the target training budgets can be misleading, as rankings between two optimizers can flip during training due to learning rate decay. Through our thorough investigation, we find that all the fastest optimizers such as Muon and Soap, use matrices as preconditioners -- multiplying gradients with matrices rather than entry-wise scalars. However, the speedup of matrix-based optimizers is inversely proportional to model scale, decreasing from 1.4x over AdamW for 0.1B parameter models to merely 1.1x for 1.2B parameter models.

Link do artigo

https://arxiv.org/abs/2509.02046

Anemoi: servidor MCP de sistema multiagente semidescentralizado baseado em comunicação entre agentes / Anemoi: A Semi-Centralized Multi-agent Systems Based on Agent-to-Agent Communication MCP server from Coral Protocol

Introdução ao artigo

O Anemoi é um sistema multiagente semidescentralizado (Multi-Agent System, MAS) baseado no modelo de comunicação A2A (Agent-to-Agent) do Coral Protocol, que possibilita coordenação eficiente de tarefas por meio da cooperação direta entre agentes. Os MAS centralizados existentes funcionam de modo que um agente planejador coordena vários agentes de tarefa em uma única direção, o que gera problemas como dependência da capacidade do planejador, perda de informação e redundância causadas pela comunicação limitada entre agentes. O Anemoi foi projetado para resolver esses problemas e oferece uma estrutura em que todos os agentes podem monitorar o progresso em tempo real, identificar gargalos e propor melhorias.

O núcleo do Anemoi é o uso do servidor MCP (Multi-Agent Communication Protocol) de comunicação A2A do Coral Protocol para dar suporte a um fluxo contínuo de informações entre agentes. O sistema combina um agente planejador com vários agentes de tarefa especializados por domínio, fornecendo um plano inicial e permitindo que os trabalhadores se coordenem diretamente. Com isso, reduz-se a dependência de um planejador centralizado, tornam-se possíveis atualizações adaptativas do plano e minimiza-se a passagem redundante de contexto, resultando em execução com boa eficiência de custos.

O Anemoi foi avaliado no benchmark GAIA e alcançou 52,73% de acurácia usando um LLM pequeno (GPT-4.1-mini) como planejador. Isso supera em 9,09% os 43,63% do OWL, o baseline open source mais forte sob a mesma configuração. Esses resultados mostram que o modelo de comunicação A2A semidescentralizado do Anemoi pode contribuir para melhorar o desempenho de sistemas multiagente.

Este estudo abre novas possibilidades para sistemas multiagente por meio da cooperação direta entre agentes e da melhoria do fluxo de informações, e espera-se que faça uma contribuição importante para o avanço de futuros sistemas de IA generalizados. A implementação do Anemoi está disponível publicamente no GitHub, oferecendo aos pesquisadores a oportunidade de usar esse sistema para desenvolver diversas aplicações.

Resumo (Abstract)

Os avanços recentes em sistemas multiagentes generalistas (MAS) seguiram em grande parte um paradigma de engenharia de contexto mais centralização, no qual um agente planejador coordena vários agentes trabalhadores por meio de repasse unidirecional de prompts. Embora seja eficaz com modelos planejadores fortes, esse design sofre de duas limitações críticas: (1) forte dependência da capacidade do planejador, o que leva à degradação de desempenho quando um LLM menor alimenta o planejador; e (2) comunicação limitada entre agentes, em que a colaboração depende de concatenação cara de prompts e injeção de contexto, introduzindo redundância e perda de informação. Para enfrentar esses desafios, propomos o Anemoi, um MAS semicientralizado construído sobre o servidor MCP de comunicação Agent-to-Agent (A2A) do Coral Protocol. Diferentemente dos designs tradicionais, o Anemoi permite colaboração estruturada e direta entre agentes, permitindo que todos os agentes monitorem o progresso, avaliem resultados, identifiquem gargalos e proponham refinamentos em tempo real. Esse paradigma reduz a dependência de um único planejador, oferece suporte a atualizações adaptativas do plano e minimiza o repasse redundante de contexto, resultando em uma execução mais escalável e com melhor custo-benefício. Avaliado no benchmark GAIA, o Anemoi alcançou 52.73% de acurácia usando um LLM pequeno (GPT-4.1-mini) como planejador, superando a baseline open source mais forte, OWL (43.63%), em +9.09% sob configurações idênticas de LLM. Nossa implementação está disponível publicamente em https://github.com/Coral-Protocol/Anemoi.
> Recent advances in generalist multi-agent systems (MAS) have largely followed a context-engineering plus centralized paradigm, where a planner agent coordinates multiple worker agents through unidirectional prompt passing. While effective under strong planner models, this design suffers from two critical limitations: (1) strong dependency on the planner's capability, which leads to degraded performance when a smaller LLM powers the planner; and (2) limited inter-agent communication, where collaboration relies on costly prompt concatenation and context injection, introducing redundancy and information loss. To address these challenges, we propose Anemoi, a semi-centralized MAS built on the Agent-to-Agent (A2A) communication MCP server from Coral Protocol. Unlike traditional designs, Anemoi enables structured and direct inter-agent collaboration, allowing all agents to monitor progress, assess results, identify bottlenecks, and propose refinements in real time. This paradigm reduces reliance on a single planner, supports adaptive plan updates, and minimizes redundant context passing, resulting in more scalable and cost-efficient execution. Evaluated on the GAIA benchmark, Anemoi achieved 52.73% accuracy with a small LLM (GPT-4.1-mini) as the planner, surpassing the strongest open-source baseline OWL (43.63%) by +9.09% under identical LLM settings. Our implementation is publicly available at https://github.com/Coral-Protocol/Anemoi.

Link do artigo

https://arxiv.org/abs/2508.17068

SparseLoCo para pré-treinamento de LLM com eficiência de comunicação / Communication Efficient LLM Pre-training with SparseLoCo

Introdução ao artigo

Aumentar a eficiência de comunicação no processo de pré-treinamento de grandes modelos de linguagem (LLMs) é um tema de pesquisa extremamente importante. Algoritmos recentes de aprendizado distribuído têm atraído grande interesse por serem úteis no treinamento de LLMs em ambientes com limitação de largura de banda, seja entre data centers ou pela internet. No entanto, os métodos existentes ainda exigem a transmissão de todos os gradientes do modelo, o que pode causar gargalos de comunicação e levar à degradação de desempenho. Para resolver esse problema, o SparseLoCo foi proposto como um algoritmo de treinamento com eficiência de comunicação, apresentando uma abordagem capaz de melhorar o desempenho ao mesmo tempo que alcança taxas extremas de compressão com o uso de esparsificação Top-k e quantização de 2 bits.

A principal inovação do SparseLoCo é aproximar o momento externo combinando feedback de erro com esparsificação agressiva. Com isso, é possível melhorar o desempenho do modelo ao mesmo tempo que se reduz o custo de comunicação. Os resultados da pesquisa mostram empiricamente que o SparseLoCo oferece vantagens significativas tanto em desempenho quanto em custo de comunicação em diversos ambientes com restrições de comunicação. Em particular, com esparsidade de 1-3% e quantização de 2 bits, ele apresentou resultados que mantêm ou melhoram o desempenho enquanto reduzem drasticamente o custo de comunicação em comparação com o método DDP (Distributed Data Parallel) convencional.

Este estudo apresenta um novo método para aumentar a eficiência de comunicação no pré-treinamento de LLMs e aponta o potencial de evolução do SparseLoCo por meio de mais experimentos e otimizações no futuro. Espera-se que o SparseLoCo contribua de forma importante para aumentar a eficiência do treinamento de modelos em larga escala, ajudando a indicar novas direções para a pesquisa e o desenvolvimento de LLMs.

Resumo (Abstract)

Algoritmos de treinamento distribuído eficientes em comunicação têm recebido atenção considerável recentemente devido aos seus benefícios para o treinamento de Large Language Models (LLMs) em ambientes com restrição de largura de banda, como entre data centers e pela internet. Embora reduzam a frequência de comunicação, esses métodos ainda normalmente exigem a comunicação de uma cópia completa dos gradientes do modelo, resultando em um gargalo de comunicação mesmo em links entre data centers. Além disso, eles podem degradar levemente o desempenho em comparação com um baseline ingênuo de AdamW DDP. Embora quantização e error feedback sejam frequentemente aplicados para reduzir o tamanho do pseudogradiente, no contexto de pré-treinamento de LLMs, as abordagens existentes não conseguiram explorar adicionalmente a esparsificação e obtiveram quantização limitada. Neste trabalho, apresentamos o SparseLoCo, um algoritmo de treinamento eficiente em comunicação para LLMs que aproveita de forma eficaz a esparsificação Top-k e a quantização para alcançar taxas extremas de compressão de até 1–3% de esparsidade e quantização de 2 bits, superando o DiLoCo em precisão total. Nossas principais observações são que o momentum externo pode ser aproximado localmente por um error feedback combinado com esparsidade agressiva e que a agregação esparsa pode, de fato, melhorar o desempenho do modelo. Demonstramos empiricamente, em uma variedade de cenários de treinamento de LLMs com restrições de comunicação, que o SparseLoCo oferece benefícios significativos tanto em desempenho quanto em custo de comunicação.
> Communication-efficient distributed training algorithms have received considerable interest recently due to their benefits for training Large Language Models (LLMs) in bandwidth-constrained settings, such as across data centers and over the internet. Despite reducing communication frequency, these methods still typically require communicating a full copy of the model's gradients-resulting in a communication bottleneck even for cross-datacenter links. Furthermore, they can slightly degrade performance compared to a naive AdamW DDP baseline. While quantization and error feedback are often applied to reduce the pseudo-gradient's size, in the context of LLM pre-training, existing approaches have been unable to additionally leverage sparsification and have obtained limited quantization. In this work, we introduce SparseLoCo, a communication-efficient training algorithm for LLMs that effectively leverages Top-k sparsification and quantization to reach extreme compression ratios of up to 1-3% sparsity and 2-bit quantization while outperforming full-precision DiLoCo. Our key observations are that outer momentum can be locally approximated by an error feedback combined with aggressive sparsity and that sparse aggregation can actually improve model performance. We empirically demonstrate in a range of communication-constrained LLM training settings that SparseLoCo provides significant benefits in both performance and communication cost.

Link do artigo

https://arxiv.org/abs/2508.15706

Roteamento adaptativo de LLMs sob restrições de orçamento / Adaptive LLM Routing under Budget Constraints

Introdução ao artigo

O avanço dos Large Language Models (LLMs) trouxe uma revolução para a área de processamento de linguagem natural, mas o alto custo desses modelos e a necessidade de responder adequadamente a diferentes tipos de consultas continuam sendo desafios. Neste estudo, reformulamos o problema de roteamento de LLMs como um problema de bandit contextual e propomos Preference-prior Informed LinUCB for Adaptive Routing (PILOT), um novo algoritmo que seleciona o LLM ideal sob restrições de orçamento. As abordagens existentes de aprendizado supervisionado têm a limitação de exigir grandes conjuntos de dados rotulados, e este trabalho desenvolveu uma metodologia para superar essa limitação ajustando dinamicamente a seleção de LLMs por meio de feedback dos usuários.

O PILOT é composto por duas etapas principais. Na primeira, utiliza dados offline de preferência humana para construir um espaço de embeddings compartilhado que reflete a afinidade entre consultas e LLMs. Nesse processo, minimiza-se a triplet loss para aprender de forma eficaz a relação entre consultas e LLMs. Na segunda etapa, integra-se feedback online de bandit para selecionar o LLM apropriado para cada consulta e observar a recompensa correspondente, melhorando continuamente o desempenho. Essa abordagem possibilita uma alocação de recursos flexível com consideração de orçamento e oferece capacidade de adaptação a diversas demandas dos usuários.

As principais contribuições deste estudo são a formalização do problema de roteamento de LLMs considerando restrições de orçamento e a proposta do algoritmo PILOT para resolvê-lo. Os resultados experimentais mostram que o PILOT apresenta desempenho superior aos baselines de bandit existentes em diversos conjuntos de dados e foi bem-sucedido em maximizar a eficiência de custo. Esses resultados contribuem de forma importante para a implantação e o uso prático de LLMs, e, como direções futuras, sugerem melhorar a adaptabilidade a diferentes demandas dos usuários e ampliar a aplicabilidade a mais conjuntos de dados.

Resumo(Abstract)

Os grandes modelos de linguagem (LLMs) revolucionaram o processamento de linguagem natural, mas suas capacidades e custos variados trazem desafios em aplicações práticas. O roteamento de LLMs busca resolver isso ao selecionar dinamicamente o LLM mais adequado para cada consulta/tarefa. Abordagens anteriores tratavam isso como um problema de aprendizado supervisionado, assumindo conhecimento completo dos pares ideais consulta-LLM. No entanto, cenários do mundo real carecem desse mapeamento abrangente e enfrentam consultas de usuários em constante evolução. Assim, propomos estudar o roteamento de LLMs como um problema de bandido contextual, o que, ao contrário do roteamento supervisionado, permite tomada de decisão adaptativa usando feedback de bandido sem exigir inferência exaustiva em todos os LLMs para todas as consultas. Para lidar com esse problema, desenvolvemos um espaço de embeddings compartilhado para consultas e LLMs, no qual os embeddings de consultas e de LLMs são alinhados para refletir sua afinidade. Esse espaço é inicialmente aprendido a partir de dados offline de preferência humana e refinado por meio de feedback online de bandido. Concretizamos essa ideia por meio do Preference-prior Informed Linucb fOr adaptive rouTing (PILOT), uma nova extensão do LinUCB para roteamento adaptativo. Para lidar com diferentes orçamentos de usuários no roteamento de modelos, introduzimos uma política de custo online modelada como um problema da mochila de múltipla escolha, garantindo um roteamento eficiente em recursos.
> Large Language Models (LLMs) have revolutionized natural language processing, but their varying capabilities and costs pose challenges in practical applications. LLM routing addresses this by dynamically selecting the most suitable LLM for each query/task. Previous approaches treat this as a supervised learning problem, assuming complete knowledge of optimal query-LLM pairings. However, real-world scenarios lack such comprehensive mappings and face evolving user queries. We thus propose to study LLM routing as a contextual bandit problem, enabling adaptive decision-making using bandit feedback without requiring exhaustive inference across all LLMs for all queries (in contrast to supervised routing). To address this problem, we develop a shared embedding space for queries and LLMs, where query and LLM embeddings are aligned to reflect their affinity. This space is initially learned from offline human preference data and refined through online bandit feedback. We instantiate this idea through Preference-prior Informed Linucb fOr adaptive rouTing (PILOT), a novel extension of LinUCB. To handle diverse user budgets for model routing, we introduce an online cost policy modeled as a multi-choice knapsack problem, ensuring resource-efficient routing.

Link do artigo

https://arxiv.org/abs/2508.21141

Geração eficiente de conjuntos de imagens em difusão texto-para-imagem por meio de reutilização de computação / Reusing Computation in Text-to-Image Diffusion for Efficient Generation of Image Sets

Introdução ao artigo

Os modelos de difusão texto-para-imagem são altamente eficazes na geração de imagens de alta qualidade, mas o alto custo computacional desse processo tem se tornado um grande desafio. Estudos anteriores se concentraram principalmente em melhorar a eficiência da geração de imagens individuais, mas este trabalho propõe uma nova abordagem para reduzir a redundância entre prompts correlacionados. O método proposto explora a natureza do difusão de ir do grosseiro ao refinado para capturar estruturas compartilhadas entre prompts semelhantes nas etapas iniciais de remoção de ruído.

Este estudo adota uma abordagem sem necessidade de treinamento que agrupa prompts com base em similaridade semântica e compartilha computação nas etapas iniciais da difusão. Os resultados experimentais mostram que, em modelos condicionados por embeddings de imagem, esse método pode reduzir o custo computacional em pelo menos 50% ao mesmo tempo em que mantém ou melhora a qualidade das imagens. Além disso, a eficiência foi ampliada ainda mais ao otimizar a alocação das etapas de difusão usando as informações prévias de texto-para-imagem do UnClip.

O método proposto pode ser integrado de forma transparente aos pipelines existentes de geração texto-para-imagem e é escalável para grandes conjuntos de prompts, podendo contribuir para reduzir os custos ambientais e financeiros. Este estudo oferece insights importantes sobre a dinâmica de geração dos modelos de difusão e deve servir como uma base relevante para explorar futuras estratégias de otimização sustentável.

Resumo do artigo (Abstract)

Os modelos de difusão texto-para-imagem permitem a geração de imagens de alta qualidade, mas têm alto custo computacional. Enquanto trabalhos anteriores se concentraram em otimizar a eficiência por inferência, exploramos uma abordagem ortogonal: reduzir a redundância entre prompts correlacionados. Nosso método aproveita a natureza do grosseiro ao refinado dos modelos de difusão, em que as etapas iniciais de remoção de ruído capturam estruturas compartilhadas entre prompts semelhantes. Propomos uma abordagem sem treinamento que agrupa prompts com base em similaridade semântica e compartilha computação nas etapas iniciais da difusão. Os experimentos mostram que, para modelos treinados com condicionamento em embeddings de imagem, nossa abordagem reduz significativamente o custo computacional enquanto melhora a qualidade das imagens. Ao aproveitar o prior de texto-para-imagem do UnClip, aprimoramos a alocação das etapas de difusão para obter maior eficiência. Nosso método integra-se perfeitamente aos pipelines existentes, escala com conjuntos de prompts e reduz a carga ambiental e financeira da geração texto-para-imagem em larga escala. Página do projeto: https://ddecatur.github.io/hierarchical-diffusion/
> Text-to-image diffusion models enable high-quality image generation but are computationally expensive. While prior work optimizes per-inference efficiency, we explore an orthogonal approach: reducing redundancy across correlated prompts. Our method leverages the coarse-to-fine nature of diffusion models, where early denoising steps capture shared structures among similar prompts. We propose a training-free approach that clusters prompts based on semantic similarity and shares computation in early diffusion steps. Experiments show that for models trained conditioned on image embeddings, our approach significantly reduces compute cost while improving image quality. By leveraging UnClip's text-to-image prior, we enhance diffusion step allocation for greater efficiency. Our method seamlessly integrates with existing pipelines, scales with prompt sets, and reduces the environmental and financial burden of large-scale text-to-image generation. Project page: https://ddecatur.github.io/hierarchical-diffusion/

Link do artigo

https://arxiv.org/abs/2508.21032

Atenção é uma spline cúbica suavizada / Attention is a smoothed cubic spline

Apresentação do artigo

Na arquitetura Transformer, o módulo de atenção, apesar de sua importância, ainda permanece em grande parte como uma área desconhecida. Este estudo oferece novos insights a partir da perspectiva da teoria clássica da aproximação ao interpretar esses módulos de atenção como splines cúbicas suaves. Os autores mostraram que, com a função de ativação ReLU, atenção, atenção mascarada e atenção encoder-decoder podem todas ser representadas como splines cúbicas. Essa abordagem tem implicações importantes, já que todos os componentes do Transformer são formados por combinações de diversos módulos de atenção e redes neurais feed-forward.

O estudo destaca, com base na conjectura de Pierce-Birkhoff, que toda spline pode ser representada por um encoder com ativação ReLU. Com isso, esclarece a natureza matemática dos módulos de atenção e aprofunda a compreensão estrutural do Transformer por meio das splines cúbicas. Além disso, sugere que, ao substituir a ReLU por uma função de ativação suave como SoftMax para obter uma versão suave $C^\infty$, é possível recuperar os modelos Transformer existentes.

Este estudo aprofunda a compreensão dos modelos de machine learning existentes por meio de uma interpretação matemática do mecanismo de atenção e explica a essência da arquitetura Transformer com base nas splines, um objeto matemático bem conhecido. Os resultados experimentais mostram que o modelo de spline cúbica proposto apresenta desempenho superior aos modelos existentes, comprovando que a interpretação matemática do módulo de atenção tem impacto positivo no desempenho prático. Espera-se que essas descobertas contribuam para o desenvolvimento futuro dos mecanismos de atenção. O estudo oferece uma nova perspectiva sobre os módulos de atenção do Transformer e deve servir como base importante para pesquisadores da área.

Resumo do artigo (Abstract)

Destacamos um insight talvez importante, mas até agora não observado: o módulo de atenção em um transformer é uma spline cúbica suavizada. Visto dessa forma, esse componente misterioso, porém crítico, de um transformer torna-se um desdobramento natural de uma noção antiga profundamente enraizada na teoria clássica da aproximação. Mais precisamente, mostramos que, com ativação ReLU, atenção, atenção mascarada e atenção encoder-decoder são todas splines cúbicas. Como todos os componentes de um transformer são construídos a partir de composições de vários módulos de atenção (= splines cúbicas) e redes neurais feed-forward (= splines lineares), todos os seus componentes — encoder, decoder e blocos encoder-decoder; encoders e decoders multicamadas; o próprio transformer — são splines cúbicas ou de ordem superior. Se assumirmos a conjectura de Pierce-Birkhoff, então o recíproco também vale, isto é, toda spline é um encoder com ativação ReLU. Como uma spline é em geral apenas $C^2$, uma forma de obter uma versão suavizada $C^\infty$ é substituir a ReLU por uma ativação suave; e, se essa ativação for escolhida como SoftMax, recuperamos o transformer original proposto por Vaswani et al. Esse insight esclarece a natureza do transformer ao descrevê-lo inteiramente em termos de splines, um dos objetos mais conhecidos e exaustivamente compreendidos da matemática aplicada.
> We highlight a perhaps important but hitherto unobserved insight: The attention module in a transformer is a smoothed cubic spline. Viewed in this manner, this mysterious but critical component of a transformer becomes a natural development of an old notion deeply entrenched in classical approximation theory. More precisely, we show that with ReLU-activation, attention, masked attention, encoder-decoder attention are all cubic splines. As every component in a transformer is constructed out of compositions of various attention modules (= cubic splines) and feed forward neural networks (= linear splines), all its components -- encoder, decoder, and encoder-decoder blocks; multilayered encoders and decoders; the transformer itself -- are cubic or higher-order splines. If we assume the Pierce-Birkhoff conjecture, then the converse also holds, i.e., every spline is a ReLU-activated encoder. Since a spline is generally just $C^2$, one way to obtain a smoothed $C^\infty$-version is by replacing ReLU with a smooth activation; and if this activation is chosen to be SoftMax, we recover the original transformer as proposed by Vaswani et al. This insight sheds light on the nature of the transformer by casting it entirely in terms of splines, one of the best known and thoroughly understood objects in applied mathematics.

Link do artigo

https://arxiv.org/abs/2408.09624

$Mem^p$: explorando a memória procedural de agentes / $Mem^p$: Exploring Agent Procedural Memory

Apresentação do artigo

Agentes baseados em grandes modelos de linguagem (LLMs) apresentam excelente desempenho em diversas tarefas, mas a memória procedural existente é frágil por ser projetada manualmente ou por depender de parâmetros estáticos. Este estudo propõe $Mem^p$ como uma metodologia inovadora para dotar agentes de uma memória procedural vitalícia que possa ser aprendida e atualizada. O $Mem^p$ destila trajetórias passadas de agentes em instruções detalhadas passo a passo e scripts de alto nível, explorando estratégias de construção (Build), recuperação (Retrieval) e atualização (Update) da memória procedural.

O núcleo do $Mem^p$ está em atualizar, revisar e descartar continuamente a memória procedural por meio de um regime dinâmico. Isso permite que o agente faça evoluir seu repositório de memória de acordo com novas experiências, e avaliações empíricas confirmaram melhorias graduais na taxa de sucesso e na eficiência dos agentes no TravelPlanner e no ALFWorld. Em particular, a memória procedural construída a partir de modelos mais fortes mantém seu valor e, quando transferida para modelos mais fracos, também mostrou melhora significativa de desempenho.

O processo de recuperação da memória procedural é essencial para que o agente encontre com eficácia as experiências mais semelhantes para novas tarefas. Esse processo é implementado medindo similaridade com modelos de embedding vetorial e recuperando a memória mais adequada. Além disso, o mecanismo de atualização da memória procedural foi projetado para permitir adição, exclusão e modificação dinâmicas à medida que aumenta o número de tarefas executadas pelo agente. Essa abordagem abrangente contribui para maximizar a capacidade de aprendizado do agente e melhorar sua execução de tarefas em diversos ambientes.

Ao aprimorar continuamente a memória procedural dos agentes, o $Mem^p$ oferece implicações importantes para o desenvolvimento futuro de sistemas de agentes e destaca a importância de uma memória procedural aprendível. Espera-se que esses resultados tragam uma contribuição inovadora para maximizar o desempenho dos agentes.

Resumo do artigo (Abstract)

Os agentes baseados em Large Language Models (LLMs) se destacam em diversas tarefas, mas sofrem com uma memória procedimental frágil, projetada manualmente ou atrelada a parâmetros estáticos. Neste trabalho, investigamos estratégias para dotar agentes de uma memória procedimental aprendível, atualizável e de uso contínuo ao longo da vida. Propomos o $Mem^p$, que destila trajetórias passadas de agentes tanto em instruções detalhadas, passo a passo, quanto em abstrações de nível mais alto, semelhantes a scripts, e exploramos o impacto de diferentes estratégias de Build, Retrieval e Update da memória procedimental. Combinado a um regime dinâmico que atualiza, corrige e descontinua continuamente seu conteúdo, esse repositório evolui em sintonia com novas experiências. A avaliação empírica em TravelPlanner e ALFWorld mostra que, à medida que o repositório de memória é refinado, os agentes alcançam taxas de sucesso progressivamente maiores e mais eficiência em tarefas análogas. Além disso, a memória procedimental construída a partir de um modelo mais forte preserva seu valor: migrar a memória procedimental para um modelo mais fraco gera ganhos substanciais de desempenho.
> Large Language Models (LLMs) based agents excel at diverse tasks, yet they suffer from brittle procedural memory that is manually engineered or entangled in static parameters. In this work, we investigate strategies to endow agents with a learnable, updatable, and lifelong procedural memory. We propose $Mem^p$ that distills past agent trajectories into both fine-grained, step-by-step instructions and higher-level, script-like abstractions, and explore the impact of different strategies for Build, Retrieval, and Update of procedural memory. Coupled with a dynamic regimen that continuously updates, corrects, and deprecates its contents, this repository evolves in lockstep with new experience. Empirical evaluation on TravelPlanner and ALFWorld shows that as the memory repository is refined, agents achieve steadily higher success rates and greater efficiency on analogous tasks. Moreover, procedural memory built from a stronger model retains its value: migrating the procedural memory to a weaker model yields substantial performance gains.

Link do artigo

https://arxiv.org/abs/2508.06433

Momento AlphaGo para a descoberta de arquiteturas de modelos / AlphaGo Moment for Model Architecture Discovery

Apresentação do artigo

O ASI-Arch é um sistema de superinteligência artificial (ASI4AI) que descobre arquiteturas inovadoras de forma totalmente autônoma no campo de busca de arquiteturas de redes neurais. Indo além da Neural Architecture Search (NAS), limitada aos espaços de busca definidos por humanos, ele muda o paradigma da otimização automática para a inovação automática, realizando de forma independente a formulação de hipóteses, implementação, treinamento e validação de novos conceitos estruturais. Ao longo de 20.000 horas de GPU e 1.773 experimentos, descobriu 106 arquiteturas de linear attention de ponta, apresentando novos princípios de projeto que superam bases concebidas por humanos. Além disso, propõe leis de escalonamento empíricas para a própria descoberta científica, demonstrando que o avanço da pesquisa pode ser transformado de um processo limitado pela cognição humana para um processo escalável por recursos computacionais.

Resumo do artigo (Abstract)

Enquanto os sistemas de AI demonstram capacidades em melhoria exponencial, o ritmo da própria pesquisa em AI permanece linearmente limitado pela capacidade cognitiva humana, criando um gargalo de desenvolvimento cada vez mais severo. Neste artigo, apresentamos o ASI-Arch, a primeira demonstração de Superinteligência Artificial para pesquisa em AI (ASI4AI) no domínio crítico da descoberta de arquiteturas neurais. O ASI-Arch é um sistema totalmente autônomo que rompe essa limitação fundamental ao permitir que a própria AI conduza inovação arquitetural. Indo além do tradicional Neural Architecture Search (NAS), que é fundamentalmente limitado à exploração de espaços definidos por humanos, introduzimos uma mudança de paradigma da otimização automatizada para a inovação automatizada. O ASI-Arch realiza pesquisa científica end-to-end no domínio da descoberta de arquiteturas, formulando autonomamente hipóteses sobre novos conceitos arquiteturais, implementando-os como código executável e treinando e validando empiricamente seu desempenho por meio de experimentação rigorosa e aprendizado com experiências passadas. O ASI-Arch conduziu 1.773 experimentos autônomos ao longo de 20.000 horas de GPU, culminando na descoberta de 106 arquiteturas inovadoras e state-of-the-art (SOTA) de linear attention. Assim como o Move 37 do AlphaGo revelou percepções estratégicas inesperadas e invisíveis para jogadores humanos, as arquiteturas descobertas por esta AI demonstram princípios de design emergentes que superam sistematicamente os baselines projetados por humanos e iluminam caminhos antes desconhecidos para a inovação arquitetural. De forma crucial, estabelecemos a primeira lei empírica de escalonamento para a própria descoberta científica, demonstrando que avanços arquiteturais podem ser ampliados computacionalmente e transformando o progresso da pesquisa de um processo limitado por humanos em um processo escalável por computação. Este artigo fornece uma análise abrangente dos padrões de design emergentes e das capacidades autônomas de pesquisa que possibilitaram esses avanços, estabelecendo um blueprint para sistemas de AI autoacelerados.
> While AI systems demonstrate exponentially improving capabilities, the pace of AI research itself remains linearly bounded by human cognitive capacity, creating an increasingly severe development bottleneck. We present ASI-Arch, the first demonstration of Artificial Superintelligence for AI research (ASI4AI) in the critical domain of neural architecture discovery--a fully autonomous system that shatters this fundamental constraint by enabling AI to conduct its own architectural innovation. Moving beyond traditional Neural Architecture Search (NAS), which is fundamentally limited to exploring human-defined spaces, we introduce a paradigm shift from automated optimization to automated innovation. ASI-Arch can conduct end-to-end scientific research in the domain of architecture discovery, autonomously hypothesizing novel architectural concepts, implementing them as executable code, training and empirically validating their performance through rigorous experimentation and past experience. ASI-Arch conducted 1,773 autonomous experiments over 20,000 GPU hours, culminating in the discovery of 106 innovative, state-of-the-art (SOTA) linear attention architectures. Like AlphaGo's Move 37 that revealed unexpected strategic insights invisible to human players, our AI-discovered architectures demonstrate emergent design principles that systematically surpass human-designed baselines and illuminate previously unknown pathways for architectural innovation. Crucially, we establish the first empirical scaling law for scientific discovery itself--demonstrating that architectural breakthroughs can be scaled computationally, transforming research progress from a human-limited to a computation-scalable process. We provide comprehensive analysis of the emergent design patterns and autonomous research capabilities that enabled these breakthroughs, establishing a blueprint for self-accelerating AI systems.

Link do artigo

https://arxiv.org/abs/2507.18074

Indução de capacidades de modelos de linguagem por meio de aprendizado não supervisionado / Unsupervised Elicitation of Language Models

Apresentação do artigo

Ao adaptar modelos de linguagem pré-treinados para tarefas específicas, os métodos existentes exigem supervisão humana, mas em modelos com capacidades sobre-humanas a supervisão humana de alta qualidade é difícil ou impossível. Para resolver isso, propomos o Internal Coherence Maximization (ICM), um algoritmo de aprendizado não supervisionado que faz fine-tuning usando rótulos gerados pelo próprio modelo, sem supervisão externa. O ICM apresenta desempenho igual ou superior ao aprendizado baseado em supervisão humana em vários benchmarks e, em especial, mostra resultados melhores do que o treinamento com rótulos humanos em tarefas com capacidade sobre-humana. Além disso, usando esse método, treinamos modelos de recompensa e sistemas auxiliares de modelos de linguagem de última geração, demonstrando melhoria de desempenho em relação aos modelos supervisionados por humanos.

Resumo do artigo (Abstract)

Para ajustar modelos de linguagem pré-treinados a tarefas específicas, o paradigma atual de pós-treinamento (post-training) depende de humanos para especificar os comportamentos desejados. No entanto, no caso de modelos com capacidades sobre-humanas (superhuman), obter supervisão humana de alta qualidade é difícil ou impossível. Para enfrentar esse problema, propomos um novo algoritmo de aprendizado não supervisionado, a Maximização de Coerência Interna (Internal Coherence Maximization, ICM), que faz o ajuste fino de modelos de linguagem pré-treinados com rótulos gerados por eles mesmos, \emph{sem supervisão externa}. Nas tarefas de modelagem de recompensa do GSM8k-verification, TruthfulQA e Alpaca, esse método iguala o desempenho do treinamento com supervisão dourada (golden supervision) e supera o treinamento com supervisão humana obtida por crowdsourcing. Em tarefas nas quais as capacidades dos LMs são fortemente sobre-humanas, esse método consegue extrair essas capacidades de forma significativamente melhor do que o treinamento com rótulos humanos. Por fim, mostramos que esse método pode melhorar o treinamento de LMs de fronteira: usamos o método para treinar um modelo de recompensa não supervisionado e aplicamos aprendizado por reforço para treinar um assistente baseado no Claude 3.5 Haiku. Tanto o modelo de recompensa quanto o assistente superam suas contrapartes supervisionadas por humanos.
> To steer pretrained language models for downstream tasks, today's post-training paradigm relies on humans to specify desired behaviors. However, for models with superhuman capabilities, it is difficult or impossible to get high-quality human supervision. To address this challenge, we introduce a new unsupervised algorithm, Internal Coherence Maximization (ICM), to fine-tune pretrained language models on their own generated labels, \emph{without external supervision}. On GSM8k-verification, TruthfulQA, and Alpaca reward modeling tasks, our method matches the performance of training on golden supervision and outperforms training on crowdsourced human supervision. On tasks where LMs' capabilities are strongly superhuman, our method can elicit those capabilities significantly better than training on human labels. Finally, we show that our method can improve the training of frontier LMs: we use our method to train an unsupervised reward model and use reinforcement learning to train a Claude 3.5 Haiku-based assistant. Both the reward model and the assistant outperform their human-supervised counterparts.

Link do artigo

https://arxiv.org/abs/2506.10139

Este texto foi organizado com base em um conteúdo resumido por um modelo GPT, portanto pode haver trechos resumidos de forma diferente do conteúdo ou da intenção do texto original. Se o tema for do seu interesse, consulte também o texto original! Se encontrar algo estranho ou incorreto durante a leitura, por favor avise nos comentários. 🤗
⚠️Publicidade⚠️ Você achou útil este texto organizado pela 🔥Comunidade Coreana de Usuários de PyTorch🇰🇷? Se se cadastrar como membro, enviaremos os principais textos por e-mail💌! O padrão é Weekly, mas também é possível mudar para Daily.

[2025/09/01 ~ 07] Coletânea de artigos de AI/ML para conferir nesta semana