Thoughtworks Technology Radar, Volume 34 é publicado
(thoughtworks.com)- Técnicas/Ferramentas/Plataformas/Linguagens e frameworks de desenvolvimento: visualiza e explica as tendências mais recentes em quatro estágios — "adotar", "experimentar", "avaliar" e "manter cautela"
- Quatro temas centrais: a era dos agentes e a avaliação de tecnologia, manter os princípios mas revisar os padrões, os problemas de segurança dos agentes, harnesses para agentes de codificação
A era dos agentes e os desafios da avaliação de tecnologia
- Com a adoção de IA, a própria avaliação de tecnologia está ficando mais difícil, e a difusão semântica (semantic diffusion) faz com que novos termos surjam rapidamente antes que seus significados se estabilizem
- Termos como spec-driven development e harness engineering são usados de forma inconsistente ou com significados sobrepostos
- Na ausência de definições compartilhadas, fica difícil julgar se são técnicas distintas ou nomes diferentes para o mesmo conceito
- Continua sendo um desafio distinguir entre metodologias de engenharia independentes e maduras e o uso cotidiano de ferramentas de IA como assistentes de codificação
- A velocidade das mudanças amplia a incerteza, com muitas ferramentas com menos de um mês de existência, algumas mantidas por um único colaborador junto com agentes de codificação
- Se esperar a maturidade das ferramentas, o guia envelhece; se avançar rápido demais, há o risco de destacar tendências que logo desaparecerão
- Isso levanta a questão da sustentabilidade do que está sendo criado com rapidez e pouco esforço
- Dívida cognitiva do codebase (Codebase Cognitive Debt)
- À medida que o código gerado por IA aumenta, fica mais fácil adotar soluções sem um modelo mental de como elas funcionam
- Quando essa lacuna de entendimento se acumula, torna-se mais difícil raciocinar sobre o sistema, depurá-lo e evoluí-lo
Manter os princípios, mas revisar os padrões
- A IA não está apenas mudando o futuro, mas também levando a uma revisão dos fundamentos do craftsmanship de software
- Revalorização de práticas existentes como pair programming, arquitetura zero trust, mutation testing e métricas DORA
- Reafirmação de princípios centrais como código limpo, design intencional, testabilidade e acessibilidade como prioridades de primeira classe
- Não se trata de nostalgia, mas de um contrapeso essencial à velocidade com que as ferramentas de IA geram complexidade
- O retorno da linha de comando: após anos de abstração em nome da usabilidade, as ferramentas agentic estão levando os desenvolvedores de volta ao terminal
- O desenvolvimento assistido por IA representa uma mudança fundamental na prática de engenharia, exigindo repensar colaboração e estrutura das equipes
- É preciso considerar agent topologies em paralelo a team topologies e redesenhar os ciclos de feedback
- Técnicas como measuring collaboration quality with coding agents acabam redefinindo a própria noção de desenvolvedor de software
- Em um ambiente orientado por IA, o gerenciamento da dívida cognitiva torna-se um desafio central, e continua importante preservar o princípio de que "velocidade sem disciplina aumenta os custos"
Os problemas de segurança de agentes sedentos por permissões
- "Permission hungry" descreve o dilema essencial do momento: quanto mais útil é o agente, mais ele precisa acessar tudo
- OpenClaw e Claude Cowork supervisionam trabalho real
- Gas Town coordena swarms de agentes em todo o codebase
- Isso exige amplo acesso a dados privados, comunicação externa e sistemas reais
- As salvaguardas ainda não acompanham essa ambição: com prompt injection, os modelos não conseguem distinguir de forma confiável entre instruções confiáveis e entradas não confiáveis
- A definição de "lethal trifecta" de Simon Willison — dados privados, conteúdo não confiável e ação externa — vale não por má configuração, mas como padrão para a maioria dos agentes úteis
- Há ameaças além da injeção, inclusive a inconsistência do comportamento do modelo
- Não há garantia de que uma tarefa bem-sucedida uma vez funcionará da mesma forma na próxima
- Mesmo sem intenção maliciosa, agentes podem encontrar caminhos criativos de vazamento, dar push em branches que não deveriam tocar e contornar checkpoints de aprovação/rejeição
- O que é possível fazer agora — zero trust, privilégio mínimo, melhoria dos modelos e defesa em profundidade são condições básicas, mas não existe solução única
- Sistemas de agentes seguros exigem não um agente monolítico, mas pipelines de agentes mais restritos, com monitoramento e controle fortes
- Agent Skills pode ser usado como alternativa mais controlável ao MCP
- durable agents e técnicas para evitar agent instruction bloat apontam nessa direção
- Como esse espaço evolui rapidamente, a cautela é essencial para evitar erros caros
Colocando rédeas nos agentes de codificação
- Com a melhora do desempenho dos agentes de codificação, cresce a tentação de tirar humanos do loop, e por isso as equipes começaram a investir em coding agent harnesses
- São mecanismos de controle que orientam o comportamento do agente antes da geração de código e depois permitem autocorreção por meio de feedback
- Controles feedforward
- Fornecem antecipadamente o necessário para aumentar a probabilidade de acerto já na primeira tentativa do agente
- Agent Skills é um avanço importante, modularizando instruções e convenções e carregando-as no momento necessário
- Superpowers é um exemplo de catálogo útil de skills para equipes de software
- O conceito de plugin marketplaces ganha força, facilitando a distribuição de skills e configurações de contexto
- Frameworks de spec-driven development — como GitHub Spec-Kit e OpenSpec — estruturam workflows de planejamento, design e implementação
- Controles de feedback
- Observam o comportamento do agente depois da ação para criar loops de autocorreção
- feedback sensors for coding agents — gates determinísticos de qualidade como compiladores, linters, type checkers e suítes de teste — são integrados diretamente ao workflow do agente
- Em caso de falha, disparam correção automática antes da revisão humana
- Entre os exemplos desta edição do Radar estão cargo-mutants e ferramentas de mutation testing, ferramentas de fuzz testing como WuppieFuzz e ferramentas de análise de qualidade de código como CodeScene
- Além do feedback in-loop, também há casos de redução de architecture drift ao combinar regras estruturais determinísticas com avaliação baseada em LLM
[Techniques]
Adopt
1. Context engineering
- Técnica que evoluiu para uma preocupação arquitetural central dos sistemas modernos de IA; diferentemente do prompt engineering, que foca na formulação do texto, trata a janela de contexto como superfície de design e constrói de forma intencional o ambiente informacional da IA
- À medida que os agentes lidam com tarefas mais complexas, despejar dados brutos em grandes janelas de contexto causa "context rot" e degradação do raciocínio; por isso, está em curso a mudança de prompts estáticos e monolíticos para progressive context disclosure
- Context setup usa prompt caching para pré-carregar instruções estáticas, reduzindo custos e melhorando o tempo até o primeiro token; dynamic retrieval vai além do RAG básico para seleção de ferramentas e carrega apenas os servidores MCP necessários
- Context graphs modelam raciocínio institucional — como políticas, exceções e precedentes — como dados estruturados e consultáveis; stateful compression e subagentes resumem saídas intermediárias em workflows longos
- Tratar o contexto de IA como uma caixa de texto estática é um atalho para alucinações; para construir agentes corporativos robustos, é preciso fazer engenharia de contexto como um pipeline dinâmico e gerenciado com precisão
2. Instruções compartilhadas curadas para equipes de software
- Considera-se um antipadrão que cada desenvolvedor escreva prompts do zero, e adota-se uma prática que trata a orientação de IA como um ativo de engenharia colaborativo, não um fluxo de trabalho pessoal
- No início, o foco era manter uma biblioteca de prompts genéricos para tarefas comuns, mas agora isso evoluiu para uma abordagem mais avançada de ancorar instruções diretamente em templates de serviço
- Arquivos de instruções como
CLAUDE.md,AGENTS.mde.cursorrulessão colocados em repositórios de baseline para scaffolding de novos serviços
- Arquivos de instruções como
- Também se explora a prática relacionada de ancorar agentes de codificação em aplicações de referência, em que uma base de código viva e compilável atua como fonte única da verdade
- Quando a arquitetura e os padrões de codificação evoluem, tanto o app de referência quanto as instruções embutidas podem ser atualizados, e novos repositórios herdam por padrão os workflows e regras mais recentes dos agentes
3. Métricas DORA
- Métricas definidas pelo programa de pesquisa DORA, incluindo lead time de mudanças, frequência de deploy, MTTR, taxa de falha de mudanças e uma nova quinta métrica, rework rate
- Rework rate é uma métrica de estabilidade que mede a proporção consumida pelo retrabalho de trabalho já concluído, como bugs ou defeitos encontrados por usuários, no pipeline de entrega da equipe
- Na era do desenvolvimento assistido por IA, as métricas DORA são mais importantes do que nunca; medir produtividade pela quantidade de linhas de código geradas por IA é enganoso
- Sem redução no lead time e aumento na frequência de deploy, gerar código mais rápido não leva necessariamente a resultados melhores
- Métricas de estabilidade, especialmente a queda no rework rate, funcionam como alerta precoce para pontos cegos, dívida técnica e riscos do desenvolvimento assistido por IA sem critério
- Em vez de construir dashboards complexos, mecanismos simples como check-ins durante retrospectivas são mais eficazes para melhorar capacidades
4. Passkeys
- Credenciais FIDO2 lideradas pela FIDO Alliance e apoiadas por Apple, Google e Microsoft, que usam criptografia assimétrica de chave pública para substituir senhas
- A chave privada é armazenada no enclave de segurança baseado em hardware do dispositivo do usuário, protegida por biometria ou PIN, não vaza para fora do dispositivo, e cada credencial é vinculada por origem ao domínio da relying party, tendo resistência estrutural a phishing
- Phishing é a causa de mais de 1/3 de todos os vazamentos de dados; o FIDO Alliance Passkey Index 2025 reporta mais de 15 bilhões de contas elegíveis no mundo, o Google melhorou a taxa de sucesso de login em 30% entre 800 milhões de usuários, e a Amazon validou logins 6 vezes mais rápido que nos métodos anteriores
- O NIST SP 800-63-4 (julho de 2025) reclassificou synced passkeys como compatíveis com AAL2, e reguladores dos Emirados Árabes Unidos, Índia e agências federais dos EUA passaram a exigir autenticação resistente a phishing em sistemas financeiros e governamentais
- Com o FIDO Credential Exchange Protocol, obtém-se portabilidade segura entre gerenciadores de credenciais; grandes provedores de identidade como Auth0, Okta e Azure AD oferecem suporte como recurso de primeira classe, simplificando a implementação de meses de trabalho para um projeto de 2 sprints
- É preciso ter cuidado ao projetar a recuperação de conta e evitar caminhos de fallback suscetíveis a phishing, como OTP via SMS
- Em cenários AAL3 (como acesso privilegiado), ainda são necessárias credenciais vinculadas ao dispositivo com chaves de segurança em hardware
5. Saída estruturada de LLMs
- Prática de restringir o modelo a responder em um formato predefinido, como JSON ou classes de uma linguagem de programação específica
- Fornece resultados confiáveis em produção e é considerada o padrão razoável para aplicações que consomem respostas de LLM programaticamente
- Todos os principais provedores de modelos oferecem modos nativos de saída estruturada, embora o subconjunto de JSON Schema suportado varie e as APIs evoluam rapidamente
- A biblioteca Instructor e o framework Pydantic AI oferecem abstrações robustas com validação e retry automático; para geração com restrições em modelos self-hosted, recomenda-se Outlines
6. Arquitetura zero trust
- Com a entrada na era dos agentes, é o padrão mais razoável para lidar com riscos de segurança ao dar autonomia a sistemas imprevisíveis
- "Nunca confie, sempre verifique", tratando segurança baseada em identidade e o princípio do menor privilégio como a base de toda implantação de agentes
- Aplicar padrões como SPIFFE a agentes ajuda a estabelecer uma base forte de identidade e habilita autenticação granular em ambientes dinâmicos
- Monitoramento e verificação contínuos do comportamento dos agentes são importantes para gerenciar ameaças de forma proativa
- Além das implantações de agentes, práticas como OIDC impersonation no GCP também podem ser introduzidas em pipelines de CI/CD, substituindo chaves estáticas de longa duração por tokens de curta duração emitidos após verificação de identidade
- Recomenda-se tratar os princípios de ZTA como um padrão inegociável independentemente do sistema de build
Trial
7. Agent Skills
- À medida que agentes de IA evoluem de interfaces de chat simples para execução autônoma de tarefas, a engenharia de contexto se torna um desafio central, e Agent Skills fornece um padrão aberto para modularização de contexto ao empacotar recursos relevantes como instruções, scripts executáveis e documentação
- O agente carrega skills apenas quando necessário com base na descrição, reduzindo o consumo de tokens e mitigando o esgotamento da janela de contexto e o problema de agent instruction bloat
- A adoção se expande rapidamente não só entre agentes de codificação, mas também em assistentes pessoais como OpenClaw; muitos casos de uso podem ser resolvidos de forma eficaz apenas fazendo o agente apontar para CLIs ou scripts locais, o que é um dos motivos pelos quais as equipes estão sendo mais cautelosas com o uso padrão de MCP
- Plugin marketplaces estão emergindo como forma de versionar e compartilhar skills, e há várias iniciativas explorando como avaliar sua eficácia
- É preciso cuidado, pois reutilizar skills de terceiros sem revisão pode gerar sérios riscos de segurança na cadeia de suprimentos
8. Testes de componentes baseados em navegador
- No passado, ferramentas baseadas em navegador não eram recomendadas (difíceis de configurar, lentas e flaky), mas agora melhoraram muito e, com ferramentas como Playwright, tornaram-se uma abordagem viável e preferida
- Executar testes em navegadores reais oferece maior consistência, pois o código roda no mesmo ambiente em que realmente será executado
- A perda de desempenho caiu para um nível aceitável, e a flakiness também diminuiu, entregando mais valor do que ambientes emulados como jsdom
9. Sensores de feedback para agentes de codificação
- Para tornar agentes de codificação mais eficazes e reduzir a carga sobre revisores humanos, são necessários loops de feedback aos quais o próprio agente possa acessar diretamente, funcionando como uma forma de backpressure
- Há muito tempo os desenvolvedores dependem de gates de qualidade determinísticos como compiladores, linters, testes estruturais e suítes de teste; conectá-los a workflows agentic permite acionar autocorreção em tempo hábil quando houver falha
- Há várias formas de implementação, como introduzir um agente revisor responsável por executar checks e acionar correções, ou expor esses checks como um processo complementar executado em paralelo
- Graças aos agentes de codificação, ficou mais barato criar linters customizados e testes estruturais, fortalecendo os loops de feedback
- Sempre que possível, execute durante a sessão de codificação, e não apenas checks pós-commit, para que o agente reporte resultados limpos antes do commit
10. Mapeamento de code smells para técnicas de refatoração
- Técnica de instruir o agente a lidar com um problema específico por meio de uma abordagem definida
- A primeira camada orienta o agente com referências gerais como Refactoring para casos comuns; para problemas mais especializados, usa Agent Skills, comandos com barra e
AGENTS.mdpara mapear smells específicos a técnicas particulares - Quando integrada a ferramentas de linting, gera feedback determinístico que aciona a abordagem de refatoração apropriada sempre que um smell é detectado
- Especialmente eficaz em stacks legadas como .NET Framework 2.0 ou Java 8, sendo útil quando faltam dados de treinamento gerais
- Sem instruções orientadas por objetivo, os agentes tendem a adotar padrões genéricos como padrão em vez de atender a requisitos específicos
11. Mutation testing
- O sinal mais honesto para avaliar a capacidade real de detecção de falhas de uma suíte de testes; ao contrário da cobertura de código tradicional, que apenas rastreia a execução de linhas, introduz bugs intencionais (mutations) no código-fonte para verificar se os testes falham quando o comportamento é quebrado
- Se uma mutação não for detectada, isso revela uma lacuna na validação, e não apenas falta de cobertura; é especialmente importante na era do desenvolvimento assistido por AI — alta cobertura pode esconder testes logicamente vazios ou código gerado sem assertivas significativas
- Com a generalização dos casos de teste gerados por AI, atua como uma camada de reforço para capturar testes "perpetuamente verdes" que passam independentemente de mudanças na lógica por causa de assertivas ausentes ou mocks isolados
- Com ferramentas como Stryker, Pitest, cargo-mutants, o foco muda para quanto do código realmente está sendo validado na lógica central do domínio
12. Divulgação progressiva de contexto
- Técnica dentro da prática de Context engineering, em que, em vez de sobrecarregar preventivamente o agente com instruções, dá-se a ele uma fase leve de descoberta para selecionar o necessário com base no prompt do usuário
- Adequada para cenários de RAG, em que o agente primeiro identifica o domínio relevante a partir da consulta do usuário e então busca instruções e dados específicos
- É a mesma forma como muitas ferramentas de codificação agentic tratam Agent Skills: em vez de um único conjunto monolítico de instruções cheio de condições e ressalvas, primeiro decidem quais skills são relevantes para a tarefa e depois carregam instruções detalhadas
- Ao construir sistemas agentic, é fácil cair na armadilha de inflar instruções com regras intermináveis de "DO" e "DO NOT", o que no fim degrada o desempenho
- Mantém a janela de contexto enxuta e evita context rot
13. Execução em sandbox para agentes de codificação
- Prática de executar agentes em um ambiente isolado, com acesso restrito ao sistema de arquivos, conexões de rede controladas e uso limitado de recursos
- À medida que agentes de codificação ganham autonomia para executar código, compilar e interagir com o sistema de arquivos, acesso irrestrito cria riscos reais, de danos acidentais a exposição de credenciais, tornando isso um padrão razoável, não um aprimoramento opcional
- O espectro de opções de sandboxing é amplo — muitos agentes de codificação oferecem modos de sandbox integrados, e Dev Containers fornecem um isolamento baseado em contêiner já familiar
- Shuru inicializa microVMs efêmeras que são resetadas a cada execução, enquanto Sprites oferece ambientes com estado e suporte a checkpoint/restore
- Para isolamento nativo em Linux, o Bubblewrap oferece sandboxing leve baseado em namespaces; no macOS,
sandbox-execoferece proteção semelhante - Além do isolamento básico, é preciso considerar tudo o que é necessário para build e testes, autenticação segura e simples com serviços como GitHub e provedores de modelo, encaminhamento de portas e CPU e memória suficientes
- Se a sandbox deve ser efêmera por padrão ou persistente para recuperação de sessão é uma decisão de projeto guiada pelas prioridades de segurança, custo e continuidade do fluxo de trabalho
14. Camada semântica
- Técnica de arquitetura de dados que introduz uma camada compartilhada de lógica de negócio entre repositórios de dados e aplicações consumidoras como ferramentas de BI, agentes de AI e APIs
- Centraliza definições de métricas, joins, regras de acesso e termos de negócio para que os consumidores compartilhem as mesmas definições; é um conceito anterior ao moderno data stack, mas voltou a ganhar interesse com abordagens code-first como metrics stores
- Sem uma camada semântica, a lógica de negócio se espalha por tabelas ad hoc no warehouse, dashboards e aplicações downstream, e as definições de métricas divergem silenciosamente
- O problema se agrava com AI agentic — ao fazer tradução ingênua de text-to-SQL com LLMs, resultados incorretos são frequentes, especialmente quando regras de negócio como reconhecimento de receita estão fora do esquema
- Plataformas de nuvem estão incorporando diretamente a camada semântica; o Snowflake chama isso de Semantic Views, o Databricks chama de Metric Views, e ferramentas independentes como dbt MetricFlow e Cube oferecem camadas portáveis entre sistemas
- O Open Semantic Interchange (OSI) v1.0 foi lançado recentemente, e o suporte de vários fornecedores sinaliza a expansão da padronização e da interoperabilidade entre plataformas de analytics, AI e BI
- O principal custo é o investimento inicial em modelagem de dados; recomenda-se começar por um único domínio, em vez de tentar um rollout para toda a empresa
15. UI orientada pelo servidor
- Separa a renderização em contêineres genéricos e fornece estrutura e dados pelo servidor, permitindo que equipes mobile contornem longos ciclos de revisão nas app stores a cada iteração
- Ao ativar atualizações em tempo real por meio de formatos baseados em JSON, melhora significativamente o tempo de lançamento, e a consolidação do padrão em empresas como Airbnb e Lyft reduziu a complexidade
- Antes, havia o alerta de que frameworks proprietários poderiam criar uma "bagunça terrível e excessivamente configurável", mas passou a ser mais fácil justificar o investimento em aplicações de grande escala
- Ainda exige um forte caso de negócio e engenharia comedida; é importante evitar a criação de um "protocolo-deus" difícil de manter
- Recomenda-se aplicá-la a áreas altamente dinâmicas, e não como substituição de todo o desenvolvimento de UI da aplicação
Avaliar
16. Agentic reinforcement learning environments
- Como campo de treinamento para agentes baseados em LLM, combina contexto, ferramentas e feedback para permitir a conclusão de tarefas em múltiplas etapas
- Essa abordagem reconstrói o pós-treinamento de LLMs, saindo de saídas simples de turno único para comportamentos agentic, como raciocínio e uso de ferramentas, atribuindo recompensas ou penalidades a cada ação
- Com técnicas como RLVR, garante-se que a recompensa seja verificável e resistente à gamificação
- Laboratórios de pesquisa em IA lideram atualmente o desenvolvimento, especialmente para agentes de codificação e de uso de computador; o Composer da Cursor é um exemplo fora dos laboratórios de fronteira, com um modelo de codificação especializado treinado dentro de um ambiente de produto
- O surgimento de frameworks e plataformas como Environments Hub da Prime Intellect, Agent Lightning e NVIDIA NeMo Gym está simplificando o processo
17. Architecture drift reduction with LLMs
- Com o aumento do uso de agentes de codificação com IA, a aceleração do drift em relação ao codebase e ao design arquitetural pretendidos cresce; se isso for deixado de lado, agentes e humanos passam a replicar padrões existentes, inclusive os degradados, tornando o drift composto e criando um loop de feedback em que código ruim gera código ainda pior
- A combinação de ferramentas de análise determinísticas (Spectral, ArchUnit, Spring Modulith) com avaliação baseada em LLM permite detectar tanto violações estruturais quanto semânticas
- Aplicado à definição de zonas arquiteturais que impõem diretrizes de qualidade de API em todos os serviços e orientam melhorias na geração feita por agentes
- Como no linting tradicional, a varredura inicial expõe muitas violações, exigindo classificação e priorização — algo em que LLMs podem ajudar
- É essencial manter as correções geradas por agentes pequenas e focadas, facilitando a revisão, além de incluir loops adicionais de validação para confirmar que as mudanças melhoram o sistema sem regressões
- Expande as ideias de feedback sensors for coding agents para estágios posteriores do ciclo de entrega; como descreve a equipe da OpenAI, a redução de drift funciona como uma forma de "coleta de lixo"
18. Code intelligence as agentic tooling
- LLMs processam código como fluxos de tokens e não têm compreensão nativa de grafos de chamadas, hierarquias de tipos ou relações entre símbolos
- Na exploração de código, a maioria dos agentes de codificação hoje usa por padrão busca baseada em texto, o denominador comum mais forte entre todas as linguagens; para fazer refatorações rápidas, como em atalhos de IDE, os agentes precisam gerar vários diffs de texto
- Os agentes consomem muitos tokens reconstruindo informações que já existem na AST
- Fornecer aos agentes acesso a ferramentas com reconhecimento de AST, por exemplo via Language Server Protocol (LSP), permite executar como ações de primeira classe operações como “encontrar todas as referências a este símbolo” ou “renomear este tipo em todos os lugares”
- Ferramentas de codemod como OpenRewrite operam sobre uma representação de código mais rica, a Lossless Semantic Tree (LST); delegar tarefas adequadas a ferramentas determinísticas reduz edições alucinatórias e o consumo de tokens
- Claude Code, OpenCode e outros integram servidores LSP executados localmente; a JetBrains oferece um servidor MCP que expõe navegação e refatoração da IDE a agentes externos, enquanto o servidor MCP Serena oferece busca e edição semânticas de código
19. Context graph
- Técnica de representação de conhecimento que modela decisões, políticas, exceções, precedentes, evidências e resultados como nós conectados de primeira classe em um grafo, estruturado para consumo por IA
- Se os sistemas de registro capturam o que aconteceu, o context graph captura o porquê — convertendo raciocínio institucional enterrado em threads do Slack, cadeias de aprovação e na cabeça das pessoas em uma estrutura consultável e legível por máquina
- É essencial para a eficácia dos agentes; por exemplo, se um agente que trata exceções de desconto não consegue determinar se algo é uma política padrão ou um override pontual, ele pode raciocinar de forma incorreta; um context graph expõe diretamente as fontes, permitindo percorrer rastros de decisão, aplicar precedentes relevantes e raciocinar sobre cadeias causais de múltiplos saltos
- Diferentemente do GraphRAG, construído a partir de um corpus estático de documentos, o context graph mantém validade temporal em cada aresta; fatos substituídos são invalidados, não sobrescritos
- Vale a pena avaliar para aplicações agentic que precisam de memória persistente entre sessões ou de raciocínio decisório rastreável
20. Feedback flywheel
- Equipes que trabalham com agentes de codificação estão adotando cada vez mais workflows de spec-driven development; independentemente de serem frameworks leves ou mais opinativos, seguem o fluxo spec → plan → implement
- O Feedback flywheel estende esse fluxo com uma etapa adicional focada na melhoria contínua do harness do coding agent
- De forma semelhante a uma retrospectiva, a equipe captura sucessos e falhas durante sessões com agentes de codificação e usa isso para melhorar a previsibilidade de sessões futuras, com efeitos compostos ao longo do tempo
- É uma técnica meta em que o human on the loop se concentra em melhorar controles de feedforward, como curated shared instructions e feedback sensors for coding agents
- O próximo nível é o agentic feedback flywheel, em que o agente decide as melhorias necessárias com base no feedback acumulado; por enquanto, ainda é necessário human-in-the-loop para evitar context rot e feedback ruidoso que possa induzir os agentes ao erro
- À medida que o ambiente evolui, isso é usado para avaliar todo o harness do coding agent, especialmente ao adotar novos modelos, já que o que funcionava com um modelo pode se tornar desnecessário no seguinte
21. HTML Tools
- com ferramentas agentic, ficou fácil criar utilitários pequenos e voltados a tarefas específicas; o principal desafio passa a ser como implantar e compartilhar
- HTML Tools é uma abordagem para empacotar scripts ou utilitários compartilháveis em um único arquivo HTML
- executa diretamente no navegador, pode ser hospedado em qualquer lugar ou simplesmente compartilhado como arquivo, evitando a sobrecarga de distribuição de ferramentas CLI que exigem compartilhamento de binários ou uso de gerenciadores de pacotes
- mais simples do que construir uma aplicação web completa com hospedagem dedicada
- do ponto de vista de segurança, executar arquivos não confiáveis ainda traz riscos, embora o sandbox do navegador e a possibilidade de inspecionar o código-fonte ofereçam alguma mitigação
- para utilitários leves, um único arquivo HTML oferece uma forma muito acessível e portátil
22. LLM evaluation using semantic entropy
- confabulação (confabulation), uma forma de alucinação em aplicações de QA com LLM, é difícil de resolver com métodos tradicionais de avaliação
- uma abordagem usa entropia da informação para medir incerteza analisando variações lexicais da saída para uma determinada entrada
- a avaliação de LLM com semantic entropy expande essa ideia ao focar em diferenças de significado em vez de variações superficiais
- ao avaliar significado, e não sequências de palavras, pode ser aplicada a datasets e tarefas em geral sem conhecimento prévio, generalizando bem para tarefas desconhecidas
- ajuda a identificar prompts com potencial de induzir confabulação e a recomendar cautela quando necessário
- a entropia ingênua frequentemente falha em detectar confabulação; semantic entropy é mais eficaz para filtrar afirmações falsas
23. Measuring collaboration quality with coding agents
- ao usar agentes de codificação, observa-se ganho real de produtividade, mas a maioria das métricas de avaliação ainda se concentra excessivamente em coding throughput, como tempo até a primeira saída, linhas de código geradas ou tarefas concluídas
- para evitar que equipes caiam na armadilha da velocidade (speed trap), o foco deve mudar para o quão efetivamente humanos e agentes colaboram
- métricas como first-pass acceptance rate, ciclos de iteração por tarefa, retrabalho após merge, builds com falha e carga de revisão fornecem sinais mais significativos do que velocidade isoladamente
- equipes que usam Claude Code podem gerar relatórios sobre sucesso de sessões de agentes e reflexão sobre tarefas com o comando
/insights, e também experimentar o rastreamento de first-pass acceptance com um comando/reviewcustomizado - ciclos curtos de feedback e redução de builds com falha são indicadores de interação mais eficaz com agentes
- no nível da equipe, e não individual, acompanhar a qualidade da colaboração junto com métricas DORA constrói uma visão mais completa da adoção de agentes de codificação
24. MITRE ATLAS
- sistemas agentic e ferramentas de codificação introduzem novas arquiteturas e ameaças de segurança emergentes
- MITRE ATLAS é uma base de conhecimento sobre táticas e técnicas adversárias direcionadas a sistemas de IA e ML
- mais focado e projetado para complementar o framework mais amplo MITRE ATT&CK, oferece uma classificação de ameaças para pipelines de ML, aplicações com LLM e sistemas agentic
- sem um vocabulário compartilhado, riscos de segurança muitas vezes passam despercebidos ou são reduzidos a um exercício de checklist; o ATLAS ajuda nisso
- baseado em incidentes reais e no estudo de padrões técnicos, permite que equipes usem o framework para apoiar modelagem de ameaças
- é um complemento natural a frameworks de controle como SAIF, ajudando a descrever o cenário evolutivo de ameaças em sistemas de IA
25. Ralph loop
- técnica de agente autônomo de codificação, também chamada de Wiggum loop, em que um prompt fixo é fornecido ao agente em um loop infinito
- cada iteração começa com uma nova janela de contexto — o agente escolhe trabalho a partir da especificação ou plano, implementa e reinicia o loop com novo contexto
- a principal sacada é a simplicidade: em vez de coordenar teams of coding agents ou coding agent swarms, um único agente trabalha autonomamente sobre a especificação, com a expectativa de que o codebase convirja para ela após repetidas iterações
- usar uma nova janela de contexto em cada iteração evita a degradação de qualidade causada pelo acúmulo de contexto, ao custo de um consumo significativo de tokens
- ferramentas como goose implementam esse padrão e, em alguns casos, o expandem com revisão entre modelos a cada iteração
26. Reverse engineering for design system
- organizações frequentemente lidam com interfaces legadas fragmentadas em que os "padrões de design" existem apenas como uma coleção solta de páginas web separadas, materiais de marketing e capturas de tela
- historicamente, auditar esses artefatos para construir uma base unificada era um processo manual e demorado
- com LLMs multimodais, é possível automatizar essa extração e fazer engenharia reversa de um design system a partir de ativos visuais existentes
- ao alimentar websites, capturas de tela e fragmentos de UI em ferramentas especializadas ou modelos de IA com visão, equipes podem extrair tokens centrais de design, como paleta de cores, escala tipográfica e regras de espaçamento, além de identificar padrões recorrentes de componentes
- a IA sintetiza esses dados visuais não estruturados em representações semânticas estruturadas do design system e, quando integrada a ferramentas como Figma, acelera muito a geração de bibliotecas de componentes formalizadas e sustentáveis
- além de reduzir o esforço de auditoria visual, isso também funciona como um trampolim para construir design systems “AI-ready”
- para empresas sobrecarregadas por dívida de design brownfield, usar IA para estabelecer um design system de base é um ponto de partida prático antes de um redesenho completo ou da padronização do frontend
27. Role-based contextual isolation in RAG
- técnica arquitetural que move o controle de acesso da camada de aplicação para a camada de recuperação
- no momento da indexação, todos os chunks de dados recebem tags de permissão baseadas em papéis; no momento da consulta, o mecanismo de busca restringe o espaço de recuperação com base na identidade autenticada do usuário, cruzando com os metadados de cada chunk
- como o modelo de IA é filtrado já na etapa de recuperação, garante-se que ele não possa acessar contexto não autorizado, fornecendo uma base de zero trust para bases internas de conhecimento
- muitos bancos de dados vetoriais, como Milvus ou serviços baseados em Amazon S3, oferecem suporte a filtragem de metadados de alto desempenho, tornando prática sua adoção mesmo em bases de conhecimento grandes
28. Skills como documentação de onboarding executável
- Agent Skills, instruções compartilhadas curadas e outras técnicas de context engineering aparecem ao longo deste Radar; o caso de uso que merece destaque no contexto de código é o de skills como documentação de onboarding executável
- Aplicável em vários níveis: dentro do codebase, um skill
/_setuppode cumprir o papel de um scriptgo.she de um arquivo README, combinando a semântica de execução do LLM com scripts nas etapas que não podem ser totalmente roteirizadas - Vai além do que scripts conseguem fazer ao considerar dinamicamente o estado atual do codebase e do ambiente
- Criadores de bibliotecas e APIs podem fornecer skills aos consumidores como parte da documentação, por meio de registries internos ou externos de skills (como o Tessl)
- Útil para onboarding em plataformas internas das equipes, reduzindo a barreira de uso de tecnologias centrais ou diminuindo o atrito na adoção de design systems; até agora isso dependia muito de servidores MCP, mas agora está migrando para skills
- Como em outras formas de documentação, o desafio de mantê-la atualizada não desaparece; ainda assim, documentação executável ajuda a perceber obsolescência muito antes do que documentação estática
29. Small language models
- Os SLMs continuam melhorando e começam a oferecer inteligência melhor por dólar do que LLMs em casos de uso específicos
- Equipes estão avaliando SLMs para reduzir custos de inferência e acelerar workflows agentic; avanços recentes mostram ganhos consistentes em densidade de inteligência, tornando-os competitivos com LLMs antigos em tarefas como sumarização e programação básica
- Isso reflete a mudança de “quanto maior, melhor” para dados de maior qualidade, destilação de modelos e quantização
- Modelos como Phi-4-mini e Ministral 3 3B mostram que modelos destilados conseguem manter muitas das capacidades de modelos professores maiores
- Até modelos ultrapequenos como Qwen3-0.6B e Gemma-3-270M agora podem rodar em dispositivos de edge
- Em casos de uso agentic onde LLMs antigos já eram suficientes, vale considerar SLMs como alternativa de baixo custo, baixa latência e menor exigência de recursos
30. Equipe de agentes de codificação
- No Radar anterior, isso foi descrito como uma técnica em que desenvolvedores coordenam um pequeno grupo de agentes por função para colaborar em tarefas de programação
- Desde então, a barreira de adoção caiu, com suporte a subagentes virando funcionalidade padrão em várias ferramentas existentes de agentes de codificação, incluindo o recurso agent teams, que oferece coordenação embutida no Claude Code
- Em uma equipe de agentes, o orquestrador principal normalmente coordena o sequenciamento e a paralelização das tarefas, e os agentes precisam conseguir se comunicar não apenas com o orquestrador, mas também entre si
- Casos de uso comuns incluem equipes de revisão ou grupos de implementadores responsáveis por diferentes partes de uma aplicação, como backend e frontend
- Parte do setor usa “agent teams” e "agent swarms" como termos intercambiáveis (o Claude Code descreve o recurso agent teams como “our implementation of swarms”), mas há valor em diferenciá-los
- O fato de uma equipe pequena e intencional de agentes colaborar em uma tarefa é bem diferente de um swarm grande em termos de barreira de entrada, complexidade e casos de uso
31. Temporal fakes
- Expansão da ideia de simulação de sistemas do mundo real, usada há muito tempo em plataformas industriais e de IoT
- Agentes de codificação com IA reduziram o esforço para construir simuladores, tornando muito mais fácil criar réplicas de alta fidelidade de dependências externas
- Ao contrário de mocks tradicionais, que retornam pares estáticos de requisição e resposta, temporal fakes mantêm máquinas de estado internas e modelam a evolução temporal do sistema real
- Uma equipe usou essa técnica no desenvolvimento de uma stack de observabilidade para um grande data center de GPUs, evitando a necessidade de adquirir hardware físico
- Testar regras de alerta, dashboards e detecção de anomalias no sistema real era impraticável (por exemplo, superaquecer GPUs de propósito para validar alertas de thermal throttle)
- Em vez disso, construiu fakes em Go para domínios de hardware como NVIDIA DCGM e fabric InfiniBand
- Com o simulador, foi possível ativar cenários de falha como thermal throttling, tempestades de erro XID, link flap e falha de PSU, com intensidade e duração configuráveis, coordenados por uma stack process-compose
- Um registro central define cenários de falha válidos, e um servidor MCP expõe a injeção desses cenários aos agentes
- Os agentes podem acionar defeitos, como injetar thermal throttle em uma GPU específica, e verificar se as métricas mudam como esperado, se os alertas são disparados e se os dashboards são atualizados
- Essa fidelidade temporal torna a técnica valiosa para testar sistemas complexos em que falhas se encadeiam, mas, se o fake não reproduzir fielmente o comportamento do mundo real, há risco de gerar falsa confiança em pipelines automatizados
32. Análise de fluxo tóxico para IA
- As capacidades dos agentes estão avançando mais rápido que as práticas de segurança, e o surgimento de agentes famintos por permissões como o OpenClaw está levando equipes a implantar agentes em ambientes expostos à lethal trifecta — acesso a dados privados, exposição a conteúdo não confiável e capacidade de comunicação externa
- À medida que as capacidades aumentam, a superfície de ataque também cresce, expondo sistemas a riscos como prompt injection e tool poisoning
- A análise de fluxo tóxico continua sendo reconhecida como uma técnica importante para investigar sistemas agentic e identificar caminhos inseguros de dados e vetores potenciais de ataque
- O risco já não se limita a integrações MCP; padrões semelhantes também são observados em Agent Skills — agentes maliciosos podem empacotar skills aparentemente úteis com instruções ocultas para exfiltrar dados sensíveis
- É fortemente recomendado que equipes que trabalham com agentes realizem análise de fluxo tóxico e usem ferramentas como Agent Scan para identificar caminhos inseguros de dados antes que possam ser explorados
33. Modelos de linguagem visual para parsing de documentos de ponta a ponta
- O parsing de documentos depende de pipelines de múltiplas etapas que combinam detecção de layout, OCR tradicional e scripts de pós-processamento, e tem dificuldade com layouts complexos e fórmulas matemáticas
- O parsing de documentos de ponta a ponta com VLM trata a imagem do documento como uma única modalidade de entrada, simplificando a arquitetura e preservando a ordem natural de leitura e o conteúdo estruturado
- Modelos open source treinados especificamente para esse objetivo, como olmOCR-2, o eficiente em tokens DeepSeek-OCR (3B) e o ultraleve PaddleOCR-VL, produzem resultados muito eficientes
- Embora VLM possa substituir pipelines de múltiplas etapas e reduzir a complexidade arquitetural, ele tende a alucinar por sua natureza generativa
- Casos de uso com baixa tolerância a erros ainda exigem abordagens híbridas ou OCR determinístico
- Equipes que processam grandes volumes de coleções de documentos precisam avaliar essa abordagem integrada para decidir se ela pode reduzir a sobrecarga de manutenção de longo prazo mantendo a precisão
Caution
34. Inchaço de instruções para agentes
- Arquivos de contexto como
AGENTS.mdeCLAUDE.mdvão, com o tempo, acumulando visão geral do codebase, descrições de arquitetura, convenções e regras - Cada adição é útil isoladamente, mas com frequência acaba causando agent instruction bloat, deixando as instruções longas e às vezes conflitantes entre si
- Modelos tendem a prestar menos atenção ao conteúdo enterrado no meio de contextos longos, e orientações profundas em históricos extensos de conversa podem passar despercebidas
- À medida que as instruções aumentam, cresce a probabilidade de regras importantes serem ignoradas
- Muitas equipes estão gerando arquivos
AGENTS.mdcom IA, mas pesquisas sugerem que versões escritas manualmente costumam ser mais eficazes do que as geradas por LLM - Ao usar ferramentas agentic, é preciso ser intencional e seletivo com as instruções, adicionando-as conforme necessário e refinando continuamente um conjunto mínimo e consistente
- Considere usar progressive context disclosure para expor apenas as instruções e capacidades necessárias para a tarefa atual
35. Shadow IT acelerada por IA
- A IA continua reduzindo a barreira para que não programadores construam sistemas complexos, viabilizando experimentação e validação inicial de requisitos, mas também introduz o risco de shadow IT acelerada por IA
- Além de plataformas de workflow no-code que integram APIs de IA, como OpenAI e Anthropic, mais ferramentas agentic como Claude Cowork estão sendo disponibilizadas para não programadores
- Quando planilhas que operavam o negócio silenciosamente evoluem para workflows agentic customizados sem governança, surgem riscos significativos de segurança e a proliferação de soluções concorrentes para problemas semelhantes
- Distinguir entre workflows pontuais e processos críticos que exigem implementações duráveis e prontas para produção é essencial para equilibrar experimentação e controle
- As organizações precisam priorizar governança como parte de sua estratégia de adoção de IA e promover experimentação dentro de ambientes controlados
- Sandboxes internas devidamente instrumentadas podem oferecer aos não programadores um lugar para implantar protótipos com rastreamento de uso
- Combinadas com catálogos compartilhados de workflows existentes, elas ajudam as equipes a descobrir o que já foi construído e evitar esforços duplicados
36. Dívida cognitiva do codebase
- O crescente hiato entre a implementação do sistema e o entendimento compartilhado da equipe sobre como e por que ele funciona
- À medida que a IA acelera o ritmo das mudanças, especialmente com múltiplos contribuidores ou Coding Agent Swarms, as equipes podem perder o acompanhamento da intenção de design e dos acoplamentos ocultos
- Em conjunto com o aumento da dívida técnica, isso forma um ciclo de reforço que torna o sistema cada vez mais difícil de raciocinar
- Um entendimento fraco do sistema reduz a capacidade dos desenvolvedores de orientar a IA de forma eficaz, antecipar casos de borda e conduzir agentes para longe de armadilhas arquiteturais
- Se não for gerida, a situação pode chegar a um ponto de inflexão em que pequenas mudanças disparam falhas inesperadas, correções introduzem regressões e esforços de limpeza aumentam, em vez de reduzir, o risco
- Evite a complacência com código gerado por IA e adote contramedidas explícitas — feedback sensors for coding agents, rastreamento da carga cognitiva da equipe e funções de fitness arquitetural — para continuar impondo restrições essenciais enquanto a IA acelera a produção
37. Enxames de agentes de programação
- Se um team of coding agents é um grupo pequeno e intencional, um coding agent swarm aplica dezenas a centenas de agentes a um problema, com a IA decidindo dinamicamente a composição e o tamanho
- Projetos como Gas Town e Ruflo (antes Claude Flow) são bons exemplos
- Estão surgindo padrões iniciais de implementação de swarm — separação hierárquica de papéis (orquestrador, supervisores, workers temporários), livros-razão de tarefas duráveis que ajudam agentes a dividir e coordenar trabalho (o Gas Town usa beads) e mecanismos de merge para lidar com conflitos em trabalho paralelo
- Dois experimentos com swarm chamam especialmente a atenção — a geração de compilador C da Anthropic e o experimento de scaling de agentes da Cursor (criando um navegador ao longo de uma semana)
- Ambas as equipes escolheram casos de uso que podiam contar com especificações detalhadas já existentes, incluindo, no caso do compilador C, uma suíte abrangente de testes que fornece feedback claro e mensurável
- Essas condições não representam o desenvolvimento típico de produto, em que os requisitos são menos definidos e a validação é mais difícil
- Ainda assim, esses experimentos contribuem para padrões emergentes que tornam swarms de longa execução tecnicamente viáveis; eles ainda são caros e estão longe da maturidade, portanto recomenda-se cautela na adoção
38. Throughput de coding como medida de produtividade
- Assistentes de codificação com IA realmente trazem ganhos de produtividade e estão se consolidando rapidamente como ferramentas padrão de desenvolvimento
- No entanto, organizações estão cada vez mais medindo o sucesso com métricas superficiais, como linhas de código geradas ou número de pull requests (PRs)
- Quando usadas isoladamente, essas métricas de coding throughput podem impactar negativamente o comportamento dos funcionários
- O resultado muitas vezes é uma enxurrada de código mal alinhado que desacelera as revisões, prejudica o throughput de entrega e introduz riscos de segurança, com engenheiros abrindo PRs cheios de saídas de IA insuficientemente revisadas, aumentando o tempo de ciclo com idas e vindas repetidas com revisores
- Essas métricas não conseguem capturar o esforço residual necessário para adequar o código gerado por IA à arquitetura, convenções e padrões da equipe
- Existem indicadores antecedentes mais significativos — first-pass acceptance rate, ou a frequência com que a saída da IA pode ser usada com retrabalho mínimo
- Medir isso revela esforço oculto e viabiliza ações de melhoria, permitindo que equipes aumentem continuamente a aceitação ao refinar prompts, melhorar documentos de priming e fortalecer conversas de design
- Isso cria um ciclo virtuoso em que a saída da IA exige menos modificações, e o first-pass acceptance se conecta naturalmente às métricas DORA — baixas taxas de aceitação tendem a aumentar a taxa de falha de mudanças, enquanto ciclos iterativos repetidos ampliam o lead time para mudanças
- À medida que assistentes de IA se tornam ubíquos, as organizações precisam mudar o foco do coding throughput isolado para métricas que reflitam impacto real e resultados de entrega
39. Ignorar durabilidade em workflows de agentes
- Um antipadrão observado em várias equipes, que leva a sistemas que funcionam no desenvolvimento, mas falham em produção
- Os desafios enfrentados por sistemas distribuídos ficam ainda mais evidentes ao construir agentes, e uma mentalidade de antecipar falhas e se recuperar com elegância é superior a uma abordagem reativa
- LLMs e chamadas de ferramentas podem falhar por interrupções de rede e quedas de servidores, interrompendo o progresso do agente e causando experiência ruim ao usuário e aumento de custos operacionais
- Alguns sistemas podem tolerar isso quando as tarefas são curtas, mas workflows complexos que duram dias ou semanas precisam de durabilidade
- Frameworks de agentes como LangGraph e Pydantic AI estão integrando execução durável
- Eles oferecem persistência com estado do progresso e das chamadas de ferramentas, permitindo que agentes retomem tarefas após falhas
- Em workflows com human in the loop, a execução durável permite pausar o progresso enquanto se aguarda entrada
- Plataformas de durable computing como Temporal, Restate e Golem também oferecem suporte a agentes
- Observabilidade para a execução embutida de ferramentas e rastreamento de decisões facilita o debug e melhora a compreensão de sistemas em produção
- Comece com o suporte nativo de execução durável do framework de agentes; à medida que o workflow se torna mais importante ou complexo, use uma plataforma independente
40. MCP por padrão
- O Model Context Protocol (MCP) vem ganhando atenção, e equipes e fornecedores tendem a adotá-lo como camada padrão de integração entre agentes de IA e sistemas externos, mesmo quando existem alternativas mais simples
- É preciso cautela ao usar MCP por padrão: ele realmente agrega valor com contratos estruturados de ferramentas, limites de autenticação baseados em OAuth e acesso multilocatário com governança
- Mas também introduz o que Justin Poehnelt chama de "abstraction tax": cada camada de protocolo entre agente e API implica perda de fidelidade, e APIs complexas ampliam essa perda
- Na prática, uma CLI bem projetada, com boa saída de
--help, respostas JSON estruturadas e tratamento previsível de erros, pode oferecer tudo de que um agente precisa sem a sobrecarga do protocolo - Como Simon Willison aponta, "quase tudo o que se pode alcançar com MCP pode ser tratado com ferramentas de CLI"
- Isso não é uma rejeição ao MCP, mas as equipes devem evitar adotá-lo por padrão e primeiro perguntar se o sistema realmente precisa de interoperabilidade em nível de protocolo
- O MCP faz sentido quando seus benefícios de governança e integração superam a complexidade adicional e a potencial perda de fidelidade
41. Ambientes de desenvolvimento com streaming de pixels
- Uso de desktops ou workstations remotos no estilo VDI para desenvolvimento de software, em que edição, build e debug são feitos por meio de um desktop transmitido, em vez de uma máquina local ou de um ambiente remoto centrado em código
- Organizações continuam adotando isso especialmente para cumprir metas de segurança, padronização e onboarding em equipes offshore e programas de lift-and-shift para a nuvem
- Porém, na prática, os trade-offs muitas vezes são ruins — latência, atraso de entrada e resposta inconsistente da tela criam atrito cognitivo contínuo, reduzindo a velocidade de entrega e tornando mais cansativas as tarefas diárias de desenvolvimento
- Diferentemente de ambientes de desenvolvimento na nuvem, Google Cloud Workstations, Coder e VS Code Remote Development, que aproximam a computação do código sem transmitir o desktop inteiro
- Configurações com pixel streaming priorizam controle centralizado em vez do fluxo do desenvolvedor e, muitas vezes, são impostas sem contribuição suficiente dos engenheiros que as utilizam
- A menos que restrições fortes de segurança ou regulação superem claramente o custo de produtividade, ambientes de desenvolvimento com streaming de pixels não são recomendados como escolha padrão para entrega de software
[Platforms]
Adopt
— Nenhum
Trial
42. AG-UI Protocol
- Um protocolo aberto e bibliotecas projetados para padronizar a comunicação entre interfaces de usuário ricas e agentes de IA de backend
- Historicamente, construir agentic UIs exigia trabalho sob medida de infraestrutura para colaboração bidirecional com estado; o AG-UI resolve isso com uma arquitetura consistente orientada a eventos que suporta transportes como server-sent events (SSE) e WebSockets
- Suporta streaming de etapas de raciocínio, sincronização de estado e renderização dinâmica de componentes de UI
- No entanto, o cenário de arquitetura para interfaces de agentes está mudando rapidamente, e o AG-UI se posiciona deliberadamente fora do MCP para atuar como camada de interface entre frontend e backend de agentes
- Uma abordagem diferente está surgindo em novas aplicações baseadas em MCP, que empacotam HTML e widgets de UI diretamente no servidor MCP ou nas skills
- À medida que componentes de UI passam a poder ser embutidos e entregues junto com ferramentas — um padrão relacionado a padrões adjacentes como MCP-UI — isso coloca em dúvida a necessidade de uma camada separada de protocolo de UI como o AG-UI
- Ele continua sendo uma escolha sólida para separar UX de frontend da orquestração de backend, mas é preciso avaliar seu papel considerando a tendência, dentro do ecossistema MCP, de integrar lógica de ferramentas e UI
43. Apache APISIX
- gateway open source, de alto desempenho e cloud-native que resolve as limitações de soluções legadas baseadas em Nginx
- Construído sobre o LuaJIT de Nginx e OpenResty, usa etcd como repositório de configuração, eliminando latência causada por reloads e sendo adequado para microsserviços dinâmicos e arquiteturas serverless
- Seu principal ponto forte é uma arquitetura totalmente dinâmica e extensível por plugins, com um ecossistema multilíngue de plugins incluindo API e WASM para personalizar gerenciamento de tráfego, segurança e observabilidade
- Com suporte à Kubernetes Gateway API, é possível usar o Apache APISIX como gateway de Kubernetes, tornando-o um forte candidato para substituir controladores de ingress Nginx legados
44. AWS Bedrock AgentCore
- plataforma agentic para construir, executar e operar agentes com segurança em grande escala sem overhead de gerenciamento de infraestrutura, semelhante ao GCP Vertex AI Agent Builder e ao Azure AI Foundry Agent Service
- É fácil adotar a plataforma como uma caixa-preta monolítica, mas uma arquitetura mais granular e desacoplada leva a mais sucesso — use o runtime do AgentCore para preocupações de produção como isolamento de sessão, segurança e observabilidade, e mantenha a lógica de orquestração em frameworks externos como LangGraph
- Essa separação de responsabilidades permite aproveitar os benefícios da infraestrutura gerenciada mantendo flexibilidade de adaptação conforme o ecossistema de LLM evolui
- Com foco no runtime em primeiro lugar, as organizações podem mover gradualmente workloads agentic para produção sem abrir mão do controle da lógica central para uma camada de orquestração específica de fornecedor
45. Graphiti
- motor open source de grafo de conhecimento temporal da Zep que demonstra viabilidade em produção para resolver problemas de memória em LLMs
- Enquanto armazenamentos vetoriais planos em pipelines de RAG falham em rastrear mudanças temporais nos fatos, o Graphiti coleta dados em episódios separados e mantém janelas de validade bitemporais nas arestas do grafo, invalidando fatos antigos em vez de sobrescrevê-los
- Diferente do GraphRAG orientado a batch, atualiza o grafo incrementalmente e oferece busca em menos de um segundo sem chamadas a LLM no momento da consulta, com busca híbrida que combina pesquisa semântica, BM25 e travessia de grafo
- Dois fatores impulsionam sua adoção — benchmarks revisados por pares que relatam melhora de 18,5% na precisão e redução de 90% na latência, além do lançamento de um servidor MCP de primeira classe que permite a agentes compatíveis com Model Context Protocol anexar memória temporal persistente com esforço mínimo de integração
- A forte adoção pela comunidade é mais um sinal de prontidão para produção
- Neo4j é o backend principal, com FalkorDB como alternativa mais leve
- É preciso considerar o custo de extração por escrita com LLM e a necessidade de fixar dependências devido ao estado pré-1.0 das releases
46. Langfuse
- plataforma open source de engenharia de LLM que cobre observabilidade, gerenciamento de prompts, avaliação e gerenciamento de datasets
- Desde a última avaliação, o projeto amadureceu bastante; a arquitetura v3 introduziu ClickHouse, Redis e S3 como componentes de backend, melhorando a escalabilidade, mas também aumentando a complexidade do self-hosting
- Os SDKs de Python e TypeScript são construídos nativamente sobre OpenTelemetry, o que o torna uma escolha natural para equipes que já usam observabilidade baseada em OTEL
- Novos recursos, como um SDK de experiment runner e suporte a saídas estruturadas para experimentação de prompts, ampliam o Langfuse de rastreamento puro para workflows sistemáticos de avaliação
- Vale consideração em um espaço cada vez mais concorrido, que inclui Arize Phoenix, Helicone e LangSmith
- Equipes que constroem principalmente sobre Pydantic AI também devem considerar o Pydantic Logfire, que adota uma abordagem mais ampla como plataforma full-stack de observabilidade OTEL em vez de um conjunto de ferramentas específico para LLM
- Uma escolha confiável para equipes que precisam de rastreamento, avaliação e gerenciamento de prompts integrados em uma única plataforma com possibilidade de self-hosting, mas se a principal necessidade for visibilidade de custo e latência na camada de modelo, vale avaliar se uma ferramenta mais focada como Helicone já é suficiente
47. Port
- portal interno de desenvolvimento comercial projetado para melhorar a experiência do desenvolvedor, centralizando ativos de software, automatizando workflows e aplicando padrões de engenharia para oferecer às equipes de plataforma uma única fonte de verdade para workflows self-service
- Torna-se mais importante à medida que organizações buscam padronizar workflows de engenharia e expor templates, APIs, automações e agentes de uma forma que os desenvolvedores realmente consigam usar
- Além do portal independente, também pode ser usado diretamente no IDE por meio da API e da camada MCP do Port
- Funciona bem para organizações que querem capacidades de portal prontas como produto sem investir pesadamente em platform engineering
- Em trabalhos com clientes, ajudou equipes de plataforma relativamente pequenas a entregar self-service eficaz rapidamente, mesmo dando suporte a milhares de desenvolvedores
- Vale ser avaliado por organizações que precisam rapidamente de capacidades de portal interno para desenvolvedores e podem aceitar as restrições de uma plataforma comercial e a dependência de fornecedor
48. Replit
- plataforma cloud-native de desenvolvimento colaborativo que oferece ambiente de desenvolvimento instantâneo, programação em tempo real e assistência de IA integrada direto no navegador
- Combina editor, runtime, deploy e workflow de programação com IA em uma única plataforma integrada, permitindo que desenvolvedores comecem a programar imediatamente sem configuração local
- Um IDE colaborativo com IA ajuda muito a reduzir o atrito no onboarding e é ideal para prototipagem em equipe
- Também é muito eficaz para sessões de treinamento, compartilhamento de conhecimento e bootcamps
- Embora alguns vejam o Replit como um lugar para projetos de hobby com suporte de IA, o ambiente é forte o bastante para competir com IDEs locais tradicionais, tornando iteração e colaboração muito mais fáceis
49. SigNoz
- plataforma open source de observabilidade nativa de OpenTelemetry com suporte integrado a logs, métricas e traces
- Resolve demandas de APM e instrumentação em microsserviços modernos e arquiteturas distribuídas, evitando lock-in de fornecedor
- Usa ClickHouse como banco de dados colunar padrão para fornecer armazenamento escalável, de alto desempenho e custo-efetivo, com consultas rápidas, posicionando-se como uma forte alternativa self-hosted a plataformas como Datadog
- Oferece consultas flexíveis via PromQL e ClickHouse SQL, além de suporte a alertas por múltiplos canais
- Na prática, verificou-se que o SigNoz reduz o consumo de recursos de infraestrutura e o custo total de observabilidade sem prejuízo de desempenho
- Embora haja serviço gerenciado em nuvem, suas imagens Docker prontas para uso e charts Helm são escolhas práticas para organizações que preferem manter controle sobre dados e infraestrutura
Assess
50. Agent Trace
- Especificação aberta proposta pela Cursor para a padronização da atribuição de código por IA
- Com o aumento da adoção de agentes de codificação, entender quem modificou o código vai além dos desenvolvedores humanos e passa a incluir mudanças geradas por IA
- Ferramentas existentes como
git blamepodem mostrar que uma linha de código foi alterada, mas não conseguem capturar se a mudança foi feita por humano, IA ou ambos - Agent Trace adota uma abordagem neutra em relação a fornecedores para definir como rastrear mudanças no código, sem opinar sobre como esse rastreamento deve ser armazenado
- Compatível com vários sistemas de controle de versão, incluindo Git, Mercurial e Jujutsu
- A especificação define tipos de contribuidores como human, AI, mixed e unknown, além de registros de rastreamento que descrevem a origem de cada contribuição
- Há sinais iniciais de adoção, com suporte em ferramentas como Cline e OpenCode e implementações como Git AI
51. ClickStack
- Plataforma open source de observabilidade compatível com OpenTelemetry que unifica logs, traces, métricas e sessões em um único armazenamento de dados de alto desempenho, baseado em ClickHouse
- Com o crescimento da infraestrutura e o aumento dos custos de observabilidade, muitas equipes sofrem com cadeias de ferramentas de telemetria fragmentadas e plataformas proprietárias caras
- ClickStack usa o armazenamento colunar do ClickHouse para permitir consultas de alta cardinalidade em menos de um segundo sobre grandes volumes de dados de telemetria, oferecendo uma base mais simples e econômica para observabilidade
52. Coder
- Boa alternativa a pixel-streamed development environments, separando onde o código é executado de como o desenvolvedor interage com ele
- Em vez de transmitir toda a interface de desktop, os desenvolvedores se conectam ao ambiente remoto por uma IDE local, como VS Code, ou pelo navegador, obtendo uma experiência mais responsiva sem perda de usabilidade
- O código roda em infraestrutura remota escalável, e os ambientes são definidos e gerenciados como código, permitindo às equipes padronizar configurações de desenvolvimento e simplificar o onboarding de novos desenvolvedores
- Também facilita oferecer acesso controlado a sistemas internos e simplificar o acesso de agentes de codificação por IA previamente aprovados
- A Coder é vista como um meio-termo entre desenvolvimento local e desktops totalmente virtualizados — oferecendo controle centralizado e governança sem as limitações de usabilidade de VDI com pixel streaming
- É uma boa opção para organizações que precisam de ambientes de execução remotos ou controlados, especialmente onde há necessidade de mais capacidade computacional ou acesso seguro
- É preciso avaliar o overhead operacional e as responsabilidades de segurança associados à gestão desses ambientes
53. Databricks Agent Bricks
- À medida que abordagens baseadas em agentes se tornam predominantes, as plataformas de dados evoluem para dar suporte nativo a essas cargas de trabalho, em vez de tratá-las como módulos adicionais
- Databricks Agent Bricks oferece componentes pré-construídos e otimizados automaticamente para padrões comuns de IA, como assistentes de conhecimento e analistas de dados
- Segue uma abordagem declarativa — os desenvolvedores definem os objetivos e os dados básicos, e o framework cuida da execução e da otimização
- Ao simplificar LLMOps e reduzir o esforço necessário para curadoria de dados, permite que as equipes foquem mais em resultados de negócio do que em boilerplate
- Uma equipe o utilizou junto com agentes customizados para avaliar e construir uma solução RAG complexa para P&D pré-clínica
- Se você já investe no ecossistema Databricks e está explorando abordagens baseadas em agentes para casos de uso comuns, como chatbots e extração de documentos, vale considerar uma avaliação
54. DuckLake
- Formato unificado de data lake e catálogo que simplifica arquiteturas lakehouse ao usar bancos de dados SQL padrão para catálogo e gerenciamento de metadados
- Enquanto formatos abertos tradicionais de tabela, como Iceberg ou Delta Lake, dependem de estruturas complexas de metadados baseadas em arquivos, o DuckLake armazena os metadados em um banco de dados de catálogo (como SQLite, PostgreSQL ou DuckDB), enquanto persiste os dados como arquivos Parquet em disco local ou em armazenamento de objetos compatível com S3
- Essa abordagem híbrida melhora a latência do planejamento de consultas e a confiabilidade transacional durante atualizações concorrentes
- O DuckDB atua como engine de consulta por meio da extensão
ducklake, oferecendo uma interface SQL familiar para operações padrão de DDL e DML - Mantém características de lakehouse, como particionamento, mas abre mão de índices e chaves primárias/estrangeiras
- Com suporte a time travel, evolução de esquema e conformidade ACID, oferece uma opção de baixa complexidade para equipes que buscam uma stack analítica independente
- Ainda está em estágio inicial de maturidade, mas é uma alternativa promissora e leve às arquiteturas lakehouse tradicionais
- É adequada para ambientes de dados simplificados que querem evitar o overhead operacional associado a ecossistemas baseados em Spark ou Trino
55. FalkorDB
- Banco de dados de grafos baseado em Redis com suporte a Cypher, adequado para equipes que querem capacidades de grafo sem adotar plataformas pesadas
- É uma opção prática para organizações que constroem cargas de trabalho de IA e aplicações ricas em relacionamentos, onde baixo atrito operacional é importante e um serviço de grafos baseado em servidor é preferível ao armazenamento embutido
- Embora a arquitetura seja promissora e o modelo para desenvolvedores seja acessível, antes de decidir por uma adoção ampla é preciso validar o comportamento do FalkorDB em produção em relação a escala, ferramentas operacionais e maturidade de longo prazo do ecossistema
56. Google Dialogflow CX
- Plataforma gerenciada de IA conversacional do Google Cloud, que combina uma máquina de estados baseada em grafos construída com Flows e Pages com capacidades generativas baseadas no Vertex AI Gemini
- Seu antecessor, Dialogflow, já havia sido acompanhado anteriormente no Radar
- O CX representa uma reformulação significativa e ganhou destaque em 2024 após o Google integrar modelos Vertex AI Gemini, introduzindo Generative Playbooks para agentes baseados em instruções e Data Store RAG para aterrar respostas em conteúdo indexado
- Foi usado para construir um agente de descoberta de dados em linguagem natural, escolhendo Dialogflow CX em vez de uma abordagem com SDK customizado por causa do ambiente low-code e dos Generative Playbooks
- Foi configurado com prompting few-shot para traduzir consultas em linguagem natural para SQL
- Equipes que já desenvolvem sobre Google Cloud constataram entrega mais rápida ao construir interfaces em linguagem natural sobre dados internos estruturados, em comparação com stacks de agentes customizados
- No entanto, não há camada gratuita, a forte dependência do Google Cloud traz considerável vendor lock-in, e é preciso planejar o esforço de engenharia de contexto
57. MCP Apps
- Primeira extensão oficial do Model Context Protocol, permitindo que servidores MCP retornem interfaces HTML interativas, como dashboards, formulários e visualizações, renderizadas diretamente na conversa
- Desenvolvida em conjunto por Anthropic, OpenAI e contribuidores open source, ela padroniza o esquema de recurso
ui://, no qual as ferramentas declaram templates de UI renderizados em iframes sandboxed e que degradam graciosamente para texto quando o host não oferece suporte à UI - Diferentemente do AG-UI, que funciona como uma camada de biblioteca separada, o MCP Apps empacota a UI diretamente dentro do servidor MCP
- Com design bidirecional, o modelo pode observar as ações do usuário, e a interface lida com dados em tempo real e manipulação direta que texto sozinho não consegue oferecer
- Clientes como Claude, ChatGPT, VS Code e Goose já lançaram suporte
- Equipes que exploram interações de agentes mais ricas precisam avaliar se a complexidade adicional em relação a respostas em texto puro se justifica para seu caso de uso
58. Monarch
- Framework open source de programação distribuída que leva a simplicidade das cargas de trabalho PyTorch em uma única máquina para grandes clusters de GPU
- Oferece uma API Python para criar processos remotos e actors, agrupando-os em coleções mesh com suporte a mensagens broadcast
- Fornece tolerância a falhas por meio de supervision trees, com falhas se propagando pela hierarquia para permitir tratamento de erro limpo e recuperação granular
- Suporta transferências point-to-point RDMA para movimentação eficiente de memória entre GPU e CPU, além de oferecer uma abstração de tensor distribuído que permite aos actors trabalhar com tensores particionados entre processos enquanto mantêm um modelo de programação imperativo
- Monarch é construído sobre um backend Rust de alto desempenho
- Ainda está em estágio inicial de desenvolvimento, mas a abstração que faz tensores distribuídos se comportarem como locais é poderosa e pode reduzir bastante a complexidade do treinamento distribuído de IA em larga escala
59. Neutree
- Plataforma open source para gerenciar e servir LLMs em infraestrutura privada, posicionando-se como uma camada de serviço de modelos para IA corporativa
- Oferece um plano de controle unificado para gerenciamento do ciclo de vida de modelos, serving de inferência e agendamento computacional em hardware heterogêneo, como aceleradores NVIDIA, AMD e Intel
- À medida que organizações migram de APIs hospedadas para implantações self-hosted com governança, Neutree atende uma lacuna clara — operando cargas de trabalho de LLM com capacidades de nível corporativo como multitenancy, controle de acesso, contabilização de uso e abstração da infraestrutura
- Ao separar o serving de modelos da lógica da aplicação, permite que equipes implantem, escalem e façam roteamento de modelos em ambientes que incluem bare metal, VMs e contêineres, sem forte acoplamento a um provedor específico de nuvem
- No entanto, é relativamente novo, e sua adoção exige cautela
- Seu ecossistema, maturidade operacional e capacidade de integração ainda estão evoluindo em comparação com plataformas de ML mais estabelecidas
- Promissor, mas mais indicado para equipes dispostas a investir na avaliação e formação de uma infraestrutura emergente de IA corporativa
60. OptScale
- Plataforma open source de FinOps multicloud para dar suporte a cargas de trabalho pesadas de AI/ML, em que custos de GPU e experimentação podem crescer rapidamente
- Coleta dados de cobrança e uso de APIs de nuvem, combinando visibilidade de custos, recomendações de otimização, acompanhamento de orçamento e detecção de anomalias em um único sistema com alertas baseados em políticas alinhados a equipes ou estruturas de negócio
- Em comparação com OpenCost, OptScale cobre casos de uso de FinOps mais amplos, além de Kubernetes, ao mesmo tempo que oferece análises no nível de Kubernetes
- Em relação a suítes corporativas como IBM Cloudability, CloudZero, CloudHealth, IBM Kubecost e Flexera One, oferece mais controle e menos dependência de fornecedor
- O trade-off é maior sobrecarga operacional, complexidade de implantação, edge cases em conectores e preocupações relacionadas à higiene de segurança de imagens de contêiner
- Deve ser tratado não como um produto plug-and-play, mas como um investimento em capacidade de plataforma
61. Rhesis
- Plataforma open source de testes para LLMs e aplicações agentic, em que equipes podem definir o comportamento esperado em linguagem natural, gerar cenários de teste adversariais e avaliar resultados tanto pela UI quanto por SDK ou API
- Enquanto abordagens tradicionais de teste assumem comportamento determinístico, sistemas de IA falham de maneiras mais sutis — incluindo jailbreaks, interações multi-turno, violações de política e edge cases dependentes de contexto
- É uma plataforma útil para equipes que precisam de mais do que simples avaliação de prompts
- Recursos como conversation simulator, testes adversariais, rastreamento baseado em OpenTelemetry e self-hosting via Docker são formas práticas de integrar equipes de produto, domínio e engenharia em um fluxo compartilhado de testes
- O principal benefício é a melhoria da validação antes da produção para sistemas não determinísticos
- É preciso considerar trade-offs comuns, como custo de avaliação, limitações de métricas LLM-as-judge e a necessidade de requisitos bem definidos antes que a plataforma entregue valor
- Vale ser avaliada por equipes que constroem sistemas de LLM ou agentic e precisam de testes colaborativos e repetíveis além de verificações básicas de prompt
62. RunPod
- À medida que organizações ampliam experimentos de treinamento e fine-tuning de LLMs, hiperescaladores como AWS e Google Cloud podem introduzir custos altos e disponibilidade limitada de hardware
- RunPod oferece uma alternativa econômica para cargas de trabalho de IA com uso intensivo de computação
- Opera como um marketplace global e distribuído de GPUs, fornecendo acesso sob demanda a uma ampla variedade de hardware, de clusters H100 de nível corporativo até RTX 4090 de consumo, muitas vezes com custos significativamente menores do que provedores de nuvem tradicionais
- É uma opção prática que vale ser avaliada por equipes que precisam de infraestrutura flexível e amigável ao orçamento para desenvolver, treinar e implantar modelos de IA sem compromissos de longo prazo nem dependência de fornecedor
63. Sprites
- Ambiente sandbox com estado, da Fly.io, projetado para execução isolada de agentes de codificação com IA
- Enquanto a maioria dos sandboxes de agentes é efêmera, criada para uma tarefa e depois descartada, Sprites oferece um ambiente Linux persistente com capacidade ilimitada de checkpoint e restauração
- Permite que desenvolvedores façam snapshot de todo o estado do ambiente, incluindo dependências instaladas, configuração de runtime e mudanças no sistema de arquivos, para que possam reverter quando um agente sair do rumo
- Isso vai além do que o Git sozinho consegue recuperar, capturando estado do sistema que o controle de versão não rastreia
- À medida que equipes adotam cada vez mais sandboxed execution for coding agents como um padrão sensato, Sprites representa uma ponta do espectro — uma abordagem persistente e com estado que troca a simplicidade de contêineres efêmeros por opções de recuperação mais ricas
- Equipes avaliando sandboxing para agentes devem considerar Sprites junto com alternativas efêmeras como Dev Containers, conforme suas necessidades e fluxo de trabalho
64. torchforge
- Biblioteca de reinforcement learning nativa de PyTorch projetada para pós-treinamento em larga escala de modelos de linguagem
- Oferece abstrações de alto nível que separam a lógica algorítmica das preocupações de infraestrutura, orquestrando Monarch para coordenação, vLLM para inferência e torchtitan para treinamento distribuído
- Essa abordagem permite que pesquisadores expressem fluxos complexos de reinforcement learning com uma API parecida com pseudocódigo e escalem cargas de trabalho por milhares de GPUs sem gerenciar detalhes de baixo nível como sincronização de recursos, agendamento e tolerância a falhas
- Ao separar o "o quê" (design do algoritmo) do "como" (execução distribuída), torchforge simplifica experimentação e iteração em sistemas de alinhamento em larga escala
- É um passo útil para tornar técnicas avançadas de pós-treinamento mais acessíveis, embora equipes ainda precisem avaliar sua maturidade e aderência dentro da infraestrutura de ML existente
65. torchtitan
- Plataforma nativa de PyTorch para pré-treinamento em larga escala de modelos de IA generativa, oferecendo uma implementação de referência limpa e modular para treinamento distribuído de alto desempenho
- Reúne primitivos distribuídos avançados em um sistema coeso, com suporte à paralelização 4D de dados, tensor, pipeline e contexto 4D parallelism
- Como o treinamento de modelos na escala do Llama 3.1 405B exige escala e eficiência consideráveis, torchtitan oferece uma base prática para construir e operar grandes cargas de trabalho de treinamento
- Seu design modular facilita que equipes experimentem e evoluam estratégias de paralelização enquanto mantêm prontidão para produção
- É um passo útil para padronizar o treinamento de grandes modelos no ecossistema PyTorch, especialmente para equipes que estão construindo sua própria infraestrutura de pré-treinamento
[Tools]
Adopt
66. Axe-core
- ferramenta de teste open source para detectar problemas de acessibilidade em sites e outras aplicações baseadas em HTML
- verifica páginas quanto à conformidade com padrões como WCAG — incluindo níveis de conformidade A, AA e AAA — e indica boas práticas gerais de acessibilidade
- desde sua primeira aparição no Radar como Trial em 2021, várias equipes adotaram o Axe-core com clientes
- acessibilidade está se tornando cada vez mais um atributo de qualidade essencial, e na Europa regulamentações como a European Accessibility Act obrigam organizações a cumprir requisitos de acessibilidade em serviços digitais
- combina bem com fluxos modernos de desenvolvimento ao habilitar verificações automatizadas no pipeline de CI
- ajuda equipes a evitar regressões, manter conformidade e receber feedback cedo durante o desenvolvimento, especialmente ao garantir a acessibilidade como parte do ciclo de feedback durante a ampla adoção de ferramentas de codificação com suporte de IA e agentic
67. Claude Code
- ferramenta de codificação com IA agentic da Anthropic para planejar e executar fluxos de trabalho complexos em múltiplas etapas
- equipes dentro e fora da Thoughtworks a usam rotineiramente para entregar software em produção, e ela é amplamente tratada como referência de capacidade e usabilidade, por isso foi movida para Adopt
- o ambiente de agentes em CLI se expandiu rapidamente com ferramentas como Codex CLI da OpenAI, Gemini CLI do Google, OpenCode e pi, mas o Claude Code continua sendo a opção preferida de muitas equipes
- o uso se expandiu além da escrita de código para executar fluxos de trabalho amplos que incluem especificações, stories, configuração, infraestrutura, documentação e processos de negócio definidos em markdown
- continua introduzindo recursos que outras ferramentas depois seguem, como skills, subagentes, controle remoto e fluxos de trabalho agentic em equipe
- equipes que o adotam precisam de práticas operacionais disciplinadas e pareamento, já que a codificação agentic desloca o esforço do desenvolvedor da implementação manual para a especificação de intenção, restrições e limites de revisão
- pode acelerar a entrega, mas aumenta o risco de complacência com código gerado por IA, tornando o sistema mais difícil de manter e evoluir para humanos e agentes
- cresce o interesse em context engineering (consciência de tópico e seleção de contexto baseada em escopo) para tornar fluxos de trabalho agentic mais confiáveis, além de curated shared instructions como forma de implementar harness engineering
68. Cursor
- junto com o Claude Code, aparece consistentemente como uma das opções padrão das equipes de entrega e um dos agentes de codificação mais amplamente adotados
- amadureceu para um ambiente agentic abrangente com recursos como plan mode, hooks e subagents
- agentes baseados em terminal também são populares, mas muitos desenvolvedores descobriram que a supervisão do agente dentro da IDE oferece uma experiência mais rica para revisar e refinar planos antes da execução
- a adoção do Agent Client Protocol reduziu a barreira para a grande base de usuários de JetBrains, tornando os recursos do Cursor acessíveis nessas IDEs
- a capacidade de inspecionar etapas individuais do agente ou de fazer rollback para uma etapa anterior quando o plano se desvia é especialmente valiosa
- o uso de Agent Skills ajuda equipes a empacotar instruções reutilizáveis e padronizar como agentes interagem com codebases complexas
- os ganhos de produtividade são claros, mas a autonomia agentic ainda exige testes automatizados rigorosos e supervisão humana para capturar regressões sutis
69. Kafbat UI
- UI web gratuita e open source para monitorar e gerenciar clusters Apache Kafka
- especialmente útil quando equipes precisam inspecionar payloads difíceis de ler durante a depuração do dia a dia
- equipes frequentemente ficam travadas ao depurar mensagens criptografadas, e o suporte SerDes embutido e extensível por plugins do Kafbat UI oferece uma forma prática de aplicar descriptografia ou decodificação customizada para tornar as mensagens legíveis novamente
- oferece feedback mais rápido do que scripts pontuais de depuração e uma experiência operacional melhor para equipes de desenvolvimento e suporte
- recomendado para ambientes intensivos em Kafka, onde a inspeção segura de mensagens e a resolução eficiente de problemas devem ser práticas padrão
70. mise
- desde a última avaliação, evoluiu de uma alternativa de alto desempenho ao asdf para o frontend padrão do ambiente de desenvolvimento
- unifica três preocupações fragmentadas — gerenciamento de versões de ferramentas e linguagens, gerenciamento de variáveis de ambiente e execução de tarefas — em uma única ferramenta de alto desempenho baseada em Rust, configurada com o arquivo declarativo
mise.toml - o mise é fácil de configurar e funciona bem com pipelines de CI/CD
- adiciona uma camada de segurança da cadeia de suprimentos frequentemente ausente em outros gerenciadores de versão por meio da integração com Cosign e GitHub Artifact Attestations
- um padrão recomendado para equipes que buscam padronizar a configuração do ambiente de desenvolvedores
- especialmente útil em ambientes polyglot com múltiplos microsserviços quando codebases adotam novas versões de linguagem ao mesmo tempo
- também funciona com ferramentas já existentes específicas de linguagem, então as equipes não precisam migrar tudo de uma vez
Trial
71. cargo-mutants
- ferramenta de mutation testing para Rust, que ajuda a ir além de métricas simples de cobertura de código
- injeta automaticamente bugs pequenos e intencionais, como troca de operadores ou retorno de valores padrão, para verificar se os testes existentes realmente capturam regressões
- a abordagem sem configuração é especialmente eficaz e, ao contrário de ferramentas anteriores, não exige alterações na árvore de código-fonte
- oferece um ciclo de feedback útil para equipes iniciantes em Rust, ajudando a identificar edge cases ausentes e a melhorar a confiabilidade de testes unitários e de integração
- cargo-mutants é uma implementação especializada de mutation testing, que também vem sendo experimentado em outros ecossistemas
- o principal custo é o aumento no tempo de execução dos testes, já que cada mutant exige um build incremental
- para administrar isso, recomenda-se mirar módulos específicos durante o desenvolvimento local ou executar toda a suíte de forma assíncrona no CI
- às vezes pode ser necessário filtrar mutants logicamente equivalentes, mas o aumento resultante na confiabilidade dos testes supera o ruído extra
72. Claude Code plugin marketplace
- antes, o compartilhamento de comandos customizados, agentes especializados, servidores MCP e skills era um processo manual em que desenvolvedores copiavam e colavam instruções do Confluence ou de outras fontes externas
- isso frequentemente causava drift de versão, com membros da equipe usando instruções antigas de projeto
- equipes estão usando o Claude Code plugin marketplace para adotar um modelo de distribuição baseado em Git e distribuir comandos, prompts e skills compartilhados
- ao hospedar marketplaces internos de equipe no GitHub ou em plataformas semelhantes, as organizações conseguem distribuir esses artefatos com mais segurança e consistência
- desenvolvedores podem sincronizar diretamente, via CLI, workflows e ferramentas com IA para seus ambientes locais
- outros agentes de codificação, como Cursor, também oferecem suporte a plugin marketplace de equipe, viabilizando uma forma mais simplificada e governada de compartilhar esses artefatos
73. Dev Containers
- usam o arquivo de configuração
devcontainer.jsoncomo uma forma padronizada de definir ambientes de desenvolvimento conteinerizados reproduzíveis - originalmente projetados para fornecer uma configuração de desenvolvimento consistente às equipes, surgiu um novo caso de uso atraente como ambiente de execução em sandbox para agentes de codificação
- ao executar agentes de codificação com IA dentro de um Dev Container, eles ficam isolados do sistema de arquivos do host, credenciais e rede, permitindo que as equipes concedam permissões amplas ao agente sem expor a máquina host a riscos
- a especificação aberta tem suporte nativo em ferramentas baseadas em VS Code, como VS Code e Cursor
- o DevPod amplia o suporte a devcontainer para qualquer editor ou fluxo de trabalho em terminal via SSH
- adotam uma abordagem padrão descartável — isto é, o contêiner é reconstruído a partir da configuração a cada inicialização — oferecendo um limite de segurança limpo, ao custo de reinstalar ferramentas e dependências
- para equipes que precisam de estado persistente ou capacidade de checkpoint e restauração, há alternativas como Sprites
- além do sandboxing de agentes, também oferecem benefícios de segurança da cadeia de suprimentos, ao definir a toolchain em configuração declarativa e reduzir a exposição a pacotes comprometidos e dependências inesperadas
74. Figma Make
- anteriormente um blip de self-serve UI prototyping with GenAI, essa técnica agora é amplamente adotada por equipes de desenvolvimento, incluindo gerentes de produto e designers, para a criação de protótipos de alta fidelidade passíveis de teste com usuários
- o Figma Make é uma opção poderosa por aproveitar componentes e camadas reais do sistema de design, fazendo com que o resultado se pareça muito com a aplicação em produção
- usa modelos de IA customizados treinados com padrões de design de alta qualidade
- equipes o utilizam para criar novas telas de design, melhorar telas existentes e construir protótipos compartilháveis para coletar feedback rápido de usuários
75. OpenAI Codex
- evoluiu para uma ferramenta de codificação agentic independente, disponível via app para macOS e CLI
- foi projetada para delegação de trabalho autônomo — ao receber um prompt, planeja, implementa e itera em vários arquivos com mínima intervenção
- é eficaz como ferramenta de rascunho rápido, especialmente útil para trabalho greenfield e tarefas de implementação repetitivas
- porém, o OpenAI Codex tende a sugerir padrões de bibliotecas funcionalmente desatualizados, embora logicamente corretos, o que torna testes automatizados e revisão humana indispensáveis
- como outras ferramentas agentic deste Radar, o risco de acúmulo sutil de dívida técnica é real e proporcional ao nível de autonomia concedido pela equipe
76. Typst
- é um sistema de composição tipográfica baseado em marcação que se consolidou como sucessor moderno do LaTeX para geração programática de documentos
- combina tipografia de alta qualidade com sintaxe mais simples e oferece um pipeline de compilação significativamente rápido, compilando até documentos muito grandes em uma fração do tempo de toolchains tradicionais de LaTeX
- o Typst oferece mensagens de erro mais claras e recursos nativos de scripting, como condicionais e loops
- consegue carregar dados estruturados de JSON ou CSV, sendo bem adequado para geração automatizada de documentos
- equipes o usam para gerar extratos e relatórios para clientes de bancos e serviços financeiros que precisam de geração em larga escala com formatação consistente
- o compilador open source pode ser hospedado pela própria organização, e o ecossistema crescente inclui pacotes contribuídos pela comunidade
- é mais acessível que o LaTeX, ao mesmo tempo em que entrega qualidade tipográfica comparável
Assess
77. Agent Scan
- scanner de segurança para ecossistemas de agentes que descobre componentes locais, incluindo servidores MCP e skills, e sinaliza riscos como prompt injection, tool poisoning, toxic flow, secrets hardcoded e tratamento inseguro de credenciais
- aborda uma lacuna emergente de visibilidade na cadeia de suprimentos de agentes, oferecendo uma forma prática de inventariar e testar a superfície de agentes em rápido crescimento
- porém, a adoção deve ser intencional — a varredura exige compartilhar metadados de componentes com a API da Snyk, e a qualidade do sinal e a taxa de falsos positivos precisam ser validadas no ambiente
- é importante que as equipes confirmem o valor operacional antes de tornar o Agent Scan parte obrigatória do gate de entrega
78. Beads
- rastreador de issues baseado em Git projetado como camada de memória persistente para agentes de codificação
- em vez de depender de planos temporários em Markdown, fornece aos agentes um grafo de tarefas com estrutura amigável a branches para relações de bloqueio, detecção de trabalho pronto e coordenação de tarefas de longo prazo ao longo de sessões
- o Beads é construído sobre o Dolt, um banco de dados SQL com controle de versão nativo que oferece suporte a branch, merge, diff e duplicação de tabelas de forma semelhante a um repositório Git
- representa uma nova categoria de ferramentas de memória de projeto e rastreamento de tarefas nativas para agentes
- outros projetos iniciais nesse espaço incluem ticket e tracer
- ao contrário de sistemas tradicionais de tickets como GitHub Issues e Jira, viabiliza novos workflows de coordenação autônoma de execução multiagente, incluindo agentes atribuindo trabalho uns aos outros
79. Bloom
- ferramenta da Anthropic para pesquisadores de segurança em IA avaliarem o comportamento de LLMs
- detecta comportamentos como sycophancy (bajulação) e self-preservation (autopreservação)
- em vez de benchmarks estáticos, usa uma configuração semente que define o comportamento-alvo e os parâmetros de avaliação para gerar dinamicamente várias conversas de teste e então avaliar os resultados
- essa abordagem de avaliação comportamental automatizada é essencial para acompanhar o ritmo de lançamento de modelos e permitir que equipes externas de pesquisa façam avaliações
- o Petri funciona como ferramenta complementar para identificar quais comportamentos aparecem em um dado modelo, enquanto o Bloom identifica em quais cenários e com que frequência esses comportamentos ocorrem; juntos, formam uma suíte de avaliação mais completa
- uma preocupação com o Bloom é que ele exige um modelo professor (ou avaliador) para avaliar um dado modelo aluno; como o modelo professor pode ter pontos cegos e vieses, usar múltiplos avaliadores pode reduzir o viés dos resultados
- vale a pena para equipes de pesquisa em segurança de IA avaliarem seu uso como complemento aos benchmarks estáticos na avaliação de comportamentos emergentes de modelos
80. CDK Terrain
- fork comunitário do Cloud Development Kit for Terraform(CDKTF), descontinuado e arquivado pela HashiCorp em dezembro de 2025
- O CDK Terrain (CDKTN) assume de onde o CDKTF parou, permitindo que equipes definam infraestrutura em TypeScript, Python e Go e façam provisionamento via Terraform ou OpenTofu
- Para equipes que já investiram em CDKTF, preserva código e workflows existentes, oferecendo um caminho de migração em vez de forçar mudança para HCL ou Pulumi
- O projeto tem lançamentos mensais e adicionou suporte ao OpenTofu como alvo de primeira classe
- No entanto, forks comunitários de projetos abandonados pelo fornecedor carregam riscos inerentes de suporte de longo prazo, e a abordagem do CDKTF não conseguiu atingir adoção ampla
- A HashiCorp citou falta de product-market fit ao encerrar o projeto
- Equipes que atualmente usam CDKTF devem avaliar o CDK Terrain como opção de continuidade, e também ponderar se este é o momento certo para migrar para uma abordagem com suporte mais amplo
81. CodeScene
- blip de social code analysis em 2017, e o aumento na adoção de agentes de codificação trouxe novo interesse por ferramentas como o CodeScene
- Ferramenta de análise comportamental de código que combina métricas de complexidade do código com histórico de controle de versão para identificar dívida técnica
- Diferente da análise estática tradicional, destaca "hotspots" para ajudar equipes a priorizar refatorações com base na atividade real de desenvolvimento e no impacto no negócio
- Agora também oferece orientação para design de código amigável para IA
- As equipes descobriram que, como agentes de codificação conseguem modificar código muito mais rápido que desenvolvedores humanos, a qualidade do código se torna ainda mais importante
- A métrica CodeHealth do CodeScene fornece guardrails úteis ao identificar áreas complexas demais para que LLMs façam refatoração com segurança sem risco de alucinação
- Recomendado para avaliação como guardrail na adoção de agentes de codificação, pois a métrica CodeHealth destaca alvos seguros para refatoração e indica áreas que precisam melhorar antes da aplicação de agentes
82. ConfIT
- Biblioteca que define testes de API de integração e em estilo componente de forma declarativa em JSON, em vez de escrevê-los imperativamente como código
- Há interesse crescente nessa abordagem porque grandes suítes de teste frequentemente acumulam boilerplate em torno de clientes HTTP, configuração de requisições e asserções
- O desenvolvimento assistido por IA reforça essa tendência, tornando definições estruturadas de testes mais fáceis de gerar e manter do que código procedural verboso
- Com base na experiência de clientes e na avaliação, a camada declarativa reduz duplicação entre testes de componente e integração, melhora a legibilidade e facilita evoluir a intenção dos testes em toda a equipe
- Porém, o próprio ConfIT tem adoção comunitária limitada e um ecossistema pequeno, o que dificulta recomendá-lo amplamente apesar desses benefícios
- Vale avaliar para equipes .NET explorando testes de API orientados por especificação, mas é necessário validar viabilidade de manutenção no longo prazo, adequação ao ecossistema e trade-offs operacionais
83. Entire CLI
- Conecta-se ao workflow do Git para capturar sessões de agentes de codificação por IA — transcrições, prompts, chamadas de ferramentas, arquivos tocados e uso de tokens — como metadados pesquisáveis armazenados em um branch dedicado do repositório
- Suporta Claude Code, Gemini CLI, OpenCode, Cursor, Factory AI Droid e GitHub Copilot CLI
- À medida que agentes de IA se tornam os principais contribuidores da base de código, equipes enfrentam um aumento da lacuna entre o que o Git rastreia e o que realmente acontece durante as sessões de codificação
- O Entire CLI registra a sessão completa junto com os commits sem poluir o histórico do branch principal, criando uma trilha de auditoria da atividade dos agentes
- O sistema de checkpoints também viabiliza recuperação prática, permitindo que equipes voltem a um estado conhecido como bom quando um agente sai dos trilhos e retomem de qualquer checkpoint
- Embora a ferramenta seja muito nova e o ecossistema de rastreabilidade de sessões de agentes ainda esteja se formando, a captura de sessão nativa do Git é uma opção natural para equipes com requisitos regulatórios ou de auditoria relacionados a código gerado por IA
84. Git AI
- Extensão open source do Git para rastrear código gerado por IA em repositórios, conectando cada linha escrita por IA ao agente, modelo e prompt que a geraram
- O Git AI usa checkpoints e hooks para rastrear mudanças incrementais de código entre o início e o fim de um commit
- Cada checkpoint inclui o diff entre o estado atual e o checkpoint anterior, marcado como escrito por IA ou por humano
- Essa abordagem é mais precisa do que métodos focados em contar o número de linhas de código no momento da inserção
- Usa um padrão aberto com Git Notes para rastrear código gerado por IA
- Embora o ecossistema de agentes suportados ainda esteja amadurecendo, vale avaliar para equipes que querem manter responsabilização e manutenibilidade de longo prazo em workflows agentic
- Tanto humanos quanto agentes de IA podem usar a skill
/askpara consultar sessões de agentes arquivadas e perguntar sobre a intenção original e as decisões arquiteturais por trás de blocos específicos de código
85. Google Antigravity
- Fork independente do VS Code construído sobre tecnologia licenciada da Windsurf, lançado em preview público com o Gemini 3 em novembro de 2025
- Reestrutura a IDE em torno de orquestração multiagente — o Agent Manager executa múltiplos agentes em paralelo entre tarefas, um navegador Chromium embutido permite que agentes interajam diretamente com UIs ao vivo, e o sistema de skills armazena instruções reutilizáveis de agentes no repositório
- O Agent Manager funciona como um dashboard de "Mission Control" em vez de uma barra lateral de chat padrão, marcando uma mudança fundamental no papel do desenvolvedor, de escrever código linha a linha para orquestrar múltiplos fluxos de trabalho autônomos
- Quando necessário, desenvolvedores ainda podem entrar no editor para manter controle human-in-the-loop(HITL)
- O Google Antigravity integra-se com Google Cloud e Firebase por meio do Model Context Protocol e oferece suporte ao desenvolvimento de agentes com o Agent Development Kit
- Permanece em preview público, sem data de GA, e sua postura de segurança e prontidão para uso corporativo ainda estão evoluindo
- Seu modelo de execução multiagente e acesso autônomo ao navegador sinalizam a direção das IDEs agentic
86. Google Mainframe Assessment Tool
- Ajuda organizações na engenharia reversa de aplicações executadas em mainframes, analisando todo o portfólio ou sistemas individuais
- No núcleo, depende de parsers de linguagem determinísticos para mapear fluxos de chamada e dependências de dados em toda a base de código, gerando uma visão estrutural de como as aplicações interagem
- Sobre essa base, recursos de IA generativa oferecem resumos, documentação, geração de casos de teste e sugestões de modernização
- Essa abordagem está alinhada a um padrão mais amplo de entendimento de codebases legadas com GenAI, no qual insights sólidos sobre o sistema formam a base para o uso eficaz de IA
- Embora o Google Mainframe Assessment Tool ainda não ofereça suporte a todas as principais stacks de tecnologia de mainframe, ele está evoluindo rapidamente
- As equipes descobriram que ele ajuda em engajamentos com clientes focados em descoberta e modernização de aplicações de mainframe
87. OpenCode
- Está emergindo rapidamente como um dos agentes de codificação open source mais destacados, com uma forte experiência terminal-first
- Seu principal ponto forte é a flexibilidade de modelos — suporte a modelos de fronteira hospedados, endpoints self-hosted e modelos locais
- Isso torna o OpenCode atraente para controle de custos, customização e ambientes restritos, incluindo configurações air-gapped
- Isso significa que os usuários precisam ser explícitos sobre licenças e termos dos provedores ao usar assinaturas ou APIs
- O modelo de extensibilidade do OpenCode é outro elemento central do seu apelo, com suporte tanto a plugins para workflows, ferramentas e guardrails específicos de equipes quanto a integrações MCP
- Muitos usuários recorrem ao Oh My OpenCode, um harness opcional, mas popular, que oferece uma configuração opinionated e batteries-included com equipes de agentes ajustadas e padrões de orquestração mais ricos
88. OpenSpec
- À medida que as capacidades dos agentes de codificação com IA evoluem, desenvolvedores enfrentam cada vez mais desafios de previsibilidade e manutenibilidade quando requisitos e contexto existem apenas em históricos temporários de chat
- Para resolver isso, surgiram ferramentas de spec-driven development (SDD)
- O OpenSpec é um framework open source de SDD que introduz uma camada leve de especificação para garantir que desenvolvedores humanos e agentes de IA estejam alinhados sobre o que será construído antes da geração de código
- Seu diferencial é um workflow fluido e mínimo, muitas vezes reduzido a três etapas — propose → apply → archive
- Muitos frameworks de SDD (GitHub Spec Kit, por exemplo) ou workflows de Agentic Skills (Superpowers, por exemplo) são mais adequados a projetos greenfield do que a brownfield
- Em vez de exigir uma definição completa de especificação antecipadamente, o foco do OpenSpec em spec deltas funciona particularmente bem e se encaixa melhor em sistemas existentes
- Diferentemente de alternativas mais pesadas que impõem workflows mais rígidos (BMAD, por exemplo) ou exigem integração com IDEs específicas de fornecedor (Kiro, por exemplo), ele é iterativo e neutro em relação a ferramentas
- É um framework amigável para desenvolvedores que vale a pena avaliar para equipes que querem introduzir estrutura e previsibilidade ao desenvolvimento assistido por IA sem adotar processos pesados
- Ao mesmo tempo, conforme modelos e agentes de codificação se tornam mais poderosos, também se recomenda que as equipes monitorem e revisitem capacidades nativas e reavaliem a necessidade de ferramentas SDD
89. PageIndex
- Ferramenta para construir um índice hierárquico de documentos para pipelines RAG baseados em raciocínio e sem vetores, em vez de depender da busca tradicional baseada em embeddings
- Enquanto fragmentar documentos em vetores pode fazer a informação estrutural se perder e limitar a visibilidade de por que certos resultados foram recuperados, o PageIndex constrói um índice em formato de sumário que o LLM percorre passo a passo para localizar conteúdo relevante
- De forma semelhante a como uma pessoa examina títulos e depois aprofunda em seções específicas, ele gera uma trilha explícita de raciocínio que explica por que determinada seção foi escolhida
- Funciona bem para documentos cujo significado depende fortemente da estrutura mais do que da semântica, como relatórios financeiros com dados numéricos, documentos jurídicos com cláusulas de referência cruzada e documentos clínicos ou científicos complexos
- No entanto, há trade-offs: como o raciocínio do LLM faz parte do processo de busca, isso pode introduzir latência e custo significativos, especialmente em documentos grandes
90. Pencil
- Ferramenta de canvas de design que se integra a IDEs e agentes de codificação como Cursor e Claude Code
- Diferentemente do Figma, que atualmente oferece apenas acesso de leitura, o Pencil executa um servidor MCP local bidirecional, fornecendo acesso de leitura e escrita para manipular diretamente o canvas
- Como ferramentas como Figma Make e Builder.io, também oferece capacidades de design-to-code, mas com uma abordagem mais centrada no desenvolvedor — os arquivos de design são armazenados no repositório em um formato JSON aberto chamado
.pen, permitindo versionar ativos de design junto com o código - Ao integrar-se com ferramentas familiares para desenvolvedores, ajuda a reduzir o gap no handoff entre design e desenvolvimento
- Para sistemas de design grandes e complexos, o Figma continua sendo o padrão de colaboração entre papéis
- Ainda assim, vale considerar para equipes sem designers dedicados ou com desenvolvedores que tenham fortes habilidades de design
91. Pi
- Agente de codificação em terminal minimalista e open source escrito em TypeScript
- Uma opção atraente para tinkerers e experimentadores, em vez de um padrão enterprise mainstream
- O Pi é um harness bare-bones mais customizável do que agentes mais completos como o OpenCode
- É mais fácil adaptá-lo do que construir um novo agente com frameworks agentic como ADK, LangGraph e Mastra
- Apesar do forte impulso e das releases ativas, o projeto ainda está em estágio inicial e é conduzido principalmente por mantenedores
- O pi deve ser tratado como um bloco de construção voltado a engenheiros, e não como uma plataforma enterprise completa com guardrails e suporte plenos
92. Qwen 3 TTS
- Modelo open source de text-to-speech que reduz bastante a diferença de qualidade em relação a produtos comerciais, ao mesmo tempo em que oferece maior controle para desenvolvedores do que muitas APIs pagas
- Suporta múltiplos idiomas, permite clonagem de voz a partir de uma amostra curta (cerca de 10–15 segundos) e aceita fine-tuning pós-treinamento para vozes específicas de domínio ou personagem
- É uma opção atraente para equipes que precisam de voz específica de marca ou controle on-premises
- O Qwen 3 TTS foi lançado recentemente, então as equipes precisam validar estabilidade, controles de segurança, adequação de licença e maturidade operacional antes de adotá-lo em workloads de voz críticos para produção
93. SGLang
- framework de serving de alto desempenho que reduz a sobrecarga computacional da inferência de LLM por meio do codesign entre a linguagem de programação de frontend e o runtime de backend
- adota RadixAttention, uma técnica de gerenciamento de memória que faz cache e reutiliza de forma agressiva o estado KV (chave-valor) ao longo dos prompts
- essa abordagem oferece melhoras significativas de desempenho em cenários com alto prefix overlap em comparação com engines de serving padrão como o vLLM
- para equipes que constroem agentes autônomos complexos, dependem de prompts de sistema longos ou usam amplamente few-shot prompting com exemplos compartilhados, o SGLang pode trazer ganhos substanciais em latência e eficiência
94. ty
- como a popularidade de Python continua crescendo, especialmente no espaço de IA e ciência de dados, ter um sistema de tipos robusto se torna cada vez mais valioso
- Ty é um type checker e language server para Python extremamente rápido, escrito em Rust
- faz parte do ecossistema Astral, que também inclui ferramentas como uv e ruff
- fornece feedback rápido e se integra bem a editores comuns como o Visual Studio Code
- usar o ty junto com outras ferramentas da Astral pode simplificar o desenvolvimento em Python em organizações de grande porte
- à medida que o agentic coding se torna mais comum, ter um type checker determinístico com loop de feedback rápido ajuda a detectar erros cedo e reduzir o esforço de code review com erros simples
95. Warp
- desde sua última inclusão no Radar, o Warp evoluiu muito além da descrição de "terminal com recursos de IA"
- mantendo seus pontos fortes centrais — saída de comandos baseada em blocos, sugestões com IA e recursos de notebook —, ele se expandiu para áreas tradicionalmente ocupadas por IDEs
- agora ele pode renderizar Markdown, mostrar árvores de arquivos e abrir arquivos diretamente do terminal, dando suporte a workflows completos de desenvolvimento agentic em vários painéis — com um agente de código como o Claude Code em um painel, o shell em outro e uma visualização dos arquivos do workspace em um terceiro
- um benefício prático observado é que o Warp lida melhor do que terminais tradicionais com a saída de texto de alto volume gerada por agentes de codificação modernos, em que velocidade de renderização e legibilidade podem se tornar gargalos
- também adicionou um assistente de código embutido, embora a equipe não o tenha avaliado amplamente
- o Warp também lançou recentemente o Oz, uma plataforma de orquestração para agentes em nuvem que se integram ao terminal, mas este blip foca no próprio terminal
- para equipes que preferem um terminal leve e componível e querem trazer suas próprias ferramentas de IA, o Ghostty pode ser mais adequado — em contraste com a filosofia batteries-included do Warp, com uma abordagem intencionalmente minimalista
- o ritmo de novos recursos e as ambições mais amplas da plataforma Warp tornam prematura sua mudança para Trial antes de o produto se estabilizar e de haver mais experiência de campo com suas novas capacidades
96. WuppieFuzz
- fuzzer open source para APIs REST que usa definições OpenAPI para gerar requisições válidas, as muta para explorar edge cases e depende de feedback de cobertura no lado do servidor para priorizar entradas que alcançam novos caminhos de execução
- a maioria das equipes ainda depende de testes de integração e de contrato baseados em exemplos e quase não explora entradas inesperadas, sequências anormais de requisições ou caminhos carregados de falhas, apesar de APIs frequentemente serem a principal superfície de integração em sistemas modernos
- com base na avaliação inicial, o WuppieFuzz parece ser um complemento promissor para esses testes — podendo encontrar problemas como exceções não tratadas, lacunas de autorização, vazamento de dados sensíveis, erros no lado do servidor e falhas de lógica que testes em script podem deixar passar
- as equipes ainda precisam avaliar como ele se encaixa no CI, qual sobrecarga de runtime ele introduz e quão úteis os resultados realmente são
- por isso, vale a pena ser avaliado por equipes que constroem APIs REST críticas ou expostas externamente
Caution
97. OpenClaw
- projeto open source que o autor chama de categoria de "assistente de IA hiperpersonalizado"
- os usuários hospedam sua própria instância, a mantêm disponível para uso contínuo por meio de canais de mensagens como WhatsApp ou iMessage e executam tarefas por meio de ferramentas conectadas
- com memória persistente de conversas, preferências e hábitos, cria uma experiência pessoal contínua que na prática parece diferente de interfaces de chat GenAI ou de agentes de codificação típicos
- o modelo é claramente atraente, e seguidores como o Claude Cowork já se inspiraram nele
- a razão para colocar o OpenClaw em Caution é que o modelo exige trade-offs significativos de segurança
- quanto mais acesso recebe a calendário, e-mail, arquivos e comunicações, mais útil ele se torna, e mais concentra permissões exatamente no padrão alertado em toxic flow analysis for AI
- esse risco não é exclusivo do OpenClaw, e também se aplica a outras implementações do mesmo padrão, incluindo produtos de fornecedores estabelecidos
- foram publicados conselhos para equipes que consideram o OpenClaw e ambientes de execução em sandbox, e alternativas como NanoClaw ou ZeroClaw podem reduzir o raio de explosão
- no entanto, o próprio padrão de assistente hiperpersonalizado busca permissões e continua sendo de alto risco
[Languages and Frameworks]
Adopt
98. Apache Iceberg
- formato de tabela aberto para grandes conjuntos de dados analíticos, que define como arquivos de dados, metadados e esquemas são organizados em sistemas de armazenamento como o S3
- evoluiu muito nos últimos anos e se consolidou como um bloco fundamental para arquiteturas lakehouse tecnologicamente neutras
- é suportado por todos os principais fornecedores de plataformas de dados, incluindo AWS (Athena, EMR, Redshift), Snowflake, Databricks e Google BigQuery, sendo uma forte opção para evitar vendor lock-in
- o que diferencia o Apache Iceberg de outros formatos de tabela abertos é sua abertura em recursos e governança, em contraste com alternativas cujas capacidades são limitadas ou controladas por um único fornecedor
- em termos de confiabilidade, seu design baseado em snapshots oferece isolamento serializável, escritas simultâneas seguras via concorrência otimista e histórico de versões com rollback, entregando fortes garantias de correção sem gargalos de desempenho
- embora o Apache Spark seja o engine mais comum, Trino, Flink, DuckDB e outros também têm bom suporte, o que o torna adequado para uma ampla gama de casos de uso, de plataformas corporativas de dados a análises locais leves
- em muitas equipes, ele conquistou forte confiança como um formato de dados estável e aberto, sendo recomendado como escolha padrão para organizações que constroem plataformas de dados modernas
99. Declarative Automation Bundles
- antes conhecido como Databricks Asset Bundles, evoluiu para uma ferramenta central para introduzir práticas de engenharia de software e CI/CD no ecossistema Databricks
- amadureceu significativamente, permitindo que equipes gerenciem em código a maioria dos recursos da plataforma, incluindo clusters, pipelines de ETL, jobs, modelos de machine learning e dashboards
- com o comando
databricks bundle plan, as equipes podem visualizar previamente mudanças e aplicar práticas de implantação reproduzíveis para artefatos do Databricks, de forma semelhante ao gerenciamento de infraestrutura com ferramentas como Terraform - ao tratar ativos tradicionalmente mutáveis, como dashboards e pipelines de ML, como código, torna possível versionar, testar e implantar com o mesmo rigor de microsserviços tradicionais
- com base em experiência em ambientes de produção, Declarative Automation Bundles vem se consolidando como uma abordagem confiável para gerenciar workflows de dados e ML no Databricks
- para equipes que realizam trabalhos amplos no ecossistema Databricks, é recomendado considerar a adoção para padronizar práticas de gerenciamento de infraestrutura
100. React JS
- tem sido a escolha padrão para desenvolvimento de UI em JavaScript desde 2016, mas vale revisitar após o lançamento da versão estável do React Compiler (em outubro passado) como parte do React 19
- ao fazer memoization em tempo de build,
useMemoeuseCallbackmanuais se tornam desnecessários na maioria dos casos; recomenda-se que equipes os mantenham como escape hatch quando precisarem de controle preciso das dependências de effect - testado em larga escala na Meta, com suporte a Expo SDK 54, Vite, Next.js, ele elimina uma categoria de boilerplate de performance que era um custo antigo em trabalhos maiores com React
- o React 19 também introduz Actions e hooks como
useActionStateeuseOptimistic, simplificando o tratamento de formulários e mutações de dados sem depender de bibliotecas externas - em 2025, foi lançada a React Foundation sob a Linux Foundation — Amazon, Expo, Callstack, Microsoft, Software Mansion e Vercel se juntaram à Meta — reforçando a estabilidade de longo prazo da biblioteca e mitigando preocupações historicamente citadas por equipes mais cautelosas na adoção
101. React Native
- passou para Adopt como a escolha padrão para desenvolvimento mobile cross-platform
- antes em Trial, o rollout da New Architecture — especificamente JSI e Fabric — resolve preocupações antigas relacionadas ao gargalo da bridge e à velocidade de inicialização
- foram observados ganhos substanciais de performance em transições complexas de UI e workloads intensivos em dados
- ao se afastar da bridge assíncrona, React Native agora entrega responsividade comparável à implementação nativa mantendo uma única base de código
- tem sido usado com sucesso em múltiplos projetos de produção, e o ecossistema centrado em React com Expo está maduro e estável
- embora o gerenciamento de estado ainda exija planejamento cuidadoso, os ganhos de produtividade do workflow com fast refresh e do conjunto de habilidades compartilhado superam esse custo
- é a principal recomendação para equipes que buscam performance, consistência e velocidade na maioria dos casos de uso mobile híbrido
102. Svelte
- framework de UI em JavaScript que compila componentes em JavaScript otimizado em tempo de build, sem depender de um grande runtime no navegador nem de virtual DOM
- desde a última vez que foi apresentado como Trial, mais equipes o utilizaram com sucesso em produção, e o SvelteKit se tornou uma opção mais robusta para SSR e aplicações web full-stack, aumentando a confiança para movê-lo para Adopt
- os motivos originais para escolher Svelte continuam válidos — gera bundles menores, oferece forte performance em runtime e um modelo de componentes mais simples
- novas capacidades do Svelte 5, como runes e snippets, tornam a reatividade e a composição de UI mais explícitas e flexíveis
- oferece uma experiência de desenvolvimento mais limpa com menos código em comparação com frameworks frontend mais pesados
- o feedback das equipes o apresenta cada vez mais como uma alternativa confiável a React ou Vue, e não como uma opção de nicho
- familiaridade com o ecossistema, contratação e adequação à plataforma ainda exigem consideração, mas ele é recomendado como um padrão razoável para construir aplicações web modernas em que performance e simplicidade de entrega são importantes
103. Typer
- biblioteca Python para construir CLIs a partir de funções com anotações de tipo padrão, oferecendo texto de ajuda automático, autocompletar de shell e um caminho claro de scripts pequenos para grandes aplicações CLI
- sua relevância cresce à medida que equipes transformam ferramentas internas, automação e workflows de desenvolvedor adjacentes a IA em CLIs de primeira classe
- Typer é fácil de adotar em projetos reais, e as equipes valorizam a rapidez com que ele permite criar comandos claros e legíveis
- pontos fortes — API baseada em type hints, ajuda e autocompletar automáticos, e um caminho de baixa fricção de scripts simples para CLIs com múltiplos comandos
- porém, é uma solução específica de Python e pode não ser a melhor opção quando há necessidade de comportamentos de CLI altamente customizados ou consistência entre linguagens
- recomendado para equipes que constroem CLIs para workflows de entrega, operações e experiência do desenvolvedor
Trial
104. Agent Development Kit (ADK)
- framework do Google para criar e operar agentes de IA, oferecendo abstrações orientadas à engenharia de software para orquestração, ferramentas, avaliação e implantação
- desde sua inclusão em Assess, o ecossistema e as capacidades operacionais amadureceram bastante, com desenvolvimento multilíngue ativo e recursos mais fortes de observabilidade e runtime
- frameworks nativos de agentes de vendors agora formam um campo concorrido — opções como Microsoft Agent Framework, Amazon Bedrock AgentCore, OpenAI Agents SDK, Claude Agent SDK e outras estão avançando
- alternativas open source como LangGraph e CrewAI continuam sendo escolhas fortes para equipes que priorizam portabilidade de framework e um ecossistema mais amplo
- embora o ADK ainda permaneça em estado pre-GA em alguns pontos, com asperezas ocasionais e atrito em upgrades, foi observado mais uso bem-sucedido especialmente em projetos com investimento na plataforma Google
105. DeepEval
- Framework open source em Python para avaliação de desempenho de LLMs
- Pode ser usado para avaliar sistemas e aplicações de RAG criados com frameworks como LlamaIndex e LangChain, além de servir para baselines e benchmarks de modelos
- Vai além de métricas simples de correspondência de palavras e oferece avaliações mais confiáveis em cenários do mundo real com avaliação de precisão, relevância e consistência
- Inclui recursos como detecção de alucinação, pontuação de relevância da resposta e otimização de hiperparâmetros, sendo especialmente útil a capacidade de a equipe definir métricas personalizadas para casos de uso específicos
- Recentemente, o DeepEval foi expandido para dar suporte a workflows agentic complexos e sistemas de conversa multi-turno
- Além de avaliar a saída final, oferece métricas embutidas para tool correctness, step efficiency e task completion, incluindo a avaliação de interações com servidores MCP
- Também introduziu conversation simulation, que gera casos de teste automaticamente para stress tests de aplicações multi-turno em grande escala
106. Docling
- Biblioteca open source em Python e TypeScript para converter documentos não estruturados em saídas limpas e legíveis por máquina
- Usa uma abordagem baseada em visão computacional para entender layout e semântica, processando entradas complexas como PDFs, inclusive documentos digitalizados, em formatos estruturados como JSON e Markdown
- Adequada para pipelines de RAG e geração de saída estruturada em LLMs, em contraste com abordagens de busca vision-first como ColPali
- O Docling oferece uma alternativa open source e self-hosted a serviços proprietários gerenciados em nuvem como Azure Document Intelligence, Amazon Textract e Google Document AI, com boa integração a frameworks como LangGraph
- Apresenta bom desempenho em workloads de extração em escala de produção em PDFs digitais e digitalizados, incluindo arquivos muito grandes com texto, tabelas e imagens
- Entrega um forte equilíbrio entre qualidade e custo para workflows downstream de agentic RAG
107. LangExtract
- Biblioteca Python que extrai informações estruturadas de texto não estruturado com base em instruções personalizadas do usuário, incluindo grounding preciso da origem que vincula cada entidade extraída à sua posição no documento original
- Processa materiais específicos de domínio, como notas clínicas e relatórios
- Seu principal ponto forte é a rastreabilidade da origem, garantindo que cada ponto de dado extraído possa ser rastreado até sua fonte
- As entidades extraídas podem ser exportadas para arquivos JSONL, formato padrão para dados de modelos de linguagem, e visualizadas em uma interface HTML interativa para revisão contextual
- Equipes que consideram saída estruturada em LLMs para processamento de documentos devem avaliar o LangExtract junto com abordagens de imposição de esquema como Pydantic AI
- O LangExtract é mais adequado para materiais-fonte longos e não estruturados, enquanto o Pydantic AI se destaca em impor formato de saída para entradas mais curtas e previsíveis
108. LangGraph
- Desde o Radar anterior, observamos que a arquitetura do LangGraph, que trata todos os sistemas multiagente como grafos com estado e estado global compartilhado, nem sempre é a melhor opção para construir sistemas agentic
- Abordagens alternativas usadas em frameworks como Pydantic AI também funcionam bem
- Em vez de começar com grafos rígidos e grande estado compartilhado, essa abordagem prefere comunicação simples entre agentes por execução de código, adicionando estrutura de grafo depois, se necessário
- Em muitos casos de uso, isso gera sistemas mais simples e eficazes, já que cada agente acessa apenas o estado de que precisa, facilitando raciocínio, testes e depuração
- Como resultado, sai de Adopt; continua sendo uma ferramenta poderosa, mas não é mais considerada a escolha padrão para construir todos os sistemas agentic
109. LiteLLM
- Começou como uma camada fina de abstração sobre múltiplos fornecedores de LLM e evoluiu para um gateway de AI completo
- Vai além de simplificar integrações de API e resolve preocupações transversais comuns em sistemas de GenAI — incluindo retries e failover, balanceamento de carga entre fornecedores e rastreamento de custos com controle de orçamento
- As equipes estão adotando cada vez mais o LiteLLM como o padrão sensato para aplicações baseadas em AI
- O gateway oferece um lugar consistente para tratar preocupações de governança, incluindo rastreamento de requisições, controle de acesso, gerenciamento de chaves de API, filtragem de conteúdo e guardrails no nível da borda como modificação e mascaramento de dados
- No entanto, equipes que dependem de recursos diferenciados de fornecedores frequentemente precisam de parâmetros específicos do fornecedor, reintroduzindo o acoplamento que o gateway tenta remover
- O modo
drop_paramsdescarta silenciosamente parâmetros não suportados, o que pode causar perda de capacidades sem visibilidade ao longo das decisões de roteamento - É uma escolha prática para controle operacional, mas aproveitar capacidades específicas de fornecedores significa manter ao mesmo tempo dependência do gateway e código acoplado ao fornecedor
110. Modern.js
- Meta-framework React da ByteDance, colocado em Trial para equipes com necessidades de microfrontends baseados em Module Federation
- O gatilho foi prático —
nextjs-mfcaminha para fim de vida (end-of-life), o Pages Router deve receber apenas pequenas correções retrocompatíveis, não há novos desenvolvimentos planejados, e os testes de CI devem ser removidos em meados do segundo semestre de 2026 - Com a ausência de suporte oficial a Module Federation no Next.js e a descontinuação gradual do plugin da comunidade, a equipe central de Module Federation recomenda o Modern.js como principal framework com suporte para arquiteturas baseadas em federation
- O plugin
@module-federation/modern-js-v3oferece imediatamente o cabeamento automático de build, e streaming SSR e Bridge API podem ser usados como capacidades separadas - Porém, há limitações no acoplamento —
@module-federation/bridge-reactainda não é compatível com ambiente Node, então não é possível usar Bridge em cenários de SSR - As experiências iniciais são positivas, e o caminho de migração está bem definido para equipes que já usam Module Federation
- O ecossistema fora da ByteDance ainda está amadurecendo, e serão necessários documentação mais enxuta e planos de participação mais estreita com upstream
- No momento, o investimento se justifica em casos de uso com Module Federation que não têm alternativas com melhor suporte
Assess
111. Agent Lightning
- framework de otimização e treinamento de agentes que viabiliza otimização automática de prompts, ajuste fino supervisionado e aprendizado por reforço agentic
- a maioria dos frameworks de agentes se concentra na construção de agentes, mas não na melhoria ao longo do tempo
- Agent Lightning oferece suporte a frameworks como AutoGen e CrewAI, permitindo melhoria contínua de agentes existentes sem alterar a implementação-base
- isso é alcançado por meio de uma abordagem chamada Training-Agent Disaggregation, que introduz uma camada entre o treinamento e o framework de agentes
- dois componentes centrais — o Lightning Server gerencia o processo de treinamento e expõe APIs para os modelos atualizados, enquanto o Lightning Client atua em runtime, coletando rastreamentos e enviando-os ao servidor para dar suporte ao treinamento
- recomendado para exploração por equipes que já têm implantações de agentes estabelecidas como forma de melhorar continuamente o desempenho dos agentes
112. GitHub Spec Kit
- nas discussões deste ciclo, o desenvolvimento orientado por especificação se destacou, com o surgimento de dois grandes grupos — equipes que dependem da capacidade dos agentes de codificação de melhorar continuamente com estrutura mínima e equipes que preferem fluxos de trabalho definidos e especificações detalhadas
- várias equipes estão experimentando práticas spec-driven usando GitHub Spec Kit, principalmente em ambientes brownfield
- o conceito central do Spec Kit é a constitution, um livro de regras fundamental para alinhar o ciclo de vida de desenvolvimento de software
- na prática, uma constitution útil normalmente captura escopo do projeto, contexto do domínio, versões de tecnologia, padrões de código e estrutura do repositório (por exemplo, arquitetura hexagonal, módulos em camadas), ajudando o agente a operar dentro dos limites arquiteturais pretendidos
- também surgem desafios como instruction bloat — o conjunto de instruções do agente cresce com a adição contínua de contexto do projeto — e, por fim, context rot; uma equipe resolveu isso extraindo orientações reutilizáveis como skills, mantendo as instruções do agente concisas e carregando contexto detalhado apenas quando necessário
- em sistemas brownfield, muito retrabalho decorre de intenções pouco claras, suposições ocultas e descoberta tardia de restrições; uma equipe introduziu o ciclo de vida spec → plan → tasks → coding → review para ajudar a trazer esses problemas à tona mais cedo
- com o tempo, o contexto repetível foi movido para arquivos como
.github/prompts/speckit.<command>.prompt.md, deixando os prompts mais curtos e o comportamento do agente mais consistente - foram relatadas algumas arestas como verificações defensivas desnecessárias e saídas em markdown excessivamente prolixas
- parte desses problemas foi resolvida com a personalização dos templates e instruções do Spec Kit (por exemplo, limitar o número de arquivos markdown gerados e reduzir a verbosidade no console)
- no fim, engenheiros experientes com práticas sólidas de código limpo e arquitetura extraem o maior valor de fluxos de trabalho orientados por especificação
113. Mastra
- framework open source nativo de TypeScript para criar aplicações e agentes de IA
- oferece mecanismo de workflow baseado em grafo, abordagem integrada a vários provedores de LLM, pausa e retomada com human-in-the-loop e primitivas de RAG e memória
- também inclui autoria de servidores MCP e ferramentas nativas para avaliação e observabilidade, com documentação clara para desenvolvedores
- Mastra oferece uma alternativa a stacks pesadas em Python, permitindo que equipes criem recursos avançados de IA diretamente em ecossistemas web existentes como Node.js ou Next.js
- vale ser avaliado por equipes investidas no ecossistema TypeScript que querem evitar migrar para Python apenas por causa da camada de IA
114. Pipecat
- framework open source para criar agentes de voz em tempo real e multimodais com um modelo de pipeline modular para orquestração de STT, LLM, TTS e transporte
- despertou forte interesse porque as equipes conseguem iterar rapidamente no comportamento conversacional e trocar de provedor com atrito relativamente baixo
- em comparação com LiveKit Agents, Pipecat oferece maior flexibilidade de framework, mas um caminho de produção menos integrado, especialmente em implantação self-hosted, confiabilidade de transporte e processamento de turnos de baixa latência em escala
- oferece uma base forte voltada à engenharia, mas exige trabalho significativo de engenharia de plataforma antes de ser adotado para workloads de produção críticos para o negócio
115. Superpowers
- com o aumento do uso de agentes de codificação, não existe um único fluxo de trabalho prescrito para todas as equipes; em vez disso, as equipes estão evoluindo fluxos personalizados com base em seu contexto e restrições
- Superpowers é um desses fluxos, construído com skills combináveis
- ele encapsula agentes de codificação como skills em um fluxo estruturado, incentivando brainstorm antes de codar, planejamento detalhado antes da implementação, TDD com ciclo red-green-refactor obrigatório, depuração sistemática priorizando causa raiz e revisão de código após a implementação
- é distribuído como plugin por meio do Claude Code plugin marketplace e do Cursor plugin marketplace
116. TanStack Start
- framework full-stack para React e Solid, construído sobre TanStack Router, comparável ao Next.js, com suporte a SSR, cache e muitos dos mesmos recursos
- TanStack Start oferece segurança de tipos de ponta a ponta em tempo de compilação para funções de servidor, loaders e roteamento, reduzindo o risco de links quebrados ou formatos de dados inconsistentes no frontend
- prefere configuração explícita em vez de convenção, com uma experiência mais próxima de trabalhar com React puro
- permite adicionar capacidades de SSR gradualmente conforme a necessidade
- em comparação com o Next.js, que tem padrões mais opinativos e pode gerar comportamentos inesperados para quem não conhece seu funcionamento interno, é mais explícito e previsível
- o ecossistema TanStack também amadureceu bastante, oferecendo um conjunto poderoso de ferramentas para criar aplicações web modernas
117. TOON (Token-Oriented Object Notation)
- codificação legível por humanos de dados JSON projetada para reduzir o uso de tokens quando dados estruturados são enviados para LLMs
- permite manter JSON nos sistemas existentes e converter apenas nos pontos de interação com o modelo
- custo de tokens, latência e limitações de janela de contexto estão se tornando considerações reais de design em pipelines de RAG, workflows de agentes e outras aplicações intensivas em IA
- JSON bruto frequentemente consome tokens com chaves repetidas e overhead estrutural, mais do que com conteúdo útil
- em avaliações iniciais, TOON mostrou ser uma interessante otimização de última milha para entradas de prompt, especialmente em conjuntos de dados grandes e regulares, nos quais um formato ciente de esquema é mais eficiente que JSON e mais fácil para o modelo processar
- não é um substituto de JSON em APIs, bancos de dados ou saídas de modelo, e costuma ser uma escolha ruim para estruturas profundamente aninhadas ou não uniformes, arrays semiestruturados e dados tabulares planos em que CSV é mais compacto
- também pode ser menos adequado em caminhos críticos à latência, nos quais JSON compacto já tem bom desempenho
- vale ser avaliado por equipes que criam aplicações com LLMs nas quais o tamanho da entrada estruturada representa um custo relevante ou uma preocupação de qualidade, sendo necessário fazer benchmark com seus próprios dados e stack de modelos em comparação com JSON ou CSV
118. Unsloth
- framework open source focado em tornar o ajuste fino de LLMs e o aprendizado por reforço significativamente mais rápidos e eficientes em memória
- O ajuste fino de LLMs envolve dezenas de bilhões de multiplicações de matrizes e se beneficia da aceleração por GPU; o Unsloth otimiza isso ao converter essas operações em kernels customizados de alta eficiência para GPUs NVIDIA, reduzindo drasticamente custos e uso de memória
- Permite ajustar modelos em GPUs de consumidor T4 ou superiores, em vez de depender de clusters H100 caros
- Suporta LoRA, ajuste fino completo, treinamento multi-GPU e ajuste fino com contexto longo (até 500K tokens), para modelos populares como Llama, Mistral, DeepSeek-R1, Qwen e Gemma
- À medida que aplicações de IA específicas de domínio dependem cada vez mais de ajuste fino, o Unsloth reduz consideravelmente a barreira de entrada
Ainda não há comentários.