- Tongyi DeepResearch é o primeiro agente web totalmente open source a apresentar desempenho equivalente ao OpenAI DeepResearch, registrando resultados de ponta em benchmarks complexos de exploração de informação
- O Tongyi Lab é uma das divisões de pesquisa e desenvolvimento em IA do Alibaba Group, com foco em modelos de linguagem de grande porte (LLMs), modelos multimodais e tecnologias de agentes, e é o criador dos modelos QWEN
- Foi construída uma pipeline de treinamento end-to-end que integra Agentic Continual Pre-training (CPT), Supervised Fine-Tuning (SFT) e Reinforcement Learning (RL)
- A capacidade de raciocínio e planejamento de longo prazo foi reforçada por meio de geração massiva de QA totalmente baseada em dados sintéticos e do paradigma IterResearch
- Suporta os modos ReAct e Heavy, cobrindo desde raciocínio simples até pesquisa complexa em múltiplas etapas, e garante desempenho estável com aprendizado por reforço baseado no algoritmo GRPO
- Já foi aplicado na prática em serviços internos e externos ao Alibaba, como Gaode Mate e Tongyi FaRui, comprovando a utilidade e a escalabilidade de agentes de pesquisa em IA open source
De chatbot a agente autônomo
- Tongyi DeepResearch é o primeiro agente web totalmente open source a atingir desempenho no nível do OpenAI DeepResearch
- Registrou 32.9 no Humanity’s Last Exam(HLE), 43.4 no BrowseComp, 46.7 no BrowseComp-ZH e 75 no xbench-DeepSearch
- Supera todos os agentes de Deep Research comerciais e open source existentes até então
- Além do modelo, também foram divulgadas a metodologia completa de treinamento baseada em síntese de dados
- Inclui geração automatizada de dados em todo o processo e infraestrutura de aprendizado por reforço, abrangendo Agentic CPT, SFT e RL
- Com o framework ReAct, demonstra forte capacidade intrínseca mesmo sem prompt engineering
- No Heavy Mode, demonstra o limite de suas capacidades de planejamento e raciocínio complexos
Pré-treinamento contínuo e pós-treinamento com base em dados sintéticos
- Foi introduzido o Agentic CPT para construir um modelo-base orientado a agentes
- Por meio do sistema AgentFounder, foi implementada síntese de dados em larga escala e um flywheel cíclico de dados
- Na etapa de reconstrução de dados e geração de perguntas, são integrados documentos, dados de crawling, grafos de conhecimento e registros de chamadas de ferramentas
- Isso é reorganizado em uma memória de conhecimento open-world centrada em entidades, gerando diversos formatos de pares (pergunta, resposta)
- A síntese de ações (Action Synthesis) gera dados de ação primários e de ordem superior
- Ao modelar uma estrutura de tomada de decisão em múltiplas etapas, reforça a capacidade de decisão
-
Dados de pós-treinamento (Post-training)
- Foi construída uma pipeline totalmente automatizada de geração sintética de QA
- Por meio de uma série de pesquisas como WebWalker, WebSailor e WebShaper, foram produzidos dados de QA baseados em grafos e com controle de dificuldade
- Uma estrutura de informação realista é obtida com grafos de conhecimento baseados em random walk e fusão com dados tabulares
- A dificuldade é ajustada de forma sistemática por meio de “operações atômicas”, como fusão de entidades
- A formalização de problemas baseada em teoria dos conjuntos minimiza a discrepância entre estrutura da informação e estrutura de raciocínio
- Melhora a eficiência da validação de consistência do QA
- Um motor automatizado de dados gera perguntas de pesquisa em nível de doutorado
- Partindo de uma base de conhecimento multidisciplinar, gera QA de alta dificuldade por meio de um loop iterativo de aumento de complexidade
- Usa os frameworks ReAct e IterResearch para aprender diversos padrões de raciocínio
- O IterResearch reforça a capacidade de planejamento de longo prazo ao reconstruir o workspace a cada rodada
Modos de rollout
- O modelo suporta dois modos de execução: ReAct e Heavy
-
Native ReAct Mode
- Segue a estrutura cíclica Thought–Action–Observation, entregando excelente desempenho mesmo sem prompt engineering
- Com contexto de 128K, consegue lidar com múltiplas rodadas de interação
- Sua simplicidade e generalidade oferecem um critério claro para avaliar as capacidades intrínsecas do modelo
- Adota uma metodologia geral escalável de acordo com o princípio “The Bitter Lesson”
-
Heavy Mode
- Executa tarefas complexas de pesquisa em múltiplas etapas com base no paradigma IterResearch
- Em cada rodada, mantém apenas os resultados principais e reconstrói um novo workspace
- Atualiza continuamente um relatório central para manter a qualidade do raciocínio
- Por meio do framework Research–Synthesis, explora em paralelo os resultados de vários agentes de pesquisa antes de integrá-los
- Garante caminhos de exploração mais amplos dentro de um contexto limitado
Pipeline de treinamento end-to-end para agentes
- Foi construído um loop de treinamento totalmente integrado que segue Agentic CPT → SFT → RL
- Na etapa de aprendizado por reforço on-policy (RL), é usado o algoritmo Group Relative Policy Optimization (GRPO)
- A estabilidade é garantida com perda de policy gradient em nível de token, estratégia leave-one-out e filtragem de amostras negativas
- Durante o treinamento, a exploração é mantida com aumento de recompensa e alta entropia da política
- Os dados sintéticos oferecem uma distribuição mais consistente do que dados anotados por humanos, como BrowseComp, melhorando a eficiência do treinamento
-
Infraestrutura
- Ambiente de treinamento sintético: ambiente de simulação construído com um banco offline da Wikipedia e um conjunto personalizado de ferramentas
- Sandbox estável de ferramentas: previne erros em chamadas de ferramentas com cache, retries e APIs de backup
- Curadoria automática de dados: melhora estabilidade e desempenho com síntese e filtragem de dados em tempo real conforme a dinâmica do treinamento
- Framework on-policy assíncrono: implementação de um loop de RL assíncrono em nível de etapa com base em rLLM
- Com isso, foi concluído um loop de treinamento de agentes de IA autoevolutivos, capaz de resolver problemas de forma estável mesmo em ambientes dinâmicos complexos
Casos reais de aplicação
- Gaode Mate (agente de mapas e navegação)
- Em colaboração com a equipe do Amap, foi desenvolvido o copiloto de IA ‘Xiao Gao’
- Com raciocínio em múltiplas etapas, executa planos complexos como itinerários de viagem e rotas com hospedagens pet friendly
- Tongyi FaRui (agente de pesquisa jurídica)
- Realiza pesquisas em múltiplas etapas em nível de advogado, incluindo busca de precedentes, revisão cruzada de normas e integração de análises
- Todas as conclusões se baseiam em materiais judiciais verificáveis e incluem citações precisas
Limitações e próximos desafios
- O limite de contexto de 128K impõe restrições a tarefas extremamente longas
- É necessário validar a escalabilidade para modelos MoE acima da faixa de 30B
- Há planos de pesquisa em rollout parcial e aprendizado off-policy para melhorar a eficiência do aprendizado por reforço
Pesquisas da série
- Foram publicados 11 artigos relacionados, como WebWalker, WebDancer, WebSailor, WebShaper e WebWatcher
- Nos últimos 6 meses, relatórios técnicos foram publicados mensalmente, e desta vez foram divulgados simultaneamente 6 novos relatórios junto com o modelo Tongyi DeepResearch‑30B‑A3B
- O desenvolvimento de modelos agentes de próxima geração continuará
1 comentários
Opiniões no Hacker News
Uma arquitetura em que vários agentes rodam em paralelo, com modelos leves cuidando da busca e extração, e o modelo de 30B responsável por planejamento, roteamento de ferramentas e verificação, parece eficiente
A estrutura especializada do MoE combina bem com IA de agentes distribuídos, mas ainda exige orquestração para novas tentativas, consenso e avaliação de pesquisa web em múltiplas etapas
Se os modelos grandes estiverem ficando grandes demais e chegando ao limite do pré-treinamento, talvez vejamos mais modelos voltados a objetivos específicos
O fato de o GPT‑3.5 ser bom em xadrez e os modelos recentes não serem tanto assim sugere que há trade-offs nos dados de treinamento
Fazer fine-tuning de modelos pequenos para tarefas específicas custa caro, e a evolução dos modelos grandes é tão rápida que eles ficam para trás logo
Mas, se esse ritmo de avanço desacelerar, o treinamento de modelos menores pode voltar a fazer sentido
Faz tempo que penso que seria ótimo ter um modelo de 4B~8B que entendesse muito bem apenas um framework específico, como SvelteKit
Não acho que a qualidade dos modelos grandes seja sempre melhor, e, se um modelo pequeno rodar em uma única GPU, isso parece bem mais prático
No passado sugeri ao meu irmão a ideia de um site para comparar LLMs de xadrez, mas ele ainda não implementou
Quando testei na prática, ele fazia muitas jogadas alucinadas
A vantagem é poder treinar e melhorar separadamente só as partes necessárias
Pela minha experiência, elas não passam do nível de resumo de mecanismo de busca e só geram relatórios sem graça
Não chega ao nível de um advogado, mas ajuda muito em projetos sem orçamento
Parece mais um relatório de consultoria feito para “parecer de qualidade” do que algo útil para quem realmente quer aprender
Ajuda a encontrar exemplos de referência para perguntas como “esse tema já foi pesquisado antes?”
Não substitui totalmente uma pesquisa feita por conta própria, mas ajuda bastante na organização inicial das informações
O Qwen3 4B rodou muito bem até na minha GPU integrada da Intel, o que me impressionou
Um tempo atrás pensei na ideia de um “modelo ultrabarato para detectar conteúdo nocivo”, e um LLM pequeno desses talvez pudesse cumprir esse papel
Também parece que daria para usar no roteamento
Mas a propriedade CSS
word-break: break-word;torna a leitura difícil demaisQueria tentar rodar isso, nem que fosse devagar, com uma 2080Ti e 128GB de VRAM(?)
Acho que as limitações é que tornam a brincadeira divertida
A versão de 32GB pode ser encontrada no AliExpress por 150~250 dólares, e juntando várias dá para montar uma configuração com 128GB de VRAM
Não é tão rápida quanto uma GPU atual, mas é usável o suficiente
Dá para instalar em ollama.com
Mas fiquei curioso sobre essa história de uma 2080Ti com 128GB de VRAM
É lento, mas funciona bem offline e até em cafeteria
Como uso Ollama, preciso esperar até que os modelos mais novos sejam portados
Ryzen 9 9950X, 96GB de RAM, duas RTX 3090, fonte de 1600W
Dá para rodar tranquilamente modelos de 30B quantizados em FP8
Esse modelo é um MoE de 30B, mas tem cerca de 3B de parâmetros ativos, então é parecido com o Qwen3 MoE
Eu rodo modelos quantizados em 4bit com um i5‑6600 de 11 anos e uma Radeon 6600 (8GB), e consigo cerca de 12 tps com contexto de 16k
Também compartilharam um exemplo de script de execução
openrouter.ai/alibaba/tongyi-deepresearch-30b-a3b
Tem a mesma pronúncia de 同意 (“concordar”), mas o significado é diferente
Ver a página oficial do Alibaba Qwen
O resultado muda conforme se usa GPT‑5, GPT‑4o, o3 ou outro modelo
São tarefas de longa duração baseadas em busca, que passam 5~10 minutos reunindo material para gerar um relatório com citações
O modelo Tongyi é especializado justamente nesse tipo de loop de busca e redação de relatório