Tongyi DeepResearch – modelo MoE open source de 30B à altura do OpenAI DeepResearch

(tongyi-agent.github.io)

10 pontos por GN⁺ 2025-11-04 | 1 comentários | Compartilhar no WhatsApp

Tongyi DeepResearch é o primeiro agente web totalmente open source a apresentar desempenho equivalente ao OpenAI DeepResearch, registrando resultados de ponta em benchmarks complexos de exploração de informação
- O Tongyi Lab é uma das divisões de pesquisa e desenvolvimento em IA do Alibaba Group, com foco em modelos de linguagem de grande porte (LLMs), modelos multimodais e tecnologias de agentes, e é o criador dos modelos QWEN
Foi construída uma pipeline de treinamento end-to-end que integra Agentic Continual Pre-training (CPT), Supervised Fine-Tuning (SFT) e Reinforcement Learning (RL)
A capacidade de raciocínio e planejamento de longo prazo foi reforçada por meio de geração massiva de QA totalmente baseada em dados sintéticos e do paradigma IterResearch
Suporta os modos ReAct e Heavy, cobrindo desde raciocínio simples até pesquisa complexa em múltiplas etapas, e garante desempenho estável com aprendizado por reforço baseado no algoritmo GRPO
Já foi aplicado na prática em serviços internos e externos ao Alibaba, como Gaode Mate e Tongyi FaRui, comprovando a utilidade e a escalabilidade de agentes de pesquisa em IA open source

De chatbot a agente autônomo

Tongyi DeepResearch é o primeiro agente web totalmente open source a atingir desempenho no nível do OpenAI DeepResearch
- Registrou 32.9 no Humanity’s Last Exam(HLE), 43.4 no BrowseComp, 46.7 no BrowseComp-ZH e 75 no xbench-DeepSearch
- Supera todos os agentes de Deep Research comerciais e open source existentes até então
Além do modelo, também foram divulgadas a metodologia completa de treinamento baseada em síntese de dados
- Inclui geração automatizada de dados em todo o processo e infraestrutura de aprendizado por reforço, abrangendo Agentic CPT, SFT e RL
Com o framework ReAct, demonstra forte capacidade intrínseca mesmo sem prompt engineering
- No Heavy Mode, demonstra o limite de suas capacidades de planejamento e raciocínio complexos

Pré-treinamento contínuo e pós-treinamento com base em dados sintéticos

Foi introduzido o Agentic CPT para construir um modelo-base orientado a agentes
- Por meio do sistema AgentFounder, foi implementada síntese de dados em larga escala e um flywheel cíclico de dados
Na etapa de reconstrução de dados e geração de perguntas, são integrados documentos, dados de crawling, grafos de conhecimento e registros de chamadas de ferramentas
- Isso é reorganizado em uma memória de conhecimento open-world centrada em entidades, gerando diversos formatos de pares (pergunta, resposta)
A síntese de ações (Action Synthesis) gera dados de ação primários e de ordem superior
- Ao modelar uma estrutura de tomada de decisão em múltiplas etapas, reforça a capacidade de decisão
Dados de pós-treinamento (Post-training)
- Foi construída uma pipeline totalmente automatizada de geração sintética de QA
  - Por meio de uma série de pesquisas como WebWalker, WebSailor e WebShaper, foram produzidos dados de QA baseados em grafos e com controle de dificuldade
- Uma estrutura de informação realista é obtida com grafos de conhecimento baseados em random walk e fusão com dados tabulares
  - A dificuldade é ajustada de forma sistemática por meio de “operações atômicas”, como fusão de entidades
- A formalização de problemas baseada em teoria dos conjuntos minimiza a discrepância entre estrutura da informação e estrutura de raciocínio
  - Melhora a eficiência da validação de consistência do QA
- Um motor automatizado de dados gera perguntas de pesquisa em nível de doutorado
  - Partindo de uma base de conhecimento multidisciplinar, gera QA de alta dificuldade por meio de um loop iterativo de aumento de complexidade
- Usa os frameworks ReAct e IterResearch para aprender diversos padrões de raciocínio
  - O IterResearch reforça a capacidade de planejamento de longo prazo ao reconstruir o workspace a cada rodada

Modos de rollout

O modelo suporta dois modos de execução: ReAct e Heavy
Native ReAct Mode
- Segue a estrutura cíclica Thought–Action–Observation, entregando excelente desempenho mesmo sem prompt engineering
  - Com contexto de 128K, consegue lidar com múltiplas rodadas de interação
- Sua simplicidade e generalidade oferecem um critério claro para avaliar as capacidades intrínsecas do modelo
- Adota uma metodologia geral escalável de acordo com o princípio “The Bitter Lesson”
Heavy Mode
- Executa tarefas complexas de pesquisa em múltiplas etapas com base no paradigma IterResearch
  - Em cada rodada, mantém apenas os resultados principais e reconstrói um novo workspace
  - Atualiza continuamente um relatório central para manter a qualidade do raciocínio
- Por meio do framework Research–Synthesis, explora em paralelo os resultados de vários agentes de pesquisa antes de integrá-los
  - Garante caminhos de exploração mais amplos dentro de um contexto limitado

Pipeline de treinamento end-to-end para agentes

Foi construído um loop de treinamento totalmente integrado que segue Agentic CPT → SFT → RL
Na etapa de aprendizado por reforço on-policy (RL), é usado o algoritmo Group Relative Policy Optimization (GRPO)
- A estabilidade é garantida com perda de policy gradient em nível de token, estratégia leave-one-out e filtragem de amostras negativas
- Durante o treinamento, a exploração é mantida com aumento de recompensa e alta entropia da política
Os dados sintéticos oferecem uma distribuição mais consistente do que dados anotados por humanos, como BrowseComp, melhorando a eficiência do treinamento
Infraestrutura
- Ambiente de treinamento sintético: ambiente de simulação construído com um banco offline da Wikipedia e um conjunto personalizado de ferramentas
- Sandbox estável de ferramentas: previne erros em chamadas de ferramentas com cache, retries e APIs de backup
- Curadoria automática de dados: melhora estabilidade e desempenho com síntese e filtragem de dados em tempo real conforme a dinâmica do treinamento
- Framework on-policy assíncrono: implementação de um loop de RL assíncrono em nível de etapa com base em rLLM
- Com isso, foi concluído um loop de treinamento de agentes de IA autoevolutivos, capaz de resolver problemas de forma estável mesmo em ambientes dinâmicos complexos

Casos reais de aplicação

Gaode Mate (agente de mapas e navegação)
- Em colaboração com a equipe do Amap, foi desenvolvido o copiloto de IA ‘Xiao Gao’
- Com raciocínio em múltiplas etapas, executa planos complexos como itinerários de viagem e rotas com hospedagens pet friendly
Tongyi FaRui (agente de pesquisa jurídica)
- Realiza pesquisas em múltiplas etapas em nível de advogado, incluindo busca de precedentes, revisão cruzada de normas e integração de análises
- Todas as conclusões se baseiam em materiais judiciais verificáveis e incluem citações precisas

Limitações e próximos desafios

O limite de contexto de 128K impõe restrições a tarefas extremamente longas
É necessário validar a escalabilidade para modelos MoE acima da faixa de 30B
Há planos de pesquisa em rollout parcial e aprendizado off-policy para melhorar a eficiência do aprendizado por reforço

Pesquisas da série

Foram publicados 11 artigos relacionados, como WebWalker, WebDancer, WebSailor, WebShaper e WebWatcher
Nos últimos 6 meses, relatórios técnicos foram publicados mensalmente, e desta vez foram divulgados simultaneamente 6 novos relatórios junto com o modelo Tongyi DeepResearch‑30B‑A3B
O desenvolvimento de modelos agentes de próxima geração continuará

1 comentários

GN⁺ 2025-11-04

Opiniões no Hacker News

Fiquei feliz em ver um modelo MoE de 30B lançado para “deep research”
Uma arquitetura em que vários agentes rodam em paralelo, com modelos leves cuidando da busca e extração, e o modelo de 30B responsável por planejamento, roteamento de ferramentas e verificação, parece eficiente
A estrutura especializada do MoE combina bem com IA de agentes distribuídos, mas ainda exige orquestração para novas tentativas, consenso e avaliação de pesquisa web em múltiplas etapas
Fico me perguntando se vamos ver uma explosão de LLMs especializados
Se os modelos grandes estiverem ficando grandes demais e chegando ao limite do pré-treinamento, talvez vejamos mais modelos voltados a objetivos específicos
O fato de o GPT‑3.5 ser bom em xadrez e os modelos recentes não serem tanto assim sugere que há trade-offs nos dados de treinamento
- Hoje, os grandes modelos de uso geral ainda são melhores em quase tudo
  Fazer fine-tuning de modelos pequenos para tarefas específicas custa caro, e a evolução dos modelos grandes é tão rápida que eles ficam para trás logo
  Mas, se esse ritmo de avanço desacelerar, o treinamento de modelos menores pode voltar a fazer sentido
- Eu gostaria de ver um benchmark de LLMs bons em xadrez
  Faz tempo que penso que seria ótimo ter um modelo de 4B~8B que entendesse muito bem apenas um framework específico, como SvelteKit
  Não acho que a qualidade dos modelos grandes seja sempre melhor, e, se um modelo pequeno rodar em uma única GPU, isso parece bem mais prático
  No passado sugeri ao meu irmão a ideia de um site para comparar LLMs de xadrez, mas ele ainda não implementou
- Não concordo com a ideia de que o GPT‑3.5 era bom em xadrez
  Quando testei na prática, ele fazia muitas jogadas alucinadas
- Compartilharam o link seed‑tars.com/game‑tars
- Não é exatamente esse o ponto central da arquitetura MoE?
  A vantagem é poder treinar e melhorar separadamente só as partes necessárias
Fico curioso se essas ferramentas de deep research são realmente úteis
Pela minha experiência, elas não passam do nível de resumo de mecanismo de busca e só geram relatórios sem graça
- No Reino Unido, usei isso enquanto operava um site pequeno para fins de conformidade legal, e, quando você fornece contexto, o resultado fica bem personalizado
  Não chega ao nível de um advogado, mas ajuda muito em projetos sem orçamento
- Tive uma experiência parecida
  Parece mais um relatório de consultoria feito para “parecer de qualidade” do que algo útil para quem realmente quer aprender
- O relatório é sem graça, mas é útil para explorar fontes
  Ajuda a encontrar exemplos de referência para perguntas como “esse tema já foi pesquisado antes?”
- Eu uso muito o ChatGPT, e, quando faço uma pergunta, ele organiza bem as fontes relacionadas
  Não substitui totalmente uma pesquisa feita por conta própria, mas ajuda bastante na organização inicial das informações
- Mesmo que seja um resumo no nível de mecanismo de busca, ainda serve bem para encontrar novas ideias ou unknown unknowns
Já publiquei no Hugging Face um modelo Qwen3 4B distill que fiz antes, junto com um conjunto de dados sintético
- Seria legal criarem um Hugging Face Space para testar direto no navegador
  O Qwen3 4B rodou muito bem até na minha GPU integrada da Intel, o que me impressionou
  Um tempo atrás pensei na ideia de um “modelo ultrabarato para detectar conteúdo nocivo”, e um LLM pequeno desses talvez pudesse cumprir esse papel
  Também parece que daria para usar no roteamento
- Testei com meu MCP de busca na web, e foi a primeira vez que vi esse nível de qualidade de deep research em um modelo tão pequeno
No geral, é uma série interessante
Mas a propriedade CSS word-break: break-word; torna a leitura difícil demais
- Eu também tentei ler, mas dá uma sensação de que as palavras não se conectam
Numa manhã de domingo, fiquei pensando em como fazer self-hosting como hobby de engenheiro
Queria tentar rodar isso, nem que fosse devagar, com uma 2080Ti e 128GB de VRAM(?)
Acho que as limitações é que tornam a brincadeira divertida
- Se quiser conseguir VRAM barata, a AMD MI50 é uma boa opção
  A versão de 32GB pode ser encontrada no AliExpress por 150~250 dólares, e juntando várias dá para montar uma configuração com 128GB de VRAM
  Não é tão rápida quanto uma GPU atual, mas é usável o suficiente
- Se quiser testar localmente de forma rápida, o app Ollama é o caminho mais simples
  Dá para instalar em ollama.com
  Mas fiquei curioso sobre essa história de uma 2080Ti com 128GB de VRAM
- Eu rodo modelos em um MacBook Pro com 128GB de memória unificada
  É lento, mas funciona bem offline e até em cafeteria
  Como uso Ollama, preciso esperar até que os modelos mais novos sejam portados
- Meu setup montado com orçamento limitado é este
  Ryzen 9 9950X, 96GB de RAM, duas RTX 3090, fonte de 1600W
  Dá para rodar tranquilamente modelos de 30B quantizados em FP8
- Provavelmente ele quis dizer RAM, não VRAM
  Esse modelo é um MoE de 30B, mas tem cerca de 3B de parâmetros ativos, então é parecido com o Qwen3 MoE
  Eu rodo modelos quantizados em 4bit com um i5‑6600 de 11 anos e uma Radeon 6600 (8GB), e consigo cerca de 12 tps com contexto de 16k
  Também compartilharam um exemplo de script de execução
Os modelos Tongyi também estão disponíveis no OpenRouter, inclusive com uma versão gratuita
openrouter.ai/alibaba/tongyi-deepresearch-30b-a3b
Fizeram uma piada perguntando se “Deep research” não teria sido traduzido como “concordo”
- Na verdade, o nome em chinês é 通义千问 (Tongyi Qianwen), que significa algo como “conhecer todas as perguntas”
  Tem a mesma pronúncia de 同意 (“concordar”), mas o significado é diferente
  Ver a página oficial do Alibaba Qwen
Esse modelo já teve os pesos publicados há um mês
- Ainda assim, nem todo mundo acompanha tudo em tempo real, então mesmo um modelo de um mês atrás continua útil
- Nesse caso, fiquei curioso sobre a comparação de desempenho com outros modelos
O “Deep research” da OpenAI não é um modelo específico, mas algo mais próximo de um padrão funcional
O resultado muda conforme se usa GPT‑5, GPT‑4o, o3 ou outro modelo
- Hoje, OpenAI, Perplexity, Google Gemini, Anthropic, Grok e quase todos os outros oferecem padrões de pesquisa parecidos
  São tarefas de longa duração baseadas em busca, que passam 5~10 minutos reunindo material para gerar um relatório com citações
  O modelo Tongyi é especializado justamente nesse tipo de loop de busca e redação de relatório

Tongyi DeepResearch – modelo MoE open source de 30B à altura do OpenAI DeepResearch

De chatbot a agente autônomo

Pré-treinamento contínuo e pós-treinamento com base em dados sintéticos

Dados de pós-treinamento (Post-training)

Modos de rollout

Native ReAct Mode

Heavy Mode

Pipeline de treinamento end-to-end para agentes

Infraestrutura

Casos reais de aplicação

Limitações e próximos desafios

Pesquisas da série

Leituras relacionadas

1 comentários

Opiniões no Hacker News