10 pontos por GN⁺ 2025-11-04 | 1 comentários | Compartilhar no WhatsApp
  • Tongyi DeepResearch é o primeiro agente web totalmente open source a apresentar desempenho equivalente ao OpenAI DeepResearch, registrando resultados de ponta em benchmarks complexos de exploração de informação
    • O Tongyi Lab é uma das divisões de pesquisa e desenvolvimento em IA do Alibaba Group, com foco em modelos de linguagem de grande porte (LLMs), modelos multimodais e tecnologias de agentes, e é o criador dos modelos QWEN
  • Foi construída uma pipeline de treinamento end-to-end que integra Agentic Continual Pre-training (CPT), Supervised Fine-Tuning (SFT) e Reinforcement Learning (RL)
  • A capacidade de raciocínio e planejamento de longo prazo foi reforçada por meio de geração massiva de QA totalmente baseada em dados sintéticos e do paradigma IterResearch
  • Suporta os modos ReAct e Heavy, cobrindo desde raciocínio simples até pesquisa complexa em múltiplas etapas, e garante desempenho estável com aprendizado por reforço baseado no algoritmo GRPO
  • Já foi aplicado na prática em serviços internos e externos ao Alibaba, como Gaode Mate e Tongyi FaRui, comprovando a utilidade e a escalabilidade de agentes de pesquisa em IA open source

De chatbot a agente autônomo

  • Tongyi DeepResearch é o primeiro agente web totalmente open source a atingir desempenho no nível do OpenAI DeepResearch
    • Registrou 32.9 no Humanity’s Last Exam(HLE), 43.4 no BrowseComp, 46.7 no BrowseComp-ZH e 75 no xbench-DeepSearch
    • Supera todos os agentes de Deep Research comerciais e open source existentes até então
  • Além do modelo, também foram divulgadas a metodologia completa de treinamento baseada em síntese de dados
    • Inclui geração automatizada de dados em todo o processo e infraestrutura de aprendizado por reforço, abrangendo Agentic CPT, SFT e RL
  • Com o framework ReAct, demonstra forte capacidade intrínseca mesmo sem prompt engineering
    • No Heavy Mode, demonstra o limite de suas capacidades de planejamento e raciocínio complexos

Pré-treinamento contínuo e pós-treinamento com base em dados sintéticos

  • Foi introduzido o Agentic CPT para construir um modelo-base orientado a agentes
    • Por meio do sistema AgentFounder, foi implementada síntese de dados em larga escala e um flywheel cíclico de dados
  • Na etapa de reconstrução de dados e geração de perguntas, são integrados documentos, dados de crawling, grafos de conhecimento e registros de chamadas de ferramentas
    • Isso é reorganizado em uma memória de conhecimento open-world centrada em entidades, gerando diversos formatos de pares (pergunta, resposta)
  • A síntese de ações (Action Synthesis) gera dados de ação primários e de ordem superior
    • Ao modelar uma estrutura de tomada de decisão em múltiplas etapas, reforça a capacidade de decisão
  • Dados de pós-treinamento (Post-training)

    • Foi construída uma pipeline totalmente automatizada de geração sintética de QA
      • Por meio de uma série de pesquisas como WebWalker, WebSailor e WebShaper, foram produzidos dados de QA baseados em grafos e com controle de dificuldade
    • Uma estrutura de informação realista é obtida com grafos de conhecimento baseados em random walk e fusão com dados tabulares
      • A dificuldade é ajustada de forma sistemática por meio de “operações atômicas”, como fusão de entidades
    • A formalização de problemas baseada em teoria dos conjuntos minimiza a discrepância entre estrutura da informação e estrutura de raciocínio
      • Melhora a eficiência da validação de consistência do QA
    • Um motor automatizado de dados gera perguntas de pesquisa em nível de doutorado
      • Partindo de uma base de conhecimento multidisciplinar, gera QA de alta dificuldade por meio de um loop iterativo de aumento de complexidade
    • Usa os frameworks ReAct e IterResearch para aprender diversos padrões de raciocínio
      • O IterResearch reforça a capacidade de planejamento de longo prazo ao reconstruir o workspace a cada rodada

Modos de rollout

  • O modelo suporta dois modos de execução: ReAct e Heavy
  • Native ReAct Mode

    • Segue a estrutura cíclica Thought–Action–Observation, entregando excelente desempenho mesmo sem prompt engineering
      • Com contexto de 128K, consegue lidar com múltiplas rodadas de interação
    • Sua simplicidade e generalidade oferecem um critério claro para avaliar as capacidades intrínsecas do modelo
    • Adota uma metodologia geral escalável de acordo com o princípio “The Bitter Lesson”
  • Heavy Mode

    • Executa tarefas complexas de pesquisa em múltiplas etapas com base no paradigma IterResearch
      • Em cada rodada, mantém apenas os resultados principais e reconstrói um novo workspace
      • Atualiza continuamente um relatório central para manter a qualidade do raciocínio
    • Por meio do framework Research–Synthesis, explora em paralelo os resultados de vários agentes de pesquisa antes de integrá-los
      • Garante caminhos de exploração mais amplos dentro de um contexto limitado

Pipeline de treinamento end-to-end para agentes

  • Foi construído um loop de treinamento totalmente integrado que segue Agentic CPT → SFT → RL
  • Na etapa de aprendizado por reforço on-policy (RL), é usado o algoritmo Group Relative Policy Optimization (GRPO)
    • A estabilidade é garantida com perda de policy gradient em nível de token, estratégia leave-one-out e filtragem de amostras negativas
    • Durante o treinamento, a exploração é mantida com aumento de recompensa e alta entropia da política
  • Os dados sintéticos oferecem uma distribuição mais consistente do que dados anotados por humanos, como BrowseComp, melhorando a eficiência do treinamento
  • Infraestrutura

    • Ambiente de treinamento sintético: ambiente de simulação construído com um banco offline da Wikipedia e um conjunto personalizado de ferramentas
    • Sandbox estável de ferramentas: previne erros em chamadas de ferramentas com cache, retries e APIs de backup
    • Curadoria automática de dados: melhora estabilidade e desempenho com síntese e filtragem de dados em tempo real conforme a dinâmica do treinamento
    • Framework on-policy assíncrono: implementação de um loop de RL assíncrono em nível de etapa com base em rLLM
    • Com isso, foi concluído um loop de treinamento de agentes de IA autoevolutivos, capaz de resolver problemas de forma estável mesmo em ambientes dinâmicos complexos

Casos reais de aplicação

  • Gaode Mate (agente de mapas e navegação)
    • Em colaboração com a equipe do Amap, foi desenvolvido o copiloto de IA ‘Xiao Gao’
    • Com raciocínio em múltiplas etapas, executa planos complexos como itinerários de viagem e rotas com hospedagens pet friendly
  • Tongyi FaRui (agente de pesquisa jurídica)
    • Realiza pesquisas em múltiplas etapas em nível de advogado, incluindo busca de precedentes, revisão cruzada de normas e integração de análises
    • Todas as conclusões se baseiam em materiais judiciais verificáveis e incluem citações precisas

Limitações e próximos desafios

  • O limite de contexto de 128K impõe restrições a tarefas extremamente longas
  • É necessário validar a escalabilidade para modelos MoE acima da faixa de 30B
  • Há planos de pesquisa em rollout parcial e aprendizado off-policy para melhorar a eficiência do aprendizado por reforço

Pesquisas da série

  • Foram publicados 11 artigos relacionados, como WebWalker, WebDancer, WebSailor, WebShaper e WebWatcher
  • Nos últimos 6 meses, relatórios técnicos foram publicados mensalmente, e desta vez foram divulgados simultaneamente 6 novos relatórios junto com o modelo Tongyi DeepResearch‑30B‑A3B
  • O desenvolvimento de modelos agentes de próxima geração continuará

1 comentários

 
GN⁺ 2025-11-04
Opiniões no Hacker News
  • Fiquei feliz em ver um modelo MoE de 30B lançado para “deep research”
    Uma arquitetura em que vários agentes rodam em paralelo, com modelos leves cuidando da busca e extração, e o modelo de 30B responsável por planejamento, roteamento de ferramentas e verificação, parece eficiente
    A estrutura especializada do MoE combina bem com IA de agentes distribuídos, mas ainda exige orquestração para novas tentativas, consenso e avaliação de pesquisa web em múltiplas etapas
  • Fico me perguntando se vamos ver uma explosão de LLMs especializados
    Se os modelos grandes estiverem ficando grandes demais e chegando ao limite do pré-treinamento, talvez vejamos mais modelos voltados a objetivos específicos
    O fato de o GPT‑3.5 ser bom em xadrez e os modelos recentes não serem tanto assim sugere que há trade-offs nos dados de treinamento
    • Hoje, os grandes modelos de uso geral ainda são melhores em quase tudo
      Fazer fine-tuning de modelos pequenos para tarefas específicas custa caro, e a evolução dos modelos grandes é tão rápida que eles ficam para trás logo
      Mas, se esse ritmo de avanço desacelerar, o treinamento de modelos menores pode voltar a fazer sentido
    • Eu gostaria de ver um benchmark de LLMs bons em xadrez
      Faz tempo que penso que seria ótimo ter um modelo de 4B~8B que entendesse muito bem apenas um framework específico, como SvelteKit
      Não acho que a qualidade dos modelos grandes seja sempre melhor, e, se um modelo pequeno rodar em uma única GPU, isso parece bem mais prático
      No passado sugeri ao meu irmão a ideia de um site para comparar LLMs de xadrez, mas ele ainda não implementou
    • Não concordo com a ideia de que o GPT‑3.5 era bom em xadrez
      Quando testei na prática, ele fazia muitas jogadas alucinadas
    • Compartilharam o link seed‑tars.com/game‑tars
    • Não é exatamente esse o ponto central da arquitetura MoE?
      A vantagem é poder treinar e melhorar separadamente só as partes necessárias
  • Fico curioso se essas ferramentas de deep research são realmente úteis
    Pela minha experiência, elas não passam do nível de resumo de mecanismo de busca e só geram relatórios sem graça
    • No Reino Unido, usei isso enquanto operava um site pequeno para fins de conformidade legal, e, quando você fornece contexto, o resultado fica bem personalizado
      Não chega ao nível de um advogado, mas ajuda muito em projetos sem orçamento
    • Tive uma experiência parecida
      Parece mais um relatório de consultoria feito para “parecer de qualidade” do que algo útil para quem realmente quer aprender
    • O relatório é sem graça, mas é útil para explorar fontes
      Ajuda a encontrar exemplos de referência para perguntas como “esse tema já foi pesquisado antes?”
    • Eu uso muito o ChatGPT, e, quando faço uma pergunta, ele organiza bem as fontes relacionadas
      Não substitui totalmente uma pesquisa feita por conta própria, mas ajuda bastante na organização inicial das informações
    • Mesmo que seja um resumo no nível de mecanismo de busca, ainda serve bem para encontrar novas ideias ou unknown unknowns
  • Já publiquei no Hugging Face um modelo Qwen3 4B distill que fiz antes, junto com um conjunto de dados sintético
    • Seria legal criarem um Hugging Face Space para testar direto no navegador
      O Qwen3 4B rodou muito bem até na minha GPU integrada da Intel, o que me impressionou
      Um tempo atrás pensei na ideia de um “modelo ultrabarato para detectar conteúdo nocivo”, e um LLM pequeno desses talvez pudesse cumprir esse papel
      Também parece que daria para usar no roteamento
    • Testei com meu MCP de busca na web, e foi a primeira vez que vi esse nível de qualidade de deep research em um modelo tão pequeno
  • No geral, é uma série interessante
    Mas a propriedade CSS word-break: break-word; torna a leitura difícil demais
    • Eu também tentei ler, mas dá uma sensação de que as palavras não se conectam
  • Numa manhã de domingo, fiquei pensando em como fazer self-hosting como hobby de engenheiro
    Queria tentar rodar isso, nem que fosse devagar, com uma 2080Ti e 128GB de VRAM(?)
    Acho que as limitações é que tornam a brincadeira divertida
    • Se quiser conseguir VRAM barata, a AMD MI50 é uma boa opção
      A versão de 32GB pode ser encontrada no AliExpress por 150~250 dólares, e juntando várias dá para montar uma configuração com 128GB de VRAM
      Não é tão rápida quanto uma GPU atual, mas é usável o suficiente
    • Se quiser testar localmente de forma rápida, o app Ollama é o caminho mais simples
      Dá para instalar em ollama.com
      Mas fiquei curioso sobre essa história de uma 2080Ti com 128GB de VRAM
    • Eu rodo modelos em um MacBook Pro com 128GB de memória unificada
      É lento, mas funciona bem offline e até em cafeteria
      Como uso Ollama, preciso esperar até que os modelos mais novos sejam portados
    • Meu setup montado com orçamento limitado é este
      Ryzen 9 9950X, 96GB de RAM, duas RTX 3090, fonte de 1600W
      Dá para rodar tranquilamente modelos de 30B quantizados em FP8
    • Provavelmente ele quis dizer RAM, não VRAM
      Esse modelo é um MoE de 30B, mas tem cerca de 3B de parâmetros ativos, então é parecido com o Qwen3 MoE
      Eu rodo modelos quantizados em 4bit com um i5‑6600 de 11 anos e uma Radeon 6600 (8GB), e consigo cerca de 12 tps com contexto de 16k
      Também compartilharam um exemplo de script de execução
  • Os modelos Tongyi também estão disponíveis no OpenRouter, inclusive com uma versão gratuita
    openrouter.ai/alibaba/tongyi-deepresearch-30b-a3b
  • Fizeram uma piada perguntando se “Deep research” não teria sido traduzido como “concordo”
    • Na verdade, o nome em chinês é 通义千问 (Tongyi Qianwen), que significa algo como “conhecer todas as perguntas”
      Tem a mesma pronúncia de 同意 (“concordar”), mas o significado é diferente
      Ver a página oficial do Alibaba Qwen
  • Esse modelo já teve os pesos publicados há um mês
    • Ainda assim, nem todo mundo acompanha tudo em tempo real, então mesmo um modelo de um mês atrás continua útil
    • Nesse caso, fiquei curioso sobre a comparação de desempenho com outros modelos
  • O “Deep research” da OpenAI não é um modelo específico, mas algo mais próximo de um padrão funcional
    O resultado muda conforme se usa GPT‑5, GPT‑4o, o3 ou outro modelo
    • Hoje, OpenAI, Perplexity, Google Gemini, Anthropic, Grok e quase todos os outros oferecem padrões de pesquisa parecidos
      São tarefas de longa duração baseadas em busca, que passam 5~10 minutos reunindo material para gerar um relatório com citações
      O modelo Tongyi é especializado justamente nesse tipo de loop de busca e redação de relatório