4 pontos por ragingwind 6 일 전 | Ainda não há comentários. | Compartilhar no WhatsApp

O Google lançou o Gemini Deep Research Agent como API. Deep Research é um recurso em que a IA cria sozinha um plano de busca para a pergunta feita pelo usuário, navega, compara e sintetiza várias páginas da web e gera automaticamente um relatório longo com fontes citadas. Antes, isso só podia ser usado na interface web do Google AI Studio, mas agora, por meio de uma nova interface assíncrona chamada Interactions API, os desenvolvedores podem integrá-lo diretamente aos seus próprios aplicativos. Diferentemente da chamada generate_content tradicional, a tarefa roda em segundo plano ao longo de vários minutos, então a estrutura é enviar a requisição e depois verificar periodicamente se foi concluída (polling) ou receber o andamento por streaming.

Modelos oferecidos

  • deep-research-preview-04-2026 : foco em velocidade e eficiência. Adequado para streaming em tempo real na UI do cliente.
  • deep-research-max-preview-04-2026 : busca a máxima abrangência. Tem como ponto forte a coleta e síntese automatizadas de contexto.

Resumo dos principais recursos

  • Planejamento colaborativo (Collaborative Planning) : em vez de executar a pesquisa imediatamente, o agente primeiro apresenta um plano. Depois que o usuário revisa, ajusta e aprova, a execução completa começa.
  • Geração automática de gráficos e infográficos : ao ativar a opção visualization="auto", o agente cria gráficos e visualizações por conta própria e os retorna como imagens codificadas em base64.
  • Integração com servidor MCP : suporta o Model Context Protocol (padrão aberto para conectar ferramentas externas a LLMs), permitindo anexar ao agente ferramentas de serviços externos, como dados financeiros.
  • Conjunto expandido de ferramentas : pesquisa do Google, leitura de conteúdo de URL e execução de código vêm incluídos por padrão. Busca em arquivos (sobre documentos enviados) e servidor MCP podem ser adicionados opcionalmente.
  • Entrada multimodal : além de texto, também é possível enviar imagens, PDFs e arquivos de áudio como contexto da pesquisa.
  • Streaming em tempo real e resumo do raciocínio : é possível receber em tempo real o progresso da pesquisa por streaming e, ao ativar thinking_summaries="auto", também ver um resumo do processo intermediário de raciocínio do agente.

Principais exemplos de código

Este é o uso mais básico. Inicia um trabalho assíncrono com background=True e faz polling da conclusão em intervalos de 10 segundos.

import time  
from google import genai  
  
client = genai.Client()  
  
interaction = client.interactions.create(  
    input="Research the history of Google TPUs.",  
    agent="deep-research-preview-04-2026",  
    background=True,  
)  
  
while True:  
    interaction = client.interactions.get(interaction.id)  
    if interaction.status == "completed":  
        print(interaction.outputs[-1].text)  
        break  
    elif interaction.status == "failed":  
        print(f"Research failed: {interaction.error}")  
        break  
    time.sleep(10)  

Este é o fluxo de planejamento colaborativo. Primeiro, recebe apenas o plano com collaborative_planning=True, fornece feedback e, no final, é preciso mudar para False para que a pesquisa de fato comece. É importante observar que, se você enviar apenas um texto como "go ahead" sem mudar a flag, o relatório não será gerado.

# Etapa 1: solicitar plano  
plan = client.interactions.create(  
    agent="deep-research-preview-04-2026",  
    input="Research Google TPUs vs competitor hardware.",  
    agent_config={"type": "deep-research", "collaborative_planning": True},  
    background=True,  
)  
while (result := client.interactions.get(id=plan.id)).status != "completed":  
    time.sleep(5)  
print(result.outputs[-1].text)  # exibe o plano  
  
# Etapa 2: ajustar o plano (continuar a conversa com previous_interaction_id)  
refined = client.interactions.create(  
    agent="deep-research-preview-04-2026",  
    input="Add a section comparing power efficiency.",  
    agent_config={"type": "deep-research", "collaborative_planning": True},  
    previous_interaction_id=plan.id,  
    background=True,  
)  
while (result := client.interactions.get(id=refined.id)).status != "completed":  
    time.sleep(5)  
print(result.outputs[-1].text)  # plano ajustado  
  
# Etapa 3: executar após aprovação (é obrigatório mudar para collaborative_planning=False)  
report = client.interactions.create(  
    agent="deep-research-preview-04-2026",  
    input="Plan looks good!",  
    agent_config={"type": "deep-research", "collaborative_planning": False},  
    previous_interaction_id=refined.id,  
    background=True,  
)  
while (result := client.interactions.get(id=report.id)).status != "completed":  
    time.sleep(5)  
print(result.outputs[-1].text)  # relatório final  

Este é um exemplo de geração de gráficos e entrada multimodal. Vale a pena deixar a opção de visualização ativada, mas especificar no prompt que tipo de gráfico você quer tende a produzir resultados melhores.

# Pesquisa com gráficos  
interaction = client.interactions.create(  
    agent="deep-research-preview-04-2026",  
    input="Analyze global semiconductor market trends. Include charts showing market share changes.",  
    agent_config={"type": "deep-research", "visualization": "auto"},  
    background=True,  
)  
  
# Pesquisa multimodal passando um artigo em PDF como contexto  
interaction = client.interactions.create(  
    agent="deep-research-preview-04-2026",  
    input=[  
        {"type": "text", "text": "What has been the impact of this research paper?"},  
        {"type": "document", "uri": "https://arxiv.org/pdf/1706.03762";, "mime_type": "application/pdf"},  
    ],  
    background=True,  
)  

Este é um exemplo de conexão de um servidor MCP para fornecer dados financeiros externos ao agente. Também é possível restringir as ferramentas que o agente pode chamar com allowed_tools.

interaction = client.interactions.create(  
    agent="deep-research-preview-04-2026",  
    input="Research how recent geopolitical events influenced USD interest rates",  
    tools=[  
        {  
            "type": "mcp_server",  
            "name": "Finance Data Provider",  
            "url": "https://finance.example.com/mcp";,  
            "headers": {"Authorization": "Bearer my-token"},  
        }  
    ],  
    background=True,  
)  

Diferenciais

  • O destaque é que não se trata de um RAG simples (geração aumentada por recuperação, técnica que busca documentos externos e os envia ao LLM) nem de uma única rodada de perguntas e respostas, mas de um workflow de pesquisa de longo fôlego — planejamento, busca e síntese — automatizado em uma única API. Em especial, o planejamento colaborativo mostra bem a filosofia de design de “o agente cuida da execução, mas a direção é definida pela pessoa”.
  • Como é possível combinar busca na web pública e busca em documentos privados apenas com a configuração das ferramentas, abre-se a possibilidade de uso também em pesquisas baseadas em materiais internos de empresas.

Implicações

  • Com agentes de pesquisa em IA chegando ao nível de API, agora ficou possível integrar diretamente recursos de “deep research” a aplicações, sem a necessidade de um framework de agentes separado. Ainda assim, a estrutura de API assíncrona baseada em polling exige uma mudança de padrão de projeto para desenvolvedores acostumados a chamadas síncronas de LLM, e a forma de lidar com latências de resposta de vários minutos no UX provavelmente será o principal desafio na adoção prática.

Ainda não há comentários.

Ainda não há comentários.