- A Ollama disponibilizou como API um recurso de busca de informações atualizadas na web, oferecendo uma função que ajuda a reduzir alucinações dos modelos e a melhorar a precisão
- Mesmo as contas gratuitas incluem uma cota gratuita de buscas bastante generosa, e usuários com uso intenso podem contar com limites mais altos via Ollama Cloud
- Com base em REST API, integra-se a bibliotecas Python e JavaScript, permitindo que modelos como o
gpt-oss realizem tarefas de pesquisa de longa duração
- Com os recursos
web_search e web_fetch, retorna resultados na escala de milhares de tokens e oferece suporte de integração com várias ferramentas como Cline, Codex e Goose por meio de servidor MCP
- Isso permite construir diretamente agentes de busca, ampliando bastante a versatilidade com que modelos de IA interagem com dados atualizados
Introdução ao recurso de busca na web da Ollama
- A Ollama lançou uma API de busca na web, criando um ambiente em que modelos de IA podem receber imediatamente informações atualizadas da web
- Com isso, é possível esperar tanto redução de alucinações (hallucination) quanto melhoria de precisão
- Para usuários individuais, há uma cota gratuita de buscas bastante generosa, e, caso seja necessário um volume maior de uso, a cota pode ser expandida por meio de uma assinatura do Ollama Cloud
- É oferecida como REST API e permite integração avançada de ferramentas por meio de bibliotecas em Python e JavaScript
- Graças a essa estrutura, diversos modelos como o gpt-oss podem executar tarefas de pesquisa e busca de longo prazo
Exemplo de como usar a API
- Com a chave de API emitida na conta Ollama, é possível fazer chamadas via
cURL, ollama.web_search() em Python e client.webSearch() em JavaScript
- Os resultados são retornados em uma estrutura JSON que inclui título, URL e resumo do conteúdo
- Com a API
web_fetch, também é possível obter o conteúdo de páginas por URL, incluindo texto principal e lista de links
Implementação de um agente de busca baseado em pesquisa na web
- A API da Ollama pode ser combinada com modelos como Qwen3 e gpt-oss para desenvolver agentes de busca multiturno automatizados
- No código de exemplo, o modelo Qwen3:4B é usado para automatizar o processo busca → raciocínio → resumo dos resultados
- Com base nos resultados da busca, passa por um processo de "Thinking" e utiliza repetidamente os resultados das chamadas das ferramentas de busca/fetch para executar cenários complexos de pesquisa ou exploração
- As novas atualizações do mecanismo da Ollama incluem gerenciamento de memória preciso, otimização para GPU/múltiplas GPUs, melhorias de desempenho e suporte completo a modelos de visão (multimodais)
Modelos recomendados e orientações de desempenho
- Recomenda-se o uso de modelos em nuvem com forte capacidade de uso de ferramentas, como
qwen3:480b-cloud, gpt-oss:120b-cloud e deepseek-v3.1-cloud
- Como as ferramentas de busca e fetch podem retornar dados com milhares de tokens, recomenda-se aumentar o comprimento de contexto do modelo para cerca de 32000 tokens
Recurso de fetch de páginas web individuais
- Além da busca na web, também são oferecidas APIs e funções para fazer fetch diretamente do texto e da estrutura de links de páginas web individuais especificadas
- Em Python, JavaScript ou cURL, basta passar a url como argumento para extrair
title, content, links relacionados e mais
- Exemplos de código mais detalhados podem ser consultados no repositório oficial no GitHub
Integração com ferramentas e agentes
web_search e web_fetch retornam dados com milhares de tokens, e recomenda-se aumentar o contexto do modelo para 32K ou mais
- Com suporte a servidor MCP, é possível integrar diretamente com ambientes de desenvolvimento de IA como Cline, Codex e Goose
- Códigos de exemplo em Python e JavaScript são fornecidos no repositório oficial no GitHub
Primeiros passos
- A busca na web é oferecida por padrão com uma conta gratuita da Ollama, e volumes maiores de uso podem ser acessados por meio de assinatura paga
- Basta criar uma conta no site da Ollama, emitir uma chave de API e começar a usar o serviço imediatamente
3 comentários
Acho que a versão gratuita do ollama não deve ficar em um nível utilizável para uso real..
Nem na página de preços há explicação sobre a cota, então fica difícil avaliar se vale a pena.
Comentários no Hacker News