Ollama lança API de busca na web

(ollama.com)

13 pontos por GN⁺ 2025-09-29 | 3 comentários | Compartilhar no WhatsApp

A Ollama disponibilizou como API um recurso de busca de informações atualizadas na web, oferecendo uma função que ajuda a reduzir alucinações dos modelos e a melhorar a precisão
Mesmo as contas gratuitas incluem uma cota gratuita de buscas bastante generosa, e usuários com uso intenso podem contar com limites mais altos via Ollama Cloud
Com base em REST API, integra-se a bibliotecas Python e JavaScript, permitindo que modelos como o gpt-oss realizem tarefas de pesquisa de longa duração
Com os recursos web_search e web_fetch, retorna resultados na escala de milhares de tokens e oferece suporte de integração com várias ferramentas como Cline, Codex e Goose por meio de servidor MCP
Isso permite construir diretamente agentes de busca, ampliando bastante a versatilidade com que modelos de IA interagem com dados atualizados

Introdução ao recurso de busca na web da Ollama

A Ollama lançou uma API de busca na web, criando um ambiente em que modelos de IA podem receber imediatamente informações atualizadas da web
Com isso, é possível esperar tanto redução de alucinações (hallucination) quanto melhoria de precisão
Para usuários individuais, há uma cota gratuita de buscas bastante generosa, e, caso seja necessário um volume maior de uso, a cota pode ser expandida por meio de uma assinatura do Ollama Cloud
É oferecida como REST API e permite integração avançada de ferramentas por meio de bibliotecas em Python e JavaScript
Graças a essa estrutura, diversos modelos como o gpt-oss podem executar tarefas de pesquisa e busca de longo prazo

Exemplo de como usar a API

Com a chave de API emitida na conta Ollama, é possível fazer chamadas via cURL, ollama.web_search() em Python e client.webSearch() em JavaScript
Os resultados são retornados em uma estrutura JSON que inclui título, URL e resumo do conteúdo
Com a API web_fetch, também é possível obter o conteúdo de páginas por URL, incluindo texto principal e lista de links

Implementação de um agente de busca baseado em pesquisa na web

A API da Ollama pode ser combinada com modelos como Qwen3 e gpt-oss para desenvolver agentes de busca multiturno automatizados
No código de exemplo, o modelo Qwen3:4B é usado para automatizar o processo busca → raciocínio → resumo dos resultados
Com base nos resultados da busca, passa por um processo de "Thinking" e utiliza repetidamente os resultados das chamadas das ferramentas de busca/fetch para executar cenários complexos de pesquisa ou exploração
As novas atualizações do mecanismo da Ollama incluem gerenciamento de memória preciso, otimização para GPU/múltiplas GPUs, melhorias de desempenho e suporte completo a modelos de visão (multimodais)

Modelos recomendados e orientações de desempenho

Recomenda-se o uso de modelos em nuvem com forte capacidade de uso de ferramentas, como qwen3:480b-cloud, gpt-oss:120b-cloud e deepseek-v3.1-cloud
Como as ferramentas de busca e fetch podem retornar dados com milhares de tokens, recomenda-se aumentar o comprimento de contexto do modelo para cerca de 32000 tokens

Recurso de fetch de páginas web individuais

Além da busca na web, também são oferecidas APIs e funções para fazer fetch diretamente do texto e da estrutura de links de páginas web individuais especificadas
Em Python, JavaScript ou cURL, basta passar a url como argumento para extrair title, content, links relacionados e mais
Exemplos de código mais detalhados podem ser consultados no repositório oficial no GitHub

Integração com ferramentas e agentes

web_search e web_fetch retornam dados com milhares de tokens, e recomenda-se aumentar o contexto do modelo para 32K ou mais
Com suporte a servidor MCP, é possível integrar diretamente com ambientes de desenvolvimento de IA como Cline, Codex e Goose
Códigos de exemplo em Python e JavaScript são fornecidos no repositório oficial no GitHub

Primeiros passos

A busca na web é oferecida por padrão com uma conta gratuita da Ollama, e volumes maiores de uso podem ser acessados por meio de assinatura paga
Basta criar uma conta no site da Ollama, emitir uma chave de API e começar a usar o serviço imediatamente

3 comentários

shakespeares 2025-10-06

Acho que a versão gratuita do ollama não deve ficar em um nível utilizável para uso real..

slowandsnow 2025-09-30

Nem na página de preços há explicação sobre a cota, então fica difícil avaliar se vale a pena.

GN⁺ 2025-09-29

Comentários no Hacker News

Fiquei curioso para saber qual mecanismo de busca eles usam internamente; até perguntei no Twitter https://twitter.com/simonw/status/1971210260015919488. A parte especialmente importante é a licença dos resultados de busca. Se podem ser armazenados ou redistribuídos, porque as regras variam conforme o provedor
- Trabalhamos com provedores de busca e garantimos um ambiente sem qualquer política de retenção de dados. Os resultados de busca pertencem ao usuário e podem ser usados livremente. Ainda assim, as leis locais devem ser respeitadas
- Se disserem que é para treinamento de modelos de IA, dá para usar como quiser
- Se os resultados de busca forem apenas uma lista de links, fico em dúvida se sequer existe direito autoral sobre isso
- É estranho lançar esse recurso sem nem uma política de privacidade. Fico imaginando se isso não vai ser usado como caso de colaboração com algum parceiro de VC que investiu recentemente, ou como história de cliente. Aposto na Exa; o YC apoiou no começo e eles levantaram US$ 85M na Series B. O Bing provavelmente é caro demais para operar livremente sem parceria com a Microsoft. Espero que a Ollama atualize em breve o aviso de privacidade. Como a sede fica na Califórnia, está sujeita à CCPA; mesmo sem receita, já se enquadra se lidar com dados de 50 mil residentes da Califórnia https://oag.ca.gov/privacy/ccpa. Se o provedor de backend sem retenção de dados acabar sendo a Alibaba, fico curioso para ver a reação
Eu me perguntava se a Ollama era uma empresa; nem sabia que tinha recebido investimento. Achava que era um utilitário open source. Fico curioso sobre como pretendem monetizar os usuários daqui para frente, e não estou muito otimista
- Quase não existem mais projetos lançados como totalmente open source hoje em dia; a maioria segue um modelo de doações ou recebe apoio empresarial. Em IA isso parece ainda mais raro
- A Ollama está sendo tocada por ex-funcionários da Docker, no estilo Docker
- Lançaram uma plataforma de hospedagem há pouco tempo
- Antes de ver sua resposta, eu achei que esse post fosse sobre a OpenAI
Eu queria mais detalhes sobre como a Ollama implementou isso. Eu a via como uma ferramenta open source e independente de plataforma, mas ultimamente sinto que o clima já não é esse, então estou em dúvida
- Também pensei em colocar na Ollama um recurso para buscar resultados e conteúdo de sites usando navegador headless e coisas do tipo, mas fiquei preocupado com a qualidade dos resultados e com bloqueio de IP (porque pode parecer crawler). Achei que adotar uma API hospedada seria um caminho mais rápido para entregar resultados, mas sigo explorando opções locais. Idealmente, seria ótimo se o usuário pudesse usar esse tipo de busca de forma totalmente local, se quisesse
- A GUI não é open source. Se você quer um app fácil de usar, talvez seja melhor ir de LMStudio (já que pelo menos não finge ser OSS), e o ramalama também é parecido com o ollama no sentido de containerizar LLMs. Ou então dá para voltar ao “básico”, como llama.cpp ou vllm
- A sensação é que a forma como a Ollama opera está piorando cada vez mais; perdi a confiança e removi de todos os meus sistemas
Parece que a Ollama está indo cada vez mais para um caminho não local, e também sinto que o desempenho fica atrás do vLLM. Quero montar um ambiente em que usuários possam escolher entre vários LLMs, rodando algo como open-webui via API compatível com OpenAI, e estou curioso sobre alternativas ao Ollama que aproveitem bem várias RTX 3090 (de 1 a 5 placas)
- Já ouvi falar de Llamaswap e vllm
Eu não sabia que a Ollama tinha um serviço de nuvem próprio. A proposta original dela não era modelos locais? Fico me perguntando por que eu pagaria US$ 20 por mês para usar isso com modelos menores e piores. Não seria melhor usar empresas de IA como OpenAI ou Mistral? Não vejo por que eu precisaria sequer criar uma conta para usar modelos no meu computador
- Boa pergunta. Entre os modelos suportados, muitos são grandes demais para rodar no dispositivo. Isso ainda está no começo, e graças aos relacionamentos que temos com provedores de modelos, a Ollama também consegue oferecer modelos modernos baseados em nuvem. A Ollama trabalha junto com desenvolvedores e busca resolver as necessidades deles https://ollama.com/cloud
- O motivo para criar uma conta é usar os modelos hospedados deles ou usar modelos localmente via API da Ollama. Hoje estou pagando US$ 100 no Claude e US$ 200 no GPT-5, então US$ 20 é realmente barato pelo acesso a modelos como: Qwen3 235b, Deepseek 3.1 671b, Llama 3.1 405b, GPT OSS 120b. Eles definitivamente não são modelos “pequenos ou de baixo desempenho”. Outro ponto muito legal é conectar o Codex à API da Ollama e permitir uso de ferramentas com vários modelos
- Vejo isso como parte de uma transição contínua para recursos monetizáveis. Construíram confiança e fortaleceram a marca com open source e trabalho gratuito, e agora estão mudando para monetização
- Também há modelos que não dá para rodar localmente (gpt-oss-120b, deepseek, qwen3-coder 480b etc.). É uma forma de monetizar o sucesso da Ollama
- Até muitos modelos “locais” têm downloads enormes e ficam lentos em hardware comum. A vantagem é poder avaliá-los primeiro de forma barata na nuvem e depois decidir se vale baixar e rodar localmente. O importante é o princípio de realmente “poder” executar algo localmente. Não gosto de ficar dependente de tecnologia que alguém pode retirar ou bloquear com facilidade
Mudando um pouco de assunto: estou pensando em montar um “mini Google” em casa para uso pessoal. Tenho a sensação de que, na prática, a maior parte do que preciso pesquisar pode ser resolvida dentro de umas 1.000 páginas ou sites. Rastrear a web inteira seria exagero para mim. O desenho geral seria algo como: crawler (scraper leve), indexador (conversão de texto e índice invertido), armazenamento (HTML e texto comprimidos), camada de busca (pontuação com TF-IDF ou embeddings), atualizações periódicas e uma web UI simples para navegação. Queria saber se alguém já usou algum projeto assim ou tentou algo parecido
- Já dei uma olhada nos dumps do Common Crawl, e 99,99% da web era propaganda, pornografia, spam, blogs sem sentido e coisas realmente inúteis. Talvez tenha algum valor histórico, cultural ou literário, mas para o meu objetivo não serve para quase nada. Isso me deu confiança de que, se eu indexar seletivamente apenas as “páginas realmente importantes”, até um laptop meu já daria conta. Só a Wikipédia já fica em torno de 20 GB (comprimida), então, se eu separar apenas os temas que realmente me interessam, deve ficar em menos de 200 MB
- O YaCy (https://yacy.net) já faz quase tudo isso. Só que, se você rastrear demais, a Cloudflare pode bloquear seu IP rapidamente
- Também gosto muito de https://marginalia-search.com
- O Drew DeVault tentou fazer algo parecido no passado com o nome SearchHut, mas abandonou. Acabou desistindo ao tentar entender a extensão RUM do Postgres link para thread no HN mencionando SearchHut
- Não é exatamente a mesma coisa, mas eu também uso o Google CSE por domínio para limitar os resultados só a sites relacionados aos tópicos que me interessam. Chamo direto por atalho no Alfred, e assim pesquisar nas minhas áreas de interesse fica bem confortável https://blog.gingerbeardman.com/2021/04/20/interest-specific-search-engines/
Seria bom ter dicas sobre busca local/enterprise. Uso a Ollama localmente e também indexo meus próprios documentos. Em vez de embeddings ou fine-tuning, quero saber como integrar a Ollama a um sistema tradicional de busca full-text
- Recomendo o solr. É uma busca full-text muito boa e ainda tem integração com mcp, então dá para usar com facilidade https://github.com/mjochum64/mcp-solr-search. Com um pouco mais de trabalho, dá para vetorizar documentos e somar busca semântica por knn. Como dá para usar busca semântica e textual ao mesmo tempo, a qualidade fica boa. Também talvez dê para integrar chromadb com solr e combinar os resultados, embora, em escala maior, eu fique em dúvida se o chromadb não seria mais eficiente
- O docling também pode ser uma boa alternativa, e mecanismos de busca full-text já consolidados, como o Typesense, também valem consideração
Há muito tempo eu já uso busca em LLM conectando o pacote Python do DuckDuckGo. Mas os resultados do Google eram melhores, então mudei para o Google mexendo em alguma coisa no console de desenvolvedor (não lembro exatamente o quê). O lado do DDG é não oficial, e a API oficial do Google tem limite de consultas (então não serve tão bem para pesquisa profunda). Em geral, se eu coloco alguns resultados de busca no GPT junto com a minha pergunta, quase sempre saem respostas boas. Claro que dá para usar essa mesma estrutura com a Ollama, mas minha GPU não é grande coisa, então contextos longos ficam lentos
- Fico curioso sobre como fazer isso funcionar de forma útil sem uma API de scraping, porque as APIs oficiais são limitadas demais
Fico confuso com o que significa “conta Ollama”; no começo eu entendi que a proposta da Ollama era self-host de modelos
- É preciso criar conta para recursos adicionais ou para modelos em nuvem hospedados pela Ollama. No geral isso é realmente opcional, e também é possível criar modelos totalmente locais e compartilhá-los no ollama.com
Também acabei de conectar busca na web e estou testando vários fornecedores para montar ferramentas. openAI, xAI e gemini ficam bloqueados em sites de concorrentes, então não dá para usar. Em vídeos no YT, essa busca funcionou bem em testes simples e, ao contrário do web search da OpenAI, é acessível. No X não funcionou tão bem, mas às vezes deu resultados razoáveis. Não é perfeito, mas na média os resultados são úteis