Ollama Turbo

(ollama.com)

5 pontos por GN⁺ 2025-08-07 | 1 comentários | Compartilhar no WhatsApp

Ollama Turbo é uma nova solução para executar modelos de IA open source em grande escala rapidamente em hardware de data center de alto desempenho (US$ 20/mês)
Permite operar modelos grandes de forma rápida e eficiente sem alterar os apps, CLI, API e bibliotecas JavaScript/Python do Ollama
Atualmente em prévia, oferece suporte aos modelos abertos da OpenAI gpt-oss-20b e gpt-oss-120b
Ao usar o modo Turbo, os dados das consultas não são armazenados no servidor nem registrados em logs
O hardware é operado apenas em data centers nos EUA, com limites de uso por hora e por dia, e um sistema de cobrança por uso também está previsto

1 comentários

GN⁺ 2025-08-07

Comentários do Hacker News

Acho um lançamento excelente. Hoje, a parte mais difícil de usar modelos OSS em empresas envolve vários fatores: velocidade, custo, confiabilidade, paridade de funcionalidades (como cache de contexto), desempenho (por exemplo, qual nível de quantização exatamente está sendo usado), região de hospedagem/garantias de privacidade de dados, LTS etc. Na prática, se você quiser usar um modelo OSS com um provedor que não seja uma das três grandes, precisa avaliar o fornecedor por conta própria em todos esses eixos, e isso muitas vezes exige bastante especialização. Em alguns casos, é preciso até criar ferramentas de avaliação personalizadas. Já Anthropic, OpenAI e Google simplesmente oferecem uma experiência que “funciona de cara”, e é por isso que se paga. O preço é um pouco mais alto, mas é o custo de “cuidarem de tudo para você”. A menos que os provedores OSS façam um trabalho de padronização, mesmo que modelos open source tenham, em teoria, o mesmo desempenho que modelos fechados, eles devem continuar presos nessa fase intermediária em que é difícil competir em implantações em larga escala
- É verdade, mas usar os grandes provedores em escala também significa entregar todo o tráfego de prompts sem nenhuma proteção jurídica real. Para mais detalhes sobre isso, veja este artigo relacionado
- Os modelos gpt-oss são oferecidos apenas no formato quantizado de 4,5 bits. Esse é o modelo original puro; não existe uma versão fp16
Algumas pessoas reagem mal ao ver a Ollama fazendo isso, mas, na prática, acho que é a solução mais fácil para desenvolver e testar modelos localmente. Sim, o llama.cpp é o motor de verdade e a Ollama funciona como uma espécie de wrapper. Eu não gostaria de usar a Ollama em um serviço comercial real. Ainda assim, para pessoas com menos conhecimento técnico que querem rapidamente desenvolver e executar por conta própria sistemas com recursos de LLM, o fato de haver uma GUI e instalação direta via arquivo .dmg é um ponto muito positivo
- Agradecemos o feedback. Depois da recente atualização do motor multimodal, a Ollama deixou de ser apenas um wrapper simples do llama.cpp. Ainda usamos a biblioteca GGML e estamos trabalhando com parceiros de hardware para otimizar o desempenho. A Ollama pode parecer um brinquedo, mas investimos muito esforço para manter a simplicidade. A simplicidade muitas vezes é subestimada, mas queremos construir o tipo de mundo que imaginamos
- Houve a opinião de que a Ollama não seria desejável em ambiente comercial. Na prática, nós comparamos a velocidade de inicialização e o throughput em tokens por segundo entre vLLM e Ollama, e a Ollama teve o melhor desempenho. Esperamos poder divulgar os resultados em breve
- Se você não pode usar GPUs de data center de verdade e só pode fazer deploy em desktop ou no lado do cliente, a Ollama é a melhor escolha. Não é uma situação comum, mas em algumas organizações a realidade é que só dá para usar desktops com placas 4090
Associo tanto a Ollama ao conceito de “local” que fico curioso sobre como isso vai evoluir
- Há um grupo pequeno, mas barulhento, de usuários que não confiam em grandes empresas, mas não veem problema em pagar por um serviço parecido de uma empresa pequena. Fico curioso para saber se esses usuários realmente pagariam por um serviço como o da Ollama
- Parece parecido com serviços de cloud gaming. No geral, estou satisfeito com o uso local, mas às vezes é mais eficiente terceirizar o custo do hardware. No fim, é uma questão de escolha, não de tudo ou nada
Queria entender melhor o que significa concretamente “Privacy first”. Se a ênfase é só em “não armazenamos seus dados”, isso parece insuficiente. Por exemplo, quando o Draw Things oferece “Cloud Compute”, todo o processamento também acontece apenas na RAM da requisição e nada é armazenado. Mesmo assim, pessoalmente isso não me satisfaz. Eles devem adicionar suporte a “privacy pass” em breve, mas isso também tem limites. Seria ótimo ter até logs de transparência comprováveis por hardware, mas eu nem sei por onde começar
- Não acho que trabalhar com a Ollama dê alguma vantagem em termos de privacidade. A Ollama também pode vender dados ou, se necessário, ser legalmente obrigada a entregá-los
- Não vejo política de privacidade, e o app desktop não é open source, então não inspira confiança. [Aliás, estou construindo uma solução de chamadas para LLM em que garantias de privacidade como logs reais de transparência realmente funcionam]
- Se eles permitissem executar os modelos na Suíça ou em países com boa conformidade com GDPR, eu pagaria a mais mesmo com um pouco mais de latência. Também gostaria que a transmissão dos dados fosse necessariamente feita com SSL ou protocolos de segurança equivalentes
Fico me perguntando se, pagando os mesmos 20 dólares, não seria melhor usar modelos SOTA na OpenAI do que usar modelos “inferiores” na Ollama
- A principal vantagem do Ollama Turbo é que você pode testar imediatamente na nuvem vários modelos que poderiam rodar localmente, desde que tenha o hardware adequado. Antes de gastar muito dinheiro comprando e montando hardware robusto por conta própria (mac studio, dgx etc.), dá para testar rapidamente esses modelos abertos e avaliar se servem para o seu caso. Desenvolvedores especializados em finanças, saúde e direito, onde privacidade é essencial, tendem a querer ambientes on-premises e locais. Com esse serviço, eles podem experimentar e desenvolver com dados não sensíveis e, antes de entrar em produção, migrar para hardware próprio
- Uma vantagem é poder executar modelos livremente, sem filtros. A OpenAI filtra em excesso e nem informa qual regra foi violada. Você acaba tendo de reformular prompts para descobrir por conta própria se houve violação de copyright, marca registrada etc., e recentemente ela nem responde direito a perguntas simples. Quero uma versão de LLM sem “grades de proteção”
- Não dá para ter certeza de que os preços dos modelos grandes vão continuar na faixa dos 20 dólares no futuro. De qualquer forma, sempre torço para que o mercado continue competitivo
- Provavelmente a principal razão é a privacidade dos dados, e imagino também que o plano possa oferecer um volume de uso maior. Para mim, o ponto central é mesmo a privacidade dos dados
Era algo previsível. A comunidade de inferência local está se concentrando em torno da Ollama, mas parece claro que a estratégia de longo prazo e as prioridades da empresa não estão ali. Acho que é preciso migrar rapidamente para alternativas
- A própria biblioteca base da Ollama, o llama.cpp, já tem funcionalidades de servidor e é totalmente compatível com o open-webui. Na prática, há alguns meses troquei o ollama pelo llama-server e continuo usando a mesma interface, então não senti falta de nada
- A Ollama continua aberta e só cobra de usuários que querem GPUs adicionais. Como GPU realmente custa dinheiro, faz sentido cobrar por isso, e também acho necessário que essa receita ajude a fortalecer o núcleo do projeto open source. Precisa haver um mínimo de racionalidade, e se for feito de forma honesta, acredito que pode sair algo muito bom
- Também existe o projeto github.com/containers/ramalama com esse objetivo
- A Huggingface também oferece produtos em nuvem, mas isso não significa que você não possa baixar os pesos do modelo e rodá-lo localmente
- No fim, há um limite para querer serviços gratuitos de forma estruturalmente insustentável. Quem quiser criar uma alternativa open source pode investir tempo e fazer isso por conta própria. Caso contrário, também é preciso aceitar a realidade atual
Fico confuso com o motivo dessa decisão da Ollama. A menos que seja uma tentativa de monetização, parece até que houve pressão de alguém. A solução para uso local funcionava muito bem e permitia explorar ideias mais variadas, então é uma pena ver mais um serviço de nuvem surgindo. Continuo gostando da Ollama e espero que ela continue sendo incrível
- Software open source é grátis para usar, mas nunca é grátis para produzir. Para mantê-lo gratuito e atualizado, alguém precisa cuidar das issues no GitHub, e esse tipo de trabalho pode precisar de remuneração
Há muita coisa interessante nessa notícia. Como mecanismo local de modelos OSS mais representativo, o fato de agora oferecer apenas OSS desde o início parece acompanhar o timing do anúncio de hoje e a onda de OSS. O plano por assinatura também é interessante; outros players já adotam isso, mas ainda é raro em serviços baseados em API. No longo prazo, espero uma guerra de preços no mercado de LLMs, e o surgimento de assinaturas mensais também em serviços de API pode ser um sinal disso. Fico curioso para saber se a Ollama tem recursos suficientes para manter tanto o motor local quanto esse novo serviço em nuvem
Foi dito que em breve haverá “cobrança por uso”, e acho que esse modelo combina perfeitamente com esse tipo de serviço. Eu também pago 20 dólares para a Anthropic, mas pessoalmente não acho que usaria o suficiente para pagar o mesmo valor por esse serviço. Ainda assim, poder carregar e comparar vários modelos imediatamente me parece muito útil. Espero de verdade que a equipe tenha sucesso
- Um serviço de preço fixo para LLMs open source é algo bem incomum. Acho que eu não usaria, mas, se adotarem cobrança por uso, vão competir de frente com nomes já fortes como deepinfra.com, novita.ai e openrouter.ai. A Ollama tem mais reconhecimento de marca, mas esses serviços já são bastante competitivos em preço
- Também concordo que cobrança por uso deve chegar em breve. Mas já existem muitos provedores oferecendo vários modelos baseados em OpenAI, então fico me perguntando qual seria o diferencial da Ollama. Também já há muitas boas interfaces para usar sua própria chave de API
- Uma assinatura mensal de 20 dólares para acesso à API é realmente algo novo
Cobrança por assinatura para uso de API é uma tentativa realmente interessante. O valor real disso provavelmente vai depender do fato de os limites de uso ainda não terem sido divulgados
- Queremos continuar monitorando os padrões reais de uso para construir uma estrutura de preços mais adequada

Ollama Turbo

Leituras relacionadas

1 comentários

Comentários do Hacker News