As desvantagens de migrar para modelos abertos não são tão grandes

(marble.onl)

1 pontos por GN⁺ 5 시간 전 | 1 comentários | Compartilhar no WhatsApp

Em trabalho técnico, os LLMs abertos ainda têm custos de desempenho, compatibilidade e confiança, mas a diferença diminuiu recentemente, aumentando o espaço para reduzir a dependência de modelos proprietários como Claude e GPT
No passado, o Linux era arriscado em trabalho profissional por causa da compatibilidade com o MS Office, formatos de arquivo especiais e um ecossistema open source ainda imaturo, mas a disseminação dos webapps e a maturidade do ecossistema reduziram bastante esse sacrifício
Em 21 de junho de 2026, o topo do Artificial Analysis intelligence leaderboard é ocupado por modelos proprietários via API como Claude e GPT, e o Claude code e as principais APIs ainda estão à frente em facilidade de uso e confiança dentro das organizações
Modelos abertos podem ser usados por meio do provedor ou de terceiros como o OpenRouter, mas há preocupações com privacidade e compartilhamento de dados; ao executar diretamente, a privacidade melhora, mas surgem custos, complexidade e impacto em velocidade
A introdução da verificação de identidade no Claude levou a reavaliar o custo de perder acesso aos modelos de ponta, mas como os modelos abertos chegaram a ficar a apenas alguns meses da liderança, a queda de produtividade no curto prazo pode não ser um obstáculo decisivo

A posição atual dos LLMs abertos vista pelo custo de migrar para o Linux

Antigamente, usar Linux podia criar um risco profissional mesmo em trabalho técnico
- Documentos do Word ou apresentações do PowerPoint podiam não ser renderizados corretamente
- Havia situações em que era preciso confiar no resultado de exportação do Open Office
- A dificuldade de abrir facilmente formatos de arquivo especiais podia atrapalhar a colaboração
- Projetos open source tentando acompanhar os recursos dos softwares dominantes tinham muitas arestas
Hoje, softwares de produtividade costumam ser oferecidos como webapps, e o Linux e os softwares open source amadureceram, reduzindo a diferença
- Em áreas específicas, como software de CAD, o Windows ainda pode ser necessário
- Ainda assim, Linux e open source já não exigem um grande sacrifício no trabalho cotidiano em geral como antes

Os custos que usuários de modelos abertos ainda precisam assumir

Ainda existe uma penalidade clara para usuários de LLMs abertos
- Em 21 de junho de 2026, Claude e GPT lideram o Artificial Analysis intelligence leaderboard
- Além do desempenho, o Claude code e as principais APIs são fortes em compatibilidade e facilidade de uso
- Enviar consultas de LLM para a OpenAI e a Anthropic conquistou um nível de confiança que muitas pessoas consideram aceitável
Os caminhos para usar modelos abertos via API trazem questões de confiança
- O serviço pode ser operado diretamente pelo provedor do modelo ou por terceiros como o OpenRouter
- Enviar chamadas de API com dados de clientes ou dados confidenciais gera mais insegurança em termos de privacidade e compartilhamento de dados
- Ao enviar solicitações para Deepseek ou OpenRouter, podem surgir mais preocupações independentemente do risco real
Executar diretamente reduz os problemas de privacidade, mas traz custos de custo, complexidade e velocidade
- É possível executar localmente ou na nuvem
- A execução direta envolve pelo menos dois entre ser cara, complexa ou relativamente lenta

O gatilho de migração criado pela verificação de identidade do Claude

A introdução da verificação de identidade no Claude acelerou a decisão sobre migrar
- As novas proteções (safeguards) nos modelos recentes e a situação relacionada ao Mythos também vêm sendo percebidas como sinais de piora na experiência do usuário
- Se a verificação de identidade não for aceita, a principal questão continua sendo a perda profissional de deixar de usar os modelos de ponta
A migração para modelos abertos é vista como uma situação muito mais próxima do que a diferença entre Linux e Windows em 2008
- Já existe um ambiente para executar vários modelos abertos localmente ou na nuvem
- Também já existem harnesses de programação para modelos abertos
- Os modelos abertos se aproximaram muito dos líderes e normalmente estão apenas alguns meses atrás
- A produtividade pode cair no curto prazo, mas, como trocar Matlab por GNU Octave na época da pesquisa, isso talvez não seja um obstáculo decisivo

1 comentários

GN⁺ 5 시간 전

Comentários do Hacker News

É exatamente por isso que usamos a regra de roteamento abaixo no eurouter.ai para todas as requisições
```
{  
"model": "glm-5.2",  
"models": [  
"deepseek-v4-pro",  
"deepseek-v4-flash"  
],  
"provider": {  
"allow_fallbacks": true,  
"data_collection": "deny",  
"data_residency": "EU",  
"max_retention_days": 0,  
"eu_owned": true  
}  
}  
```
É caro, mas pelo menos do ponto de vista legal a privacidade dos dados está garantida. Confio mais nisso do que na Anthropic, OpenAI ou OpenRouter
Pessoalmente, acho moralmente difícil aceitar usar ferramentas de IA dos EUA e não quero pagar a eles para apoiar os crimes nos quais estão envolvidos[1]
[1]: https://news.ycombinator.com/item?id=48512339
O ponto que pega na redline da Anthropic é a expressão “of Americans”. Então quer dizer que com o resto do mundo civilizado pode fazer o que quiser? Que tudo bem desestabilizar aliados fora dos EUA com testes manipulados em machine learning ou vazamento de dados?
Mais estranho ainda é afirmarem que o modelo segue https://www.anthropic.com/constitution e que esse conteúdo está embutido no modelo. Mas os prompts de sistema do Claude Code e do cowork repetem esses itens de novo. Se isso estivesse mesmo embutido, não deveria ser necessário
Se você fizer engenharia de prompt suficiente na versão de API do Claude, dá para fazê-lo agir como um apoiador de Hitler, o que contradiz frontalmente o que eles afirmam. Em especial, o Opus 4.7 chegou a produzir de bom grado propaganda direcionada a certos grupos minoritários, mas no 4.8 ainda não vi o mesmo nível de sucesso. Ultimamente tenho me interessado mais pelo abuso das capacidades cibernéticas do modelo, então não fui tão fundo nessa direção
Desde o começo, a conclusão era que a estratégia da Anthropic era pura gestão de imagem, e, vendo a enxurrada de apoio à empresa, dá para dizer que foi bastante bem-sucedida
Dei uma olhada no eurouter.ai e a proposta em si parece muito ruim
O preço de 15% de markup na conta gratuita não faz sentido, e existe um limite de 1000 requisições por mês se você não pagar 40€ por mês. Só que eu não entendo exatamente que valor eles entregam
Para o DeepSeek-V4-Pro existe apenas um único provedor, a TensorX, e o custo de leitura de cache é mais de 100 vezes maior que o da DeepSeek ($0.44 vs $0.003625). Em especial, no eurouter.ai eu nem consegui encontrar informações sobre o custo de tokens em cache, então tive que ir até o site da TensorX para ver isso
“Crime” ainda é pouco para descrever
“AI-assisted targeting in the Gaza Strip” - https://en.wikipedia.org/wiki/AI-assisted_targeting_in_the_G...
“Palantir allegedly enables Israel's AI targeting in Gaza, raising concerns over war crimes” - https://www.business-humanrights.org/de/neuste-meldungen/pal...
“What The Wounds Are Telling Us” - https://www.volkskrant.nl/kijkverder/v/2025/gunshot-palestin...
Fiquei curioso sobre outras alternativas ao OpenRouter e pesquisei um pouco
EURouter (Amsterdã): https://www.eurouter.ai/pricing
Eden AI (França): https://www.edenai.co/pricing
nexos.ai (Lituânia): https://nexos.ai/pricing/
Requesty (Alemanha): https://www.requesty.ai/pricing
Cortecs (Áustria): https://cortecs.ai/pricing
Nordference (Estônia): https://nordference.ai/pricing
Realmente parece que estão brotando como cogumelos. Não usei nenhuma delas pessoalmente, então não estou recomendando nenhuma, mas parece haver opções para quem precisa
Se a preocupação real é segurança de dados, no fim das contas não parece haver solução além de aceitar o custo e fazer self-hosting
É interessante ver as pessoas descartarem modelos de pesos abertos porque estariam “alguns meses atrás” dos modelos proprietários
Eu sei que o ritmo de avanço dos LLMs é absurdamente rápido, mas, se o Opus e o GPT de alguns meses atrás realmente já estavam no nível dos modelos de pesos abertos de agora, não haveria motivo para não migrar. Especialmente para quem já usava esses modelos há alguns meses
A base de código não mudou, então é só usar um modelo de pesos abertos. Não dá para mudar a trave
- Todo modelo proprietário novo é divulgado como “revolucionário” e como tendo “resolvido tarefa X que outros modelos não conseguiam”, mas um mês depois já é chamado de modelo ruim da geração anterior
  Então não há problema nenhum em usar Kimi-2.7, GLM-5.2 e Deepseek-v4. Já chegamos bem perto do teto, e agora a maior parte das melhorias parece vir de aprimoramentos no harness que deixam o raciocínio ou o uso de ferramentas um pouco melhores, além de um RL um pouco melhor
- Já experimentei bastante com modelos abertos, mas estou cansado de ouvir que eles estão “só alguns meses atrás”
  Ainda não consigo afirmar com confiança que nem mesmo os melhores modelos de pesos abertos de hoje sejam equivalentes ao Opus de alguns meses atrás. Eu sei o que os benchmarks dizem e tinha expectativas altas, mas a experiência real de uso não bateu com os benchmarks
  Faço muitas tarefas com as quais até o Opus 4.8 tem dificuldade. Enquanto os LLMs de ponta ainda não chegaram totalmente lá, não surge motivação para migrar para modelos ainda mais atrasados
- O único motivo de eu estar lendo isto no HN agora é por causa de uma indisponibilidade da API da Anthropic, então isso também conta como um voto a favor de self-hosting
- Em vez de dizer “alguns meses atrás”, talvez uma formulação um pouco mais precisa seja que o critério importante provavelmente é se foi antes ou depois do Claude Opus 4.5 de 24 de novembro de 2025. Foi esse modelo que criou a febre do OpenClaw no Natal
- Na empresa usamos um provedor de Deepseek V4 flash, e ele resolve 95% do trabalho real por um décimo do custo. Às vezes recorremos a um modelo mais forte, mas só depois de pensar duas vezes
  O fosso é tão raso que equivale a +1 de comida, +1 de produção. Se tiver estrada, +1 de ouro
O mais impressionante nesses modelos é que, na prática, eles destilam a internet em uma forma que cabe numa máquina local e ainda pode ser consultada em linguagem natural
A tecnologia e o hardware estão melhorando mais rápido do que cresce a base de conhecimento que precisa ser destilada, então parece inevitável que modelos locais úteis se tornem viáveis
A atitude deste texto parece bem surpreendente. Por um lado, ele começa falando sobre adotar Linux e outros softwares livres e de código aberto, e a essência do FOSS é permitir que o usuário entenda e modifique o software que executa
Mas o resto é sobre usar LLMs, que são ferramentas que o autor não tem como modificar nem como entender. Uma matriz gigantesca de ponto flutuante, sendo generoso, mal chega ao nível de código compilado; na prática, às vezes é mais fácil entender software proprietário descompilando-o
Além disso, na maioria dos casos, mesmo para executar um modelo “aberto” é preciso um hardware difícil de bancar. Não sei como um espaço que antes exaltava a liberdade de software chegou até aqui
O título fala de forma categórica, mas no texto está escrito “espero que seja minimizado”
Eu uso várias assinaturas, testo vários provedores de LLM via OpenRouter pagando por token e também rodo modelos de pesos abertos localmente
Ainda acho difícil concordar. Os modelos da Anthropic e da OpenAI realmente são muito melhores do que os outros. Os modelos de pesos abertos, no geral, parecem otimizados demais para benchmark, e a experiência prática é muito diferente do que os benchmarks sugerem
Quando falo dessa experiência, muitas vezes recebo downvotes porque não é a realidade que as pessoas querem ouvir agora, mas em tarefas complexas isso é verdade
Acho que, nas mãos de um usuário experiente, boa parte das tarefas fáceis pode ser resolvida com modelos de pesos abertos. Se for um tipo de trabalho que daria para delegar a um júnior com alguma supervisão, qualquer modelo serve
Mas em muitas das tarefas que eu faço, até o Opus 4.8 Max ainda precisa de acompanhamento constante, direcionamento e revisão. O Fable também era assim, mas em menor grau
Quando se testam modelos grandes de pesos abertos, acaba-se usando hospedagem, porque localmente não dá para ter velocidade razoável com um nível de quantização suportável. E, em tarefas grandes, a sensação é de gastar ainda mais tempo queimando tokens enquanto se espera uma saída que no fim talvez precise ser descartada. Eu gostaria que eles já tivessem chegado nesse nível, mas ainda não chegaram
- Você tem exemplos?
O Claude só começou a ficar utilizável para programação depois que chegou ao 4.6. Depois disso, ainda houve recursos extras que seriam bons de ter, mas, se o Sonnet 4.6 e o Opus fossem de pesos abertos, acho que eu não precisaria de mais nada
Usar um pouco o Fable reforçou ainda mais essa impressão
Eu queria me acostumar mais com inferência local, mas não tenho o hardware, e por isso comecei a pensar em algo como uma cooperativa local, assunto sobre o qual quase não vejo discussão
Olhando pela ótica econômica, parece que poderia fazer sentido várias pessoas se juntarem para operar um bom hardware e modelos abertos, mas nunca vi falarem disso. Fico pensando se deixei algo passar
Seria bem legal criar um serviço que ajudasse pessoas interessadas nesse modelo a se encontrarem
- O motivo de você quase não ver isso é que todo mundo faz as contas, percebe que não é um bom negócio e desiste
  Agora mesmo há um post no topo do /r/localllama exatamente sobre essas contas: https://www.reddit.com/r/LocalLLaMA/comments/1ubrcwj/tokenom...
  Em resumo, para rodar o GLM 5.2 seriam necessários pelo menos uns 20 mil dólares, e ainda assim ele seria dolorosamente lento em comparação com a versão hospedada em nuvem. Mesmo assumindo um servidor calculando tokens 24 horas por dia, levaria anos para atingir o ponto de equilíbrio
  O único motivo para rodar localmente é quando privacidade total dos dados é prioridade máxima. Nesse caso, paga-se um prêmio alto por isso
- Há muitos lugares que oferecem modelos abertos por tarifas bem baratas. Em geral, recomendo olhar o OpenRouter, que acompanha várias métricas de diversos provedores
- https://news.ycombinator.com/item?id=48524387
- Modelos abertos hospedados na nuvem???
É verdade, mas a OpenAI também cobra praticamente isso. z.ai: por que pagar US$ 18 por mês quando a OpenAI cobra US$ 20 por mês?
- Uma grande vantagem que eu vejo é que as pessoas criam apego a modelos. Eu incluso. Com modelos abertos, se você encontrou um modelo perfeito para si e a versão seguinte não for tão boa, pode continuar rodando a versão antiga para sempre. Você mesmo pode fazer isso, ou outra pessoa pode fazer por você
- Um motivo pode ser o limite de requisições. O ChatGPT Plus w/Codex da OpenAI (US$ 20/mês), no pior caso, tem limite de 15 requisições a cada 5 horas para o GPT-5.5, 20 para o GPT-5.4 e 60 para o GPT-5.4-Mini
  Já o Z.ai Lite (US$ 18/mês) oferece cerca de 80 para o GLM 5.2 no pior caso. Isso considerando horário de menor movimento; o pico é das 2h às 6h no horário de Nova York. Então o Z.ai consegue oferecer um limite maior por um preço menor
  (https://codeberg.org/mutablecc/calculate-ai-cost/src/branch/...)
- https://news.ycombinator.com/item?id=48618455
- O OpenCode Go custa US$ 10 por mês, e o limite é muito mais folgado do que esses ou o Codex
- Parece que isso não é mais informado na página de preços, mas o plano de coding da z.ai antes dizia ter 3x o uso do plano equivalente da Claude pelo mesmo preço. Não sei se isso era exato, mas, só pelos preços de API, o GLM já é bem mais barato
Houve uma época em que o Linux era claramente competente, mas exigia gambiarras e esforço extra para ficar agradável de usar, então era fácil usá-lo como um rebelde
Mas, pela minha experiência, os modelos abertos ainda não chegaram lá em capacidade nem em requisitos operacionais. O GLM5.2 parece competente, mas para rodar nesse nível provavelmente seria preciso um enorme cluster de GPUs
Se você vai acessar um modelo aberto por uma API hospedada, isso deixa de ser diferente de usar um modelo fechado por uma API hospedada. Comparado a usar Linux 15 anos atrás, o incentivo se desfaz
Não me entendam mal. Eu gostaria de rodar modelos locais e ficar satisfeito com isso, mas ainda não é a hora
- Não é verdade que “se você vai acessar um modelo aberto por uma API hospedada, é a mesma coisa que usar um modelo fechado por uma API hospedada”
  O ponto central é que não há uma entidade única no controle, então você não pode ser vítima de enshittification. Isso já aconteceu, está acontecendo agora e vai continuar acontecendo
  Com pesos abertos, você não pode ser facilmente removido, bloqueado ou ter o acesso cortado. Mesmo que alguma empresa tente fazer isso, outra pessoa com um server farm pode te aceitar como cliente, e no seu workflow você só precisa trocar a URL da API e a chave
  Você continua conversando com o mesmo modelo, com a mesma personalidade e o mesmo conhecimento
Concordo em parte com a direção geral do texto, mas há duas coisas
Primeiro, nos meus testes, os modelos abertos ainda não estavam no nível de competir ao menos com o Claude Opus em desenvolvimento de software, engenharia e tarefas adjacentes
Segundo, é melhor aproveitar enquanto dura. Eu realmente ficaria surpreso se, até o fim deste ano, esses modelos abertos não fossem declarados “ilegais” sob o pretexto de segurança. Digo pretexto porque o principal motor disso deve ser captura regulatória e protecionismo industrial
- Se os EUA proibirem modelos, isso só fortalece países rivais como a China

As desvantagens de migrar para modelos abertos não são tão grandes

A posição atual dos LLMs abertos vista pelo custo de migrar para o Linux

Os custos que usuários de modelos abertos ainda precisam assumir

O gatilho de migração criado pela verificação de identidade do Claude

Leituras relacionadas

1 comentários

Comentários do Hacker News