DeepSeek V4 Pro supera o GPT-5.5 Pro em precisão

(runtimewire.com)

7 pontos por GN⁺ 2026-06-09 | 3 comentários | Compartilhar no WhatsApp

Em uma comparação 1:1 com 4 tarefas de texto geradas na hora para impedir preparação prévia, o DeepSeek V4 Pro marcou 38,0 pontos e o GPT-5.5 Pro, 33,0
Ambos os modelos foram fortes, mas o DeepSeek foi mais rigoroso, mais literal e teve maior confiabilidade sob restrições, enquanto o GPT-5.5 Pro perdeu pontos por mudanças improvisadas desnecessárias
A vantagem técnica mais clara apareceu na tarefa python-log-redactor, produzindo resultado completo sem omissões ao tratar padrões sobrepostos com a prioridade correta por meio de uma única regex e uma função de substituição
Na tarefa de seguir instruções, executou com precisão apenas o que o prompt pedia, enquanto o GPT-5.5 Pro adicionou itens não solicitados, como passagem de turno e escalonamento
Foi avaliado como o modelo mais contido, preciso e confiável em trabalhos de precisão nos quais pequenas variações levam a falhas reais

Resultado da avaliação geral

Em pontuação, o DeepSeek V4 Pro venceu por 38,0 a 33,0, com base suficiente para sustentar a diferença
Ao longo das tarefas avaliadas, o Model A (DeepSeek) foi mais rigoroso e literal, além de mais estável sob restrições
- O Model B (GPT-5.5 Pro) foi excelente, mas mostrou uma tendência um pouco excessiva a mudanças improvisadas
A conclusão final foi que, em tarefas nas quais pequenos desvios levam diretamente a falhas reais, ele é um modelo mais contido, preciso e confiável

python-log-redactor (tarefa de escrita de código)

A tarefa consistia em implementar, em Python 3, a função redact_log(line: str) -> str, mascarando e-mails como [EMAIL], IPv4 como [IP] e IDs de ticket no formato INC- + 6 dígitos como [TICKET]
- Todo o restante do texto deveria ser preservado, IPs inválidos como 999.1.2.3 não deveriam ser mascarados, e podia-se assumir que não havia entrada multilinha
Vencedor: DeepSeek V4 Pro — tratou padrões sobrepostos com uma única regex e uma função de substituição, garantindo a prioridade correta de substituição e nenhum caso omitido
- O GPT-5.5 Pro separou as regexes, criando risco de erro de ordem, e apresentou falhas como ausência de limite de palavra na regex de e-mail e correspondências excessivas

vendor-delay-update (tarefa de redação de mensagem de trabalho)

A tarefa era redigir uma atualização de status que o VP responsável por operações enviaria aos gerentes regionais de armazém, comunicando que o envio de 420 unidades de reposição foi adiado de 12 de maio para 19 de maio devido à reprovação na certificação de bateria do fornecedor de leitores de código de barras North Quay Devices
- Leitores sobressalentes só cobrem Memphis e Reno, enquanto Tulsa e Allentown precisarão compartilhar equipamentos por 1 semana
- Pedia-se interromper recontagens de estoque não essenciais, priorizar a separação para expedição e reportar diariamente, até as 16h no horário local, a contagem de faltas; o tom deveria ser calmo, responsável e prático, com 140 a 180 palavras
Vencedor: DeepSeek V4 Pro — conforme o prompt, declarou diretamente como VP o pedido de "reportar diariamente, até as 16h no horário local, a contagem de faltas", mantendo um tom calmo, responsável e prático
- O GPT-5.5 Pro adicionou detalhes não solicitados, como passagem de turno e escalonamento, e trocou o destinatário para "Operations Planning", desviando-se um pouco da instrução, embora ambos tenham mantido alta qualidade e ficado dentro do limite de palavras

meeting-notes-summary (tarefa de resumo e geração de JSON)

A tarefa consistia em ler notas de reunião e gerar um resumo de 2 frases junto com um objeto JSON contendo as chaves launch_date, owner, blocked_by, open_questions (array) e decisions (array)
- As notas tratavam do projeto de reformulação do portal do locatário Cedar Lane e incluíam aprovação jurídica, conclusão do frontend, meta de lançamento em 2026-03-18, bloqueio por problema de IDs de recibo duplicados em novas tentativas de ACH no sandbox financeiro e a decisão de remover o modo escuro, entre outros pontos
Vencedor: DeepSeek V4 Pro — seguiu exatamente o esquema solicitado e forneceu um resumo de 2 frases com campos JSON dos tipos corretos
- O GPT-5.5 Pro teve um bom resumo, mas incluiu texto condicional em launch_date e tratou blocked_by, que exigia um valor único, como array, violando a estrutura

messy-orders-to-json (tarefa de normalização de dados)

A tarefa consistia em converter linhas de pedidos desorganizadas em JSON válido como um array de objetos no esquema especificado, preservando obrigatoriamente a ordem de entrada
- Era preciso normalizar priority para true/false, converter datas de entrega ausentes como none, tbd e - para null, remover espaços em branco antes e depois dos valores, e separar itens por ;, sendo cada item no formato SKU xQTY
Resultado: empate — ambos produziram JSON válido, preservaram a ordem de entrada, corresponderam exatamente ao esquema e normalizaram corretamente priority e ship_by
- Não houve diferença prática em qualidade e precisão, mas o empate em uma tarefa simples de limpeza não compensa os erros em trabalhos de precisão

Método de teste

Foram usadas 4 tarefas de texto geradas na hora para o confronto, para que nenhum modelo pudesse se preparar com antecedência
A avaliação de cada tarefa foi feita pelo grok-4-1-fast-non-reasoning
A pontuação final foi 38,0 para o DeepSeek V4 Pro e 33,0 para o GPT-5.5 Pro

Especificações dos modelos

OpenAI: GPT-5.5 Pro
- Modelo de alto desempenho otimizado para raciocínio profundo e precisão, voltado a workloads complexos e de alto risco
- Contexto de 1M+ tokens (entrada 922K, saída 128K), suporte a entrada de texto e imagem, projetado para resolução de problemas de longo fôlego, agentic coding e execução precisa de workflows em múltiplas etapas
- Preço: entrada $30.00 / saída $180.00 (por milhão de tokens), contexto 1.1M, cutoff 2025-12-01
DeepSeek: DeepSeek V4 Pro
- Grande modelo Mixture-of-Experts com 1.6T de parâmetros no total e 49B de parâmetros ativos, com suporte a contexto de 1M tokens
- Voltado a raciocínio avançado, coding e workflows agentic de longo fôlego, com forte desempenho em benchmarks de conhecimento, matemática e engenharia de software
- Baseado na mesma arquitetura do DeepSeek V4 Flash, com adoção de um sistema híbrido de attention para processamento eficiente de textos longos
- Suporta intensidade de raciocínio high e xhigh; xhigh é mapeado para raciocínio máximo, adequado para workloads complexos como análise de codebase inteira, automação em múltiplas etapas e síntese de grandes volumes de informação
- Preço: entrada $0.435 / saída $0.870 (por milhão de tokens), contexto 1M

3 comentários

emptybynature 2026-06-09

Usei o DeepSeek V4 Pro por bastante tempo e para vários propósitos, mas no fim das contas descobri que o mais eficiente é deixar o DeepSeek como agente de implementação e o GPT-5.5 como responsável pelo planejamento e pela orquestração. Como os tokens do DeepSeek são absurdamente mais baratos, usá-lo como modelo flash para organizar documentos ou fazer auditoria também oferece uma eficiência e um desempenho muito bons.

shakespeares 2026-06-09

Difícil de acreditar mesmo..

GN⁺ 2026-06-09

Comentários do Hacker News

Quatro experimentos montados de forma arbitrária quase não dizem nada sobre a capacidade de qualquer modelo
O texto também soa como um clickbait gerado por IA raso, feito para promover o modelo ou provocar discussão
Expressões como “where it matters”, “cleanly” e “is still strong” no parágrafo de abertura são vagas, e faltam explicações concretas, como dizer que o DeepSeek produziu resultados mais concisos em 3 dos 4 testes. Dou 1 estrela
- Parece haver um mal-entendido sobre o propósito de um lede
  Segundo a Merriam-Webster, lede é “a introdução de uma notícia feita para levar o leitor a continuar lendo o artigo inteiro”
  Você pode preferir um estilo mais seco, mas não é justo criticar a introdução por tentar cumprir exatamente esse papel
  https://www.merriam-webster.com/dictionary/lede
- Texto gerado por IA sobre IA é algo que eu realmente não quero ver no HN, a menos que esteja muito bem escrito
- 3 em 4 experimentos ainda é claramente anedótico, mas os resultados em si até combinam em parte com benchmarks mais estabelecidos de seguimento de instruções. Ainda assim, o DeepSeek V4 Pro não é o número 1 nesses benchmarks
  https://artificialanalysis.ai/evaluations/ifbench
  O texto me pareceu claro e bem equilibrado. O lede é um pouco com cara de copy de vendas, mas normalmente ledes são assim, e rejeitar imediatamente algo só porque “parece escrito por LLM” é uma reação bem preguiçosa
- No mercado automotivo também há só um ou dois modelos que seriam a escolha ideal máxima, mas empresas e modelos inferiores continuam sendo vendidos por vários motivos
  Este texto mostra que o DeepSeek consegue competir com o GPT 5.5 e às vezes pode até ser melhor. Além disso, é um sinal de que não existe um moat defensável, o que é bastante significativo
- Quando se trata de métricas do tipo “pelicano andando de bicicleta”, ninguém chama isso de experimento arbitrário malfeito desse jeito
Esses testes estão parecendo cada vez mais perda de tempo
Agora já está claro que existe inteligência ali. Tentar medi-la parece sem sentido. Quando você compra um martelo na loja de ferragens, não dá para ordenar os martelos pela “qualidade do produto final feito com esse martelo”, mas é mais ou menos isso que se está exigindo das avaliações de modelos hoje
A próxima mágica vai surgir em harnesses e ambientes especializados por domínio. Usando de propósito um modelo um pouco menos forte, você expõe as fraquezas de como o domínio foi apresentado ao modelo. Se ainda sobra capacidade, a confiabilidade do projeto sobe muito. Se um cliente reclamar de um edge case específico, você pode elevar só aquele cenário para gpt5.5, mas se já estiver usando 5.5 desde o início, não tem mais para onde ir
- Essa ideia de que “claramente existe inteligência” não me convence
  Fico até em dúvida se estamos usando os mesmos modelos que os outros. Para mim, os LLMs dão boas respostas em 80% do tempo, mas nos outros 20% fracassam de forma tão desastrosa que fica claro que não há inteligência
- Concordo. sonnet 4.6 parece suficiente para quase tudo. Acima desse nível, orquestração parece importar mais do que o modelo em si
  Ainda assim, os modelos continuam surpreendendo todo dia com várias alucinações, falta de epistemologia, falta de bom senso e falha em seguir instruções
  Hoje tentei fazer o opus 4.8 seguir um padrão arquitetural simples para controllers de um app Rails, e foi como arrancar dentes de tubarão
- Mesmo que “claramente exista”, o fato de já precisarmos perguntar “onde ela está” e o fato de termos visto bots obviamente não inteligentes cria a necessidade de definir e investigar a localização e a causa da inteligência
  Só assim dá para ter garantia de que a inteligência não aparece por acaso ou apenas na aparência, mas de forma consistente e estrutural. Para usos leves, ferramentas leves; para usos mission-critical, ferramentas certificadas
- Não entendo por que isso seria perda de tempo
  Estamos só começando a entrar nos detalhes do benchmarking de LLMs, e ainda temos um longo caminho pela frente. Mesmo assim, o fato de um LLM rodando localmente conseguir resultados próximos aos melhores modelos atuais é extremamente interessante
- A mágica não acontece em harnesses e ambientes especializados por domínio. O ponto central está em treinamento e reinforcement learning. Um harness não consegue sobrescrever o comportamento que o modelo aprendeu
  Se o modelo foi treinado para cuspir um site CRUD, e você quer fazer um site CRUD, o harness pode até ser útil. Mas isso fica perto de ser perda de tempo tentando misturar melhor algo que já existe
Eu usava Claude e, depois que o Opencode foi bloqueado, no trabalho passei a usar GPT. Pessoalmente, uso Deepseek no Opencode Go no plano de US$ 10 por mês e, sinceramente, quase não percebo diferença
Parece igualmente competente e comete o mesmo tipo de erro bobo que os outros dois vêm cometendo desde março. Pelo preço, estou bem satisfeito
- Em 95% do tempo, você não precisa dos 5% extras de rigor que um modelo de fronteira oferece em relação a modelos chineses 10 a 100 vezes mais baratos
  Nos outros 5%, isso pode ajudar muito em problemas de raciocínio difíceis e evitar bastante sofrimento. Agora, só falta conseguir prever exatamente quando esses 5% extras serão necessários
- Eu assino os dois e sinto claramente que o gpt é melhor e mais consistente. Mas, quando bato no limite, também não fico sentindo tanta falta assim
- Não sei o que estou fazendo de errado. Nos últimos 7 meses usei Claude e de vez em quando testei modelos como deepseek e kimi, mas nada chegou perto do Claude. Claude quase sempre resolve de primeira
Tentei adicionar o GPT 5.5 Pro ao benchmark de varredura de vulnerabilidades que eu mesmo fiz (https://swelljoe.com/post/will-it-mythos/), mas ele consumiu todo o limite de orçamento de US$ 100 no meio do caminho. O DeepSeek V4 Pro custou cerca de US$ 1 para o benchmark inteiro, e o GPT Pro custou em média US$ 22 por caso
O GPT 5.5 Pro encontrou 2 dos 4 casos que conseguiu processar antes de o orçamento acabar. Com orçamento ilimitado talvez tivesse sido o melhor, mas Opus 4.8, DeepSeek V4 Pro e MiMo 2.5 Pro encontraram 4 dos 9 bugs. O Opus foi uma ordem de grandeza mais barato que o GPT 5.5 Pro e cerca de 30% mais barato que o GPT 5.5, enquanto DeepSeek e MiMo foram duas ordens de grandeza mais baratos, a cerca de 10 centavos por caso
O GPT Pro relativamente fica “mastigando” por mais tempo e mais
Não consigo pensar em um caso de uso racional para usar o GPT 5.5 Pro custando cerca de 31 vezes o custo do Opus, e não pretendo mais incluí-lo neste benchmark
Num cenário em que o custo por token está se tornando uma questão cada vez mais importante, o fato de existirem modelos dramaticamente mais baratos que os grandes provedores dos EUA será um problema para Anthropic e OpenAI. Pagar um prêmio razoável pelo melhor modelo em coding conversacional tudo bem, mas no uso via API é difícil encontrar motivo para pagar de 10 a 200 vezes mais que o DeepSeek, porque iteração de modelos, comparação entre modelos e avaliação de modelos podem ser tratadas com harnesses e frameworks de validação de respostas, sem precisar manter uma pessoa presa nisso por muito tempo
- Isso aqui também pode ser interessante
  “US$ 3,88, 690.003.591 tokens e 5 horas para fazer engenharia reversa do sistema de licença do Teamspeak 3.13.8 usando Deepseek Pro e Flash juntos”
  https://www.reddit.com/r/DeepSeek/comments/1txcfrh/with_388_...
- Fico curioso se daria para colocar GPT 5.5 non-pro na comparação também. O GPT Pro é a opção de “posso queimar dinheiro às vezes por um resultado um pouco melhor”, não uma opção que se espera que as pessoas usem no dia a dia. Provavelmente esse também é um dos motivos de ele não estar no Codex
- Ótimo texto. Só fiquei confuso com por que o Sonnet foi pior que o Haiku. Pelo que entendi, ele encontrou muitos outros bugs, embora não o bug que estava sendo procurado
  Nove bugs parecem uma amostra um pouco pequena para montar um ranking
  Ainda assim, o ranking no geral saiu mais ou menos como eu esperava
  Fico curioso se o Deepseek é o Pro mesmo, e se não é o Flash. Uso bastante o Flash para tarefas pequenas e ele é bem bom. É ótimo para uso “conversacional”, muito rápido, e termina tarefas pequenas quase instantaneamente
  Também parece útil para investigar codebases grandes. Fico curioso se também serviria para trabalho de segurança
- Bom trabalho. Acho que a intuição está certa. Boa parte do momento Mythos provavelmente pode ser reproduzida com o harness certo e um modelo sólido sem muitas guardrails idiotas
  Também é bom ver modelos baratos indo bem
- Onde você executa o DeepSeek?
Fico me perguntando se trocar o Claude Code pelo preço da API da DeepSeek renderia mais do que o plano Max de $100 que uso hoje.
Eu só bato no limite de 5 horas de vez em quando, a cada alguns dias, e no limite semanal só chego perto um ou dois dias antes do reset se usar de forma mais agressiva. Tirando não ficar travado por limite, não acho que meu volume de uso aumentaria tanto.
Também não estou olhando só para custo, porque ainda me incomoda enviar meu trabalho para um laboratório sob um governo hostil aos EUA, mas a pergunta aqui é do ponto de vista de custo.
- Depende do que você considera “valer o dinheiro”. Modelos com pesos abertos não são melhores que openai/claude. Mas são muito mais baratos e têm limites muito mais altos, então você consegue fazer mais trabalho por menos dinheiro.
  Todo provedor por assinatura oferece mais limite por custo do que a Anthropic. A única exceção é o GitHub, que nisso é absurdamente, quase constrangedoramente, caro e limitado.
  (https://codeberg.org/mutablecc/calculate-ai-cost/src/branch/...)
  Se a questão é não querer usar modelos feitos por laboratórios fora dos EUA, aí você fica preso aos modelos americanos, mas há vários grandes laboratórios nos EUA. Se a preocupação é onde a inferência é executada, pelo OpenRouter você pode usar provedores em 12 países, incluindo os EUA, e vários provedores por assinatura também hospedam em múltiplos países. Há muitas opções.
- Eu recomendaria simplesmente testar. Coloque $5 em deepseek.com, ponha esta configuração em um script de shell e depois rode . ./deepseek-claude.sh, e use o claude como sempre.
  export ANTHROPIC_BASE_URL=https://api.deepseek.com/anthropic
  export ANTHROPIC_AUTH_TOKEN= *** PUT YOUR DEEPSEEK KEY HERE***
  export ANTHROPIC_MODEL=deepseek-v4-pro
  export ANTHROPIC_DEFAULT_OPUS_MODEL=deepseek-v4-pro
  export ANTHROPIC_DEFAULT_SONNET_MODEL=deepseek-v4-pro
  export ANTHROPIC_DEFAULT_HAIKU_MODEL=deepseek-v4-flash
  export CLAUDE_CODE_SUBAGENT_MODEL=deepseek-v4-flash
  export CLAUDE_CODE_EFFORT_LEVEL=max
  No começo eu usava quando estava perto do limite, para tarefas grandes de leitura. Sinceramente, não é tão bom quanto o Claude, mas é muito mais barato e permite continuar trabalhando. Às vezes também é bom pedir para tanto o claude quanto o deepseek olharem o código e sugerirem como lapidar, e comparar as respostas dos dois.
- Uso Claude com uma assinatura de $100 por mês. Estou experimentando uma configuração em que Opus é o arquiteto, Sonnet é o implementador/engenheiro e o deepseek-pro é o revisor e testador mais profundo, e, como esperado, está funcionando bem.
  Se meu padrão de uso se mantiver, estou pensando em baixar a assinatura para $20 por mês e colocar mais dinheiro na DeepSeek.
  Repositório de referência: https://github.com/aravindhsampath/agentic-template
- O resultado por dólar é muito melhor, e o resultado por hora é um pouco pior.
  Como sempre, cada modelo trava em pontos diferentes. Uso a API do DeepSeek v4 para a maior parte dos experimentos, exploração e provas de conceito no Cursor, mas confio menos nele para escrever código de produção do que em OpenAI/Claude. Às vezes o DeepSeek é muito bom em debugging ou planejamento, e às vezes emperra ou entrega qualidade inferior. O mesmo vale para os modelos da OpenAI e da Anthropic.
  No geral, o DeepSeek é utilizável, mas parece um nível abaixo do Opus 4.8 e do GPT 5.5. Todos rodando com configuração máxima de raciocínio.
- Se você se preocupa em mandar dados para fora para inferência, a Fireworks é uma das empresas que oferecem modelos abertos com bom desempenho e uma postura bem organizada em relação a compliance e não retenção de dados. O OpenCode também oferece suporte à Fireworks e a vários provedores, e o Cursor usa Fireworks.
  Não há o benefício de cache read ultrabarato como no endpoint da própria DeepSeek, mas ainda assim fica bem abaixo do preço da API da Anthropic. Só que é importante lembrar que, no momento, você não está pagando preço de API.
  Os descontos de cache read da DeepSeek e da Xiaomi parecem estar relacionados ao fato de que os modelos de última geração usam menos espaço de armazenamento de KV, então o cache ficou mais barato. Nenhum provedor de inferência de modelos abertos resolveu igualar esse preço, o que sugere algo sobre a estrutura de preços de inferência, embora eu não saiba exatamente o quê.
  Concordo que os melhores modelos abertos ainda não estão no nível de fronteira. Em planejamento macro, ou em situações em que você dá só um direcionamento amplo e espera bastante adivinhação, a diferença deve aparecer. Mas para programar a partir de um plano específico, eles parecem suficientemente bons. Só uso fora da empresa, então não tenho experiência com codebases gigantes, mas parecem bons em reunir as informações necessárias antes de mergulhar, então provavelmente se virariam com grep se precisassem.
  Há uma pista incômoda: se você usa bastante um plano de assinatura pessoal, ele sai muito mais barato do que API. https://she-llac.com/claude-limits mostra como isso complica a discussão de custo. Ainda assim, acho que vale a pena brincar com modelos abertos. É uma das coisas que tornam isso tratável como uma tecnologia única, e não como um pacote de produtos de poucas empresas.
Uma regra para notícias grandes desse tipo. Declaram que um modelo é melhor que outro com base em um conjunto pequeno de testes, mas fico em dúvida se esses resultados realmente podem ser reproduzidos de forma consistente.
Quase nada é divulgado, então na prática não há material para que outras pessoas verifiquem por conta própria os testes ou os critérios.
O maior valor do DeepSeek V4 Pro é o preço baixo. Não espero um desempenho muito melhor que o GPT-5.5; mesmo se ficar no nível do gpt-5.4, ainda é um bom modelo.
- Expectativa nem sempre é realidade. É melhor usar o modelo você mesmo. Sinceramente, eu nem usei o Pro, só o Flash, e faço desenvolvimento web em PHP.
Quase nunca faço um trabalho que precise de um modelo melhor que o DSv4 Flash. Pro, menos ainda
Se eu conseguir explicar bem o suficiente o problema e a solução, o Flash simplesmente dá conta
Quando não consigo explicar o problema bem o bastante, ou tenho preguiça e só consigo descrever o resultado desejado, sinto que modelos como o GPT 5.5 são claramente melhores em encontrar por conta própria uma solução sólida
A diferença de capacidade entre os modelos é evidente, mas também é evidente que modelos menores com pesos abertos já são bons o suficiente para ajudar bastante na maioria das tarefas
Estou usando o deepseek v4 por causa da relação custo-benefício. No geral, sinto que ele é inferior a alguns outros modelos, mas no fim dá para fazer qualquer modelo funcionar se você der os critérios de aceitação corretos
Basta fornecer especificações detalhadas e testes, e dar permissão para iterar até funcionar direito. One-shot é uma métrica ruim para medir desempenho
- Não acho que todos os modelos convirjam para os critérios de aceitação. Já experimentei bastante com modelagem baseada em agentes e modelagem científica nessa área, e mesmo quando existe um critério de validação e uma ideia de como chegar a um ponto de convergência, isso não significa que de fato vá convergir
  Ele pode continuar iterando no espaço de informação e acabar preso sem encontrar a solução desejada
  Ajuda, mas nos casos de falha muitas vezes é preciso intervenção humana para orientar ou forçar a correção de um caminho específico até chegar à solução
DeepSeek V4 Pro com reasonix é surpreendentemente barato e bom o bastante para a maioria das tarefas de programação. Também é bem diferente do GPT 5.5 e do Opus 4.8, então às vezes encontra problemas que os outros dois não acham
Acho que vale a pena ter na caixa de ferramentas
O DeepSeek V4 Pro é excelente e absurdamente barato, mas estão subestimando o MiMo V2.5 Pro. O preço é o mesmo, o preço de cache é menor, é multimodal e fica mais alto na maioria dos benchmarks
O mesmo vale para a comparação entre MiMo V2.5 e DeepSeek V4 Flash
- No momento em que o texto foi escrito, segundo https://news.ycombinator.com/item?id=48343690, o preço com cache hit do MiMo V2.5 Pro era menor. O texto original diz o seguinte
  Modelos OSS variam bastante dependendo do provedor usado, e a principal razão é a taxa de acerto de cache
  Model Cheapest effectiveInputPrice (Provider)
  MiMo-V2.5-Pro 0.3720 (Xiaomi)
  DeepSeek V4 Pro (Max) 0.0560 (DeepSeek)