DeepSeek V4 Pro supera o GPT-5.5 Pro em precisão
(runtimewire.com)- Em uma comparação 1:1 com 4 tarefas de texto geradas na hora para impedir preparação prévia, o DeepSeek V4 Pro marcou 38,0 pontos e o GPT-5.5 Pro, 33,0
- Ambos os modelos foram fortes, mas o DeepSeek foi mais rigoroso, mais literal e teve maior confiabilidade sob restrições, enquanto o GPT-5.5 Pro perdeu pontos por mudanças improvisadas desnecessárias
- A vantagem técnica mais clara apareceu na tarefa python-log-redactor, produzindo resultado completo sem omissões ao tratar padrões sobrepostos com a prioridade correta por meio de uma única regex e uma função de substituição
- Na tarefa de seguir instruções, executou com precisão apenas o que o prompt pedia, enquanto o GPT-5.5 Pro adicionou itens não solicitados, como passagem de turno e escalonamento
- Foi avaliado como o modelo mais contido, preciso e confiável em trabalhos de precisão nos quais pequenas variações levam a falhas reais
Resultado da avaliação geral
- Em pontuação, o DeepSeek V4 Pro venceu por 38,0 a 33,0, com base suficiente para sustentar a diferença
- Ao longo das tarefas avaliadas, o Model A (DeepSeek) foi mais rigoroso e literal, além de mais estável sob restrições
- O Model B (GPT-5.5 Pro) foi excelente, mas mostrou uma tendência um pouco excessiva a mudanças improvisadas
- A conclusão final foi que, em tarefas nas quais pequenos desvios levam diretamente a falhas reais, ele é um modelo mais contido, preciso e confiável
python-log-redactor (tarefa de escrita de código)
- A tarefa consistia em implementar, em Python 3, a função
redact_log(line: str) -> str, mascarando e-mails como[EMAIL], IPv4 como[IP]e IDs de ticket no formatoINC-+ 6 dígitos como[TICKET]- Todo o restante do texto deveria ser preservado, IPs inválidos como
999.1.2.3não deveriam ser mascarados, e podia-se assumir que não havia entrada multilinha
- Todo o restante do texto deveria ser preservado, IPs inválidos como
- Vencedor: DeepSeek V4 Pro — tratou padrões sobrepostos com uma única regex e uma função de substituição, garantindo a prioridade correta de substituição e nenhum caso omitido
- O GPT-5.5 Pro separou as regexes, criando risco de erro de ordem, e apresentou falhas como ausência de limite de palavra na regex de e-mail e correspondências excessivas
vendor-delay-update (tarefa de redação de mensagem de trabalho)
- A tarefa era redigir uma atualização de status que o VP responsável por operações enviaria aos gerentes regionais de armazém, comunicando que o envio de 420 unidades de reposição foi adiado de 12 de maio para 19 de maio devido à reprovação na certificação de bateria do fornecedor de leitores de código de barras North Quay Devices
- Leitores sobressalentes só cobrem Memphis e Reno, enquanto Tulsa e Allentown precisarão compartilhar equipamentos por 1 semana
- Pedia-se interromper recontagens de estoque não essenciais, priorizar a separação para expedição e reportar diariamente, até as 16h no horário local, a contagem de faltas; o tom deveria ser calmo, responsável e prático, com 140 a 180 palavras
- Vencedor: DeepSeek V4 Pro — conforme o prompt, declarou diretamente como VP o pedido de "reportar diariamente, até as 16h no horário local, a contagem de faltas", mantendo um tom calmo, responsável e prático
- O GPT-5.5 Pro adicionou detalhes não solicitados, como passagem de turno e escalonamento, e trocou o destinatário para "Operations Planning", desviando-se um pouco da instrução, embora ambos tenham mantido alta qualidade e ficado dentro do limite de palavras
meeting-notes-summary (tarefa de resumo e geração de JSON)
- A tarefa consistia em ler notas de reunião e gerar um resumo de 2 frases junto com um objeto JSON contendo as chaves
launch_date,owner,blocked_by,open_questions(array) edecisions(array)- As notas tratavam do projeto de reformulação do portal do locatário Cedar Lane e incluíam aprovação jurídica, conclusão do frontend, meta de lançamento em 2026-03-18, bloqueio por problema de IDs de recibo duplicados em novas tentativas de ACH no sandbox financeiro e a decisão de remover o modo escuro, entre outros pontos
- Vencedor: DeepSeek V4 Pro — seguiu exatamente o esquema solicitado e forneceu um resumo de 2 frases com campos JSON dos tipos corretos
- O GPT-5.5 Pro teve um bom resumo, mas incluiu texto condicional em
launch_datee tratoublocked_by, que exigia um valor único, como array, violando a estrutura
- O GPT-5.5 Pro teve um bom resumo, mas incluiu texto condicional em
messy-orders-to-json (tarefa de normalização de dados)
- A tarefa consistia em converter linhas de pedidos desorganizadas em JSON válido como um array de objetos no esquema especificado, preservando obrigatoriamente a ordem de entrada
- Era preciso normalizar
prioritypara true/false, converter datas de entrega ausentes comonone,tbde-para null, remover espaços em branco antes e depois dos valores, e separar itens por;, sendo cada item no formatoSKU xQTY
- Era preciso normalizar
- Resultado: empate — ambos produziram JSON válido, preservaram a ordem de entrada, corresponderam exatamente ao esquema e normalizaram corretamente
priorityeship_by- Não houve diferença prática em qualidade e precisão, mas o empate em uma tarefa simples de limpeza não compensa os erros em trabalhos de precisão
Método de teste
- Foram usadas 4 tarefas de texto geradas na hora para o confronto, para que nenhum modelo pudesse se preparar com antecedência
- A avaliação de cada tarefa foi feita pelo grok-4-1-fast-non-reasoning
- A pontuação final foi 38,0 para o DeepSeek V4 Pro e 33,0 para o GPT-5.5 Pro
Especificações dos modelos
-
OpenAI: GPT-5.5 Pro
- Modelo de alto desempenho otimizado para raciocínio profundo e precisão, voltado a workloads complexos e de alto risco
- Contexto de 1M+ tokens (entrada 922K, saída 128K), suporte a entrada de texto e imagem, projetado para resolução de problemas de longo fôlego, agentic coding e execução precisa de workflows em múltiplas etapas
- Preço: entrada $30.00 / saída $180.00 (por milhão de tokens), contexto 1.1M, cutoff 2025-12-01
-
DeepSeek: DeepSeek V4 Pro
- Grande modelo Mixture-of-Experts com 1.6T de parâmetros no total e 49B de parâmetros ativos, com suporte a contexto de 1M tokens
- Voltado a raciocínio avançado, coding e workflows agentic de longo fôlego, com forte desempenho em benchmarks de conhecimento, matemática e engenharia de software
- Baseado na mesma arquitetura do DeepSeek V4 Flash, com adoção de um sistema híbrido de attention para processamento eficiente de textos longos
- Suporta intensidade de raciocínio
highexhigh;xhighé mapeado para raciocínio máximo, adequado para workloads complexos como análise de codebase inteira, automação em múltiplas etapas e síntese de grandes volumes de informação - Preço: entrada $0.435 / saída $0.870 (por milhão de tokens), contexto 1M
2 comentários
Difícil de acreditar mesmo..
Comentários do Hacker News
Quatro experimentos montados de forma arbitrária quase não dizem nada sobre a capacidade de qualquer modelo
O texto também soa como um clickbait gerado por IA raso, feito para promover o modelo ou provocar discussão
Expressões como “where it matters”, “cleanly” e “is still strong” no parágrafo de abertura são vagas, e faltam explicações concretas, como dizer que o DeepSeek produziu resultados mais concisos em 3 dos 4 testes. Dou 1 estrela
Segundo a Merriam-Webster, lede é “a introdução de uma notícia feita para levar o leitor a continuar lendo o artigo inteiro”
Você pode preferir um estilo mais seco, mas não é justo criticar a introdução por tentar cumprir exatamente esse papel
https://www.merriam-webster.com/dictionary/lede
https://artificialanalysis.ai/evaluations/ifbench
O texto me pareceu claro e bem equilibrado. O lede é um pouco com cara de copy de vendas, mas normalmente ledes são assim, e rejeitar imediatamente algo só porque “parece escrito por LLM” é uma reação bem preguiçosa
Este texto mostra que o DeepSeek consegue competir com o GPT 5.5 e às vezes pode até ser melhor. Além disso, é um sinal de que não existe um moat defensável, o que é bastante significativo
Esses testes estão parecendo cada vez mais perda de tempo
Agora já está claro que existe inteligência ali. Tentar medi-la parece sem sentido. Quando você compra um martelo na loja de ferragens, não dá para ordenar os martelos pela “qualidade do produto final feito com esse martelo”, mas é mais ou menos isso que se está exigindo das avaliações de modelos hoje
A próxima mágica vai surgir em harnesses e ambientes especializados por domínio. Usando de propósito um modelo um pouco menos forte, você expõe as fraquezas de como o domínio foi apresentado ao modelo. Se ainda sobra capacidade, a confiabilidade do projeto sobe muito. Se um cliente reclamar de um edge case específico, você pode elevar só aquele cenário para gpt5.5, mas se já estiver usando 5.5 desde o início, não tem mais para onde ir
Fico até em dúvida se estamos usando os mesmos modelos que os outros. Para mim, os LLMs dão boas respostas em 80% do tempo, mas nos outros 20% fracassam de forma tão desastrosa que fica claro que não há inteligência
Ainda assim, os modelos continuam surpreendendo todo dia com várias alucinações, falta de epistemologia, falta de bom senso e falha em seguir instruções
Hoje tentei fazer o opus 4.8 seguir um padrão arquitetural simples para controllers de um app Rails, e foi como arrancar dentes de tubarão
Só assim dá para ter garantia de que a inteligência não aparece por acaso ou apenas na aparência, mas de forma consistente e estrutural. Para usos leves, ferramentas leves; para usos mission-critical, ferramentas certificadas
Estamos só começando a entrar nos detalhes do benchmarking de LLMs, e ainda temos um longo caminho pela frente. Mesmo assim, o fato de um LLM rodando localmente conseguir resultados próximos aos melhores modelos atuais é extremamente interessante
Se o modelo foi treinado para cuspir um site CRUD, e você quer fazer um site CRUD, o harness pode até ser útil. Mas isso fica perto de ser perda de tempo tentando misturar melhor algo que já existe
Eu usava Claude e, depois que o Opencode foi bloqueado, no trabalho passei a usar GPT. Pessoalmente, uso Deepseek no Opencode Go no plano de US$ 10 por mês e, sinceramente, quase não percebo diferença
Parece igualmente competente e comete o mesmo tipo de erro bobo que os outros dois vêm cometendo desde março. Pelo preço, estou bem satisfeito
Nos outros 5%, isso pode ajudar muito em problemas de raciocínio difíceis e evitar bastante sofrimento. Agora, só falta conseguir prever exatamente quando esses 5% extras serão necessários
Tentei adicionar o GPT 5.5 Pro ao benchmark de varredura de vulnerabilidades que eu mesmo fiz (https://swelljoe.com/post/will-it-mythos/), mas ele consumiu todo o limite de orçamento de US$ 100 no meio do caminho. O DeepSeek V4 Pro custou cerca de US$ 1 para o benchmark inteiro, e o GPT Pro custou em média US$ 22 por caso
O GPT 5.5 Pro encontrou 2 dos 4 casos que conseguiu processar antes de o orçamento acabar. Com orçamento ilimitado talvez tivesse sido o melhor, mas Opus 4.8, DeepSeek V4 Pro e MiMo 2.5 Pro encontraram 4 dos 9 bugs. O Opus foi uma ordem de grandeza mais barato que o GPT 5.5 Pro e cerca de 30% mais barato que o GPT 5.5, enquanto DeepSeek e MiMo foram duas ordens de grandeza mais baratos, a cerca de 10 centavos por caso
O GPT Pro relativamente fica “mastigando” por mais tempo e mais
Não consigo pensar em um caso de uso racional para usar o GPT 5.5 Pro custando cerca de 31 vezes o custo do Opus, e não pretendo mais incluí-lo neste benchmark
Num cenário em que o custo por token está se tornando uma questão cada vez mais importante, o fato de existirem modelos dramaticamente mais baratos que os grandes provedores dos EUA será um problema para Anthropic e OpenAI. Pagar um prêmio razoável pelo melhor modelo em coding conversacional tudo bem, mas no uso via API é difícil encontrar motivo para pagar de 10 a 200 vezes mais que o DeepSeek, porque iteração de modelos, comparação entre modelos e avaliação de modelos podem ser tratadas com harnesses e frameworks de validação de respostas, sem precisar manter uma pessoa presa nisso por muito tempo
“US$ 3,88, 690.003.591 tokens e 5 horas para fazer engenharia reversa do sistema de licença do Teamspeak 3.13.8 usando Deepseek Pro e Flash juntos”
https://www.reddit.com/r/DeepSeek/comments/1txcfrh/with_388_...
Nove bugs parecem uma amostra um pouco pequena para montar um ranking
Ainda assim, o ranking no geral saiu mais ou menos como eu esperava
Fico curioso se o Deepseek é o Pro mesmo, e se não é o Flash. Uso bastante o Flash para tarefas pequenas e ele é bem bom. É ótimo para uso “conversacional”, muito rápido, e termina tarefas pequenas quase instantaneamente
Também parece útil para investigar codebases grandes. Fico curioso se também serviria para trabalho de segurança
Também é bom ver modelos baratos indo bem
Fico me perguntando se trocar o Claude Code pelo preço da API da DeepSeek renderia mais do que o plano Max de $100 que uso hoje.
Eu só bato no limite de 5 horas de vez em quando, a cada alguns dias, e no limite semanal só chego perto um ou dois dias antes do reset se usar de forma mais agressiva. Tirando não ficar travado por limite, não acho que meu volume de uso aumentaria tanto.
Também não estou olhando só para custo, porque ainda me incomoda enviar meu trabalho para um laboratório sob um governo hostil aos EUA, mas a pergunta aqui é do ponto de vista de custo.
Todo provedor por assinatura oferece mais limite por custo do que a Anthropic. A única exceção é o GitHub, que nisso é absurdamente, quase constrangedoramente, caro e limitado.
(https://codeberg.org/mutablecc/calculate-ai-cost/src/branch/...)
Se a questão é não querer usar modelos feitos por laboratórios fora dos EUA, aí você fica preso aos modelos americanos, mas há vários grandes laboratórios nos EUA. Se a preocupação é onde a inferência é executada, pelo OpenRouter você pode usar provedores em 12 países, incluindo os EUA, e vários provedores por assinatura também hospedam em múltiplos países. Há muitas opções.
. ./deepseek-claude.sh, e use o claude como sempre.export ANTHROPIC_BASE_URL=https://api.deepseek.com/anthropic
export ANTHROPIC_AUTH_TOKEN= *** PUT YOUR DEEPSEEK KEY HERE***
export ANTHROPIC_MODEL=deepseek-v4-pro
export ANTHROPIC_DEFAULT_OPUS_MODEL=deepseek-v4-pro
export ANTHROPIC_DEFAULT_SONNET_MODEL=deepseek-v4-pro
export ANTHROPIC_DEFAULT_HAIKU_MODEL=deepseek-v4-flash
export CLAUDE_CODE_SUBAGENT_MODEL=deepseek-v4-flash
export CLAUDE_CODE_EFFORT_LEVEL=max
No começo eu usava quando estava perto do limite, para tarefas grandes de leitura. Sinceramente, não é tão bom quanto o Claude, mas é muito mais barato e permite continuar trabalhando. Às vezes também é bom pedir para tanto o claude quanto o deepseek olharem o código e sugerirem como lapidar, e comparar as respostas dos dois.
Se meu padrão de uso se mantiver, estou pensando em baixar a assinatura para $20 por mês e colocar mais dinheiro na DeepSeek.
Repositório de referência: https://github.com/aravindhsampath/agentic-template
Como sempre, cada modelo trava em pontos diferentes. Uso a API do DeepSeek v4 para a maior parte dos experimentos, exploração e provas de conceito no Cursor, mas confio menos nele para escrever código de produção do que em OpenAI/Claude. Às vezes o DeepSeek é muito bom em debugging ou planejamento, e às vezes emperra ou entrega qualidade inferior. O mesmo vale para os modelos da OpenAI e da Anthropic.
No geral, o DeepSeek é utilizável, mas parece um nível abaixo do Opus 4.8 e do GPT 5.5. Todos rodando com configuração máxima de raciocínio.
Não há o benefício de cache read ultrabarato como no endpoint da própria DeepSeek, mas ainda assim fica bem abaixo do preço da API da Anthropic. Só que é importante lembrar que, no momento, você não está pagando preço de API.
Os descontos de cache read da DeepSeek e da Xiaomi parecem estar relacionados ao fato de que os modelos de última geração usam menos espaço de armazenamento de KV, então o cache ficou mais barato. Nenhum provedor de inferência de modelos abertos resolveu igualar esse preço, o que sugere algo sobre a estrutura de preços de inferência, embora eu não saiba exatamente o quê.
Concordo que os melhores modelos abertos ainda não estão no nível de fronteira. Em planejamento macro, ou em situações em que você dá só um direcionamento amplo e espera bastante adivinhação, a diferença deve aparecer. Mas para programar a partir de um plano específico, eles parecem suficientemente bons. Só uso fora da empresa, então não tenho experiência com codebases gigantes, mas parecem bons em reunir as informações necessárias antes de mergulhar, então provavelmente se virariam com
grepse precisassem.Há uma pista incômoda: se você usa bastante um plano de assinatura pessoal, ele sai muito mais barato do que API. https://she-llac.com/claude-limits mostra como isso complica a discussão de custo. Ainda assim, acho que vale a pena brincar com modelos abertos. É uma das coisas que tornam isso tratável como uma tecnologia única, e não como um pacote de produtos de poucas empresas.
Uma regra para notícias grandes desse tipo. Declaram que um modelo é melhor que outro com base em um conjunto pequeno de testes, mas fico em dúvida se esses resultados realmente podem ser reproduzidos de forma consistente.
Quase nada é divulgado, então na prática não há material para que outras pessoas verifiquem por conta própria os testes ou os critérios.
O maior valor do DeepSeek V4 Pro é o preço baixo. Não espero um desempenho muito melhor que o GPT-5.5; mesmo se ficar no nível do gpt-5.4, ainda é um bom modelo.
Quase nunca faço um trabalho que precise de um modelo melhor que o DSv4 Flash. Pro, menos ainda
Se eu conseguir explicar bem o suficiente o problema e a solução, o Flash simplesmente dá conta
Quando não consigo explicar o problema bem o bastante, ou tenho preguiça e só consigo descrever o resultado desejado, sinto que modelos como o GPT 5.5 são claramente melhores em encontrar por conta própria uma solução sólida
A diferença de capacidade entre os modelos é evidente, mas também é evidente que modelos menores com pesos abertos já são bons o suficiente para ajudar bastante na maioria das tarefas
Estou usando o deepseek v4 por causa da relação custo-benefício. No geral, sinto que ele é inferior a alguns outros modelos, mas no fim dá para fazer qualquer modelo funcionar se você der os critérios de aceitação corretos
Basta fornecer especificações detalhadas e testes, e dar permissão para iterar até funcionar direito. One-shot é uma métrica ruim para medir desempenho
Ele pode continuar iterando no espaço de informação e acabar preso sem encontrar a solução desejada
Ajuda, mas nos casos de falha muitas vezes é preciso intervenção humana para orientar ou forçar a correção de um caminho específico até chegar à solução
DeepSeek V4 Pro com reasonix é surpreendentemente barato e bom o bastante para a maioria das tarefas de programação. Também é bem diferente do GPT 5.5 e do Opus 4.8, então às vezes encontra problemas que os outros dois não acham
Acho que vale a pena ter na caixa de ferramentas
O DeepSeek V4 Pro é excelente e absurdamente barato, mas estão subestimando o MiMo V2.5 Pro. O preço é o mesmo, o preço de cache é menor, é multimodal e fica mais alto na maioria dos benchmarks
O mesmo vale para a comparação entre MiMo V2.5 e DeepSeek V4 Flash
Modelos OSS variam bastante dependendo do provedor usado, e a principal razão é a taxa de acerto de cache
Model Cheapest effectiveInputPrice (Provider)
MiMo-V2.5-Pro 0.3720 (Xiaomi)
DeepSeek V4 Pro (Max) 0.0560 (DeepSeek)