Lançamento do DeepSeekMath-V2 - Rumo ao raciocínio matemático auto-verificável

(huggingface.co)

5 pontos por GN⁺ 2025-12-02 | 1 comentários | Compartilhar no WhatsApp

Com o objetivo de melhorar a capacidade de raciocínio matemático de grandes modelos de linguagem, foi desenvolvido um modelo que fortalece a verificabilidade do processo de raciocínio além da simples precisão da resposta correta
Melhorando a limitação de abordagens anteriores baseadas em aprendizado por reforço focadas na recompensa da resposta final, foi introduzido um mecanismo de auto-verificação (self-verification)
Em problemas que exigem raciocínio lógico passo a passo, como theorem proving (prova de teoremas), o modelo gerador foi projetado para encontrar e corrigir seus próprios erros
Utiliza-se o verificador (verifier) como modelo de recompensa e, ao escalar o cálculo de verificação, rotulam-se automaticamente dados de prova difíceis para obter melhoria contínua de desempenho
O modelo registrou pontuações de ponta em IMO 2025, CMO 2024, Putnam 2024, comprovando a viabilidade da IA matemática auto-verificável

1. Introdução (Introduction)

Os grandes modelos de linguagem (LLM) fizeram grande progresso em raciocínio matemático e desempenham um papel central como benchmark de pesquisa em IA
- Com aprendizado por reforço por recompensa baseada em resposta correta, alcançou-se desempenho de ponta em competições como AIME, HMMT em apenas um ano
No entanto, há limitações em focar apenas em elevar a precisão da resposta final
- Mesmo com resposta correta, a validade do processo de raciocínio não é garantida, e é inviável para problemas que exigem desenvolvimento lógico em etapas, como prova de teoremas
Para resolver isso, foi introduzido o conceito de auto-verificação (self-verification), desenhado para avaliar a abrangência e a rigorosidade do raciocínio
- Especialmente em testes de problemas de resposta desconhecida (open problems), foi apresentado como componente essencial para expandir os cálculos
A equipe treinou um verificador (verifier) confiável e preciso baseado em LLM e o utilizou como modelo de recompensa para treinar o gerador de provas (generator)
- Incentivando o gerador a identificar e corrigir erros por conta própria dentro das provas
Conforme o desempenho do gerador melhora, a dificuldade da verificação também aumenta; assim, escalou-se o cálculo de verificação (scale verification compute) para rotular automaticamente novas provas difíceis
- Isso melhora continuamente o desempenho do verificador
O modelo resultante, DeepSeekMath-V2, alcançou desempenho de nível de medalha de ouro em IMO 2025 e CMO 2024, e 118/120 pontos em Putnam 2024
- Esses resultados mostram que raciocínio matemático auto-verificável é uma direção de pesquisa viável

2. Resultados de avaliação (Evaluation Results)

A avaliação utilizou IMO-ProofBench desenvolvido pela equipe DeepThink IMO-Gold da DeepMind, além de concursos matemáticos recentes (IMO 2025, CMO 2024, Putnam 2024)
- Valores numéricos específicos e detalhes dos resultados não são fornecidos no texto

3. Arquitetura do modelo (Model Architecture)

DeepSeekMath-V2 foi construído com base no modelo DeepSeek-V3.2-Exp-Base
- O suporte relacionado à inferência (inference) está no repositório GitHub DeepSeek-V3.2-Exp

4. Licença (License)

O modelo e os pesos são distribuídos sob a Apache License 2.0

5. Citação (Citation)

Os nomes dos autores e as informações do paper estão informados, com o título
“DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning” (2025)

6. Informações adicionais

O número de downloads no último mês foi de 4,434
Ao montar a árvore do modelo, o modelo-base forma um loop de autorreferência e aparece marcado como impossível de gerar árvore

1 comentários

GN⁺ 2025-12-02

Comentários no Hacker News

O modelo lançado desta vez abriu os pesos como open source sob a licença Apache 2.0
Os modelos medalhistas de ouro da IMO da OpenAI e da DeepMind continuam fechados
- Assim como as empresas de IA lidam com os direitos autorais dos dados de treinamento, acho que também deveríamos tratar dessa forma os direitos autorais dos pesos
- Mas, se só os pesos forem divulgados e o código de treinamento ou os dados não forem abertos, ele ainda continua sendo um modelo fechado
A discussão anterior está neste link
- Eu tinha perdido esse link, obrigado por compartilhar
É impressionante como os modelos de pesos abertos estão alcançando rapidamente áreas especializadas como matemática e raciocínio
Fico curioso se alguém também testou avaliações relacionadas a lógica complexa ou programação. Modelos bons em matemática muitas vezes também são fortes em debugging ou geração de algoritmos
- Modelos especializados em domínios específicos têm menor valor comercial, e o treinamento de LLMs em larga escala prefere a generalidade, então isso é algo natural
- O kimi-k2 é bem decente para programação, mas não chega ao nível dos modelos SOTA da Anthropic, OpenAI ou Google
Acho que também é preciso ter uma visão cética sobre os resultados desse modelo
Foi declarado que ele treinou diretamente com problemas coletados da internet, mas não houve menção à remoção de contaminação de benchmark nem à exclusão de problemas de 2024/2025
OpenAI e Google testaram modelos experimentais sem acesso prévio aos problemas de 2025
Fico me perguntando por que o modelo medalhista de ouro da OpenAI ainda não foi divulgado
- Aquilo foi simplesmente publicidade. A ideia é incorporar as lições aprendidas ali no próximo modelo de uso geral
É importante notar que este não é um modelo de uso geral. Os modelos do Google e da OpenAI usaram modelos de uso geral
- Na prática, tanto a OpenAI quanto o Google usaram modelos de pesquisa especializados para a IMO
  - A OpenAI, neste tweet, antecipou o lançamento do GPT-5 e afirmou que o modelo da IMO é experimental e não há plano de divulgá-lo tão cedo
  - A DeepMind explicou em seu blog oficial que treinou o Gemini com raciocínio em múltiplas etapas baseado em aprendizado por reforço e dados de prova de teoremas
- O post oficial da DeepSeek também foi compartilhado
Fico curioso sobre como rodar um modelo desses em casa
A dúvida é se seria possível em CPU com algo como 1 TB de RAM
- Só os dados para download têm 690 GB, então parece que seria preciso 1 TB de RAM. Nem com minhas duas máquinas Strix Halo isso dá
- Com ik_llama.cpp, RAM suficiente e uma GPU, dá para rodar, ainda que lentamente. O llama.cpp normal também funciona, mas o fork ik é mais eficiente
- Disseram que também daria com dois Mac Studio de 512 GB ligados por Thunderbolt 5
Há suspeita de que esse modelo talvez tenha sido destilado (distill) diretamente a partir das saídas da OpenAI ou do Google
Fico curioso se há planos de colocar esse modelo no OpenRouter
Será que, se a OpenAI colocar anúncios no ChatGPT, as pessoas não migrariam imediatamente para outros modelos?
- Acho que o ideal seria vários provedores oferecerem modelos de uso geral competindo a preço de mercado
- Com ou sem anúncios, eu não confio na OpenAI. Antes de mudar o nome para CloseAI, fica difícil confiar
- O ChatGPT é só um site. Não é estranho um site ter anúncios. O Instagram é igual
- Eles já têm uma estrutura de receita por meio de datacenters de GPU e APIs. Mesmo com concorrência, devem continuar sendo a primeira opção por algum tempo
- O Google também exibiu anúncios por décadas, e ninguém migrou para outro buscador

Lançamento do DeepSeekMath-V2 - Rumo ao raciocínio matemático auto-verificável

1. Introdução (Introduction)

2. Resultados de avaliação (Evaluation Results)

3. Arquitetura do modelo (Model Architecture)

4. Licença (License)

5. Citação (Citation)

6. Informações adicionais

Leituras relacionadas

1 comentários

Comentários no Hacker News