VibeThinker-3B: modelo de 3B supera o desempenho de raciocínio do Opus 4.5 com SFT+GRPO

(arxiv.org)

2 pontos por GN⁺ 5 시간 전 | 1 comentários | Compartilhar no WhatsApp

VibeThinker-3B é um modelo denso pequeno que experimenta até onde é possível comprimir raciocínio verificável com apenas 3B de parâmetros
O pipeline de treinamento combina ajuste fino supervisionado com currículo, aprendizado por reforço multi-domínio e autodestilação offline com base no pós-treinamento Spectrum-to-Signal
Registrou 94,3 no AIME26 e 97,1 com CLR aplicado, além de LiveCodeBench v6 Pass@1 de 80,2 e taxa de aceitação de 96,1% em concursos recentes e ainda não divulgados do LeetCode
Mesmo assim, entra em uma faixa de desempenho semelhante ou superior à de modelos flagship muito maiores como DeepSeek V3.2, GLM-5 e Gemini 3 Pro, mantendo controle rígido de instruções com 93,4 no IFEval
A Hipótese de Compressão-Cobertura Paramétrica propõe que o raciocínio verificável pode ser comprimido em um pequeno reasoning core, mas que conhecimento aberto e capacidades gerais exigem cobertura paramétrica mais ampla

Experimento que levou o raciocínio verificável ao limite com um modelo de 3B

VibeThinker-3B é um modelo denso pequeno na escala de 3B de parâmetros
O objetivo é verificar até onde o desempenho em raciocínio verificável pode ser elevado mesmo sob um regime estrito de modelo pequeno
O pós-treinamento foi estruturado sobre o paradigma Spectrum-to-Signal
- ajuste fino supervisionado baseado em currículo
- aprendizado por reforço multi-domínio
- autodestilação offline
Este resultado segue a linha de expansão do trabalho anterior com 1.5B

Faixa de desempenho observada nas avaliações

Mostra desempenho de nível frontier em avaliações de matemática, programação e seguimento de instruções
- AIME26: 94,3
- AIME26 + CLR: 97,1
- LiveCodeBench v6: Pass@1 80,2
- concurso recente e ainda não divulgado do LeetCode: taxa de aceitação de 96,1%
- IFEval: 93,4
CLR significa Claim-Level Reliability Assessment e é uma estratégia de test-time scaling em nível de claim
Os modelos comparados na Figure 1 incluem Qwen3.6 Plus, Gemini 3 Pro, GLM-5, Kimi K2.5 e Claude Opus 4.5
Pelos resultados reportados, o VibeThinker-3B pode entrar em uma faixa de desempenho igual ou superior à de modelos flagship muito maiores, como DeepSeek V3.2, GLM-5 e Gemini 3 Pro
Na comparação de escala de parâmetros, o VibeThinker-3B aparece com 3B
- Qwen3.5-4B: 4B
- GPT-OSS-20B: 20B
- MiniMax M2.7: 229B
- DeepSeek V3.2: 671B
- GLM-5: 744B
- Kimi K2.5: 1T
A Hipótese de Compressão-Cobertura Paramétrica vê modelos compactos não como simples substitutos eficientes para implantação, mas como um caminho complementar para alcançar desempenho de nível frontier em áreas de capacidade com alta densidade paramétrica

1 comentários

GN⁺ 5 시간 전

Comentários do Hacker News

Fico me perguntando se isto é basicamente um modelo pequeno treinado para raciocinar bem e só isso
Parece uma pessoa inteligente que talvez não saiba de um tema específico, mas que pesquisa com afinco se você lhe der ferramentas
Seria realmente ótimo se, em vez de fazer o modelo aprender todo o conhecimento, fosse possível treiná-lo apenas a aprender, para que ele se virasse sozinho com dispositivos pequenos como um Pi Zero e uma conexão com a internet
- Sonho com algo assim há muito tempo
  Em vez de codificar todo o conhecimento nos parâmetros, eu me perguntava como seria fazer um modelo que, mesmo com o mesmo tamanho, usasse a maior parte disso para raciocínio
  Bastaria dar capacidade de navegar na internet e fazê-lo consultar especificações de linguagem, documentação e boas práticas
  Não entendo por que meu agente de programação precisa saber a população de New York, receita de cheesecake ou o tempo de vida de um avestruz
  Você dá a ele apenas o conhecimento mínimo necessário para pensar e raciocinar, e ele descobre o resto sozinho
  O triste é que os grandes modelos de linguagem atuais são, no fim das contas, previsão de tokens, então não funcionam assim
- É quase o contrário
  O raciocínio é um subproduto que emerge do treinamento com todo o conhecimento, e mesmo nesse formato o modelo não “sabe” algo, ele apenas gera tokens
  Se você não o treinar com um grande conjunto de dados cheio de muitas palavras e conexões plausíveis entre elas, ele não consegue formar ligações adequadas entre palavras e frases, e portanto também não consegue raciocinar
  Se você treinar um modelo pequeno com um conjunto de dados muito pequeno, verá saídas desconexas e sem sentido
  Seria interessante otimizar o dataset para extrair o máximo de geração com o mínimo de dados, mas para uma empresa construir um modelo de ponta, economicamente faz muito mais sentido adicionar mais algumas GPUs do que fazer esse esforço
- Dá para treinar o modelo para lidar razoavelmente bem com lógica booleana, lógica modal e matemática, mas há um grande abismo entre isso e dizer que ele “pensa sobre objetos”
  Por exemplo, até uma pergunta muito básica como colocar uma bola em um copo, virar o copo e colocá-lo sobre a mesa, depois levantar o copo e colocá-lo dentro de uma caixa exige conhecimento que não está explicitado no problema, especialmente conhecimento sobre gravidade
  Se você tentar definir todos os termos de forma rigorosa, logo cai num pântano de complexidade
  Para entender instruções, é preciso conhecimento básico sobre objetos, e se ele só souber raciocinar, não terá noção do que deve alcançar
  Existe uma ruptura bastante clara entre o vasto repositório de texto com que o modelo é treinado e a capacidade de considerar um tema de forma robusta
  Também fico curioso se é possível orientar esse caminho pela ordem do treinamento
  Por exemplo, se ele aprendesse alfabetização básica com TinyStories, depois textos de matemática e filosofia, depois textos de psicologia e sociologia, e por fim grandes volumes de dados incluindo diálogos, postagens raivosas, código e romances, ele seria muito diferente de um modelo treinado primeiro com atuação, escrita criativa e fantasia, e depois com esse mesmo grande dataset final?
  Também tenho curiosidade sobre o quanto as capacidades atuais influenciam a contextualização de novos dados de treinamento
- Na prática, é o contrário
  Ele foi treinado para resolver problemas gerando um longo processo de pensamento (CoT), e faz isso bem, mas quase não tem capacidade de chamar ferramentas e quase não consegue gerenciar mais de 1 ou 2 mensagens
  Basta ver o aviso no topo de https://huggingface.co/WeiboAI/VibeThinker-3B
- Estou obcecado com essa ideia há algum tempo, e a linha Qwen com raciocínio do Opus destilado também funciona muito bem
  Acho que a próxima frente é otimizar os modelos para que sejam mais capazes com menos hardware
  Fica ainda mais interessante se isso passar a incluir aprendizado em tempo real
Com os avanços de modelos pequenos porém fortes, parece que eles estão superando a pura força de capital dos provedores de modelos mais avançados
Quero torcer pelos menores, mas talvez ainda seja cedo para afirmar isso
Por outro lado, também pode ser que os benchmarks atuais simplesmente não sejam eficientes o bastante para capturar o sucesso em fluxos de trabalho reais de desenvolvedores
- Acho que as pessoas ainda vão continuar se surpreendendo com a capacidade dos modelos pequenos
  Só que, se você tentar conversar com este modelo, ele provavelmente vai falhar e perder consistência
  Em compensação, a capacidade dele de raciocinar para resolver problemas de matemática é realmente muito boa
- Há alguns dias comecei a rodar qwen3.6:35b em um desktop Framework, e fiquei bastante impressionado
  Funciona bem, e me lembrou os primeiros modelos Claude que usei
  É o primeiro modelo local para agente de programação que testei e que realmente funcionou de um jeito utilizável, então estou bem animado
- Às vezes parece que a otimização está só começando agora
Para qualquer modelo ser útil, mesmo em tarefas restritas, ele precisa de um nível básico de inteligência
Dá para ensinar uma criança de 5 anos a dirigir? E de 10? E de 12?
Para dirigir, é preciso saber ler, avaliar condições como gelo na pista ou chuva, e prever uma criança correndo atrás de uma bola
Humanos adquirem esse tipo de conhecimento básico por volta da metade da adolescência
Mesmo modelos pequenos precisam de certo conhecimento básico para ir bem, ainda que seja em um domínio aparentemente estreito
Talvez não precisem de todo tipo de conhecimento raro dos modelos de fronteira, mas é bem possível que a linha de base seja mais alta do que parece à primeira vista
- Dizer que “para dirigir, é preciso saber ler” não faz sentido algum
  Para passar no teste de habilitação, talvez seja preciso saber ler, mas no mundo todo há muitas pessoas analfabetas que dirigem bem
  Há um motivo para placas de trânsito comuns terem sido feitas para serem reconhecidas só pela forma e pela cor
- É bem estranho ver esse tipo de comportamento humano básico sendo reduzido a algo como um jogo de computador só de texto
  Dirigir em si depende principalmente de memória muscular para controlar o carro, e por isso quem dirige muito às vezes entra em “piloto automático” em viagens longas enquanto pensa em algo completamente diferente
  Isso também é uma forma de conhecimento, mas só é adquirida por repetição
  Claro, para dirigir no trânsito é preciso muito mais, como uma compreensão básica das regras de trânsito, mas a maior parte da direção é memória muscular, entendimento do veículo e previsão do que vai acontecer a seguir
  Primatas são bons nisso porque evoluíram durante milhões de anos usando o corpo e observando os resultados
  Havia até um GIF de um orangotango dirigindo um carrinho de golfe, embora não esteja claro o quanto era real
  Pode ser mais útil ver modelos como ferramentas com capacidades específicas em domínios específicos, em vez de como humanos replicados do futuro
  Assim como não faz sentido pedir ao Opus 4.8 para dirigir um carro, também não faz sentido esperar que um pequeno modelo de imagem para dispositivos edge escreva um romance
  É melhor vê-los como ferramentas feitas para usos específicos
- Este tema parece interessante como pesquisa formal
  Acho que os verdadeiros obstáculos são a) julgamento, b) reflexos físicos e força
  Eu já entendia gelo, neve e chuva quando era criança
  Andava de bicicleta nas quatro estações e tinha pouca confiança na minha capacidade de controlar a bicicleta na neve ou em terreno molhado, especialmente nas mudanças de estação
  Essa experiência depois ajudou no aprendizado de dirigir no inverno do norte do Canadá, e apliquei as mesmas lições à direção
  Em ambientes sem consequências, já vi crianças controlarem simuladores de direção reais ou jogos de direção com precisão surpreendente
  Às vezes, crianças de 9 a 11 anos jogavam simulações e games com muito mais confiança do que motoristas adultos
  As crianças sabem que na simulação não há consequências e, sem uma motivação extra, agem de acordo com isso
  Já adultos que dirigem com frequência têm a tomada de decisão dominada por memória muscular e preconceitos prévios até quando jogam
  Fico curioso sobre quanto treinamento e exposição são necessários para crianças superarem a falta de percepção dos limites reais e das consequências de dirigir e errar ao dirigir, e, por outro lado, quanto seria necessário para um motorista experiente, mas novato em games, deixar de aplicar sua experiência real a uma simulação sem consequências
- Com 10 anos certamente dá, e com 5 anos seria por pouco, mas não é irrealista
  Saber ler não é necessário para dirigir um carro
  Mas dirigir na estrada junto com outras pessoas é uma história completamente diferente
- Para dirigir direito, também é preciso equilibrar exploração e aproveitamento
  Uma criança de três anos provavelmente vai querer explorar demais em situações em que errar é perigoso
  Isso exige não só conhecimento, mas também um sistema de controle que se desenvolve junto com o córtex pré-frontal
  LLMs ainda não conseguem fazer muito desse tipo de controle
É preciso notar que este resultado é exclusivo de Python
Em outras linguagens, ele provavelmente não vai tão bem assim
É bom ver mais SLMs especializados por domínio aparecendo
Um modelo mixture of experts (MoE) especializado em programação poderia funcionar bem em várias linguagens
- Se ele escrever Python funcional sem ficar fingindo ser programador Java e enchendo o código de classes e acessores, já é melhor que o Opus
- Há muita confusão sobre em que este modelo realmente é focado
  Este modelo é um especialista barato para tarefas de raciocínio verificáveis em mundo fechado, como matemática e problemas de programação autocontidos
  “Mundo fechado” significa que a informação necessária já está no contexto
  Não é um agente com uso de ferramentas para descobrir contexto ausente
  “Verificável” significa problemas em que é difícil gerar a resposta, mas fácil conferi-la
  Por isso, ele não serve bem para pesquisa aberta, tarefas de agente que lidam com um repositório inteiro, perguntas e respostas factuais ou geração de SVG
  Está mais para um pequeno módulo de raciocínio voltado a problemas com fronteiras bem definidas
O interessante em um modelo tão pequeno é que parece que ele caberia em um único chip da Taalas
O HC1 já roda o Llama 3.1 8B
Já chegamos ao ponto em que dá para executar raciocínio razoavelmente bom em ASICs, e em velocidades absurdas
- Seria incrível se a Taalas pudesse rodar um modelo 8B muito forte em melhorar saídas por meio de raciocínio a 16K tokens por segundo
Testei este modelo como substituto do GPT-5 nano em revisão de segurança de código-fonte, e ele está tendo algum sucesso
Estou rodando com vLLM em uma RTX 3090 com 24GB de VRAM
Como diz o model card, ele não é bom com saída estruturada, mas estou contornando isso no meu test harness
- Não daria para forçar saída estruturada com geração sob restrições?
- Fiquei curioso sobre como você está contornando isso
Tentei gerar o clássico SVG de um pelicano, mas falhou miseravelmente, mostrando só retângulos e círculos pretos
- Isso parece um resultado previsível
  O ponto principal parece ser que ele reduziu conhecimentos como “pelicanos têm asas”, mas preservou a capacidade central de raciocínio
  “Esta descoberta dá suporte à hipótese de compressão-cobertura de parâmetros. Essa hipótese sustenta que raciocínio verificável pode ser comprimido em um pequeno núcleo de raciocínio, mas conhecimento de domínio aberto e capacidades gerais exigem ampla cobertura de parâmetros sobre fatos, conceitos e cenários de cauda longa”
- Tente de novo, mas explique com cuidado o que são uma bicicleta e um pelicano, e como um pelicano se senta em cima de uma bicicleta
  Depois é só fornecer as tags SVG que você quer usar e a referência da documentação
  O resultado que obtive está aqui: https://9ol.es/tmp/pelican.png
  O prompt está em https://9ol.es/tmp/prompt_pelican.txt
  O modelo usado foi prithivMLmods/VibeThinker-3B-GGUF:Q4_K_M
- Mas esse não é um modelo para raciocínio, e não para geração de arte?
Ainda não dá para confiar nas avaliações e benchmarks
Como alguém poderia provar que o dataset de teste era realmente composto por exemplos inéditos?
Acho que a única forma de provar que esses modelos são tão bons quanto afirmam é esperar para ver se serão realmente adotados
- Para provar isso, no fim das contas seria preciso resolver o problema da caixa-preta, isto é, aproximar-se da meta de transparência
  Se for preciso implementar algo como um raciocinador, então será necessário projetar, implementar e testar a melhor arquitetura possível para isso
É muito legal ver surgirem modelos pequenos de linguagem tão competentes
Só que no Hugging Face está escrito o seguinte:
“This model was not trained on tool-calling or agent-based programming data. We therefore do not recommend using it for tasks that involve function calling, API orchestration, or autonomous coding agents.” - https://huggingface.co/WeiboAI/VibeThinker-3B
Então não dá para simplesmente conectá-lo a um harness de código como o pi.dev
Melhor em raciocínio do que o Opus 4.5?
Prompt: “Se A vai até B, e B em seguida vai até C, A pode enviar algo para C?”
A resposta foi esta:
“É preciso interpretar isso da forma mais apropriada. Esta frase pode ser um enigma envolvendo o conceito de enviar algo, como passar uma bola, e relações.
Cenário: A dá algo a B, e B passa isso para C.
Pergunta: A também pode dar a mesma coisa a C?
Resposta: Isso só é possível se A puder obter uma segunda cópia, por exemplo, se o objeto for duplicado. Caso contrário, depois de entregá-lo a B, A não o possui mais, então sem uma cópia não pode ‘enviá-lo’.”
Além disso, veio com um monte de explicações e “cenários” desnecessários e ainda menos coerentes
- Rodei a mesma consulta, e embora a saída seja enorme, parece que ele está raciocinando para resolver a ambiguidade da frase
  Ainda assim, acertou a resposta
  E, além disso, comparando a quantidade de operações de ponto flutuante usada para chegar à resposta com o Opus, eu ainda consideraria isso um ganho líquido
  Meu palpite é que um modelo do porte do Opus tem atalhos codificados para lidar com casos ambíguos como esse, enquanto este modelo parece ter aprendido um programa que raciocina na hora sobre casos de fronteira
  É algo mais próximo da diferença entre inteligência cristalizada e inteligência fluida
  Os modelos de fronteira parecem memorizar probabilidades; o VibeThinker parece calcular na hora
- A explicação de controle de qualidade diz o seguinte:
  “Controle de qualidade em múltiplas etapas.”
  “Filtragem da qualidade das consultas com base em grandes modelos de linguagem. Usamos grandes modelos de linguagem de alto desempenho para avaliar a qualidade das consultas e filtramos amostras com explicações incompletas, condições irrazoáveis, lógica incorreta ou incapazes de avaliar com eficácia o ponto de conhecimento pretendido.”
- Eu, como humano, também não sei como interpretar esse prompt
- Se A vai até B e B depois vai até C, C conhece A?

VibeThinker-3B: modelo de 3B supera o desempenho de raciocínio do Opus 4.5 com SFT+GRPO

Experimento que levou o raciocínio verificável ao limite com um modelo de 3B

Faixa de desempenho observada nas avaliações

Leituras relacionadas

1 comentários

Comentários do Hacker News