- VibeThinker-3B é um modelo denso pequeno que experimenta até onde é possível comprimir raciocínio verificável com apenas 3B de parâmetros
- O pipeline de treinamento combina ajuste fino supervisionado com currículo, aprendizado por reforço multi-domínio e autodestilação offline com base no pós-treinamento Spectrum-to-Signal
- Registrou 94,3 no AIME26 e 97,1 com CLR aplicado, além de LiveCodeBench v6 Pass@1 de 80,2 e taxa de aceitação de 96,1% em concursos recentes e ainda não divulgados do LeetCode
- Mesmo assim, entra em uma faixa de desempenho semelhante ou superior à de modelos flagship muito maiores como DeepSeek V3.2, GLM-5 e Gemini 3 Pro, mantendo controle rígido de instruções com 93,4 no IFEval
- A Hipótese de Compressão-Cobertura Paramétrica propõe que o raciocínio verificável pode ser comprimido em um pequeno reasoning core, mas que conhecimento aberto e capacidades gerais exigem cobertura paramétrica mais ampla
Experimento que levou o raciocínio verificável ao limite com um modelo de 3B
- VibeThinker-3B é um modelo denso pequeno na escala de 3B de parâmetros
- O objetivo é verificar até onde o desempenho em raciocínio verificável pode ser elevado mesmo sob um regime estrito de modelo pequeno
- O pós-treinamento foi estruturado sobre o paradigma Spectrum-to-Signal
- ajuste fino supervisionado baseado em currículo
- aprendizado por reforço multi-domínio
- autodestilação offline
- Este resultado segue a linha de expansão do trabalho anterior com 1.5B
Faixa de desempenho observada nas avaliações
- Mostra desempenho de nível frontier em avaliações de matemática, programação e seguimento de instruções
- AIME26: 94,3
- AIME26 + CLR: 97,1
- LiveCodeBench v6: Pass@1 80,2
- concurso recente e ainda não divulgado do LeetCode: taxa de aceitação de 96,1%
- IFEval: 93,4
- CLR significa Claim-Level Reliability Assessment e é uma estratégia de test-time scaling em nível de claim
- Os modelos comparados na Figure 1 incluem Qwen3.6 Plus, Gemini 3 Pro, GLM-5, Kimi K2.5 e Claude Opus 4.5
- Pelos resultados reportados, o VibeThinker-3B pode entrar em uma faixa de desempenho igual ou superior à de modelos flagship muito maiores, como DeepSeek V3.2, GLM-5 e Gemini 3 Pro
- Na comparação de escala de parâmetros, o VibeThinker-3B aparece com 3B
- Qwen3.5-4B: 4B
- GPT-OSS-20B: 20B
- MiniMax M2.7: 229B
- DeepSeek V3.2: 671B
- GLM-5: 744B
- Kimi K2.5: 1T
- A Hipótese de Compressão-Cobertura Paramétrica vê modelos compactos não como simples substitutos eficientes para implantação, mas como um caminho complementar para alcançar desempenho de nível frontier em áreas de capacidade com alta densidade paramétrica
1 comentários
Comentários do Hacker News
Fico me perguntando se isto é basicamente um modelo pequeno treinado para raciocinar bem e só isso
Parece uma pessoa inteligente que talvez não saiba de um tema específico, mas que pesquisa com afinco se você lhe der ferramentas
Seria realmente ótimo se, em vez de fazer o modelo aprender todo o conhecimento, fosse possível treiná-lo apenas a aprender, para que ele se virasse sozinho com dispositivos pequenos como um Pi Zero e uma conexão com a internet
Em vez de codificar todo o conhecimento nos parâmetros, eu me perguntava como seria fazer um modelo que, mesmo com o mesmo tamanho, usasse a maior parte disso para raciocínio
Bastaria dar capacidade de navegar na internet e fazê-lo consultar especificações de linguagem, documentação e boas práticas
Não entendo por que meu agente de programação precisa saber a população de New York, receita de cheesecake ou o tempo de vida de um avestruz
Você dá a ele apenas o conhecimento mínimo necessário para pensar e raciocinar, e ele descobre o resto sozinho
O triste é que os grandes modelos de linguagem atuais são, no fim das contas, previsão de tokens, então não funcionam assim
O raciocínio é um subproduto que emerge do treinamento com todo o conhecimento, e mesmo nesse formato o modelo não “sabe” algo, ele apenas gera tokens
Se você não o treinar com um grande conjunto de dados cheio de muitas palavras e conexões plausíveis entre elas, ele não consegue formar ligações adequadas entre palavras e frases, e portanto também não consegue raciocinar
Se você treinar um modelo pequeno com um conjunto de dados muito pequeno, verá saídas desconexas e sem sentido
Seria interessante otimizar o dataset para extrair o máximo de geração com o mínimo de dados, mas para uma empresa construir um modelo de ponta, economicamente faz muito mais sentido adicionar mais algumas GPUs do que fazer esse esforço
Por exemplo, até uma pergunta muito básica como colocar uma bola em um copo, virar o copo e colocá-lo sobre a mesa, depois levantar o copo e colocá-lo dentro de uma caixa exige conhecimento que não está explicitado no problema, especialmente conhecimento sobre gravidade
Se você tentar definir todos os termos de forma rigorosa, logo cai num pântano de complexidade
Para entender instruções, é preciso conhecimento básico sobre objetos, e se ele só souber raciocinar, não terá noção do que deve alcançar
Existe uma ruptura bastante clara entre o vasto repositório de texto com que o modelo é treinado e a capacidade de considerar um tema de forma robusta
Também fico curioso se é possível orientar esse caminho pela ordem do treinamento
Por exemplo, se ele aprendesse alfabetização básica com TinyStories, depois textos de matemática e filosofia, depois textos de psicologia e sociologia, e por fim grandes volumes de dados incluindo diálogos, postagens raivosas, código e romances, ele seria muito diferente de um modelo treinado primeiro com atuação, escrita criativa e fantasia, e depois com esse mesmo grande dataset final?
Também tenho curiosidade sobre o quanto as capacidades atuais influenciam a contextualização de novos dados de treinamento
Ele foi treinado para resolver problemas gerando um longo processo de pensamento (CoT), e faz isso bem, mas quase não tem capacidade de chamar ferramentas e quase não consegue gerenciar mais de 1 ou 2 mensagens
Basta ver o aviso no topo de https://huggingface.co/WeiboAI/VibeThinker-3B
Acho que a próxima frente é otimizar os modelos para que sejam mais capazes com menos hardware
Fica ainda mais interessante se isso passar a incluir aprendizado em tempo real
Com os avanços de modelos pequenos porém fortes, parece que eles estão superando a pura força de capital dos provedores de modelos mais avançados
Quero torcer pelos menores, mas talvez ainda seja cedo para afirmar isso
Por outro lado, também pode ser que os benchmarks atuais simplesmente não sejam eficientes o bastante para capturar o sucesso em fluxos de trabalho reais de desenvolvedores
Só que, se você tentar conversar com este modelo, ele provavelmente vai falhar e perder consistência
Em compensação, a capacidade dele de raciocinar para resolver problemas de matemática é realmente muito boa
Funciona bem, e me lembrou os primeiros modelos Claude que usei
É o primeiro modelo local para agente de programação que testei e que realmente funcionou de um jeito utilizável, então estou bem animado
Para qualquer modelo ser útil, mesmo em tarefas restritas, ele precisa de um nível básico de inteligência
Dá para ensinar uma criança de 5 anos a dirigir? E de 10? E de 12?
Para dirigir, é preciso saber ler, avaliar condições como gelo na pista ou chuva, e prever uma criança correndo atrás de uma bola
Humanos adquirem esse tipo de conhecimento básico por volta da metade da adolescência
Mesmo modelos pequenos precisam de certo conhecimento básico para ir bem, ainda que seja em um domínio aparentemente estreito
Talvez não precisem de todo tipo de conhecimento raro dos modelos de fronteira, mas é bem possível que a linha de base seja mais alta do que parece à primeira vista
Para passar no teste de habilitação, talvez seja preciso saber ler, mas no mundo todo há muitas pessoas analfabetas que dirigem bem
Há um motivo para placas de trânsito comuns terem sido feitas para serem reconhecidas só pela forma e pela cor
Dirigir em si depende principalmente de memória muscular para controlar o carro, e por isso quem dirige muito às vezes entra em “piloto automático” em viagens longas enquanto pensa em algo completamente diferente
Isso também é uma forma de conhecimento, mas só é adquirida por repetição
Claro, para dirigir no trânsito é preciso muito mais, como uma compreensão básica das regras de trânsito, mas a maior parte da direção é memória muscular, entendimento do veículo e previsão do que vai acontecer a seguir
Primatas são bons nisso porque evoluíram durante milhões de anos usando o corpo e observando os resultados
Havia até um GIF de um orangotango dirigindo um carrinho de golfe, embora não esteja claro o quanto era real
Pode ser mais útil ver modelos como ferramentas com capacidades específicas em domínios específicos, em vez de como humanos replicados do futuro
Assim como não faz sentido pedir ao Opus 4.8 para dirigir um carro, também não faz sentido esperar que um pequeno modelo de imagem para dispositivos edge escreva um romance
É melhor vê-los como ferramentas feitas para usos específicos
Acho que os verdadeiros obstáculos são a) julgamento, b) reflexos físicos e força
Eu já entendia gelo, neve e chuva quando era criança
Andava de bicicleta nas quatro estações e tinha pouca confiança na minha capacidade de controlar a bicicleta na neve ou em terreno molhado, especialmente nas mudanças de estação
Essa experiência depois ajudou no aprendizado de dirigir no inverno do norte do Canadá, e apliquei as mesmas lições à direção
Em ambientes sem consequências, já vi crianças controlarem simuladores de direção reais ou jogos de direção com precisão surpreendente
Às vezes, crianças de 9 a 11 anos jogavam simulações e games com muito mais confiança do que motoristas adultos
As crianças sabem que na simulação não há consequências e, sem uma motivação extra, agem de acordo com isso
Já adultos que dirigem com frequência têm a tomada de decisão dominada por memória muscular e preconceitos prévios até quando jogam
Fico curioso sobre quanto treinamento e exposição são necessários para crianças superarem a falta de percepção dos limites reais e das consequências de dirigir e errar ao dirigir, e, por outro lado, quanto seria necessário para um motorista experiente, mas novato em games, deixar de aplicar sua experiência real a uma simulação sem consequências
Saber ler não é necessário para dirigir um carro
Mas dirigir na estrada junto com outras pessoas é uma história completamente diferente
Uma criança de três anos provavelmente vai querer explorar demais em situações em que errar é perigoso
Isso exige não só conhecimento, mas também um sistema de controle que se desenvolve junto com o córtex pré-frontal
LLMs ainda não conseguem fazer muito desse tipo de controle
É preciso notar que este resultado é exclusivo de Python
Em outras linguagens, ele provavelmente não vai tão bem assim
É bom ver mais SLMs especializados por domínio aparecendo
Um modelo mixture of experts (MoE) especializado em programação poderia funcionar bem em várias linguagens
Este modelo é um especialista barato para tarefas de raciocínio verificáveis em mundo fechado, como matemática e problemas de programação autocontidos
“Mundo fechado” significa que a informação necessária já está no contexto
Não é um agente com uso de ferramentas para descobrir contexto ausente
“Verificável” significa problemas em que é difícil gerar a resposta, mas fácil conferi-la
Por isso, ele não serve bem para pesquisa aberta, tarefas de agente que lidam com um repositório inteiro, perguntas e respostas factuais ou geração de SVG
Está mais para um pequeno módulo de raciocínio voltado a problemas com fronteiras bem definidas
O interessante em um modelo tão pequeno é que parece que ele caberia em um único chip da Taalas
O HC1 já roda o Llama 3.1 8B
Já chegamos ao ponto em que dá para executar raciocínio razoavelmente bom em ASICs, e em velocidades absurdas
Testei este modelo como substituto do GPT-5 nano em revisão de segurança de código-fonte, e ele está tendo algum sucesso
Estou rodando com vLLM em uma RTX 3090 com 24GB de VRAM
Como diz o model card, ele não é bom com saída estruturada, mas estou contornando isso no meu test harness
Tentei gerar o clássico SVG de um pelicano, mas falhou miseravelmente, mostrando só retângulos e círculos pretos
O ponto principal parece ser que ele reduziu conhecimentos como “pelicanos têm asas”, mas preservou a capacidade central de raciocínio
“Esta descoberta dá suporte à hipótese de compressão-cobertura de parâmetros. Essa hipótese sustenta que raciocínio verificável pode ser comprimido em um pequeno núcleo de raciocínio, mas conhecimento de domínio aberto e capacidades gerais exigem ampla cobertura de parâmetros sobre fatos, conceitos e cenários de cauda longa”
Depois é só fornecer as tags SVG que você quer usar e a referência da documentação
O resultado que obtive está aqui: https://9ol.es/tmp/pelican.png
O prompt está em https://9ol.es/tmp/prompt_pelican.txt
O modelo usado foi prithivMLmods/VibeThinker-3B-GGUF:Q4_K_M
Ainda não dá para confiar nas avaliações e benchmarks
Como alguém poderia provar que o dataset de teste era realmente composto por exemplos inéditos?
Acho que a única forma de provar que esses modelos são tão bons quanto afirmam é esperar para ver se serão realmente adotados
Se for preciso implementar algo como um raciocinador, então será necessário projetar, implementar e testar a melhor arquitetura possível para isso
É muito legal ver surgirem modelos pequenos de linguagem tão competentes
Só que no Hugging Face está escrito o seguinte:
“This model was not trained on tool-calling or agent-based programming data. We therefore do not recommend using it for tasks that involve function calling, API orchestration, or autonomous coding agents.” - https://huggingface.co/WeiboAI/VibeThinker-3B
Então não dá para simplesmente conectá-lo a um harness de código como o pi.dev
Melhor em raciocínio do que o Opus 4.5?
Prompt: “Se A vai até B, e B em seguida vai até C, A pode enviar algo para C?”
A resposta foi esta:
“É preciso interpretar isso da forma mais apropriada. Esta frase pode ser um enigma envolvendo o conceito de enviar algo, como passar uma bola, e relações.
Cenário: A dá algo a B, e B passa isso para C.
Pergunta: A também pode dar a mesma coisa a C?
Resposta: Isso só é possível se A puder obter uma segunda cópia, por exemplo, se o objeto for duplicado. Caso contrário, depois de entregá-lo a B, A não o possui mais, então sem uma cópia não pode ‘enviá-lo’.”
Além disso, veio com um monte de explicações e “cenários” desnecessários e ainda menos coerentes
Ainda assim, acertou a resposta
E, além disso, comparando a quantidade de operações de ponto flutuante usada para chegar à resposta com o Opus, eu ainda consideraria isso um ganho líquido
Meu palpite é que um modelo do porte do Opus tem atalhos codificados para lidar com casos ambíguos como esse, enquanto este modelo parece ter aprendido um programa que raciocina na hora sobre casos de fronteira
É algo mais próximo da diferença entre inteligência cristalizada e inteligência fluida
Os modelos de fronteira parecem memorizar probabilidades; o VibeThinker parece calcular na hora
“Controle de qualidade em múltiplas etapas.”
“Filtragem da qualidade das consultas com base em grandes modelos de linguagem. Usamos grandes modelos de linguagem de alto desempenho para avaliar a qualidade das consultas e filtramos amostras com explicações incompletas, condições irrazoáveis, lógica incorreta ou incapazes de avaliar com eficácia o ponto de conhecimento pretendido.”