Algo está acontecendo na terra do Qwen

(simonwillison.net)

5 pontos por GN⁺ 2026-03-05 | 2 comentários | Compartilhar no WhatsApp

A saída em massa de pesquisadores centrais da equipe Qwen da Alibaba torna incerto o futuro da recém-divulgada série de modelos Qwen 3.5
O líder da equipe, Lin Junyang, anunciou sua saída, e vários integrantes-chave deixaram a empresa em seguida
A recém-lançada família de modelos Qwen 3.5 vem chamando ainda mais atenção por apresentar ótimo desempenho até em modelos pequenos
A possibilidade de desintegração da equipe Qwen pode se tornar um ponto de inflexão importante para o ecossistema chinês de pesquisa em IA open source

Mudanças de pessoal na equipe Qwen

Logo após a divulgação da série de modelos Qwen 3.5 da Alibaba, o líder da equipe, Lin Junyang, anunciou sua saída no X (antigo Twitter) com a mensagem “me stepping down. bye my beloved qwen.”
- Lin foi um pesquisador central que liderou a divulgação dos modelos de pesos abertos do Qwen desde 2024 e era uma das pessoas mais jovens no nível P10 dentro da Alibaba
Segundo reportagem do veículo chinês 36Kr, por volta das 13h de 4 de março, o Tongyi Lab da Alibaba realizou uma reunião geral de emergência, e o CEO Wu Yongming explicou pessoalmente a situação à equipe Qwen
- A saída de Lin havia sido anunciada 12 horas antes, às 0h11 da madrugada, e, segundo a reportagem, o impacto interno foi grande
- Por volta das 14h, Lin deixou no WeChat a mensagem “Irmãos do Qwen, sigam com o plano original. Não há problema”, mas não esclareceu se retornaria
- Integrantes da equipe Qwen disseram ao 36Kr que, mesmo com muito menos recursos do que os concorrentes, a liderança de Junyang foi o fator central para alcançar os resultados atuais
Como possível gatilho para a saída, menciona-se uma reestruturação organizacional interna na Alibaba, na qual um novo pesquisador vindo da equipe Gemini do Google teria sido colocado como responsável pelo Qwen, mas isso não foi confirmado

Saída em série de integrantes-chave

Após a saída de Lin, foi confirmado que vários membros centrais também deixaram a empresa
- Binyuan Hui: líder de desenvolvimento de código do Qwen, responsável geral pela série Qwen-Coder, encarregado de todo o processo de treinamento de agentes e, recentemente, envolvido em pesquisa em robótica
- Bowen Yu: líder de pós-treinamento (post-training) do Qwen, liderou o desenvolvimento da série Qwen-Instruct
- Kaixin Li: contribuidor central para Qwen 3.5/VL/Coder, doutor pela Universidade Nacional de Singapura
- Além deles, foi noticiado que vários jovens pesquisadores também teriam saído no mesmo dia
O fato de o CEO da Alibaba ter participado pessoalmente da reunião mostra que a empresa reconhece a gravidade da situação

Características dos modelos Qwen 3.5

O Qwen 3.5 é uma família de modelos de pesos abertos divulgada pela equipe Qwen da Alibaba nas últimas semanas, com desempenho muito forte
- O Qwen3.5-397B-A17B, divulgado em 17 de fevereiro, é um modelo de grande porte com 807GB
- Depois dele, foram divulgados em sequência modelos de vários tamanhos, como 122B, 35B, 27B, 9B, 4B, 2B e 0.8B
Os modelos 27B e 35B foram bem avaliados em programação, e os modelos 9B, 4B e 2B são muito eficientes para o tamanho que têm
- Os modelos 27B e 35B podem rodar em Macs de 32GB/64GB e ainda assim lidam muito bem com tarefas de código
- Em especial, o modelo 2B tem apenas 4.57GB (1.27GB com quantização), mas suporta tanto inferência quanto recursos multimodais (visão)

Perspectivas futuras

Se a equipe Qwen for desfeita, existe a possibilidade de que os avanços de pesquisa que vinham entregando alto desempenho em modelos pequenos sejam interrompidos
Se os integrantes da equipe criarem um novo instituto de pesquisa ou se juntarem a outras organizações, ainda há expectativa por pesquisas futuras
A situação atual ainda é “incerta”, e permanece a possibilidade de a Alibaba manter parte da equipe

Fontes externas consultadas

Este conteúdo se baseia, entre outros, em artigo em chinês do 36Kr.com e post de Lin Junyang no X
O 36Kr, fundado em 2010, é um veículo especializado na indústria de tecnologia da China e possui histórico de cobertura confiável

2 comentários

mammal 2026-03-05

A saída do Lin Junyang é um choque mesmo. Estou usando bastante o Qwen 3.5 35B-A3B, então estava na expectativa pelo Qwen 4 😢

GN⁺ 2026-03-05

Comentários do Hacker News

Espero que o desenvolvimento não sofra interferência demais. Como o Simon disse, o Qwen3.5 é realmente impressionante
Testei o Qwen3.5-35B-A3B nos últimos dias e, entre todos os modelos que já usei, ele tem a melhor capacidade de codificação agentic até agora
Fiz ele escrever código em Rust e Elixir com o Pi harness, e ele criou os próprios testes e verificou se passavam. Lida bem com loops de erro de teste ou compilação enquanto continua avançando em direção ao objetivo
- Rodei o 3.5:122b em um GH200 e, em trabalho com Rust/React/TS, ele fica um pouco abaixo do Sonnet, mas lida muito bem com tarefas menores
  Só que às vezes resolve ignorar as instruções no meio do caminho porque “isso seria mais simples” e apaga todo o código de suporte
- Também testei com Rust, e às vezes ele caiu em loop infinito e depois saiu sozinho
  Escolheu deadpool e deadpool-r2d2 na fase de planejamento e acabou se confundindo. Mesmo assim, no geral o código é bom, e parece que só a camada de banco de dados precisa de alguns ajustes
  Até agora é o modelo self-hosted mais estável que já vi
- Usei o modelo denso de 27B e notei bem menos loops e repetições desnecessárias
- Por acaso você está rodando localmente com llama.cpp? Com o chat template padrão, a chamada de ferramentas falhou, mas com este template funcionou muito melhor
- Queria saber em que hardware você está rodando isso. Você sente que dá para substituir os modelos frontier no uso cotidiano de programação?
Disseram que houve tensão entre a equipe de pesquisa do Qwen e a equipe de produto da Alibaba. Ouvi dizer que a Alibaba tentou recentemente forçar DAU como KPI
Do ponto de vista da empresa, dá para entender a mudança de estratégia, mas fico me perguntando por que afastaram os pesquisadores centrais. Não estamos justamente em uma época de escassez de pesquisadores de modelos?
- Talvez estivessem tentando transformar os futuros modelos Qwen em modelos comerciais fechados, e a equipe de pesquisa não tenha aceitado isso
Fico me perguntando por que laboratórios americanos não investem quantias enormes nesse tipo de talento
- Na minha região (Ohio), o ICE está reprimindo chineses. Até pessoas em situação legal sentem risco de deportação
  Nesse clima, por mais dinheiro que os laboratórios dos EUA gastem, fica difícil atrair talentos
- Os EUA fizeram até mesmo imigrantes legais ficarem expostos ao risco de detenção
- A Europa precisa desenvolver modelos concorrentes para se preparar para o caos político dos EUA
- Quem já foi atraído pelo capital dos EUA já saiu, e a China também já investe bastante dinheiro
  Além disso, em empresas chinesas é possível ter mais influência nas decisões
- O problema não é apenas o corte no orçamento da NSF. Questões de saúde, risco de guerra e a incerteza para pesquisadores estrangeiros reduziram o apelo dos EUA
  Desde o governo Trump já houve queda na entrada de estudantes estrangeiros, e agora fazer doutorado nos EUA chega a ser visto como um risco reputacional
Quando usam modelos locais, as pessoas tendem a ser mais tolerantes com tentativa e erro
Quando um modelo em nuvem desperdiça tokens, parece dinheiro jogado fora; quando um modelo local entra em loop, a sensação é de que “ele está pensando”
Se modelos como o Qwen ficarem bons o suficiente para programação local, a mudança provavelmente será mais econômica do que técnica
- O desperdício de tokens em modelos locais é até bem-vindo. O mainframe de GPU no meu quarto também funciona como aquecedor (graças à situação instável do aquecimento na Suíça)
Rodei o modelo 32B localmente por alguns dias, e ele lida muito bem com codificação agentic
O desempenho é excelente para o tamanho, mas ele tende a ignorar metade de instruções longas. Nesse porte, é um trade-off aceitável
Como matemático, usei o Qwen para automatizar relações e resumos entre artigos
Ele chegou até a fazer verificação de citações incorretas, e isso foi usado em artigos no arXiv
Os resultados estão reunidos nesta página
Espero que a equipe de pesquisa continue em outro lugar a disputa por modelos open-weight
Na verdade, eu achava que esse tipo de pesquisa deveria ser apoiado pelo governo, mas agora são empresas chinesas que estão ocupando esse papel
O Qwen3.5 é realmente excelente. Rodei a versão 35B em uma Ada NextGen 24GB com easy-llm-cli e ficou quase no nível do Gemini 3 Pro
A velocidade também foi bem boa
- Com a configuração q4 quant consegui 175 tg e 7K pp, e foi mais eficiente do que a maioria dos provedores em nuvem
Ultimamente parece que o clima mudou de “a IA vai substituir as pessoas” para “a IA morre sem certas pessoas”. É uma virada dramática
- A disponibilidade da Anthropic não é 99,9999999%, mas só algo na faixa de 90%. Dá para ver na página de status
  Se a IA pudesse realmente substituir completamente as pessoas, os CEOs não precisariam se esforçar tanto para convencer os outros disso
- Dizer que “a IA morre sem certas pessoas” é exagero. As pessoas só estão curiosas sobre o rumo da família de modelos Qwen
- A mudança da meta de AGI para uma estratégia de curto prazo centrada em publicidade mostra bem a situação atual
- O Claude não consegue nem criar um app nativo por conta própria, e até a web app é instável, o que teria sido o motivo de a Anthropic adquirir a Bun
Esquece, aqui é Chinatown