- A saída em massa de pesquisadores centrais da equipe Qwen da Alibaba torna incerto o futuro da recém-divulgada série de modelos Qwen 3.5
- O líder da equipe, Lin Junyang, anunciou sua saída, e vários integrantes-chave deixaram a empresa em seguida
- A recém-lançada família de modelos Qwen 3.5 vem chamando ainda mais atenção por apresentar ótimo desempenho até em modelos pequenos
- A possibilidade de desintegração da equipe Qwen pode se tornar um ponto de inflexão importante para o ecossistema chinês de pesquisa em IA open source
Mudanças de pessoal na equipe Qwen
- Logo após a divulgação da série de modelos Qwen 3.5 da Alibaba, o líder da equipe, Lin Junyang, anunciou sua saída no X (antigo Twitter) com a mensagem “me stepping down. bye my beloved qwen.”
- Lin foi um pesquisador central que liderou a divulgação dos modelos de pesos abertos do Qwen desde 2024 e era uma das pessoas mais jovens no nível P10 dentro da Alibaba
- Segundo reportagem do veículo chinês 36Kr, por volta das 13h de 4 de março, o Tongyi Lab da Alibaba realizou uma reunião geral de emergência, e o CEO Wu Yongming explicou pessoalmente a situação à equipe Qwen
- A saída de Lin havia sido anunciada 12 horas antes, às 0h11 da madrugada, e, segundo a reportagem, o impacto interno foi grande
- Por volta das 14h, Lin deixou no WeChat a mensagem “Irmãos do Qwen, sigam com o plano original. Não há problema”, mas não esclareceu se retornaria
- Integrantes da equipe Qwen disseram ao 36Kr que, mesmo com muito menos recursos do que os concorrentes, a liderança de Junyang foi o fator central para alcançar os resultados atuais
- Como possível gatilho para a saída, menciona-se uma reestruturação organizacional interna na Alibaba, na qual um novo pesquisador vindo da equipe Gemini do Google teria sido colocado como responsável pelo Qwen, mas isso não foi confirmado
Saída em série de integrantes-chave
- Após a saída de Lin, foi confirmado que vários membros centrais também deixaram a empresa
- Binyuan Hui: líder de desenvolvimento de código do Qwen, responsável geral pela série Qwen-Coder, encarregado de todo o processo de treinamento de agentes e, recentemente, envolvido em pesquisa em robótica
- Bowen Yu: líder de pós-treinamento (post-training) do Qwen, liderou o desenvolvimento da série Qwen-Instruct
- Kaixin Li: contribuidor central para Qwen 3.5/VL/Coder, doutor pela Universidade Nacional de Singapura
- Além deles, foi noticiado que vários jovens pesquisadores também teriam saído no mesmo dia
- O fato de o CEO da Alibaba ter participado pessoalmente da reunião mostra que a empresa reconhece a gravidade da situação
Características dos modelos Qwen 3.5
- O Qwen 3.5 é uma família de modelos de pesos abertos divulgada pela equipe Qwen da Alibaba nas últimas semanas, com desempenho muito forte
- O Qwen3.5-397B-A17B, divulgado em 17 de fevereiro, é um modelo de grande porte com 807GB
- Depois dele, foram divulgados em sequência modelos de vários tamanhos, como 122B, 35B, 27B, 9B, 4B, 2B e 0.8B
- Os modelos 27B e 35B foram bem avaliados em programação, e os modelos 9B, 4B e 2B são muito eficientes para o tamanho que têm
- Os modelos 27B e 35B podem rodar em Macs de 32GB/64GB e ainda assim lidam muito bem com tarefas de código
- Em especial, o modelo 2B tem apenas 4.57GB (1.27GB com quantização), mas suporta tanto inferência quanto recursos multimodais (visão)
Perspectivas futuras
- Se a equipe Qwen for desfeita, existe a possibilidade de que os avanços de pesquisa que vinham entregando alto desempenho em modelos pequenos sejam interrompidos
- Se os integrantes da equipe criarem um novo instituto de pesquisa ou se juntarem a outras organizações, ainda há expectativa por pesquisas futuras
- A situação atual ainda é “incerta”, e permanece a possibilidade de a Alibaba manter parte da equipe
Fontes externas consultadas
2 comentários
A saída do Lin Junyang é um choque mesmo. Estou usando bastante o Qwen 3.5 35B-A3B, então estava na expectativa pelo Qwen 4 😢
Comentários do Hacker News
Testei o Qwen3.5-35B-A3B nos últimos dias e, entre todos os modelos que já usei, ele tem a melhor capacidade de codificação agentic até agora
Fiz ele escrever código em Rust e Elixir com o Pi harness, e ele criou os próprios testes e verificou se passavam. Lida bem com loops de erro de teste ou compilação enquanto continua avançando em direção ao objetivo
Só que às vezes resolve ignorar as instruções no meio do caminho porque “isso seria mais simples” e apaga todo o código de suporte
Escolheu deadpool e deadpool-r2d2 na fase de planejamento e acabou se confundindo. Mesmo assim, no geral o código é bom, e parece que só a camada de banco de dados precisa de alguns ajustes
Até agora é o modelo self-hosted mais estável que já vi
Do ponto de vista da empresa, dá para entender a mudança de estratégia, mas fico me perguntando por que afastaram os pesquisadores centrais. Não estamos justamente em uma época de escassez de pesquisadores de modelos?
Nesse clima, por mais dinheiro que os laboratórios dos EUA gastem, fica difícil atrair talentos
Além disso, em empresas chinesas é possível ter mais influência nas decisões
Desde o governo Trump já houve queda na entrada de estudantes estrangeiros, e agora fazer doutorado nos EUA chega a ser visto como um risco reputacional
Quando um modelo em nuvem desperdiça tokens, parece dinheiro jogado fora; quando um modelo local entra em loop, a sensação é de que “ele está pensando”
Se modelos como o Qwen ficarem bons o suficiente para programação local, a mudança provavelmente será mais econômica do que técnica
O desempenho é excelente para o tamanho, mas ele tende a ignorar metade de instruções longas. Nesse porte, é um trade-off aceitável
Ele chegou até a fazer verificação de citações incorretas, e isso foi usado em artigos no arXiv
Os resultados estão reunidos nesta página
Na verdade, eu achava que esse tipo de pesquisa deveria ser apoiado pelo governo, mas agora são empresas chinesas que estão ocupando esse papel
A velocidade também foi bem boa
Se a IA pudesse realmente substituir completamente as pessoas, os CEOs não precisariam se esforçar tanto para convencer os outros disso