- A Cerebras anunciou o modelo de IA Qwen3-235B, oferecendo desempenho de inferência instantânea com geração de 1.500 tokens por segundo
- Produtividade e geração de código até 30 vezes mais rápidas por 1/10 do custo em comparação com modelos fechados existentes
- Suporte a contexto de 131K, permitindo processamento de grandes bases de código e documentos complexos
- Em parceria com a Cline, amplia a experiência de geração de código em tempo real dentro do Microsoft VS Code
- Com este lançamento, entrega uma alternativa a OpenAI e Anthropic baseada em open source, com alto desempenho e custo racional
Qwen3-235B: lançamento do modelo de inferência de IA ultrarrápido da Cerebras e seus principais resultados
O modelo de inferência de IA mais rápido do mundo é lançado no Cerebras Inference Cloud
- Em 8 de julho de 2025, a Cerebras Systems lançou oficialmente o Qwen3-235B, apresentando um novo modelo de inferência de IA com suporte completo a contexto de até 131K
- O modelo combina capacidades de IA de nível frontier e desempenho de inferência ultrarrápido com custo equivalente a 1/10 das alternativas fechadas, propondo uma transformação na adoção de IA pelas empresas
Inteligência em nível de modelo frontier
- O Qwen3-235B, da Alibaba, demonstrou desempenho em benchmarks de ciência, código e conhecimento geral comparável ao de modelos concorrentes de ponta como Claude 4 Sonnet, Gemini 2.5 Flash e DeepSeek R1, segundo avaliação independente da Artificial Analysis
- Com arquitetura Mixture-of-Experts para maximizar a eficiência computacional, é oferecido a US$ 0,60 por milhão de tokens de entrada e US$ 1,20 por milhão de tokens de saída, tornando seu uso extremamente barato em comparação com modelos fechados existentes
Velocidade de inferência: uma revolução de minutos para segundos
- IAs tradicionais de inferência muitas vezes levam vários minutos até para consultas comuns
- Usando o Wafer Scale Engine, o Qwen3-235B alcança 1.500 tokens por segundo, reduzindo o tempo de resposta de 1 a 2 minutos para 0,6 segundo
- Isso viabiliza resposta imediata em geração de código, raciocínio e workflows de RAG em larga escala, estabelecendo um novo padrão de desempenho de IA em tempo real
- Segundo medições da Artificial Analysis, ele é avaliado como o único modelo de IA frontier no mundo a gerar mais de 1.000 tokens por segundo
Contexto de 131K: suporte à geração de código em ambientes reais
- Com o lançamento do Qwen3-235B, a Cerebras ampliou o suporte de 32K para 131K de contexto, um aumento de 4 vezes
- Isso permite inferir grandes bases de código e documentos complexos de uma só vez, aumentando fortemente a viabilidade de desenvolvimento para ambientes de produção com geração simultânea de código em dezenas de arquivos e dezenas de milhares de linhas
- Enquanto o contexto anterior de 32K permitia apenas geração de código simples, o contexto de 131K passa a dar suporte direto ao desenvolvimento de aplicações de grande porte
- Com isso, a empresa passa a atuar diretamente no mercado corporativo de geração de código, um dos maiores e mais rapidamente crescentes setores da IA generativa
Parceria estratégica com a Cline fortalece a integração com o VS Code
- A Cerebras firmou parceria com a Cline, o maior agente de programação para VS Code, com mais de 1,8 milhão de instalações
- Todos os usuários da Cline podem usar diretamente no editor o Qwen3-32B (contexto de 64K, gratuito), e o suporte ao Qwen3-235B (contexto de 131K) também está previsto
- A empresa planeja oferecer velocidade de geração de código de 10 a 20 vezes superior à de concorrentes como o DeepSeek R1
- O CEO da Cline, Saoud Rizwan, destacou que “graças à inferência em tempo real, os desenvolvedores conseguem explorar código e problemas mantendo o fluxo de trabalho no mesmo ritmo do pensamento”
Alternativa de IA frontier com 30 vezes mais velocidade e 1/10 do custo
- Com este lançamento, a Cerebras oferece uma nova opção para desenvolvedores que buscam inteligência e geração de código de modelos abertos em nível semelhante ao de modelos comerciais como os da OpenAI e da Anthropic
- Em especial, implementa de forma única no mundo uma velocidade de inferência instantânea superior a 1.500 tokens por segundo, elevando a produtividade em 10 vezes em comparação com soluções baseadas em GPU
- O custo por token também fica abaixo de 1/10 do cobrado por concorrentes, oferecendo IA ultrarrápida a um custo racional
Sobre a Cerebras Systems
- A Cerebras Systems é formada por uma equipe de especialistas em arquitetura de computadores, deep learning, pesquisa e engenharia, focada em inovar a infraestrutura de computação em larga escala para IA
- Seu principal produto, o sistema CS-3, traz o maior processador comercial de IA do mundo (Wafer-Scale Engine-3) e permite montar grandes supercomputadores de IA com clusterização simples e rápida
- O Cerebras Inference oferece velocidades de inferência inovadoras e já é usado por instituições de pesquisa, empresas e governos para desenvolvimento de modelos dedicados de alto desempenho e treinamento open source
- A empresa oferece soluções tanto na Cerebras Cloud quanto em ambientes on-premises
1 comentários
Comentários no Hacker News
Essa notícia pode ser “antiga”; parece ser de 8 de julho e talvez tenha sido apresentada por engano, confundindo com o lançamento do Qwen 3 coder 405B anunciado ontem. As especificações dos dois modelos são diferentes
Se isso fosse quantização totalmente em fp16, seriam necessários 2 TB de memória para usar o contexto completo de 131k. Como um chip da Cerebras tem 44 GB de SRAM, seria preciso ligar 45 deles em série e, a $3M cada, o total daria $135M. Em comparação, com dois DGX B200 dá para ter 2.8 TB por $1M. Ou seja, $1M contra $135M. A menos que seja para trabalhos de altíssimo valor que exigem velocidade de inferência enorme, como hedge funds ou mercado financeiro, isso não parece eficiente. É difícil até imaginar o que aconteceria se no futuro fosse possível rodar, de forma muito barata, um modelo no nível do Claude Opus 4 (ou superior) com dezenas de milhões de tokens de contexto e 1500 tokens por segundo. Parece que ainda faltam várias gerações de avanço em hardware
Configurei o
litellm proxy, conectei à nova API da Cerebras com o Qwen-235B e testei com o Aider. Não é melhor que o Claude code, mas é absurdamente rápido. Também testei o Aider com um prompt vazado do Claude code, mas ele não funcionou do jeito que eu queria. O prompt do Claude code parece ser otimizado para o Claude. Ainda assim, valeu a tentativa e me pareceu muito promissor. O Aider começa a despejar texto muito rápido, instala coisas, faz chamadas web e encerra. É tudo instantâneo. Para reproduzir meu ambiente, dá para usar esta configuração:Execução:
E depois:
Instale os pacotes necessários com pip ou similar. No
prompt.txt, procure e salve por conta própria o prompt vazado do Claude codeEstou ansiosamente esperando o suporte ao Qwen 3 coder na Cerebras. Eu rodo muitos loops de agente, e a velocidade de execução comprime o tempo de forma impressionante. Se um modelo no nível do Claude 4 Sonnet rodar a 1000~1500 tokens/s, isso realmente muda tudo. Se quiser sentir essa velocidade na prática, dá para experimentar na página de inferência da Cerebras, na API, ou em serviços como o “Flash Answers” do Mistral / Le Chat (baseado em Cerebras). Fazer iteração de código a 1000 tok/s parece magia
cerebrateda hierarquia zerg de Starcraft, algo que eu achava fascinante quando era criança)A velocidade é de fato impressionante, mas pela minha experiência é muito difícil conseguir da Cerebras limites de taxa e cotas de tokens realmente adequados para produção. Por isso não conseguimos desenhar sistemas em cima deles e acabamos usando outro fornecedor. Já conversei bastante com o time de vendas, mas disseram que não dava
Entre quem já usou bastante Claude Code com sonnet-4, alguém testou comparativamente Claude Code e Qwen3-Coder? A velocidade da Cerebras é tentadora, mas se a qualidade do modelo for pior, não pretendo trocar só pela velocidade
Dizem que é contexto “Full 131k”, mas na prática é o dobro, 262144, e com YaRN em multiplicador de 8 pode chegar a 2 milhões. Na verdade, a própria Cerebras também parece ter um limite teórico de contexto, porque essa é uma limitação da arquitetura Transformer: a exigência de memória cresce quase linearmente, enquanto a computação cresce quadraticamente. Ou seja, parece que a Cerebras também não consegue usar 100% disso por conta do comprimento de contexto. Além disso, fico curioso se os clientes não conseguem saber exatamente qual esquema de quantização está sendo usado
A velocidade é realmente impressionante. Em um tema um pouco diferente, tenho curiosidade sobre como modelos como Qwen e Kimi se saem em relação à censura e ao viés do país de origem
A Cerebras é uma das realizações técnicas mais malucas — e incríveis — surgidas no Vale do Silício nos últimos 10 anos. Quando conheci o Andy, uns 7 ou 8 anos atrás, aquela ideia de um chip do tamanho de um prato de jantar com 6 toneladas de fixação parecia absurda. Mas eles realmente fizeram, e hoje dá para ver o quanto aquilo foi visionário
Estou procurando um ambiente local de desenvolvimento com qwen no Macbook. Tentei a combinação
localforge + mlx_lm.server; embora a página diga que a prova de conceito funciona, na prática recebo erro de “empty response”. Se alguém teve experiência parecida, agradeço sugestõesollamaestou usando inferência local de qwen muito bem em um Macbook Pro (32 GB)