1 pontos por GN⁺ 2025-07-24 | 1 comentários | Compartilhar no WhatsApp
  • A Cerebras anunciou o modelo de IA Qwen3-235B, oferecendo desempenho de inferência instantânea com geração de 1.500 tokens por segundo
  • Produtividade e geração de código até 30 vezes mais rápidas por 1/10 do custo em comparação com modelos fechados existentes
  • Suporte a contexto de 131K, permitindo processamento de grandes bases de código e documentos complexos
  • Em parceria com a Cline, amplia a experiência de geração de código em tempo real dentro do Microsoft VS Code
  • Com este lançamento, entrega uma alternativa a OpenAI e Anthropic baseada em open source, com alto desempenho e custo racional

Qwen3-235B: lançamento do modelo de inferência de IA ultrarrápido da Cerebras e seus principais resultados

O modelo de inferência de IA mais rápido do mundo é lançado no Cerebras Inference Cloud

  • Em 8 de julho de 2025, a Cerebras Systems lançou oficialmente o Qwen3-235B, apresentando um novo modelo de inferência de IA com suporte completo a contexto de até 131K
  • O modelo combina capacidades de IA de nível frontier e desempenho de inferência ultrarrápido com custo equivalente a 1/10 das alternativas fechadas, propondo uma transformação na adoção de IA pelas empresas

Inteligência em nível de modelo frontier

  • O Qwen3-235B, da Alibaba, demonstrou desempenho em benchmarks de ciência, código e conhecimento geral comparável ao de modelos concorrentes de ponta como Claude 4 Sonnet, Gemini 2.5 Flash e DeepSeek R1, segundo avaliação independente da Artificial Analysis
  • Com arquitetura Mixture-of-Experts para maximizar a eficiência computacional, é oferecido a US$ 0,60 por milhão de tokens de entrada e US$ 1,20 por milhão de tokens de saída, tornando seu uso extremamente barato em comparação com modelos fechados existentes

Velocidade de inferência: uma revolução de minutos para segundos

  • IAs tradicionais de inferência muitas vezes levam vários minutos até para consultas comuns
  • Usando o Wafer Scale Engine, o Qwen3-235B alcança 1.500 tokens por segundo, reduzindo o tempo de resposta de 1 a 2 minutos para 0,6 segundo
  • Isso viabiliza resposta imediata em geração de código, raciocínio e workflows de RAG em larga escala, estabelecendo um novo padrão de desempenho de IA em tempo real
  • Segundo medições da Artificial Analysis, ele é avaliado como o único modelo de IA frontier no mundo a gerar mais de 1.000 tokens por segundo

Contexto de 131K: suporte à geração de código em ambientes reais

  • Com o lançamento do Qwen3-235B, a Cerebras ampliou o suporte de 32K para 131K de contexto, um aumento de 4 vezes
  • Isso permite inferir grandes bases de código e documentos complexos de uma só vez, aumentando fortemente a viabilidade de desenvolvimento para ambientes de produção com geração simultânea de código em dezenas de arquivos e dezenas de milhares de linhas
  • Enquanto o contexto anterior de 32K permitia apenas geração de código simples, o contexto de 131K passa a dar suporte direto ao desenvolvimento de aplicações de grande porte
  • Com isso, a empresa passa a atuar diretamente no mercado corporativo de geração de código, um dos maiores e mais rapidamente crescentes setores da IA generativa

Parceria estratégica com a Cline fortalece a integração com o VS Code

  • A Cerebras firmou parceria com a Cline, o maior agente de programação para VS Code, com mais de 1,8 milhão de instalações
  • Todos os usuários da Cline podem usar diretamente no editor o Qwen3-32B (contexto de 64K, gratuito), e o suporte ao Qwen3-235B (contexto de 131K) também está previsto
  • A empresa planeja oferecer velocidade de geração de código de 10 a 20 vezes superior à de concorrentes como o DeepSeek R1
  • O CEO da Cline, Saoud Rizwan, destacou que “graças à inferência em tempo real, os desenvolvedores conseguem explorar código e problemas mantendo o fluxo de trabalho no mesmo ritmo do pensamento”

Alternativa de IA frontier com 30 vezes mais velocidade e 1/10 do custo

  • Com este lançamento, a Cerebras oferece uma nova opção para desenvolvedores que buscam inteligência e geração de código de modelos abertos em nível semelhante ao de modelos comerciais como os da OpenAI e da Anthropic
  • Em especial, implementa de forma única no mundo uma velocidade de inferência instantânea superior a 1.500 tokens por segundo, elevando a produtividade em 10 vezes em comparação com soluções baseadas em GPU
  • O custo por token também fica abaixo de 1/10 do cobrado por concorrentes, oferecendo IA ultrarrápida a um custo racional

Sobre a Cerebras Systems

  • A Cerebras Systems é formada por uma equipe de especialistas em arquitetura de computadores, deep learning, pesquisa e engenharia, focada em inovar a infraestrutura de computação em larga escala para IA
  • Seu principal produto, o sistema CS-3, traz o maior processador comercial de IA do mundo (Wafer-Scale Engine-3) e permite montar grandes supercomputadores de IA com clusterização simples e rápida
  • O Cerebras Inference oferece velocidades de inferência inovadoras e já é usado por instituições de pesquisa, empresas e governos para desenvolvimento de modelos dedicados de alto desempenho e treinamento open source
  • A empresa oferece soluções tanto na Cerebras Cloud quanto em ambientes on-premises

1 comentários

 
GN⁺ 2025-07-24
Comentários no Hacker News
  • Essa notícia pode ser “antiga”; parece ser de 8 de julho e talvez tenha sido apresentada por engano, confundindo com o lançamento do Qwen 3 coder 405B anunciado ontem. As especificações dos dois modelos são diferentes

    • No começo achei que esta notícia fosse sobre o Qwen3-235B-A22B-Instruct-2507 anunciado dois dias atrás (link). Esse modelo não tem reasoning, e como o anúncio da Cerebras menciona reasoning, percebi que esta notícia era sobre o Qwen3-235B-A22B lançado em abril. Os nomes dos modelos são confusos
  • Se isso fosse quantização totalmente em fp16, seriam necessários 2 TB de memória para usar o contexto completo de 131k. Como um chip da Cerebras tem 44 GB de SRAM, seria preciso ligar 45 deles em série e, a $3M cada, o total daria $135M. Em comparação, com dois DGX B200 dá para ter 2.8 TB por $1M. Ou seja, $1M contra $135M. A menos que seja para trabalhos de altíssimo valor que exigem velocidade de inferência enorme, como hedge funds ou mercado financeiro, isso não parece eficiente. É difícil até imaginar o que aconteceria se no futuro fosse possível rodar, de forma muito barata, um modelo no nível do Claude Opus 4 (ou superior) com dezenas de milhões de tokens de contexto e 1500 tokens por segundo. Parece que ainda faltam várias gerações de avanço em hardware

    • O cálculo de “44 GB de SRAM por chip da Cerebras, 45 em série, total de $135M” está errado. Os 44 GB são SRAM, ou seja, memória on-chip, e a maior parte dos parâmetros do modelo fica em HBM. Por exemplo, o GB200 tem só 126 MB de SRAM; se você calcular o número de chips necessário para um modelo de 2 TB olhando só para cache, o resultado sai absurdo. A Cerebras permite expandir a HBM separadamente do chip e, com sistemas como o MemoryX, pode chegar a quase 2 PB (post relacionado). Não sou especialista, mas na arquitetura da Cerebras o limite de memória é bem mais amplo
    • A SRAM no chip é puramente memória temporária de trabalho; ela não precisa armazenar todos os pesos do modelo. A Cerebras usa pesos esparsos e faz streaming apenas dos dados necessários a partir da memória externa, enquanto os núcleos operam com um esquema disparado por transferência
    • Ver isso apenas como “operável/não operável” simplifica demais. Na prática, o ponto importante é a vazão para dividir o sistema entre vários usuários. Um carrinho de golfe e um trem ambos conseguem ir do leste ao oeste, mas a economia é diferente. A escala mínima de implantação importa, mas se você vai vender tokens por uma grande API em nuvem, isso não faz diferença do ponto de vista do cliente
    • Não é necessário rodar inferência em fp16 fixo. Hoje em dia, formatos de quantização alocam precisão diferente por camada conforme a necessidade, e com média de 6 bits por parâmetro quase não se percebe diferença. Mesmo forçando bastante, 8 bits por parâmetro já bastam. Isso representa uma economia enorme de memória
    • Nossos chips não custam $3M cada. Não sei de onde saiu esse número, mas está completamente errado
  • Configurei o litellm proxy, conectei à nova API da Cerebras com o Qwen-235B e testei com o Aider. Não é melhor que o Claude code, mas é absurdamente rápido. Também testei o Aider com um prompt vazado do Claude code, mas ele não funcionou do jeito que eu queria. O prompt do Claude code parece ser otimizado para o Claude. Ainda assim, valeu a tentativa e me pareceu muito promissor. O Aider começa a despejar texto muito rápido, instala coisas, faz chamadas web e encerra. É tudo instantâneo. Para reproduzir meu ambiente, dá para usar esta configuração:

    model_list:
     - model_name: qwen3-235b
      litellm_params:
       model: cerebras/qwen-3-235b-a22b
       api_key: os.environ/CEREBRAS_API_KEY
       api_base: https://api.cerebras.ai/v1
    

    Execução:

    litellm --config config.yaml --port 4000 --debug
    

    E depois:

    aider --model cerebras/qwen-3-235b-a22b --openai-api-base http://localhost:4000 --openai-api-key fake-key --no-show-model-warnings --auto-commits --system-file ./prompt.txt --yes
    

    Instale os pacotes necessários com pip ou similar. No prompt.txt, procure e salve por conta própria o prompt vazado do Claude code

  • Estou ansiosamente esperando o suporte ao Qwen 3 coder na Cerebras. Eu rodo muitos loops de agente, e a velocidade de execução comprime o tempo de forma impressionante. Se um modelo no nível do Claude 4 Sonnet rodar a 1000~1500 tokens/s, isso realmente muda tudo. Se quiser sentir essa velocidade na prática, dá para experimentar na página de inferência da Cerebras, na API, ou em serviços como o “Flash Answers” do Mistral / Le Chat (baseado em Cerebras). Fazer iteração de código a 1000 tok/s parece magia

    • Exatamente isso. Nessa velocidade, minha eficiência de trabalho aumenta muito. Sempre que fico esperando um agente, perco foco e contexto. Rodar em paralelo é mais rápido, mas sacrifica concentração. Se um loop iterativo rodar quase instantaneamente em uma IDE como o Cursor, vai parecer ainda mais mágico. E, com essa velocidade, a própria forma de trabalhar muda. Uma IDE interativa como o Cursor vai parecer muito mais natural do que um Claude code baseado em linha de comando
    • Comigo é igual. Mas a API da Cerebras precisa melhorar a compatibilidade com OpenAI. Tentei usar modelos existentes com vários agentes de código, incluindo o Cline, e nada funcionou por causa de erro 400 ou problema no formato de chamada de ferramentas. Foi decepcionante
    • Alguns dias atrás configurei o Kimi K2 no Groq e fiquei chocado com a velocidade. Estou pensando se devo migrar para Qwen 3 com Cerebras. (Como observação lateral, o nome sempre me lembra o cerebrate da hierarquia zerg de Starcraft, algo que eu achava fascinante quando era criança)
    • Se a velocidade dos agentes LLM continuar aumentando assim, pode chegar o ponto em que o gargalo do processo de desenvolvimento passe a ser o tempo de compilação. Aí surgirá um incentivo econômico para melhorar o desempenho dos compiladores
  • A velocidade é de fato impressionante, mas pela minha experiência é muito difícil conseguir da Cerebras limites de taxa e cotas de tokens realmente adequados para produção. Por isso não conseguimos desenhar sistemas em cima deles e acabamos usando outro fornecedor. Já conversei bastante com o time de vendas, mas disseram que não dava

  • Entre quem já usou bastante Claude Code com sonnet-4, alguém testou comparativamente Claude Code e Qwen3-Coder? A velocidade da Cerebras é tentadora, mas se a qualidade do modelo for pior, não pretendo trocar só pela velocidade

    • Não usei Qwen, mas já testei em serviços como o Groq inferência de “tokens instantâneos” e geradores de código baseados em LLaMA com modelos de diffusion, e os resultados não me satisfizeram. Se um modelo no nível do Gemini 2.5 pro ou Sonnet 4 gerasse dezenas de milhares de linhas de código em segundos na Cerebras, isso realmente mudaria o cenário
  • Dizem que é contexto “Full 131k”, mas na prática é o dobro, 262144, e com YaRN em multiplicador de 8 pode chegar a 2 milhões. Na verdade, a própria Cerebras também parece ter um limite teórico de contexto, porque essa é uma limitação da arquitetura Transformer: a exigência de memória cresce quase linearmente, enquanto a computação cresce quadraticamente. Ou seja, parece que a Cerebras também não consegue usar 100% disso por conta do comprimento de contexto. Além disso, fico curioso se os clientes não conseguem saber exatamente qual esquema de quantização está sendo usado

    • Na página do modelo está escrito que 32768 é o nativo e que houve validação de desempenho com YaRN 4x (link). Isso parece bater mais ou menos com os 131k
  • A velocidade é realmente impressionante. Em um tema um pouco diferente, tenho curiosidade sobre como modelos como Qwen e Kimi se saem em relação à censura e ao viés do país de origem

    • Os modelos Qwen têm fama de qualidade muito alta entre os modelos abertos, especialmente por causa da arquitetura MoE. Ao mesmo tempo, vêm com uma censura fortíssima. Você pode perguntar desde “o que aconteceu na Praça da Paz Celestial” até “grandes protestos” ou “algo relacionado a tanques?”, e ele só desconversa falando que a praça é bonita e histórica
  • A Cerebras é uma das realizações técnicas mais malucas — e incríveis — surgidas no Vale do Silício nos últimos 10 anos. Quando conheci o Andy, uns 7 ou 8 anos atrás, aquela ideia de um chip do tamanho de um prato de jantar com 6 toneladas de fixação parecia absurda. Mas eles realmente fizeram, e hoje dá para ver o quanto aquilo foi visionário

    • O conceito é legal, mas alguém realmente usa Cerebras no lugar da Nvidia?
    • Na prática, isso foi projetado para HPC e FLOPS, então para inferência de LLM o que acaba importando mais é largura de banda de memória
    • Isso é uma interpretação moderna de uma ideia antiga. Eu tinha visto pela primeira vez artigos de pesquisa europeus sobre wafer-scale, analógico e redes neurais. Também encontrei outro projeto. (paper 1, paper 2). O segundo artigo é de 1989, então as patentes já expiraram faz tempo
    • Integração wafer-scale já era tentada décadas atrás
  • Estou procurando um ambiente local de desenvolvimento com qwen no Macbook. Tentei a combinação localforge + mlx_lm.server; embora a página diga que a prova de conceito funciona, na prática recebo erro de “empty response”. Se alguém teve experiência parecida, agradeço sugestões

    • Posso ter entendido sua pergunta errado, mas com ollama estou usando inferência local de qwen muito bem em um Macbook Pro (32 GB)