OpenAI revela Jalapeño, seu primeiro chip próprio de inferência feito com a Broadcom

(techcrunch.com)

3 pontos por GN⁺ 3 시간 전 | 1 comentários | Compartilhar no WhatsApp

Jalapeño é um acelerador especializado em inferência de LLMs e o primeiro resultado de uma plataforma de computação multigeracional criada em conjunto com a Broadcom
Do início do projeto ao tape-out de fabricação, levou apenas 9 meses, o que deve representar o ciclo de desenvolvimento de ASIC mais rápido já visto em semicondutores avançados de alto desempenho
Nos testes iniciais, mostrou cerca de 50% de redução de custos em comparação com GPUs comuns para IA, além de desempenho por watt muito superior ao atual estado da arte
Faz parte de uma estratégia full-stack que envolve projetar internamente desde a arquitetura do chip até kernel, memória e rede, com o objetivo de reduzir a dependência de GPUs da Nvidia e expandir-se de empresa de software para operadora de infraestrutura de IA
A implantação está prevista para começar no fim de 2026 em data centers na escala de gigawatts com parceiros como a Microsoft, ganhando relevância em meio à pressão para provar rentabilidade antes de um IPO estimado em US$ 1 trilhão

Revelação do chip Jalapeño

Na quarta-feira, a OpenAI e a Broadcom (NASDAQ: AVGO) revelaram o Jalapeño, o primeiro Processador de Inteligência da OpenAI
É um acelerador projetado para o futuro da inferência de LLMs e o primeiro acelerador de IA de uma plataforma de computação multigeracional desenvolvida pelas duas empresas
O chairman e CEO da Broadcom, Hock Tan, e o presidente Charlie Kawwas entregaram pessoalmente amostras do chip ao CEO da OpenAI, Sam Altman, e ao presidente Greg Brockman
É uma etapa importante na estratégia da OpenAI de ir além de produtos para consumidores e se tornar uma operadora de infraestrutura de IA

Estrutura e desempenho do chip

O Jalapeño não é um chip genérico adaptado de aceleradores existentes para workloads de IA, mas um projeto feito do zero (blank-slate) para inferência moderna de LLMs
Como um ASIC projetado para tarefas específicas de IA, oferece menos flexibilidade do que GPUs da Nvidia, mas com custo mais baixo
Desempenho e eficiência
- Nos testes iniciais, houve cerca de 50% de redução de custos em comparação com GPUs comuns para IA (em entrevista de Hock Tan)
- O desempenho final ainda está sendo medido, mas o desempenho por watt já mostra grande avanço em relação ao atual estado da arte
- Ao reduzir a movimentação de dados e equilibrar recursos de computação, memória e rede, busca-se aproximar a utilização real do limite teórico máximo
- Na imagem divulgada do chip, é possível ver 8 sites de HBM e um die central de computação
Validação operacional
- Amostras de engenharia já estão executando workloads de ML na frequência e potência-alvo de produção, incluindo o GPT‑5.3‑Codex‑Spark
- Um relatório técnico detalhado deve ser publicado nos próximos meses
- A implementação em silício da Broadcom e o silício de rede Tomahawk darão suporte à produção em larga escala

Tape-out em 9 meses, acelerado por modelos da OpenAI

O desenvolvimento conjunto foi concluído em apenas 9 meses entre o projeto inicial e o tape-out de fabricação, o que deve ser o ciclo de desenvolvimento de ASIC mais rápido da história em semicondutores avançados de alto desempenho
Parte do processo de projeto e otimização usou modelos próprios da OpenAI, e Brockman disse que foi “surpreendente” o quanto eles aceleraram o desenvolvimento
Os mesmos modelos oferecidos aos usuários passarão a contribuir para melhorar a infraestrutura que executa modelos futuros
Se a IA ajudar engenheiros a projetar chips mais rapidamente, isso pode reduzir os custos de computação em toda a indústria e ampliar o acesso à IA avançada

Plataforma multigeracional e parceiros

O Jalapeño é a primeira etapa de uma plataforma de computação multigeracional que deve começar sua implantação inicial no fim de 2026 e se expandir nos anos seguintes
Estrutura da colaboração
- OpenAI — projeto do acelerador, com base em profundo entendimento dos fundamentos dos LLMs
- Broadcom — implementação do chip, além de tecnologias de rede e interconexão
- Celestica — expertise em placas, racks e integração de sistemas
No ano passado, OpenAI e Broadcom anunciaram um plano para desenvolver chips customizados para computação em escala de 10 gigawatts, e agora revelaram o primeiro chip desse esforço
Demanda explosiva
- O CEO da Broadcom, Hock Tan, disse que isso permitirá implantações em data centers na escala de gigawatts com parceiros como a Microsoft a partir de 2026, com expansão após um protótipo de pequena escala no fim de 2026
- Brockman afirmou que “não é possível garantir computação suficiente com rapidez”, e Tan disse que a demanda de seis clientes está em um nível “literalmente impossível de atender”, devendo permanecer igual ou ainda maior em 2027 e 2028
- O responsável pelo programa de hardware da OpenAI, Richard Ho, explicou que a arquitetura foi otimizada em torno dos kernels, da movimentação de memória, da rede e dos padrões de serving mais importantes para modelos de IA de fronteira

Estratégia full-stack e cenário competitivo

A OpenAI está indo além do desenvolvimento de modelos de fronteira e da construção de produtos, passando a projetar diretamente também a infraestrutura subjacente — incluindo arquitetura de chips, kernels, sistema de memória, rede, escalonamento, sistemas de implantação e experiência de produto
Com isso, junta-se ao grupo de empresas full-stack de IA com silício próprio, como Google (TPU), Amazon (Trainium) e Microsoft (Azure Maia 100)
Redução da dependência da Nvidia
- “Ninguém quer ficar dependente da Nvidia” (Ben Barringer, chefe de pesquisa de tecnologia da Quilter Cheviot), refletindo a tendência de diversificação no fornecimento de chips
- A OpenAI é uma das maiores clientes da Nvidia, mas também fechou acordos de fornecimento com AMD (série Instinct MI450), Cerebras e outras
Significado para o negócio
- Com a Nvidia se tornando a empresa mais valiosa do mundo ao fornecer componentes centrais para data centers de IA, fica em evidência o potencial de lucro do mercado de infraestrutura de IA
- Para a OpenAI, que mira um IPO avaliado em US$ 1 trilhão, reduzir o custo de inferência é a chave para recuperar os enormes custos de treinamento e provar rentabilidade
- As ações da Broadcom subiram ao longo de 2026 e estão cerca de 7 vezes acima do nível do fim de 2022, refletindo os benefícios da parceria

Democratização da IA avançada

A inferência é o ponto de encontro entre a IA e as pessoas, e melhorias em custo, velocidade e estabilidade significam respostas mais rápidas no ChatGPT, tarefas no Codex sem espera, produtos de API mais baratos e acesso mais estável em momentos de pico de demanda
Tornar modelos avançados disponíveis, estáveis e baratos o suficiente para que mais pessoas possam usá-los todos os dias é o centro da democratização da IA
Isso ajuda a transformar infraestrutura em inteligência útil para estudantes, desenvolvedores, pequenos empresários, pesquisadores, empresas e todos que querem aprender, criar e resolver problemas difíceis

1 comentários

GN⁺ 3 시간 전

Comentários do Hacker News

Quero ver com mais detalhes essa parte de “aceleramos o design e a otimização com modelos da OpenAI”
Do jeito que está escrito agora, parece um texto de marketing, como dizer que o desenvolvimento ficou mais rápido graças ao Microsoft Office ou a um monitor LG Ultrafine 40" 5K
Se fosse algo tão grande quanto a frase insinua, a OpenAI provavelmente teria dado muito mais destaque a isso
- Do ponto de vista do CEO de uma empresa de chips, tudo muda dependendo do que querem dizer com “design” e “produção”
  Não está claro se “design” significa design concluído, e se “produção” significa início da produção, isto é, tape-out
  Se foram 9 meses do congelamento do RTL até o tape-out, para um chip grande e complexo em 3 nm isso é bem normal e, considerando até problemas inesperados, nem chega a ser um cronograma tão impressionante
  Por outro lado, se foi do estágio conceitual — ou seja, sem RTL, só com um diagrama de blocos da arquitetura — até o tape-out, aí sim seria um prazo surpreendente, e é provável que a realidade esteja em algum ponto no meio
  Num anúncio mais específico, deveriam usar marcos e gates técnicos reais
- A linguagem de descrição de hardware (HDL) usada no desenvolvimento de chips é parecida com uma linguagem de programação, e os modelos existentes já entendem isso e conseguem fazer bastante coisa
  Não é necessariamente preciso um modelo especializado separado para usar grandes modelos de linguagem no fluxo de trabalho de design de chips
  A verificação de design também envolve muita programação tradicional, então pode receber ajuda de grandes modelos de linguagem
  Não é algo totalmente sem sentido; se você baixar hoje um software open source de design de chips, um grande modelo de linguagem pode até ajudar a começar diretamente um chip pequeno
- A Broadcom já tem muito IP para SoCs de IA
  É bem possível que as partes difíceis desse chip de inferência já tenham sido projetadas pela Broadcom, e que a OpenAI só tenha passado as especificações desejadas para ela
  Também parece que será bastante parecido com o Google TPU
  Dizem que “o acelerador de primeira geração vai elevar consideravelmente o desempenho por watt em relação ao atual estado da arte”, e eu queria saber o que significa “consideravelmente” aqui
  O Vera Rubin está previsto para ser enviado em massa no fim deste ano, e espera-se que tenha eficiência energética de inferência 10 vezes maior que a do Blackwell[0]
  Mesmo que o tape-out já tenha acontecido, ainda deve levar no mínimo 12 meses — provavelmente mais — para corrigir bugs, fabricar o chip, alocar HBM, projetar os racks, a interconexão e implantar isso no datacenter
  Quando esse chip entrar em grande volume nos datacenters, ele talvez já esteja competindo com o Vera Rubin Ultra ou o Feynman
  Pessoalmente, acho que a OpenAI não deveria ter investido nesse projeto
  Ainda é cedo demais; ela deveria ter feito como a Anthropic, focado nos modelos, vencido primeiro e só depois, com rentabilidade, partido para algo assim
  Em IA existe um limite duro chamado energia, então isso é arriscado para a OpenAI
  Se você tem 1 GW, precisa instalar apenas os melhores chips, e se os chips da Nvidia forem melhores, então esse projeto terá desperdiçado bilhões de dólares
  [0]https://developer.nvidia.com/blog/scaling-token-factory-reve...
- Existem basicamente dois significados possíveis, além das piadas no meio
  1. A OpenAI realmente tem tecnologia de IA capaz de melhorar o design de chips — uma afirmação ousada e pouco provável, que exigiria provas
  2. A OpenAI projetou os modelos e kernels de teste e validação para testar o desempenho no hardware de simulação
    O problema é que a frase pode significar só a segunda opção, mas foi escrita para soar como a primeira, e por isso é difícil confiar
- Verilog já é bastante público, então é perfeitamente possível que tenham projetado o chip escrevendo mais Verilog com ajuda de IA
  Não precisa ser algo revolucionário; pode simplesmente ter acontecido de o design assistido por IA ter funcionado bem o bastante para valer a pena criar um ASIC customizado
Isso não apareceu no texto da OpenAI, mas parece quase certo que o chip será fabricado pela TSMC [1]
Eu não tinha certeza se a Intel era a responsável
1. https://www.investing.com/news/stock-market-news/openai-unve...
- Segundo uma alegação que vi no Twitter, o motivo de empresas como Google, Amazon e OpenAI usarem a Broadcom não é só a capacidade de design, mas também o fato de a Broadcom ter acordos de alocação com a TSMC e fabricantes de memória
- Só recentemente as peças começaram a se encaixar
  A Broadcom virou a parceira de hardware do TPU do Google, ganhou muito dinheiro compartilhando a capacidade de produção da TSMC com o Google, e agora parece estar fazendo a mesma coisa com a OpenAI
  É uma forma realmente inteligente de aproveitar a corrida do ouro da IA
  Só espero que o dinheiro ganho assim não seja usado para arrancar mais dinheiro da indústria de software, como aconteceu com a VMWare e a Bitnami
Gostaria de ver um chip de inferência com os pesos embutidos em parte da ROM do chip
Haveria um multiplicador para cada peso e, como seriam constantes, tudo viraria um simples conjunto de somadores, com throughput totalmente em pipeline de um token por ciclo de clock
Assim, um único pedaço de silício poderia atender milhões de usuários ao mesmo tempo, e o barramento de saída poderia soltar 500 milhões de tokens por segundo
A desvantagem é que o chip ficaria absurdamente grande, a ponto de ocupar uma pastilha inteira
Defeitos em nível de wafer talvez não sejam um grande problema. Redes neurais tendem a aguentar mesmo quando alguns pesos faltam ou estão errados
Como o ritmo do setor é rápido, parece que seria uma corrida muito veloz desde os pesos do modelo até a produção, fazendo 50 wafers, usando por 1 ano e descartando quando o modelo envelhecer
- Mais precisamente, isso parece menos “colocar os pesos na ROM” e mais apontar para computação em memória (CIM)
  É uma técnica em que os dados — aqui, os valores da multiplicação — viram parte do processador, aqui, parte do circuito multiplicador
  Isso contorna arquiteturalmente por completo o problema de “buscar e depois processar”
  Como os dados estão onde a computação acontece, eles não se movem, e não há latência
- Antes já apareceu a https://taalas.com/ e deve haver outros lugares pensando de forma parecida
  Esse tipo de abordagem parece mais adequado para modelos pequenos do que para modelos de fronteira. Os modelos de ponta mudam rápido demais
- Fico curioso se já olharam para a Cerebras
  Ela não foi tão longe quanto o que foi descrito; tem muitos núcleos e muita RAM, mas os pesos ainda precisam ser carregados por software e, em modelos grandes, ainda precisam ser transmitidos para dentro do chip
  Mesmo assim, ainda é um chip de wafer inteiro
- Já penso há algum tempo em colocar os pesos na ROM
  Em muitas cargas de trabalho, pode ser perfeitamente aceitável colocar os pesos na ROM
  Só não tenho certeza se ter um multiplicador por peso é uma boa ideia
  Se houvesse quantização para algo como 2 bits, talvez desse, mas, caso contrário, talvez seja melhor ter uma pequena ROM perto de cada multiplicador ou linha, para lidar com N operações matriciais diferentes sem mover dados de longe
  Outra ideia interessante seria anexar uma fileira de unidades MAC à DRAM, usando a linha da DRAM como vetor
  Se o tamanho da linha for 64 Kbit, isso dá 8 mil pesos com pesos de 8 bits, e permitiria manter pesos e computação no mesmo chip
  Mas não sei se seria possível colocar multiplicadores suficientes em um único chip
  Arranjos sistólicos podem ter de dezenas de milhares a centenas de milhares, cada um executando uma operação por ciclo de clock
- Dizem que memristores seriam ideais para esse uso e ainda reprogramáveis, mas memristores parecem os nanotubos de carbono do mundo da computação
É interessante porque ainda parece haver uma quantidade enorme de ganhos de eficiência a extrair no nível do chip
Fico curioso sobre como enxergam a Taalas
Dizem que estão literalmente gravando modelos de LLM no silício, com alguma memória onboard para ajuste fino
Alegam grandes ganhos em custo e latência
Uma demo muito rápida pode ser vista em https://chatjimmy.ai/
https://taalas.com/
https://www.reddit.com/r/singularity/comments/1r9frzk/taalas...
- Se você usar exclusivamente GPUs de uso geral, vai mesmo deixar muita eficiência na mesa
  Foi por isso que o Google começou a fazer TPUs mais de 10 anos atrás
  Lembro da polêmica em que o Google demitiu Timnit Gebru por causa de um artigo que calculava o impacto ambiental dos LLMs com base em GPUs e ignorava a eficiência das TPUs
  Por causa dessa grande lacuna de eficiência, parece que Jeff Dean ficou muito irritado
- Seria legal ver mais coisas desse tipo, mas parece que a capacidade de atualizar para um modelo totalmente novo a cada lançamento será limitada
  Nesse caso, ficaria extremamente difícil vender isso
- É tecnicamente interessante, mas parece haver detalhes de menos
  Não gosto da ideia de colocar no chip um único modelo que nunca muda
  Fico me perguntando o quanto o silício ficaria mais caro se usassem ROM regravável para os pesos
  Isso permitiria ajustar fino o modelo alvo do projeto e reduziria a preocupação de o modelo ficar ultrapassado
- 17 mil tokens/s em um chatbot é legal, mas é uma demonstração quase inútil
  Em agentes de programação, é uma melhora significativa, e em robótica pode ser uma revolução completa
  Um modelo de 8B não é útil para uso geral, mas pode fornecer inteligência enorme em usos específicos
  O competidor da Nvidia em Tesla/Waymo é um LLM de 7B com um modelo de difusão de 2B, e se isso puder rodar nessa velocidade, o custo pode cair para um dígito em relação às soluções existentes
- Quando chegarmos a um ponto em que o avanço dos modelos desacelere bastante, esse tipo de hardware parece ser o futuro dos provedores de LLM
  Dá até para argumentar que já estamos perto desse ponto
  Hiperescalares como a AWS fariam bom uso desses chips para servir modelos que permaneçam válidos por alguns anos
  Mas, por enquanto, especialmente nos modelos de pesos abertos como Deepseek/Kimi/GLM, a qualidade dos modelos está dando saltos grandes a cada poucos meses
  Até lá, não está claro como isso seria mais custo-efetivo do que hardware de uso geral
  Também parece que uma versão menor disso vai parar dentro do hardware móvel, oferecendo LLMs on-device muito rápidos e eficientes
Um movimento bem grande
O Google e os TPUs parecem já estar pela 7ª geração, e, considerando até tentativas derivadas como LPUs ou o Wafer Scale Engine da Cerebras, parece que houve muito mais visão de futuro
Ainda assim, a primeira impressão é que esse chip parece mirar inferência, não treinamento, e isso também é uma escolha interessante
- Treinamento é quase um custo pontual, e a eficiência já vem caindo com melhorias de arquitetura
  Já a inferência é um custo contínuo e, com o tempo, consome muito mais recursos, então focar em torná-la muito mais eficiente é mais vantajoso no longo prazo
- Agora, considero que o custo de inferência já é maior que o custo de treinamento
  A Nvidia é a rainha dos chips de treinamento de uso geral, mas inferência pode ser especializada
- O Codex Spark 5.3 da Cerebras foi um grande fracasso
  A janela de contexto é pequena e o modelo também está defasado
  Ainda assim, seria bom se isso melhorasse e desse para aproveitar um GPT 5.5 a 1000 tokens por segundo
- Dizem que “nos testes iniciais, o Jalapeño deve aumentar bastante o desempenho por watt em relação ao atual estado da arte”, e é aí que começa a aparecer o que realmente importa
  A formulação é vaga, mas o TPU também faz alegações parecidas
  Ainda acho que o memorando do Google “we have no moat” continua correto. Se não conhece, veja https://newsletter.semianalysis.com/p/google-we-have-no-moat...
  O momento atual parece estar ficando mais parecido com a corrida de hardware travada por IBM, DEC, Cray e Sun entre os anos 60 e 90
  A história não se repete, mas costuma rimar, e esses esforços parecem seguir a mesma trajetória
Vendo a velocidade do avanço da IA e como a IA ajuda a criar IAs mais rápidas e melhores, continuo me perguntando se esse hardware vai ficar obsoleto antes de gerar um retorno significativo sobre o investimento
Já dá para rodar modelos gigantes de IA com menos recursos usando quantização e offloading, mas isso é só o começo
Em algum momento, talvez não tão distante, pode surgir um avanço que permita rodar bem um LLM gigante na faixa de 200B em um desktop Dell de 5 anos
Parece loucura, mas basta olhar o tamanho dos primeiros discos rígidos
O IBM 350 armazenava 3.5Mb em discos com 50 pratos de 24 polegadas de diâmetro e era alugado por 35 mil dólares em valores de hoje
https://www.computerhistory.org/storageengine/first-commerci...
Compare isso com SSDs de vários terabytes e aplique a mesma evolução às arquiteturas e formas de execução dos LLMs atuais
Com a ajuda da própria IA, pode haver um salto em breve, e data centers cheios de placas Nvidia de ponta podem envelhecer quase da noite para o dia
- Se existir esse tipo de avanço, então talvez também dê para rodar um modelo de 200T nos data centers atuais usando o mesmo método
- É uma ideia interessante, mas a comparação com discos rígidos provavelmente não é justa
  O IBM 350 foi comercializado há 70 anos, e levou 70 anos para chegarmos ao ponto em que alguém pode compará-lo com um SSD de vários TB
  Além disso, não há garantia de que a lei de Moore vá necessariamente se aplicar aos LLMs nas próximas décadas
- Por causa do paradoxo de Jevons e das leis de escala, acho que isso não vai acontecer
  Se modelos maiores são sempre melhores, e tudo indica que são, então sempre haverá necessidade de hardware de alto desempenho
- Avanços em computação normalmente aumentam o uso de computação, em vez de reduzi-lo
- Em algum momento deve surgir hardware dedicado para LLMs além de GPUs
  Há os TPUs, mas eles são voltados principalmente para data centers, e as GPUs foram adaptadas de aplicações gráficas
  Quando a demanda de data centers esfriar, a inovação pode realmente acelerar
Há uma parte aqui que não está sendo muito discutida
O CEO da Broadcom, Hock Tan, disse na entrevista que esse acelerador mostrou até agora cerca de 50% de economia de custo em relação às unidades gráficas de processamento de IA convencionais [0]
O cenário muda rápido demais e ainda há muita fruta baixa para colher, então discussões sobre qual fornecedor tem fosso competitivo ou se conseguirá recuperar o investimento parecem ter pouco sentido
[0] - https://www.bloomberg.com/news/articles/2026-06-24/openai-an...
- Se a margem das GPUs é de 75%, então ser 50% mais barato não é nada surpreendente
- A palavra “convencionais” faz muita diferença
  Pode estar se referindo a chips muito mais antigos do que os que a Nvidia vende hoje
Se o plano é “implantar inicialmente até o fim de 2026 e expandir ao longo dos anos seguintes”, então isso parece algo que vai aparecer com destaque no material de divulgação do IPO como uma promessa futura depois da abertura de capital
Vejo qualquer anúncio feito antes do IPO com ceticismo
- A narrativa parece uma brincadeira de pré-IPO, e a aparência lembra uma tampa de cesto de roupa suja
  Eu nem me surpreenderia se fosse golpe
- Não sei de qual IPO estão falando
  Broadcom e Google, obviamente, já são empresas listadas
Microsoft, Google e Amazon também fazem esse tipo de coisa, mas elas também têm a infraestrutura de data center hyperscale para hospedar esses chips
Projetar e fazer tape-out de um chip é uma pilha completamente diferente de empacotamento, resfriamento, implantação, fornecimento de energia e gerenciamento de frota
Fico curioso sobre de onde virá essa parte
- Não dá para esquecer o Stargate
  Atualização: alguém no Twitter disse que isso será hospedado em esquema 50:50 pela Microsoft e pela Oracle
Antes, pedi ao Opus 4.5 para projetar um motor de inferência de LLM em Verilog, incluindo firmware e verificação automática: https://github.com/cpldcpu/smollm.c
Claro, está longe do ideal, mas isso confirmou para mim que essa abordagem de baixar o nível de abstração até a implementação é muito poderosa
- Gostaria de recomendações de tutoriais para aprender Verilog e FPGA em geral
  Ainda tenho um Tang Nano 9k parado, mas não confio em simplesmente pedir para o Claude fazer uma solução no puro vibe coding; queria pelo menos ter uma compreensão básica mínima

OpenAI revela Jalapeño, seu primeiro chip próprio de inferência feito com a Broadcom

Revelação do chip Jalapeño

Estrutura e desempenho do chip

Desempenho e eficiência

Validação operacional

Tape-out em 9 meses, acelerado por modelos da OpenAI

Plataforma multigeracional e parceiros

Estrutura da colaboração

Demanda explosiva

Estratégia full-stack e cenário competitivo

Redução da dependência da Nvidia

Significado para o negócio

Democratização da IA avançada

Leituras relacionadas

1 comentários

Comentários do Hacker News