OpenAI revela Jalapeño, seu primeiro chip próprio de inferência feito com a Broadcom
(techcrunch.com)- Jalapeño é um acelerador especializado em inferência de LLMs e o primeiro resultado de uma plataforma de computação multigeracional criada em conjunto com a Broadcom
- Do início do projeto ao tape-out de fabricação, levou apenas 9 meses, o que deve representar o ciclo de desenvolvimento de ASIC mais rápido já visto em semicondutores avançados de alto desempenho
- Nos testes iniciais, mostrou cerca de 50% de redução de custos em comparação com GPUs comuns para IA, além de desempenho por watt muito superior ao atual estado da arte
- Faz parte de uma estratégia full-stack que envolve projetar internamente desde a arquitetura do chip até kernel, memória e rede, com o objetivo de reduzir a dependência de GPUs da Nvidia e expandir-se de empresa de software para operadora de infraestrutura de IA
- A implantação está prevista para começar no fim de 2026 em data centers na escala de gigawatts com parceiros como a Microsoft, ganhando relevância em meio à pressão para provar rentabilidade antes de um IPO estimado em US$ 1 trilhão
Revelação do chip Jalapeño
- Na quarta-feira, a OpenAI e a Broadcom (NASDAQ: AVGO) revelaram o Jalapeño, o primeiro Processador de Inteligência da OpenAI
- É um acelerador projetado para o futuro da inferência de LLMs e o primeiro acelerador de IA de uma plataforma de computação multigeracional desenvolvida pelas duas empresas
- O chairman e CEO da Broadcom, Hock Tan, e o presidente Charlie Kawwas entregaram pessoalmente amostras do chip ao CEO da OpenAI, Sam Altman, e ao presidente Greg Brockman
- É uma etapa importante na estratégia da OpenAI de ir além de produtos para consumidores e se tornar uma operadora de infraestrutura de IA
Estrutura e desempenho do chip
- O Jalapeño não é um chip genérico adaptado de aceleradores existentes para workloads de IA, mas um projeto feito do zero (blank-slate) para inferência moderna de LLMs
- Como um ASIC projetado para tarefas específicas de IA, oferece menos flexibilidade do que GPUs da Nvidia, mas com custo mais baixo
-
Desempenho e eficiência
- Nos testes iniciais, houve cerca de 50% de redução de custos em comparação com GPUs comuns para IA (em entrevista de Hock Tan)
- O desempenho final ainda está sendo medido, mas o desempenho por watt já mostra grande avanço em relação ao atual estado da arte
- Ao reduzir a movimentação de dados e equilibrar recursos de computação, memória e rede, busca-se aproximar a utilização real do limite teórico máximo
- Na imagem divulgada do chip, é possível ver 8 sites de HBM e um die central de computação
-
Validação operacional
- Amostras de engenharia já estão executando workloads de ML na frequência e potência-alvo de produção, incluindo o GPT‑5.3‑Codex‑Spark
- Um relatório técnico detalhado deve ser publicado nos próximos meses
- A implementação em silício da Broadcom e o silício de rede Tomahawk darão suporte à produção em larga escala
Tape-out em 9 meses, acelerado por modelos da OpenAI
- O desenvolvimento conjunto foi concluído em apenas 9 meses entre o projeto inicial e o tape-out de fabricação, o que deve ser o ciclo de desenvolvimento de ASIC mais rápido da história em semicondutores avançados de alto desempenho
- Parte do processo de projeto e otimização usou modelos próprios da OpenAI, e Brockman disse que foi “surpreendente” o quanto eles aceleraram o desenvolvimento
- Os mesmos modelos oferecidos aos usuários passarão a contribuir para melhorar a infraestrutura que executa modelos futuros
- Se a IA ajudar engenheiros a projetar chips mais rapidamente, isso pode reduzir os custos de computação em toda a indústria e ampliar o acesso à IA avançada
Plataforma multigeracional e parceiros
- O Jalapeño é a primeira etapa de uma plataforma de computação multigeracional que deve começar sua implantação inicial no fim de 2026 e se expandir nos anos seguintes
-
Estrutura da colaboração
- OpenAI — projeto do acelerador, com base em profundo entendimento dos fundamentos dos LLMs
- Broadcom — implementação do chip, além de tecnologias de rede e interconexão
- Celestica — expertise em placas, racks e integração de sistemas
- No ano passado, OpenAI e Broadcom anunciaram um plano para desenvolver chips customizados para computação em escala de 10 gigawatts, e agora revelaram o primeiro chip desse esforço
-
Demanda explosiva
- O CEO da Broadcom, Hock Tan, disse que isso permitirá implantações em data centers na escala de gigawatts com parceiros como a Microsoft a partir de 2026, com expansão após um protótipo de pequena escala no fim de 2026
- Brockman afirmou que “não é possível garantir computação suficiente com rapidez”, e Tan disse que a demanda de seis clientes está em um nível “literalmente impossível de atender”, devendo permanecer igual ou ainda maior em 2027 e 2028
- O responsável pelo programa de hardware da OpenAI, Richard Ho, explicou que a arquitetura foi otimizada em torno dos kernels, da movimentação de memória, da rede e dos padrões de serving mais importantes para modelos de IA de fronteira
Estratégia full-stack e cenário competitivo
- A OpenAI está indo além do desenvolvimento de modelos de fronteira e da construção de produtos, passando a projetar diretamente também a infraestrutura subjacente — incluindo arquitetura de chips, kernels, sistema de memória, rede, escalonamento, sistemas de implantação e experiência de produto
- Com isso, junta-se ao grupo de empresas full-stack de IA com silício próprio, como Google (TPU), Amazon (Trainium) e Microsoft (Azure Maia 100)
-
Redução da dependência da Nvidia
- “Ninguém quer ficar dependente da Nvidia” (Ben Barringer, chefe de pesquisa de tecnologia da Quilter Cheviot), refletindo a tendência de diversificação no fornecimento de chips
- A OpenAI é uma das maiores clientes da Nvidia, mas também fechou acordos de fornecimento com AMD (série Instinct MI450), Cerebras e outras
-
Significado para o negócio
- Com a Nvidia se tornando a empresa mais valiosa do mundo ao fornecer componentes centrais para data centers de IA, fica em evidência o potencial de lucro do mercado de infraestrutura de IA
- Para a OpenAI, que mira um IPO avaliado em US$ 1 trilhão, reduzir o custo de inferência é a chave para recuperar os enormes custos de treinamento e provar rentabilidade
- As ações da Broadcom subiram ao longo de 2026 e estão cerca de 7 vezes acima do nível do fim de 2022, refletindo os benefícios da parceria
Democratização da IA avançada
- A inferência é o ponto de encontro entre a IA e as pessoas, e melhorias em custo, velocidade e estabilidade significam respostas mais rápidas no ChatGPT, tarefas no Codex sem espera, produtos de API mais baratos e acesso mais estável em momentos de pico de demanda
- Tornar modelos avançados disponíveis, estáveis e baratos o suficiente para que mais pessoas possam usá-los todos os dias é o centro da democratização da IA
- Isso ajuda a transformar infraestrutura em inteligência útil para estudantes, desenvolvedores, pequenos empresários, pesquisadores, empresas e todos que querem aprender, criar e resolver problemas difíceis
1 comentários
Comentários do Hacker News
Quero ver com mais detalhes essa parte de “aceleramos o design e a otimização com modelos da OpenAI”
Do jeito que está escrito agora, parece um texto de marketing, como dizer que o desenvolvimento ficou mais rápido graças ao Microsoft Office ou a um monitor LG Ultrafine 40" 5K
Se fosse algo tão grande quanto a frase insinua, a OpenAI provavelmente teria dado muito mais destaque a isso
Não está claro se “design” significa design concluído, e se “produção” significa início da produção, isto é, tape-out
Se foram 9 meses do congelamento do RTL até o tape-out, para um chip grande e complexo em 3 nm isso é bem normal e, considerando até problemas inesperados, nem chega a ser um cronograma tão impressionante
Por outro lado, se foi do estágio conceitual — ou seja, sem RTL, só com um diagrama de blocos da arquitetura — até o tape-out, aí sim seria um prazo surpreendente, e é provável que a realidade esteja em algum ponto no meio
Num anúncio mais específico, deveriam usar marcos e gates técnicos reais
Não é necessariamente preciso um modelo especializado separado para usar grandes modelos de linguagem no fluxo de trabalho de design de chips
A verificação de design também envolve muita programação tradicional, então pode receber ajuda de grandes modelos de linguagem
Não é algo totalmente sem sentido; se você baixar hoje um software open source de design de chips, um grande modelo de linguagem pode até ajudar a começar diretamente um chip pequeno
É bem possível que as partes difíceis desse chip de inferência já tenham sido projetadas pela Broadcom, e que a OpenAI só tenha passado as especificações desejadas para ela
Também parece que será bastante parecido com o Google TPU
Dizem que “o acelerador de primeira geração vai elevar consideravelmente o desempenho por watt em relação ao atual estado da arte”, e eu queria saber o que significa “consideravelmente” aqui
O Vera Rubin está previsto para ser enviado em massa no fim deste ano, e espera-se que tenha eficiência energética de inferência 10 vezes maior que a do Blackwell[0]
Mesmo que o tape-out já tenha acontecido, ainda deve levar no mínimo 12 meses — provavelmente mais — para corrigir bugs, fabricar o chip, alocar HBM, projetar os racks, a interconexão e implantar isso no datacenter
Quando esse chip entrar em grande volume nos datacenters, ele talvez já esteja competindo com o Vera Rubin Ultra ou o Feynman
Pessoalmente, acho que a OpenAI não deveria ter investido nesse projeto
Ainda é cedo demais; ela deveria ter feito como a Anthropic, focado nos modelos, vencido primeiro e só depois, com rentabilidade, partido para algo assim
Em IA existe um limite duro chamado energia, então isso é arriscado para a OpenAI
Se você tem 1 GW, precisa instalar apenas os melhores chips, e se os chips da Nvidia forem melhores, então esse projeto terá desperdiçado bilhões de dólares
[0]https://developer.nvidia.com/blog/scaling-token-factory-reve...
O problema é que a frase pode significar só a segunda opção, mas foi escrita para soar como a primeira, e por isso é difícil confiar
Não precisa ser algo revolucionário; pode simplesmente ter acontecido de o design assistido por IA ter funcionado bem o bastante para valer a pena criar um ASIC customizado
Isso não apareceu no texto da OpenAI, mas parece quase certo que o chip será fabricado pela TSMC [1]
Eu não tinha certeza se a Intel era a responsável
A Broadcom virou a parceira de hardware do TPU do Google, ganhou muito dinheiro compartilhando a capacidade de produção da TSMC com o Google, e agora parece estar fazendo a mesma coisa com a OpenAI
É uma forma realmente inteligente de aproveitar a corrida do ouro da IA
Só espero que o dinheiro ganho assim não seja usado para arrancar mais dinheiro da indústria de software, como aconteceu com a VMWare e a Bitnami
Gostaria de ver um chip de inferência com os pesos embutidos em parte da ROM do chip
Haveria um multiplicador para cada peso e, como seriam constantes, tudo viraria um simples conjunto de somadores, com throughput totalmente em pipeline de um token por ciclo de clock
Assim, um único pedaço de silício poderia atender milhões de usuários ao mesmo tempo, e o barramento de saída poderia soltar 500 milhões de tokens por segundo
A desvantagem é que o chip ficaria absurdamente grande, a ponto de ocupar uma pastilha inteira
Defeitos em nível de wafer talvez não sejam um grande problema. Redes neurais tendem a aguentar mesmo quando alguns pesos faltam ou estão errados
Como o ritmo do setor é rápido, parece que seria uma corrida muito veloz desde os pesos do modelo até a produção, fazendo 50 wafers, usando por 1 ano e descartando quando o modelo envelhecer
É uma técnica em que os dados — aqui, os valores da multiplicação — viram parte do processador, aqui, parte do circuito multiplicador
Isso contorna arquiteturalmente por completo o problema de “buscar e depois processar”
Como os dados estão onde a computação acontece, eles não se movem, e não há latência
Esse tipo de abordagem parece mais adequado para modelos pequenos do que para modelos de fronteira. Os modelos de ponta mudam rápido demais
Ela não foi tão longe quanto o que foi descrito; tem muitos núcleos e muita RAM, mas os pesos ainda precisam ser carregados por software e, em modelos grandes, ainda precisam ser transmitidos para dentro do chip
Mesmo assim, ainda é um chip de wafer inteiro
Em muitas cargas de trabalho, pode ser perfeitamente aceitável colocar os pesos na ROM
Só não tenho certeza se ter um multiplicador por peso é uma boa ideia
Se houvesse quantização para algo como 2 bits, talvez desse, mas, caso contrário, talvez seja melhor ter uma pequena ROM perto de cada multiplicador ou linha, para lidar com N operações matriciais diferentes sem mover dados de longe
Outra ideia interessante seria anexar uma fileira de unidades MAC à DRAM, usando a linha da DRAM como vetor
Se o tamanho da linha for 64 Kbit, isso dá 8 mil pesos com pesos de 8 bits, e permitiria manter pesos e computação no mesmo chip
Mas não sei se seria possível colocar multiplicadores suficientes em um único chip
Arranjos sistólicos podem ter de dezenas de milhares a centenas de milhares, cada um executando uma operação por ciclo de clock
É interessante porque ainda parece haver uma quantidade enorme de ganhos de eficiência a extrair no nível do chip
Fico curioso sobre como enxergam a Taalas
Dizem que estão literalmente gravando modelos de LLM no silício, com alguma memória onboard para ajuste fino
Alegam grandes ganhos em custo e latência
Uma demo muito rápida pode ser vista em https://chatjimmy.ai/
https://taalas.com/
https://www.reddit.com/r/singularity/comments/1r9frzk/taalas...
Foi por isso que o Google começou a fazer TPUs mais de 10 anos atrás
Lembro da polêmica em que o Google demitiu Timnit Gebru por causa de um artigo que calculava o impacto ambiental dos LLMs com base em GPUs e ignorava a eficiência das TPUs
Por causa dessa grande lacuna de eficiência, parece que Jeff Dean ficou muito irritado
Nesse caso, ficaria extremamente difícil vender isso
Não gosto da ideia de colocar no chip um único modelo que nunca muda
Fico me perguntando o quanto o silício ficaria mais caro se usassem ROM regravável para os pesos
Isso permitiria ajustar fino o modelo alvo do projeto e reduziria a preocupação de o modelo ficar ultrapassado
Em agentes de programação, é uma melhora significativa, e em robótica pode ser uma revolução completa
Um modelo de 8B não é útil para uso geral, mas pode fornecer inteligência enorme em usos específicos
O competidor da Nvidia em Tesla/Waymo é um LLM de 7B com um modelo de difusão de 2B, e se isso puder rodar nessa velocidade, o custo pode cair para um dígito em relação às soluções existentes
Dá até para argumentar que já estamos perto desse ponto
Hiperescalares como a AWS fariam bom uso desses chips para servir modelos que permaneçam válidos por alguns anos
Mas, por enquanto, especialmente nos modelos de pesos abertos como Deepseek/Kimi/GLM, a qualidade dos modelos está dando saltos grandes a cada poucos meses
Até lá, não está claro como isso seria mais custo-efetivo do que hardware de uso geral
Também parece que uma versão menor disso vai parar dentro do hardware móvel, oferecendo LLMs on-device muito rápidos e eficientes
Um movimento bem grande
O Google e os TPUs parecem já estar pela 7ª geração, e, considerando até tentativas derivadas como LPUs ou o Wafer Scale Engine da Cerebras, parece que houve muito mais visão de futuro
Ainda assim, a primeira impressão é que esse chip parece mirar inferência, não treinamento, e isso também é uma escolha interessante
Já a inferência é um custo contínuo e, com o tempo, consome muito mais recursos, então focar em torná-la muito mais eficiente é mais vantajoso no longo prazo
A Nvidia é a rainha dos chips de treinamento de uso geral, mas inferência pode ser especializada
A janela de contexto é pequena e o modelo também está defasado
Ainda assim, seria bom se isso melhorasse e desse para aproveitar um GPT 5.5 a 1000 tokens por segundo
A formulação é vaga, mas o TPU também faz alegações parecidas
Ainda acho que o memorando do Google “we have no moat” continua correto. Se não conhece, veja https://newsletter.semianalysis.com/p/google-we-have-no-moat...
O momento atual parece estar ficando mais parecido com a corrida de hardware travada por IBM, DEC, Cray e Sun entre os anos 60 e 90
A história não se repete, mas costuma rimar, e esses esforços parecem seguir a mesma trajetória
Vendo a velocidade do avanço da IA e como a IA ajuda a criar IAs mais rápidas e melhores, continuo me perguntando se esse hardware vai ficar obsoleto antes de gerar um retorno significativo sobre o investimento
Já dá para rodar modelos gigantes de IA com menos recursos usando quantização e offloading, mas isso é só o começo
Em algum momento, talvez não tão distante, pode surgir um avanço que permita rodar bem um LLM gigante na faixa de 200B em um desktop Dell de 5 anos
Parece loucura, mas basta olhar o tamanho dos primeiros discos rígidos
O IBM 350 armazenava 3.5Mb em discos com 50 pratos de 24 polegadas de diâmetro e era alugado por 35 mil dólares em valores de hoje
https://www.computerhistory.org/storageengine/first-commerci...
Compare isso com SSDs de vários terabytes e aplique a mesma evolução às arquiteturas e formas de execução dos LLMs atuais
Com a ajuda da própria IA, pode haver um salto em breve, e data centers cheios de placas Nvidia de ponta podem envelhecer quase da noite para o dia
O IBM 350 foi comercializado há 70 anos, e levou 70 anos para chegarmos ao ponto em que alguém pode compará-lo com um SSD de vários TB
Além disso, não há garantia de que a lei de Moore vá necessariamente se aplicar aos LLMs nas próximas décadas
Se modelos maiores são sempre melhores, e tudo indica que são, então sempre haverá necessidade de hardware de alto desempenho
Há os TPUs, mas eles são voltados principalmente para data centers, e as GPUs foram adaptadas de aplicações gráficas
Quando a demanda de data centers esfriar, a inovação pode realmente acelerar
Há uma parte aqui que não está sendo muito discutida
O CEO da Broadcom, Hock Tan, disse na entrevista que esse acelerador mostrou até agora cerca de 50% de economia de custo em relação às unidades gráficas de processamento de IA convencionais [0]
O cenário muda rápido demais e ainda há muita fruta baixa para colher, então discussões sobre qual fornecedor tem fosso competitivo ou se conseguirá recuperar o investimento parecem ter pouco sentido
[0] - https://www.bloomberg.com/news/articles/2026-06-24/openai-an...
Pode estar se referindo a chips muito mais antigos do que os que a Nvidia vende hoje
Se o plano é “implantar inicialmente até o fim de 2026 e expandir ao longo dos anos seguintes”, então isso parece algo que vai aparecer com destaque no material de divulgação do IPO como uma promessa futura depois da abertura de capital
Vejo qualquer anúncio feito antes do IPO com ceticismo
Eu nem me surpreenderia se fosse golpe
Broadcom e Google, obviamente, já são empresas listadas
Microsoft, Google e Amazon também fazem esse tipo de coisa, mas elas também têm a infraestrutura de data center hyperscale para hospedar esses chips
Projetar e fazer tape-out de um chip é uma pilha completamente diferente de empacotamento, resfriamento, implantação, fornecimento de energia e gerenciamento de frota
Fico curioso sobre de onde virá essa parte
Atualização: alguém no Twitter disse que isso será hospedado em esquema 50:50 pela Microsoft e pela Oracle
Antes, pedi ao Opus 4.5 para projetar um motor de inferência de LLM em Verilog, incluindo firmware e verificação automática: https://github.com/cpldcpu/smollm.c
Claro, está longe do ideal, mas isso confirmou para mim que essa abordagem de baixar o nível de abstração até a implementação é muito poderosa
Ainda tenho um Tang Nano 9k parado, mas não confio em simplesmente pedir para o Claude fazer uma solução no puro vibe coding; queria pelo menos ter uma compreensão básica mínima