3 pontos por GN⁺ 3 시간 전 | 1 comentários | Compartilhar no WhatsApp
  • Jalapeño é um acelerador especializado em inferência de LLMs e o primeiro resultado de uma plataforma de computação multigeracional criada em conjunto com a Broadcom
  • Do início do projeto ao tape-out de fabricação, levou apenas 9 meses, o que deve representar o ciclo de desenvolvimento de ASIC mais rápido já visto em semicondutores avançados de alto desempenho
  • Nos testes iniciais, mostrou cerca de 50% de redução de custos em comparação com GPUs comuns para IA, além de desempenho por watt muito superior ao atual estado da arte
  • Faz parte de uma estratégia full-stack que envolve projetar internamente desde a arquitetura do chip até kernel, memória e rede, com o objetivo de reduzir a dependência de GPUs da Nvidia e expandir-se de empresa de software para operadora de infraestrutura de IA
  • A implantação está prevista para começar no fim de 2026 em data centers na escala de gigawatts com parceiros como a Microsoft, ganhando relevância em meio à pressão para provar rentabilidade antes de um IPO estimado em US$ 1 trilhão

Revelação do chip Jalapeño

  • Na quarta-feira, a OpenAI e a Broadcom (NASDAQ: AVGO) revelaram o Jalapeño, o primeiro Processador de Inteligência da OpenAI
  • É um acelerador projetado para o futuro da inferência de LLMs e o primeiro acelerador de IA de uma plataforma de computação multigeracional desenvolvida pelas duas empresas
  • O chairman e CEO da Broadcom, Hock Tan, e o presidente Charlie Kawwas entregaram pessoalmente amostras do chip ao CEO da OpenAI, Sam Altman, e ao presidente Greg Brockman
  • É uma etapa importante na estratégia da OpenAI de ir além de produtos para consumidores e se tornar uma operadora de infraestrutura de IA

Estrutura e desempenho do chip

  • O Jalapeño não é um chip genérico adaptado de aceleradores existentes para workloads de IA, mas um projeto feito do zero (blank-slate) para inferência moderna de LLMs
  • Como um ASIC projetado para tarefas específicas de IA, oferece menos flexibilidade do que GPUs da Nvidia, mas com custo mais baixo
  • Desempenho e eficiência

    • Nos testes iniciais, houve cerca de 50% de redução de custos em comparação com GPUs comuns para IA (em entrevista de Hock Tan)
    • O desempenho final ainda está sendo medido, mas o desempenho por watt já mostra grande avanço em relação ao atual estado da arte
    • Ao reduzir a movimentação de dados e equilibrar recursos de computação, memória e rede, busca-se aproximar a utilização real do limite teórico máximo
    • Na imagem divulgada do chip, é possível ver 8 sites de HBM e um die central de computação
  • Validação operacional

    • Amostras de engenharia já estão executando workloads de ML na frequência e potência-alvo de produção, incluindo o GPT‑5.3‑Codex‑Spark
    • Um relatório técnico detalhado deve ser publicado nos próximos meses
    • A implementação em silício da Broadcom e o silício de rede Tomahawk darão suporte à produção em larga escala

Tape-out em 9 meses, acelerado por modelos da OpenAI

  • O desenvolvimento conjunto foi concluído em apenas 9 meses entre o projeto inicial e o tape-out de fabricação, o que deve ser o ciclo de desenvolvimento de ASIC mais rápido da história em semicondutores avançados de alto desempenho
  • Parte do processo de projeto e otimização usou modelos próprios da OpenAI, e Brockman disse que foi “surpreendente” o quanto eles aceleraram o desenvolvimento
  • Os mesmos modelos oferecidos aos usuários passarão a contribuir para melhorar a infraestrutura que executa modelos futuros
  • Se a IA ajudar engenheiros a projetar chips mais rapidamente, isso pode reduzir os custos de computação em toda a indústria e ampliar o acesso à IA avançada

Plataforma multigeracional e parceiros

  • O Jalapeño é a primeira etapa de uma plataforma de computação multigeracional que deve começar sua implantação inicial no fim de 2026 e se expandir nos anos seguintes
  • Estrutura da colaboração

    • OpenAI — projeto do acelerador, com base em profundo entendimento dos fundamentos dos LLMs
    • Broadcom — implementação do chip, além de tecnologias de rede e interconexão
    • Celestica — expertise em placas, racks e integração de sistemas
  • No ano passado, OpenAI e Broadcom anunciaram um plano para desenvolver chips customizados para computação em escala de 10 gigawatts, e agora revelaram o primeiro chip desse esforço
  • Demanda explosiva

    • O CEO da Broadcom, Hock Tan, disse que isso permitirá implantações em data centers na escala de gigawatts com parceiros como a Microsoft a partir de 2026, com expansão após um protótipo de pequena escala no fim de 2026
    • Brockman afirmou que “não é possível garantir computação suficiente com rapidez”, e Tan disse que a demanda de seis clientes está em um nível “literalmente impossível de atender”, devendo permanecer igual ou ainda maior em 2027 e 2028
    • O responsável pelo programa de hardware da OpenAI, Richard Ho, explicou que a arquitetura foi otimizada em torno dos kernels, da movimentação de memória, da rede e dos padrões de serving mais importantes para modelos de IA de fronteira

Estratégia full-stack e cenário competitivo

  • A OpenAI está indo além do desenvolvimento de modelos de fronteira e da construção de produtos, passando a projetar diretamente também a infraestrutura subjacente — incluindo arquitetura de chips, kernels, sistema de memória, rede, escalonamento, sistemas de implantação e experiência de produto
  • Com isso, junta-se ao grupo de empresas full-stack de IA com silício próprio, como Google (TPU), Amazon (Trainium) e Microsoft (Azure Maia 100)
  • Redução da dependência da Nvidia

    • “Ninguém quer ficar dependente da Nvidia” (Ben Barringer, chefe de pesquisa de tecnologia da Quilter Cheviot), refletindo a tendência de diversificação no fornecimento de chips
    • A OpenAI é uma das maiores clientes da Nvidia, mas também fechou acordos de fornecimento com AMD (série Instinct MI450), Cerebras e outras
  • Significado para o negócio

    • Com a Nvidia se tornando a empresa mais valiosa do mundo ao fornecer componentes centrais para data centers de IA, fica em evidência o potencial de lucro do mercado de infraestrutura de IA
    • Para a OpenAI, que mira um IPO avaliado em US$ 1 trilhão, reduzir o custo de inferência é a chave para recuperar os enormes custos de treinamento e provar rentabilidade
    • As ações da Broadcom subiram ao longo de 2026 e estão cerca de 7 vezes acima do nível do fim de 2022, refletindo os benefícios da parceria

Democratização da IA avançada

  • A inferência é o ponto de encontro entre a IA e as pessoas, e melhorias em custo, velocidade e estabilidade significam respostas mais rápidas no ChatGPT, tarefas no Codex sem espera, produtos de API mais baratos e acesso mais estável em momentos de pico de demanda
  • Tornar modelos avançados disponíveis, estáveis e baratos o suficiente para que mais pessoas possam usá-los todos os dias é o centro da democratização da IA
  • Isso ajuda a transformar infraestrutura em inteligência útil para estudantes, desenvolvedores, pequenos empresários, pesquisadores, empresas e todos que querem aprender, criar e resolver problemas difíceis

1 comentários

 
GN⁺ 3 시간 전
Comentários do Hacker News
  • Quero ver com mais detalhes essa parte de “aceleramos o design e a otimização com modelos da OpenAI”
    Do jeito que está escrito agora, parece um texto de marketing, como dizer que o desenvolvimento ficou mais rápido graças ao Microsoft Office ou a um monitor LG Ultrafine 40" 5K
    Se fosse algo tão grande quanto a frase insinua, a OpenAI provavelmente teria dado muito mais destaque a isso

    • Do ponto de vista do CEO de uma empresa de chips, tudo muda dependendo do que querem dizer com “design” e “produção”
      Não está claro se “design” significa design concluído, e se “produção” significa início da produção, isto é, tape-out
      Se foram 9 meses do congelamento do RTL até o tape-out, para um chip grande e complexo em 3 nm isso é bem normal e, considerando até problemas inesperados, nem chega a ser um cronograma tão impressionante
      Por outro lado, se foi do estágio conceitual — ou seja, sem RTL, só com um diagrama de blocos da arquitetura — até o tape-out, aí sim seria um prazo surpreendente, e é provável que a realidade esteja em algum ponto no meio
      Num anúncio mais específico, deveriam usar marcos e gates técnicos reais
    • A linguagem de descrição de hardware (HDL) usada no desenvolvimento de chips é parecida com uma linguagem de programação, e os modelos existentes já entendem isso e conseguem fazer bastante coisa
      Não é necessariamente preciso um modelo especializado separado para usar grandes modelos de linguagem no fluxo de trabalho de design de chips
      A verificação de design também envolve muita programação tradicional, então pode receber ajuda de grandes modelos de linguagem
      Não é algo totalmente sem sentido; se você baixar hoje um software open source de design de chips, um grande modelo de linguagem pode até ajudar a começar diretamente um chip pequeno
    • A Broadcom já tem muito IP para SoCs de IA
      É bem possível que as partes difíceis desse chip de inferência já tenham sido projetadas pela Broadcom, e que a OpenAI só tenha passado as especificações desejadas para ela
      Também parece que será bastante parecido com o Google TPU
      Dizem que “o acelerador de primeira geração vai elevar consideravelmente o desempenho por watt em relação ao atual estado da arte”, e eu queria saber o que significa “consideravelmente” aqui
      O Vera Rubin está previsto para ser enviado em massa no fim deste ano, e espera-se que tenha eficiência energética de inferência 10 vezes maior que a do Blackwell[0]
      Mesmo que o tape-out já tenha acontecido, ainda deve levar no mínimo 12 meses — provavelmente mais — para corrigir bugs, fabricar o chip, alocar HBM, projetar os racks, a interconexão e implantar isso no datacenter
      Quando esse chip entrar em grande volume nos datacenters, ele talvez já esteja competindo com o Vera Rubin Ultra ou o Feynman
      Pessoalmente, acho que a OpenAI não deveria ter investido nesse projeto
      Ainda é cedo demais; ela deveria ter feito como a Anthropic, focado nos modelos, vencido primeiro e só depois, com rentabilidade, partido para algo assim
      Em IA existe um limite duro chamado energia, então isso é arriscado para a OpenAI
      Se você tem 1 GW, precisa instalar apenas os melhores chips, e se os chips da Nvidia forem melhores, então esse projeto terá desperdiçado bilhões de dólares
      [0]https://developer.nvidia.com/blog/scaling-token-factory-reve...
    • Existem basicamente dois significados possíveis, além das piadas no meio
      1. A OpenAI realmente tem tecnologia de IA capaz de melhorar o design de chips — uma afirmação ousada e pouco provável, que exigiria provas
      2. A OpenAI projetou os modelos e kernels de teste e validação para testar o desempenho no hardware de simulação
        O problema é que a frase pode significar só a segunda opção, mas foi escrita para soar como a primeira, e por isso é difícil confiar
    • Verilog já é bastante público, então é perfeitamente possível que tenham projetado o chip escrevendo mais Verilog com ajuda de IA
      Não precisa ser algo revolucionário; pode simplesmente ter acontecido de o design assistido por IA ter funcionado bem o bastante para valer a pena criar um ASIC customizado
  • Isso não apareceu no texto da OpenAI, mas parece quase certo que o chip será fabricado pela TSMC [1]
    Eu não tinha certeza se a Intel era a responsável

    1. https://www.investing.com/news/stock-market-news/openai-unve...
    • Segundo uma alegação que vi no Twitter, o motivo de empresas como Google, Amazon e OpenAI usarem a Broadcom não é só a capacidade de design, mas também o fato de a Broadcom ter acordos de alocação com a TSMC e fabricantes de memória
    • Só recentemente as peças começaram a se encaixar
      A Broadcom virou a parceira de hardware do TPU do Google, ganhou muito dinheiro compartilhando a capacidade de produção da TSMC com o Google, e agora parece estar fazendo a mesma coisa com a OpenAI
      É uma forma realmente inteligente de aproveitar a corrida do ouro da IA
      Só espero que o dinheiro ganho assim não seja usado para arrancar mais dinheiro da indústria de software, como aconteceu com a VMWare e a Bitnami
  • Gostaria de ver um chip de inferência com os pesos embutidos em parte da ROM do chip
    Haveria um multiplicador para cada peso e, como seriam constantes, tudo viraria um simples conjunto de somadores, com throughput totalmente em pipeline de um token por ciclo de clock
    Assim, um único pedaço de silício poderia atender milhões de usuários ao mesmo tempo, e o barramento de saída poderia soltar 500 milhões de tokens por segundo
    A desvantagem é que o chip ficaria absurdamente grande, a ponto de ocupar uma pastilha inteira
    Defeitos em nível de wafer talvez não sejam um grande problema. Redes neurais tendem a aguentar mesmo quando alguns pesos faltam ou estão errados
    Como o ritmo do setor é rápido, parece que seria uma corrida muito veloz desde os pesos do modelo até a produção, fazendo 50 wafers, usando por 1 ano e descartando quando o modelo envelhecer

    • Mais precisamente, isso parece menos “colocar os pesos na ROM” e mais apontar para computação em memória (CIM)
      É uma técnica em que os dados — aqui, os valores da multiplicação — viram parte do processador, aqui, parte do circuito multiplicador
      Isso contorna arquiteturalmente por completo o problema de “buscar e depois processar”
      Como os dados estão onde a computação acontece, eles não se movem, e não há latência
    • Antes já apareceu a https://taalas.com/ e deve haver outros lugares pensando de forma parecida
      Esse tipo de abordagem parece mais adequado para modelos pequenos do que para modelos de fronteira. Os modelos de ponta mudam rápido demais
    • Fico curioso se já olharam para a Cerebras
      Ela não foi tão longe quanto o que foi descrito; tem muitos núcleos e muita RAM, mas os pesos ainda precisam ser carregados por software e, em modelos grandes, ainda precisam ser transmitidos para dentro do chip
      Mesmo assim, ainda é um chip de wafer inteiro
    • Já penso há algum tempo em colocar os pesos na ROM
      Em muitas cargas de trabalho, pode ser perfeitamente aceitável colocar os pesos na ROM
      Só não tenho certeza se ter um multiplicador por peso é uma boa ideia
      Se houvesse quantização para algo como 2 bits, talvez desse, mas, caso contrário, talvez seja melhor ter uma pequena ROM perto de cada multiplicador ou linha, para lidar com N operações matriciais diferentes sem mover dados de longe
      Outra ideia interessante seria anexar uma fileira de unidades MAC à DRAM, usando a linha da DRAM como vetor
      Se o tamanho da linha for 64 Kbit, isso dá 8 mil pesos com pesos de 8 bits, e permitiria manter pesos e computação no mesmo chip
      Mas não sei se seria possível colocar multiplicadores suficientes em um único chip
      Arranjos sistólicos podem ter de dezenas de milhares a centenas de milhares, cada um executando uma operação por ciclo de clock
    • Dizem que memristores seriam ideais para esse uso e ainda reprogramáveis, mas memristores parecem os nanotubos de carbono do mundo da computação
  • É interessante porque ainda parece haver uma quantidade enorme de ganhos de eficiência a extrair no nível do chip
    Fico curioso sobre como enxergam a Taalas
    Dizem que estão literalmente gravando modelos de LLM no silício, com alguma memória onboard para ajuste fino
    Alegam grandes ganhos em custo e latência
    Uma demo muito rápida pode ser vista em https://chatjimmy.ai/
    https://taalas.com/
    https://www.reddit.com/r/singularity/comments/1r9frzk/taalas...

    • Se você usar exclusivamente GPUs de uso geral, vai mesmo deixar muita eficiência na mesa
      Foi por isso que o Google começou a fazer TPUs mais de 10 anos atrás
      Lembro da polêmica em que o Google demitiu Timnit Gebru por causa de um artigo que calculava o impacto ambiental dos LLMs com base em GPUs e ignorava a eficiência das TPUs
      Por causa dessa grande lacuna de eficiência, parece que Jeff Dean ficou muito irritado
    • Seria legal ver mais coisas desse tipo, mas parece que a capacidade de atualizar para um modelo totalmente novo a cada lançamento será limitada
      Nesse caso, ficaria extremamente difícil vender isso
    • É tecnicamente interessante, mas parece haver detalhes de menos
      Não gosto da ideia de colocar no chip um único modelo que nunca muda
      Fico me perguntando o quanto o silício ficaria mais caro se usassem ROM regravável para os pesos
      Isso permitiria ajustar fino o modelo alvo do projeto e reduziria a preocupação de o modelo ficar ultrapassado
    • 17 mil tokens/s em um chatbot é legal, mas é uma demonstração quase inútil
      Em agentes de programação, é uma melhora significativa, e em robótica pode ser uma revolução completa
      Um modelo de 8B não é útil para uso geral, mas pode fornecer inteligência enorme em usos específicos
      O competidor da Nvidia em Tesla/Waymo é um LLM de 7B com um modelo de difusão de 2B, e se isso puder rodar nessa velocidade, o custo pode cair para um dígito em relação às soluções existentes
    • Quando chegarmos a um ponto em que o avanço dos modelos desacelere bastante, esse tipo de hardware parece ser o futuro dos provedores de LLM
      Dá até para argumentar que já estamos perto desse ponto
      Hiperescalares como a AWS fariam bom uso desses chips para servir modelos que permaneçam válidos por alguns anos
      Mas, por enquanto, especialmente nos modelos de pesos abertos como Deepseek/Kimi/GLM, a qualidade dos modelos está dando saltos grandes a cada poucos meses
      Até lá, não está claro como isso seria mais custo-efetivo do que hardware de uso geral
      Também parece que uma versão menor disso vai parar dentro do hardware móvel, oferecendo LLMs on-device muito rápidos e eficientes
  • Um movimento bem grande
    O Google e os TPUs parecem já estar pela 7ª geração, e, considerando até tentativas derivadas como LPUs ou o Wafer Scale Engine da Cerebras, parece que houve muito mais visão de futuro
    Ainda assim, a primeira impressão é que esse chip parece mirar inferência, não treinamento, e isso também é uma escolha interessante

    • Treinamento é quase um custo pontual, e a eficiência já vem caindo com melhorias de arquitetura
      Já a inferência é um custo contínuo e, com o tempo, consome muito mais recursos, então focar em torná-la muito mais eficiente é mais vantajoso no longo prazo
    • Agora, considero que o custo de inferência já é maior que o custo de treinamento
      A Nvidia é a rainha dos chips de treinamento de uso geral, mas inferência pode ser especializada
    • O Codex Spark 5.3 da Cerebras foi um grande fracasso
      A janela de contexto é pequena e o modelo também está defasado
      Ainda assim, seria bom se isso melhorasse e desse para aproveitar um GPT 5.5 a 1000 tokens por segundo
    • Dizem que “nos testes iniciais, o Jalapeño deve aumentar bastante o desempenho por watt em relação ao atual estado da arte”, e é aí que começa a aparecer o que realmente importa
      A formulação é vaga, mas o TPU também faz alegações parecidas
      Ainda acho que o memorando do Google “we have no moat” continua correto. Se não conhece, veja https://newsletter.semianalysis.com/p/google-we-have-no-moat...
      O momento atual parece estar ficando mais parecido com a corrida de hardware travada por IBM, DEC, Cray e Sun entre os anos 60 e 90
      A história não se repete, mas costuma rimar, e esses esforços parecem seguir a mesma trajetória
  • Vendo a velocidade do avanço da IA e como a IA ajuda a criar IAs mais rápidas e melhores, continuo me perguntando se esse hardware vai ficar obsoleto antes de gerar um retorno significativo sobre o investimento
    Já dá para rodar modelos gigantes de IA com menos recursos usando quantização e offloading, mas isso é só o começo
    Em algum momento, talvez não tão distante, pode surgir um avanço que permita rodar bem um LLM gigante na faixa de 200B em um desktop Dell de 5 anos
    Parece loucura, mas basta olhar o tamanho dos primeiros discos rígidos
    O IBM 350 armazenava 3.5Mb em discos com 50 pratos de 24 polegadas de diâmetro e era alugado por 35 mil dólares em valores de hoje
    https://www.computerhistory.org/storageengine/first-commerci...
    Compare isso com SSDs de vários terabytes e aplique a mesma evolução às arquiteturas e formas de execução dos LLMs atuais
    Com a ajuda da própria IA, pode haver um salto em breve, e data centers cheios de placas Nvidia de ponta podem envelhecer quase da noite para o dia

    • Se existir esse tipo de avanço, então talvez também dê para rodar um modelo de 200T nos data centers atuais usando o mesmo método
    • É uma ideia interessante, mas a comparação com discos rígidos provavelmente não é justa
      O IBM 350 foi comercializado há 70 anos, e levou 70 anos para chegarmos ao ponto em que alguém pode compará-lo com um SSD de vários TB
      Além disso, não há garantia de que a lei de Moore vá necessariamente se aplicar aos LLMs nas próximas décadas
    • Por causa do paradoxo de Jevons e das leis de escala, acho que isso não vai acontecer
      Se modelos maiores são sempre melhores, e tudo indica que são, então sempre haverá necessidade de hardware de alto desempenho
    • Avanços em computação normalmente aumentam o uso de computação, em vez de reduzi-lo
    • Em algum momento deve surgir hardware dedicado para LLMs além de GPUs
      Há os TPUs, mas eles são voltados principalmente para data centers, e as GPUs foram adaptadas de aplicações gráficas
      Quando a demanda de data centers esfriar, a inovação pode realmente acelerar
  • Há uma parte aqui que não está sendo muito discutida
    O CEO da Broadcom, Hock Tan, disse na entrevista que esse acelerador mostrou até agora cerca de 50% de economia de custo em relação às unidades gráficas de processamento de IA convencionais [0]
    O cenário muda rápido demais e ainda há muita fruta baixa para colher, então discussões sobre qual fornecedor tem fosso competitivo ou se conseguirá recuperar o investimento parecem ter pouco sentido
    [0] - https://www.bloomberg.com/news/articles/2026-06-24/openai-an...

    • Se a margem das GPUs é de 75%, então ser 50% mais barato não é nada surpreendente
    • A palavra “convencionais” faz muita diferença
      Pode estar se referindo a chips muito mais antigos do que os que a Nvidia vende hoje
  • Se o plano é “implantar inicialmente até o fim de 2026 e expandir ao longo dos anos seguintes”, então isso parece algo que vai aparecer com destaque no material de divulgação do IPO como uma promessa futura depois da abertura de capital
    Vejo qualquer anúncio feito antes do IPO com ceticismo

    • A narrativa parece uma brincadeira de pré-IPO, e a aparência lembra uma tampa de cesto de roupa suja
      Eu nem me surpreenderia se fosse golpe
    • Não sei de qual IPO estão falando
      Broadcom e Google, obviamente, já são empresas listadas
  • Microsoft, Google e Amazon também fazem esse tipo de coisa, mas elas também têm a infraestrutura de data center hyperscale para hospedar esses chips
    Projetar e fazer tape-out de um chip é uma pilha completamente diferente de empacotamento, resfriamento, implantação, fornecimento de energia e gerenciamento de frota
    Fico curioso sobre de onde virá essa parte

    • Não dá para esquecer o Stargate
      Atualização: alguém no Twitter disse que isso será hospedado em esquema 50:50 pela Microsoft e pela Oracle
  • Antes, pedi ao Opus 4.5 para projetar um motor de inferência de LLM em Verilog, incluindo firmware e verificação automática: https://github.com/cpldcpu/smollm.c
    Claro, está longe do ideal, mas isso confirmou para mim que essa abordagem de baixar o nível de abstração até a implementação é muito poderosa

    • Gostaria de recomendações de tutoriais para aprender Verilog e FPGA em geral
      Ainda tenho um Tang Nano 9k parado, mas não confio em simplesmente pedir para o Claude fazer uma solução no puro vibe coding; queria pelo menos ter uma compreensão básica mínima