8 pontos por GN⁺ 2026-03-30 | 1 comentários | Compartilhar no WhatsApp
  • No Grande Colisor de Hádrons, os enormes volumes de dados gerados são filtrados em tempo real por modelos minúsculos de IA implementados diretamente em chips de silício, selecionando apenas os eventos cientificamente relevantes
  • Para processar fluxos de dados de centenas de terabytes por segundo, são usados hardwares baseados em FPGA e ASIC em vez de GPUs ou TPUs, tomando decisões com latência na escala de nanossegundos
  • Com a ferramenta HLS4ML, modelos de PyTorch ou TensorFlow são convertidos em código C++ sintetizável e implantados diretamente no chip; uma estrutura baseada em tabelas de consulta gera saídas imediatas sem operações de ponto flutuante
  • O Level-1 Trigger do LHC é composto por cerca de 1.000 FPGAs e avalia os dados em até 50 nanossegundos; nas etapas seguintes, 25.600 CPUs e 400 GPUs fazem filtragens adicionais
  • O CERN está desenvolvendo a próxima geração desses modelos minúsculos de IA para a atualização High-Luminosity LHC de 2031, e essa abordagem pode se expandir para áreas de ultrabaixa latência, como sistemas autônomos e imagens médicas

Visão geral

  • O CERN implementa modelos minúsculos de inteligência artificial diretamente em chips de silício para filtrar, em tempo real, os enormes volumes de dados gerados no Grande Colisor de Hádrons (LHC)
    • Entre os dados de colisão, apenas os eventos cientificamente significativos são selecionados, e o restante é descartado imediatamente
    • Para processar fluxos de dados que chegam a centenas de terabytes por segundo, a instituição usa hardware customizado baseado em FPGA e ASIC em vez de GPUs ou TPUs
  • Esses modelos de IA embutidos em hardware tomam decisões no nível do detector com latência de microssegundos a nanossegundos
    • O processo de seleção em tempo real é considerado uma das tarefas com maior exigência computacional da ciência moderna

Desafio de processamento de dados

  • O LHC gera cerca de 40.000 exabytes de dados brutos por ano, algo equivalente a aproximadamente um quarto de toda a internet atual
    • Feixes de prótons percorrem o anel de 27 km a velocidades próximas à da luz e se cruzam a cada 25 nanossegundos
    • As colisões reais são raras, mas cada colisão produz vários megabytes de dados
  • Como é impossível armazenar ou processar todos os dados, apenas cerca de 0,02% dos eventos é preservado
    • A primeira etapa de filtragem, o Level-1 Trigger, é formada por cerca de 1.000 FPGAs e avalia os dados em até 50 nanossegundos
    • O algoritmo AXOL1TL roda diretamente nesses chips para identificar eventos cientificamente promissores e descartar imediatamente o restante

Abordagem de IA e stack tecnológica

  • Os modelos de IA do CERN são projetados com uma estrutura minúscula e altamente eficiente, otimizada para inferência de ultrabaixa latência no nível do detector, ao contrário dos grandes modelos usados na indústria em geral
    • Por meio da ferramenta open source HLS4ML, modelos baseados em PyTorch ou TensorFlow são convertidos em código C++ sintetizável
    • O código convertido é implantado diretamente em FPGA, SoC e ASIC, operando com muito menos energia e área de silício do que GPUs ou TPUs
  • Uma parte significativa dos recursos do chip é usada para implementar tabelas de consulta pré-calculadas (lookup tables) em vez de camadas de rede neural convencionais
    • Essas tabelas armazenam previamente os resultados de padrões de entrada comuns e, para a maioria dos sinais do detector, geram saídas imediatas sem operações de ponto flutuante
    • Essa filosofia de design voltada primeiro ao hardware é o que permite atingir latências na escala de nanossegundos
  • A segunda etapa de filtragem, o High-Level Trigger, é executada em uma fazenda computacional composta por 25.600 CPUs e 400 GPUs
    • Mesmo após o Level-1 Trigger, ela processa vários terabytes de dados por segundo e os comprime para cerca de 1 petabyte de dados científicos por dia

Planos futuros

  • O LHC está se preparando para a atualização High-Luminosity LHC (HL-LHC), prevista para entrar em operação em 2031
    • O volume de dados por colisão deve aumentar em cerca de 10 vezes em relação ao atual, e o tamanho dos eventos também tende a crescer bastante
  • Para isso, o CERN está desenvolvendo a próxima geração de modelos minúsculos de IA e otimizando sua implementação em FPGA e ASIC
    • A ideia é reforçar todo o sistema de trigger em tempo real para manter desempenho de ultrabaixa latência mesmo com taxas de dados muito mais altas
  • Esses preparativos são vistos como uma base essencial para viabilizar novas descobertas na física de partículas nas próximas décadas

Significado e impacto

  • Enquanto a indústria global de IA se concentra em ampliar modelos de grande porte, o CERN desenvolve modelos de IA cada vez menores, mais rápidos e mais eficientes
    • Implementados diretamente em FPGA e ASIC, eles são considerados um caso real de aplicação de “Tiny AI”
  • No sistema de trigger do LHC, esses modelos alcançam um nível de desempenho impossível para aceleradores de IA convencionais
    • Em ambientes extremos, onde decisões em nanossegundos são necessárias, eles entregam máxima eficiência com recursos mínimos
  • Essa abordagem pode ter aplicações além da física de partículas, em áreas como sistemas autônomos, trading de alta frequência, imagens médicas e aeroespacial, onde inferência em tempo real e ultrabaixa latência são indispensáveis
    • Em uma era em que eficiência energética e redução de recursos computacionais se tornam cada vez mais importantes, os modelos do CERN apontam uma alternativa à escala massiva: especialização extrema e otimização no nível do hardware

1 comentários

 
GN⁺ 2026-03-30
Comentários do Hacker News
  • Sou autor de um dos dois modelos deste artigo
    Para esclarecer um mal-entendido: esses modelos não foram gravados diretamente no silício, e sim implantados em FPGA
    No caso do axol1tl, os pesos são hardwired no fabric, mas ainda assim continuam reprogramáveis
    Projetos como o smartpixel do CERN ou o readout do HG-Cal estão, de fato, mirando silício real
    Slides relacionados: apresentação do CERN
    O processo de aprovação do artigo é demorado, mas uma versão mais abrangente deve sair em alguns meses
    O modelo começou como um MLP baseado em VAE simples e, a partir da v5, passou a incluir um bloco VICREG, operando a 40MHz em 2 clocks
    Depois foi implantado em FPGA por meio de hls4ml-da4ml, artigo relacionado
    O modelo CICADA é baseado em VAE e destila, por aprendizado supervisionado, a pontuação de detecção de anomalias em uma arquitetura professor-aluno
    Slides de referência: apresentação do CICADA
    Minha pesquisa foca em QAT (treinamento com quantização de alta precisão) e implantação de NN baseada em aritmética distribuída
    Artigos relacionados: arXiv:2405.00645, arXiv:2507.04535

    • Trabalho realmente interessante
      No começo do meu doutorado, eu também implementei um acelerador de GNN em FPGA e colaborei com o pessoal do CERN/Fermilab
      Hoje mudei meu foco para pesquisa em HLS e EDA, e tenho curiosidade sobre as principais limitações atuais ao implementar sistemas de trigger em hardware
      Bugs em ferramentas HLS comerciais, dificuldade de depuração e tempos longos de build parecem restrições importantes
      Queria entender se, por essas razões, o tooling de EDA acaba sendo o principal gargalo, ou se há outros fatores técnicos ainda mais relevantes
  • Eles usaram uma rede neural baseada em autoencoder com camadas convolucionais e a treinaram com dados de experimentos anteriores
    Artigo relacionado
    Teria sido um artigo muito melhor se explicasse com clareza qual algoritmo de IA foi usado

    • Hoje em dia, às vezes “modelo de IA” na prática quer dizer regressão linear
    • Como a maior parte da implementação é baseada em FPGA, dizer que foi “gravado no silício” soa exagerado
    • Como nada chama atenção se não for LLM, é uma pena ver a palavra “IA” sendo usada como recurso de marketing
    • É muito frustrante quando um artigo técnico omite o algoritmo central
    • Depois que entendi que no fim se tratava de detecção de anomalias (anomaly detection), tudo ficou mais claro
  • Na verdade, até o branch predictor de CPUs modernas usa perceptrons

    • Como exemplo, dá para ver este artigo sobre a NN dentro do chip do Samsung Galaxy S7 e este artigo da IEEE
    • Eu não sabia que estruturas assim existiam e gostaria de entender melhor como são projetadas e treinadas
    • É uma pena que hoje “IA” às vezes seja usado como se quisesse dizer “não entendemos o problema, então jogamos uma caixa-preta nele”
    • No fim, o perceptron é só um preditor linear, então é algo simples
    • A área de HEP já usa FPGA em triggers L0 há décadas
      Já na época do Delphi havia artigo sobre ANN para seleção de Higgs, e essas tentativas acabaram levando ao LHC
  • Compartilhando vídeos relacionados
    Big Data and AI at the CERN LHC
    Nanosecond AI at the Large Hadron Collider
    Página da Tech Talk da ScyllaDB

  • Este projeto opera a 40MHz, mas minha ferramenta CflexHDL implementa ray tracing em tempo real a 148MHz
    Vídeo de demonstração
    A ferramenta recebe apoio da Nlnet Foundation, e também há planos de integração com as ferramentas de IA do CERN
    Quero enfatizar a importância de uma toolchain open source

  • Há um certo exagero de IA no artigo
    Na prática, dá para ver isso como um chip contendo lógica hardcoded obtida por machine learning

    • ML sempre foi parte de IA; não é um conceito que surgiu depois do ChatGPT
    • Os pesos de um LLM também acabam armazenando lógica aprendida
    • A expressão “IA” soa como marketing
      Na prática, isso se parece mais com uma máquina de estados dedicada à inferência e, se o ambiente mudar, em vez de retreinamento pode ser necessário um respino de hardware
      Em situações assim, fica claro que a palavra “IA” não é só um adjetivo qualquer
  • O ponto interessante é que, ao contrário da IA usual, aqui o modelo precisa provar sua razão de existir suportando as restrições do hardware
    Nesse ambiente, mais do que latência, importam determinismo, orçamento de energia e estabilidade sob carga extrema

  • A expressão “FPGAs foram gravados no silício” soa estranha
    Seria surpreendente se o CERN tivesse feito tape-out de um ASIC

    • Na verdade, o CERN projeta ASICs customizados para outras finalidades
      Apresentação relacionada
    • Talvez tenham terceirizado a fabricação para algum fornecedor externo
    • No fim, parece que o título do artigo foi corrigido
  • Isso não é um LLM no sentido em que se fala hoje, e sim uma rede neural implementada em FPGA

    • O marketing das empresas de LLM é tão forte que, no começo, eu também pensei nisso
    • Sendo FPGA, a expressão “gravado no silício” é imprecisa
      Não sei se um ASIC seria adequado neste caso
  • Obrigado pelo feedback
    Atualizei o artigo para refletir a arquitetura AXOL1TL baseada em VAE e adicionei o artigo no arXiv correspondente, além do vídeo da apresentação de Thea Aarrestad

    • No entanto, a frase “o CERN abandonou a IA baseada em GPU/TPU” não é verdadeira
      O CERN ainda usa GPUs extensivamente e aproveita ativamente GPUs/CPUs COTS conforme o caso