- No Grande Colisor de Hádrons, os enormes volumes de dados gerados são filtrados em tempo real por modelos minúsculos de IA implementados diretamente em chips de silício, selecionando apenas os eventos cientificamente relevantes
- Para processar fluxos de dados de centenas de terabytes por segundo, são usados hardwares baseados em FPGA e ASIC em vez de GPUs ou TPUs, tomando decisões com latência na escala de nanossegundos
- Com a ferramenta HLS4ML, modelos de PyTorch ou TensorFlow são convertidos em código C++ sintetizável e implantados diretamente no chip; uma estrutura baseada em tabelas de consulta gera saídas imediatas sem operações de ponto flutuante
- O Level-1 Trigger do LHC é composto por cerca de 1.000 FPGAs e avalia os dados em até 50 nanossegundos; nas etapas seguintes, 25.600 CPUs e 400 GPUs fazem filtragens adicionais
- O CERN está desenvolvendo a próxima geração desses modelos minúsculos de IA para a atualização High-Luminosity LHC de 2031, e essa abordagem pode se expandir para áreas de ultrabaixa latência, como sistemas autônomos e imagens médicas
Visão geral
- O CERN implementa modelos minúsculos de inteligência artificial diretamente em chips de silício para filtrar, em tempo real, os enormes volumes de dados gerados no Grande Colisor de Hádrons (LHC)
- Entre os dados de colisão, apenas os eventos cientificamente significativos são selecionados, e o restante é descartado imediatamente
- Para processar fluxos de dados que chegam a centenas de terabytes por segundo, a instituição usa hardware customizado baseado em FPGA e ASIC em vez de GPUs ou TPUs
- Esses modelos de IA embutidos em hardware tomam decisões no nível do detector com latência de microssegundos a nanossegundos
- O processo de seleção em tempo real é considerado uma das tarefas com maior exigência computacional da ciência moderna
Desafio de processamento de dados
- O LHC gera cerca de 40.000 exabytes de dados brutos por ano, algo equivalente a aproximadamente um quarto de toda a internet atual
- Feixes de prótons percorrem o anel de 27 km a velocidades próximas à da luz e se cruzam a cada 25 nanossegundos
- As colisões reais são raras, mas cada colisão produz vários megabytes de dados
- Como é impossível armazenar ou processar todos os dados, apenas cerca de 0,02% dos eventos é preservado
- A primeira etapa de filtragem, o Level-1 Trigger, é formada por cerca de 1.000 FPGAs e avalia os dados em até 50 nanossegundos
- O algoritmo AXOL1TL roda diretamente nesses chips para identificar eventos cientificamente promissores e descartar imediatamente o restante
Abordagem de IA e stack tecnológica
- Os modelos de IA do CERN são projetados com uma estrutura minúscula e altamente eficiente, otimizada para inferência de ultrabaixa latência no nível do detector, ao contrário dos grandes modelos usados na indústria em geral
- Por meio da ferramenta open source HLS4ML, modelos baseados em PyTorch ou TensorFlow são convertidos em código C++ sintetizável
- O código convertido é implantado diretamente em FPGA, SoC e ASIC, operando com muito menos energia e área de silício do que GPUs ou TPUs
- Uma parte significativa dos recursos do chip é usada para implementar tabelas de consulta pré-calculadas (lookup tables) em vez de camadas de rede neural convencionais
- Essas tabelas armazenam previamente os resultados de padrões de entrada comuns e, para a maioria dos sinais do detector, geram saídas imediatas sem operações de ponto flutuante
- Essa filosofia de design voltada primeiro ao hardware é o que permite atingir latências na escala de nanossegundos
- A segunda etapa de filtragem, o High-Level Trigger, é executada em uma fazenda computacional composta por 25.600 CPUs e 400 GPUs
- Mesmo após o Level-1 Trigger, ela processa vários terabytes de dados por segundo e os comprime para cerca de 1 petabyte de dados científicos por dia
Planos futuros
- O LHC está se preparando para a atualização High-Luminosity LHC (HL-LHC), prevista para entrar em operação em 2031
- O volume de dados por colisão deve aumentar em cerca de 10 vezes em relação ao atual, e o tamanho dos eventos também tende a crescer bastante
- Para isso, o CERN está desenvolvendo a próxima geração de modelos minúsculos de IA e otimizando sua implementação em FPGA e ASIC
- A ideia é reforçar todo o sistema de trigger em tempo real para manter desempenho de ultrabaixa latência mesmo com taxas de dados muito mais altas
- Esses preparativos são vistos como uma base essencial para viabilizar novas descobertas na física de partículas nas próximas décadas
Significado e impacto
- Enquanto a indústria global de IA se concentra em ampliar modelos de grande porte, o CERN desenvolve modelos de IA cada vez menores, mais rápidos e mais eficientes
- Implementados diretamente em FPGA e ASIC, eles são considerados um caso real de aplicação de “Tiny AI”
- No sistema de trigger do LHC, esses modelos alcançam um nível de desempenho impossível para aceleradores de IA convencionais
- Em ambientes extremos, onde decisões em nanossegundos são necessárias, eles entregam máxima eficiência com recursos mínimos
- Essa abordagem pode ter aplicações além da física de partículas, em áreas como sistemas autônomos, trading de alta frequência, imagens médicas e aeroespacial, onde inferência em tempo real e ultrabaixa latência são indispensáveis
- Em uma era em que eficiência energética e redução de recursos computacionais se tornam cada vez mais importantes, os modelos do CERN apontam uma alternativa à escala massiva: especialização extrema e otimização no nível do hardware
1 comentários
Comentários do Hacker News
Sou autor de um dos dois modelos deste artigo
Para esclarecer um mal-entendido: esses modelos não foram gravados diretamente no silício, e sim implantados em FPGA
No caso do axol1tl, os pesos são hardwired no fabric, mas ainda assim continuam reprogramáveis
Projetos como o smartpixel do CERN ou o readout do HG-Cal estão, de fato, mirando silício real
Slides relacionados: apresentação do CERN
O processo de aprovação do artigo é demorado, mas uma versão mais abrangente deve sair em alguns meses
O modelo começou como um MLP baseado em VAE simples e, a partir da v5, passou a incluir um bloco VICREG, operando a 40MHz em 2 clocks
Depois foi implantado em FPGA por meio de hls4ml-da4ml, artigo relacionado
O modelo CICADA é baseado em VAE e destila, por aprendizado supervisionado, a pontuação de detecção de anomalias em uma arquitetura professor-aluno
Slides de referência: apresentação do CICADA
Minha pesquisa foca em QAT (treinamento com quantização de alta precisão) e implantação de NN baseada em aritmética distribuída
Artigos relacionados: arXiv:2405.00645, arXiv:2507.04535
No começo do meu doutorado, eu também implementei um acelerador de GNN em FPGA e colaborei com o pessoal do CERN/Fermilab
Hoje mudei meu foco para pesquisa em HLS e EDA, e tenho curiosidade sobre as principais limitações atuais ao implementar sistemas de trigger em hardware
Bugs em ferramentas HLS comerciais, dificuldade de depuração e tempos longos de build parecem restrições importantes
Queria entender se, por essas razões, o tooling de EDA acaba sendo o principal gargalo, ou se há outros fatores técnicos ainda mais relevantes
Eles usaram uma rede neural baseada em autoencoder com camadas convolucionais e a treinaram com dados de experimentos anteriores
Artigo relacionado
Teria sido um artigo muito melhor se explicasse com clareza qual algoritmo de IA foi usado
Na verdade, até o branch predictor de CPUs modernas usa perceptrons
Já na época do Delphi havia artigo sobre ANN para seleção de Higgs, e essas tentativas acabaram levando ao LHC
Compartilhando vídeos relacionados
Big Data and AI at the CERN LHC
Nanosecond AI at the Large Hadron Collider
Página da Tech Talk da ScyllaDB
Este projeto opera a 40MHz, mas minha ferramenta CflexHDL implementa ray tracing em tempo real a 148MHz
Vídeo de demonstração
A ferramenta recebe apoio da Nlnet Foundation, e também há planos de integração com as ferramentas de IA do CERN
Quero enfatizar a importância de uma toolchain open source
Há um certo exagero de IA no artigo
Na prática, dá para ver isso como um chip contendo lógica hardcoded obtida por machine learning
Na prática, isso se parece mais com uma máquina de estados dedicada à inferência e, se o ambiente mudar, em vez de retreinamento pode ser necessário um respino de hardware
Em situações assim, fica claro que a palavra “IA” não é só um adjetivo qualquer
O ponto interessante é que, ao contrário da IA usual, aqui o modelo precisa provar sua razão de existir suportando as restrições do hardware
Nesse ambiente, mais do que latência, importam determinismo, orçamento de energia e estabilidade sob carga extrema
A expressão “FPGAs foram gravados no silício” soa estranha
Seria surpreendente se o CERN tivesse feito tape-out de um ASIC
Apresentação relacionada
Isso não é um LLM no sentido em que se fala hoje, e sim uma rede neural implementada em FPGA
Não sei se um ASIC seria adequado neste caso
Obrigado pelo feedback
Atualizei o artigo para refletir a arquitetura AXOL1TL baseada em VAE e adicionei o artigo no arXiv correspondente, além do vídeo da apresentação de Thea Aarrestad
O CERN ainda usa GPUs extensivamente e aproveita ativamente GPUs/CPUs COTS conforme o caso