Como pesquisadores de IA podem economizar energia voltando para trás

(quantamagazine.org)

4 pontos por GN⁺ 2025-06-05 | 1 comentários | Compartilhar no WhatsApp

Computação reversível é um método teórico que executa operações no sentido inverso para economizar energia sem apagar dados, e vem ganhando atenção como alternativa para resolver o problema do consumo de energia da IA
Computadores convencionais inevitavelmente liberam calor (energia) ao apagar informação, e isso não pode ser evitado por causa de um limite físico (o princípio de Landauer)
O conceito de uncomputation mantém apenas o resultado da operação e reverte o restante do processo para tratar tudo sem perda de informação, mas há limitações práticas, como custo de velocidade e memória
Recentemente, foi demonstrado empiricamente que, em tarefas como as de IA, com muitas operações paralelas, operar vários chips reversíveis mais lentamente pode trazer grande economia de energia
A indústria e os pesquisadores estão entrando na corrida para desenvolver chips reversíveis comerciais de verdade, aumentando a possibilidade de uma revolução na eficiência energética da IA se tornar realidade

A perda fundamental de energia na computação

Quando um computador soma dois números, por exemplo 2 + 2 = 4, ele acaba deixando apenas uma saída a partir de duas entradas
Parte da informação desaparece nesse processo, tornando a operação irreversível, e essa informação apagada se transforma em energia térmica
Como a maioria dos computadores funciona dessa forma, um certo grau de perda de informação (geração de calor) é inevitável em nível fundamental

A proposta de computação reversível de Landauer e seus limites

Landauer imaginou uma forma de computação com menor perda de energia registrando todos os resultados das operações sem apagar informação
Mas ele percebeu que esse tipo de computador logo ficaria sem memória na prática, o que reduzia bastante sua viabilidade
No fim, Landauer concluiu que a computação reversível era um beco sem saída

A ideia de uncomputation (operação inversa) de Bennett

Em 1973, Charles Bennett, da IBM, propôs um método que salva apenas o resultado do cálculo e apaga o restante executando o processo de cálculo ao contrário (uncomputation)
Como na metáfora de Hansel e Gretel recolhendo de volta as migalhas de pão, seria possível manter apenas os dados necessários e remover o resto sem perda de informação
Esse método era considerado ineficiente porque tinha a desvantagem de dobrar o tempo de computação

Estudos que aumentaram a viabilidade prática

Em 1989, Bennett mostrou que, usando um pouco mais de memória, seria possível reduzir bastante o tempo de computação
Depois disso, pesquisadores continuaram estudando formas de otimizar memória e tempo
No entanto, além do apagamento de dados, os computadores também perdem energia por causa da própria ineficiência da forma como os transistores são conectados
Para construir um computador reversível com economia real de energia, é necessária desde a fase de projeto uma estrutura de baixa perda térmica

O chip protótipo do MIT e a reação da indústria

Nos anos 1990, engenheiros do MIT produziram um chip protótipo com maior eficiência de circuito
Frank participou como doutorando e se tornou uma referência na área de computação reversível
Porém, no contexto de uma indústria em que o desempenho dos chips convencionais melhorava rapidamente, houve pouco apoio por falta de interesse do setor nessa alternativa teórica
Frank também deixou a pesquisa de lado por um tempo e buscou outros caminhos
Mas, à medida que os circuitos se aproximaram do limite de miniaturização, o interesse por eficiência energética voltou a crescer rapidamente

A eficiência energética da computação reversível e seu potencial para IA

Em 2022, Hannah Earley, de Cambridge, analisou com precisão a eficiência energética dos computadores reversíveis
Computadores reversíveis emitem menos calor do que os convencionais, embora seja impossível eliminar totalmente o calor
Em especial, ela mostrou que quanto mais lento o computador reversível opera, menos calor ele libera
Como as cargas de trabalho de IA rodam em ambientes de processamento paralelo, espera-se que fazer cada chip operar mais lentamente e aumentar o número de chips reduza o consumo total de energia
A operação em menor velocidade também pode reduzir os custos de refrigeração, permitindo maior densidade de chips e economia de espaço e materiais

Movimentos de comercialização e perspectivas

À medida que investidores começaram a prestar atenção, Earley e Frank fundaram a Vaire Computing e iniciaram o desenvolvimento de chips reversíveis comerciais
Mogensen, da Universidade de Copenhague, entre outros, demonstrou grande expectativa de ver processadores reversíveis aplicados de fato ao trabalho do dia a dia
A computação reversível, que por décadas permaneceu no campo teórico, agora é observada com atenção para ver se pode trazer uma inovação concreta em IA e eficiência energética

Conclusão

A computação reversível é vista como um método prático para superar o limite físico dos computadores, no qual apagar informação gera calor, e está ganhando destaque como tecnologia de grande economia de energia na era da IA
Operar chips mais lentamente e em paralelo se combina às características estruturais das cargas de trabalho de IA, aproximando a comercialização real

1 comentários

GN⁺ 2025-06-05

Comentários do Hacker News

No romance Time, de Stephen Baxter, a trama mostra um futuro extremamente distante em que todas as estrelas se apagaram e todos os buracos negros evaporaram, deixando os descendentes da humanidade em um universo de entropia máxima; com toda a energia livre esgotada, esses descendentes vivem repetindo os mesmos eventos dentro de uma simulação gigantesca usando apenas computação reversível (que opera sem consumir energia), repetindo o mesmo loop de eventos ao fazer uncompute e depois compute dos resultados
Do ponto de vista de um engenheiro de software, foi mencionado que isso não é tão fácil de entender; a ideia de que elétrons seriam “perdidos” ao apagar informação pareceu confusa à primeira vista, já que elétrons se perdem em toda parte, e como a maioria das portas funciona pela negação de corrente, surgiu a dúvida se tudo isso seria “ruim”; também foi levantada a questão de por que registrar todas as mudanças de memória impediria a perda de calor, se manter toda a memória o tempo todo não consumiria ainda mais energia, e qual seria a utilidade prática de precisar voltar no tempo durante a computação
- Em teoria, um computador que nunca esquece informação pode ser implementado usando quase nenhuma eletricidade e, portanto, gerando quase nenhum calor; esse tipo de computador é chamado de computação reversível (adiabática), e todas as portas de operação precisam ser reversíveis; ainda é preciso energia nas etapas extremamente iniciais e finais, como definir o estado de entrada e copiar a saída; no mundo real, a maior parte do consumo de energia não vem da “exclusão” de informação nos gates lógicos, mas de perdas em coisas como a resistência da fiação; para construir uma CPU totalmente reversível, seria necessário hardware especial, como fiação/dispositivos supercondutores; além disso, também é preciso desfazer a computação, o que não é um problema trivial; a alternativa é simplesmente apagar estado e aceitar o gasto de energia; um exemplo real seria o computador quântico, em que todos os gates lógicos quânticos são reversíveis e podem ser executados ao contrário
- Do ponto de vista da termodinâmica, um processo reversível é teoricamente o máximo de eficiência possível, e isso está ligado à entropia; ao apagar informação, o processo deixa de ser reversível, então a geração de calor se torna inevitável; ainda assim, tudo isso é estritamente teórico, e os computadores reais estão muito longe desse limite; na prática, a maioria dos elementos lógicos reais, como AND, OR e NAND, tem estrutura de operação irreversível quando isolados
- Foi apontado que dispositivos de armazenamento persistente como HDs e SSDs não consomem absolutamente nenhuma energia para manter os dados e, portanto, não geram calor; ao apagar ou sobrescrever dados, porém, energia é inevitavelmente necessária, e muito calor é gerado nesse processo; também foi mencionado que o problema de dissipação térmica é um obstáculo para o escalonamento de chips cada vez menores; se fosse possível projetar computadores que não apagam informação, a geração de calor cairia drasticamente, abrindo possibilidades para maior desempenho, menor consumo de energia e melhor escalonamento
Há certo ceticismo quanto à motivação de economizar energia, mas implementar arquiteturas de deep learning reversíveis em si é um tema de pesquisa bastante interessante; isso foi discutido ativamente em 2019–2021 em eventos como a série invertibleworkshop; os diffusion models em alta recentemente também podem ser vistos como um caso especial de normalizing flows contínuos, então teoricamente o cálculo é reversível; na prática, porém, os modelos destilados usados em produção quase nunca são assim; simulações de equações diferenciais também dificilmente coincidem exatamente no sentido inverso por causa de erros de arredondamento em ponto flutuante, mas, com cuidado suficiente, também é possível construir uma simulação perfeitamente reversível bit a bit
- Há também um artigo de 2015 que teria sido útil em machine learning se fosse possível reverter o cálculo com exatidão
Houve reflexão sobre o que significa dizer que a computação tem direcionalidade; isso parece causalidade, mas na prática parece mais uma questão de entrada e saída; no fim, dá a impressão de que seria preciso executar o programa primeiro de qualquer forma, e que guardar o estado apenas facilitaria o backtracking
- Sim, mas isso está sendo dito no nível físico, então exige hardware separado; apagar informação (por exemplo, numa operação AND) gera calor, então são necessários gates lógicos diferentes, como a porta de Fredkin
- Na verdade, toda computação tem direcionalidade; esta é uma posição de quem acha o tema extremamente interessante; por exemplo, a própria função f(x) -> y já indica uma direção; seria ótimo se o caminho inverso sempre fosse possível, mas há muitos casos em que a inversa não existe; por exemplo, f(x)=mx+b tem inversa fácil de obter (desde que m=0 não), enquanto f(x)=x^2 não permite recuperar um único valor de x a partir de f(x), porque tanto +x quanto -x servem; aqui entram os conceitos de imagem e pré-imagem de uma função, o que também se relaciona intimamente ao problema P=NP; em machine learning, Normalizing Flows são invertíveis, diffusion models têm estrutura reversível, e há também GAN-Inversion; houve uma reclamação pessoal sobre o uso do termo “inverse problem” na comunidade de ML; compreender esse conceito ajuda a entender por que a previsão funciona com precisão só em uma direção e falha na inversa; no fim, isso leva ao problema de inferência causal; na física, um objetivo importante é transformar equações em mapas causais, mas surgem dificuldades inerentes ligadas à entropia e à mecânica quântica; como exemplo, ao fazer o cálculo inverso do estado de moléculas de um gás, aparecem múltiplos estados possíveis em vez de uma única resposta; como no caso de diferenciação e integração, a derivação não é reversível, já que f(x)+C pode produzir a mesma derivada; em outras palavras, há perda unidirecional de informação, embora amostrar estados em vários instantes possa reduzir bastante o espaço de soluções
- Em resumo, se as operações irreversíveis (apagamento de informação) forem minimizadas, a computação reversível se torna possível; exemplo: se todas as etapas de uma conta como 2 + 2 + 2 forem registradas, ela é reversível; mas se só o resultado final for mantido e o histórico apagado (6 apenas), então ela se torna irreversível
A pessoa comentou que segue Mike P Frank no Twitter há bastante tempo e vê com frequência observações interessantes sobre computação reversível e IA: MikePFrank no Twitter
Há esperança de que essa tecnologia possa ser útil quando a tendência de software baseada em datacenters com GPU voltar com força, mas a avaliação é de que, como no paradoxo de Jevons (quando a eficiência melhora, a demanda aumenta e a economia real de energia fracassa), isso provavelmente não será um ponto de virada no fim das contas
Surgiu a dúvida sobre qual é exatamente o plano concreto e se já houve alguma demonstração real de reversible matmul, porque mesmo nessa operação parece inevitável apagar informação com facilidade no processo intermediário, o que levanta dúvidas sobre a viabilidade
- Para matrizes reversíveis, existe reversible matmul; mas para operadores irreversíveis como ReLU, isso não é possível; e também não ficou claro, como o artigo sugere, se simplesmente fazer a operação ao contrário realmente reduziria o consumo de energia
Ao ler a manchete do artigo, houve ironia ao notar que a própria página leva 12 segundos para carregar até em computadores modernos; em geral, as pessoas não se importam muito com problemas dos outros, e quando surge uma nova tecnologia (como IA), os custos sociais — ambientais, empregos individuais, infraestrutura, violação de direitos autorais, sistemas sociais etc. — tendem a ser externalizados; quando se ganha eficiência, no fim as pessoas passam a usar mais em benefício próprio, sem reduzir o dano causado aos outros, o que deixa um gosto amargo
Já foi demonstrado várias vezes que, mesmo usando um LLM repetidamente, o consumo de eletricidade continua menor do que o de ferver água numa chaleira elétrica

Como pesquisadores de IA podem economizar energia voltando para trás

A perda fundamental de energia na computação

A proposta de computação reversível de Landauer e seus limites

A ideia de uncomputation (operação inversa) de Bennett

Estudos que aumentaram a viabilidade prática

O chip protótipo do MIT e a reação da indústria

A eficiência energética da computação reversível e seu potencial para IA

Movimentos de comercialização e perspectivas

Conclusão

Leituras relacionadas

1 comentários

Comentários do Hacker News