- Computação reversível é um método teórico que executa operações no sentido inverso para economizar energia sem apagar dados, e vem ganhando atenção como alternativa para resolver o problema do consumo de energia da IA
- Computadores convencionais inevitavelmente liberam calor (energia) ao apagar informação, e isso não pode ser evitado por causa de um limite físico (o princípio de Landauer)
- O conceito de uncomputation mantém apenas o resultado da operação e reverte o restante do processo para tratar tudo sem perda de informação, mas há limitações práticas, como custo de velocidade e memória
- Recentemente, foi demonstrado empiricamente que, em tarefas como as de IA, com muitas operações paralelas, operar vários chips reversíveis mais lentamente pode trazer grande economia de energia
- A indústria e os pesquisadores estão entrando na corrida para desenvolver chips reversíveis comerciais de verdade, aumentando a possibilidade de uma revolução na eficiência energética da IA se tornar realidade
A perda fundamental de energia na computação
- Quando um computador soma dois números, por exemplo 2 + 2 = 4, ele acaba deixando apenas uma saída a partir de duas entradas
- Parte da informação desaparece nesse processo, tornando a operação irreversível, e essa informação apagada se transforma em energia térmica
- Como a maioria dos computadores funciona dessa forma, um certo grau de perda de informação (geração de calor) é inevitável em nível fundamental
A proposta de computação reversível de Landauer e seus limites
- Landauer imaginou uma forma de computação com menor perda de energia registrando todos os resultados das operações sem apagar informação
- Mas ele percebeu que esse tipo de computador logo ficaria sem memória na prática, o que reduzia bastante sua viabilidade
- No fim, Landauer concluiu que a computação reversível era um beco sem saída
A ideia de uncomputation (operação inversa) de Bennett
- Em 1973, Charles Bennett, da IBM, propôs um método que salva apenas o resultado do cálculo e apaga o restante executando o processo de cálculo ao contrário (uncomputation)
- Como na metáfora de Hansel e Gretel recolhendo de volta as migalhas de pão, seria possível manter apenas os dados necessários e remover o resto sem perda de informação
- Esse método era considerado ineficiente porque tinha a desvantagem de dobrar o tempo de computação
Estudos que aumentaram a viabilidade prática
- Em 1989, Bennett mostrou que, usando um pouco mais de memória, seria possível reduzir bastante o tempo de computação
- Depois disso, pesquisadores continuaram estudando formas de otimizar memória e tempo
- No entanto, além do apagamento de dados, os computadores também perdem energia por causa da própria ineficiência da forma como os transistores são conectados
- Para construir um computador reversível com economia real de energia, é necessária desde a fase de projeto uma estrutura de baixa perda térmica
O chip protótipo do MIT e a reação da indústria
- Nos anos 1990, engenheiros do MIT produziram um chip protótipo com maior eficiência de circuito
- Frank participou como doutorando e se tornou uma referência na área de computação reversível
- Porém, no contexto de uma indústria em que o desempenho dos chips convencionais melhorava rapidamente, houve pouco apoio por falta de interesse do setor nessa alternativa teórica
- Frank também deixou a pesquisa de lado por um tempo e buscou outros caminhos
- Mas, à medida que os circuitos se aproximaram do limite de miniaturização, o interesse por eficiência energética voltou a crescer rapidamente
A eficiência energética da computação reversível e seu potencial para IA
- Em 2022, Hannah Earley, de Cambridge, analisou com precisão a eficiência energética dos computadores reversíveis
- Computadores reversíveis emitem menos calor do que os convencionais, embora seja impossível eliminar totalmente o calor
- Em especial, ela mostrou que quanto mais lento o computador reversível opera, menos calor ele libera
- Como as cargas de trabalho de IA rodam em ambientes de processamento paralelo, espera-se que fazer cada chip operar mais lentamente e aumentar o número de chips reduza o consumo total de energia
- A operação em menor velocidade também pode reduzir os custos de refrigeração, permitindo maior densidade de chips e economia de espaço e materiais
Movimentos de comercialização e perspectivas
- À medida que investidores começaram a prestar atenção, Earley e Frank fundaram a Vaire Computing e iniciaram o desenvolvimento de chips reversíveis comerciais
- Mogensen, da Universidade de Copenhague, entre outros, demonstrou grande expectativa de ver processadores reversíveis aplicados de fato ao trabalho do dia a dia
- A computação reversível, que por décadas permaneceu no campo teórico, agora é observada com atenção para ver se pode trazer uma inovação concreta em IA e eficiência energética
Conclusão
- A computação reversível é vista como um método prático para superar o limite físico dos computadores, no qual apagar informação gera calor, e está ganhando destaque como tecnologia de grande economia de energia na era da IA
- Operar chips mais lentamente e em paralelo se combina às características estruturais das cargas de trabalho de IA, aproximando a comercialização real
1 comentários
Comentários do Hacker News
No romance Time, de Stephen Baxter, a trama mostra um futuro extremamente distante em que todas as estrelas se apagaram e todos os buracos negros evaporaram, deixando os descendentes da humanidade em um universo de entropia máxima; com toda a energia livre esgotada, esses descendentes vivem repetindo os mesmos eventos dentro de uma simulação gigantesca usando apenas computação reversível (que opera sem consumir energia), repetindo o mesmo loop de eventos ao fazer
uncomputee depoiscomputedos resultadosDo ponto de vista de um engenheiro de software, foi mencionado que isso não é tão fácil de entender; a ideia de que elétrons seriam “perdidos” ao apagar informação pareceu confusa à primeira vista, já que elétrons se perdem em toda parte, e como a maioria das portas funciona pela negação de corrente, surgiu a dúvida se tudo isso seria “ruim”; também foi levantada a questão de por que registrar todas as mudanças de memória impediria a perda de calor, se manter toda a memória o tempo todo não consumiria ainda mais energia, e qual seria a utilidade prática de precisar voltar no tempo durante a computação
Em teoria, um computador que nunca esquece informação pode ser implementado usando quase nenhuma eletricidade e, portanto, gerando quase nenhum calor; esse tipo de computador é chamado de computação reversível (adiabática), e todas as portas de operação precisam ser reversíveis; ainda é preciso energia nas etapas extremamente iniciais e finais, como definir o estado de entrada e copiar a saída; no mundo real, a maior parte do consumo de energia não vem da “exclusão” de informação nos gates lógicos, mas de perdas em coisas como a resistência da fiação; para construir uma CPU totalmente reversível, seria necessário hardware especial, como fiação/dispositivos supercondutores; além disso, também é preciso desfazer a computação, o que não é um problema trivial; a alternativa é simplesmente apagar estado e aceitar o gasto de energia; um exemplo real seria o computador quântico, em que todos os gates lógicos quânticos são reversíveis e podem ser executados ao contrário
Do ponto de vista da termodinâmica, um processo reversível é teoricamente o máximo de eficiência possível, e isso está ligado à entropia; ao apagar informação, o processo deixa de ser reversível, então a geração de calor se torna inevitável; ainda assim, tudo isso é estritamente teórico, e os computadores reais estão muito longe desse limite; na prática, a maioria dos elementos lógicos reais, como AND, OR e NAND, tem estrutura de operação irreversível quando isolados
Foi apontado que dispositivos de armazenamento persistente como HDs e SSDs não consomem absolutamente nenhuma energia para manter os dados e, portanto, não geram calor; ao apagar ou sobrescrever dados, porém, energia é inevitavelmente necessária, e muito calor é gerado nesse processo; também foi mencionado que o problema de dissipação térmica é um obstáculo para o escalonamento de chips cada vez menores; se fosse possível projetar computadores que não apagam informação, a geração de calor cairia drasticamente, abrindo possibilidades para maior desempenho, menor consumo de energia e melhor escalonamento
Há certo ceticismo quanto à motivação de economizar energia, mas implementar arquiteturas de deep learning reversíveis em si é um tema de pesquisa bastante interessante; isso foi discutido ativamente em 2019–2021 em eventos como a série invertibleworkshop; os diffusion models em alta recentemente também podem ser vistos como um caso especial de normalizing flows contínuos, então teoricamente o cálculo é reversível; na prática, porém, os modelos destilados usados em produção quase nunca são assim; simulações de equações diferenciais também dificilmente coincidem exatamente no sentido inverso por causa de erros de arredondamento em ponto flutuante, mas, com cuidado suficiente, também é possível construir uma simulação perfeitamente reversível bit a bit
Houve reflexão sobre o que significa dizer que a computação tem direcionalidade; isso parece causalidade, mas na prática parece mais uma questão de entrada e saída; no fim, dá a impressão de que seria preciso executar o programa primeiro de qualquer forma, e que guardar o estado apenas facilitaria o backtracking
Sim, mas isso está sendo dito no nível físico, então exige hardware separado; apagar informação (por exemplo, numa operação AND) gera calor, então são necessários gates lógicos diferentes, como a porta de Fredkin
Na verdade, toda computação tem direcionalidade; esta é uma posição de quem acha o tema extremamente interessante; por exemplo, a própria função
f(x) -> yjá indica uma direção; seria ótimo se o caminho inverso sempre fosse possível, mas há muitos casos em que a inversa não existe; por exemplo,f(x)=mx+btem inversa fácil de obter (desde quem=0não), enquantof(x)=x^2não permite recuperar um único valor dexa partir def(x), porque tanto+xquanto-xservem; aqui entram os conceitos de imagem e pré-imagem de uma função, o que também se relaciona intimamente ao problema P=NP; em machine learning, Normalizing Flows são invertíveis, diffusion models têm estrutura reversível, e há também GAN-Inversion; houve uma reclamação pessoal sobre o uso do termo “inverse problem” na comunidade de ML; compreender esse conceito ajuda a entender por que a previsão funciona com precisão só em uma direção e falha na inversa; no fim, isso leva ao problema de inferência causal; na física, um objetivo importante é transformar equações em mapas causais, mas surgem dificuldades inerentes ligadas à entropia e à mecânica quântica; como exemplo, ao fazer o cálculo inverso do estado de moléculas de um gás, aparecem múltiplos estados possíveis em vez de uma única resposta; como no caso de diferenciação e integração, a derivação não é reversível, já quef(x)+Cpode produzir a mesma derivada; em outras palavras, há perda unidirecional de informação, embora amostrar estados em vários instantes possa reduzir bastante o espaço de soluçõesEm resumo, se as operações irreversíveis (apagamento de informação) forem minimizadas, a computação reversível se torna possível; exemplo: se todas as etapas de uma conta como
2 + 2 + 2forem registradas, ela é reversível; mas se só o resultado final for mantido e o histórico apagado (6apenas), então ela se torna irreversívelA pessoa comentou que segue Mike P Frank no Twitter há bastante tempo e vê com frequência observações interessantes sobre computação reversível e IA: MikePFrank no Twitter
Há esperança de que essa tecnologia possa ser útil quando a tendência de software baseada em datacenters com GPU voltar com força, mas a avaliação é de que, como no paradoxo de Jevons (quando a eficiência melhora, a demanda aumenta e a economia real de energia fracassa), isso provavelmente não será um ponto de virada no fim das contas
Surgiu a dúvida sobre qual é exatamente o plano concreto e se já houve alguma demonstração real de reversible matmul, porque mesmo nessa operação parece inevitável apagar informação com facilidade no processo intermediário, o que levanta dúvidas sobre a viabilidade
Ao ler a manchete do artigo, houve ironia ao notar que a própria página leva 12 segundos para carregar até em computadores modernos; em geral, as pessoas não se importam muito com problemas dos outros, e quando surge uma nova tecnologia (como IA), os custos sociais — ambientais, empregos individuais, infraestrutura, violação de direitos autorais, sistemas sociais etc. — tendem a ser externalizados; quando se ganha eficiência, no fim as pessoas passam a usar mais em benefício próprio, sem reduzir o dano causado aos outros, o que deixa um gosto amargo
Já foi demonstrado várias vezes que, mesmo usando um LLM repetidamente, o consumo de eletricidade continua menor do que o de ferver água numa chaleira elétrica