πFS - o sistema de arquivos que armazena dados em π em vez de no disco rígido
(github.com/philipl)- O πfs é um sistema de arquivos que implementa a ideia de armazenar dados em π em vez de em um disco rígido, para não ocupar espaço, com a premissa central de que π contém todos os arquivos possíveis
- A explicação se baseia na conjectura de que, se π for normal (normal number), então todos os arquivos finitos existem em sua representação hexadecimal
- Se você souber o índice e o comprimento do arquivo dentro de π, é possível extraí-lo com a fórmula de Bailey–Borwein–Plouffe; esta implementação consulta cada byte do arquivo individualmente em π por motivos de desempenho
- Na execução, usa-se o formato
πfs -o mdd=<metadata directory> <mountpoint>, e o metadata directory armazena metadados como o nome do arquivo e sua posição dentro de π - Para compilar, são necessários os pacotes
autoconf,automakeelibfuse, seguindo o fluxo./autogen.sh,./configure,make,make install - A implementação atual é um protótipo inicial, e há um exemplo em que salvar um arquivo de texto de 400 linhas levou 5 minutos
- Como possibilidades futuras, são citados busca e consulta com comprimento de execução variável, Arithmetic Coding, consultas paralelas, consulta de π baseada em nuvem e πfs para Hadoop
1 comentários
Comentários do Hacker News
Isso me lembra de quando tentei usar a Biblioteca de Babel como ferramenta de compressão de dados
Acabei entrando num rabbit hole interessante e foi assim que tive meu primeiro contato com teoria da informação
A conclusão é que representar o endereço da localização dos dados também exige quase a mesma quantidade de informação que os próprios dados, então isso não ajuda muito na compressão e fica mais como um experimento mental divertido
O ponto interessante hoje é que os LLMs são uma forma de compressão com perdas que de fato alcança a essência do objetivo em que essas ferramentas falharam. Claro, há perda, e é preciso uma base gigantesca
https://youtu.be/l6DKRf-fAAM?is=ne73FCJ7ErXhzZ-v
https://youtu.be/l6DKRf-fAAM
Uma conta aproximada para armazenar 4-gramas válidos, isto é, sequências de quatro palavras, é 10 bilhões × 14 bits por palavra = cerca de 17 GB para o conjunto inteiro de 10 bilhões. Mesmo assim, um LLM 100 vezes menor consegue escrever prosa coerente
Isso me lembra o nsafs, ou National Security Agency Filesystem. A ideia é que é “gratuito” porque o governo paga a conta: https://github.com/freedomtools/nsafs
https://en.wikipedia.org/wiki/Write-only_memory_(joke)
A ideia era escolher um índice aleatório e compartilhar a chave privada correspondente com a outra parte; depois disso, o texto poderia ser usado como one-time pad. A lógica era que, para a NSA decifrar, ela teria de bufferizar e armazenar todo o fluxo gerado a GB/s, mas isso não me pareceu muito prático
Vale observar que, à medida que o tamanho dos dados aumenta, a chance de que o índice e o comprimento dessa sequência dentro de π sejam menores que os dados originais se torna extremamente baixa
Eu não tinha recursos computacionais para procurar um número de 10 dígitos com código de área incluso
<número de 20 TB>São posts relacionados. Tem mais?
πfs – A data-free filesystem - https://news.ycombinator.com/item?id=36357466 - junho de 2023, 107 comentários
πfs – A data-free filesystem - https://news.ycombinator.com/item?id=28699499 - setembro de 2021, 30 comentários
PiFS – The Data-Free Filesystem - https://news.ycombinator.com/item?id=26208704 - fevereiro de 2021, 1 comentário
Πfs: Never worry about data again - https://news.ycombinator.com/item?id=21359338 - outubro de 2019, 1 comentário
The π Filesystem for FUSE: Store Your Data in π - https://news.ycombinator.com/item?id=19223032 - fevereiro de 2019, 1 comentário
pifs - Avoid disk space usage by saving your files in the digits of Pi - https://news.ycombinator.com/item?id=18687275 - dezembro de 2018, 1 comentário
πfs – A data-free filesystem - https://news.ycombinator.com/item?id=13869691 - março de 2017, 105 comentários
Πfs: Stores your data in π - https://news.ycombinator.com/item?id=10856108 - janeiro de 2016, 1 comentário
Πfs: Never worry about data again - https://news.ycombinator.com/item?id=10847693 - janeiro de 2016, 1 comentário
File system that stores location of file in Pi - https://news.ycombinator.com/item?id=8018818 - julho de 2014, 98 comentários
100% Compression Using Pi - https://news.ycombinator.com/item?id=6698852 - novembro de 2013, 32 comentários
Reposts costumam ser aceitáveis depois de cerca de 1 ano, e links para threads antigas servem para leitores que quiserem se aprofundar mais
Isso também me lembra isto: https://www.spronck.net/sloot.html
Leitura adicional: https://en.wikipedia.org/wiki/Sloot_Digital_Coding_System
O método de codificação real consistia em armazenar cada linha do vídeo em um banco de dados, codificar cada quadro como uma sequência de consultas de linhas e depois armazenar esse quadro codificado em outro banco de dados. Cada vídeo virava uma sequência de consultas de quadros
Esse é o motivo de ele conseguir demonstrar 16 vídeos sendo reproduzidos suavemente ao mesmo tempo em hardware do fim dos anos 90. Como cada quadro é uma sequência de consultas de linhas, dividir a tela em 16 faixas horizontais e reproduzir 16 vídeos simultaneamente não é mais pesado do que reproduzir um único vídeo em tela cheia
Da mesma forma, como cada quadro é decodificado individualmente, avançar e retroceder rapidamente também eram suaves. Como não era preciso calcular diferenças a partir de cada keyframe como na compressão de vídeo tradicional, reprodução em 2x não era mais difícil do que em 1x
Claro que não daria para armazenar arquivos de vídeo em algo como 8 KB, mas, por exemplo, se uma temporada inteira de uma série de TV estivesse no banco de dados, os créditos de abertura e encerramento só precisariam ser armazenados uma vez
É desconfortável perceber que π contém todo o conhecimento do passado e do futuro, inclusive quando vou morrer
Também não dá para dizer que ela contém todo o conhecimento do passado e do futuro. Isso porque todas as falsidades possíveis sobre o passado e o futuro também estão lá, de um jeito indistinguível da verdade.
Codificar informação como um deslocamento em uma sequência pseudorrandômica é menos eficiente em armazenamento do que guardar a informação diretamente
Curiosidade: "Chrispratt" em antigo californiano significa "Joel McHale não quis o papel"
https://dn760100.eu.archive.org/0/items/TheLibraryOfBabel/ba...
Lembro vagamente de uma inscrição em algum benchmark de compressão que burlou o teste ao tratar o nome do arquivo como parte da entrada do algoritmo de descompressão
Como o benchmark media apenas o tamanho do arquivo, ela conseguiu vencer essa métrica
Isso não depende de uma propriedade de π que ainda não foi provada? É preciso conter todas as strings finitas ou ter normalidade, e nenhuma das duas foi provada