Compressão sem perdas de mensagens curtas em inglês

(textsynth.org)

3 pontos por lifthrasiir 2019-07-16 | 1 comentários | Compartilhar no WhatsApp

O nome de Fabrice Bellard tem aparecido com frequência ultimamente, e um projeto anterior dele foi um algoritmo de compressão sem perdas usando redes neurais (veja https://bellard.org/nncp/). Como o GPT-2 (https://openai.com/blog/better-language-models/) foi lançado recentemente, surgiu a ideia: e se substituíssemos a rede neural por ele para rodar o algoritmo de compressão? Foi dessa concepção que nasceu esta página. Ela comprime textos curtos em inglês em cerca de 15%, ou seja, usando apenas 1,2 bit por caractere. Isso já se aproxima da entropia de informação estimada para cada letra do inglês (0,6~1,3 bit). Como dá para ver pela URL, a intenção parece ser enviar isso por SMS.

Este não é o primeiro algoritmo de compressão a usar redes neurais. Todos os algoritmos de compressão de ponta, começando pelo PAQ, usam métodos estatísticos, e o uso de redes neurais também não é raro. O próprio context mixing (https://en.wikipedia.org/wiki/Context_mixing), que serve de base para eles, é uma aplicação de redes neurais, e já houve casos de uso de LSTM, como o empregado por Bellard (https://github.com/byronknoll/lstm-compress). A contribuição de Bellard está mais próxima de uma otimização de desempenho.

1 comentários

iolothebard 2019-07-16

Então vão usar a área Unicode CJK e Hangul...

Se isso me faz lembrar o pesadelo da época das combinações/formas completas de 2 bytes, quando caracteres ASCII estendidos pareciam coreano/chinês... (confessando que sou velho)

Compressão sem perdas de mensagens curtas em inglês

Leituras relacionadas

1 comentários