- Artigo sobre alcançar 78% de acurácia no conjunto de dados MNIST usando GZIP com menos de 10 linhas de código
- O autor enfatiza que a novidade deste post não é atingir resultados de ponta, mas mostrar o potencial da compressão como uma ferramenta de classificação singular e sem modelo
- O código fornecido usa GZIP e NCD (Normalized Compression Distance) como métrica de similaridade, e k-NN (k-Nearest Neighbors) para classificação
- O GZIP é usado como ferramenta para medir a complexidade ou o conteúdo de informação de pontos de dados individuais, enquanto o NCD fornece uma medida normalizada de quão semelhantes dois pontos de dados são
- O algoritmo calcula o NCD com todas as amostras de treino, ordena esses valores e seleciona as k menores distâncias. Entre esses k=5 vizinhos mais próximos, a classe majoritária é prevista como o rótulo da amostra de teste
- O autor reconhece que essa abordagem é computacionalmente cara e que apenas uma parte das imagens de teste foi usada para medir a acurácia
- O autor também fornece uma versão menos obscura do algoritmo para facilitar a compreensão
- O autor menciona uma abordagem semelhante adotada por Andreas Kirsch em 2019, que alcançou cerca de 35% de acurácia
- O autor passou a usar compressão como mecanismo de classificação de imagens após ler um post sobre geração de texto a partir de compressão de dados e um artigo sobre classificação de texto sem parâmetros
- O autor já havia trabalhado com compressão de imagens para visão computacional em edge e tinha interesse em aplicar essa técnica ao conjunto de dados MNIST
1 comentários
Comentários do Hacker News
gzip) com convolução discreta entre sequências candidatas