- Os autores aplicam kNN a documentos comprimidos usando uma função de distância chamada "distância de compressão normalizada" (NCD).
- Esse método supera o BERT em tarefas de classificação zero-shot.
- O Gzip é forte quando muitas palavras se sobrepõem, mas as DNNs são melhores em similaridade semântica.
- Os resultados são interessantes, mas não tão interessantes quanto parecem.
- Em dados fora da distribuição, o BERT ainda apresenta desempenho superior.
- Algoritmos de compressão e modelos de ML são ambos formas de compressão, e pode haver uma característica fundamental que explique o desempenho na linguagem humana e nos dados.
- O link deveria apontar para o artigo na URL fornecida.
- Conectar trechos de texto semelhantes comprime melhor do que outros trechos.
- O Gzip pode ser mais adequado para compressão porque representa a entrada de uma forma que permite reconhecê-la e rotulá-la.
- O Gzip pode ter dificuldade com palavras como "not", que invertem o sentido de uma frase.```
1 comentários
Comentários do Hacker News