- O recente artigo que chamou atenção no Twitter, "Classificação de texto sem autor": um método de classificação sem parâmetros usando compressores
- O autor verificou o código-fonte para reproduzir os resultados do artigo e encontrou um bug ou escolhas inesperadas no código de kNN.
- Devido a um bug no código, os números de acurácia desse método aparecem mais altos do que o esperado.
- Na Tabela 5 do artigo, o método com gzip mostra desempenho superior a outros métodos baseados em redes neurais.
- O autor recalculou os números e descobriu que os resultados corrigidos mudavam significativamente as conclusões do experimento.
- O artigo usou um classificador kNN com k=2, o que é uma escolha estranha para classificação com kNN.
- No código-fonte, há uma estratégia inesperada de desempate que afeta a acurácia reportada.
- O autor fornece sua própria implementação para comparar os resultados usando outra estratégia de desempate.
- Os resultados recalculados mostram que o código original e a implementação do autor produzem resultados semelhantes.
- Ainda restam dúvidas sobre a alta acurácia no dataset das Filipinas e sobre a pequena diferença entre os resultados de "table5" e "code".
1 comentários
Comentários do Hacker News