1 comentários

 
GN⁺ 2024-04-02
Comentários no Hacker News
    • Tenho uma dúvida sobre os modelos GPT: eu achava que o modelo escolhia a palavra mais provável, mas se ele escolher uma das palavras "prováveis", a lista de previsões da próxima palavra não ficaria muito menos provável? Se for computacionalmente viável executar a probabilidade de "duas palavras juntas", isso seria mais útil, e o mesmo poderia se aplicar a 3, 4, n palavras. Fico curioso se existe uma abordagem assim.
    • Editado depois de assistir ao vídeo e ler os comentários: beam search e temperature são usados para controlar esse problema.
    • Não consigo pensar em ninguém melhor para ensinar o mecanismo de atenção a um grupo. Parece um sonho realizado.
    • É um remédio surpreendente para o conteúdo de Primeiro de Abril. Dá vontade de injetar isso direto na veia.
    • O canal do Andrej Karpathy tem alguns vídeos interessantes explicando redes neurais e seu funcionamento interno para pessoas que sabem programar. Recomendo se você gostou disso.
    • O próximo token é escolhido ao amostrar os logits da coluna final depois do unembedding. Mas isso não seria simplesmente selecionar o último token de novo? Ou em algum momento a matriz é redimensionada para N+1?
    • Mal posso esperar pelo próximo vídeo. Acho que finalmente vou conseguir internalizar e entender como essas coisas funcionam.
    • 3B1B é um dos melhores educadores de STEM no YouTube.