Tenho uma dúvida sobre os modelos GPT: eu achava que o modelo escolhia a palavra mais provável, mas se ele escolher uma das palavras "prováveis", a lista de previsões da próxima palavra não ficaria muito menos provável? Se for computacionalmente viável executar a probabilidade de "duas palavras juntas", isso seria mais útil, e o mesmo poderia se aplicar a 3, 4, n palavras. Fico curioso se existe uma abordagem assim.
Editado depois de assistir ao vídeo e ler os comentários: beam search e temperature são usados para controlar esse problema.
Não consigo pensar em ninguém melhor para ensinar o mecanismo de atenção a um grupo. Parece um sonho realizado.
É um remédio surpreendente para o conteúdo de Primeiro de Abril. Dá vontade de injetar isso direto na veia.
O canal do Andrej Karpathy tem alguns vídeos interessantes explicando redes neurais e seu funcionamento interno para pessoas que sabem programar. Recomendo se você gostou disso.
O próximo token é escolhido ao amostrar os logits da coluna final depois do unembedding. Mas isso não seria simplesmente selecionar o último token de novo? Ou em algum momento a matriz é redimensionada para N+1?
Mal posso esperar pelo próximo vídeo. Acho que finalmente vou conseguir internalizar e entender como essas coisas funcionam.
3B1B é um dos melhores educadores de STEM no YouTube.
1 comentários
Comentários no Hacker News