LLMs têm medo mortal de situações excepcionais
(twitter.com/karpathy)- Andrej Karpathy satiriza um efeito colateral surgido no processo de aprendizado por reforço (RL) ao dizer que “os LLMs têm medo mortal (mortally terrified) de exceções (exceptions)”
- Ele aponta que, quando encontram situações excepcionais, os LLMs tendem a parar por conta própria ou reagir de forma excessivamente defensiva, e enfatiza que exceções são uma parte natural do processo de desenvolvimento
- A expressão “o que os laboratórios estão fazendo com esses pobres LLMs durante o RL (what labs are doing to these poor LLMs)” critica a realidade em que os modelos são condicionados, no treinamento, a temer falhas
- Karpathy faz uma piada ao propor uma ‘petição pelo bem-estar dos LLMs (LLM welfare petition)’ para “melhorar as recompensas em casos de exceções (improved rewards in cases of exceptions)”,
satirizando o problema do desenho de recompensas para que os modelos lidem com exceções sem medo - O tuíte pode ser interpretado não apenas como humor, mas como uma mensagem de que RLHF pode inibir o pensamento exploratório e a atitude experimental dos modelos
> I don't know what labs are doing to these poor LLMs during RL but they are mortally terrified of exceptions, in any infinitesimally likely case. Exceptions are a normal part of life and healthy dev process. Sign my LLM welfare petition for improved rewards in cases of exceptions.
1 comentários
Comentários do Hacker News
https://github.com/EnterpriseQualityCoding/FizzBuzzEnterpriseEdition
Por outro lado, também acho que programadores humanos comuns realmente deveriam escrever mais blocos try/catch. Há muitos casos em que uma exceção numa área, por mais rara que seja, não deveria parar toda a operação. Claro, também há casos em que o certo é parar; depende da situação.
b=0, mas essa condição já foi verificada antes comabs(b) < sys.float_info.epsilon. E, no pre-check, retornar NaN é permitido, mas, se NaN surgir na operação real, ele é trocado por None. É um comportamento sem justificativa do ponto de vista de design de API.importdentro da função. Acho que isso é um efeito colateral artificial surgido de uma otimização para aplicar só a menor modificação possível, mas eu esperaria um resultado melhor.importlazy, para resolver problemas de importação lenta em contexto de startup.