- Artigo sobre o não determinismo observado no GPT-4, o modelo de linguagem desenvolvido pela OpenAI
- GPT-4/GPT-3.5-turbo são não determinísticos mesmo em
temp=0, embora em modelos densos somente com decoder isso devesse significar determinismo completo
- Inicialmente, supôs-se que o não determinismo fosse um bug em potencial ou o não determinismo de cálculos otimizados em ponto flutuante
- Nova hipótese do autor: o não determinismo do GPT-4 se deve em grande parte ao fato de a arquitetura Sparse Mixture of Experts (MoE) não conseguir impor determinismo por sequência
- A abordagem Sparse MoE causa não determinismo no nível da sequência ao rotear tokens em grupos de tamanho fixo e manter o balanceamento dentro do grupo
- Para testar essa hipótese, o autor pediu ao GPT-4 que escrevesse scripts e observou muitas conclusões únicas no GPT-4, confirmando que há uma causa para o GPT-4 ser muito mais não determinístico do que outros modelos
- O autor também especula que o GPT-3.5-turbo pode ser um modelo MoE por causa de sua velocidade, de seu não determinismo e da remoção de
logprobs
- As implicações dessas descobertas são importantes: se o não determinismo for uma característica intrínseca da inferência em lote com Sparse MoE, isso deve ficar claro para qualquer pessoa que lide com esses modelos
- Ao concluir, o autor argumenta que, embora o não determinismo nos modelos GPT da OpenAI em geral seja atribuído à imprecisão de operações em ponto flutuante de otimizações CUDA não determinísticas, a causa fundamental pode ser a inferência em lote em modelos Sparse MoE
1 comentários
Opiniões no Hacker News