1 pontos por GN⁺ 2023-08-06 | 1 comentários | Compartilhar no WhatsApp
  • Artigo sobre o não determinismo observado no GPT-4, o modelo de linguagem desenvolvido pela OpenAI
  • GPT-4/GPT-3.5-turbo são não determinísticos mesmo em temp=0, embora em modelos densos somente com decoder isso devesse significar determinismo completo
  • Inicialmente, supôs-se que o não determinismo fosse um bug em potencial ou o não determinismo de cálculos otimizados em ponto flutuante
  • Nova hipótese do autor: o não determinismo do GPT-4 se deve em grande parte ao fato de a arquitetura Sparse Mixture of Experts (MoE) não conseguir impor determinismo por sequência
  • A abordagem Sparse MoE causa não determinismo no nível da sequência ao rotear tokens em grupos de tamanho fixo e manter o balanceamento dentro do grupo
  • Para testar essa hipótese, o autor pediu ao GPT-4 que escrevesse scripts e observou muitas conclusões únicas no GPT-4, confirmando que há uma causa para o GPT-4 ser muito mais não determinístico do que outros modelos
  • O autor também especula que o GPT-3.5-turbo pode ser um modelo MoE por causa de sua velocidade, de seu não determinismo e da remoção de logprobs
  • As implicações dessas descobertas são importantes: se o não determinismo for uma característica intrínseca da inferência em lote com Sparse MoE, isso deve ficar claro para qualquer pessoa que lide com esses modelos
  • Ao concluir, o autor argumenta que, embora o não determinismo nos modelos GPT da OpenAI em geral seja atribuído à imprecisão de operações em ponto flutuante de otimizações CUDA não determinísticas, a causa fundamental pode ser a inferência em lote em modelos Sparse MoE

1 comentários

 
GN⁺ 2023-08-06
Opiniões no Hacker News
  • A não determinismo do GPT-4 decorre de seu modelo Sparse Mixture of Experts (MoE).
  • A imprecisão de ponto flutuante em sistemas de IA/ML geralmente é determinística, e resultados heterogêneos podem ser causados por outras fontes de estado ou entropia.
  • O artigo sugere que a inferência eficiente do GPT-4 pode depender da mistura de tokens de entradas separadas, o que pode introduzir não determinismo e afetar a qualidade das respostas.
  • A qualidade das respostas também pode depender do número de solicitações simultâneas competindo pela mesma atribuição de "especialistas".
  • Isso pode explicar a percepção de degradação da qualidade ao longo do tempo, e um maior uso simultâneo pode levar a resultados menos confiáveis.
  • O uso de modelos MoE no GPT-3.5 significa que é possível fazer mais com menos, o que pode trazer esperança para o movimento de código aberto.
  • Se as sequências dentro de um lote puderem afetar o roteamento das outras, isso introduz a possibilidade de ataques de canal lateral.
  • A abordagem MoE introduz probabilismo ou aleatoriedade no funcionamento do modelo ao selecionar diferentes "especialistas" ou partes do modelo para diferentes partes dos dados de entrada.
  • Os mesmos dados de entrada, processados duas vezes em contextos ligeiramente diferentes, podem consultar conjuntos de especialistas um pouco distintos, produzindo saídas ligeiramente diferentes.
  • Sob carga pesada, os resultados podem mudar por causa dos tokens competindo por vagas disponíveis nos buffers de especialistas.
  • Essa competição pelos buffers de especialistas também pode explicar por que o ChatGPT escreve placeholders em vez de funções ao solicitar código longo.