2 pontos por GN⁺ 2023-08-26 | 1 comentários | Compartilhar no WhatsApp
  • CodeLlama-34B e CodeLlama-34B-Python foram ajustados com o dataset interno da Phind, alcançando pass@1 de 67,6% e 69,5% no HumanEval, respectivamente, superando os 67% do GPT-4
  • Os modelos CodeLlama lançados recentemente mostraram desempenho impressionante no HumanEval; o CodeLlama-34B alcançou pass@1 de 48,8%, e o CodeLlama-34B-Python alcançou pass@1 de 53,7%
  • Ambos os modelos foram ajustados em um dataset proprietário com cerca de 80k problemas de programação e soluções de alta qualidade, que é estruturalmente diferente do HumanEval por trazer pares de instrução-resposta em vez de exemplos de conclusão de código
  • Os modelos foram treinados por dois epochs em um total de 160k exemplos usando DeepSpeed ZeRO 3 e Flash Attention 2, em um processo de três horas com 32 GPUs A100-80GB e comprimento de sequência de 4096 tokens
  • A metodologia de descontaminação da OpenAI foi aplicada ao dataset para garantir resultados válidos, e nenhum exemplo contaminado foi encontrado. Essa metodologia amostra aleatoriamente três substrings de 50 caracteres de cada exemplo de avaliação ou, se o exemplo inteiro tiver menos de 50 caracteres, usa o exemplo completo, identificando uma correspondência quando uma das substrings amostradas aparece como substring de um exemplo de treino processado.
  • Os modelos ajustados alcançaram pontuações pass@1 no HumanEval de 67,6% para o Phind-CodeLlama-34B-v1 e 69,5% para o Phind-CodeLlama-34B-Python-v1
  • Ambos os modelos foram publicados no Huggingface para garantir verificabilidade e apoiar a comunidade open source, e a verificação independente dos resultados é recomendada

1 comentários