CodeLlama-34B ajustado supera o GPT-4 no HumanEval

(phind.com)

2 pontos por GN⁺ 2023-08-26 | 1 comentários | Compartilhar no WhatsApp

CodeLlama-34B e CodeLlama-34B-Python foram ajustados com o dataset interno da Phind, alcançando pass@1 de 67,6% e 69,5% no HumanEval, respectivamente, superando os 67% do GPT-4
Os modelos CodeLlama lançados recentemente mostraram desempenho impressionante no HumanEval; o CodeLlama-34B alcançou pass@1 de 48,8%, e o CodeLlama-34B-Python alcançou pass@1 de 53,7%
Ambos os modelos foram ajustados em um dataset proprietário com cerca de 80k problemas de programação e soluções de alta qualidade, que é estruturalmente diferente do HumanEval por trazer pares de instrução-resposta em vez de exemplos de conclusão de código
Os modelos foram treinados por dois epochs em um total de 160k exemplos usando DeepSpeed ZeRO 3 e Flash Attention 2, em um processo de três horas com 32 GPUs A100-80GB e comprimento de sequência de 4096 tokens
A metodologia de descontaminação da OpenAI foi aplicada ao dataset para garantir resultados válidos, e nenhum exemplo contaminado foi encontrado. Essa metodologia amostra aleatoriamente três substrings de 50 caracteres de cada exemplo de avaliação ou, se o exemplo inteiro tiver menos de 50 caracteres, usa o exemplo completo, identificando uma correspondência quando uma das substrings amostradas aparece como substring de um exemplo de treino processado.
Os modelos ajustados alcançaram pontuações pass@1 no HumanEval de 67,6% para o Phind-CodeLlama-34B-v1 e 69,5% para o Phind-CodeLlama-34B-Python-v1
Ambos os modelos foram publicados no Huggingface para garantir verificabilidade e apoiar a comunidade open source, e a verificação independente dos resultados é recomendada

1 comentários

alstjr7375 2023-08-27

É um post do HN.
https://news.ycombinator.com/item?id=37267597

CodeLlama-34B ajustado supera o GPT-4 no HumanEval

Leituras relacionadas

1 comentários