OpenCoder: um cookbook aberto para LLMs de código de ponta

(opencoder-llm.github.io)

12 pontos por GN⁺ 2024-11-10 | 1 comentários | Compartilhar no WhatsApp

OpenCoder é um modelo de linguagem grande (LLM) de código open source, incluindo modelos base e de chat de 1.5B e 8B, com suporte a inglês e chinês
- Foi treinado com dados compostos por 2,5 trilhões de tokens, dos quais 90% são código bruto e 10% são dados da web relacionados a código
- Alcança o desempenho dos principais LLMs de código e fornece pesos do modelo, código de inferência, dados de treinamento reproduzíveis, pipeline de processamento de dados, resultados experimentais de ablação e protocolos detalhados de treinamento
- Uma plataforma aberta que apoia pesquisadores a avançar e inovar em IA para código
Características do OpenCoder
- Um LLM de código totalmente open source, construído com base em um pipeline transparente de processamento de dados e datasets reproduzíveis, alcançando desempenho de ponta em vários benchmarks de avaliação de LLMs de código
- RefineCode: corpus de pré-treinamento de código de alta qualidade e reproduzível, composto por 960 bilhões de tokens em 607 linguagens de programação
- Estudos de ablação significativos: inclui vários experimentos de ablação para fornecer insights relevantes sobre diferentes escolhas de design e estratégias de treinamento para LLMs de código
- Recursos públicos: pesos finais do modelo, pipeline completo de processamento de dados, pipeline eficiente de avaliação, dataset reproduzível de pré-treinamento, dataset SFT em larga escala e checkpoints intermediários

1 comentários

GN⁺ 2024-11-10

Contribui para a pesquisa científica ao divulgar não apenas os pesos do modelo e o código de inferência, mas também dados de treinamento reproduzíveis, pipelines de processamento de dados, resultados experimentais e protocolos de treinamento.
- Enfatiza que esse tipo de trabalho beneficia a todos, independentemente do desempenho do modelo.
Nos testes, apresentou muitas alucinações e desempenho inferior em comparação com modelos gerais como Qwen 2.5 ou Mistral-Nemo.
Link para a página do artigo no arXiv: https://opencoder-llm.github.io/
A pontuação do Qwen2.5-Coder-7B no HumanEval é 61.6, mas na Tabela 1 aparece como 88.4, o que gerou confusão.
- Isso acontece porque são dois modelos diferentes (Qwen2.5-Coder-7B-Base é 61.6, e Qwen2.5-Coder-7B-Instruct é 88.4).
Por causa de forks e cópia e cola dentro da base de código, 75% dos arquivos são completamente duplicados.
- Como o hashing é feito no nível de arquivo, não dá para ter certeza se foi uma cópia do arquivo inteiro sem modificações.
Será que alguém está treinando com metadados de compilação e execução, como dados de profiling?
- Fico curioso se incluir isso poderia orientar o modelo na direção de um código mais eficiente.
É um artigo interessante, mas o modelo não parece superar o Qwen2.5-Coder em algumas linguagens, incluindo Ruby.
Fico curioso sobre que hardware é necessário para rodar esse modelo.
O encanamento é importante.
Bom.