- OpenCoder é um modelo de linguagem grande (LLM) de código open source, incluindo modelos base e de chat de 1.5B e 8B, com suporte a inglês e chinês
- Foi treinado com dados compostos por 2,5 trilhões de tokens, dos quais 90% são código bruto e 10% são dados da web relacionados a código
- Alcança o desempenho dos principais LLMs de código e fornece pesos do modelo, código de inferência, dados de treinamento reproduzíveis, pipeline de processamento de dados, resultados experimentais de ablação e protocolos detalhados de treinamento
- Uma plataforma aberta que apoia pesquisadores a avançar e inovar em IA para código
- Características do OpenCoder
- Um LLM de código totalmente open source, construído com base em um pipeline transparente de processamento de dados e datasets reproduzíveis, alcançando desempenho de ponta em vários benchmarks de avaliação de LLMs de código
- RefineCode: corpus de pré-treinamento de código de alta qualidade e reproduzível, composto por 960 bilhões de tokens em 607 linguagens de programação
- Estudos de ablação significativos: inclui vários experimentos de ablação para fornecer insights relevantes sobre diferentes escolhas de design e estratégias de treinamento para LLMs de código
- Recursos públicos: pesos finais do modelo, pipeline completo de processamento de dados, pipeline eficiente de avaliação, dataset reproduzível de pré-treinamento, dataset SFT em larga escala e checkpoints intermediários
1 comentários
Comentários do Hacker News
Contribui para a pesquisa científica ao divulgar não apenas os pesos do modelo e o código de inferência, mas também dados de treinamento reproduzíveis, pipelines de processamento de dados, resultados experimentais e protocolos de treinamento.
Nos testes, apresentou muitas alucinações e desempenho inferior em comparação com modelos gerais como Qwen 2.5 ou Mistral-Nemo.
Link para a página do artigo no arXiv: https://opencoder-llm.github.io/
A pontuação do Qwen2.5-Coder-7B no HumanEval é 61.6, mas na Tabela 1 aparece como 88.4, o que gerou confusão.
Por causa de forks e cópia e cola dentro da base de código, 75% dos arquivos são completamente duplicados.
Será que alguém está treinando com metadados de compilação e execução, como dados de profiling?
É um artigo interessante, mas o modelo não parece superar o Qwen2.5-Coder em algumas linguagens, incluindo Ruby.
Fico curioso sobre que hardware é necessário para rodar esse modelo.
O encanamento é importante.
Bom.