12 pontos por GN⁺ 2024-11-10 | 1 comentários | Compartilhar no WhatsApp
  • OpenCoder é um modelo de linguagem grande (LLM) de código open source, incluindo modelos base e de chat de 1.5B e 8B, com suporte a inglês e chinês
    • Foi treinado com dados compostos por 2,5 trilhões de tokens, dos quais 90% são código bruto e 10% são dados da web relacionados a código
    • Alcança o desempenho dos principais LLMs de código e fornece pesos do modelo, código de inferência, dados de treinamento reproduzíveis, pipeline de processamento de dados, resultados experimentais de ablação e protocolos detalhados de treinamento
    • Uma plataforma aberta que apoia pesquisadores a avançar e inovar em IA para código
  • Características do OpenCoder
    • Um LLM de código totalmente open source, construído com base em um pipeline transparente de processamento de dados e datasets reproduzíveis, alcançando desempenho de ponta em vários benchmarks de avaliação de LLMs de código
    • RefineCode: corpus de pré-treinamento de código de alta qualidade e reproduzível, composto por 960 bilhões de tokens em 607 linguagens de programação
    • Estudos de ablação significativos: inclui vários experimentos de ablação para fornecer insights relevantes sobre diferentes escolhas de design e estratégias de treinamento para LLMs de código
    • Recursos públicos: pesos finais do modelo, pipeline completo de processamento de dados, pipeline eficiente de avaliação, dataset reproduzível de pré-treinamento, dataset SFT em larga escala e checkpoints intermediários

1 comentários

 
GN⁺ 2024-11-10
Comentários do Hacker News
  • Contribui para a pesquisa científica ao divulgar não apenas os pesos do modelo e o código de inferência, mas também dados de treinamento reproduzíveis, pipelines de processamento de dados, resultados experimentais e protocolos de treinamento.

    • Enfatiza que esse tipo de trabalho beneficia a todos, independentemente do desempenho do modelo.
  • Nos testes, apresentou muitas alucinações e desempenho inferior em comparação com modelos gerais como Qwen 2.5 ou Mistral-Nemo.

  • Link para a página do artigo no arXiv: https://opencoder-llm.github.io/

  • A pontuação do Qwen2.5-Coder-7B no HumanEval é 61.6, mas na Tabela 1 aparece como 88.4, o que gerou confusão.

    • Isso acontece porque são dois modelos diferentes (Qwen2.5-Coder-7B-Base é 61.6, e Qwen2.5-Coder-7B-Instruct é 88.4).
  • Por causa de forks e cópia e cola dentro da base de código, 75% dos arquivos são completamente duplicados.

    • Como o hashing é feito no nível de arquivo, não dá para ter certeza se foi uma cópia do arquivo inteiro sem modificações.
  • Será que alguém está treinando com metadados de compilação e execução, como dados de profiling?

    • Fico curioso se incluir isso poderia orientar o modelo na direção de um código mais eficiente.
  • É um artigo interessante, mas o modelo não parece superar o Qwen2.5-Coder em algumas linguagens, incluindo Ruby.

  • Fico curioso sobre que hardware é necessário para rodar esse modelo.

  • O encanamento é importante.

  • Bom.