1 pontos por GN⁺ 2023-08-25 | 1 comentários | Compartilhar no WhatsApp
  • Code Llama é um modelo de linguagem de grande porte (LLM) de última geração, projetado especialmente para tarefas de programação.
  • Ele pode gerar código e linguagem natural sobre o código tanto a partir de prompts de código quanto de linguagem natural.
  • O Code Llama foi construído sobre o Llama 2 e está disponível em três versões: o modelo base para código, um modelo especializado em Python e um modelo ajustado para compreender instruções em linguagem natural.
  • O modelo é gratuito tanto para pesquisa quanto para uso comercial e supera outros LLMs publicamente disponíveis em tarefas de código.
  • O Code Llama pode ser usado como uma ferramenta de produtividade para ajudar programadores a escrever softwares mais robustos e bem documentados, e também como uma ferramenta educacional para reduzir a barreira de entrada de quem está aprendendo a programar.
  • O modelo oferece suporte a muitas linguagens populares, como Python, C++, Java, PHP, Typescript (Javascript), C#, Bash e outras.
  • O Code Llama está disponível em três tamanhos, com 7B, 13B e 34B parâmetros, e cada um foi treinado com 500B tokens de código e dados relacionados a código.
  • Os diferentes modelos são oferecidos para atender a diferentes serviços e exigências de latência; o modelo 34B entrega os melhores resultados, enquanto os menores são mais adequados para tarefas que exigem rapidez e baixa latência.
  • O Code Llama pode lidar com até 100.000 tokens de contexto, o que é útil para gerar programas mais longos e depurar bases de código maiores.
  • Duas variantes adicionais, Code Llama - Python e Code Llama - Instruct, passaram por ajuste fino; elas são especializadas, respectivamente, em código Python e em gerar respostas úteis e seguras em linguagem natural.
  • O Code Llama superou outros LLMs open source voltados exclusivamente para código e também o Llama 2 em testes de benchmark com os benchmarks de programação HumanEval e Mostly Basic Python Programming (MBPP).
  • Antes do lançamento do Code Llama, foram adotadas medidas de segurança, incluindo uma avaliação quantitativa do risco de o modelo gerar código malicioso.
  • A receita de treinamento e os pesos do modelo do Code Llama estão disponíveis no GitHub, e seu desenvolvimento, testes de benchmark, limitações e desafios futuros são descritos em detalhes no artigo de pesquisa.
  • Os criadores do Code Llama acreditam que modelos de IA, especialmente LLMs para programação, se beneficiam mais de uma abordagem aberta, pois isso permite que toda a comunidade avalie suas capacidades, identifique problemas e corrija vulnerabilidades.
  • Os desenvolvedores são incentivados a usar o Code Llama de forma responsável, incluindo seguir diretrizes sobre desenvolvimento de modelos derivados, definição de políticas de conteúdo, preparação de dados, ajuste fino do modelo, avaliação e melhoria de desempenho, resposta a riscos, transparência na interação com usuários e criação de mecanismos de reporte.
  • O Code Llama foi projetado para apoiar engenheiros de software de todas as áreas e inspirar outras pessoas a aproveitar o Llama 2 para criar novas ferramentas inovadoras para pesquisa e produtos comerciais.

1 comentários

 
GN⁺ 2023-08-25
Opiniões no Hacker News
  • Code Llama é um novo modelo de linguagem de grande porte especialmente projetado para programação.
  • Este modelo pode processar até 100.000 tokens de contexto e oferece geração estável.
  • Alguns usuários questionaram a utilidade de um contexto de 100k, afirmando que a precisão da recuperação de informações essenciais cai depois de 16k tokens.
  • Eles consideram que o modelo 7B do Code Llama é competitivo com o Codex, o modelo por trás do GitHub Copilot.
  • Os usuários estão animados com o potencial do modelo 34B Python quantizado em 4 bits.
  • Há dúvidas sobre modelos de código embarcado para lidar com bases de código maiores que 100K tokens.
  • O desenvolvimento desses modelos está levando a discussões sobre possíveis mudanças nas práticas de programação para otimizar essas ferramentas.
  • Os usuários têm interesse na possibilidade de criar modelos de linguagem de grande porte específicos para outros domínios, como Rust, Linux, genômica e modelagem física, e colaborar para resolver problemas.
  • O melhor modelo, Unnatural Code Llama, ainda não foi lançado, possivelmente por poder violar os termos de serviço da OpenAI.
  • Os usuários estão comparando a utilidade de ferramentas como Code Llama e Code Pilot com o uso direto do GPT-4.
  • Há interesse em entender os requisitos de hardware necessários para executar esses modelos, e alguns usuários querem usá-los sem enviar seu código-fonte para gigantes da tecnologia.