- Code Llama é um modelo de linguagem de grande porte (LLM) de última geração, projetado especialmente para tarefas de programação.
- Ele pode gerar código e linguagem natural sobre o código tanto a partir de prompts de código quanto de linguagem natural.
- O Code Llama foi construído sobre o Llama 2 e está disponível em três versões: o modelo base para código, um modelo especializado em Python e um modelo ajustado para compreender instruções em linguagem natural.
- O modelo é gratuito tanto para pesquisa quanto para uso comercial e supera outros LLMs publicamente disponíveis em tarefas de código.
- O Code Llama pode ser usado como uma ferramenta de produtividade para ajudar programadores a escrever softwares mais robustos e bem documentados, e também como uma ferramenta educacional para reduzir a barreira de entrada de quem está aprendendo a programar.
- O modelo oferece suporte a muitas linguagens populares, como Python, C++, Java, PHP, Typescript (Javascript), C#, Bash e outras.
- O Code Llama está disponível em três tamanhos, com 7B, 13B e 34B parâmetros, e cada um foi treinado com 500B tokens de código e dados relacionados a código.
- Os diferentes modelos são oferecidos para atender a diferentes serviços e exigências de latência; o modelo 34B entrega os melhores resultados, enquanto os menores são mais adequados para tarefas que exigem rapidez e baixa latência.
- O Code Llama pode lidar com até 100.000 tokens de contexto, o que é útil para gerar programas mais longos e depurar bases de código maiores.
- Duas variantes adicionais, Code Llama - Python e Code Llama - Instruct, passaram por ajuste fino; elas são especializadas, respectivamente, em código Python e em gerar respostas úteis e seguras em linguagem natural.
- O Code Llama superou outros LLMs open source voltados exclusivamente para código e também o Llama 2 em testes de benchmark com os benchmarks de programação HumanEval e Mostly Basic Python Programming (MBPP).
- Antes do lançamento do Code Llama, foram adotadas medidas de segurança, incluindo uma avaliação quantitativa do risco de o modelo gerar código malicioso.
- A receita de treinamento e os pesos do modelo do Code Llama estão disponíveis no GitHub, e seu desenvolvimento, testes de benchmark, limitações e desafios futuros são descritos em detalhes no artigo de pesquisa.
- Os criadores do Code Llama acreditam que modelos de IA, especialmente LLMs para programação, se beneficiam mais de uma abordagem aberta, pois isso permite que toda a comunidade avalie suas capacidades, identifique problemas e corrija vulnerabilidades.
- Os desenvolvedores são incentivados a usar o Code Llama de forma responsável, incluindo seguir diretrizes sobre desenvolvimento de modelos derivados, definição de políticas de conteúdo, preparação de dados, ajuste fino do modelo, avaliação e melhoria de desempenho, resposta a riscos, transparência na interação com usuários e criação de mecanismos de reporte.
- O Code Llama foi projetado para apoiar engenheiros de software de todas as áreas e inspirar outras pessoas a aproveitar o Llama 2 para criar novas ferramentas inovadoras para pesquisa e produtos comerciais.
1 comentários
Opiniões no Hacker News