Codestral - modelo de IA da Mistral para geração de código

(mistral.ai)

13 pontos por GN⁺ 2024-05-30 | 1 comentários | Compartilhar no WhatsApp

Modelo de IA treinado em mais de 80 linguagens de programação
Suporta não apenas linguagens populares como Python, Java, C, C++, JavaScript e Bash, mas também linguagens mais específicas como Swift e Fortran, podendo ajudar desenvolvedores em diversos ambientes e projetos de programação

Estabelecendo um novo padrão de desempenho em geração de código

Alcança desempenho superior e menor latência em comparação com modelos anteriores
Python
- Codestral 22B 32k : HumanEval 81.1%, MBPP 78.2%, CruxEval-O 51.3%, RepoBench 34.0%
- CodeLlama 70B 4k : HumanEval 67.1%, MBPP 70.8%, CruxEval-O 47.3%, RepoBench 11.4%
SQL (Spider)
- Codestral 63.5%, CodeLlama 37%
Média em várias linguagens
- Média do HumanEval : Codestral 61.5%, CodeLlama 51.9%

Começando com o Codestral

O Codestral pode ser usado para fins de pesquisa e testes sob a Mistral AI Non-Production License, com download via HuggingFace
Pode ser usado por meio do novo endpoint codestral.mistral.ai. O acesso é gerenciado com uma chave de API pessoal e está disponível durante um período beta gratuito de 8 semanas
Também pode ser usado pelo endpoint api.mistral.ai, com cobrança por token.
É possível interagir naturalmente com o Codestral por meio do Le Chat.

Suporte ao uso do Codestral no ambiente de programação de sua preferência

Frameworks de aplicação: integrado ao LlamaIndex e ao LangChain.
Integração com VSCode/JetBrains: é possível usar o Codestral nos ambientes VSCode e JetBrains por meio do Continue.dev e do Tabnine.

Feedback da comunidade de desenvolvedores

Nate Sesti (CTO da Continue.dev): é o primeiro modelo aberto de autocompletar com velocidade e qualidade, e trará uma grande mudança para os desenvolvedores.
Vladislav Tankov (líder de IA da JetBrains): há grande expectativa em relação aos recursos da Mistral com forte foco em código e apoio ao desenvolvimento.
Mikhail Evtikhiev (pesquisador da JetBrains): mostrou desempenho superior ao GPT-4-Turbo e ao GPT-3.5-Turbo no benchmark Kotlin-HumanEval.
Meital Zilberstein (líder de P&D da Tabnine): apresenta excelente desempenho em geração de código, geração de testes e documentação, melhorando bastante a eficiência do produto.
Quinn Slack (CEO da Sourcegraph): entrega valor real aos desenvolvedores ao reduzir a latência no autocompletar de código e manter a qualidade.
Jerry Liu (CEO da LlamaIndex): gera código preciso e funcional mesmo em tarefas complexas.
Harrison Chase (CEO da LangChain): oferece rapidez, uma janela de contexto vantajosa e suporte ao uso de ferramentas.

Opinião do GN⁺

Avanço da geração de código por IA: o Codestral suporta várias linguagens e tem alto desempenho, podendo ser de grande ajuda para desenvolvedores.
Facilidade de uso: oferece várias opções de integração e um endpoint dedicado, tornando o uso conveniente.
Avaliação de desempenho: mostrou alto desempenho em vários benchmarks, o que o torna confiável.
Modelos concorrentes: apresenta desempenho superior mesmo em comparação com GPT-4-Turbo e GPT-3.5-Turbo.
Pontos a considerar na adoção: a decisão de adoção deve levar em conta o desempenho e a usabilidade do modelo.

1 comentários

GN⁺ 2024-05-30

Comentários no Hacker News

Resumo dos comentários do Hacker News

Restrição de licença: o modelo e seus outputs não podem ser usados em atividades comerciais nem em condições "live". O uso de saídas de código como parte do desenvolvimento é uma exceção, mas o uso interno no contexto das atividades de negócio de uma empresa também é proibido. Isso torna injusta a comparação com outros modelos de pesos abertos.
Teste de modelo de programação: foi pedido ao modelo de programação que escrevesse um middleware ASGI específico em Python, mas nenhum modelo conseguiu fazer isso corretamente.
Diferença de filosofia entre LLMs: existe uma diferença de filosofia entre LLMs no estilo Llama e LLMs no estilo OpenAI/GPT. O GPT evoluiu com foco em código, enquanto os modelos Llama/Mistral primeiro lançaram modelos gerais de linguagem e depois ofereceram CodeLlama/Codestral com treinamento adicional em código.
Integração com VSCode: há curiosidade sobre existir uma forma de usar no VSCode, como o Copilot, com "shadow code" aparecendo. A qualidade dessas ferramentas depende da capacidade de projetar prompts adequados no lado do cliente.
Limitações de uso: os modelos da Mistral e seus derivados só podem ser usados para testes, pesquisa, fins pessoais ou avaliação, e não podem ser usados em atividades comerciais.
Problema de utilidade prática: há quem ache que, se não puder ser usado em casos práticos de autocompletar código, então não faz sentido. O GH Copilot já seria o melhor modelo.
Link do Huggingface: link da página no Huggingface
Democratização do código: menciona-se o problema que surgiu ao democratizar a arte e há preocupação com o aumento de bibliotecas não confiáveis geradas por IA.
Requisitos de RAM: há uma pergunta sobre os requisitos de RAM para usar localmente o modelo de 44GB disponível para download no Huggingface. Também há dúvida se os requisitos de RAM para GPU e para a RAM "unificada" do Apple Silicon são os mesmos.
Extensão para VSCode: há curiosidade sobre existir uma extensão do VSCode que permita usar vários modelos como plugins. Configurar isso toda vez é trabalhoso.

Codestral - modelo de IA da Mistral para geração de código

Estabelecendo um novo padrão de desempenho em geração de código

Começando com o Codestral

Suporte ao uso do Codestral no ambiente de programação de sua preferência

Feedback da comunidade de desenvolvedores

Opinião do GN⁺

Leituras relacionadas

1 comentários

Comentários no Hacker News

Resumo dos comentários do Hacker News