- Modelo de IA treinado em mais de 80 linguagens de programação
- Suporta não apenas linguagens populares como Python, Java, C, C++, JavaScript e Bash, mas também linguagens mais específicas como Swift e Fortran, podendo ajudar desenvolvedores em diversos ambientes e projetos de programação
Estabelecendo um novo padrão de desempenho em geração de código
- Alcança desempenho superior e menor latência em comparação com modelos anteriores
- Python
- Codestral 22B 32k : HumanEval 81.1%, MBPP 78.2%, CruxEval-O 51.3%, RepoBench 34.0%
- CodeLlama 70B 4k : HumanEval 67.1%, MBPP 70.8%, CruxEval-O 47.3%, RepoBench 11.4%
- SQL (Spider)
- Codestral 63.5%, CodeLlama 37%
- Média em várias linguagens
- Média do HumanEval : Codestral 61.5%, CodeLlama 51.9%
Começando com o Codestral
- O Codestral pode ser usado para fins de pesquisa e testes sob a Mistral AI Non-Production License, com download via HuggingFace
- Pode ser usado por meio do novo endpoint
codestral.mistral.ai. O acesso é gerenciado com uma chave de API pessoal e está disponível durante um período beta gratuito de 8 semanas
- Também pode ser usado pelo endpoint
api.mistral.ai, com cobrança por token.
- É possível interagir naturalmente com o Codestral por meio do Le Chat.
Suporte ao uso do Codestral no ambiente de programação de sua preferência
- Frameworks de aplicação: integrado ao LlamaIndex e ao LangChain.
- Integração com VSCode/JetBrains: é possível usar o Codestral nos ambientes VSCode e JetBrains por meio do Continue.dev e do Tabnine.
Feedback da comunidade de desenvolvedores
- Nate Sesti (CTO da Continue.dev): é o primeiro modelo aberto de autocompletar com velocidade e qualidade, e trará uma grande mudança para os desenvolvedores.
- Vladislav Tankov (líder de IA da JetBrains): há grande expectativa em relação aos recursos da Mistral com forte foco em código e apoio ao desenvolvimento.
- Mikhail Evtikhiev (pesquisador da JetBrains): mostrou desempenho superior ao GPT-4-Turbo e ao GPT-3.5-Turbo no benchmark Kotlin-HumanEval.
- Meital Zilberstein (líder de P&D da Tabnine): apresenta excelente desempenho em geração de código, geração de testes e documentação, melhorando bastante a eficiência do produto.
- Quinn Slack (CEO da Sourcegraph): entrega valor real aos desenvolvedores ao reduzir a latência no autocompletar de código e manter a qualidade.
- Jerry Liu (CEO da LlamaIndex): gera código preciso e funcional mesmo em tarefas complexas.
- Harrison Chase (CEO da LangChain): oferece rapidez, uma janela de contexto vantajosa e suporte ao uso de ferramentas.
Opinião do GN⁺
- Avanço da geração de código por IA: o Codestral suporta várias linguagens e tem alto desempenho, podendo ser de grande ajuda para desenvolvedores.
- Facilidade de uso: oferece várias opções de integração e um endpoint dedicado, tornando o uso conveniente.
- Avaliação de desempenho: mostrou alto desempenho em vários benchmarks, o que o torna confiável.
- Modelos concorrentes: apresenta desempenho superior mesmo em comparação com GPT-4-Turbo e GPT-3.5-Turbo.
- Pontos a considerar na adoção: a decisão de adoção deve levar em conta o desempenho e a usabilidade do modelo.
1 comentários
Comentários no Hacker News
Resumo dos comentários do Hacker News
Restrição de licença: o modelo e seus outputs não podem ser usados em atividades comerciais nem em condições "live". O uso de saídas de código como parte do desenvolvimento é uma exceção, mas o uso interno no contexto das atividades de negócio de uma empresa também é proibido. Isso torna injusta a comparação com outros modelos de pesos abertos.
Teste de modelo de programação: foi pedido ao modelo de programação que escrevesse um middleware ASGI específico em Python, mas nenhum modelo conseguiu fazer isso corretamente.
Diferença de filosofia entre LLMs: existe uma diferença de filosofia entre LLMs no estilo Llama e LLMs no estilo OpenAI/GPT. O GPT evoluiu com foco em código, enquanto os modelos Llama/Mistral primeiro lançaram modelos gerais de linguagem e depois ofereceram CodeLlama/Codestral com treinamento adicional em código.
Integração com VSCode: há curiosidade sobre existir uma forma de usar no VSCode, como o Copilot, com "shadow code" aparecendo. A qualidade dessas ferramentas depende da capacidade de projetar prompts adequados no lado do cliente.
Limitações de uso: os modelos da Mistral e seus derivados só podem ser usados para testes, pesquisa, fins pessoais ou avaliação, e não podem ser usados em atividades comerciais.
Problema de utilidade prática: há quem ache que, se não puder ser usado em casos práticos de autocompletar código, então não faz sentido. O GH Copilot já seria o melhor modelo.
Link do Huggingface: link da página no Huggingface
Democratização do código: menciona-se o problema que surgiu ao democratizar a arte e há preocupação com o aumento de bibliotecas não confiáveis geradas por IA.
Requisitos de RAM: há uma pergunta sobre os requisitos de RAM para usar localmente o modelo de 44GB disponível para download no Huggingface. Também há dúvida se os requisitos de RAM para GPU e para a RAM "unificada" do Apple Silicon são os mesmos.
Extensão para VSCode: há curiosidade sobre existir uma extensão do VSCode que permita usar vários modelos como plugins. Configurar isso toda vez é trabalhoso.