13 pontos por GN⁺ 2024-05-30 | 1 comentários | Compartilhar no WhatsApp
  • Modelo de IA treinado em mais de 80 linguagens de programação
  • Suporta não apenas linguagens populares como Python, Java, C, C++, JavaScript e Bash, mas também linguagens mais específicas como Swift e Fortran, podendo ajudar desenvolvedores em diversos ambientes e projetos de programação

Estabelecendo um novo padrão de desempenho em geração de código

  • Alcança desempenho superior e menor latência em comparação com modelos anteriores
  • Python
    • Codestral 22B 32k : HumanEval 81.1%, MBPP 78.2%, CruxEval-O 51.3%, RepoBench 34.0%
    • CodeLlama 70B 4k : HumanEval 67.1%, MBPP 70.8%, CruxEval-O 47.3%, RepoBench 11.4%
  • SQL (Spider)
    • Codestral 63.5%, CodeLlama 37%
  • Média em várias linguagens
    • Média do HumanEval : Codestral 61.5%, CodeLlama 51.9%

Começando com o Codestral

  • O Codestral pode ser usado para fins de pesquisa e testes sob a Mistral AI Non-Production License, com download via HuggingFace
  • Pode ser usado por meio do novo endpoint codestral.mistral.ai. O acesso é gerenciado com uma chave de API pessoal e está disponível durante um período beta gratuito de 8 semanas
  • Também pode ser usado pelo endpoint api.mistral.ai, com cobrança por token.
  • É possível interagir naturalmente com o Codestral por meio do Le Chat.

Suporte ao uso do Codestral no ambiente de programação de sua preferência

  • Frameworks de aplicação: integrado ao LlamaIndex e ao LangChain.
  • Integração com VSCode/JetBrains: é possível usar o Codestral nos ambientes VSCode e JetBrains por meio do Continue.dev e do Tabnine.

Feedback da comunidade de desenvolvedores

  • Nate Sesti (CTO da Continue.dev): é o primeiro modelo aberto de autocompletar com velocidade e qualidade, e trará uma grande mudança para os desenvolvedores.
  • Vladislav Tankov (líder de IA da JetBrains): há grande expectativa em relação aos recursos da Mistral com forte foco em código e apoio ao desenvolvimento.
  • Mikhail Evtikhiev (pesquisador da JetBrains): mostrou desempenho superior ao GPT-4-Turbo e ao GPT-3.5-Turbo no benchmark Kotlin-HumanEval.
  • Meital Zilberstein (líder de P&D da Tabnine): apresenta excelente desempenho em geração de código, geração de testes e documentação, melhorando bastante a eficiência do produto.
  • Quinn Slack (CEO da Sourcegraph): entrega valor real aos desenvolvedores ao reduzir a latência no autocompletar de código e manter a qualidade.
  • Jerry Liu (CEO da LlamaIndex): gera código preciso e funcional mesmo em tarefas complexas.
  • Harrison Chase (CEO da LangChain): oferece rapidez, uma janela de contexto vantajosa e suporte ao uso de ferramentas.

Opinião do GN⁺

  • Avanço da geração de código por IA: o Codestral suporta várias linguagens e tem alto desempenho, podendo ser de grande ajuda para desenvolvedores.
  • Facilidade de uso: oferece várias opções de integração e um endpoint dedicado, tornando o uso conveniente.
  • Avaliação de desempenho: mostrou alto desempenho em vários benchmarks, o que o torna confiável.
  • Modelos concorrentes: apresenta desempenho superior mesmo em comparação com GPT-4-Turbo e GPT-3.5-Turbo.
  • Pontos a considerar na adoção: a decisão de adoção deve levar em conta o desempenho e a usabilidade do modelo.

1 comentários

 
GN⁺ 2024-05-30
Comentários no Hacker News

Resumo dos comentários do Hacker News

  • Restrição de licença: o modelo e seus outputs não podem ser usados em atividades comerciais nem em condições "live". O uso de saídas de código como parte do desenvolvimento é uma exceção, mas o uso interno no contexto das atividades de negócio de uma empresa também é proibido. Isso torna injusta a comparação com outros modelos de pesos abertos.

  • Teste de modelo de programação: foi pedido ao modelo de programação que escrevesse um middleware ASGI específico em Python, mas nenhum modelo conseguiu fazer isso corretamente.

  • Diferença de filosofia entre LLMs: existe uma diferença de filosofia entre LLMs no estilo Llama e LLMs no estilo OpenAI/GPT. O GPT evoluiu com foco em código, enquanto os modelos Llama/Mistral primeiro lançaram modelos gerais de linguagem e depois ofereceram CodeLlama/Codestral com treinamento adicional em código.

  • Integração com VSCode: há curiosidade sobre existir uma forma de usar no VSCode, como o Copilot, com "shadow code" aparecendo. A qualidade dessas ferramentas depende da capacidade de projetar prompts adequados no lado do cliente.

  • Limitações de uso: os modelos da Mistral e seus derivados só podem ser usados para testes, pesquisa, fins pessoais ou avaliação, e não podem ser usados em atividades comerciais.

  • Problema de utilidade prática: há quem ache que, se não puder ser usado em casos práticos de autocompletar código, então não faz sentido. O GH Copilot já seria o melhor modelo.

  • Link do Huggingface: link da página no Huggingface

  • Democratização do código: menciona-se o problema que surgiu ao democratizar a arte e há preocupação com o aumento de bibliotecas não confiáveis geradas por IA.

  • Requisitos de RAM: há uma pergunta sobre os requisitos de RAM para usar localmente o modelo de 44GB disponível para download no Huggingface. Também há dúvida se os requisitos de RAM para GPU e para a RAM "unificada" do Apple Silicon são os mesmos.

  • Extensão para VSCode: há curiosidade sobre existir uma extensão do VSCode que permita usar vários modelos como plugins. Configurar isso toda vez é trabalhoso.