8 pontos por xguru 2024-04-30 | 1 comentários | Compartilhar no WhatsApp
  • Suporte a novos modelos
    • Llama 3: novo modelo da Meta e, até agora, o LLM aberto com melhor desempenho
    • Phi 3 Mini: novo modelo aberto e leve da Microsoft, com 3,8 bilhões de parâmetros
    • Moondream: pequeno modelo de visão-linguagem projetado para rodar com eficiência em dispositivos de borda
    • Dolphin Llama 3: modelo sem censura treinado por Eric Hartford com base no Llama 3. Inclui diversas capacidades de ensino, conversa e programação
    • Qwen 110B: modelo de porte 100B (Alibaba) que apresentou excelente desempenho em avaliações
  • Correções de bugs
    • Correção de um problema em que a API travava porque o modelo não era encerrado
    • Correção de erro de falta de memória em Macs com Apple Silicon
    • Correção de erro de falta de memória ao executar modelos com arquitetura Mixtral
  • Recurso experimental de concorrência
    • OLLAMA_NUM_PARALLEL: processa várias requisições ao mesmo tempo para um único modelo
    • OLLAMA_MAX_LOADED_MODELS: carrega vários modelos ao mesmo tempo
    • É necessário definir variáveis de ambiente
      • OLLAMA_NUM_PARALLEL=4 OLLAMA_MAX_LOADED_MODELS=4 ollama serve

1 comentários

 
siabard 2024-04-30

Eu precisava usar vários modelos, e agora isso ficou possível. ^^=b