- Suporte a novos modelos
- Llama 3: novo modelo da Meta e, até agora, o LLM aberto com melhor desempenho
- Phi 3 Mini: novo modelo aberto e leve da Microsoft, com 3,8 bilhões de parâmetros
- Moondream: pequeno modelo de visão-linguagem projetado para rodar com eficiência em dispositivos de borda
- Dolphin Llama 3: modelo sem censura treinado por Eric Hartford com base no Llama 3. Inclui diversas capacidades de ensino, conversa e programação
- Qwen 110B: modelo de porte 100B (Alibaba) que apresentou excelente desempenho em avaliações
- Correções de bugs
- Correção de um problema em que a API travava porque o modelo não era encerrado
- Correção de erro de falta de memória em Macs com Apple Silicon
- Correção de erro de falta de memória ao executar modelos com arquitetura Mixtral
- Recurso experimental de concorrência
OLLAMA_NUM_PARALLEL: processa várias requisições ao mesmo tempo para um único modelo
OLLAMA_MAX_LOADED_MODELS: carrega vários modelos ao mesmo tempo
- É necessário definir variáveis de ambiente
OLLAMA_NUM_PARALLEL=4 OLLAMA_MAX_LOADED_MODELS=4 ollama serve
1 comentários
Eu precisava usar vários modelos, e agora isso ficou possível. ^^=b