Ollama v0.1.33 - suporte a Llama 3 + Phi 3 + Qwen 110B

xguru · 2024-04-30T09:22:01+09:00

Suporte a novos modelos Llama 3: novo modelo da Meta e, até agora, o LLM aberto com melhor desempenho Phi 3 Mini: novo modelo aberto e leve da Microsoft, com 3,8 bilhões de parâmetros Moondream: pequeno modelo de visão-linguagem projetado para rodar com eficiência em dispositivos de borda Dolphin Llama 3: modelo sem censura treinado por Eric Hartford com base no Llama 3. Inclui diversas capacidades de ensino, conversa e programação Qwen 110B: modelo de porte 100B (Alibaba) que apresentou excelente desempenho em avaliações Correções de bugs Correção de um problema em que a API travava porque o modelo não era encerrado Correção de erro de falta de memória em Macs com Apple Silicon Correção de erro de falta de memória ao executar modelos com arquitetura Mixtral Recurso experimental de concorrência OLLAMA_NUM_PARALLEL: processa várias requisições ao mesmo tempo para um único modelo OLLAMA_MAX_LOADED_MODELS: carrega vários modelos ao mesmo tempo É necessário definir variáveis de ambiente OLLAMA_NUM_PARALLEL=4 OLLAMA_MAX_LOADED_MODELS=4 ollama serve

(github.com/ollama)

8 pontos por xguru 2024-04-30 | 1 comentários | Compartilhar no WhatsApp

Suporte a novos modelos
- Llama 3: novo modelo da Meta e, até agora, o LLM aberto com melhor desempenho
- Phi 3 Mini: novo modelo aberto e leve da Microsoft, com 3,8 bilhões de parâmetros
- Moondream: pequeno modelo de visão-linguagem projetado para rodar com eficiência em dispositivos de borda
- Dolphin Llama 3: modelo sem censura treinado por Eric Hartford com base no Llama 3. Inclui diversas capacidades de ensino, conversa e programação
- Qwen 110B: modelo de porte 100B (Alibaba) que apresentou excelente desempenho em avaliações
Correções de bugs
- Correção de um problema em que a API travava porque o modelo não era encerrado
- Correção de erro de falta de memória em Macs com Apple Silicon
- Correção de erro de falta de memória ao executar modelos com arquitetura Mixtral
Recurso experimental de concorrência
- OLLAMA_NUM_PARALLEL: processa várias requisições ao mesmo tempo para um único modelo
- OLLAMA_MAX_LOADED_MODELS: carrega vários modelos ao mesmo tempo
- É necessário definir variáveis de ambiente
  - OLLAMA_NUM_PARALLEL=4 OLLAMA_MAX_LOADED_MODELS=4 ollama serve

1 comentários

siabard 2024-04-30

Eu precisava usar vários modelos, e agora isso ficou possível. ^^=b

Ollama v0.1.33 - suporte a Llama 3 + Phi 3 + Qwen 110B

Leituras relacionadas

1 comentários