Ollama 0.4, com suporte ao Llama 3.2 Vision

xguru · 2024-11-08T10:17:01+09:00

O Llama 3.2 Vision é um modelo gerativo de inferência de imagens nos tamanhos 11B/90B Otimizado para reconhecimento visual, inferência sobre imagens, geração de legendas e respostas a perguntas gerais sobre imagens É possível executar com ollama run llama3.2-vision:90b e depois adicionar uma imagem ao prompt para fazer perguntas Exemplos de uso: reconhecimento de escrita à mão, OCR, interpretação de gráficos/tabelas, Q/A sobre imagens

(ollama.com)

8 pontos por xguru 2024-11-08 | Ainda não há comentários. | Compartilhar no WhatsApp

O Llama 3.2 Vision é um modelo gerativo de inferência de imagens nos tamanhos 11B/90B
- Otimizado para reconhecimento visual, inferência sobre imagens, geração de legendas e respostas a perguntas gerais sobre imagens
É possível executar com ollama run llama3.2-vision:90b e depois adicionar uma imagem ao prompt para fazer perguntas
Exemplos de uso: reconhecimento de escrita à mão, OCR, interpretação de gráficos/tabelas, Q/A sobre imagens

Ollama 0.4, com suporte ao Llama 3.2 Vision

Leituras relacionadas

Ainda não há comentários.