Ollama 0.4, com suporte ao Llama 3.2 Vision
(ollama.com)- O Llama 3.2 Vision é um modelo gerativo de inferência de imagens nos tamanhos 11B/90B
- Otimizado para reconhecimento visual, inferência sobre imagens, geração de legendas e respostas a perguntas gerais sobre imagens
- É possível executar com
ollama run llama3.2-vision:90be depois adicionar uma imagem ao prompt para fazer perguntas - Exemplos de uso: reconhecimento de escrita à mão, OCR, interpretação de gráficos/tabelas, Q/A sobre imagens
Ainda não há comentários.