Lançamento do PaliGemma 2
(developers.googleblog.com)O Google anunciou o PaliGemma 2, o mais recente modelo de visão-linguagem da família Gemma. O PaliGemma 2 é baseado no modelo Gemma 2 existente e amplia as possibilidades de diversas aplicações de IA ao adicionar a capacidade de compreender e interagir com imagens.
- Desempenho escalável: oferece diferentes tamanhos de modelo (3B, 10B e 28B parâmetros) e resoluções (224px, 448px, 896px), fornecendo desempenho otimizado para várias tarefas.
- Geração de legendas longas: cria legendas detalhadas e contextualmente adequadas para imagens, indo além da simples identificação de objetos para descrever ações, emoções e a história geral da cena.
- Expansão para novas áreas: demonstra excelente desempenho em diversos campos, como reconhecimento de fórmulas químicas, reconhecimento de partituras, raciocínio espacial e geração de relatórios de radiografia de tórax.
- Upgrade e fine-tuning simplificados: usuários atuais do PaliGemma podem fazer upgrade com facilidade, e o modelo pode ser ajustado com facilidade para tarefas e conjuntos de dados específicos.
Expansão do ecossistema Gemmaverse:
Desde o lançamento do PaliGemma, a família Gemma cresceu rapidamente e se tornou o Gemmaverse, um ecossistema ativo com dezenas de milhares de modelos e aplicações. Vários casos inovadores, como os avanços da busca visual de documentos do ColPali, as técnicas de fine-tuning da RoboFlow e os avanços no rastreamento de objetos em tempo real, mostram o potencial do Gemmaverse.
Ainda não há comentários.