- A Apple revelou novos modelos de IA visão-linguagem (AFM, Apple Foundation Models) e o framework Foundation Models (API) para desenvolvedores, melhorando significativamente o desempenho e a eficiência tanto dos modelos on-device quanto dos modelos em nuvem
- O modelo AFM on-device é composto por um transformador de 3B parâmetros e um transformador visual de 300 milhões de parâmetros, com suporte a entrada de texto e imagem, além de recursos multilíngues e de visão; o modelo de servidor usa uma arquitetura MoE personalizada
- Oferece recursos avançados e acessibilidade para desenvolvedores, como compactação de modelos (quantização e LoRA), suporte a 15 idiomas, compreensão de imagens e uso de ferramentas
- O modelo on-device mostrou vantagem em inglês de fora dos EUA e em compreensão de imagens em relação a modelos concorrentes, mas o modelo de servidor ainda fica atrás de modelos mais recentes, como o GPT-4o
- Estão chamando atenção a mudança na estratégia de IA da Apple e sua influência dentro do ecossistema iOS, incluindo a recente polêmica com um artigo da Apple e o atraso no upgrade de IA da Siri
Grande atualização dos Apple Foundation Models (AFM)
- A Apple atualizou tanto seus modelos de IA on-device (embarcados em dispositivos móveis) quanto os hospedados em servidor (AFM), com grandes melhorias em velocidade, eficiência e desempenho
- Também passou a oferecer o novo API para desenvolvedores (Foundation Models framework), permitindo chamadas de IA on-device em dispositivos com Apple Intelligence ativado
Arquitetura e recursos principais
- Entrada/saída: texto, imagem (até 65.000 tokens de entrada), com saída em texto
- Arquitetura:
- AFM-on-Device: transformador de 3 bilhões de parâmetros, transformador visual de 300 milhões de parâmetros
- AFM-Server: transformador Mixture-of-Experts (MoE) personalizado (número de parâmetros não divulgado), transformador visual de 1 bilhão de parâmetros
- Desempenho: ponto forte em inglês de fora dos EUA e em compreensão de imagens
- Disponibilidade: o AFM-on-Device pode ser usado via Foundation Models framework. O AFM-Server não está disponível para uso público
- Suporte a 15 idiomas e uso de ferramentas
- Informações não divulgadas: número de parâmetros do modelo de servidor, limite de tokens, detalhes do dataset de treinamento etc. não foram divulgados
Diferenciais técnicos e otimização
- Quantização (Quantization):
- No modelo on-device, a maior parte dos pesos foi comprimida para 2 bits, e a camada de embedding para 4 bits (com uso de treinamento ciente de quantização)
- No modelo de servidor, foi aplicado ASTC (compressão usada em gráficos), com compressão média de 3,56 bits (embedding em 4 bits)
- Adaptadores LoRA compensam a perda de desempenho causada pela compressão e permitem adaptação a tarefas específicas, como resumo, correção e perguntas e respostas
- A arquitetura MoE personalizada reduz ao mínimo o overhead de comunicação entre hardwares, aumentando a eficiência
Avaliação de desempenho
- Modelo on-device: superou modelos concorrentes como o Qwen2.5-VL-3B em inglês de fora dos EUA e em compreensão de imagens
- Modelo de servidor: em alguns casos ficou ligeiramente à frente do Qwen3-23B, mas ainda não alcança modelos mais recentes, como o GPT-4o
Polêmicas recentes e mudança na estratégia de IA
- A Apple gerou polêmica recentemente com um artigo que testou os limites de raciocínio de cinco modelos de IA de ponta, e logo depois surgiram artigos de contestação
- O upgrade de IA da Siri foi adiado por tempo indeterminado, e também foi aberta uma ação coletiva alegando falta de recursos de IA no novo iPhone
- Enquanto o lado Google/Android avança rapidamente na corrida da IA, a Apple está mudando sua estratégia com iniciativas como os Foundation Models
Perspectivas e impacto
- Há grande chance de o iOS exercer enorme influência sobre o ecossistema de desenvolvedores de apps ao oferecer um modelo embarcado por padrão
- Com as limitações de memória e o problema de tamanho dos modelos, a tendência é que desenvolvedores passem a usar em massa os modelos fornecidos pela Apple, em vez de empacotar seus próprios modelos de IA nos apps
- Observa-se com atenção se a estratégia da Apple de se tornar uma plataforma de IA vai impulsionar a inovação em apps e a expansão do uso de IA on-device
Ainda não há comentários.