Introdução aos novos modelos fundacionais on-device e baseados em servidor da Apple

(machinelearning.apple.com)

4 pontos por GN⁺ 2024-06-11 | 1 comentários | Compartilhar no WhatsApp

Na WWDC 2024, a Apple anunciou o Apple Intelligence, um sistema de inteligência pessoal profundamente integrado ao iOS 18, iPadOS 18 e macOS Sequoia
O Apple Intelligence é composto por vários modelos generativos especializados nas tarefas cotidianas do usuário e capazes de se adaptar imediatamente à atividade atual
Os modelos fundacionais integrados foram ajustados para experiências do usuário como escrever/melhorar documentos, resumir/priorizar notificações, gerar imagens divertidas para conversas e simplificar interações entre apps
Dois modelos — um modelo de linguagem on-device com cerca de 3 bilhões de parâmetros e um modelo de linguagem maior, baseado em servidor, fornecido por meio do Private Cloud Compute — foram criados/aplicados para realizar tarefas especializadas com eficiência, precisão e responsabilidade
Eles fazem parte de uma família mais ampla de modelos generativos criados pela Apple, que inclui um modelo de codificação para incorporar inteligência ao Xcode e modelos de difusão para ajudar na expressão visual no app Messages

Foco no desenvolvimento responsável de IA

O Apple Intelligence foi projetado de acordo com valores fundamentais em todas as etapas e construído com base em inovações revolucionárias de privacidade
A Apple estabeleceu princípios de IA responsável para orientar a forma como desenvolve ferramentas de IA e os modelos que as sustentam:
1. Capacitar os usuários com ferramentas inteligentes
2. Representar os usuários
3. Projetar com cuidado
4. Proteger a privacidade
Esses princípios estão refletidos em toda a arquitetura que torna o Apple Intelligence possível

Pré-treinamento

Os modelos fundacionais foram treinados com o framework AXLearn da Apple, que a empresa publicou como open source em 2023
Construído sobre JAX e XLA, ele permite treinamento eficiente e escalável em diferentes hardwares e plataformas de nuvem
Foi usada uma combinação de técnicas de paralelização capaz de escalar o treinamento em várias dimensões, como dados, modelo e comprimento de sequência
Os modelos foram treinados com dados licenciados e dados públicos. Publicadores da web podem optar por excluir o uso de seu conteúdo web no treinamento do Apple Intelligence por meio de controles de uso de dados
Dados pessoais ou interações de usuários nunca são usados. Foram aplicados filtros de remoção de PII, filtragem de conteúdo de baixa qualidade e classificadores baseados em modelos para identificar documentos de alta qualidade

Pós-treinamento

Ao confirmar que a qualidade dos dados é essencial para o sucesso do modelo, a Apple adotou uma estratégia híbrida de dados
A empresa desenvolveu um algoritmo de fine-tuning por rejection sampling com comitê de professores e um algoritmo de RLHF usando mirror descent policy optimization e estimador de vantagem leave-one-out
Com esses dois algoritmos, a qualidade do seguimento de instruções pelos modelos melhorou significativamente

Otimização

Além de desenvolver modelos generativos de alto desempenho, a Apple aplicou várias técnicas inovadoras para otimizar velocidade e eficiência tanto on-device quanto na nuvem privada
Tanto o modelo on-device quanto o modelo de servidor usam grouped-query attention
Para reduzir requisitos de memória e custo de inferência, foi usada uma tabela de embeddings de vocabulário compartilhada entre entrada e saída
O modelo on-device usa vocabulário de 49K, enquanto o modelo de servidor usa vocabulário de 100K, incluindo idiomas adicionais e tokens técnicos
Para inferência on-device, foi usada paletização de baixa precisão em bits — para obter a mesma precisão do modelo não comprimido, a Apple desenvolveu um novo framework de adaptadores LoRA que integra uma estratégia mista de configuração de 2 bits e 4 bits (em média, 3,5 bits por peso)
A ferramenta Talaria foi usada para orientar melhor a seleção da taxa de bits para cada tarefa
Também foram aproveitadas quantização de ativações e embeddings, além do desenvolvimento de um método eficiente de atualização de cache KV
Com esse conjunto de otimizações, foi alcançada no iPhone 15 Pro uma latência time-to-first-token de cerca de 0,6 ms por token do prompt e velocidade de geração de 30 tokens por segundo

Adaptação de modelo

Os modelos fundacionais são ajustados para as atividades diárias do usuário e podem se especializar dinamicamente de acordo com a tarefa em execução
Para ajustar modelos para tarefas específicas, são usados adaptadores, pequenos módulos de rede neural que podem ser conectados a várias camadas do modelo pré-treinado
Apenas as camadas de adaptador são ajustadas, de modo que os parâmetros originais do modelo base pré-treinado não sejam alterados e o conhecimento geral seja preservado, enquanto as camadas adaptadoras são personalizadas para dar suporte à tarefa específica

Desempenho e avaliação

O foco está em fornecer modelos generativos que permitam aos usuários se comunicar, trabalhar, se expressar e realizar tarefas em todo o ecossistema de produtos da Apple
No benchmarking dos modelos, a Apple se concentrou em avaliações humanas, que mostraram maior correlação com a experiência do usuário
Foram realizadas avaliações de desempenho tanto para os adaptadores específicos de cada recurso quanto para os modelos fundacionais

Exemplo de avaliação de adaptadores de resumo:

Como os requisitos de produto para resumos de e-mails e notificações diferem de maneiras sutis, porém importantes, adaptadores LoRA foram ajustados sobre o modelo paletizado para atender a essas exigências específicas
Os dados de treinamento foram baseados em resumos sintéticos gerados por um modelo de servidor maior, filtrados com uma estratégia de rejection sampling que manteve apenas resumos de alta qualidade
A avaliação de resumos por produto usou um conjunto de 750 respostas cuidadosamente amostradas por caso de uso
O conjunto de dados de avaliação destaca entradas diversas que os recursos do produto provavelmente enfrentarão em produção e inclui uma mistura estratificada de documentos únicos e empilhados, com diferentes tipos e comprimentos de conteúdo
É importante avaliar o desempenho em conjuntos de dados que representem casos de uso reais como funcionalidade de produto
Foi constatado que o modelo com adaptadores gera resumos melhores do que modelos comparáveis

Pontuação de satisfação humana no benchmark do recurso de sumarização

Segundo a tabela de dados, o modelo on-device+adaptador da Apple apresentou taxa mais alta de satisfação positiva e taxa mais baixa de satisfação negativa em resumos de e-mails e notificações do que o modelo Phi-3-mini. O modelo com adaptadores gera resumos melhores
Os modelos on-device e de servidor da Apple avaliaram funcionalidades gerais usando um conjunto abrangente de avaliações composto por prompts reais de vários níveis de dificuldade. Comparados com modelos open source e comerciais de tamanho semelhante:
- O modelo on-device (~3 bilhões de parâmetros) apresentou desempenho superior a modelos maiores como Phi-3-mini, Mistral-7B e Gemma-7B
- O modelo de servidor é comparável a DBRX-Instruct, Mixtral-8x22B e GPT-3.5-Turbo, ao mesmo tempo em que é muito eficiente
Foram usados vários conjuntos de prompts adversariais para testar o desempenho dos modelos em conteúdo nocivo, temas sensíveis e factualidade. Tanto o modelo on-device quanto o de servidor mostraram robustez diante de prompts adversariais e alcançaram taxas de violação menores que as de modelos open source e comerciais
Em comparação da capacidade de seguir instruções com modelos de tamanho semelhante usando o benchmark IFEval, os modelos on-device e de servidor da Apple demonstraram seguir instruções detalhadas melhor do que modelos open source e comerciais da mesma categoria
A capacidade de escrita dos modelos também foi avaliada em benchmarks internos de resumo e escrita compostos por diversas instruções de redação

Benchmarks de escrita

Segundo a tabela de dados, nos testes de resumo e escrita, os modelos on-device e de servidor da Apple mostraram bom desempenho, comparável ao dos modelos avaliados como referência

Conclusão

Os modelos fundacionais e adaptadores da Apple apresentados na WWDC24 formam a base do Apple Intelligence, um novo sistema de inteligência pessoal profundamente integrado ao iPhone, iPad e Mac, oferecendo capacidades poderosas em linguagem, imagem, ação e contexto pessoal
Eles foram criados com o objetivo de ajudar os usuários a realizar atividades do dia a dia em todo o ecossistema de produtos da Apple, desenvolvidos com responsabilidade em todas as etapas e guiados pelos valores centrais da empresa
Em breve, a Apple compartilhará informações sobre sua família mais ampla de modelos generativos, incluindo modelos de linguagem, difusão e codificação

1 comentários

GN⁺ 2024-06-11

Comentários do Hacker News

Uso de adapters: o modelo é ajustado para tarefas específicas usando adapters, pequenos módulos de rede neural que podem ser conectados a várias camadas de um modelo pré-treinado. Isso permite que desenvolvedores de apps usem modelos otimizados para cada hardware.
Expectativa: ainda não houve anúncio de suporte a treinamento por terceiros, mas há expectativa de que isso esteja nos planos. A dificuldade de ML local + privado é evitar que cada app precise de pesos grandes.
Oportunidade para a Apple: a Apple tem a chance de fornecer modelos otimizados para cada chip e adapters que exijam apenas alguns MB de pesos para novos casos de uso. Isso é semelhante ao app thinning dos modelos.
Experiência do desenvolvedor: mesmo que o modelo base não esteja totalmente atualizado, a experiência para desenvolvedores é excelente e reproduzível. O lado servidor é muito mais simples, e espera-se que local + privado cubra muitos casos de uso.
Papel dos adapters: adapters são usados para ajustar o modelo a tarefas específicas, gerenciar memória com eficiência e garantir a responsividade do sistema operacional. Os parâmetros do adapter são representados em 16 bits e, para um modelo com cerca de 300 milhões de parâmetros, são necessários aproximadamente 10 MB de memória.
Semelhante a LoRAs: essa abordagem parece semelhante a LoRAs.
Gráfico comparativo: no meio do artigo há um gráfico comparando com outros modelos relacionados. O modelo do lado servidor é melhor que o GPT-3.5 e pior que o GPT-4. No entanto, o gráfico de "avaliação humana da nocividade da saída" é especialmente interessante.
Cautela do modelo: o modelo é tornado mais cauteloso ao transformar o GPT em "nível 3" e deixar claro, usando o modelo da OpenAI, que "isso foi dito pelo ChatGPT".
Expectativa de uso do modelo de servidor: o conteúdo dessas duas páginas é muito bom, e há vontade de testar o modelo de servidor para construir uma nuvem otimizada para a stack da Apple.
Expectativa de aumento de memória: espera-se que a Apple eleve a memória base de todos os Macs para mais de 8 GB. Seria desejável que 16 GB no M4 fosse o padrão, mas a Apple pode oferecer 12 GB e cobrar a mais pela opção de 16 GB.
Privacidade de dados: a Apple deve deixar claro o que envia para serviços de terceiros e oferecer uma opção de opt-out para quem quiser. Executar inferência no dispositivo é diferente de enviar dados pela API da OpenAI.
Preferência pelo nome de domínio: gosto de ver machinelearning.apple.com sendo usado.
Resultado da otimização: usar 3.5B de pesos sem perda de qualidade é um resultado de otimização de ponta.
Avaliação de nocividade da saída: confirma-se que o Mistral-7B é o melhor entre os modelos pequenos em minimizar falsas recusas positivas.
Impacto na bateria: há curiosidade sobre como esses modelos afetam a duração da bateria. Ao testar o app PrivateLLM no iPhone 15 Pro, a carga da bateria caiu rapidamente após alguns minutos de uso.

Introdução aos novos modelos fundacionais on-device e baseados em servidor da Apple

Foco no desenvolvimento responsável de IA

Pré-treinamento

Pós-treinamento

Otimização

Adaptação de modelo

Desempenho e avaliação

Pontuação de satisfação humana no benchmark do recurso de sumarização

Benchmarks de escrita

Conclusão

Leituras relacionadas

1 comentários

Comentários do Hacker News