AMD revela seu primeiro pequeno modelo de linguagem, o AMD-135M

(community.amd.com)

6 pontos por GN⁺ 2024-09-29 | 1 comentários | Compartilhar no WhatsApp

A AMD revelou seu primeiro pequeno modelo de linguagem, o AMD-135M
Este modelo foi treinado com 670 bilhões de tokens usando o acelerador AMD Instinct™ MI250
Ele é dividido em dois modelos: AMD-Llama-135M e AMD-Llama-135M-code
- O modelo AMD-Llama-135M foi treinado por 6 dias com 670 bilhões de tokens usando dados gerais
- O modelo AMD-Llama-135M-code foi ajustado finamente por mais 4 dias com 20 bilhões adicionais de tokens de dados de código
- O código de treinamento, o conjunto de dados e os pesos deste modelo são oferecidos como open source
Otimização do desempenho de inferência com Speculative Decoding
- Modelos grandes de linguagem normalmente fazem inferência usando uma abordagem autorregressiva
- A principal limitação dessa abordagem é que ela só consegue gerar um único token a cada forward pass
- A introdução do speculative decoding resolve esse problema
- Um pequeno modelo de rascunho é usado para gerar um conjunto de tokens candidatos, que depois é validado por um modelo-alvo maior
- Essa abordagem permite gerar vários tokens em cada forward pass, reduzindo significativamente o consumo de acesso à memória e melhorando bastante a velocidade
Aceleração do desempenho de inferência
- O AMD-Llama-135M-code foi usado como modelo de rascunho para o CodeLlama-7b para testar o desempenho de inferência
- Foi feita uma comparação entre o uso e o não uso de speculative decoding no acelerador MI250 e no processador Ryzen™ AI (com NPU)
- Em configurações específicas, foi confirmado ganho de velocidade com o uso de speculative decoding
Próximos passos
- A AMD fornece uma implementação de referência open source para promover a inovação dentro da comunidade de IA
- Mais detalhes sobre o AMD-135M estão disponíveis no blog técnico
- É possível acessar o código no repositório da AMD no GitHub
- Os arquivos do modelo podem ser baixados no Hugging Face Model Card
- É possível solicitar acesso às placas aceleradoras Instinct no AMD Developer Cloud

Resumo do GN⁺

O primeiro pequeno modelo de linguagem da AMD, o AMD-135M, representa um avanço importante para a comunidade de IA
O speculative decoding melhora significativamente o desempenho de inferência
A implementação de referência open source ajuda desenvolvedores a reproduzir o modelo e treinar outros SLMs e LLMs
O objetivo é promover a inovação na área de IA e buscar um desenvolvimento tecnológico mais inclusivo e ético

1 comentários

comsect62 2024-09-30

Para evoluir até uma inteligência artificial de uso geral, é preciso haver um gatilho para um salto dimensional, e esse gatilho é justamente a educação.

AMD revela seu primeiro pequeno modelo de linguagem, o AMD-135M

Resumo do GN⁺

Leituras relacionadas

1 comentários