- A AMD revelou seu primeiro pequeno modelo de linguagem, o AMD-135M
- Este modelo foi treinado com 670 bilhões de tokens usando o acelerador AMD Instinct™ MI250
- Ele é dividido em dois modelos: AMD-Llama-135M e AMD-Llama-135M-code
- O modelo AMD-Llama-135M foi treinado por 6 dias com 670 bilhões de tokens usando dados gerais
- O modelo AMD-Llama-135M-code foi ajustado finamente por mais 4 dias com 20 bilhões adicionais de tokens de dados de código
- O código de treinamento, o conjunto de dados e os pesos deste modelo são oferecidos como open source
- Otimização do desempenho de inferência com Speculative Decoding
- Modelos grandes de linguagem normalmente fazem inferência usando uma abordagem autorregressiva
- A principal limitação dessa abordagem é que ela só consegue gerar um único token a cada forward pass
- A introdução do speculative decoding resolve esse problema
- Um pequeno modelo de rascunho é usado para gerar um conjunto de tokens candidatos, que depois é validado por um modelo-alvo maior
- Essa abordagem permite gerar vários tokens em cada forward pass, reduzindo significativamente o consumo de acesso à memória e melhorando bastante a velocidade
- Aceleração do desempenho de inferência
- O AMD-Llama-135M-code foi usado como modelo de rascunho para o CodeLlama-7b para testar o desempenho de inferência
- Foi feita uma comparação entre o uso e o não uso de speculative decoding no acelerador MI250 e no processador Ryzen™ AI (com NPU)
- Em configurações específicas, foi confirmado ganho de velocidade com o uso de speculative decoding
- Próximos passos
- A AMD fornece uma implementação de referência open source para promover a inovação dentro da comunidade de IA
- Mais detalhes sobre o AMD-135M estão disponíveis no blog técnico
- É possível acessar o código no repositório da AMD no GitHub
- Os arquivos do modelo podem ser baixados no Hugging Face Model Card
- É possível solicitar acesso às placas aceleradoras Instinct no AMD Developer Cloud
Resumo do GN⁺
- O primeiro pequeno modelo de linguagem da AMD, o AMD-135M, representa um avanço importante para a comunidade de IA
- O speculative decoding melhora significativamente o desempenho de inferência
- A implementação de referência open source ajuda desenvolvedores a reproduzir o modelo e treinar outros SLMs e LLMs
- O objetivo é promover a inovação na área de IA e buscar um desenvolvimento tecnológico mais inclusivo e ético
1 comentários
Para evoluir até uma inteligência artificial de uso geral, é preciso haver um gatilho para um salto dimensional, e esse gatilho é justamente a educação.