6 pontos por GN⁺ 2024-09-29 | 1 comentários | Compartilhar no WhatsApp
  • A AMD revelou seu primeiro pequeno modelo de linguagem, o AMD-135M
  • Este modelo foi treinado com 670 bilhões de tokens usando o acelerador AMD Instinct™ MI250
  • Ele é dividido em dois modelos: AMD-Llama-135M e AMD-Llama-135M-code
    • O modelo AMD-Llama-135M foi treinado por 6 dias com 670 bilhões de tokens usando dados gerais
    • O modelo AMD-Llama-135M-code foi ajustado finamente por mais 4 dias com 20 bilhões adicionais de tokens de dados de código
    • O código de treinamento, o conjunto de dados e os pesos deste modelo são oferecidos como open source
  • Otimização do desempenho de inferência com Speculative Decoding
    • Modelos grandes de linguagem normalmente fazem inferência usando uma abordagem autorregressiva
    • A principal limitação dessa abordagem é que ela só consegue gerar um único token a cada forward pass
    • A introdução do speculative decoding resolve esse problema
    • Um pequeno modelo de rascunho é usado para gerar um conjunto de tokens candidatos, que depois é validado por um modelo-alvo maior
    • Essa abordagem permite gerar vários tokens em cada forward pass, reduzindo significativamente o consumo de acesso à memória e melhorando bastante a velocidade
  • Aceleração do desempenho de inferência
    • O AMD-Llama-135M-code foi usado como modelo de rascunho para o CodeLlama-7b para testar o desempenho de inferência
    • Foi feita uma comparação entre o uso e o não uso de speculative decoding no acelerador MI250 e no processador Ryzen™ AI (com NPU)
    • Em configurações específicas, foi confirmado ganho de velocidade com o uso de speculative decoding
  • Próximos passos
    • A AMD fornece uma implementação de referência open source para promover a inovação dentro da comunidade de IA
    • Mais detalhes sobre o AMD-135M estão disponíveis no blog técnico
    • É possível acessar o código no repositório da AMD no GitHub
    • Os arquivos do modelo podem ser baixados no Hugging Face Model Card
    • É possível solicitar acesso às placas aceleradoras Instinct no AMD Developer Cloud

Resumo do GN⁺

  • O primeiro pequeno modelo de linguagem da AMD, o AMD-135M, representa um avanço importante para a comunidade de IA
  • O speculative decoding melhora significativamente o desempenho de inferência
  • A implementação de referência open source ajuda desenvolvedores a reproduzir o modelo e treinar outros SLMs e LLMs
  • O objetivo é promover a inovação na área de IA e buscar um desenvolvimento tecnológico mais inclusivo e ético

1 comentários

 
comsect62 2024-09-30

Para evoluir até uma inteligência artificial de uso geral, é preciso haver um gatilho para um salto dimensional, e esse gatilho é justamente a educação.