Unsloth: Fine-tune o Llama 3 com 2x mais velocidade, contexto 6x maior e 68% menos VRAM

(unsloth.ai)

12 pontos por brainer 2024-04-25 | Ainda não há comentários. | Compartilhar no WhatsApp

• O Unsloth, uma ferramenta para ajuste fino de grandes modelos de linguagem, agora oferece suporte ao mais recente modelo Llama 3 da Meta, possibilitando ajuste fino 2x mais rápido e redução de 63% no uso de VRAM em comparação com Flash Attention 2 (FA2) e Hugging Face (HF).

• Com o Unsloth, a versão 70B do Llama 3 realiza ajuste fino 1,8x mais rápido e usa 68% menos VRAM, permitindo comprimentos de contexto muito maiores durante o ajuste fino. Isso é especialmente útil para tarefas que exigem contexto amplo, como perguntas e respostas ou geração de texto.

• O Unsloth também oferece suporte à quantização em 4 bits dos modelos Llama 3, proporcionando downloads 4x mais rápidos e reduzindo os requisitos de memória. Modelos pré-quantizados em 4 bits para as versões 70B Instruct e Base do Llama 3 estão disponíveis na página do Hugging Face.

• Além disso, o Unsloth lida com certas peculiaridades e "bugs" específicos do Llama 3, como a ausência do token BOS no tokenizer e a presença de tokens não treinados no modelo base. O Unsloth resolve automaticamente esses problemas durante o ajuste fino, garantindo um treinamento preciso e eficiente.

Unsloth: Fine-tune o Llama 3 com 2x mais velocidade, contexto 6x maior e 68% menos VRAM

Leituras relacionadas

Ainda não há comentários.