Lançamento do modelo Falcon 180B

xguru · 2023-09-07T10:31:01+09:00

O maior modelo de linguagem aberto, com 180 bilhões de parâmetros Entre os modelos abertos, está em 1º lugar no leaderboard. Supera o Llama 2 70B e o GPT-3.5, e compete com o PaLM-2 Treinado com 3,5T tokens usando o conjunto de dados RefinedWeb da TII (majoritariamente em inglês) É 2,5 vezes maior que o Llama 2 e foi treinado com mais de 4 vezes o poder computacional (usando 4096 GPUs no Amazon SageMaker) O Falcon 180B pode ser usado comercialmente, mas apenas sob condições muito restritivas, excluindo "uso hospedado". É essencial verificar a licença Requisitos de hardware Fine-tuning completo: memória 5120GB, 8x 8x A100 80GB LoRA com ZeRO-3: 1280GB, 2x 8x A100 80GB QLoRA: 160GB, 2x A100 80GB Inferência BF16/FP16: 640GB, 8x A100 80GB Inferência GPTQ/int4: 320GB, 8x A100 40GB

(huggingface.co)

7 pontos por xguru 2023-09-07 | 1 comentários | Compartilhar no WhatsApp

O maior modelo de linguagem aberto, com 180 bilhões de parâmetros
Entre os modelos abertos, está em 1º lugar no leaderboard. Supera o Llama 2 70B e o GPT-3.5, e compete com o PaLM-2
Treinado com 3,5T tokens usando o conjunto de dados RefinedWeb da TII (majoritariamente em inglês)
- É 2,5 vezes maior que o Llama 2 e foi treinado com mais de 4 vezes o poder computacional (usando 4096 GPUs no Amazon SageMaker)
O Falcon 180B pode ser usado comercialmente, mas apenas sob condições muito restritivas, excluindo "uso hospedado". É essencial verificar a licença
Requisitos de hardware
- Fine-tuning completo: memória 5120GB, 8x 8x A100 80GB
- LoRA com ZeRO-3: 1280GB, 2x 8x A100 80GB
- QLoRA: 160GB, 2x A100 80GB
- Inferência BF16/FP16: 640GB, 8x A100 80GB
- Inferência GPTQ/int4: 320GB, 8x A100 40GB

1 comentários

kuroneko 2023-09-07

O tamanho é gigantesco. As exigências de hardware também...

Lançamento do modelo Falcon 180B

Leituras relacionadas

1 comentários