- O maior modelo de linguagem aberto, com 180 bilhões de parâmetros
- Entre os modelos abertos, está em 1º lugar no leaderboard. Supera o Llama 2 70B e o GPT-3.5, e compete com o PaLM-2
- Treinado com 3,5T tokens usando o conjunto de dados RefinedWeb da TII (majoritariamente em inglês)
- É 2,5 vezes maior que o Llama 2 e foi treinado com mais de 4 vezes o poder computacional (usando 4096 GPUs no Amazon SageMaker)
- O Falcon 180B pode ser usado comercialmente, mas apenas sob condições muito restritivas, excluindo "uso hospedado". É essencial verificar a licença
- Requisitos de hardware
- Fine-tuning completo: memória 5120GB, 8x 8x A100 80GB
- LoRA com ZeRO-3: 1280GB, 2x 8x A100 80GB
- QLoRA: 160GB, 2x A100 80GB
- Inferência BF16/FP16: 640GB, 8x A100 80GB
- Inferência GPTQ/int4: 320GB, 8x A100 40GB
1 comentários
O tamanho é gigantesco. As exigências de hardware também...