O GPT-3 não está mais sozinho no mercado
(lastweekin.ai)-
É verdade que o GPT-3 causou um grande impacto no mercado de IA: um modelo de IA gigantesco muito forte em "text-in text-out"
-
Como era pago, muitas organizações começaram a criar seus próprios modelos parecidos com o GPT-3
→ Não é algo fácil por causa do poder computacional necessário. A OpenAI, com seu modelo de 175B parâmetros, colaborou com a Microsoft e usou 10 mil GPUs e 45 TB de dados de texto
→ Fazendo as contas, treinar o GPT-3 custou algo em torno de 10 a 20 bilhões de won
- Surgiram várias tentativas
→ EleutherAI, CPM, PanGu-α, HyperCLOVA, Jurassic-1, Megatron-Turing NLG
- Surpreendentemente, o primeiro esforço para criar algo parecido com o GPT-3 foi o "EleutherAI", feito por participantes do open source
→ Divulgou o "The Pile", um dataset semelhante ao do GPT-3
→ Depois disso, lançou desde versões menores como GPT-Neo 1.3B e 2.7B até, mais recentemente, o GPT-J-6B com 6B parâmetros
- Seis meses após o anúncio do GPT-3, pesquisadores da Universidade Tsinghua, na China, e a BAAI (Academia de IA de Pequim) divulgaram juntos o CPM (Chinese Pre-trained Language Model)
→ Criaram um modelo de 2.6B parâmetros a partir de 100 GB de texto em chinês. Ainda não chega ao GPT-3, mas chama atenção por ter sido feito com texto em chinês
-
Pouco depois, a Huawei divulgou o PanGu-α com 200B parâmetros (usando 1.1 TB de texto em chinês)
-
A Naver anunciou o HyperCLOVA com 204B parâmetros
-
A israelense AI21 Labs divulgou o Jurassic-1 com 178B parâmetros
-
NVIDIA e Microsoft divulgaram o Megatron-Turing NLG, um modelo com 530B parâmetros
-
Essencialmente, estão sendo criados modelos cada vez maiores e semelhantes ao GPT-3, e eles devem continuar crescendo por mais alguns anos
-
A tendência de exigir investimentos de bilhões de dólares para treinar esses modelos de grande escala deve continuar por enquanto
→ É preocupante que apenas empresas com muito capital consigam criar modelos desse tipo
-
É difícil prever por quanto tempo essa tendência vai continuar e se haverá descobertas importantes além do GPT-3
-
No momento, estamos no meio dessa jornada, e será interessante observar o que vai acontecer nos próximos anos
1 comentários
GPT-Neo: projeto para criar um modelo do tamanho do GPT-3 como open source/gratuito https://pt.news.hada.io/topic?id=3599
MS e Nvidia anunciam o MT-NLG 530B, o maior modelo de linguagem do mundo https://pt.news.hada.io/topic?id=5187