16 pontos por xguru 2021-11-10 | 1 comentários | Compartilhar no WhatsApp
  • É verdade que o GPT-3 causou um grande impacto no mercado de IA: um modelo de IA gigantesco muito forte em "text-in text-out"

  • Como era pago, muitas organizações começaram a criar seus próprios modelos parecidos com o GPT-3

→ Não é algo fácil por causa do poder computacional necessário. A OpenAI, com seu modelo de 175B parâmetros, colaborou com a Microsoft e usou 10 mil GPUs e 45 TB de dados de texto

→ Fazendo as contas, treinar o GPT-3 custou algo em torno de 10 a 20 bilhões de won

  • Surgiram várias tentativas

→ EleutherAI, CPM, PanGu-α, HyperCLOVA, Jurassic-1, Megatron-Turing NLG

  • Surpreendentemente, o primeiro esforço para criar algo parecido com o GPT-3 foi o "EleutherAI", feito por participantes do open source

→ Divulgou o "The Pile", um dataset semelhante ao do GPT-3

→ Depois disso, lançou desde versões menores como GPT-Neo 1.3B e 2.7B até, mais recentemente, o GPT-J-6B com 6B parâmetros

  • Seis meses após o anúncio do GPT-3, pesquisadores da Universidade Tsinghua, na China, e a BAAI (Academia de IA de Pequim) divulgaram juntos o CPM (Chinese Pre-trained Language Model)

→ Criaram um modelo de 2.6B parâmetros a partir de 100 GB de texto em chinês. Ainda não chega ao GPT-3, mas chama atenção por ter sido feito com texto em chinês

  • Pouco depois, a Huawei divulgou o PanGu-α com 200B parâmetros (usando 1.1 TB de texto em chinês)

  • A Naver anunciou o HyperCLOVA com 204B parâmetros

  • A israelense AI21 Labs divulgou o Jurassic-1 com 178B parâmetros

  • NVIDIA e Microsoft divulgaram o Megatron-Turing NLG, um modelo com 530B parâmetros

  • Essencialmente, estão sendo criados modelos cada vez maiores e semelhantes ao GPT-3, e eles devem continuar crescendo por mais alguns anos

  • A tendência de exigir investimentos de bilhões de dólares para treinar esses modelos de grande escala deve continuar por enquanto

→ É preocupante que apenas empresas com muito capital consigam criar modelos desse tipo

  • É difícil prever por quanto tempo essa tendência vai continuar e se haverá descobertas importantes além do GPT-3

  • No momento, estamos no meio dessa jornada, e será interessante observar o que vai acontecer nos próximos anos

1 comentários

 
xguru 2021-11-10