5 pontos por GN⁺ 2024-03-08 | 1 comentários | Compartilhar no WhatsApp

Treinando um LLM completamente do zero

  • Há muita curiosidade sobre a experiência da Reka ao treinar com sucesso modelos de linguagem multimodais poderosos.
  • Compartilha os desafios e as lições de construir infraestrutura e treinar grandes modelos de linguagem e multimodais do zero.
  • Espera que este post seja interessante e educativo para muitas pessoas.

A loteria do hardware na era dos LLMs

  • O primeiro requisito essencial para treinar modelos é garantir poder computacional.
  • Surpreendeu-se com a instabilidade dos provedores de computação e com as diferenças de qualidade entre clusters, aceleradores e conectividade.
  • A diferença de qualidade do hardware é grande, e isso na prática é como uma verdadeira “loteria do hardware” para o treinamento.

GPU vs TPU

  • Na Reka, os modelos são treinados principalmente com GPUs.
  • Em comparação com a experiência anterior no Google usando TPUs, surpreendeu-se com a taxa de falhas das GPUs.
  • A capacidade da equipe de hardware é importante, o que reforça a ideia de “loteria do hardware”.

A dor de configurar múltiplos clusters

  • A ideia de ter que configurar novos ambientes em vários clusters era algo pouco familiar.
  • É inevitável ter pools de aceleradores distribuídos por vários clusters.
  • Há inconveniências para lidar com grandes volumes de dados, e replicar dados não é simples em larga escala.

Código na selva

  • T5X e MeshTensorflow eram codebases favoritas, mas fora do Google têm pouco suporte e são difíceis de usar.
  • Optou-se pelo PyTorch, que é mais acessível.
  • Sentiu-se que a qualidade dos codebases externos fica atrás da encontrada dentro do Google.

Menos princípios, mais YOLO

  • Em princípio, o modelo deveria ser escalado de forma sistemática, mas em uma startup, com menos recursos computacionais, acabam acontecendo muitas execuções no estilo YOLO.
  • Treinar um modelo poderoso com tentativas limitadas é um desafio.

Resumo

  • A experiência no mundo real foi interessante, mas dolorosa.
  • A falta de recursos computacionais e a instabilidade dos provedores tornaram tudo mais difícil do que o esperado, mas isso foi superado com força técnica.
  • Conta apenas uma parte do processo de abrir a empresa, captar recursos, comprar chips e competir com Gemini pro/GPT 3.5, além de superar muitos outros.

Opinião do GN⁺

  • Este artigo mostra bem os problemas e desafios reais que uma startup enfrenta ao treinar um grande modelo de linguagem do zero. Isso pode oferecer insights realistas para engenheiros de software iniciantes.
  • A importância da escolha do hardware, assim como as diferenças de taxa de falha e nível de suporte, são fatores que startups ou pequenas empresas precisam considerar ao iniciar grandes projetos.
  • O artigo destaca as limitações técnicas enfrentadas por startups em comparação com a infraestrutura de grandes empresas como o Google. Isso mostra por que startups precisam ser cuidadosas ao fazer escolhas tecnológicas.
  • O processo de construir a infraestrutura e as ferramentas necessárias para treinar modelos de grande escala em uma startup pode ser extremamente complexo e difícil. Esse é um ponto importante na escolha de provedores de nuvem ou na decisão de montar hardware próprio.
  • Apesar dos problemas e desafios técnicos, o texto transmite uma mensagem positiva de que startups podem superar dificuldades com força técnica e alcançar resultados bem-sucedidos.

1 comentários

 
GN⁺ 2024-03-08
Opiniões no Hacker News
  • Startup, neste contexto, significa uma organização com poucas pessoas e muito capital para investir em um cluster de treinamento. O artigo explica que muitas startups e empresas já estabelecidas operam alugando servidores. A maioria dos criadores de LLMs (Large Language Models) usa hardware e dados semelhantes para treinar com dados de texto e imagem. Cada LLM tem seu próprio "molho secreto", e é isso que gera diferenças na qualidade das saídas. Ainda assim, no geral, esse processo parece um trabalho redundante e com alto consumo de energia.
  • Este texto traz Yi Tay, que foi líder técnico de tecnologias como PaLM, UL2, Flan e Bard no Google, falando sobre sua experiência ao se tornar cofundador da Reka e treinar LLMs em uma startup independente. A conversa que levou Yi Tay a escrever este post está registrada aqui.
  • Foi por meio deste post que conheci a Reka.ai. Os LLMs da Reka.ai não têm sido muito discutidos no Hacker News. Por curiosidade, testei a interface de chat do Reka Flash em comparação com ChatGPT 4, Gemini Advanced, Claude 3 e Mistral Large. Os resultados estão aqui. No geral, o Reka Flash não pareceu nem claramente pior nem claramente melhor do que os outros LLMs. Claro, seriam necessários mais testes para ter certeza.
  • O autor presume que os leitores entendam "na natureza" como "fora do Google". O texto dá bastante crédito à infraestrutura e à equipe de hardware do Google, e desperta interesse em ler a perspectiva de alguém de dentro do Google que foi fazer esse tipo de trabalho em outro lugar.
  • A página principal da Reka.AI parece ser um clone comum do ChatGPT, pago por tokens, ou seja, um LLM. Não está claro em que isso difere de outras empresas. O preço parece semelhante ao do ChatGPT 3.5-Turbo.
  • Treinar um LLM do zero é uma questão tão importante para a velocidade e o alcance da evolução da IA quanto os avanços em hardware bruto. O blog é interessante, mas um pouco superficial e pouco técnico, sem nada surpreendente para quem já teve experiência lidando com clusters de GPU. Também não fica claro por que recomendar Jax em vez de PyTorch para LLMs fora do Google. Espero que essa nova empresa publique um relato mais técnico sobre sua aventura de treinamento.
  • O texto cobre apenas uma pequena parte da história: abrir a empresa, levantar capital, comprar chips e construir um LLM no nível do GPT 3.5 em menos de um ano, superando muitos outros produtos. Fico curioso sobre quanto foi orçado para chips e GPUs em nuvem. Algo em torno de US$ 2 milhões a US$ 5 milhões?
  • Uma grande dúvida é como pequenas startups sem o histórico ou a experiência adequados conseguem captar recursos para produtos com LLM. O mundo das startups de LLM parece semelhante ao dos hedge funds e private equity, em que os pré-requisitos para seed/funding incluem um histórico profissional prestigiado, experiência relevante e uma rede sólida de investidores prontos para apostar antes mesmo de o produto começar.
  • Fico pensando se o título não deveria ser "from the ground up" em vez de "ground zero".
  • A parte sobre o processo de dados de treinamento é muito interessante, mas eu queria ouvir mais.