Entrevista com Mark Zuckerberg - Llama 3 e o motivo de ter aberto o código de um modelo de US$ 10 bilhões

xguru · 2024-04-21T13:19:58+09:00

Em uma entrevista com Dwarkesh Patel, ele falou sobre o Llama 3, open source rumo à AGI, silício customizado e restrições de energia para escalabilidade; abaixo está um breve resumo do roteiro completo Llama 3 A Meta lançou o Llama 3, um modelo open source, para impulsionar a nova versão do Meta AI O Meta AI busca ser o assistente de IA mais inteligente e livremente disponível O Llama 3 está disponível como modelos densos nos tamanhos 8B, 70B e 405B, este último ainda em treinamento Há um roadmap para novos lançamentos com multimodalidade, múltiplos idiomas e uma janela de contexto maior, e a Meta pretende lançar o 405B ainda este ano O 405B está atualmente em treinamento, já atingiu 85 no MMLU e deve liderar vários benchmarks O modelo Llama 3 de 8B tem desempenho quase equivalente ao maior modelo do Llama 2 O 70B também é excelente e já está em 82 no MMLU GPU A Meta garantiu GPUs H100 em 2022, quando suas ações estavam despencando, para construir o Reels A infraestrutura limitava a velocidade com que conseguiam acompanhar o que o TikTok estava fazendo, e por isso encomendaram o dobro para não cair nessa situação novamente Eles previam que isso seria necessário para treinar grandes modelos no futuro, mas na época pensavam nisso apenas para recomendação de conteúdo Olhando em retrospecto, foi uma ótima decisão, e isso só foi possível porque estavam atrasados Não foi algo como: "Ah, me adiantei demais" Na verdade, quando uma decisão deles acaba sendo boa, muitas vezes é porque antes erraram em alguma coisa e não queriam repetir o mesmo erro Importância de capacidades de codificação e raciocínio rumo à AGI (Artificial General Intelligence) A Meta reconhece que capacidades de codificação e raciocínio são importantes para que os modelos resolvam casos de uso reais, mesmo quando não recebem perguntas de programação diretamente O objetivo final é resolver a AGI e permitir que os modelos executem tarefas complexas de múltiplas etapas A AGI será alcançada adicionando gradualmente diversas capacidades, como multimodalidade, compreensão de emoções e memória Gargalos de energia e escalabilidade O progresso exponencial no tamanho dos modelos pode continuar, mas eventualmente vai esbarrar em gargalos de energia e infraestrutura Atualmente, muitos data centers têm cerca de 50 megawatts ou 100 MW, e os grandes data centers chegam a 150 MW No entanto, devem começar a construir data centers na escala de 300 MW, 500 MW ou 1 GW (ainda não existe um de 1 GW, mas em breve) Mas, com 1 GW, o treinamento de modelos passaria a exigir algo no nível de uma usina nuclear, e a construção desses clusters em escala de gigawatt levará anos por causa de processos rígidos de licenciamento Importância da revolução da IA A IA é algo tão fundamental quanto a própria criação da computação e vai transformar a forma como trabalhamos, além de fornecer novas ferramentas criativas Em uma escala de tempo cósmica, o progresso será rápido, mas não haverá uma explosão de inteligência da noite para o dia por causa dos gargalos Parece que estamos caminhando para uma direção em que a inteligência pode ser separada da consciência e da agência, o que pode se tornar uma ferramenta extremamente valiosa Open source e equilíbrio de poder Concentrar uma IA poderosa nas mãos de poucos pode ser tão arriscado quanto torná-la amplamente disponível Eles claramente apoiam open source, mas não tornaram público tudo o que fazem O open source permite que a comunidade fortaleça os modelos e garanta um campo competitivo mais equilibrado Mas, se em algum momento houver uma mudança qualitativa nessas capacidades e eles julgarem que não é apropriado abrir o código, então não o farão. Tudo isso é muito difícil de prever A Meta busca open source enquanto isso for responsável e útil, e pode cobrar dos provedores de nuvem pelo uso do modelo No curto prazo, o foco está em mitigar danos reais causados por mau uso do modelo; no longo prazo, em riscos existenciais O motivo de ter aberto o código de um modelo de US$ 10 bilhões O ecossistema mobile é irritante porque há duas empresas gatekeepers: Apple e Google Essas duas empresas dizem o que você pode construir Há também a parte econômica, em que elas ficam com o dinheiro quando construímos algo, mas a parte qualitativa é ainda mais irritante Houve muitas vezes em que eles lançaram, ou queriam lançar, uma funcionalidade e a Apple dizia: "Não, isso não pode ser lançado" Isso é realmente irritante, e a pergunta é se queremos viver esse mesmo tipo de mundo também na IA Será que um pequeno número de empresas que operam modelos fechados pode controlar a API e dizer o que você pode construir? Dá para dizer que vale a pena construir o próprio modelo para não ficar nessa posição Eles não querem que nenhuma outra empresa diga o que podem construir E, do ponto de vista do open source, muitos desenvolvedores também não querem que esse tipo de empresa dite o que pode ser construído Então a questão passa a ser qual ecossistema será construído em torno disso O que há de novo e interessante? Quanto isso pode melhorar nossos produtos? Eles acreditam que, assim como em banco de dados, sistemas de cache ou arquitetura, muitas vezes é possível receber da comunidade contribuições valiosas que ajudam a criar produtos melhores Nesse caso, o trabalho específico de app que eles fazem continuaria sendo o diferencial e deixaria de ser tão importante em escala maior Eles poderão continuar fazendo o que fazem E, por ser open source, todos os sistemas deles e da comunidade ficarão melhores Mas existe também um mundo em que isso não acontece Talvez o modelo acabe ficando mais próximo do próprio produto Nesse caso, o cálculo econômico ficaria mais complicado. Com ou sem open source, você acabaria se comoditizando bastante Mas, pelo que se viu até agora, parece que ainda não estamos nessa fase Monetização do modelo Eles esperam obter receita significativa ao licenciar o modelo para provedores de nuvem? Em muitos aspectos, o Llama usa uma licença open source bastante permissiva Porém, há restrições para grandes empresas que o utilizam. Esse é o motivo dessas limitações Eles não estão tentando impedir esse uso, mas querem que, se uma empresa basicamente pegar o que eles criaram e revender para ganhar dinheiro, venha falar com eles No caso de Microsoft Azure ou Amazon, se forem revender o modelo, deve haver compartilhamento de receita Então a ideia é: falem com eles antes de fazer isso; é assim que funciona Portanto, no caso do Llama-2, eles basicamente fecharam acordos com todas as grandes empresas de nuvem, e o Llama-2 é oferecido como serviço hospedado em todas as clouds À medida que forem lançando modelos cada vez maiores, eles acreditam que isso se tornará algo maior também Isso não é a principal atividade deles, mas consideram razoável que, se essas empresas venderem seus modelos, eles também compartilhem dessa vantagem de alguma forma Silício customizado A Meta está desenvolvendo silício customizado para executar grandes modelos com eficiência Não para o Llama-4, mas primeiro construíram silício customizado capaz de lidar com inferência para ranking e recomendação, usado em Reels, feed de notícias, anúncios etc. Ao migrar isso para silício próprio, agora podem usar as caras GPUs da NVIDIA apenas para treinamento Eles esperam que, algum dia, possam desenvolver seu próprio silício e, no começo, usá-lo em treinamentos mais simples, para depois aplicá-lo ao treinamento de modelos realmente grandes Enquanto isso, é possível dizer que o programa está avançando muito bem, sendo implantado de forma sistemática e com um roadmap de longo prazo

(dwarkeshpatel.com)

30 pontos por xguru 2024-04-21 | 4 comentários | Compartilhar no WhatsApp

Em uma entrevista com Dwarkesh Patel, ele falou sobre o Llama 3, open source rumo à AGI, silício customizado e restrições de energia para escalabilidade; abaixo está um breve resumo do roteiro completo

Llama 3

A Meta lançou o Llama 3, um modelo open source, para impulsionar a nova versão do Meta AI
O Meta AI busca ser o assistente de IA mais inteligente e livremente disponível
O Llama 3 está disponível como modelos densos nos tamanhos 8B, 70B e 405B, este último ainda em treinamento
Há um roadmap para novos lançamentos com multimodalidade, múltiplos idiomas e uma janela de contexto maior, e a Meta pretende lançar o 405B ainda este ano
O 405B está atualmente em treinamento, já atingiu 85 no MMLU e deve liderar vários benchmarks
O modelo Llama 3 de 8B tem desempenho quase equivalente ao maior modelo do Llama 2
O 70B também é excelente e já está em 82 no MMLU

GPU

A Meta garantiu GPUs H100 em 2022, quando suas ações estavam despencando, para construir o Reels
A infraestrutura limitava a velocidade com que conseguiam acompanhar o que o TikTok estava fazendo, e por isso encomendaram o dobro para não cair nessa situação novamente
Eles previam que isso seria necessário para treinar grandes modelos no futuro, mas na época pensavam nisso apenas para recomendação de conteúdo
Olhando em retrospecto, foi uma ótima decisão, e isso só foi possível porque estavam atrasados
Não foi algo como: "Ah, me adiantei demais"
Na verdade, quando uma decisão deles acaba sendo boa, muitas vezes é porque antes erraram em alguma coisa e não queriam repetir o mesmo erro

Importância de capacidades de codificação e raciocínio rumo à AGI (Artificial General Intelligence)

A Meta reconhece que capacidades de codificação e raciocínio são importantes para que os modelos resolvam casos de uso reais, mesmo quando não recebem perguntas de programação diretamente
O objetivo final é resolver a AGI e permitir que os modelos executem tarefas complexas de múltiplas etapas
A AGI será alcançada adicionando gradualmente diversas capacidades, como multimodalidade, compreensão de emoções e memória

Gargalos de energia e escalabilidade

O progresso exponencial no tamanho dos modelos pode continuar, mas eventualmente vai esbarrar em gargalos de energia e infraestrutura
Atualmente, muitos data centers têm cerca de 50 megawatts ou 100 MW, e os grandes data centers chegam a 150 MW
No entanto, devem começar a construir data centers na escala de 300 MW, 500 MW ou 1 GW (ainda não existe um de 1 GW, mas em breve)
Mas, com 1 GW, o treinamento de modelos passaria a exigir algo no nível de uma usina nuclear, e a construção desses clusters em escala de gigawatt levará anos por causa de processos rígidos de licenciamento

Importância da revolução da IA

A IA é algo tão fundamental quanto a própria criação da computação e vai transformar a forma como trabalhamos, além de fornecer novas ferramentas criativas
Em uma escala de tempo cósmica, o progresso será rápido, mas não haverá uma explosão de inteligência da noite para o dia por causa dos gargalos
Parece que estamos caminhando para uma direção em que a inteligência pode ser separada da consciência e da agência, o que pode se tornar uma ferramenta extremamente valiosa

Open source e equilíbrio de poder

Concentrar uma IA poderosa nas mãos de poucos pode ser tão arriscado quanto torná-la amplamente disponível
Eles claramente apoiam open source, mas não tornaram público tudo o que fazem
O open source permite que a comunidade fortaleça os modelos e garanta um campo competitivo mais equilibrado
Mas, se em algum momento houver uma mudança qualitativa nessas capacidades e eles julgarem que não é apropriado abrir o código, então não o farão. Tudo isso é muito difícil de prever
A Meta busca open source enquanto isso for responsável e útil, e pode cobrar dos provedores de nuvem pelo uso do modelo
No curto prazo, o foco está em mitigar danos reais causados por mau uso do modelo; no longo prazo, em riscos existenciais

O motivo de ter aberto o código de um modelo de US$ 10 bilhões

O ecossistema mobile é irritante porque há duas empresas gatekeepers: Apple e Google
Essas duas empresas dizem o que você pode construir
Há também a parte econômica, em que elas ficam com o dinheiro quando construímos algo, mas a parte qualitativa é ainda mais irritante
Houve muitas vezes em que eles lançaram, ou queriam lançar, uma funcionalidade e a Apple dizia: "Não, isso não pode ser lançado"
Isso é realmente irritante, e a pergunta é se queremos viver esse mesmo tipo de mundo também na IA
Será que um pequeno número de empresas que operam modelos fechados pode controlar a API e dizer o que você pode construir?
Dá para dizer que vale a pena construir o próprio modelo para não ficar nessa posição
Eles não querem que nenhuma outra empresa diga o que podem construir
E, do ponto de vista do open source, muitos desenvolvedores também não querem que esse tipo de empresa dite o que pode ser construído
Então a questão passa a ser qual ecossistema será construído em torno disso
- O que há de novo e interessante?
- Quanto isso pode melhorar nossos produtos?
Eles acreditam que, assim como em banco de dados, sistemas de cache ou arquitetura, muitas vezes é possível receber da comunidade contribuições valiosas que ajudam a criar produtos melhores
Nesse caso, o trabalho específico de app que eles fazem continuaria sendo o diferencial e deixaria de ser tão importante em escala maior
Eles poderão continuar fazendo o que fazem
E, por ser open source, todos os sistemas deles e da comunidade ficarão melhores
Mas existe também um mundo em que isso não acontece
Talvez o modelo acabe ficando mais próximo do próprio produto
Nesse caso, o cálculo econômico ficaria mais complicado. Com ou sem open source, você acabaria se comoditizando bastante
Mas, pelo que se viu até agora, parece que ainda não estamos nessa fase

Monetização do modelo

Eles esperam obter receita significativa ao licenciar o modelo para provedores de nuvem?
Em muitos aspectos, o Llama usa uma licença open source bastante permissiva
Porém, há restrições para grandes empresas que o utilizam. Esse é o motivo dessas limitações
Eles não estão tentando impedir esse uso, mas querem que, se uma empresa basicamente pegar o que eles criaram e revender para ganhar dinheiro, venha falar com eles
No caso de Microsoft Azure ou Amazon, se forem revender o modelo, deve haver compartilhamento de receita
Então a ideia é: falem com eles antes de fazer isso; é assim que funciona
Portanto, no caso do Llama-2, eles basicamente fecharam acordos com todas as grandes empresas de nuvem, e o Llama-2 é oferecido como serviço hospedado em todas as clouds
À medida que forem lançando modelos cada vez maiores, eles acreditam que isso se tornará algo maior também
Isso não é a principal atividade deles, mas consideram razoável que, se essas empresas venderem seus modelos, eles também compartilhem dessa vantagem de alguma forma

Silício customizado

A Meta está desenvolvendo silício customizado para executar grandes modelos com eficiência
Não para o Llama-4, mas primeiro construíram silício customizado capaz de lidar com inferência para ranking e recomendação, usado em Reels, feed de notícias, anúncios etc.
Ao migrar isso para silício próprio, agora podem usar as caras GPUs da NVIDIA apenas para treinamento
Eles esperam que, algum dia, possam desenvolver seu próprio silício e, no começo, usá-lo em treinamentos mais simples, para depois aplicá-lo ao treinamento de modelos realmente grandes
Enquanto isso, é possível dizer que o programa está avançando muito bem, sendo implantado de forma sistemática e com um roadmap de longo prazo

4 comentários

laeyoung 2024-04-22

"Se for 1GW, só para treinar o modelo já seria necessária uma usina nuclear"

Agora, para treinar modelos fundacionais, parece que até desenvolvimento nuclear (?) vai ser necessário.

tsboard 2024-04-22

Parece que ele tem muitas preocupações. Dá para entender a forte antipatia em relação ao Google e à Apple, que controlam as plataformas.

daejin 2024-04-22

A seção "por que abrir o código de um modelo de US$ 10 bilhões" é um texto resumido, mas ainda assim traz alguns pontos bem esclarecedores.

realg 2024-04-21

Obrigado pelo ótimo conteúdo.