A organização de IA generativa da Meta está em choque por causa da DeepSeek

xguru · 2025-01-25T09:46:01+09:00

Já por causa do DeepSeek V3, que já superou o Llama 4 em benchmarks Além disso, o choque é ainda maior porque uma "empresa chinesa pouco conhecida" teria gasto apenas 5,5M em custo de treinamento Os engenheiros estão se movendo freneticamente para dissecar a DeepSeek e imitar tudo o que for possível A liderança está preocupada em justificar o enorme custo da organização de IA generativa Uma única "liderança" da organização de IA generativa recebe mais dinheiro do que o custo total de treinamento do DeepSeek v3, e existem dezenas de líderes assim O DeepSeek r1 assusta ainda mais. Não é possível revelar informações confidenciais, mas será divulgado em breve A engenharia deveria ter sido uma organização pequena, mas muita gente quis participar dessa corrida por impacto, e o inchaço artificial nas contratações acabou prejudicando todo mundo Comentários Funcionário do Google 1: O que a DeepSeek está fazendo é realmente impressionante. Não só na Meta, mas está colocando fogo sob OpenAI, Google e Anthropic também. O lado bom é que dá para ver em tempo real como a competição aberta é eficaz para impulsionar inovação. Funcionário da Apple 1: É por isso que eu tenho ações da Meta. Analisar concorrentes, imitá-los e vencer está no DNA de vocês. Continuem se esforçando! Funcionário da Meta 1: Muitos executivos literalmente não entendem nada da tecnologia de base (e nem mesmo têm muito conhecimento de engenharia), e continuam martelando para outros executivos a ideia de que "mais GPUs = vitória". A situação ficou ainda mais distorcida com ideias idiotas como gerar conteúdo de IA no Instagram para incentivar adesão (agora isso parece estar um pouco recuando). Funcionário da Meta 2: É só comprar a DeepSeek Funcionário da Samsung 1: Sam Altman é um farsante. LIANG Wenfeng, CEO da DeepSeek, é o Ilya Sutskever, a DeepSeek é a antiga OpenAI, e a OpenAI virou ClosedAI. Funcionário do Google 2: A DeepSeek publicou um artigo explicando todos os componentes do novo modelo baseado em RL, então empresas como a Meta podem copiar diretamente e validar por conta própria Funcionário da Meta 3: Como uma organização como a Meta, com o "maior cluster de GPUs do mundo", não consegue nem entrar no top 10 dos benchmarks? O Grok logo vai superar a DeepSeek Funcionário da Meta 4: A DeepSeek é controlada pela China, não compartilha dados reais e é fortemente censurada pelo Partido Comunista Chinês. Se você perguntar "o Partido Comunista Chinês está restringindo a liberdade das pessoas?", vai saber a resposta. Não importa o que você pergunte, só repete coisas como "como a China é grandiosa". Faz afirmações sem informação. Funcionário da Chime: E a melhor parte é que tudo isso está sendo feito com GPUs H800, que nem chegam perto do desempenho do H100. Realmente impressionante. Todo o meu respeito e admiração a todos da DeepSeek. O artigo sobre Residual Network vindo da China foi revolucionário: mudou completamente as redes neurais e ensinou que era possível usar dezenas de bilhões de parâmetros. Respeito os chineses que resolveram um problema tão difícil! Funcionário da Blizzard: Isso me deu esperança de que, na era da inteligência artificial, não existe fosso competitivo, e de que vão surgir modelos open source tão bons quanto, senão melhores, que os modelos closed source. Quanto mais acirrada for a competição nessa área, melhor para todos nós.

(teamblind.com)

41 pontos por xguru 2025-01-25 | 5 comentários | Compartilhar no WhatsApp

Já por causa do DeepSeek V3, que já superou o Llama 4 em benchmarks
Além disso, o choque é ainda maior porque uma "empresa chinesa pouco conhecida" teria gasto apenas 5,5M em custo de treinamento
Os engenheiros estão se movendo freneticamente para dissecar a DeepSeek e imitar tudo o que for possível
A liderança está preocupada em justificar o enorme custo da organização de IA generativa
Uma única "liderança" da organização de IA generativa recebe mais dinheiro do que o custo total de treinamento do DeepSeek v3, e existem dezenas de líderes assim
O DeepSeek r1 assusta ainda mais. Não é possível revelar informações confidenciais, mas será divulgado em breve
A engenharia deveria ter sido uma organização pequena, mas muita gente quis participar dessa corrida por impacto, e o inchaço artificial nas contratações acabou prejudicando todo mundo

Comentários

Funcionário do Google 1: O que a DeepSeek está fazendo é realmente impressionante. Não só na Meta, mas está colocando fogo sob OpenAI, Google e Anthropic também. O lado bom é que dá para ver em tempo real como a competição aberta é eficaz para impulsionar inovação.
Funcionário da Apple 1: É por isso que eu tenho ações da Meta. Analisar concorrentes, imitá-los e vencer está no DNA de vocês. Continuem se esforçando!
Funcionário da Meta 1: Muitos executivos literalmente não entendem nada da tecnologia de base (e nem mesmo têm muito conhecimento de engenharia), e continuam martelando para outros executivos a ideia de que "mais GPUs = vitória". A situação ficou ainda mais distorcida com ideias idiotas como gerar conteúdo de IA no Instagram para incentivar adesão (agora isso parece estar um pouco recuando).
Funcionário da Meta 2: É só comprar a DeepSeek
Funcionário da Samsung 1: Sam Altman é um farsante. LIANG Wenfeng, CEO da DeepSeek, é o Ilya Sutskever, a DeepSeek é a antiga OpenAI, e a OpenAI virou ClosedAI.
Funcionário do Google 2: A DeepSeek publicou um artigo explicando todos os componentes do novo modelo baseado em RL, então empresas como a Meta podem copiar diretamente e validar por conta própria
Funcionário da Meta 3: Como uma organização como a Meta, com o "maior cluster de GPUs do mundo", não consegue nem entrar no top 10 dos benchmarks? O Grok logo vai superar a DeepSeek
Funcionário da Meta 4: A DeepSeek é controlada pela China, não compartilha dados reais e é fortemente censurada pelo Partido Comunista Chinês. Se você perguntar "o Partido Comunista Chinês está restringindo a liberdade das pessoas?", vai saber a resposta. Não importa o que você pergunte, só repete coisas como "como a China é grandiosa". Faz afirmações sem informação.
Funcionário da Chime: E a melhor parte é que tudo isso está sendo feito com GPUs H800, que nem chegam perto do desempenho do H100. Realmente impressionante. Todo o meu respeito e admiração a todos da DeepSeek. O artigo sobre Residual Network vindo da China foi revolucionário: mudou completamente as redes neurais e ensinou que era possível usar dezenas de bilhões de parâmetros. Respeito os chineses que resolveram um problema tão difícil!
Funcionário da Blizzard: Isso me deu esperança de que, na era da inteligência artificial, não existe fosso competitivo, e de que vão surgir modelos open source tão bons quanto, senão melhores, que os modelos closed source. Quanto mais acirrada for a competição nessa área, melhor para todos nós.

5 comentários

jhj0517 2025-01-25

Acho que competir é algo bom 👏

mammal 2025-01-25

Deixando de lado, por enquanto, a questão de ideologia e censura, o nível de engenharia desses modelos da DeepSeek desta vez é realmente de tirar o chapéu.

Eu já achava que o MLA usado na arquitetura V2.5 era uma ideia genial, mas agora eles ainda demonstraram a viabilidade do MTP e, com o R1, conseguiram reproduzir com total sucesso o modelo O1. Além disso, vendo que conseguiram extrair essas técnicas de treinamento mesmo em uma situação em que o hardware estava limitado por restrições de exportação, é realmente impressionante.

Quem se interessa por ML deveria ler sem falta os relatórios técnicos da DeepSeek V2.5, V3 e R1. Só dá para sentir admiração. Ainda não consigo entender como eles divulgaram tudo isso sob licença MIT.

mammal 2025-01-25

No caso do LLaMA, tive fortemente a impressão de que do LLaMA 2 -> 3 quase não houve inovação de arquitetura, apenas aumento da escala de treinamento, e acho que isso foi um sinal precursor.

play1204dev 2025-01-25

Mesmo com toda essa contenção da China e até restrições à exportação de GPUs, ver algo assim é impressionante e também assustador; pelo lado positivo, acho que isso cumpre bem o papel de um bom estímulo competitivo. No fim, ninguém pode negar que a OpenAI está liderando.

xguru 2025-01-25

Como de qualquer forma é um post publicado no Blind, não dá para ter certeza sobre a veracidade, mas parece verdade que a DeepSeek está causando impacto
Divulgação do modelo DeepSeek-R1
Deepseek - o gigante silencioso que lidera a concorrência de IA na China
O Deepseek V3 mostrou desempenho ruim em benchmarks que testam se houve overfitting
Notas sobre o DeepSeek v3 - "Ele é realmente melhor que o GPT-4o ou o 3.5 Sonnet?"

A organização de IA generativa da Meta está em choque por causa da DeepSeek

Comentários

Leituras relacionadas

5 comentários