41 pontos por xguru 2025-01-25 | 5 comentários | Compartilhar no WhatsApp
  • Já por causa do DeepSeek V3, que já superou o Llama 4 em benchmarks
  • Além disso, o choque é ainda maior porque uma "empresa chinesa pouco conhecida" teria gasto apenas 5,5M em custo de treinamento
  • Os engenheiros estão se movendo freneticamente para dissecar a DeepSeek e imitar tudo o que for possível
  • A liderança está preocupada em justificar o enorme custo da organização de IA generativa
  • Uma única "liderança" da organização de IA generativa recebe mais dinheiro do que o custo total de treinamento do DeepSeek v3, e existem dezenas de líderes assim
  • O DeepSeek r1 assusta ainda mais. Não é possível revelar informações confidenciais, mas será divulgado em breve
  • A engenharia deveria ter sido uma organização pequena, mas muita gente quis participar dessa corrida por impacto, e o inchaço artificial nas contratações acabou prejudicando todo mundo

Comentários

  • Funcionário do Google 1: O que a DeepSeek está fazendo é realmente impressionante. Não só na Meta, mas está colocando fogo sob OpenAI, Google e Anthropic também. O lado bom é que dá para ver em tempo real como a competição aberta é eficaz para impulsionar inovação.
  • Funcionário da Apple 1: É por isso que eu tenho ações da Meta. Analisar concorrentes, imitá-los e vencer está no DNA de vocês. Continuem se esforçando!
  • Funcionário da Meta 1: Muitos executivos literalmente não entendem nada da tecnologia de base (e nem mesmo têm muito conhecimento de engenharia), e continuam martelando para outros executivos a ideia de que "mais GPUs = vitória". A situação ficou ainda mais distorcida com ideias idiotas como gerar conteúdo de IA no Instagram para incentivar adesão (agora isso parece estar um pouco recuando).
  • Funcionário da Meta 2: É só comprar a DeepSeek
  • Funcionário da Samsung 1: Sam Altman é um farsante. LIANG Wenfeng, CEO da DeepSeek, é o Ilya Sutskever, a DeepSeek é a antiga OpenAI, e a OpenAI virou ClosedAI.
  • Funcionário do Google 2: A DeepSeek publicou um artigo explicando todos os componentes do novo modelo baseado em RL, então empresas como a Meta podem copiar diretamente e validar por conta própria
  • Funcionário da Meta 3: Como uma organização como a Meta, com o "maior cluster de GPUs do mundo", não consegue nem entrar no top 10 dos benchmarks? O Grok logo vai superar a DeepSeek
  • Funcionário da Meta 4: A DeepSeek é controlada pela China, não compartilha dados reais e é fortemente censurada pelo Partido Comunista Chinês. Se você perguntar "o Partido Comunista Chinês está restringindo a liberdade das pessoas?", vai saber a resposta. Não importa o que você pergunte, só repete coisas como "como a China é grandiosa". Faz afirmações sem informação.
  • Funcionário da Chime: E a melhor parte é que tudo isso está sendo feito com GPUs H800, que nem chegam perto do desempenho do H100. Realmente impressionante. Todo o meu respeito e admiração a todos da DeepSeek. O artigo sobre Residual Network vindo da China foi revolucionário: mudou completamente as redes neurais e ensinou que era possível usar dezenas de bilhões de parâmetros. Respeito os chineses que resolveram um problema tão difícil!
  • Funcionário da Blizzard: Isso me deu esperança de que, na era da inteligência artificial, não existe fosso competitivo, e de que vão surgir modelos open source tão bons quanto, senão melhores, que os modelos closed source. Quanto mais acirrada for a competição nessa área, melhor para todos nós.

5 comentários

 
jhj0517 2025-01-25

Acho que competir é algo bom 👏

 
mammal 2025-01-25

Deixando de lado, por enquanto, a questão de ideologia e censura, o nível de engenharia desses modelos da DeepSeek desta vez é realmente de tirar o chapéu.

Eu já achava que o MLA usado na arquitetura V2.5 era uma ideia genial, mas agora eles ainda demonstraram a viabilidade do MTP e, com o R1, conseguiram reproduzir com total sucesso o modelo O1. Além disso, vendo que conseguiram extrair essas técnicas de treinamento mesmo em uma situação em que o hardware estava limitado por restrições de exportação, é realmente impressionante.

Quem se interessa por ML deveria ler sem falta os relatórios técnicos da DeepSeek V2.5, V3 e R1. Só dá para sentir admiração. Ainda não consigo entender como eles divulgaram tudo isso sob licença MIT.

 
mammal 2025-01-25

No caso do LLaMA, tive fortemente a impressão de que do LLaMA 2 -> 3 quase não houve inovação de arquitetura, apenas aumento da escala de treinamento, e acho que isso foi um sinal precursor.

 
play1204dev 2025-01-25

Mesmo com toda essa contenção da China e até restrições à exportação de GPUs, ver algo assim é impressionante e também assustador; pelo lado positivo, acho que isso cumpre bem o papel de um bom estímulo competitivo. No fim, ninguém pode negar que a OpenAI está liderando.