6 pontos por GN⁺ 2025-01-01 | 2 comentários | Compartilhar no WhatsApp
  • A DeepSeek é uma startup chinesa de IA, e seu modelo R1, anunciado recentemente, supera o modelo o1 da OpenAI em vários benchmarks de raciocínio
  • Embora ainda tenha pouca notoriedade, vem se consolidando como um laboratório de IA digno de atenção

Contexto e estratégia da DeepSeek

  • O CEO, Liang Wenfeng, foi fundador da High-Flyer, um dos quatro maiores hedge funds da China, e a DeepSeek conta com o apoio total da empresa
  • Em vez de focar em aplicações comerciais, adota uma estratégia voltada ao desenvolvimento de tecnologia fundamental e de tornar todos os seus modelos open source
  • Tem acesso ao cluster de computação da High-Flyer e possui mais de 50 mil GPUs Hopper
  • Está focada no desenvolvimento de AGI (inteligência artificial geral). A pesquisa se concentra em inovações estruturais e algorítmicas com potencial para mudar o jogo

Principais inovações técnicas

  • Melhorias na arquitetura do modelo
    • MLA (Multi-head Latent Attention): reduz o uso de memória para cerca de 5% a 13% do nível anterior
    • DeepSeekMoE (Sparse Mixture of Experts): reduz significativamente o custo computacional
  • Início de uma guerra de preços
    • O modelo DeepSeek V2 apresentou um custo de inferência de 1 RMB por 1 milhão de tokens, provocando uma grande guerra de preços entre as grandes empresas de tecnologia da China
  • Reconhecimento internacional
    • Um artigo da DeepSeek foi avaliado como "um dos melhores artigos do ano" e recebeu elogios no Vale do Silício e na comunidade internacional de IA

Filosofia de pesquisa e cultura organizacional da DeepSeek

  • Idealismo técnico: a DeepSeek busca um idealismo técnico e coloca "certo e errado" acima de "lucro e prejuízo". Isso é uma voz rara no setor de tecnologia da China
  • Importância da inovação: a DeepSeek acredita que a China não deve permanecer apenas na posição de seguidora, mas participar do fluxo global de inovação tecnológica
  • Cultura organizacional autônoma: em vez de uma gestão de cima para baixo, busca uma atmosfera autônoma e criativa. Os pesquisadores podem colaborar livremente e usar recursos conforme suas próprias ideias
  • Contratação de talentos: valoriza mais curiosidade e paixão do que critérios tradicionais, e a maior parte da equipe é composta por graduados de universidades locais e jovens pesquisadores

Visão sobre AGI

  • Foco da pesquisa: a DeepSeek explora a viabilidade da AGI com foco em matemática, geração de código, multimodalidade e compreensão de linguagem natural.
  • Perspectivas futuras:
    • A concretização da AGI é vista como possível dentro de 2 a 10 anos, e matemática e código são considerados campos ideais para testá-la
    • O jogo final dos modelos de grande escala será formado por empresas especializadas em modelos fundamentais e serviços, com ampla especialização em cada nó da cadeia de suprimentos

Visão sobre open source e inovação

  • Valor do open source: a DeepSeek não vê a vantagem tecnológica em código fechado como prioridade, mas sim valor em construir e desenvolver o ecossistema tecnológico
  • Visão para o ecossistema chinês de IA: quer contribuir para que a China vá além da inovação em aplicações e alcance uma inovação tecnológica do zero ao um

Conclusão

  • A DeepSeek está seguindo um caminho diferente do das startups chinesas tradicionais de IA
  • Em vez de aplicações comerciais, está focada em inovação tecnológica e na realização da AGI, buscando participar do fluxo global de inovação tecnológica
  • Essa abordagem pode ter um impacto importante na direção futura do desenvolvimento da IA na China

2 comentários

 
GN⁺ 2025-01-01
Comentários do Hacker News
  • As restrições de GPU criaram um ambiente que levou os desenvolvedores chineses a inovar mais e fazer mais com menos recursos

    • Elogios à equipe da Deepseek
  • Os elogios à Deepseek são interessantes

    • Há razões estruturais e fundamentais pelas quais a Deepseek não consegue superar amplamente os outros modelos
      • A guerra comercial entre EUA e China pode acabar prejudicando a disponibilidade de computação da Deepseek
      • A censura chinesa impõe certas limitações à coleta de dados e às saídas da Deepseek
      • Como a Deepseek é open source, outros modelos podem copiá-la facilmente
    • Usa regularmente Gemini, ChatGPT, Deepseek e Claudie, e a Deepseek não é especialmente melhor nem pior do que os outros modelos
    • Gostaria de saber por que algumas pessoas acham que a Deepseek vai dominar completamente o campo dos LLMs
  • Acredita que a China deve se tornar uma contribuidora à medida que sua economia se desenvolve

    • Nos últimos 30 anos, não participou de forma substancial da inovação em TI
    • Tratou as leis de escala como uma forma de esperar por hardware e software melhores, apoiando-se na Lei de Moore
  • A Deepseek já era um nome de destaque na comunidade open source de LLMs desde o ano passado

    • Tem custos de marketing menores em comparação com outros players chineses de LLM
  • Surpreende não haver menção à combinação da IA simbólica antiga com versões modernas de ML

  • A China tem um forte incentivo para fazer pesquisa pura a fim de romper a dependência de GPUs

    • Espera que não cheguem ao ponto de atacar os matemáticos uns dos outros em nome da ciência
  • Um dos motivos de a API ser barata é que foi explicitado que os dados da API seriam usados no treinamento

    • OpenAI e Claude dizem que, ao usar a API, os dados não serão usados para treinamento
  • Espera que a competição entre empresas de IA continue de forma saudável

    • Espera que continuem compartilhando tecnologia e artigos para que todos melhorem no geral
  • É impressionante que a DeepSeek tenha alcançado desempenho comparável ao o1 e ao Claude com 10 vezes menos recursos

    • Algoritmos e abordagens melhores serão necessários para a próxima etapa do ML
  • Uso interessante, embora incorreto, da palavra "catfish"

    • Diferente do sentido em que ela normalmente é entendida