Deepseek - o gigante silencioso que lidera a corrida de IA na China

(chinatalk.media)

6 pontos por GN⁺ 2025-01-01 | 2 comentários | Compartilhar no WhatsApp

A DeepSeek é uma startup chinesa de IA, e seu modelo R1, anunciado recentemente, supera o modelo o1 da OpenAI em vários benchmarks de raciocínio
Embora ainda tenha pouca notoriedade, vem se consolidando como um laboratório de IA digno de atenção

Contexto e estratégia da DeepSeek

O CEO, Liang Wenfeng, foi fundador da High-Flyer, um dos quatro maiores hedge funds da China, e a DeepSeek conta com o apoio total da empresa
Em vez de focar em aplicações comerciais, adota uma estratégia voltada ao desenvolvimento de tecnologia fundamental e de tornar todos os seus modelos open source
Tem acesso ao cluster de computação da High-Flyer e possui mais de 50 mil GPUs Hopper
Está focada no desenvolvimento de AGI (inteligência artificial geral). A pesquisa se concentra em inovações estruturais e algorítmicas com potencial para mudar o jogo

Principais inovações técnicas

Melhorias na arquitetura do modelo
- MLA (Multi-head Latent Attention): reduz o uso de memória para cerca de 5% a 13% do nível anterior
- DeepSeekMoE (Sparse Mixture of Experts): reduz significativamente o custo computacional
Início de uma guerra de preços
- O modelo DeepSeek V2 apresentou um custo de inferência de 1 RMB por 1 milhão de tokens, provocando uma grande guerra de preços entre as grandes empresas de tecnologia da China
Reconhecimento internacional
- Um artigo da DeepSeek foi avaliado como "um dos melhores artigos do ano" e recebeu elogios no Vale do Silício e na comunidade internacional de IA

Filosofia de pesquisa e cultura organizacional da DeepSeek

Idealismo técnico: a DeepSeek busca um idealismo técnico e coloca "certo e errado" acima de "lucro e prejuízo". Isso é uma voz rara no setor de tecnologia da China
Importância da inovação: a DeepSeek acredita que a China não deve permanecer apenas na posição de seguidora, mas participar do fluxo global de inovação tecnológica
Cultura organizacional autônoma: em vez de uma gestão de cima para baixo, busca uma atmosfera autônoma e criativa. Os pesquisadores podem colaborar livremente e usar recursos conforme suas próprias ideias
Contratação de talentos: valoriza mais curiosidade e paixão do que critérios tradicionais, e a maior parte da equipe é composta por graduados de universidades locais e jovens pesquisadores

Visão sobre AGI

Foco da pesquisa: a DeepSeek explora a viabilidade da AGI com foco em matemática, geração de código, multimodalidade e compreensão de linguagem natural.
Perspectivas futuras:
- A concretização da AGI é vista como possível dentro de 2 a 10 anos, e matemática e código são considerados campos ideais para testá-la
- O jogo final dos modelos de grande escala será formado por empresas especializadas em modelos fundamentais e serviços, com ampla especialização em cada nó da cadeia de suprimentos

Visão sobre open source e inovação

Valor do open source: a DeepSeek não vê a vantagem tecnológica em código fechado como prioridade, mas sim valor em construir e desenvolver o ecossistema tecnológico
Visão para o ecossistema chinês de IA: quer contribuir para que a China vá além da inovação em aplicações e alcance uma inovação tecnológica do zero ao um

Conclusão

A DeepSeek está seguindo um caminho diferente do das startups chinesas tradicionais de IA
Em vez de aplicações comerciais, está focada em inovação tecnológica e na realização da AGI, buscando participar do fluxo global de inovação tecnológica
Essa abordagem pode ter um impacto importante na direção futura do desenvolvimento da IA na China

2 comentários

xguru 2025-01-03

O Deepseek V3 apresentou desempenho ruim em benchmarks que testam se houve overfitting

GN⁺ 2025-01-01

Comentários do Hacker News

As restrições de GPU criaram um ambiente que levou os desenvolvedores chineses a inovar mais e fazer mais com menos recursos
- Elogios à equipe da Deepseek
Os elogios à Deepseek são interessantes
- Há razões estruturais e fundamentais pelas quais a Deepseek não consegue superar amplamente os outros modelos
  - A guerra comercial entre EUA e China pode acabar prejudicando a disponibilidade de computação da Deepseek
  - A censura chinesa impõe certas limitações à coleta de dados e às saídas da Deepseek
  - Como a Deepseek é open source, outros modelos podem copiá-la facilmente
- Usa regularmente Gemini, ChatGPT, Deepseek e Claudie, e a Deepseek não é especialmente melhor nem pior do que os outros modelos
- Gostaria de saber por que algumas pessoas acham que a Deepseek vai dominar completamente o campo dos LLMs
Acredita que a China deve se tornar uma contribuidora à medida que sua economia se desenvolve
- Nos últimos 30 anos, não participou de forma substancial da inovação em TI
- Tratou as leis de escala como uma forma de esperar por hardware e software melhores, apoiando-se na Lei de Moore
A Deepseek já era um nome de destaque na comunidade open source de LLMs desde o ano passado
- Tem custos de marketing menores em comparação com outros players chineses de LLM
Surpreende não haver menção à combinação da IA simbólica antiga com versões modernas de ML
A China tem um forte incentivo para fazer pesquisa pura a fim de romper a dependência de GPUs
- Espera que não cheguem ao ponto de atacar os matemáticos uns dos outros em nome da ciência
Um dos motivos de a API ser barata é que foi explicitado que os dados da API seriam usados no treinamento
- OpenAI e Claude dizem que, ao usar a API, os dados não serão usados para treinamento
Espera que a competição entre empresas de IA continue de forma saudável
- Espera que continuem compartilhando tecnologia e artigos para que todos melhorem no geral
É impressionante que a DeepSeek tenha alcançado desempenho comparável ao o1 e ao Claude com 10 vezes menos recursos
- Algoritmos e abordagens melhores serão necessários para a próxima etapa do ML
Uso interessante, embora incorreto, da palavra "catfish"
- Diferente do sentido em que ela normalmente é entendida

Deepseek - o gigante silencioso que lidera a corrida de IA na China

Contexto e estratégia da DeepSeek

Principais inovações técnicas

Filosofia de pesquisa e cultura organizacional da DeepSeek

Visão sobre AGI

Visão sobre open source e inovação

Conclusão

Leituras relacionadas

2 comentários

Comentários do Hacker News