- A DeepSeek é uma startup chinesa de IA, e seu modelo R1, anunciado recentemente, supera o modelo o1 da OpenAI em vários benchmarks de raciocínio
- Embora ainda tenha pouca notoriedade, vem se consolidando como um laboratório de IA digno de atenção
Contexto e estratégia da DeepSeek
- O CEO, Liang Wenfeng, foi fundador da High-Flyer, um dos quatro maiores hedge funds da China, e a DeepSeek conta com o apoio total da empresa
- Em vez de focar em aplicações comerciais, adota uma estratégia voltada ao desenvolvimento de tecnologia fundamental e de tornar todos os seus modelos open source
- Tem acesso ao cluster de computação da High-Flyer e possui mais de 50 mil GPUs Hopper
- Está focada no desenvolvimento de AGI (inteligência artificial geral). A pesquisa se concentra em inovações estruturais e algorítmicas com potencial para mudar o jogo
Principais inovações técnicas
- Melhorias na arquitetura do modelo
- MLA (Multi-head Latent Attention): reduz o uso de memória para cerca de 5% a 13% do nível anterior
- DeepSeekMoE (Sparse Mixture of Experts): reduz significativamente o custo computacional
- Início de uma guerra de preços
- O modelo DeepSeek V2 apresentou um custo de inferência de 1 RMB por 1 milhão de tokens, provocando uma grande guerra de preços entre as grandes empresas de tecnologia da China
- Reconhecimento internacional
- Um artigo da DeepSeek foi avaliado como "um dos melhores artigos do ano" e recebeu elogios no Vale do Silício e na comunidade internacional de IA
Filosofia de pesquisa e cultura organizacional da DeepSeek
- Idealismo técnico: a DeepSeek busca um idealismo técnico e coloca "certo e errado" acima de "lucro e prejuízo". Isso é uma voz rara no setor de tecnologia da China
- Importância da inovação: a DeepSeek acredita que a China não deve permanecer apenas na posição de seguidora, mas participar do fluxo global de inovação tecnológica
- Cultura organizacional autônoma: em vez de uma gestão de cima para baixo, busca uma atmosfera autônoma e criativa. Os pesquisadores podem colaborar livremente e usar recursos conforme suas próprias ideias
- Contratação de talentos: valoriza mais curiosidade e paixão do que critérios tradicionais, e a maior parte da equipe é composta por graduados de universidades locais e jovens pesquisadores
Visão sobre AGI
- Foco da pesquisa: a DeepSeek explora a viabilidade da AGI com foco em matemática, geração de código, multimodalidade e compreensão de linguagem natural.
- Perspectivas futuras:
- A concretização da AGI é vista como possível dentro de 2 a 10 anos, e matemática e código são considerados campos ideais para testá-la
- O jogo final dos modelos de grande escala será formado por empresas especializadas em modelos fundamentais e serviços, com ampla especialização em cada nó da cadeia de suprimentos
Visão sobre open source e inovação
- Valor do open source: a DeepSeek não vê a vantagem tecnológica em código fechado como prioridade, mas sim valor em construir e desenvolver o ecossistema tecnológico
- Visão para o ecossistema chinês de IA: quer contribuir para que a China vá além da inovação em aplicações e alcance uma inovação tecnológica do zero ao um
Conclusão
- A DeepSeek está seguindo um caminho diferente do das startups chinesas tradicionais de IA
- Em vez de aplicações comerciais, está focada em inovação tecnológica e na realização da AGI, buscando participar do fluxo global de inovação tecnológica
- Essa abordagem pode ter um impacto importante na direção futura do desenvolvimento da IA na China
2 comentários
O Deepseek V3 apresentou desempenho ruim em benchmarks que testam se houve overfitting
Comentários do Hacker News
As restrições de GPU criaram um ambiente que levou os desenvolvedores chineses a inovar mais e fazer mais com menos recursos
Os elogios à Deepseek são interessantes
Acredita que a China deve se tornar uma contribuidora à medida que sua economia se desenvolve
A Deepseek já era um nome de destaque na comunidade open source de LLMs desde o ano passado
Surpreende não haver menção à combinação da IA simbólica antiga com versões modernas de ML
A China tem um forte incentivo para fazer pesquisa pura a fim de romper a dependência de GPUs
Um dos motivos de a API ser barata é que foi explicitado que os dados da API seriam usados no treinamento
Espera que a competição entre empresas de IA continue de forma saudável
É impressionante que a DeepSeek tenha alcançado desempenho comparável ao o1 e ao Claude com 10 vezes menos recursos
Uso interessante, embora incorreto, da palavra "catfish"