CEO da Anthropic, Dario Amodei: os modelos da DeepSeek não são tão surpreendentes

(darioamodei.com)

16 pontos por dohyun682 2025-01-30 | 3 comentários | Compartilhar no WhatsApp

Dario Amodei afirma que a percepção sobre os modelos V3 e R1 da DeepSeek foi exagerada

Três dinâmicas do avanço da IA (Three Dynamics of AI Development)

Scaling laws: mantendo os demais fatores iguais, o desempenho de sistemas de IA aumenta conforme a escala cresce. Por exemplo, um modelo de US$ 1 milhão acerta 20% das tarefas de programação, um modelo de US$ 10 milhões acerta 40% e um modelo de US$ 100 milhões acerta 60%
Shifting the curve: a curva de custo-desempenho se desloca com mudanças na arquitetura do modelo ou com aumento da eficiência computacional. Pequenas inovações em eficiência de custo geram algo como 1,2x de ganho, inovações médias 2x e grandes inovações cerca de 10x. No entanto, mesmo quando a eficiência de custo aumenta, as empresas não reduzem o custo de treinamento; elas reinvestem para criar modelos de desempenho mais alto. O acúmulo dessas inovações vem produzindo um aumento de cerca de 4x ao ano.
Shifting the paradigm: até 2023, o principal alvo do scaling eram os pretrained models treinados com enormes volumes de dados da internet. Porém, a partir de 2024, começando com o o1, o reinforcement learning passou a ser utilizado. Esse método parte de um pretrained model convencional e depois adiciona uma etapa de reinforcement learning. Desde 2024, a etapa de scaling do reinforcement learning começou a avançar, mas como ainda está em estágio inicial, investimentos relativamente pequenos ainda podem trazer grandes ganhos de desempenho.

Modelos da DeepSeek

A DeepSeek divulgou há um mês o pretrained model DeepSeek-V3 e, na semana passada, apresentou o R1 com uma etapa adicional de reinforcement learning. O DeepSeek-V3 chegou perto de desempenho SOTA e melhorou bastante a eficiência do modelo.

No entanto, é exagerado o rumor de que a DeepSeek mostrou desempenho equivalente ao de modelos de bilhões de dólares das empresas americanas com apenas US$ 6 milhões. O Claude Sonnet 3.5 consumiu dezenas de milhões de dólares em treinamento e foi treinado há um ano.
Considerando que a eficiência de treinamento aumenta cerca de 4x por ano e que o desempenho do V3 ainda não alcança o SOTA (uma diferença equivalente a cerca de 2x no custo na curva), o fato de o modelo V3 ter sido treinado por um custo cerca de 8x menor não foge da tendência atual de avanço. As empresas americanas também alcançarão em breve esse nível de eficiência por seus próprios meios.
A questão é que um modelo que segue essa tendência apareceu na China.
A DeepSeek possui 50.000 chips da geração Hopper. Considerando que isso corresponde a cerca de 1/2 a 1/3 do nível das empresas americanas, a diferença de custo em relação às empresas dos EUA não é tão grande.
Do ponto de vista de engenharia, o R1 é menos interessante que o V3. Como ainda estamos nos estágios iniciais da curva de reinforcement learning, o R1 conseguiu mostrar desempenho de nível o1 com baixo custo. À medida que o scaling do reinforcement learning avançar, casos assim devem se tornar menos frequentes.

Controles de exportação

Laboratórios dos EUA e da China estão investindo enormes quantias no desenvolvimento de IA poderosa, e isso deve continuar até que surjam modelos de IA melhores que quase todos os humanos em quase todas as áreas. A estimativa é algo em torno de 2026-2027.
Nesse momento, o mundo poderá se dividir de forma completamente diferente dependendo dos controles de exportação.

Se a China conseguir garantir milhões de chips, o mundo se tornará bipolar, com EUA e China cada um possuindo modelos de IA poderosos e inovando em tecnologia.
Se a China não conseguir garantir milhões de chips, o mundo se tornará unipolar, com apenas os EUA e seus aliados tendo modelos poderosos. Como a IA também acelera o próprio avanço da IA, essa tendência deve se manter por algum tempo.

O sucesso da DeepSeek não significa que os controles de exportação falharam. Eles já haviam garantido chips suficientes antes dos controles de exportação.

Além disso, Amodei também negou o rumor de que o 3.5 Sonnet seria uma versão destilada de modelos superiores não públicos (como o 3.5 Opus).

3 comentários

iolothebard 2025-01-31

O problema é o fato de o modelo ter surgido na China?
Provavelmente o problema é ser um modelo aberto…

jintak0401 2025-01-31

Estou ansioso e, ao mesmo tempo, com medo do dia em que a AGI surgir.

kbumsik 2025-01-31

A Anthropic dizer esse tipo de coisa... hmmm
Já faz meses que não há nenhuma novidade sobre modelos, então estão começando a surgir comentários perguntando o que a Anthropic anda fazendo.

CEO da Anthropic, Dario Amodei: os modelos da DeepSeek não são tão surpreendentes

Três dinâmicas do avanço da IA (Three Dynamics of AI Development)

Modelos da DeepSeek

Controles de exportação

Leituras relacionadas

3 comentários