DeepSeek R1 mostra resultados promissores em programação

(simonwillison.net)

12 pontos por GN⁺ 2025-01-29 | 4 comentários | Compartilhar no WhatsApp

Foi publicado um PR no projeto llama.cpp que "dobra a velocidade do WASM"
- Otimiza as funções de produto escalar (dot product) qX_K_q8_K e qX_0_q8_0 usando instruções SIMD
- A maior parte do código (99%) foi gerada automaticamente pelo "DeepSeek-R1"
- O DeepSeek-R1 leva de 3 a 5 minutos para processar o prompt

Desempenho de geração de código do DeepSeek-R1

O autor do PR usou o DeepSeek-R1 para gerar e melhorar o código de otimização, enquanto ele próprio só fez diretamente os testes e a escrita dos prompts
Pode ser conferido no prompt usado
O DeepSeek-R1 mostrou uma excelente cadeia de raciocínio no processo de otimização de llm_groq.py

Comparação de desempenho entre DeepSeek-R1 e OpenAI o1

A mesma tarefa também foi realizada com o OpenAI o1, mas o resultado do DeepSeek-R1 foi superior
Processo de raciocínio para otimizar model_map no código de exemplo:
- No início, concluiu que model_map era necessário
- Depois, considerou que ele poderia ser montado dinamicamente com base na resposta da API
- Por fim, decidiu que remover model_map era a melhor solução

Conclusão

O DeepSeek-R1 mostra excelente desempenho em geração e otimização automática de código
A otimização com SIMD no WASM melhora significativamente o desempenho do llama.cpp
Se o PR for aplicado, espera-se uma grande melhora na velocidade de execução de aplicações baseadas em WebAssembly

4 comentários

bungker 2025-01-29

Testei o deepseek r1 14b 30b 70b com o ollama, e no geral o raciocínio é bom, mas ainda comete muitos pequenos erros. O r1 é realmente excelente.

yangeok 2025-01-29

Testei a versão destilada 8b, mas o desempenho em coreano caiu.

yangeok 2025-01-29

Parece que ele consegue produzir resultados significativos na geração de código.

GN⁺ 2025-01-29

Opinião do Hacker News

O DeekSeek-R1 escreveu 99% do código de um PR do llama.cpp. Isso é um exemplo de que a IA pode dar uma grande contribuição à programação
- O Aider escreve cerca de 70% do código novo em cada release, e desde o Sonnet a proporção de código gerado por IA subiu para mais de 50%
- Nos últimos meses, a proporção de código novo escrito pelo Aider foi de 70%, e o recorde é 82%
- Estão migrando cada vez mais a programação do Sonnet para o DeepSeek V3, e estão testando o R1, mas enfrentam dificuldades por causa de interrupções recentes na API
Estão executando o DeepSeek-R1-Distill-Qwen-32B em um notebook via Ollama, e ele exige cerca de 20 GB de RAM
- É útil para refatoração de código e ajuda a encontrar erros no código
O fato de o DeekSeek-R1 ter escrito 99% do código de um PR do llama.cpp é um marco digno de nota
Pediram ao DeepSeek para converter código ARM SIMD em código WASM, o que ajuda na otimização do código
- Lidar com instruções SIMD é uma tarefa mais difícil do que otimização avançada de código
A afirmação de que LLM não é útil para programação está errada
- A afirmação de que a IA pode substituir desenvolvedores não é totalmente bravata
- Se não houver demanda por mais aplicações, os empregos podem diminuir
Usaram o o1 Pro e o Deepseek R1 para escrever testes e2e, e o Deepseek escreveu testes melhores
- Os testes não passaram
Xuan-Son pediu não apenas a conversão de ARM NEON para SIMD, mas também o desenvolvimento de uma nova abordagem
- Tentou otimizar o wllama como projeto de fim de semana e conseguiu concluir o trabalho com sucesso usando um LLM
Reescreveram o plugin llm_groq.py usando o DeepSeek R1, e isso foi feito com o deepseek-r1-distill-llama-70b, ajustado sobre o modelo Llama
Há a possibilidade de a AGI chegar em alguns meses, e o treinamento acontecerá em três etapas
- É importante treinar vários modelos para garantir diversidade para a sobrevivência de longo prazo