Lançamento do Claude 3.7 Sonnet e do Claude Code

(anthropic.com)

1 pontos por GN⁺ 2025-02-25 | 2 comentários | Compartilhar no WhatsApp

A Anthropic apresentou o Claude 3.7 Sonnet como seu modelo mais inteligente até agora e o primeiro modelo híbrido de raciocínio do mercado, oferecendo em um único modelo respostas imediatas e raciocínio passo a passo visível ao usuário
O novo modelo permite escolher entre o modo padrão e o extended thinking mode e, na API, o orçamento de raciocínio pode ser controlado em incrementos de N tokens até o limite de saída de 128K tokens
Houve grandes melhorias em programação e desenvolvimento web de front-end, e testes iniciais com clientes confirmaram pontos fortes no tratamento de codebases complexas, atualizações full stack, fluxos de trabalho com agentes, criação de web apps e geração de código pronto para produção
O Claude Code, anunciado junto, é uma ferramenta de programação com agente baseada em linha de comando, oferecida como prévia de pesquisa limitada, capaz de assumir exploração de código, edição, testes, tarefas no GitHub e uso de ferramentas de linha de comando
O Claude 3.7 Sonnet está disponível nos planos Free, Pro, Team e Enterprise e nas principais plataformas de desenvolvimento; o modo de raciocínio estendido pode ser usado em todos os ambientes, exceto no nível gratuito do Claude, e o preço permanece em $3 por 1 milhão de tokens de entrada e $15 por 1 milhão de tokens de saída

Raciocínio híbrido do Claude 3.7 Sonnet

O Claude 3.7 Sonnet é o modelo mais inteligente já lançado pela Anthropic, capaz de gerar tanto respostas imediatas quanto raciocínio estendido passo a passo
O processo de raciocínio estendido fica visível para o usuário, e quem usa a API pode controlar com precisão por quanto tempo o modelo deve pensar
A Anthropic optou por tratar o raciocínio não como um modelo separado, mas como uma capacidade integrada do modelo de fronteira
- No modo padrão, ele funciona como uma versão aprimorada do Claude 3.5 Sonnet
- No extended thinking mode, ele faz autorreflexão antes de responder, elevando o desempenho em várias tarefas, como matemática, física, seguimento de instruções e programação
- A forma de criar prompts para os dois modos funciona de maneira em geral semelhante
Na API, é possível definir o orçamento de raciocínio em N tokens, e N pode ser configurado até o limite de saída de 128K tokens
- Esse controle serve para equilibrar velocidade e custo com a qualidade da resposta

Desempenho de programação voltado ao trabalho real

O Claude 3.7 Sonnet mostra melhorias especialmente grandes em programação e desenvolvimento web de front-end
A Anthropic afirma ter reduzido um pouco o foco em problemas de olimpíadas de matemática e ciência da computação e passado a priorizar mais as tarefas em que empresas realmente usam LLMs
Nos testes iniciais, várias empresas avaliaram o desempenho de programação
- A Cursor avaliou que o Claude voltou ao mais alto nível em tarefas reais de programação, desde o tratamento de codebases complexas até o uso avançado de ferramentas
- A Cognition avaliou que ele é muito melhor do que outros modelos em planejar mudanças de código e lidar com atualizações full stack
- A Vercel destacou a alta precisão em fluxos de trabalho complexos com agentes
- A Replit afirmou ter construído do zero web apps e dashboards sofisticados com o Claude em situações em que outros modelos travam
- Na avaliação da Canva, o Claude gerou de forma consistente código pronto para produção com melhor senso de design e reduziu bastante os erros

Claude Code em prévia de pesquisa limitada

O Claude Code é a primeira ferramenta de programação com agente da Anthropic e está disponível como prévia de pesquisa limitada
Desenvolvedores podem delegar ao Claude, no terminal, uma parcela significativa do trabalho de engenharia
O Claude Code executa as seguintes tarefas mantendo o desenvolvedor envolvido no processo
- Buscar e ler código
- Editar arquivos
- Escrever e executar testes
- Fazer commit e push de código no GitHub
- Usar ferramentas de linha de comando
Dentro da Anthropic, ele tem sido especialmente útil para desenvolvimento guiado por testes, depuração de problemas complexos e refatorações em grande escala
Nos testes iniciais, o Claude Code normalmente concluiu de uma vez tarefas que manualmente levariam mais de 45 minutos, reduzindo tempo de desenvolvimento e overhead
Nas próximas semanas, estão planejadas melhorias na estabilidade de chamadas de ferramentas, suporte a comandos de longa duração, melhor renderização no app e expansão da compreensão do Claude sobre suas próprias capacidades
Por meio da participação na prévia, é possível acessar a ferramenta que a Anthropic usa para criar e aprimorar o Claude, e o feedback será refletido na direção futura do Claude Code

Integração entre Claude.ai e codebases do GitHub

A experiência de programação no Claude.ai também foi aprimorada, e a integração com GitHub está disponível em todos os planos do Claude
Desenvolvedores podem conectar diretamente seus repositórios de código ao Claude
O Claude 3.7 Sonnet é atualmente o melhor modelo de programação da Anthropic e pode ser usado para entender com mais profundidade projetos pessoais, profissionais e de código aberto, ajudando em correções de bugs, desenvolvimento de recursos e redação de documentação

Disponibilidade e preços

O Claude 3.7 Sonnet está disponível em todos os planos do Claude
- Free
- Pro
- Team
- Enterprise
O Claude 3.7 Sonnet também está disponível no Claude Developer Platform, Amazon Bedrock, e Google Cloud Vertex AI
O extended thinking mode está disponível em todos os ambientes de oferta, exceto no nível gratuito do Claude
Tanto o modo padrão quanto o modo de raciocínio estendido mantêm o mesmo preço do modelo anterior
- $3 por 1 milhão de tokens de entrada
- $15 por 1 milhão de tokens de saída
- O preço de saída inclui os tokens de raciocínio

Avaliação de segurança e system card

O Claude 3.7 Sonnet passou por testes e avaliações extensivos com especialistas externos e foi validado com o objetivo de atender padrões de segurança, proteção e confiabilidade
Ao distinguir com mais precisão entre solicitações nocivas e solicitações legítimas, ele reduz recusas desnecessárias em 45% em relação ao modelo anterior {p:45}
O system card inclui novos resultados de segurança em várias categorias e detalhes da avaliação da Responsible Scaling Policy
O system card também trata de novos riscos surgidos no uso de computador, especialmente ataques de prompt injection
- A Anthropic inclui formas de avaliar essa vulnerabilidade e treinar o Claude para resistir e mitigá-la
Também são discutidos os potenciais benefícios de segurança de modelos de raciocínio
- A possibilidade de entender como o modelo toma decisões
- Se o raciocínio do modelo é de fato confiável e estável

Detalhes sobre scaffolding de avaliação e SWE-bench

A pontuação no TAU-bench foi obtida com a adição de um complemento de prompt para instruir melhor o uso da planning tool na Airline Agent Policy
- Separadamente do thinking mode comum, isso induz o modelo a registrar seu raciocínio durante a resolução do problema
- Por causa da etapa adicional de raciocínio, o número máximo de etapas foi aumentado de 30 para 100
- A maioria das trajetórias terminou em menos de 30 etapas, e houve apenas uma trajetória com mais de 50 etapas
- A pontuação do Claude 3.5 Sonnet no TAU-bench foi recalculada no dataset atualizado após melhorias no dataset
No SWE-bench Verified, existem diferentes abordagens para resolver tarefas de agentes, e o Agentless usa busca de arquivos, localização do ponto do patch e amostragem por rejeição best-of-40 baseada em testes de regressão
A avaliação base do Claude 3.7 Sonnet e do Claude 3.5 Sonnet usa um scaffolding mínimo mais simples
- O modelo decide, em uma única sessão, quais comandos executar e quais arquivos editar
- Ele usa a ferramenta bash, uma ferramenta de edição de arquivos baseada em substituição de strings e a planning tool mencionada no TAU-bench
Devido a limitações da infraestrutura interna, só foi realmente possível resolver 489 dos 500 casos do SWE-bench Verified, e os 11 restantes foram contabilizados como falha para manter a equivalência com o leaderboard oficial
Nos resultados de high compute, foram usadas tentativas em paralelo, descarte de patches que quebravam testes de regressão visíveis e seleção final baseada em modelo de pontuação
- Esse método alcançou 70,3% no subconjunto de 489 tarefas verificadas que rodaram na infraestrutura interna
- No mesmo subconjunto de 489, o Claude 3.7 Sonnet alcançou 63,7% sem scaffolding

2 comentários

GN⁺ 2025-02-25

Opiniões no Hacker News

O Claude 3.7 Sonnet registrou 60,4% sem thinking no ranking multilíngue do aider
Ficou empatado em 3º lugar com o o3-mini-high e tomou do Sonnet 3.5 a maior pontuação sem raciocínio
O aider 0.75.0 adicionou suporte ao 3.7 Sonnet, e disseram que suporte a thinking e resultados de benchmark devem sair em breve
https://aider.chat/docs/leaderboards/
https://aider.chat/HISTORY.html#aider-v0750
- Se são 225 desafios de programação do Exercism, fico curioso se houve algum esforço para reduzir vazamento de dados do conjunto de teste
  Parece que esses desafios já estavam na internet antes de 2023, então há uma boa chance de terem entrado nos dados de treinamento dos modelos modernos
- Usando até 32k tokens de thinking, o Sonnet 3.7 chegou a 64,9%, estabelecendo o melhor resultado
  65% Sonnet 3.7, 32k thinking / 64% R1+Sonnet 3.5 / 62% o1 high / 60% Sonnet 3.7, sem thinking / 60% o3-mini high / 57% R1 / 52% Sonnet 3.5
- É interessante que a pontuação de formato diff correto, que era 99,6% no Claude 3.5, caiu para 93,3% no Claude 3.7
  Pelo que experimentei com o claude-code, houve casos recorrentes em que era preciso tentar várias vezes até obter um diff correto, e espero que isso melhore com a estabilização
- Venho acompanhando o projeto aider há cerca de 1 ano, tentando entender como se constroem agentes de engenharia de software
  Na semana passada, no AI Engineering Summit em Nova York, conheci um engenheiro de IA staff muito sênior que estava fazendo coisas bem difíceis de acreditar com o aider, e fiquei realmente impressionado
  Talvez seja inadequado postar isso em um fórum público, então, se eu receber permissão, queria saber se há alguma forma de compartilhar diretamente essas histórias de projetos reais com aider
Sou Boris, da equipe do Claude Code, e, junto com @eschluntz, @catherinewu, @wolffiex e @bdr, vou tentar responder o máximo possível de perguntas sobre o produto na próxima hora
- Há algo que eu realmente gostaria que fosse corrigido. Quando digito um prompt, o modelo gera 90% ou até 100% da resposta, mas então o sistema mostra um erro dizendo que não pode criar a resposta por capacidade excedida e apaga até a resposta que já tinha sido produzida
  Gostaria que fosse possível acessar a resposta já fornecida, mesmo que incompleta
- Minha maior reclamação é que, na UI, basta fazer algumas consultas um pouco mais pesadas para eu continuar batendo no limite de uso
  Dá para usar a API no console, mas aí perco recursos como Projects
  Gostaria de saber se há chance de esses limites aumentarem em breve
- O Claude é meu LLM padrão para tudo e, por mais clichê que soe, ele realmente está ampliando em várias vezes o alcance do que consigo aprender de forma razoável
  Ultimamente tenho lido textos antigos de filosofia sem conhecimento prévio na área, e eu teria desistido várias vezes se o Claude não destrinchasse frases difíceis, discutisse ideias, ajudasse com o contexto histórico, explicasse por que eram escritas daquele jeito e ainda comparasse com correntes de pensamento novas
  No trabalho, também uso várias vezes por dia para desenvolvimento, e o modo conciso é realmente revigorante em comparação com outros LLMs
  Ele encontrou bugs em codebases desconhecidas, explicou stacks técnicas e escreveu scripts bash, economizando dezenas de horas e muito estresse
  No entanto, a estabilidade do serviço é um pouco inferior à de outros lugares e às vezes preciso trocar para outro modelo; queria saber se há planos para melhorar isso
- Eu estava no meio de uma refatoração bem bagunçada de um código antigo de componentes React baseados em classes que não era tocado há 6 anos, e, depois de usar o Aider por alguns dias, bati em uma parede
  Eu estava justamente vasculhando o código-fonte do Aider no GitHub para extrair os prompts e criar meu próprio pequeno script auxiliar, então o timing deste lançamento foi perfeito
  Instalei o Claude Code e ele está resolvendo essa tarefa rapidamente; também gostei da interface e dos toques de personalidade como “Ruminating” e “Schlepping”
  No geral, ótimo trabalho
- Acabei de começar a testar a ferramenta de linha de comando e, como primeira impressão depois de 5 minutos, acho que seria bom o claude-code também mostrar o custo por consulta e o custo total da sessão, algo que eu gostava no aider
  Tenho usado o aider com o Claude 3.5 no dia a dia, e era útil poder acompanhar os custos naturalmente
  Também seria bom se fosse escrito em uma linguagem compilável como Go ou Rust, embora eu entenda que o custo de reescrita possa ser alto
  Depois de cerca de 10 minutos de uso, parece haver um problema grande em patches básicos de código Go. Ele adicionou uma linha com indentação errada e depois tentou corrigir três vezes com a indentação correta, mas sempre deu "String to replace not found in file"
  O Aider usando Claude 3.5 lida muito bem com isso, então talvez valha a pena olhar os prompts e o formato de patch dele
O benchmark de LLMs da Kagi foi atualizado para refletir o modo geral e o modo thinking do Sonnet 3.7
https://help.kagi.com/kagi/ai/llm-benchmark.html
Entre os LLMs gerais que testei, parece ficar em 2º lugar, atrás do Gemini 2.0 Pro e à frente do gpt-4o
O modo thinking é menos impressionante e, com um orçamento de thinking de 8192 tokens, fica mais ou menos no nível do o1-mini e do o3-mini
No geral, é uma boa atualização: pelo mesmo preço, você obtém um modelo de maior qualidade e mais rápido, e espero que dê para ativá-lo no Kagi Assistant em até 24 horas
- Obrigado à equipe da Kagi por disponibilizar um novo LLM tão rapidamente no Assistant
  O valor do Kagi Assistant, para mim, é algo que nem preciso pensar muito
- Agora é surpreendente que o Gemini 2.0 esteja em 1º lugar
  Lembro que os modelos do Google tinham desempenho baixo no benchmark da Kagi
- Fico curioso para saber como escolheram o orçamento de thinking de 8192 tokens
  Vejo com frequência o DeepSeek R1 usando muito mais do que isso
- Já aparece no Kagi Assistant, e nem se passaram 24 horas. Bom
- O que não entendo é que o Claude 3.5 Haiku, que não é um modelo thinking, aparece na seção não thinking, mas é exibido com orçamento de thinking de 8192
Analisar perfis do HN com isso é bem engraçado :)
https://hn-wrapped.kadoa.com/
Estou usando para testar o senso de humor do novo modelo
- Fui devidamente esculachado com algo tipo: falei mais sobre fazer um “detector de ragas carnáticos” do que de fato o construí, e, nesse ritmo, o LLM vai compor uma raga antes que o detector identifique uma
  Também disse que comprei um processador 7950X, mas não sei o que fazer com ele, como se fosse o equivalente computacional de dirigir uma Ferrari uma vez por semana para ir ao mercado
  Disse que tirei um sabático por preocupação com equilíbrio entre trabalho e vida, mas passei esse período comentando sobre a carreira dos outros no HN
  Se alguém estiver procurando por mim, estarei chorando no meu quarto
- “Seu salário é tão baixo que até código legado sente pena”
  “Você é a única pessoa no HN que acha que US$ 800 por mês é salário, não uma conta de cloud computing”
  Doeu
- Fui completamente destruído: “Você passou mais tempo explicando por que o tratamento de erros em Go é ruim do que os desenvolvedores de Go passaram realmente tratando erros”
  “Sua relação com linguagens de programação parece um reality show de namoro. Você encontra defeitos em todas, mas não consegue se comprometer com nenhuma”
  “Se tratamento de erros fosse uma religião, você seria o missionário mais fervoroso, convertendo uma exceção unchecked de cada vez”
- “Para alguém que trabalhou no Reddit, você passa tempo demais no HN. É como sair do Facebook para reclamar de redes sociais no Twitter o dia todo”
  Tão preciso que dói
- “Você escreve romances em threads de comentários do HN enquanto reclama de distrações digitais. É como criticar fast-food enquanto espera na fila do drive-thru”
  “Você vai escrever um ensaio ponderado sobre ‘minimalismo digital’, colocá-lo na front do HN e, ironicamente, acabar passando mais tempo respondendo aos comentários dele do que passou no HN o ano todo”
  Ele está me vendo. Não
Desde a minha primeira interação com o Claude 3.7 Sonnet, fiquei bastante impressionado
Pedi para ele encontrar um problema em uma base de código em que uma função do Cloudflare Pages retornava 500, erros absurdos e respostas vazias em produção; era um problema que eu não consegui encontrar durante a sexta-feira inteira
O script morria antes de imprimir qualquer coisa, então era muito frustrante porque não havia como adicionar mais logs nem obter visibilidade
o1, o3 e Claude 3.5 não ajudaram em nada, mas o Claude 3.7, depois de 39 segundos de thinking, encontrou o problema exato na primeira resposta e, no segundo prompt, até escreveu uma função funcional para contorná-lo
Como conectei o repositório do GitHub à conversa, acho que não dá para compartilhar a discussão, então copiei para um gist: https://gist.github.com/Uninen/46df44f4307d324682dabb7aa6e10...
- Uma das respostas mostra que o Claude ainda é basicamente ignorante quanto ao raciocínio real
  Ele sugeriu mover a sanitização de HTML para o frontend, mas eu a deixei na função CF justamente porque é fácil demais contornar isso no frontend e acabar permitindo que literalmente qualquer coisa seja enviada ao DB
  É algo que até um desenvolvedor júnior entenderia
Consegui fazer isso funcionar na minha ferramenta de LLM, e a nova versão do plugin é llm-anthropic 0.14
No processo, descobri várias coisas sobre o modelo, e minhas anotações detalhadas estão aqui: https://simonwillison.net/2025/Feb/25/llm-anthropic-014/
Um dos novos recursos mais interessantes é que o limite de saída aumentou de 8.000 tokens no Claude 3.5 Sonnet anterior para 120.000 tokens
Este modelo parece conseguir usar esse limite de saída de forma eficaz, e o resultado mais longo até agora levou 27 minutos para ser concluído: https://gist.github.com/simonw/854474b050b630144beebf06ec4a2...
- Não querendo desmerecer o Sonnet 3.7, mas dizer que isso é muito maior do que qualquer outro modelo da área não parece correto
  o1 e o3-mini também chegam a 100.000 tokens de saída
  https://platform.openai.com/docs/models#o1
- Fico me perguntando se o Simon já escreveu em algum lugar como consegue ser tão ativo, com ferramentas de programação, blog e trabalho
  Fico curioso para saber de onde ele tira tempo e energia
- Fico curioso para saber quanto custou
Faz sentido a Anthropic se concentrar mais em código
Comparado a outros modelos, código era um ponto forte
Pensando nas dificuldades do Devin, fico curioso para ver como será o produto concorrente deles ao Devin
- Como é o modelo que impulsiona boa parte do uso do Cursor/Windsurf e eles também estão promovendo o MCP, acho que pode dar certo se acertarem bem a experiência do usuário
- É claramente um ponto forte, mas às vezes eu queria que o chat não tivesse tanta vontade de escrever código
  Mesmo quando quero só respostas conceituais ou de alto nível, ele frequentemente joga código, então hoje em dia já falo por hábito para não escrever código
- Pensei a mesma coisa, e tenho 3 problemas realmente difíceis que até agora nem Claude nem nenhum outro modelo conseguiu resolver, então estou animado para testar hoje
- Achei meio engraçado eles citarem no post do blog a Cognition, ou seja, a empresa que criou o Devin
É uma boa notícia dizerem que, “ao desenvolver modelos de raciocínio, reduzimos um pouco a otimização para problemas de olimpíadas de matemática e ciência da computação e mudamos o foco para tarefas do mundo real, que refletem melhor como as empresas realmente usam LLMs”
A OpenAI parece mirar no “modelo mais inteligente”, mas, na prática, LLMs são usados principalmente como tutores de estudo, transformadores de dados e geradores de código
O equilíbrio entre “inteligência” e “capacidade de concluir trabalho” parece ser o sweet spot, e isso parece ser um dos motivos pelos quais as ferramentas atuais para desenvolvedores (Cursor, Windsurf etc.) preferem o Claude 3.5 Sonnet ao 4o
- Todos nós usamos o Claude diretamente no trabalho todos os dias, e é mais interessante resolver nossas próprias dores do que benchmarks abstratos
  Para concluir trabalho, é preciso muito conhecimento teórico, mas também muita sensibilidade prática para saber quando responder rápido e quando voltar atrás
- Às vezes me pergunto se não há overfitting aos benchmarks. O DeepSeek me dá especialmente essa impressão
  Independentemente de onde esteja no ranking real, o chat cujas respostas subjetivamente parecem melhores e ao qual continuo voltando é o Claude
- O Claude 3.5 era excelente no Windsurf, mas custava créditos
  O DeepSeek V3 agora está disponível no Windsurf sem custo de créditos, e isso foi uma grande mudança para a empresa
  De qualquer forma, é bom ter mais opções
  Recomendo muito testar o recurso Cascade do Windsurf para escrita e exploração de código em estilo agente. Ele economiza muito tempo para entender uma nova base de código e rastrear fluxos de dados
A corrida de IA está avançando muito rápido
Como desenvolvedor/engenheiro de software, estou preocupado com as perspectivas de emprego, e acho que só o tempo dirá
Também fico curioso para saber o que acontecerá com a bolha imobiliária da Costa Oeste se os salários altos dos engenheiros de software desaparecerem
Talvez a próxima onda de trabalhadores do conhecimento venha e substitua esse espaço
- É verdade que o mercado de trabalho de desenvolvimento de software está sendo bastante abalado, mas há coisas que dá para fazer para ficar em uma posição favorável
  Aprender mais sobre a stack inteira, especialmente backend e DevOps, aceitar o aumento de produtividade para lançar mais produtos e projetos pessoais, ser muito seletivo com o tempo de produção e ter um ótimo sistema pessoal de gestão de conhecimento e assistentes agentes
- Na prática, parece que o ritmo está desacelerando
  O ano passado foi intenso até por volta do Llama 3, mas as melhorias recentes são relativamente pequenas
  Modelos de raciocínio também são só um pouco melhores do que o que já dava para fazer antes com planejamento explícito por agentes, mais próximos de algo bem empacotado para o propósito e levemente ajustado
  O DeepSeek trouxe um grande avanço em eficiência, mas a mudança visível para o usuário não foi tão grande
  Por isso acho que a corrida recente de IA está entrando em uma espécie de platô
- O impacto pode ser muito mais amplo do que o Vale do Silício ou a Costa Oeste; na verdade, o Vale do Silício talvez seja uma das poucas regiões ainda relativamente promissoras graças ao desenvolvimento de IA
  Esses modelos podem abalar o emprego no setor no mundo inteiro
  Ironicamente, talvez as profissões que realmente mudem sejam só engenheiros de software e algumas áreas como escrita e design gráfico
  O fato de os laboratórios de IA mirarem especialmente engenheiros de software fica evidente só pelo anúncio “Claude 3.7 and Code”, e quase não há menção a outras áreas
  Para quem não está no Vale do Silício e nunca teve salários altos, engenharia de software muitas vezes é um emprego comum, estressante e que exige aprendizado contínuo
  Portanto, provavelmente também havia menos chance de investir e poupar com alta renda disponível, então a dor e a insegurança causadas pela automação são maiores
  Quem diria que a primeira profissão que a IA automatizaria não seria trabalho manual nem direção autônoma, mas o próprio software
  Outras indústrias parecem mais difíceis porque bateram em becos sem saída ou têm barreiras como regulação e conhecimento fechado
  Os engenheiros de software acabaram servindo de exemplo para outras indústrias: não deixem a IA entrar ou mantenham-na confinada internamente pelo maior tempo possível, isto é, continuem closed source
  Em retrospecto, é irônico
- No curto e médio prazo, não estou muito preocupado
  Sinto que há casos de borda e contextos sutis demais que sistemas de IA vão deixar passar
  Por exemplo, sistemas nem sempre se comportam como documentado. Como a IA vai distinguir um bug de um serviço de um bug no próprio código? Como ela vai saber, para começo de conversa, que existe um bug? Como vai diferenciar um relato de bug de uma tentativa de invasão por um hacker?
  O mundo é complexo e, se não houver uma inteligência artificial de verdade, será preciso alguém para guiar a IA nessas situações difíceis
  Meu conselho é se acostumar a usar IA e novas ferramentas de IA, e entender como elas se encaixam em fluxos de trabalho comuns
  Acho que bons engenheiros de software não vão desaparecer
- Se os modelos melhorarem, mas não chegarem a uma singularidade completa, acho que os empregos até vão aumentar
  Por exemplo, se o custo de criar software cair 5 vezes, como hoje a oferta é muito limitada, a demanda vai crescer mais de 5 vezes
  Há muitas empresas que querem software melhor, mas o custo é alto demais
  Isso criaria mais empregos
  Só que haverá menos digitação e mais gestão de produto, interação humana e testes de casos de borda
  Também deve surgir uma boa quantidade de empregos bastante técnicos para depurar quando os modelos falharem
  Por isso, meu conselho é aprender habilidades que ajudem a criar software útil para pessoas e negócios, de pesquisa com usuários a gestão de produto. Engenharia também será necessária
O Claude 3.7 refez metade da minha monografia de graduação em menos de 30 segundos :|
https://claude.ai/share/ed8a0e55-633f-4056-ba70-772ab5f5a08b
A imagem gerada está aqui: https://i.imgur.com/0c65Xfk.png
O Gemini Flash 2 fracassou de forma desastrosa: https://g.co/gemini/share/10437164edd0
- Em geral, a maior parte dos temas tratados na graduação é bem documentada e bem compreendida, então é bem provável que tenha entrado nos dados de treinamento de IA
  A partir do nível de pós-graduação, o escopo do material fica um pouco mais escasso e de nicho, mas ainda assim, em geral, não chega a ser inovador
  No doutorado, o objetivo é expandir o conhecimento existente da área, e muitos temas estão sendo explorados pela primeira vez, então eu diria que a cobertura é quase inexistente na maior parte dos casos
- Agora é a vez do mestrado e do doutorado!
- Fico curioso se esse conteúdo, ou algo parecido, estava disponível em materiais de acesso aberto ou em algumas bibliotecas

riskatcher 2025-02-25

A diferença de preço é grande demais para comparar com o flash 2.. fica bem no meio entre o o1pro e o o3-mini