1 pontos por GN⁺ 2025-08-08 | Ainda não há comentários. | Compartilhar no WhatsApp
  • GPT-5 API foi oficialmente lançado, oferecendo aos desenvolvedores um novo nível de desempenho em codificação e em tarefas de agente.
  • Em avaliações principais como SWE-bench Verified e Aider polyglot, registrou SOTA (melhor desempenho) e comprovou excelência em vários casos de clientes, como Cursor, Windsurf e Vercel.
  • Mostrou-se forte em trabalhos de agente de execução longa, integração de ferramentas sofisticada e processamento de contexto extenso em tarefas reais complexas.
  • Com parâmetros detalhados como verbosity, reasoning_effort e suporte a ferramentas customizadas, é possível um controle personalizado para desenvolvedores.
  • Com gpt-5, gpt-5-mini, gpt-5-nano, oferece diferentes opções de custo e desempenho e foi integrado à Microsoft e a diversas ferramentas de desenvolvimento.

Lançamento e importância do GPT-5

  • A OpenAI lançou o GPT-5 na plataforma de API, destacando que é o modelo com melhor desempenho para codificação e tarefas de agente entre os modelos lançados até hoje.
  • Ele obteve SOTA (melhor desempenho) em benchmarks principais de codificação e foi treinado em parceria com testadores reais de startups e empresas.
  • Demonstrou excelente atuação como parceiro em operações reais de desenvolvimento, como geração de código, correção de bugs, edição de código e consulta em bases de código complexas.
  • Melhorou a capacidade de seguir instruções detalhadas com precisão, explicando o comportamento e o planejamento antes e depois de chamadas de ferramentas.
  • O desempenho em desenvolvimento frontend também se destacou, recebendo avaliação de 70% superior ao modelo anterior em testes internos.

Principais clientes e casos de uso reais

  • Cursor, Windsurf, Vercel, Manus, Notion e Inditex avaliaram como alta a inteligência, a facilidade de ajuste, o tratamento de erros de ferramentas e a qualidade do código do GPT-5.
  • Em cenários reais de produção, mostrou estabilidade e eficiência superiores às de modelos anteriores em tarefas de background complexas, funções de agente de longa execução e integração refinada de ferramentas.

Benchmarks e métricas de desempenho

  • SWE-bench Verified (correção de issues reais de software): desempenho de 74,9%, com 22% menos tokens e 45% menos chamadas de ferramentas em relação ao o3, melhorando a eficiência.
  • Aider polyglot (avaliação de edição de código): atingiu 88%, alcançando uma taxa de erro de aproximadamente 1/3 em comparação com o o3.
  • Em análise de bases de código complexas e para aprimorar grandes LLMs conforme a pergunta do solicitante, facilita o uso por desenvolvedores e pesquisadores.
  • A geração de código frontend teve vantagem de 70% em testes, tanto em sensibilidade estética quanto em precisão.

Trabalho com agentes e desempenho em contexto longo

  • No τ2-bench telecom (benchmark de chamadas de ferramenta), marcou 96,7%, estabelecendo novo SOTA.
  • Alta capacidade de conclusão de tarefas com dezenas de chamadas de ferramenta executadas de forma sequencial ou paralela.
  • Nos testes de cumprimento de instruções do COLLIE, Scale MultiChallenge, alcançou a maior pontuação.
  • Em OpenAI-MRCR, BrowseComp Long Context e similares, superou o3 e GPT-4.1 em Q&A de contexto longo.
  • Suporta comprimento de contexto de até 400.000 tokens, adequado para análise de documentos e conversas em grande escala.

Confiabilidade e segurança

  • Nos testes LongFact, FactScore, houve redução de mais de 80% em erros factuais em comparação com o o3.
  • Reconhece e sinaliza suas próprias limitações e reforçou a precisão, especialmente em perguntas de saúde.
  • Ainda é recomendada a validação pelo desenvolvedor em áreas ainda críticas no uso real.

Controle para desenvolvedores e novidades da API

  • reasoning_effort: permite ajustar o equilíbrio entre velocidade de resposta e qualidade de raciocínio com os valores minimal/low/medium/high.
    • minimal: resposta rápida, high: raciocínio lógico de alta qualidade
  • verbosity: ajusta o comprimento da saída com low/medium/high.
    • Instruções explícitas têm prioridade sobre o parâmetro quando houver conflito.
  • Ferramentas personalizadas: também oferece suporte a formato plaintext além de JSON, com restrições de formato de entrada de ferramentas via regex ou Context-Free Grammar.
  • Em grandes blocos de código/relatórios, minimiza preocupações com erros de escape de JSON e melhora a facilidade de integração com ferramentas de desenvolvimento.

Modelos da API e política de preços

  • gpt-5: US$ 1,25 por milhão de tokens de entrada, US$ 10 por milhão de tokens de saída
  • gpt-5-mini: US$ 0,25 por milhão de tokens de entrada, US$ 2 por milhão de tokens de saída
  • gpt-5-nano: US$ 0,05 por milhão de tokens de entrada, US$ 0,40 por milhão de tokens de saída
  • Todos os modelos oferecem suporte a reasoning_effort, verbosity, ferramentas personalizadas, chamadas paralelas de ferramentas, ferramentas integradas de web/arquivo/imagem e streaming, entre outras funcionalidades principais.
  • gpt-5-chat-latest foi lançado como modelo de ChatGPT sem foco em raciocínio, com o mesmo preço.

Integração e escalabilidade

  • O lançamento ocorreu com integração em várias plataformas da Microsoft, incluindo Microsoft 365 Copilot, GitHub Copilot, Azure AI Foundry.
  • Aplicado como motor central de sistemas de agente de desenvolvedor, como Cursor, Windsurf, GitHub Copilot, Codex CLI.
  • Avaliações internas com alpha testers e diversos produtos de automação de código e de trabalho apresentaram um novo padrão em comparação com modelos anteriores.

Segurança, confiabilidade e materiais adicionais

  • A chance de resposta incorreta (alucinação) foi reduzida significativamente, e o GPT-5 passa a descrever de forma mais honesta o processo de trabalho e suas limitações.
  • O card de sistema, blog interno de pesquisa e outros materiais disponibilizam de forma transparente detalhes de implementação, avaliação e medidas de segurança.
  • Também é um parceiro avançado de codificação automática, especializado em automação de fluxos de trabalho agentivos complexos.

Conclusão

  • O GPT-5 é o modelo mais forte até hoje para codificação e tarefas de agente entre os LLMs lançados até agora, e um parceiro inovador otimizado para ambientes reais de desenvolvimento e automação de trabalho.
  • Com a API e ecossistema de ferramentas evoluídos, variedade de capacidades e preços, e alto desempenho em avaliações, abre uma nova era de produtividade para desenvolvedores e organizações.

Ainda não há comentários.

Ainda não há comentários.