13 pontos por GN⁺ 2025-02-01 | 1 comentários | Compartilhar no WhatsApp
  • O OpenAI o3-mini é o modelo mais recente da série de modelos de raciocínio com boa eficiência de custo
  • Após a prévia de dezembro de 2024, foi lançado oficialmente e está disponível no ChatGPT e na API
  • Apresenta excelente desempenho em áreas STEM, como ciência, matemática e programação, mantendo custo e latência mais baixos que o OpenAI o1-mini

Principais recursos e melhorias

  • O OpenAI o3-mini é o primeiro modelo pequeno de raciocínio a oferecer suporte a chamadas de função, saída estruturada e mensagens de desenvolvedor
  • Oferece suporte a streaming e disponibiliza três opções de esforço de raciocínio — baixo, médio e alto — para otimização conforme o contexto
  • Não oferece suporte a visão (imagem); para casos que exigem raciocínio visual, recomenda-se usar o OpenAI o1
  • Está disponível nas APIs Chat Completions, Assistants e Batch, e é oferecido a desenvolvedores nos níveis 3 a 5 de uso da API
  • Usuários do ChatGPT Plus, Team e Pro podem usá-lo a partir de hoje, enquanto usuários Enterprise terão suporte a partir de fevereiro
  • Substitui o OpenAI o1-mini, oferecendo maior velocidade e capacidade de raciocínio aprimorada
  • O limite de mensagens para usuários Plus e Team aumentou de 50 para 150 em relação ao o1-mini anterior
  • Foi adicionada uma função de busca, e está em teste um recurso que fornece informações mais recentes junto com links da web

Expansão do acesso para usuários gratuitos

  • Usuários gratuitos também podem usar o o3-mini ao selecionar ‘Reason’ na caixa de composição de mensagens ou ao regenerar uma resposta
  • Esta é a primeira vez que um modelo de reasoning é disponibilizado para usuários gratuitos no ChatGPT

Otimização para STEM e melhoria de desempenho

  • Oferece desempenho otimizado para áreas STEM, gerando respostas mais rápidas e precisas que o o1-mini
  • Segundo a avaliação de testadores especializados, o o3-mini foi preferido ao o1-mini em 56% dos casos, e houve redução de 39% nos principais erros em problemas difíceis
  • Apresenta desempenho semelhante ao o1 em avaliações difíceis de raciocínio e inteligência, como AIME e GPQA, com respostas mais rápidas

Comparação principal de desempenho

  • Matemática (AIME 2024):
    • Em esforço de raciocínio baixo, desempenho semelhante ao o1-mini; em esforço médio, desempenho semelhante ao o1
    • Em esforço alto, supera o o1 e o o1-mini
  • Perguntas científicas em nível de doutorado (GPQA Diamond):
    • Em problemas de biologia, química e física, supera o o1-mini mesmo com baixo esforço de raciocínio
    • Em esforço alto, apresenta desempenho semelhante ao o1
  • Matemática avançada (FrontierMath):
    • Com o uso da ferramenta Python, resolve mais de 32% dos problemas na primeira tentativa e mais de 28% dos problemas difíceis (T3)
  • Programação competitiva (Codeforces):
    • Registra pontuações Elo mais altas à medida que o esforço de raciocínio aumenta, com desempenho superior ao o1-mini
    • Em esforço médio, apresenta desempenho semelhante ao o1
  • Engenharia de software (SWE-bench Verified):
    • Registrou o melhor desempenho entre os modelos lançados até agora no SWEbench-verified
  • Teste de programação no mundo real (LiveBench Coding):
    • Supera o o1-high, e em esforço de raciocínio alto demonstra desempenho ainda mais dominante
  • Avaliação de conhecimento geral:
    • Mostra resultados superiores ao o1-mini em avaliações gerais de conhecimento
  • Avaliação de preferência do usuário:
    • Em testes com especialistas, o o3-mini foi preferido 56% mais que o o1-mini, com redução de 39% dos erros em problemas difíceis

Melhorias de velocidade e desempenho

  • Mantém inteligência semelhante à do o1, ao mesmo tempo em que oferece desempenho mais rápido e eficiência aprimorada
  • Produz resultados melhores em avaliações de matemática e factualidade mesmo com esforço de raciocínio médio
  • Segundo os resultados de testes A/B, o o3-mini é 24% mais rápido nas respostas que o o1-mini
    • Tempo médio de resposta: o3-mini (7,7 segundos) vs o1-mini (10,16 segundos)
    • Velocidade de saída do primeiro token: o o3-mini é, em média, 2500 ms mais rápido que o o1-mini

Segurança e medidas de mitigação

  • O OpenAI o3-mini foi treinado para gerar respostas mais seguras usando a técnica de ‘alinhamento deliberativo (deliberative alignment)’
  • Em comparação com o OpenAI o1, demonstrou nível de segurança e capacidade de defesa contra jailbreak até superior ao GPT-4o
  • Antes do lançamento, passou por verificação rigorosa com avaliações de prontidão, testes externos de red team e avaliações de segurança
  • Os resultados das avaliações de respostas a conteúdo não permitido e de jailbreak do o3-mini estão disponíveis no system card

Planos e perspectivas futuras

  • O OpenAI o3-mini representa uma nova etapa no avanço da inteligência de IA com eficiência de custo
  • Segue com o objetivo de oferecer IA de alta qualidade a mais usuários por meio de otimização para STEM e desenvolvimento de modelos de baixo custo
  • Desde o lançamento do GPT-4, segue evoluindo na direção de reduzir em 95% o preço por token sem abrir mão de capacidade de raciocínio de alto nível
  • À medida que a adoção popular da IA se expande, o foco será no desenvolvimento de modelos que equilibrem inteligência, eficiência e segurança

1 comentários

 
GN⁺ 2025-02-01
Comentários no Hacker News
  • O modelo Claude-3.5-sonnet tem excelente consistência, enquanto outros modelos parecem sofrer de problemas parecidos com TDAH

    • Ao tentar usar componentes shadcn em um app NextJS, o sonnet quase sempre faz isso perfeitamente, mas outros modelos tentam usar radix-ui
    • O modelo o3-mini também sofre do mesmo problema
    • É possível que o conjunto de instruções do cursor seja o problema
    • O sonnet continua sendo a única opção viável para programação
  • As respostas do o3-mini são preferidas 56% mais que as do o1-mini

    • Quando as duas respostas têm 2.000 palavras, há uma tendência de escolher a que respondeu mais rápido à pergunta
    • Essa pesquisa não faz sentido, e uma taxa de resposta de 50% é como jogar uma moeda
  • Compartilhamento de um resumo da thread usando o o3-mini

    • Custou 3,3612 centavos para 18.936 de entrada e 2.905 de saída
  • Em programação com IA, o o3-mini obteve pontuação parecida com a do o1, custando 10 vezes menos

    • O o3-mini, com esforço médio, ficou entre R1 e Sonnet em pontuação
  • Anúncio de um novo lançamento da ferramenta de linha de comando LLM CLI com suporte ao novo modelo e à opção reasoning_effort

    • Compartilhamento de exemplo de uso
  • Apontam que a pontuação do o3-mini no SWE Bench caiu de 61% para 49,3%

    • O o3-mini mostra desempenho semelhante ao Claude em tarefas reais de programação
  • Menção de que o o3-mini-high encontrou com sucesso a causa raiz de um seg fault

    • Resolveu um problema que o o1 havia deixado passar anteriormente
  • Houve um aumento significativo no SWE-Bench, e vale a pena testar de novo se ele consegue lidar com tarefas que o o1-mini antes não conseguia

    • Há uma diferença de custo de $4 por milhão de tokens de saída contra $60
  • O cenário de IA está mudando rapidamente, e novos modelos de IA estão surgindo

    • Há curiosidade sobre como as mudanças na IA vão afetar este lançamento e os próximos