Lançamento do OpenAI o3-Mini

(openai.com)

13 pontos por GN⁺ 2025-02-01 | 1 comentários | Compartilhar no WhatsApp

O OpenAI o3-mini é o modelo mais recente da série de modelos de raciocínio com boa eficiência de custo
Após a prévia de dezembro de 2024, foi lançado oficialmente e está disponível no ChatGPT e na API
Apresenta excelente desempenho em áreas STEM, como ciência, matemática e programação, mantendo custo e latência mais baixos que o OpenAI o1-mini

Principais recursos e melhorias

O OpenAI o3-mini é o primeiro modelo pequeno de raciocínio a oferecer suporte a chamadas de função, saída estruturada e mensagens de desenvolvedor
Oferece suporte a streaming e disponibiliza três opções de esforço de raciocínio — baixo, médio e alto — para otimização conforme o contexto
Não oferece suporte a visão (imagem); para casos que exigem raciocínio visual, recomenda-se usar o OpenAI o1
Está disponível nas APIs Chat Completions, Assistants e Batch, e é oferecido a desenvolvedores nos níveis 3 a 5 de uso da API
Usuários do ChatGPT Plus, Team e Pro podem usá-lo a partir de hoje, enquanto usuários Enterprise terão suporte a partir de fevereiro
Substitui o OpenAI o1-mini, oferecendo maior velocidade e capacidade de raciocínio aprimorada
O limite de mensagens para usuários Plus e Team aumentou de 50 para 150 em relação ao o1-mini anterior
Foi adicionada uma função de busca, e está em teste um recurso que fornece informações mais recentes junto com links da web

Expansão do acesso para usuários gratuitos

Usuários gratuitos também podem usar o o3-mini ao selecionar ‘Reason’ na caixa de composição de mensagens ou ao regenerar uma resposta
Esta é a primeira vez que um modelo de reasoning é disponibilizado para usuários gratuitos no ChatGPT

Otimização para STEM e melhoria de desempenho

Oferece desempenho otimizado para áreas STEM, gerando respostas mais rápidas e precisas que o o1-mini
Segundo a avaliação de testadores especializados, o o3-mini foi preferido ao o1-mini em 56% dos casos, e houve redução de 39% nos principais erros em problemas difíceis
Apresenta desempenho semelhante ao o1 em avaliações difíceis de raciocínio e inteligência, como AIME e GPQA, com respostas mais rápidas

Comparação principal de desempenho

Matemática (AIME 2024):
- Em esforço de raciocínio baixo, desempenho semelhante ao o1-mini; em esforço médio, desempenho semelhante ao o1
- Em esforço alto, supera o o1 e o o1-mini
Perguntas científicas em nível de doutorado (GPQA Diamond):
- Em problemas de biologia, química e física, supera o o1-mini mesmo com baixo esforço de raciocínio
- Em esforço alto, apresenta desempenho semelhante ao o1
Matemática avançada (FrontierMath):
- Com o uso da ferramenta Python, resolve mais de 32% dos problemas na primeira tentativa e mais de 28% dos problemas difíceis (T3)
Programação competitiva (Codeforces):
- Registra pontuações Elo mais altas à medida que o esforço de raciocínio aumenta, com desempenho superior ao o1-mini
- Em esforço médio, apresenta desempenho semelhante ao o1
Engenharia de software (SWE-bench Verified):
- Registrou o melhor desempenho entre os modelos lançados até agora no SWEbench-verified
Teste de programação no mundo real (LiveBench Coding):
- Supera o o1-high, e em esforço de raciocínio alto demonstra desempenho ainda mais dominante
Avaliação de conhecimento geral:
- Mostra resultados superiores ao o1-mini em avaliações gerais de conhecimento
Avaliação de preferência do usuário:
- Em testes com especialistas, o o3-mini foi preferido 56% mais que o o1-mini, com redução de 39% dos erros em problemas difíceis

Melhorias de velocidade e desempenho

Mantém inteligência semelhante à do o1, ao mesmo tempo em que oferece desempenho mais rápido e eficiência aprimorada
Produz resultados melhores em avaliações de matemática e factualidade mesmo com esforço de raciocínio médio
Segundo os resultados de testes A/B, o o3-mini é 24% mais rápido nas respostas que o o1-mini
- Tempo médio de resposta: o3-mini (7,7 segundos) vs o1-mini (10,16 segundos)
- Velocidade de saída do primeiro token: o o3-mini é, em média, 2500 ms mais rápido que o o1-mini

Segurança e medidas de mitigação

O OpenAI o3-mini foi treinado para gerar respostas mais seguras usando a técnica de ‘alinhamento deliberativo (deliberative alignment)’
Em comparação com o OpenAI o1, demonstrou nível de segurança e capacidade de defesa contra jailbreak até superior ao GPT-4o
Antes do lançamento, passou por verificação rigorosa com avaliações de prontidão, testes externos de red team e avaliações de segurança
Os resultados das avaliações de respostas a conteúdo não permitido e de jailbreak do o3-mini estão disponíveis no system card

Planos e perspectivas futuras

O OpenAI o3-mini representa uma nova etapa no avanço da inteligência de IA com eficiência de custo
Segue com o objetivo de oferecer IA de alta qualidade a mais usuários por meio de otimização para STEM e desenvolvimento de modelos de baixo custo
Desde o lançamento do GPT-4, segue evoluindo na direção de reduzir em 95% o preço por token sem abrir mão de capacidade de raciocínio de alto nível
À medida que a adoção popular da IA se expande, o foco será no desenvolvimento de modelos que equilibrem inteligência, eficiência e segurança

1 comentários

GN⁺ 2025-02-01

Comentários no Hacker News

O modelo Claude-3.5-sonnet tem excelente consistência, enquanto outros modelos parecem sofrer de problemas parecidos com TDAH
- Ao tentar usar componentes shadcn em um app NextJS, o sonnet quase sempre faz isso perfeitamente, mas outros modelos tentam usar radix-ui
- O modelo o3-mini também sofre do mesmo problema
- É possível que o conjunto de instruções do cursor seja o problema
- O sonnet continua sendo a única opção viável para programação
As respostas do o3-mini são preferidas 56% mais que as do o1-mini
- Quando as duas respostas têm 2.000 palavras, há uma tendência de escolher a que respondeu mais rápido à pergunta
- Essa pesquisa não faz sentido, e uma taxa de resposta de 50% é como jogar uma moeda
Compartilhamento de um resumo da thread usando o o3-mini
- Custou 3,3612 centavos para 18.936 de entrada e 2.905 de saída
Em programação com IA, o o3-mini obteve pontuação parecida com a do o1, custando 10 vezes menos
- O o3-mini, com esforço médio, ficou entre R1 e Sonnet em pontuação
Anúncio de um novo lançamento da ferramenta de linha de comando LLM CLI com suporte ao novo modelo e à opção reasoning_effort
- Compartilhamento de exemplo de uso
Apontam que a pontuação do o3-mini no SWE Bench caiu de 61% para 49,3%
- O o3-mini mostra desempenho semelhante ao Claude em tarefas reais de programação
Menção de que o o3-mini-high encontrou com sucesso a causa raiz de um seg fault
- Resolveu um problema que o o1 havia deixado passar anteriormente
Houve um aumento significativo no SWE-Bench, e vale a pena testar de novo se ele consegue lidar com tarefas que o o1-mini antes não conseguia
- Há uma diferença de custo de $4 por milhão de tokens de saída contra $60
O cenário de IA está mudando rapidamente, e novos modelos de IA estão surgindo
- Há curiosidade sobre como as mudanças na IA vão afetar este lançamento e os próximos

Lançamento do OpenAI o3-Mini

Principais recursos e melhorias

Expansão do acesso para usuários gratuitos

Otimização para STEM e melhoria de desempenho

Comparação principal de desempenho

Melhorias de velocidade e desempenho

Segurança e medidas de mitigação

Planos e perspectivas futuras

Leituras relacionadas

1 comentários

Comentários no Hacker News