- O OpenAI o3-mini é o modelo mais recente da série de modelos de raciocínio com boa eficiência de custo
- Após a prévia de dezembro de 2024, foi lançado oficialmente e está disponível no ChatGPT e na API
- Apresenta excelente desempenho em áreas STEM, como ciência, matemática e programação, mantendo custo e latência mais baixos que o OpenAI o1-mini
Principais recursos e melhorias
- O OpenAI o3-mini é o primeiro modelo pequeno de raciocínio a oferecer suporte a chamadas de função, saída estruturada e mensagens de desenvolvedor
- Oferece suporte a streaming e disponibiliza três opções de esforço de raciocínio — baixo, médio e alto — para otimização conforme o contexto
- Não oferece suporte a visão (imagem); para casos que exigem raciocínio visual, recomenda-se usar o OpenAI o1
- Está disponível nas APIs Chat Completions, Assistants e Batch, e é oferecido a desenvolvedores nos níveis 3 a 5 de uso da API
- Usuários do ChatGPT Plus, Team e Pro podem usá-lo a partir de hoje, enquanto usuários Enterprise terão suporte a partir de fevereiro
- Substitui o OpenAI o1-mini, oferecendo maior velocidade e capacidade de raciocínio aprimorada
- O limite de mensagens para usuários Plus e Team aumentou de 50 para 150 em relação ao o1-mini anterior
- Foi adicionada uma função de busca, e está em teste um recurso que fornece informações mais recentes junto com links da web
Expansão do acesso para usuários gratuitos
- Usuários gratuitos também podem usar o o3-mini ao selecionar ‘Reason’ na caixa de composição de mensagens ou ao regenerar uma resposta
- Esta é a primeira vez que um modelo de reasoning é disponibilizado para usuários gratuitos no ChatGPT
Otimização para STEM e melhoria de desempenho
- Oferece desempenho otimizado para áreas STEM, gerando respostas mais rápidas e precisas que o o1-mini
- Segundo a avaliação de testadores especializados, o o3-mini foi preferido ao o1-mini em 56% dos casos, e houve redução de 39% nos principais erros em problemas difíceis
- Apresenta desempenho semelhante ao o1 em avaliações difíceis de raciocínio e inteligência, como AIME e GPQA, com respostas mais rápidas
Comparação principal de desempenho
- Matemática (AIME 2024):
- Em esforço de raciocínio baixo, desempenho semelhante ao o1-mini; em esforço médio, desempenho semelhante ao o1
- Em esforço alto, supera o o1 e o o1-mini
- Perguntas científicas em nível de doutorado (GPQA Diamond):
- Em problemas de biologia, química e física, supera o o1-mini mesmo com baixo esforço de raciocínio
- Em esforço alto, apresenta desempenho semelhante ao o1
- Matemática avançada (FrontierMath):
- Com o uso da ferramenta Python, resolve mais de 32% dos problemas na primeira tentativa e mais de 28% dos problemas difíceis (T3)
- Programação competitiva (Codeforces):
- Registra pontuações Elo mais altas à medida que o esforço de raciocínio aumenta, com desempenho superior ao o1-mini
- Em esforço médio, apresenta desempenho semelhante ao o1
- Engenharia de software (SWE-bench Verified):
- Registrou o melhor desempenho entre os modelos lançados até agora no SWEbench-verified
- Teste de programação no mundo real (LiveBench Coding):
- Supera o o1-high, e em esforço de raciocínio alto demonstra desempenho ainda mais dominante
- Avaliação de conhecimento geral:
- Mostra resultados superiores ao o1-mini em avaliações gerais de conhecimento
- Avaliação de preferência do usuário:
- Em testes com especialistas, o o3-mini foi preferido 56% mais que o o1-mini, com redução de 39% dos erros em problemas difíceis
Melhorias de velocidade e desempenho
- Mantém inteligência semelhante à do o1, ao mesmo tempo em que oferece desempenho mais rápido e eficiência aprimorada
- Produz resultados melhores em avaliações de matemática e factualidade mesmo com esforço de raciocínio médio
- Segundo os resultados de testes A/B, o o3-mini é 24% mais rápido nas respostas que o o1-mini
- Tempo médio de resposta: o3-mini (7,7 segundos) vs o1-mini (10,16 segundos)
- Velocidade de saída do primeiro token: o o3-mini é, em média, 2500 ms mais rápido que o o1-mini
Segurança e medidas de mitigação
- O OpenAI o3-mini foi treinado para gerar respostas mais seguras usando a técnica de ‘alinhamento deliberativo (deliberative alignment)’
- Em comparação com o OpenAI o1, demonstrou nível de segurança e capacidade de defesa contra jailbreak até superior ao GPT-4o
- Antes do lançamento, passou por verificação rigorosa com avaliações de prontidão, testes externos de red team e avaliações de segurança
- Os resultados das avaliações de respostas a conteúdo não permitido e de jailbreak do o3-mini estão disponíveis no system card
Planos e perspectivas futuras
- O OpenAI o3-mini representa uma nova etapa no avanço da inteligência de IA com eficiência de custo
- Segue com o objetivo de oferecer IA de alta qualidade a mais usuários por meio de otimização para STEM e desenvolvimento de modelos de baixo custo
- Desde o lançamento do GPT-4, segue evoluindo na direção de reduzir em 95% o preço por token sem abrir mão de capacidade de raciocínio de alto nível
- À medida que a adoção popular da IA se expande, o foco será no desenvolvimento de modelos que equilibrem inteligência, eficiência e segurança
1 comentários
Comentários no Hacker News
O modelo Claude-3.5-sonnet tem excelente consistência, enquanto outros modelos parecem sofrer de problemas parecidos com TDAH
shadcnem um app NextJS, o sonnet quase sempre faz isso perfeitamente, mas outros modelos tentam usarradix-uiAs respostas do o3-mini são preferidas 56% mais que as do o1-mini
Compartilhamento de um resumo da thread usando o o3-mini
Em programação com IA, o o3-mini obteve pontuação parecida com a do o1, custando 10 vezes menos
Anúncio de um novo lançamento da ferramenta de linha de comando LLM CLI com suporte ao novo modelo e à opção
reasoning_effortApontam que a pontuação do o3-mini no SWE Bench caiu de 61% para 49,3%
Menção de que o o3-mini-high encontrou com sucesso a causa raiz de um seg fault
Houve um aumento significativo no SWE-Bench, e vale a pena testar de novo se ele consegue lidar com tarefas que o o1-mini antes não conseguia
O cenário de IA está mudando rapidamente, e novos modelos de IA estão surgindo