- O modelo o3-mini da OpenAI foi lançado recentemente e, assim como outros modelos da série o, é um pouco difícil de avaliar
- Agora, além de GPT-4o, o1, o1 Pro etc., chegou o momento de decidir qual modelo escolher de acordo com o objetivo de uso
- Segundo o o3-mini System Card (PDF), em alguns indicadores de avaliação o o3-mini supera o GPT-4o e o o1, mas não apresenta desempenho consistentemente superior em todos os itens
- Ele se destaca especialmente em métricas de benchmark relacionadas a desempenho em programação competitiva, como o Codeforces ELO
- A OpenAI pretende permitir que o o3-mini faça buscas na internet e depois resuma os resultados no ChatGPT
- Como o modelo o1 anterior não usava a ferramenta de busca na web no ChatGPT, a utilidade desse novo recurso chama atenção
- Além disso, o o3-mini não oferece suporte a visão (imagens), mas há possibilidade de os próximos modelos mini incluírem visão
- No LLM 0.21, ferramenta CLI que escrevi, foi adicionado suporte ao o3-mini
- Com a opção
-o reasoning_effort, é possível definir high, medium ou low
- No momento, o o3-mini está disponível apenas para usuários do Tier 3 ou superior
- É preciso ter um gasto mínimo de US$ 100 na API para se enquadrar nesse tier
- O custo do o3-mini é:
- US$ 1,10 por 1 milhão de tokens de entrada
- US$ 4,40 por 1 milhão de tokens de saída
- Menos da metade do preço do GPT-4o (US$ 2,50/US$ 10) e menos de 1/10 do preço do o1 (US$ 15/US$ 60)
- Testei o script hn-summary.sh com o o3-mini para resumir uma postagem do Hacker News (42890627)
hn-summary.sh 42890627 -o o3-mini
- Foram usados 18.936 tokens de entrada e 2.905 tokens de saída, com custo total de cerca de US$ 0,033612 (3,3612 centavos)
- O limite máximo de tokens de saída do o3-mini é 100.000
- Muito acima do GPT-4o (16.000), DeepSeek R1 (8.000) e Claude 3.5 (8.000)
- Como os tokens usados no raciocínio interno também consomem esse limite, pode ser difícil chegar de fato a 100.000 tokens de saída reais
- O modelo aceita até 200.000 tokens de entrada, uma capacidade maior que os 128.000 do GPT-4o
- Parece ter alto potencial para uso em tarefas como tradução de textos longos
- Porque é barato e vantajoso para processar entradas e saídas extensas
- No Hacker News, o comentário do tradutor profissional Tom Gally é interessante
- Ele menciona que tanto o DeepSeek R1 quanto o o3-mini mostraram queda de qualidade na parte final ao traduzir textos longos
- No começo, o R1 até parecia razoável, mas o o3-mini produziu um resultado mais fluido, com inglês mais natural e mais próximo do estilo de escrita solicitado
- Porém, o comprimento da saída foi de 5.855 caracteres no R1, 9.052 no o3-mini e 11.021 na versão revisada manualmente
- O R1 omitiu alguns parágrafos na parte final, e o o3-mini usou um estilo estranho de abreviação (usando
/ entre substantivos em vez de and)
- A opinião é que ChatGPT, Claude e Gemini anteriormente não mostraram esse tipo de problema ao traduzir o mesmo texto
1 comentários
Lançamento do OpenAI o3-Mini