Notas de Simon Willison sobre o o3-mini

xguru · 2025-02-02T10:07:02+09:00

O modelo o3-mini da OpenAI foi lançado recentemente e, assim como outros modelos da série o, é um pouco difícil de avaliar Agora, além de GPT-4o, o1, o1 Pro etc., chegou o momento de decidir qual modelo escolher de acordo com o objetivo de uso Segundo o o3-mini System Card (PDF), em alguns indicadores de avaliação o o3-mini supera o GPT-4o e o o1, mas não apresenta desempenho consistentemente superior em todos os itens Ele se destaca especialmente em métricas de benchmark relacionadas a desempenho em programação competitiva, como o Codeforces ELO A OpenAI pretende permitir que o o3-mini faça buscas na internet e depois resuma os resultados no ChatGPT Como o modelo o1 anterior não usava a ferramenta de busca na web no ChatGPT, a utilidade desse novo recurso chama atenção Além disso, o o3-mini não oferece suporte a visão (imagens), mas há possibilidade de os próximos modelos mini incluírem visão No LLM 0.21, ferramenta CLI que escrevi, foi adicionado suporte ao o3-mini Com a opção -o reasoning_effort, é possível definir high, medium ou low No momento, o o3-mini está disponível apenas para usuários do Tier 3 ou superior É preciso ter um gasto mínimo de US$ 100 na API para se enquadrar nesse tier O custo do o3-mini é: US$ 1,10 por 1 milhão de tokens de entrada US$ 4,40 por 1 milhão de tokens de saída Menos da metade do preço do GPT-4o (US$ 2,50/US$ 10) e menos de 1/10 do preço do o1 (US$ 15/US$ 60) Testei o script hn-summary.sh com o o3-mini para resumir uma postagem do Hacker News (42890627) hn-summary.sh 42890627 -o o3-mini Foram usados 18.936 tokens de entrada e 2.905 tokens de saída, com custo total de cerca de US$ 0,033612 (3,3612 centavos) O limite máximo de tokens de saída do o3-mini é 100.000 Muito acima do GPT-4o (16.000), DeepSeek R1 (8.000) e Claude 3.5 (8.000) Como os tokens usados no raciocínio interno também consomem esse limite, pode ser difícil chegar de fato a 100.000 tokens de saída reais O modelo aceita até 200.000 tokens de entrada, uma capacidade maior que os 128.000 do GPT-4o Parece ter alto potencial para uso em tarefas como tradução de textos longos Porque é barato e vantajoso para processar entradas e saídas extensas No Hacker News, o comentário do tradutor profissional Tom Gally é interessante Ele menciona que tanto o DeepSeek R1 quanto o o3-mini mostraram queda de qualidade na parte final ao traduzir textos longos No começo, o R1 até parecia razoável, mas o o3-mini produziu um resultado mais fluido, com inglês mais natural e mais próximo do estilo de escrita solicitado Porém, o comprimento da saída foi de 5.855 caracteres no R1, 9.052 no o3-mini e 11.021 na versão revisada manualmente O R1 omitiu alguns parágrafos na parte final, e o o3-mini usou um estilo estranho de abreviação (usando / entre substantivos em vez de and) A opinião é que ChatGPT, Claude e Gemini anteriormente não mostraram esse tipo de problema ao traduzir o mesmo texto

(simonwillison.net)

14 pontos por xguru 2025-02-02 | 1 comentários | Compartilhar no WhatsApp

O modelo o3-mini da OpenAI foi lançado recentemente e, assim como outros modelos da série o, é um pouco difícil de avaliar
- Agora, além de GPT-4o, o1, o1 Pro etc., chegou o momento de decidir qual modelo escolher de acordo com o objetivo de uso
Segundo o o3-mini System Card (PDF), em alguns indicadores de avaliação o o3-mini supera o GPT-4o e o o1, mas não apresenta desempenho consistentemente superior em todos os itens
- Ele se destaca especialmente em métricas de benchmark relacionadas a desempenho em programação competitiva, como o Codeforces ELO
A OpenAI pretende permitir que o o3-mini faça buscas na internet e depois resuma os resultados no ChatGPT
- Como o modelo o1 anterior não usava a ferramenta de busca na web no ChatGPT, a utilidade desse novo recurso chama atenção
Além disso, o o3-mini não oferece suporte a visão (imagens), mas há possibilidade de os próximos modelos mini incluírem visão
No LLM 0.21, ferramenta CLI que escrevi, foi adicionado suporte ao o3-mini
- Com a opção -o reasoning_effort, é possível definir high, medium ou low
No momento, o o3-mini está disponível apenas para usuários do Tier 3 ou superior
- É preciso ter um gasto mínimo de US$ 100 na API para se enquadrar nesse tier
O custo do o3-mini é:
- US$ 1,10 por 1 milhão de tokens de entrada
- US$ 4,40 por 1 milhão de tokens de saída
- Menos da metade do preço do GPT-4o (US$ 2,50/US$ 10) e menos de 1/10 do preço do o1 (US$ 15/US$ 60)
Testei o script hn-summary.sh com o o3-mini para resumir uma postagem do Hacker News (42890627)
- hn-summary.sh 42890627 -o o3-mini
- Foram usados 18.936 tokens de entrada e 2.905 tokens de saída, com custo total de cerca de US$ 0,033612 (3,3612 centavos)
O limite máximo de tokens de saída do o3-mini é 100.000
- Muito acima do GPT-4o (16.000), DeepSeek R1 (8.000) e Claude 3.5 (8.000)
- Como os tokens usados no raciocínio interno também consomem esse limite, pode ser difícil chegar de fato a 100.000 tokens de saída reais
O modelo aceita até 200.000 tokens de entrada, uma capacidade maior que os 128.000 do GPT-4o
Parece ter alto potencial para uso em tarefas como tradução de textos longos
- Porque é barato e vantajoso para processar entradas e saídas extensas
No Hacker News, o comentário do tradutor profissional Tom Gally é interessante
- Ele menciona que tanto o DeepSeek R1 quanto o o3-mini mostraram queda de qualidade na parte final ao traduzir textos longos
- No começo, o R1 até parecia razoável, mas o o3-mini produziu um resultado mais fluido, com inglês mais natural e mais próximo do estilo de escrita solicitado
- Porém, o comprimento da saída foi de 5.855 caracteres no R1, 9.052 no o3-mini e 11.021 na versão revisada manualmente
- O R1 omitiu alguns parágrafos na parte final, e o o3-mini usou um estilo estranho de abreviação (usando / entre substantivos em vez de and)
- A opinião é que ChatGPT, Claude e Gemini anteriormente não mostraram esse tipo de problema ao traduzir o mesmo texto

1 comentários

xguru 2025-02-02

Lançamento do OpenAI o3-Mini

Notas de Simon Willison sobre o o3-mini

Leituras relacionadas

1 comentários