Notas sobre o o1 da OpenAI, um modelo de chain-of-thought
(simonwillison.net)- A OpenAI lançou os novos modelos preview
o1-previeweo1-mini(o mini não é preview), com o codinome anterior "strawberry"
Treinado com a abordagem Chain-of-Thought
- A OpenAI explica que esses modelos foram projetados para "pensar" por mais tempo antes de responder
- Esses novos modelos podem ser vistos como uma extensão especializada do padrão de prompting de "pensar passo a passo"
- No texto da OpenAI "Learning to Reason with LLMs", a empresa explica que os novos modelos aprendem, por meio de aprendizado por reforço, a melhorar a cadeia de pensamento e refinar suas estratégias
- Isso significa que o modelo pode lidar melhor com prompts complexos que exigem backtracking e "raciocínio" além da simples previsão do próximo token
Detalhes de baixo nível da documentação da API
- Para entrada de imagens, chamadas de função e aplicações que exigem tempos de resposta consistentemente rápidos, os modelos GPT-4o e GPT-4o mini continuarão sendo escolhas adequadas
- Se você estiver desenvolvendo aplicações que exigem raciocínio profundo e podem aceitar tempos de resposta mais longos, o modelo o1 pode ser uma excelente escolha
- O acesso à API para os novos modelos
o1-previeweo1-miniestá atualmente restrito a contas de nível 5 - Sem suporte a prompt de sistema — o modelo usa a API existente de chat completions, mas só é possível enviar mensagens
usereassistant - Também não há suporte a streaming, uso de ferramentas, chamadas em lote nem entrada de imagens
- O processamento de uma solicitação pode levar de alguns segundos a vários minutos, dependendo da quantidade de raciocínio necessária para resolver o problema
Tokens de raciocínio ocultos
- Foram introduzidos "tokens de raciocínio" que não aparecem na resposta da API, mas ainda assim são cobrados e contados como tokens de saída
- Para prompts que tiram proveito desses novos modelos, a OpenAI sugere reservar cerca de 25.000 tokens para isso
- O limite de tokens de saída aumentou bastante: 32.768 para
o1-previewe 65.536 parao1-mini - A dica final da documentação da API: ao fornecer contexto adicional em geração aumentada por recuperação (RAG), inclua apenas as informações mais relevantes para evitar que o modelo torne a resposta excessivamente complexa
Tokens de raciocínio ocultos
- Os tokens de raciocínio não são visíveis na API — são cobrados, mas não é possível ver o que de fato são
- A OpenAI explica dois motivos principais para isso:
- Segurança e conformidade com políticas — para evitar casos em que etapas intermediárias possam conter informações que violem políticas
- Vantagem competitiva — para impedir que outros modelos aprendam com o trabalho de raciocínio no qual a OpenAI investiu
- Há insatisfação com essa decisão de política — interpretabilidade e transparência são importantes, e esconder detalhes essenciais da avaliação de prompts parece um retrocesso
Exemplos
- A OpenAI apresentou como exemplos iniciais a geração de scripts Bash, a resolução de palavras cruzadas e o cálculo do pH de soluções químicas
- Esses exemplos mostram que a versão do modelo na interface do ChatGPT expõe detalhes sobre a cadeia de pensamento, mas não mostra os tokens brutos de raciocínio
- A OpenAI também disponibilizou dois novos cookbooks mostrando como usar raciocínio para validação de dados e geração de rotinas
- No Twitter, foi perguntado se existiam exemplos de prompts que falham no GPT-4o, mas funcionam no
o1-preview-
"How many words are in your response to this prompt?" "There are seven words in this sentence."
-
Explain this joke: “Two cows are standing in a field, one cow asks the other: “what do you think about the mad cow disease that’s going around?”. The other one says: “who cares, I’m a helicopter!”
-
- O pesquisador da OpenAI Jason Wei observou que os resultados no AIME e no GPQA são muito bons, mas isso não necessariamente se traduz em algo perceptível para os usuários
O que há de novo em tudo isso
- Vai levar tempo até que a comunidade consolide boas práticas sobre quando e onde aplicar esses modelos
- Eu imagino que continuarei usando principalmente o GPT-4o (e o Claude 3.5 Sonnet), mas é realmente interessante ver esse novo tipo de modelo expandir coletivamente nossa forma de pensar sobre que tipos de tarefas os LLMs podem resolver
- Também é esperado que outros laboratórios de IA comecem a replicar parte desses resultados com suas próprias versões de modelos treinados especificamente para aplicar esse estilo de raciocínio Chain-of-Thought
Opinião do GN⁺
- Modelos treinados com a abordagem chain-of-thought podem ajudar a superar limitações dos modelos existentes na resolução de problemas complexos. Em especial, espera-se melhora em tarefas que exigem raciocínio em etapas e backtracking
- No entanto, esconder os tokens de raciocínio na API é um ponto preocupante do ponto de vista de interpretabilidade e transparência do modelo. Para o usuário, pode ficar mais difícil entender e verificar o processo de raciocínio do modelo
- Neste momento, ainda não está claro para quais tarefas esses modelos são mais adequados nem quais são suas vantagens e desvantagens em relação aos modelos existentes. Parece necessário que a comunidade descubra diversos casos de uso e boas práticas
- Outras empresas de IA, como a Anthropic com o Claude e a Cohere com seus modelos, também podem adotar abordagens semelhantes de treinamento chain-of-thought. A concorrência no mercado de modelos de raciocínio deve ficar ainda mais acirrada
- No geral, o anúncio da OpenAI é significativo por apresentar uma nova abordagem para melhorar a capacidade de raciocínio dos LLMs. Ainda assim, há alguns pontos preocupantes, como os tokens de raciocínio ocultos, e melhorias e ajustes futuros parecem necessários
2 comentários
Tem um erro de digitação aí :)
"Chai-of-Thought 방식으로 학습됨"→"Chain-of-Thought 방식으로 학습됨"Comentários do Hacker News
Problemas do modelo o1-preview
Citação do pesquisador da OpenAI Jason Wei
Tentativa de refatoração de código Rust
enumde uma biblioteca Rust e alterar para usar apenas o tipo de dado U8Dois elementos principais
Dificuldade de avaliar prompts complexos
Problemas de qualidade e custo do o1
Comparação entre GPT-4o e o1-preview
Dificuldade para resolver problemas matemáticos básicos
Teste com perguntas jurídicas
Problema no processamento de conteúdo Markdown