Notas sobre o o1 da OpenAI, um modelo de chain-of-thought

(simonwillison.net)

6 pontos por GN⁺ 2024-09-14 | 2 comentários | Compartilhar no WhatsApp

A OpenAI lançou os novos modelos preview o1-preview e o1-mini (o mini não é preview), com o codinome anterior "strawberry"

Treinado com a abordagem Chain-of-Thought

A OpenAI explica que esses modelos foram projetados para "pensar" por mais tempo antes de responder
Esses novos modelos podem ser vistos como uma extensão especializada do padrão de prompting de "pensar passo a passo"
No texto da OpenAI "Learning to Reason with LLMs", a empresa explica que os novos modelos aprendem, por meio de aprendizado por reforço, a melhorar a cadeia de pensamento e refinar suas estratégias
Isso significa que o modelo pode lidar melhor com prompts complexos que exigem backtracking e "raciocínio" além da simples previsão do próximo token

Detalhes de baixo nível da documentação da API

Para entrada de imagens, chamadas de função e aplicações que exigem tempos de resposta consistentemente rápidos, os modelos GPT-4o e GPT-4o mini continuarão sendo escolhas adequadas
Se você estiver desenvolvendo aplicações que exigem raciocínio profundo e podem aceitar tempos de resposta mais longos, o modelo o1 pode ser uma excelente escolha
O acesso à API para os novos modelos o1-preview e o1-mini está atualmente restrito a contas de nível 5
Sem suporte a prompt de sistema — o modelo usa a API existente de chat completions, mas só é possível enviar mensagens user e assistant
Também não há suporte a streaming, uso de ferramentas, chamadas em lote nem entrada de imagens
O processamento de uma solicitação pode levar de alguns segundos a vários minutos, dependendo da quantidade de raciocínio necessária para resolver o problema

Tokens de raciocínio ocultos

Foram introduzidos "tokens de raciocínio" que não aparecem na resposta da API, mas ainda assim são cobrados e contados como tokens de saída
Para prompts que tiram proveito desses novos modelos, a OpenAI sugere reservar cerca de 25.000 tokens para isso
O limite de tokens de saída aumentou bastante: 32.768 para o1-preview e 65.536 para o1-mini
A dica final da documentação da API: ao fornecer contexto adicional em geração aumentada por recuperação (RAG), inclua apenas as informações mais relevantes para evitar que o modelo torne a resposta excessivamente complexa

Tokens de raciocínio ocultos

Os tokens de raciocínio não são visíveis na API — são cobrados, mas não é possível ver o que de fato são
A OpenAI explica dois motivos principais para isso:
1. Segurança e conformidade com políticas — para evitar casos em que etapas intermediárias possam conter informações que violem políticas
2. Vantagem competitiva — para impedir que outros modelos aprendam com o trabalho de raciocínio no qual a OpenAI investiu
Há insatisfação com essa decisão de política — interpretabilidade e transparência são importantes, e esconder detalhes essenciais da avaliação de prompts parece um retrocesso

Exemplos

A OpenAI apresentou como exemplos iniciais a geração de scripts Bash, a resolução de palavras cruzadas e o cálculo do pH de soluções químicas
Esses exemplos mostram que a versão do modelo na interface do ChatGPT expõe detalhes sobre a cadeia de pensamento, mas não mostra os tokens brutos de raciocínio
A OpenAI também disponibilizou dois novos cookbooks mostrando como usar raciocínio para validação de dados e geração de rotinas
No Twitter, foi perguntado se existiam exemplos de prompts que falham no GPT-4o, mas funcionam no o1-preview
- "How many words are in your response to this prompt?" "There are seven words in this sentence."
- Explain this joke: “Two cows are standing in a field, one cow asks the other: “what do you think about the mad cow disease that’s going around?”. The other one says: “who cares, I’m a helicopter!”
O pesquisador da OpenAI Jason Wei observou que os resultados no AIME e no GPQA são muito bons, mas isso não necessariamente se traduz em algo perceptível para os usuários

O que há de novo em tudo isso

Vai levar tempo até que a comunidade consolide boas práticas sobre quando e onde aplicar esses modelos
Eu imagino que continuarei usando principalmente o GPT-4o (e o Claude 3.5 Sonnet), mas é realmente interessante ver esse novo tipo de modelo expandir coletivamente nossa forma de pensar sobre que tipos de tarefas os LLMs podem resolver
Também é esperado que outros laboratórios de IA comecem a replicar parte desses resultados com suas próprias versões de modelos treinados especificamente para aplicar esse estilo de raciocínio Chain-of-Thought

Opinião do GN⁺

Modelos treinados com a abordagem chain-of-thought podem ajudar a superar limitações dos modelos existentes na resolução de problemas complexos. Em especial, espera-se melhora em tarefas que exigem raciocínio em etapas e backtracking
No entanto, esconder os tokens de raciocínio na API é um ponto preocupante do ponto de vista de interpretabilidade e transparência do modelo. Para o usuário, pode ficar mais difícil entender e verificar o processo de raciocínio do modelo
Neste momento, ainda não está claro para quais tarefas esses modelos são mais adequados nem quais são suas vantagens e desvantagens em relação aos modelos existentes. Parece necessário que a comunidade descubra diversos casos de uso e boas práticas
Outras empresas de IA, como a Anthropic com o Claude e a Cohere com seus modelos, também podem adotar abordagens semelhantes de treinamento chain-of-thought. A concorrência no mercado de modelos de raciocínio deve ficar ainda mais acirrada
No geral, o anúncio da OpenAI é significativo por apresentar uma nova abordagem para melhorar a capacidade de raciocínio dos LLMs. Ainda assim, há alguns pontos preocupantes, como os tokens de raciocínio ocultos, e melhorias e ajustes futuros parecem necessários

2 comentários

naneg93 2024-09-14

Tem um erro de digitação aí :)

"Chai-of-Thought 방식으로 학습됨" → "Chain-of-Thought 방식으로 학습됨"

GN⁺ 2024-09-14

Comentários do Hacker News

Problemas do modelo o1-preview
- Alucina bibliotecas e funções que não existem
- Fornece informações incorretas sobre fatos que não aparecem bem na web
- Não há como avaliar se as informações geradas pelo modelo são factualmente corretas
Citação do pesquisador da OpenAI Jason Wei
- Mostrou desempenho forte no AIME e no GPQA, mas isso não é percebido pelos usuários
- Questiona a opinião de que seria preciso encontrar prompts mais difíceis
Tentativa de refatoração de código Rust
- O o1-mini não consegue fornecer código sem erros
- O o1-preview fornece código que compila e passa na maioria dos testes
- Tentativa de remover enum de uma biblioteca Rust e alterar para usar apenas o tipo de dado U8
Dois elementos principais
- Um LLM treinado para ler e gerar bons prompts de chain-of-thought
- Código de runtime que reprompta o modelo de forma repetida
- A OpenAI não explica claramente essa diferença
Dificuldade de avaliar prompts complexos
- O processo de avaliação de prompts fica oculto, o que dificulta o debug
- Para o usuário, só o resultado importa, não o processo
Problemas de qualidade e custo do o1
- Não há grande melhora de qualidade, mas há um grande impacto negativo em custo e latência
Comparação entre GPT-4o e o1-preview
- O GPT-4o não consegue fornecer a estratégia ótima de jogo da velha
- O o1-preview fornece a estratégia ótima, mas falha em grades não padrão
Dificuldade para resolver problemas matemáticos básicos
- Tentativa de resolver um problema em que se somam três números e se divide para obter o mesmo resultado
- Os modelos atuais ainda têm dificuldade para resolver até problemas escolares básicos
Teste com perguntas jurídicas
- O GPT-4o fornece imediatamente a resposta correta
- O o1-preview fornece uma resposta errada e exige várias perguntas de acompanhamento
Problema no processamento de conteúdo Markdown
- Quando conteúdo Markdown incluía expressões de lógica simbólica e exemplos de prova, isso era considerado violação dos termos de serviço

Notas sobre o o1 da OpenAI, um modelo de chain-of-thought

Treinado com a abordagem Chain-of-Thought

Detalhes de baixo nível da documentação da API

Tokens de raciocínio ocultos

Tokens de raciocínio ocultos

Exemplos

O que há de novo em tudo isso

Opinião do GN⁺

Leituras relacionadas

2 comentários

Comentários do Hacker News