6 pontos por GN⁺ 2024-09-14 | 2 comentários | Compartilhar no WhatsApp
  • A OpenAI lançou os novos modelos preview o1-preview e o1-mini (o mini não é preview), com o codinome anterior "strawberry"

Treinado com a abordagem Chain-of-Thought

  • A OpenAI explica que esses modelos foram projetados para "pensar" por mais tempo antes de responder
  • Esses novos modelos podem ser vistos como uma extensão especializada do padrão de prompting de "pensar passo a passo"
  • No texto da OpenAI "Learning to Reason with LLMs", a empresa explica que os novos modelos aprendem, por meio de aprendizado por reforço, a melhorar a cadeia de pensamento e refinar suas estratégias
  • Isso significa que o modelo pode lidar melhor com prompts complexos que exigem backtracking e "raciocínio" além da simples previsão do próximo token

Detalhes de baixo nível da documentação da API

  • Para entrada de imagens, chamadas de função e aplicações que exigem tempos de resposta consistentemente rápidos, os modelos GPT-4o e GPT-4o mini continuarão sendo escolhas adequadas
  • Se você estiver desenvolvendo aplicações que exigem raciocínio profundo e podem aceitar tempos de resposta mais longos, o modelo o1 pode ser uma excelente escolha
  • O acesso à API para os novos modelos o1-preview e o1-mini está atualmente restrito a contas de nível 5
  • Sem suporte a prompt de sistema — o modelo usa a API existente de chat completions, mas só é possível enviar mensagens user e assistant
  • Também não há suporte a streaming, uso de ferramentas, chamadas em lote nem entrada de imagens
  • O processamento de uma solicitação pode levar de alguns segundos a vários minutos, dependendo da quantidade de raciocínio necessária para resolver o problema

Tokens de raciocínio ocultos

  • Foram introduzidos "tokens de raciocínio" que não aparecem na resposta da API, mas ainda assim são cobrados e contados como tokens de saída
  • Para prompts que tiram proveito desses novos modelos, a OpenAI sugere reservar cerca de 25.000 tokens para isso
  • O limite de tokens de saída aumentou bastante: 32.768 para o1-preview e 65.536 para o1-mini
  • A dica final da documentação da API: ao fornecer contexto adicional em geração aumentada por recuperação (RAG), inclua apenas as informações mais relevantes para evitar que o modelo torne a resposta excessivamente complexa

Tokens de raciocínio ocultos

  • Os tokens de raciocínio não são visíveis na API — são cobrados, mas não é possível ver o que de fato são
  • A OpenAI explica dois motivos principais para isso:
    1. Segurança e conformidade com políticas — para evitar casos em que etapas intermediárias possam conter informações que violem políticas
    2. Vantagem competitiva — para impedir que outros modelos aprendam com o trabalho de raciocínio no qual a OpenAI investiu
  • Há insatisfação com essa decisão de política — interpretabilidade e transparência são importantes, e esconder detalhes essenciais da avaliação de prompts parece um retrocesso

Exemplos

  • A OpenAI apresentou como exemplos iniciais a geração de scripts Bash, a resolução de palavras cruzadas e o cálculo do pH de soluções químicas
  • Esses exemplos mostram que a versão do modelo na interface do ChatGPT expõe detalhes sobre a cadeia de pensamento, mas não mostra os tokens brutos de raciocínio
  • A OpenAI também disponibilizou dois novos cookbooks mostrando como usar raciocínio para validação de dados e geração de rotinas
  • No Twitter, foi perguntado se existiam exemplos de prompts que falham no GPT-4o, mas funcionam no o1-preview
    • "How many words are in your response to this prompt?" "There are seven words in this sentence."

    • Explain this joke: “Two cows are standing in a field, one cow asks the other: “what do you think about the mad cow disease that’s going around?”. The other one says: “who cares, I’m a helicopter!”

  • O pesquisador da OpenAI Jason Wei observou que os resultados no AIME e no GPQA são muito bons, mas isso não necessariamente se traduz em algo perceptível para os usuários

O que há de novo em tudo isso

  • Vai levar tempo até que a comunidade consolide boas práticas sobre quando e onde aplicar esses modelos
  • Eu imagino que continuarei usando principalmente o GPT-4o (e o Claude 3.5 Sonnet), mas é realmente interessante ver esse novo tipo de modelo expandir coletivamente nossa forma de pensar sobre que tipos de tarefas os LLMs podem resolver
  • Também é esperado que outros laboratórios de IA comecem a replicar parte desses resultados com suas próprias versões de modelos treinados especificamente para aplicar esse estilo de raciocínio Chain-of-Thought

Opinião do GN⁺

  • Modelos treinados com a abordagem chain-of-thought podem ajudar a superar limitações dos modelos existentes na resolução de problemas complexos. Em especial, espera-se melhora em tarefas que exigem raciocínio em etapas e backtracking
  • No entanto, esconder os tokens de raciocínio na API é um ponto preocupante do ponto de vista de interpretabilidade e transparência do modelo. Para o usuário, pode ficar mais difícil entender e verificar o processo de raciocínio do modelo
  • Neste momento, ainda não está claro para quais tarefas esses modelos são mais adequados nem quais são suas vantagens e desvantagens em relação aos modelos existentes. Parece necessário que a comunidade descubra diversos casos de uso e boas práticas
  • Outras empresas de IA, como a Anthropic com o Claude e a Cohere com seus modelos, também podem adotar abordagens semelhantes de treinamento chain-of-thought. A concorrência no mercado de modelos de raciocínio deve ficar ainda mais acirrada
  • No geral, o anúncio da OpenAI é significativo por apresentar uma nova abordagem para melhorar a capacidade de raciocínio dos LLMs. Ainda assim, há alguns pontos preocupantes, como os tokens de raciocínio ocultos, e melhorias e ajustes futuros parecem necessários

2 comentários

 
naneg93 2024-09-14

Tem um erro de digitação aí :)

"Chai-of-Thought 방식으로 학습됨""Chain-of-Thought 방식으로 학습됨"

 
GN⁺ 2024-09-14
Comentários do Hacker News
  • Problemas do modelo o1-preview

    • Alucina bibliotecas e funções que não existem
    • Fornece informações incorretas sobre fatos que não aparecem bem na web
    • Não há como avaliar se as informações geradas pelo modelo são factualmente corretas
  • Citação do pesquisador da OpenAI Jason Wei

    • Mostrou desempenho forte no AIME e no GPQA, mas isso não é percebido pelos usuários
    • Questiona a opinião de que seria preciso encontrar prompts mais difíceis
  • Tentativa de refatoração de código Rust

    • O o1-mini não consegue fornecer código sem erros
    • O o1-preview fornece código que compila e passa na maioria dos testes
    • Tentativa de remover enum de uma biblioteca Rust e alterar para usar apenas o tipo de dado U8
  • Dois elementos principais

    • Um LLM treinado para ler e gerar bons prompts de chain-of-thought
    • Código de runtime que reprompta o modelo de forma repetida
    • A OpenAI não explica claramente essa diferença
  • Dificuldade de avaliar prompts complexos

    • O processo de avaliação de prompts fica oculto, o que dificulta o debug
    • Para o usuário, só o resultado importa, não o processo
  • Problemas de qualidade e custo do o1

    • Não há grande melhora de qualidade, mas há um grande impacto negativo em custo e latência
  • Comparação entre GPT-4o e o1-preview

    • O GPT-4o não consegue fornecer a estratégia ótima de jogo da velha
    • O o1-preview fornece a estratégia ótima, mas falha em grades não padrão
  • Dificuldade para resolver problemas matemáticos básicos

    • Tentativa de resolver um problema em que se somam três números e se divide para obter o mesmo resultado
    • Os modelos atuais ainda têm dificuldade para resolver até problemas escolares básicos
  • Teste com perguntas jurídicas

    • O GPT-4o fornece imediatamente a resposta correta
    • O o1-preview fornece uma resposta errada e exige várias perguntas de acompanhamento
  • Problema no processamento de conteúdo Markdown

    • Quando conteúdo Markdown incluía expressões de lógica simbólica e exemplos de prova, isso era considerado violação dos termos de serviço