3 pontos por GN⁺ 2024-09-13 | 1 comentários | Compartilhar no WhatsApp
  • Anunciado o OpenAI o1, um novo grande modelo de linguagem treinado com aprendizado por reforço para realizar raciocínio complexo
  • O o1 pode gerar uma longa cadeia interna de pensamento (chain of thought) antes de responder ao usuário
  • O o1 alcançou o percentil 89 em problemas de programação competitiva (Codeforces), nível de um dos 500 melhores estudantes dos EUA na fase classificatória da Olimpíada Americana de Matemática (AIME) e superou a precisão de doutores humanos no benchmark GPQA de física, biologia e química
  • Embora o trabalho para torná-lo tão fácil de usar quanto os modelos atuais ainda esteja em andamento, a OpenAI disponibilizou imediatamente a versão inicial desse modelo, o OpenAI o1-preview, no ChatGPT e para usuários confiáveis da API

Avaliação

  • O o1 mostra desempenho muito superior ao GPT-4o na maioria das tarefas centradas em raciocínio
    • No exame AIME 2024, enquanto o GPT-4o resolveu em média apenas 12% das questões (1,8/15), o o1 alcançou em média 74% (11,1/15) com uma única amostra, 83% (12,5/15) por consenso entre 64 amostras e 93% (13,9/15) ao reordenar 1.000 amostras com uma função de pontuação treinada
    • No GPQA Diamond, o o1 superou o desempenho de especialistas humanos em química, física e biologia, tornando-se o primeiro modelo a fazer isso nesse benchmark
    • Com a capacidade de percepção visual ativada, o o1 registrou 78,2% no MMMU, tornando-se o primeiro modelo capaz de competir com especialistas humanos
    • Superou o GPT-4o em 54 das 57 subcategorias do MMLU

Cadeia de pensamento (chain of thought)

  • Assim como uma pessoa pode pensar por bastante tempo antes de responder a uma pergunta difícil, o o1 usa uma cadeia de pensamento ao tentar resolver problemas
  • Por meio de aprendizado por reforço, o o1 aprendeu a refinar sua cadeia de pensamento e a melhorar as estratégias de uso dela
    • Aprendeu a reconhecer e corrigir erros
    • Aprendeu a decompor etapas complicadas em etapas mais simples
    • Aprendeu a tentar outras abordagens quando a estratégia atual não funciona

Programação

  • O modelo foi treinado para melhorar ainda mais suas habilidades de programação e atingiu 213 pontos na Olimpíada Internacional de Informática (IOI) de 2024, ficando no percentil 49
    • Esse modelo participou da IOI 2024 sob as mesmas condições que os participantes humanos
    • Recebeu 10 horas para resolver 6 problemas algorítmicos desafiadores, com 50 submissões permitidas por problema
  • Quando são permitidas 10.000 submissões, o desempenho do modelo melhora bastante
    • Mesmo sem uma estratégia de seleção em tempo de teste, alcançou 362,14 pontos, superando o corte para medalha de ouro
  • A habilidade de programação do modelo também foi demonstrada por meio da simulação de competições de programação competitiva realizadas no Codeforces
    • O GPT-4o atingiu rating ELO 808, correspondente ao percentil 11 entre competidores humanos
    • Este modelo superou amplamente tanto o GPT-4o quanto o o1, alcançando rating ELO 1807 e desempenho melhor que 93% dos competidores

Segurança

  • O raciocínio por cadeia de pensamento oferece novas oportunidades para alinhamento e segurança
    • Foi constatado que integrar políticas sobre o comportamento do modelo à cadeia de pensamento do modelo de raciocínio é uma forma eficaz de ensinar de maneira robusta valores e princípios humanos
    • Ao ensinar o modelo a raciocinar de acordo com regras de segurança e com o contexto, foram encontradas evidências de que a capacidade de raciocínio ajuda diretamente na robustez do modelo
  • Acredita-se que o uso de cadeia de pensamento representa um avanço significativo em segurança e alinhamento, porque é possível observar o modelo pensando de maneira legítima e porque o raciocínio do modelo sobre regras de segurança é mais robusto em cenários fora de distribuição
  • Antes da implantação, foram realizados testes de segurança e exercícios de red team para destacar as melhorias
    • O raciocínio por cadeia de pensamento mostrou contribuir para o aumento de capacidade em todas as avaliações

Conclusão

  • O o1 representa um grande avanço no estado da arte do raciocínio em IA
  • Há planos de lançar versões aprimoradas deste modelo de forma iterativa
  • Espera-se que o o1 e seus sucessores abram muitos novos casos de uso de IA em ciência, programação, matemática e áreas relacionadas
  • Há expectativa de que usuários e desenvolvedores de API descubram como o o1 pode melhorar o trabalho do dia a dia

Opinião do GN⁺

  • O OpenAI o1 é um modelo com excelente capacidade de resolver problemas complexos e raciocinar, mostrando desempenho acima do nível humano. Em especial, parece ter habilidade de nível especialista em matemática, ciência e programação, o que deve ser de grande ajuda para pesquisa e aplicações nessas áreas
  • É impressionante o uso da abordagem de cadeia de pensamento (Chain of Thought), que permite observar e entender o processo de raciocínio do modelo. Isso deve ajudar bastante a compreender e controlar o comportamento do modelo. Ainda assim, a decisão de não expor esse processo de pensamento gerado diretamente ao usuário pode gerar controvérsia
  • Também chama atenção a integração de regras de política ao processo de raciocínio para reforçar a segurança do modelo. No entanto, isso ainda não parece perfeito, então monitoramento contínuo e melhorias adicionais ainda serão necessários
  • O o1 é um modelo muito poderoso, mas não é infalível. Limitações gerais dos modelos de IA, como vieses e questões éticas, continuam existindo. Será necessário manter esforços contínuos para superar essas limitações junto com o avanço técnico

1 comentários

 
GN⁺ 2024-09-13
Opiniões no Hacker News
  • Primeira opinião

    • Resumo das informações práticas obtidas no documento
      • Para ter acesso, é preciso estar no nível 5, ter pago um total de $1,000 e já terem se passado mais de 30 dias desde o primeiro pagamento bem-sucedido
      • O preço é de $15 por 1 milhão de tokens de entrada e $60 por 1 milhão de tokens de saída
      • A janela de contexto é de 128k tokens, com saída máxima de 32.768 tokens
      • Também existe uma versão mini com o dobro de tokens máximos de saída, ao preço de $3 por 1 milhão de tokens de entrada e $12 por 1 milhão de tokens de saída
      • A versão especializada em programação mencionada no post do blog não está disponível
      • Não está claro se o hidden chain of thought reasoning é cobrado como tokens de saída pagos
  • Segunda opinião

    • Há ceticismo porque os dois primeiros gráficos de precisão não têm rótulos específicos
      • Não dá para saber quanto tempo levou para alcançar o resultado de 80% de precisão
      • Não está claro se os gráficos do início do artigo se conectam ao problema de 10 horas resolvido na seção de programação
      • Há muitos dados, mas os dos dois primeiros gráficos são opacos demais para inspirar confiança
  • Terceira opinião

    • O exemplo de "segurança" é absurdo
      • A OpenAI diz que é inaceitável que um LLM forneça instruções detalhadas para sintetizar strychnine, mas ao mesmo tempo publica instruções "inseguras" geradas anteriormente
      • Existe uma obsessão exagerada com segurança em relação ao compartilhamento de conhecimento por LLMs
  • Quarta opinião

    • O desempenho do modelo é determinado pelo chain of thought, mas isso não é oferecido aos usuários por motivos como vantagem competitiva
      • Desde o lançamento do GPT4, tornou-se comum ajustar finamente modelos não OpenAI com base nas saídas do GPT4
      • A razão de a OpenAI não fornecer respostas com chain of thought é dificultar a reprodução dos resultados
  • Quinta opinião

    • Usaram um modelo GPT-4 para ajudar na engenharia reversa do protocolo binário Bluetooth de um ventilador de cozinha
      • Os modelos o1-preview e o1-mini entenderam o padrão e fizeram a decodificação
      • O modelo GPT4o forneceu o mesmo resultado de antes
      • Um avanço impressionante
  • Sexta opinião

    • Há muitos comentários que não entendem a diferença entre chain-of-thought prompting e aprender estratégias de chain of thought via aprendizado por reforço
      • Com aprendizado por reforço, o o1 refina seu chain of thought e melhora suas estratégias
  • Sétima opinião

    • Foi interessante ler o Chain of Thought do exemplo Cipher
      • Escrever a lógica lentamente e raciocinar sobre ela melhora o pensamento lógico
  • Oitava opinião

    • O o1 funciona bem para entender um problema de legendas de um programa de TV holandês
      • Quando perguntaram por que o u com trema aparecia como 1/4 nas legendas, ele explicou corretamente que era um problema de codificação
  • Nona opinião

    • Houve resultados decepcionantes ao decifrar uma cifra ROT
      • Muitas etapas estavam erradas ou não foram seguidas
      • É difícil encontrar um padrão que torne um motor de chain of thought útil
  • Décima opinião

    • A conquista técnica é grande, mas ainda há preocupação com a utilidade da ferramenta porque LLMs continuam vulneráveis a alucinações
      • Há risco de usuários não especialistas confiarem em respostas erradas
      • Por exemplo, ao avaliar algoritmos de otimização da ordem de joins em banco de dados, ele forneceu informações incorretas