- Anunciado o OpenAI o1, um novo grande modelo de linguagem treinado com aprendizado por reforço para realizar raciocínio complexo
- O o1 pode gerar uma longa cadeia interna de pensamento (
chain of thought) antes de responder ao usuário
- O o1 alcançou o percentil 89 em problemas de programação competitiva (Codeforces), nível de um dos 500 melhores estudantes dos EUA na fase classificatória da Olimpíada Americana de Matemática (AIME) e superou a precisão de doutores humanos no benchmark GPQA de física, biologia e química
- Embora o trabalho para torná-lo tão fácil de usar quanto os modelos atuais ainda esteja em andamento, a OpenAI disponibilizou imediatamente a versão inicial desse modelo, o OpenAI o1-preview, no ChatGPT e para usuários confiáveis da API
Avaliação
- O o1 mostra desempenho muito superior ao GPT-4o na maioria das tarefas centradas em raciocínio
- No exame AIME 2024, enquanto o GPT-4o resolveu em média apenas 12% das questões (1,8/15), o o1 alcançou em média 74% (11,1/15) com uma única amostra, 83% (12,5/15) por consenso entre 64 amostras e 93% (13,9/15) ao reordenar 1.000 amostras com uma função de pontuação treinada
- No GPQA Diamond, o o1 superou o desempenho de especialistas humanos em química, física e biologia, tornando-se o primeiro modelo a fazer isso nesse benchmark
- Com a capacidade de percepção visual ativada, o o1 registrou 78,2% no MMMU, tornando-se o primeiro modelo capaz de competir com especialistas humanos
- Superou o GPT-4o em 54 das 57 subcategorias do MMLU
Cadeia de pensamento (chain of thought)
- Assim como uma pessoa pode pensar por bastante tempo antes de responder a uma pergunta difícil, o o1 usa uma cadeia de pensamento ao tentar resolver problemas
- Por meio de aprendizado por reforço, o o1 aprendeu a refinar sua cadeia de pensamento e a melhorar as estratégias de uso dela
- Aprendeu a reconhecer e corrigir erros
- Aprendeu a decompor etapas complicadas em etapas mais simples
- Aprendeu a tentar outras abordagens quando a estratégia atual não funciona
Programação
- O modelo foi treinado para melhorar ainda mais suas habilidades de programação e atingiu 213 pontos na Olimpíada Internacional de Informática (IOI) de 2024, ficando no percentil 49
- Esse modelo participou da IOI 2024 sob as mesmas condições que os participantes humanos
- Recebeu 10 horas para resolver 6 problemas algorítmicos desafiadores, com 50 submissões permitidas por problema
- Quando são permitidas 10.000 submissões, o desempenho do modelo melhora bastante
- Mesmo sem uma estratégia de seleção em tempo de teste, alcançou 362,14 pontos, superando o corte para medalha de ouro
- A habilidade de programação do modelo também foi demonstrada por meio da simulação de competições de programação competitiva realizadas no Codeforces
- O GPT-4o atingiu rating ELO 808, correspondente ao percentil 11 entre competidores humanos
- Este modelo superou amplamente tanto o GPT-4o quanto o o1, alcançando rating ELO 1807 e desempenho melhor que 93% dos competidores
Segurança
- O raciocínio por cadeia de pensamento oferece novas oportunidades para alinhamento e segurança
- Foi constatado que integrar políticas sobre o comportamento do modelo à cadeia de pensamento do modelo de raciocínio é uma forma eficaz de ensinar de maneira robusta valores e princípios humanos
- Ao ensinar o modelo a raciocinar de acordo com regras de segurança e com o contexto, foram encontradas evidências de que a capacidade de raciocínio ajuda diretamente na robustez do modelo
- Acredita-se que o uso de cadeia de pensamento representa um avanço significativo em segurança e alinhamento, porque é possível observar o modelo pensando de maneira legítima e porque o raciocínio do modelo sobre regras de segurança é mais robusto em cenários fora de distribuição
- Antes da implantação, foram realizados testes de segurança e exercícios de red team para destacar as melhorias
- O raciocínio por cadeia de pensamento mostrou contribuir para o aumento de capacidade em todas as avaliações
Conclusão
- O o1 representa um grande avanço no estado da arte do raciocínio em IA
- Há planos de lançar versões aprimoradas deste modelo de forma iterativa
- Espera-se que o o1 e seus sucessores abram muitos novos casos de uso de IA em ciência, programação, matemática e áreas relacionadas
- Há expectativa de que usuários e desenvolvedores de API descubram como o o1 pode melhorar o trabalho do dia a dia
Opinião do GN⁺
- O OpenAI o1 é um modelo com excelente capacidade de resolver problemas complexos e raciocinar, mostrando desempenho acima do nível humano. Em especial, parece ter habilidade de nível especialista em matemática, ciência e programação, o que deve ser de grande ajuda para pesquisa e aplicações nessas áreas
- É impressionante o uso da abordagem de cadeia de pensamento (Chain of Thought), que permite observar e entender o processo de raciocínio do modelo. Isso deve ajudar bastante a compreender e controlar o comportamento do modelo. Ainda assim, a decisão de não expor esse processo de pensamento gerado diretamente ao usuário pode gerar controvérsia
- Também chama atenção a integração de regras de política ao processo de raciocínio para reforçar a segurança do modelo. No entanto, isso ainda não parece perfeito, então monitoramento contínuo e melhorias adicionais ainda serão necessários
- O o1 é um modelo muito poderoso, mas não é infalível. Limitações gerais dos modelos de IA, como vieses e questões éticas, continuam existindo. Será necessário manter esforços contínuos para superar essas limitações junto com o avanço técnico
1 comentários
Opiniões no Hacker News
Primeira opinião
Segunda opinião
Terceira opinião
Quarta opinião
Quinta opinião
Sexta opinião
Sétima opinião
Oitava opinião
Nona opinião
Décima opinião