Sobre o Strawberry da OpenAI e raciocínio

xguru · 2024-09-14T10:02:02+09:00

Tive acesso antecipado ao sistema de raciocínio aprimorado da OpenAI, o "Strawberry", e pude experimentá-lo; agora ele foi lançado e posso compartilhar minhas opiniões O novo modelo de IA, o o1-preview, permite que a IA "pense" antes de resolver um problema Com isso, ele consegue lidar com problemas muito difíceis que exigem planejamento e iteração e, na prática, pode superar especialistas humanos com doutorado na resolução de problemas de física muito difíceis Esse sistema é impressionante, mas ainda é limitado, e aponta para a direção dos próximos avanços No entanto, o o1-preview não é melhor em tudo; por exemplo, não escreve melhor do que o GPT-4o Palavras cruzadas são especialmente difíceis para LLMs Porque exigem um processo iterativo de solução, em que muitas respostas que afetam umas às outras precisam ser tentadas e descartadas LLMs não conseguem fazer isso, porque só podem adicionar um token/palavra à resposta por vez LLMs comuns, como o Claude, não conseguem resolver palavras cruzadas corretamente Mas o Strawberry, após "pensar" por 108 segundos, resolveu as palavras cruzadas quase perfeitamente O o1-preview torna possível fazer coisas que eram impossíveis sem o Strawberry, mas ainda não é perfeito Erros e alucinações ainda acontecem, e ele é limitado pela "inteligência" do modelo-base, o GPT-4o Mesmo depois de receber o novo modelo, continuo usando o Claude para crítica de estilo de escrita, e o Claude ainda é superior nesse aspecto Porém, parei de usar o Claude em tarefas relacionadas a planejamento complexo ou resolução de problemas, o que representa um grande salto nessa área Em Co-Intelligence.. Ao usar o o1-preview, passamos a enfrentar uma mudança de paradigma na IA Planejamento é uma forma de ação em que a IA chega por conta própria a um caminho para resolver o problema Dá a sensação de que o papel do parceiro humano diminui, já que a IA entrega um resultado completo por meio de muito raciocínio e trabalho A IA propõe a resposta por conta própria, e o usuário pode revisar seu processo de raciocínio para encontrar erros, mas a sensação de conexão com o resultado ou de contribuição para a direção da solução diminui Essa mudança não é necessariamente ruim, mas é diferente do que havia antes À medida que esses sistemas evoluem para verdadeiros agentes autônomos, precisamos pensar em como nos envolver para detectar erros e entender o fluxo do problema que estamos tentando resolver Apesar das limitações atuais, o o1-preview está mostrando capacidades de IA que não esperávamos A questão importante é como vamos evoluir nossa forma de colaboração com a IA à medida que ela avança Essa é uma parte que o o1-preview ainda não consegue resolver

(oneusefulthing.org)

6 pontos por xguru 2024-09-14 | 2 comentários | Compartilhar no WhatsApp

Tive acesso antecipado ao sistema de raciocínio aprimorado da OpenAI, o "Strawberry", e pude experimentá-lo; agora ele foi lançado e posso compartilhar minhas opiniões
O novo modelo de IA, o o1-preview, permite que a IA "pense" antes de resolver um problema
Com isso, ele consegue lidar com problemas muito difíceis que exigem planejamento e iteração e, na prática, pode superar especialistas humanos com doutorado na resolução de problemas de física muito difíceis
Esse sistema é impressionante, mas ainda é limitado, e aponta para a direção dos próximos avanços
No entanto, o o1-preview não é melhor em tudo; por exemplo, não escreve melhor do que o GPT-4o
Palavras cruzadas são especialmente difíceis para LLMs
- Porque exigem um processo iterativo de solução, em que muitas respostas que afetam umas às outras precisam ser tentadas e descartadas
- LLMs não conseguem fazer isso, porque só podem adicionar um token/palavra à resposta por vez
- LLMs comuns, como o Claude, não conseguem resolver palavras cruzadas corretamente
- Mas o Strawberry, após "pensar" por 108 segundos, resolveu as palavras cruzadas quase perfeitamente
O o1-preview torna possível fazer coisas que eram impossíveis sem o Strawberry, mas ainda não é perfeito
- Erros e alucinações ainda acontecem, e ele é limitado pela "inteligência" do modelo-base, o GPT-4o
- Mesmo depois de receber o novo modelo, continuo usando o Claude para crítica de estilo de escrita, e o Claude ainda é superior nesse aspecto
- Porém, parei de usar o Claude em tarefas relacionadas a planejamento complexo ou resolução de problemas, o que representa um grande salto nessa área

Em Co-Intelligence..

Ao usar o o1-preview, passamos a enfrentar uma mudança de paradigma na IA
Planejamento é uma forma de ação em que a IA chega por conta própria a um caminho para resolver o problema
Dá a sensação de que o papel do parceiro humano diminui, já que a IA entrega um resultado completo por meio de muito raciocínio e trabalho
A IA propõe a resposta por conta própria, e o usuário pode revisar seu processo de raciocínio para encontrar erros, mas a sensação de conexão com o resultado ou de contribuição para a direção da solução diminui
Essa mudança não é necessariamente ruim, mas é diferente do que havia antes
À medida que esses sistemas evoluem para verdadeiros agentes autônomos, precisamos pensar em como nos envolver para detectar erros e entender o fluxo do problema que estamos tentando resolver
Apesar das limitações atuais, o o1-preview está mostrando capacidades de IA que não esperávamos
A questão importante é como vamos evoluir nossa forma de colaboração com a IA à medida que ela avança
Essa é uma parte que o o1-preview ainda não consegue resolver

2 comentários

bluekai17 2024-09-19

"A pergunta importante é como vamos evoluir nossa forma de colaborar com a IA à medida que a IA avança"

É difícil.

xguru 2024-09-14

O autor é Ethan Mollick, professor da Wharton School da Universidade da Pensilvânia. Ele pesquisa empreendedorismo, inovação e IA.
O conteúdo acima foi publicado no Substack dele, One Useful Thing, e esta newsletter tem cerca de 190 mil assinantes.

Sobre o Strawberry da OpenAI e raciocínio

Em Co-Intelligence..

Leituras relacionadas

2 comentários