- Há muito debate sobre em que medida os grandes modelos de linguagem (LLMs) possuem teoria da mente (Theory of Mind), isto é, a capacidade de entender o que outras pessoas sabem e não sabem
- Neste notebook, uma parte dessa questão é explorada pedindo a 9 chatbots baseados em LLM que resolvam o problema do aniversário de Cheryl (um famoso quebra-cabeça lógico em que os personagens têm estados de conhecimento diferentes em momentos diferentes)
Resumo do desempenho dos LLMs
- Como todos os LLMs já conheciam o problema, não foi necessário explicá-lo no prompt; bastou mencionar o nome
- A maioria lembrou corretamente da resposta do problema: 16 de julho
- No entanto, nenhum conseguiu escrever um programa para encontrar a solução
- Nenhum dos LLMs conseguiu distinguir os diferentes estados de conhecimento dos personagens ao longo do tempo
- Pelo menos neste problema, os LLMs não demonstraram teoria da mente (talvez porque quase não existam programas em Python sobre teoria da mente no conjunto de treinamento dos LLMs)
Resumo das respostas por LLM
Humano real
- Consegue resolver corretamente o problema original e também escrever um programa capaz de lidar com novos conjuntos de datas e outras variações do problema
- Introduziu o conceito de
BeliefState, que é o conjunto de datas possíveis que uma pessoa acredita poder ser o aniversário
- Modelou as falas dos personagens como funções que recebem uma data específica como entrada e retornam true se a fala for compatível com ela
ChatGPT 4o
- Começou com um excelente resumo do problema
- Tentou escrever uma solução generalizada, mas não conseguiu rastrear os diferentes estados de crença dos personagens ao longo do tempo
Microsoft Copilot
- Cometeu erros semelhantes aos do ChatGPT
Gemini Advanced
- Foi bom no sentido de definir várias funções, mas ainda assim não lidou corretamente com as mudanças de estado ao longo do tempo
Meta Llama 405B
- Não conseguiu encontrar a solução
Claude 3.5 Sonnet
- Foi interessante por testar explicitamente exemplos com datas diferentes, mas no segundo exemplo apenas relatou corretamente, por acaso, que não havia solução
Perplexity
- Parecia promissor por ter variáveis separadas,
albert_knows e bernard_knows, mas não funcionou corretamente
- Recebe as datas possíveis como parâmetro, mas ignora a entrada e define
month_days com base nas datas originais
HuggingFace Chat
- Foi o único modelo a sugerir uma definição de classe, mas ainda assim cometeu erros semelhantes
- Recebe a lista de datas possíveis no construtor, mas faz hardcode dos meses e dias específicos do problema original
You.com
- Cometeu erros semelhantes aos dos outros modelos, mas acabou escolhendo uma data errada em vez de não escolher nenhuma
Opinião do GN+
- Este problema é uma forma interessante de avaliar a capacidade teórica de teoria da mente dos LLMs
- Todos os LLMs lembraram a resposta correta, mas nenhum conseguiu criar um programa que acompanhasse as mudanças nos estados de conhecimento dos personagens ao longo do tempo
- Isso pode ser porque esse tipo de raciocínio não está incluído nas amostras de código com que os LLMs foram treinados
- Para melhorar o desempenho dos LLMs nesse tipo de problema de raciocínio, pode ser útil treiná-los com programas que tratem explicitamente desses cenários
- Para ampliar nossa compreensão sobre a capacidade teórica de teoria da mente dos LLMs, será necessário testar mais problemas semelhantes a este
4 comentários
Como se trata de uma indústria futurista de ponta, é como construir algo desconhecido a partir do zero. Nesse momento, também é necessária imaginação lógica. Pense no fundador da Apple.
Foi excluído por conter termos publicitários.
O aniversário de Cheryl ficou famoso por ter aparecido como problema na Olimpíada de Matemática de Singapura de 2015, a ponto de ter até página na wiki.
(Dizem que, na verdade, também existe uma versão inicial de 2006.)
https://en.wikipedia.org/wiki/Cheryl%27s_Birthday
O problema é o seguinte.
Albert e Bernard ficaram amigos de Cheryl e perguntam a data do aniversário dela.
Cheryl lhes dá 10 datas.
Cheryl contou a Albert o "mês" do seu aniversário e a Bernard o "dia" do aniversário.
Albert: Eu não sei quando é o aniversário de Cheryl, mas sei que Bernard também não deve saber.
Bernard: No começo eu também não sabia quando era o aniversário de Cheryl. Mas agora eu sei.
Albert: Então agora eu também sei quando é o aniversário de Cheryl.
Quando é o aniversário de Cheryl?
Comentários no Hacker News
find_cheryls_birthdayanalisa as datas possíveis para encontrar o aniversário de Cheryl