- Enquanto experimentava métodos para induzir alucinações no ChatGPT o1 e no Gemini 2.5, o o3 foi lançado
- Diferente do o1, o o3 é um modelo multimodal poderoso com recursos como busca na internet, reconhecimento de imagens e execução de código. No entanto, foi observado que ele dá respostas falsas que uma pessoa provavelmente não daria
- Hipótese central: diferentemente dos humanos, LLMs não têm órgãos sensoriais. Portanto, devem ser fracos em perguntas que exigem informações como visão ou senso de direção
- Perguntas usadas para induzir alucinações
- Descrever
Os Comedores de Batata, de Van Gogh
- Melhor do que o o1, que errou até a composição dos personagens, mas ainda comete erros nas descrições específicas
- Dizer as notas da melodia da Sonata para Piano K545 de Mozart
- Mesmo encontrando a imagem original por meio da busca na internet, não conseguiu responder corretamente
- Parece que o módulo visual não reconhece partituras
- Resultado de rota a pé
- Respondeu errado mesmo com o resultado de busca do Naver Map incluído
- Problema de alternância entre teclado coreano e inglês (ex.:
cotwlvlxl -> 챗지피티)
- Quando o tamanho da entrada é pequeno, responde bem; quando aumenta, começa a gerar respostas falsas
- Parece que, no meio de resolver o problema, ele diz algo como “ah, dane-se” e simplesmente desiste
- Algoritmos tradicionais não têm esse “momento dane-se”. Eles apenas continuariam executando por muito tempo até dar timeout
- Conclusão
- A ausência de órgãos sensoriais no sentido verdadeiro ainda é uma fraqueza válida dos LLMs
- Não conseguir resolver um problema não é um defeito. O verdadeiro defeito é inventar respostas falsas
- Em vez de focar em fortalecer a capacidade de raciocínio e adicionar novos recursos, seria melhor se as empresas desenvolvedoras incutissem metacognição suficiente para que o modelo pudesse dizer que não sabe quando realmente não sabe
Ainda não há comentários.