3 pontos por computerphilosopher 2025-04-18 | Ainda não há comentários. | Compartilhar no WhatsApp
  • Enquanto experimentava métodos para induzir alucinações no ChatGPT o1 e no Gemini 2.5, o o3 foi lançado
  • Diferente do o1, o o3 é um modelo multimodal poderoso com recursos como busca na internet, reconhecimento de imagens e execução de código. No entanto, foi observado que ele dá respostas falsas que uma pessoa provavelmente não daria
  • Hipótese central: diferentemente dos humanos, LLMs não têm órgãos sensoriais. Portanto, devem ser fracos em perguntas que exigem informações como visão ou senso de direção
  • Perguntas usadas para induzir alucinações
    • Descrever Os Comedores de Batata, de Van Gogh
      • Melhor do que o o1, que errou até a composição dos personagens, mas ainda comete erros nas descrições específicas
    • Dizer as notas da melodia da Sonata para Piano K545 de Mozart
      • Mesmo encontrando a imagem original por meio da busca na internet, não conseguiu responder corretamente
      • Parece que o módulo visual não reconhece partituras
    • Resultado de rota a pé
      • Respondeu errado mesmo com o resultado de busca do Naver Map incluído
    • Problema de alternância entre teclado coreano e inglês (ex.: cotwlvlxl -> 챗지피티)
      • Quando o tamanho da entrada é pequeno, responde bem; quando aumenta, começa a gerar respostas falsas
      • Parece que, no meio de resolver o problema, ele diz algo como “ah, dane-se” e simplesmente desiste
      • Algoritmos tradicionais não têm esse “momento dane-se”. Eles apenas continuariam executando por muito tempo até dar timeout
  • Conclusão
    • A ausência de órgãos sensoriais no sentido verdadeiro ainda é uma fraqueza válida dos LLMs
    • Não conseguir resolver um problema não é um defeito. O verdadeiro defeito é inventar respostas falsas
    • Em vez de focar em fortalecer a capacidade de raciocínio e adicionar novos recursos, seria melhor se as empresas desenvolvedoras incutissem metacognição suficiente para que o modelo pudesse dizer que não sabe quando realmente não sabe

Ainda não há comentários.

Ainda não há comentários.