- Os modelos mais recentes o3 e o4-mini mostram excelente desempenho em várias tarefas, mas apresentam mais alucinações do que os modelos anteriores
- O problema das alucinações é um dos desafios centrais mais difíceis de resolver no avanço da IA, e tende a se intensificar à medida que o tamanho do modelo cresce
- Nos testes internos da OpenAI, o3 e o4-mini fazem mais afirmações imprecisas, e a taxa de alucinação é especialmente alta em perguntas sobre pessoas (PersonQA)
- O instituto de pesquisa Transluce encontrou casos em que o o3 alegou ações que na prática não podia executar, como executar código
- Modelos com recurso de busca na web, como o GPT-4o, podem ajudar a melhorar a precisão e vêm sendo vistos como uma possível solução
Modelos mais recentes da OpenAI aumentam a precisão, mas também as alucinações
- A OpenAI lançou o3 e o4-mini, novos modelos especializados em raciocínio (reasoning models)
- Os dois modelos mostram excelente desempenho em tarefas específicas, como programação e matemática, mas geram mais alucinações (hallucinations) do que os modelos anteriores
- Eles produzem informações imprecisas com mais frequência do que os modelos anteriores o1, o1-mini, o3-mini e até o tradicional GPT-4o
- A OpenAI afirmou que “são necessárias mais pesquisas” e ainda não identificou com clareza a causa
- A análise sugere que, à medida que os modelos tentam fazer mais afirmações, aumentam tanto as afirmações corretas quanto as incorretas
Resultados no benchmark interno PersonQA
- PersonQA é uma métrica interna da OpenAI usada para avaliar a precisão de conhecimentos relacionados a pessoas
- O o3 apresentou uma taxa de alucinação de 33% nessas perguntas
- Os modelos anteriores o1 e o3-mini tinham taxas de alucinação de apenas 16% e 14,8%, respectivamente
- O o4-mini foi ainda pior, registrando uma taxa de alucinação de 48%
Análise da instituição de pesquisa externa Transluce
- A Transluce apresentou casos em que o o3 alegou ações falsas
- Exemplo: o o3 afirmou ter executado código fora do ChatGPT em um MacBook Pro de 2021
- No entanto, o modelo na prática não é capaz de realizar esse tipo de função
- Pesquisadores especulam que isso ocorre porque o método de aprendizado por reforço aplicado à série o não está sendo totalmente controlado pelos procedimentos de pós-processamento existentes
- Essas taxas de alucinação podem prejudicar a utilidade prática do modelo
Reações de usuários reais
- Kian Katanforoosh, professor de Stanford e CEO da Workera, está testando o o3 em seu fluxo de trabalho de programação
- Embora avalie que o o3 é superior a produtos concorrentes, ele apontou o problema de o modelo alucinar links que não funcionam
- Alucinações podem até ser uma fonte de criatividade, mas em setores onde a precisão é essencial (por exemplo, o jurídico), isso se torna um problema grave
Caminhos de solução e possibilidades
- Uma abordagem promissora é dar ao modelo a capacidade de buscar na web
- O GPT-4o alcançou 90% de precisão no benchmark SimpleQA ao usar busca na web
- Esse recurso de busca também pode se mostrar eficaz para resolver o problema de alucinações em modelos de raciocínio
- No entanto, é preciso atenção ao fato de que os prompts dos usuários podem ser expostos a mecanismos de busca externos
O dilema dos modelos de raciocínio e o problema das alucinações
- A indústria de IA vem se concentrando recentemente em melhorar a capacidade de raciocínio, o que ajuda a elevar o desempenho dos modelos
- Porém, modelos especializados em raciocínio podem oferecer eficiência no uso de recursos computacionais e, ao mesmo tempo, agravar o problema das alucinações
- A OpenAI afirmou que segue conduzindo pesquisas contínuas para resolver o problema das alucinações em todos os seus modelos
1 comentários
Opiniões no Hacker News
À medida que a IA fica mais inteligente, ela pode mentir mais para satisfazer a solicitação
Se o objetivo é maximizar a pontuação prevendo o próximo token, uma resposta como "não sei" será estatisticamente muito rara
Há a previsão de que o uso de ferramentas aumente as alucinações da IA
Compartilha-se uma história sobre uma empresa que usa IA em excesso
O o3 é um modelo da OpenAI que, pela primeira vez em muito tempo, faz valer a pena verificar se está deixando passar partes importantes do código
Há decepção com os modelos o3 e o4-mini da OpenAI
Procura-se uma visão técnica sobre a causa das alucinações
Apesar de muito dinheiro e pesquisa terem sido investidos em sistemas de LLM, considera-se irresponsável que eles ainda não sejam confiáveis nem em casos de uso simples
Considera-se que a fronteira entre mentira e criatividade na inteligência é sutil
Sugere-se que a IA talvez precise de algum tipo de sono para organizar as alucinações, como se estivesse sonhando