OpenAI divulga o benchmark de fact-checking SimpleQA

(openai.com)

6 pontos por GN⁺ 2024-11-02 | Ainda não há comentários. | Compartilhar no WhatsApp

O SimpleQA é um novo benchmark para medir a factualidade de modelos de linguagem
Treinar modelos de IA para gerar respostas baseadas em fatos ainda é um problema não resolvido
Os modelos de linguagem atuais às vezes geram saídas falsas ou respostas sem respaldo em evidências. Isso é chamado de "hallucinations"
Modelos de linguagem mais precisos e com menos alucinações podem ser mais confiáveis e aplicados em diversos casos de uso
O objetivo do open source do SimpleQA é medir a factualidade de modelos de linguagem

Características do benchmark SimpleQA

Como factualidade é um tema difícil de medir, o SimpleQA foca em consultas curtas e orientadas a fatos
Objetivos do SimpleQA:
1. Alta precisão: duas pessoas treinadoras de IA independentes sustentam a resposta correta com fontes fornecidas, e as perguntas são escritas para permitir avaliação fácil das respostas previstas
2. Diversidade: cobre uma ampla gama de temas, de ciência e tecnologia a séries de TV e videogames
3. Desafiador para modelos atuais: ao contrário de benchmarks anteriores como TriviaQA ou NQ, o SimpleQA foi feito para ser mais desafiador para modelos recentes (ex.: GPT-4 obteve menos de 40%)
4. UX amigável para pesquisadores: graças a perguntas e respostas concisas, o SimpleQA é rápido e simples de executar. A avaliação via OpenAI API ou APIs de outros modelos recentes também é eficiente. Com 4.326 perguntas, espera-se uma variância relativamente baixa como benchmark de avaliação

Pessoas treinadoras de IA navegaram na web para criar perguntas curtas e orientadas a fatos, junto com suas respectivas respostas
Para entrar no dataset, cada pergunta precisava atender a critérios rigorosos:
- Deve haver uma única resposta clara e inequívoca, fácil de avaliar
- A resposta à pergunta não deve mudar com o tempo
- A maioria das perguntas deve induzir alucinações no GPT-4 ou no GPT-3.5
Para melhorar ainda mais a qualidade do dataset, uma segunda pessoa treinadora de IA independente respondeu a cada pergunta sem ver a resposta original
Apenas perguntas em que as respostas das duas pessoas treinadoras coincidiam foram incluídas

Para a validação final, 1.000 perguntas foram extraídas aleatoriamente do dataset e respondidas por uma terceira pessoa treinadora de IA
As respostas da terceira pessoa treinadora coincidiram com a resposta originalmente acordada em 94,4% dos casos. Houve divergência em 5,6%
A inspeção manual dos casos divergentes mostrou que:
- Dos 5,6%, 2,8% se deveram a falsos negativos do avaliador ou erro humano da terceira pessoa treinadora (ex.: resposta incompleta, interpretação equivocada da fonte)
- Os 2,8% restantes se deveram a problemas reais da própria pergunta (ex.: pergunta ambígua, respostas conflitantes entre sites)
Com base nisso, a taxa de erro intrínseca desse dataset é estimada em cerca de 3%

O gráfico de pizza abaixo mostra a diversidade temática do benchmark SimpleQA
Ao passar o mouse sobre cada parte do gráfico de pizza, são exibidos exemplos de perguntas daquela categoria

Para avaliar as perguntas, foi usado um classificador do ChatGPT que vê tanto a resposta prevista pelo modelo quanto a resposta real
O classificador avalia a resposta prevista como "correct", "incorrect" ou "not attempted"
A tabela abaixo mostra a definição de cada classe e exemplos correspondentes
- "Correct": a resposta prevista inclui completamente a resposta real e não a contradiz
- "Incorrect": a resposta prevista contradiz a resposta real de qualquer forma (mesmo com hedging)
- "Not attempted": o alvo real não foi completamente apresentado na resposta, e não há contradição com a resposta real
O ideal é que o modelo responda ao maior número possível de perguntas (maior número de correct) enquanto minimiza ao mesmo tempo o número de respostas incorrect

Usando um benchmark de factualidade como o SimpleQA, é possível medir se o modelo "sabe o que sabe"
Isso é chamado de calibration, e pode ser medido pedindo diretamente ao modelo que informe em porcentagem o grau de confiança em sua própria resposta
Em seguida, é possível representar em gráfico a correlação entre o nível de confiança declarado pelo modelo e sua precisão real
Um modelo perfeitamente calibrado teria o mesmo nível entre confiança declarada e precisão real
A figura abaixo mostra esses resultados:
- A correlação positiva entre confiança declarada e precisão é um sinal positivo de que o modelo tem algum grau de noção da própria certeza
- O o1-preview é mais bem calibrado que o o1-mini, e o gpt4 é mais bem calibrado que o gpt4-mini
- No entanto, o fato de o desempenho ficar bem abaixo da linha y=x significa que os modelos consistentemente superestimam seu próprio nível de confiança
- Portanto, ainda há bastante espaço para melhorar a calibration de grandes modelos de linguagem em termos de confiança declarada

O SimpleQA é um benchmark simples, mas desafiador, para avaliar a factualidade de modelos atuais
A principal limitação do SimpleQA é seu escopo. Ele mede factualidade apenas em uma situação restrita: consultas curtas, orientadas a fatos, com uma única resposta precisa e verificável
Ainda é uma questão em aberto, que requer mais pesquisa, se a capacidade de fornecer respostas curtas baseadas em fatos se correlaciona com a capacidade de escrever respostas longas cheias de inúmeros fatos
Espera-se que o open source do SimpleQA promova pesquisas em IA mais confiáveis e estáveis, e que pesquisadores usem o SimpleQA para avaliar a factualidade de modelos de linguagem e forneçam feedback

O SimpleQA é um benchmark interessante e necessário para medir a factualidade de modelos de linguagem com perguntas curtas baseadas em fatos. Afinal, para aumentar a confiabilidade da IA, é preciso melhorar a capacidade de gerar respostas fundamentadas em fatos
No entanto, como o SimpleQA mede apenas factualidade em situações limitadas, ele não reflete perfeitamente a factualidade de modelos de linguagem em cenários reais de uso. Pesquisas futuras parecem necessárias para avaliar factualidade em contextos mais diversos
Além disso, como a precisão do próprio dataset SimpleQA é de cerca de 97%, parece difícil que o desempenho dos modelos de linguagem ultrapasse esse patamar. A melhoria da qualidade do próprio dataset também deve continuar
Outros benchmarks com objetivo semelhante ao do SimpleQA incluem TruthfulQA e HonestQA. Uma análise comparativa com eles pode ajudar a entender com mais clareza os pontos fortes e fracos do SimpleQA
Para aumentar a factualidade de modelos de linguagem, não basta apenas fazer pré-treinamento com grandes volumes de dados de alta qualidade; também parece necessário ter capacidade de usar conhecimento externo ou de se autocorrigir no momento da inferência. Espera-se que pesquisas relacionadas avancem ativamente