- O SimpleQA é um novo benchmark para medir a factualidade de modelos de linguagem
- Treinar modelos de IA para gerar respostas baseadas em fatos ainda é um problema não resolvido
- Os modelos de linguagem atuais às vezes geram saídas falsas ou respostas sem respaldo em evidências. Isso é chamado de "hallucinations"
- Modelos de linguagem mais precisos e com menos alucinações podem ser mais confiáveis e aplicados em diversos casos de uso
- O objetivo do open source do SimpleQA é medir a factualidade de modelos de linguagem
Características do benchmark SimpleQA
- Como factualidade é um tema difícil de medir, o SimpleQA foca em consultas curtas e orientadas a fatos
- Objetivos do SimpleQA:
- Alta precisão: duas pessoas treinadoras de IA independentes sustentam a resposta correta com fontes fornecidas, e as perguntas são escritas para permitir avaliação fácil das respostas previstas
- Diversidade: cobre uma ampla gama de temas, de ciência e tecnologia a séries de TV e videogames
- Desafiador para modelos atuais: ao contrário de benchmarks anteriores como TriviaQA ou NQ, o SimpleQA foi feito para ser mais desafiador para modelos recentes (ex.: GPT-4 obteve menos de 40%)
- UX amigável para pesquisadores: graças a perguntas e respostas concisas, o SimpleQA é rápido e simples de executar. A avaliação via OpenAI API ou APIs de outros modelos recentes também é eficiente. Com 4.326 perguntas, espera-se uma variância relativamente baixa como benchmark de avaliação
Processo de criação do dataset SimpleQA
- Pessoas treinadoras de IA navegaram na web para criar perguntas curtas e orientadas a fatos, junto com suas respectivas respostas
- Para entrar no dataset, cada pergunta precisava atender a critérios rigorosos:
- Deve haver uma única resposta clara e inequívoca, fácil de avaliar
- A resposta à pergunta não deve mudar com o tempo
- A maioria das perguntas deve induzir alucinações no GPT-4 ou no GPT-3.5
- Para melhorar ainda mais a qualidade do dataset, uma segunda pessoa treinadora de IA independente respondeu a cada pergunta sem ver a resposta original
- Apenas perguntas em que as respostas das duas pessoas treinadoras coincidiam foram incluídas
Verificação da qualidade do dataset SimpleQA
- Para a validação final, 1.000 perguntas foram extraídas aleatoriamente do dataset e respondidas por uma terceira pessoa treinadora de IA
- As respostas da terceira pessoa treinadora coincidiram com a resposta originalmente acordada em 94,4% dos casos. Houve divergência em 5,6%
- A inspeção manual dos casos divergentes mostrou que:
- Dos 5,6%, 2,8% se deveram a falsos negativos do avaliador ou erro humano da terceira pessoa treinadora (ex.: resposta incompleta, interpretação equivocada da fonte)
- Os 2,8% restantes se deveram a problemas reais da própria pergunta (ex.: pergunta ambígua, respostas conflitantes entre sites)
- Com base nisso, a taxa de erro intrínseca desse dataset é estimada em cerca de 3%
Diversidade das perguntas do SimpleQA
- O gráfico de pizza abaixo mostra a diversidade temática do benchmark SimpleQA
- Ao passar o mouse sobre cada parte do gráfico de pizza, são exibidos exemplos de perguntas daquela categoria
Comparação de modelos de linguagem com o SimpleQA
- Para avaliar as perguntas, foi usado um classificador do ChatGPT que vê tanto a resposta prevista pelo modelo quanto a resposta real
- O classificador avalia a resposta prevista como "correct", "incorrect" ou "not attempted"
- A tabela abaixo mostra a definição de cada classe e exemplos correspondentes
- "Correct": a resposta prevista inclui completamente a resposta real e não a contradiz
- "Incorrect": a resposta prevista contradiz a resposta real de qualquer forma (mesmo com hedging)
- "Not attempted": o alvo real não foi completamente apresentado na resposta, e não há contradição com a resposta real
- O ideal é que o modelo responda ao maior número possível de perguntas (maior número de
correct) enquanto minimiza ao mesmo tempo o número de respostas incorrect
Medição de calibration de modelos de linguagem com o SimpleQA
- Usando um benchmark de factualidade como o SimpleQA, é possível medir se o modelo "sabe o que sabe"
- Isso é chamado de calibration, e pode ser medido pedindo diretamente ao modelo que informe em porcentagem o grau de confiança em sua própria resposta
- Em seguida, é possível representar em gráfico a correlação entre o nível de confiança declarado pelo modelo e sua precisão real
- Um modelo perfeitamente calibrado teria o mesmo nível entre confiança declarada e precisão real
- A figura abaixo mostra esses resultados:
- A correlação positiva entre confiança declarada e precisão é um sinal positivo de que o modelo tem algum grau de noção da própria certeza
- O o1-preview é mais bem calibrado que o o1-mini, e o gpt4 é mais bem calibrado que o gpt4-mini
- No entanto, o fato de o desempenho ficar bem abaixo da linha y=x significa que os modelos consistentemente superestimam seu próprio nível de confiança
- Portanto, ainda há bastante espaço para melhorar a calibration de grandes modelos de linguagem em termos de confiança declarada
Conclusão
- O SimpleQA é um benchmark simples, mas desafiador, para avaliar a factualidade de modelos atuais
- A principal limitação do SimpleQA é seu escopo. Ele mede factualidade apenas em uma situação restrita: consultas curtas, orientadas a fatos, com uma única resposta precisa e verificável
- Ainda é uma questão em aberto, que requer mais pesquisa, se a capacidade de fornecer respostas curtas baseadas em fatos se correlaciona com a capacidade de escrever respostas longas cheias de inúmeros fatos
- Espera-se que o open source do SimpleQA promova pesquisas em IA mais confiáveis e estáveis, e que pesquisadores usem o SimpleQA para avaliar a factualidade de modelos de linguagem e forneçam feedback
Opinião do GN⁺
- O SimpleQA é um benchmark interessante e necessário para medir a factualidade de modelos de linguagem com perguntas curtas baseadas em fatos. Afinal, para aumentar a confiabilidade da IA, é preciso melhorar a capacidade de gerar respostas fundamentadas em fatos
- No entanto, como o SimpleQA mede apenas factualidade em situações limitadas, ele não reflete perfeitamente a factualidade de modelos de linguagem em cenários reais de uso. Pesquisas futuras parecem necessárias para avaliar factualidade em contextos mais diversos
- Além disso, como a precisão do próprio dataset SimpleQA é de cerca de 97%, parece difícil que o desempenho dos modelos de linguagem ultrapasse esse patamar. A melhoria da qualidade do próprio dataset também deve continuar
- Outros benchmarks com objetivo semelhante ao do SimpleQA incluem TruthfulQA e HonestQA. Uma análise comparativa com eles pode ajudar a entender com mais clareza os pontos fortes e fracos do SimpleQA
- Para aumentar a factualidade de modelos de linguagem, não basta apenas fazer pré-treinamento com grandes volumes de dados de alta qualidade; também parece necessário ter capacidade de usar conhecimento externo ou de se autocorrigir no momento da inferência. Espera-se que pesquisas relacionadas avancem ativamente
Ainda não há comentários.