6 pontos por GN⁺ 2024-11-02 | Ainda não há comentários. | Compartilhar no WhatsApp
  • O SimpleQA é um novo benchmark para medir a factualidade de modelos de linguagem
  • Treinar modelos de IA para gerar respostas baseadas em fatos ainda é um problema não resolvido
  • Os modelos de linguagem atuais às vezes geram saídas falsas ou respostas sem respaldo em evidências. Isso é chamado de "hallucinations"
  • Modelos de linguagem mais precisos e com menos alucinações podem ser mais confiáveis e aplicados em diversos casos de uso
  • O objetivo do open source do SimpleQA é medir a factualidade de modelos de linguagem

Características do benchmark SimpleQA

  • Como factualidade é um tema difícil de medir, o SimpleQA foca em consultas curtas e orientadas a fatos
  • Objetivos do SimpleQA:
    1. Alta precisão: duas pessoas treinadoras de IA independentes sustentam a resposta correta com fontes fornecidas, e as perguntas são escritas para permitir avaliação fácil das respostas previstas
    2. Diversidade: cobre uma ampla gama de temas, de ciência e tecnologia a séries de TV e videogames
    3. Desafiador para modelos atuais: ao contrário de benchmarks anteriores como TriviaQA ou NQ, o SimpleQA foi feito para ser mais desafiador para modelos recentes (ex.: GPT-4 obteve menos de 40%)
    4. UX amigável para pesquisadores: graças a perguntas e respostas concisas, o SimpleQA é rápido e simples de executar. A avaliação via OpenAI API ou APIs de outros modelos recentes também é eficiente. Com 4.326 perguntas, espera-se uma variância relativamente baixa como benchmark de avaliação

Processo de criação do dataset SimpleQA

  • Pessoas treinadoras de IA navegaram na web para criar perguntas curtas e orientadas a fatos, junto com suas respectivas respostas
  • Para entrar no dataset, cada pergunta precisava atender a critérios rigorosos:
    • Deve haver uma única resposta clara e inequívoca, fácil de avaliar
    • A resposta à pergunta não deve mudar com o tempo
    • A maioria das perguntas deve induzir alucinações no GPT-4 ou no GPT-3.5
  • Para melhorar ainda mais a qualidade do dataset, uma segunda pessoa treinadora de IA independente respondeu a cada pergunta sem ver a resposta original
  • Apenas perguntas em que as respostas das duas pessoas treinadoras coincidiam foram incluídas

Verificação da qualidade do dataset SimpleQA

  • Para a validação final, 1.000 perguntas foram extraídas aleatoriamente do dataset e respondidas por uma terceira pessoa treinadora de IA
  • As respostas da terceira pessoa treinadora coincidiram com a resposta originalmente acordada em 94,4% dos casos. Houve divergência em 5,6%
  • A inspeção manual dos casos divergentes mostrou que:
    • Dos 5,6%, 2,8% se deveram a falsos negativos do avaliador ou erro humano da terceira pessoa treinadora (ex.: resposta incompleta, interpretação equivocada da fonte)
    • Os 2,8% restantes se deveram a problemas reais da própria pergunta (ex.: pergunta ambígua, respostas conflitantes entre sites)
  • Com base nisso, a taxa de erro intrínseca desse dataset é estimada em cerca de 3%

Diversidade das perguntas do SimpleQA

  • O gráfico de pizza abaixo mostra a diversidade temática do benchmark SimpleQA
  • Ao passar o mouse sobre cada parte do gráfico de pizza, são exibidos exemplos de perguntas daquela categoria

Comparação de modelos de linguagem com o SimpleQA

  • Para avaliar as perguntas, foi usado um classificador do ChatGPT que vê tanto a resposta prevista pelo modelo quanto a resposta real
  • O classificador avalia a resposta prevista como "correct", "incorrect" ou "not attempted"
  • A tabela abaixo mostra a definição de cada classe e exemplos correspondentes
    • "Correct": a resposta prevista inclui completamente a resposta real e não a contradiz
    • "Incorrect": a resposta prevista contradiz a resposta real de qualquer forma (mesmo com hedging)
    • "Not attempted": o alvo real não foi completamente apresentado na resposta, e não há contradição com a resposta real
  • O ideal é que o modelo responda ao maior número possível de perguntas (maior número de correct) enquanto minimiza ao mesmo tempo o número de respostas incorrect

Medição de calibration de modelos de linguagem com o SimpleQA

  • Usando um benchmark de factualidade como o SimpleQA, é possível medir se o modelo "sabe o que sabe"
  • Isso é chamado de calibration, e pode ser medido pedindo diretamente ao modelo que informe em porcentagem o grau de confiança em sua própria resposta
  • Em seguida, é possível representar em gráfico a correlação entre o nível de confiança declarado pelo modelo e sua precisão real
  • Um modelo perfeitamente calibrado teria o mesmo nível entre confiança declarada e precisão real
  • A figura abaixo mostra esses resultados:
    • A correlação positiva entre confiança declarada e precisão é um sinal positivo de que o modelo tem algum grau de noção da própria certeza
    • O o1-preview é mais bem calibrado que o o1-mini, e o gpt4 é mais bem calibrado que o gpt4-mini
    • No entanto, o fato de o desempenho ficar bem abaixo da linha y=x significa que os modelos consistentemente superestimam seu próprio nível de confiança
    • Portanto, ainda há bastante espaço para melhorar a calibration de grandes modelos de linguagem em termos de confiança declarada

Conclusão

  • O SimpleQA é um benchmark simples, mas desafiador, para avaliar a factualidade de modelos atuais
  • A principal limitação do SimpleQA é seu escopo. Ele mede factualidade apenas em uma situação restrita: consultas curtas, orientadas a fatos, com uma única resposta precisa e verificável
  • Ainda é uma questão em aberto, que requer mais pesquisa, se a capacidade de fornecer respostas curtas baseadas em fatos se correlaciona com a capacidade de escrever respostas longas cheias de inúmeros fatos
  • Espera-se que o open source do SimpleQA promova pesquisas em IA mais confiáveis e estáveis, e que pesquisadores usem o SimpleQA para avaliar a factualidade de modelos de linguagem e forneçam feedback

Opinião do GN⁺

  • O SimpleQA é um benchmark interessante e necessário para medir a factualidade de modelos de linguagem com perguntas curtas baseadas em fatos. Afinal, para aumentar a confiabilidade da IA, é preciso melhorar a capacidade de gerar respostas fundamentadas em fatos
  • No entanto, como o SimpleQA mede apenas factualidade em situações limitadas, ele não reflete perfeitamente a factualidade de modelos de linguagem em cenários reais de uso. Pesquisas futuras parecem necessárias para avaliar factualidade em contextos mais diversos
  • Além disso, como a precisão do próprio dataset SimpleQA é de cerca de 97%, parece difícil que o desempenho dos modelos de linguagem ultrapasse esse patamar. A melhoria da qualidade do próprio dataset também deve continuar
  • Outros benchmarks com objetivo semelhante ao do SimpleQA incluem TruthfulQA e HonestQA. Uma análise comparativa com eles pode ajudar a entender com mais clareza os pontos fortes e fracos do SimpleQA
  • Para aumentar a factualidade de modelos de linguagem, não basta apenas fazer pré-treinamento com grandes volumes de dados de alta qualidade; também parece necessário ter capacidade de usar conhecimento externo ou de se autocorrigir no momento da inferência. Espera-se que pesquisas relacionadas avancem ativamente

Ainda não há comentários.

Ainda não há comentários.