2 pontos por GN⁺ 2025-01-20 | 1 comentários | Compartilhar no WhatsApp
  • Recentemente, a OpenAI apresentou o novo modelo o3 e anunciou que alcançou um desempenho inovador na área de matemática
  • Em especial, chamou muita atenção por ter alcançado 25% no benchmark FrontierMath, no qual o modelo anterior conseguia apenas 2%
  • Após o anúncio, surgiram críticas sobre a falta de transparência no processo de construção desse benchmark
  • Isso pode trazer lições para futuras discussões sobre benchmarks de IA, avaliação e segurança

Visão geral do caso

  • Antes de novembro de 2024, a Epoch AI começou a construir o benchmark matemático FrontierMath
  • Problemas foram encomendados a matemáticos externos, com pagamentos de cerca de 300 a 1000 dólares
  • Na época, não estava claro quem financiava o trabalho nem quem poderia ver os problemas e as soluções
  • Em 7 de novembro de 2024, a Epoch AI publicou a primeira versão do artigo no arxiv, sem qualquer menção à fonte de financiamento
  • Em 20 de dezembro de 2024, a OpenAI apresentou o modelo o3 e anunciou que ele alcançou 25% no FrontierMath
  • No mesmo dia, a versão v5 do artigo da Epoch AI foi atualizada no arxiv, revelando que a OpenAI havia financiado integralmente o projeto e podia acessar a maior parte dos problemas difíceis e de suas soluções

Detalhes adicionais

  • Já havia preocupações sobre esse tema logo após a atualização de dezembro, e recentemente surgiram mais informações relacionadas
  • O FrontierMath divide a dificuldade em (a) nível de olimpíada (25%), (b) dificuldade intermediária (50%) e (c) nível em que especialistas precisam de várias semanas (25%)
  • No anúncio de que o o3 alcançou 25%, o fato de não ter sido revelado quais níveis de dificuldade ele resolveu principalmente pode gerar interpretações equivocadas
  • A OpenAI teve acesso a todos os problemas e soluções, mas presume-se que, por acordo verbal, esse dataset não tenha sido usado diretamente no treinamento
  • Ainda assim, há críticas de que é difícil para qualquer pessoa saber exatamente como o modelo está sendo treinado internamente

Por que isso também é problemático

  • Ter posse ou acesso aos problemas do FrontierMath pode ajudar indiretamente a melhorar o desempenho do modelo
  • Em especial, surgem preocupações de que problemas difíceis não divulgados possam ser usados para refinar a validação do modelo ou técnicas de busca
  • Não está claro se o anúncio de 25% realmente significa capacidade de resolver problemas difíceis ou se o resultado veio principalmente de problemas mais fáceis

Um dataset que pode aumentar capacidades mesmo sem treinamento explícito

  • A estrutura interna do o3 não é bem divulgada, mas alguns outros estudos adotam uma abordagem de “escalar durante a fase de inferência”
  • Foram apresentados estudos sobre aprender automaticamente avaliação de Chain-of-thought baseada em MCMC ou fortalecer a busca acoplando um modelo de recompensa de etapas intermediárias (PRM)
  • Benchmarks difíceis como o FrontierMath podem ser úteis para validar esses modelos de recompensa
  • Em outras palavras, mesmo sem uso direto no treinamento, ainda haveria espaço para usá-lo no ajuste de estratégias de busca do modelo ou técnicas de validação
  • Se o objetivo for uma avaliação independente e justa, há quem defenda que o ideal seria avaliar uma única vez e não reutilizar o benchmark para outros fins

Preocupações com segurança em IA

  • A Epoch AI é conhecida como uma organização que acompanha tendências de avanço da IA e se preocupa com segurança
  • Entre os matemáticos que forneceram problemas para o FrontierMath, pode haver pessoas que não teriam contribuído se soubessem que isso seria usado para melhorar capacidades de IA
  • No fim, a crítica é que a OpenAI acabou obtendo indiretamente problemas de pessoas que não desejavam isso para validar e desenvolver o modelo
  • Essa falta de transparência gera preocupações do ponto de vista de segurança em IA e ética em pesquisa

Comentário de meemi, pesquisador de AI Safety

  • O FrontierMath recebeu financiamento da OpenAI
  • Há críticas de que isso não foi divulgado com transparência ao público antes de 20 de dezembro
  • O contexto é que as versões iniciais no arxiv (v1–v4) não mencionavam apoio da OpenAI, e isso só passou a ser mencionado nas versões publicadas após 20 de dezembro
  • Não está claro qual acordo a Epoch AI fez com a OpenAI, mas levanta-se a possibilidade de que o financiamento tenha sido mantido em sigilo até o momento do anúncio do o3 (20 de dezembro)
  • É mencionado que os matemáticos que participaram da criação dos problemas não foram informados de forma ativa sobre o financiamento da OpenAI
  • Os participantes contratados assinaram NDA e a segurança foi mantida de forma rigorosa, incluindo a proibição de compartilhar problemas e soluções por e-mail ou Overleaf
  • Ainda assim, aponta-se que não ficou claramente explicado a essas pessoas nem o financiamento da OpenAI nem a possibilidade de uso dos dados
  • Surgiu a alegação de que até alguns autores talvez nem soubessem que a OpenAI estava financiando o projeto
  • Ao que tudo indica, a maioria das pessoas e dos participantes contratados entendia que “os problemas e respostas deste benchmark permanecerão totalmente privados e apenas a Epoch os utilizará”
  • Atualmente, nem a Epoch AI nem a OpenAI declaram publicamente que “a OpenAI acessa os problemas ou as soluções”, mas há rumores de que a OpenAI de fato os utiliza
  • Também se menciona que não está claro se existe um acordo explícito restringindo o uso desse dataset para treinamento
  • Como resultado, existe uma visão crítica de que o financiamento e a possibilidade de uso dos dados deveriam ter sido divulgados claramente, e de que os contratados que criaram os problemas deveriam ter recebido informação suficiente

Comentário de Tamay, da Epoch AI

  • Tamay, da Epoch AI, reconheceu diretamente o problema de transparência
    • Havia uma condição contratual que impedia divulgar o envolvimento da OpenAI antes do lançamento do o3
    • Depois, admitiu que houve falta de transparência e disse que os colaboradores deveriam ter recebido essa informação mais cedo
    • Reconheceu como falha da própria organização o fato de não poder comunicar explicitamente a origem do financiamento e os direitos de acesso aos dados
  • Promessa de melhorar a transparência em futuras colaborações
    • Daqui em diante, buscarão fazer com que os colaboradores saibam com clareza, desde o início, a origem do financiamento, o acesso aos dados e a intenção de uso
    • Para alguns matemáticos, foi dito que o financiamento vinha de um laboratório de pesquisa, mas isso não foi comunicado de forma sistemática
    • Considera-se que o problema foi ter conduzido o trabalho sem revelar o nome do laboratório específico, ou seja, a OpenAI
    • Foi mencionado que deveriam ter negociado com mais firmeza, desde o começo, para poder divulgar essa relação de colaboração
  • A questão das restrições de divulgação até o lançamento do o3
    • Por obrigação contratual, eles não puderam revelar a parceria com a OpenAI até perto do lançamento do o3
    • Os matemáticos que criavam os problemas tinham o direito de saber para quem seu trabalho poderia ser repassado
    • Houve arrependimento por não ter sido possível explicar isso adequadamente aos colaboradores por causa do contrato
  • Acesso aos dados e possibilidade de uso em treinamento
    • A OpenAI pode acessar uma parte considerável dos problemas e soluções do FrontierMath
    • No entanto, afirma-se que existe um acordo verbal de que isso não será usado para treinamento
    • Funcionários da OpenAI se referiram publicamente ao FrontierMath como um “strongly held out set”
    • De fato, existe um conjunto holdout separado para validação independente, ao qual a OpenAI não pode acessar
    • Com isso, busca-se evitar treinamento excessivo do modelo ou overfitting e manter uma medição objetiva de desempenho
  • O propósito original do FrontierMath
    • Desde o início, o FrontierMath foi planejado e apresentado como um projeto de avaliação
    • Diz-se que a OpenAI também apoiou a decisão de manter um conjunto de teste efetivo
    • Enfatiza-se que, tanto para a academia quanto para laboratórios de pesquisa, é importante garantir conjuntos de teste realmente não contaminados (não usados em treinamento)
  • [Correção] Escopo do acesso da OpenAI aos dados
    • Para reduzir mal-entendidos, esclarece-se que a OpenAI, no fim, não tem permissão de acesso ao conjunto holdout separado para validação independente

1 comentários

 
GN⁺ 2025-01-20
Comentários do Hacker News
  • Aponta-se que, apesar de ter havido um acordo verbal de que os dados não seriam usados no treinamento do modelo, esse tipo de acordo muitas vezes pode ser violado

    • Há ceticismo quanto ao fato de a OpenAI poder acessar os dados de benchmark e haver apenas um acordo verbal de que eles não seriam usados no treinamento
  • Um cofundador da Epoch reconheceu que a OpenAI podia acessar os problemas e soluções do FrontierMath, mas mencionou que havia um acordo verbal para não usá-los no treinamento

    • Questiona-se a confiabilidade de acordos verbais e destaca-se que há muitas formas de a OpenAI obter uma vantagem indevida no benchmark enquanto tecnicamente cumpre o acordo
  • Crítica às pessoas que acreditam na marketing da OpenAI sem questionar

    • Cita como exemplo o caso em que o demo do Sora incluiu edição manual, mas isso não foi mencionado
  • Tamay, da Epoch AI, reconheceu que a empresa não foi mais transparente sobre a participação da OpenAI

    • Lamenta que a divulgação de informações fosse limitada por contrato e que deveria ter negociado com mais firmeza para oferecer transparência mais cedo aos contribuidores do benchmark
  • Menciona-se que os resultados da OpenAI no benchmark perderam credibilidade e que outras empresas de IA tiveram a chance de obter resultados importantes no FrontierMath

  • Defende-se que, para verificar se LLMs ou IA são realmente inteligentes, é preciso provar que as perguntas não estavam incluídas no conjunto de treinamento

    • Se não se sabe se as perguntas ou respostas estavam no conjunto de treinamento, não se deveria afirmar que a IA é inteligente
  • Aponta-se que, mesmo sem trapacear deliberadamente em benchmarks, fazer repetidamente o mesmo teste pode causar overfitting ou p-hacking

    • Explica-se que pode ser difícil determinar se pequenas mudanças são melhorias reais ou ruído, e que pesquisadores podem acreditar ter encontrado otimizações com base em ruído
  • Expressa-se desconforto com o fato de a OpenAI induzir o público ao erro

    • Menciona-se que as ações do CEO vão arruinar a reputação do FrontierMath e da Epoch AI
  • Destaca-se que é cada vez mais provável que empresas de IA construam suas próprias avaliações, que os benchmarks públicos se esgotaram e que é necessário investir mais em benchmarks de fronteira

  • Afirma-se que os resultados de avaliação apresentados por empresas de IA não são confiáveis