- Recentemente, a OpenAI apresentou o novo modelo o3 e anunciou que alcançou um desempenho inovador na área de matemática
- Em especial, chamou muita atenção por ter alcançado 25% no benchmark FrontierMath, no qual o modelo anterior conseguia apenas 2%
- Após o anúncio, surgiram críticas sobre a falta de transparência no processo de construção desse benchmark
- Isso pode trazer lições para futuras discussões sobre benchmarks de IA, avaliação e segurança
Visão geral do caso
- Antes de novembro de 2024, a Epoch AI começou a construir o benchmark matemático FrontierMath
- Problemas foram encomendados a matemáticos externos, com pagamentos de cerca de 300 a 1000 dólares
- Na época, não estava claro quem financiava o trabalho nem quem poderia ver os problemas e as soluções
- Em 7 de novembro de 2024, a Epoch AI publicou a primeira versão do artigo no arxiv, sem qualquer menção à fonte de financiamento
- Em 20 de dezembro de 2024, a OpenAI apresentou o modelo o3 e anunciou que ele alcançou 25% no FrontierMath
- No mesmo dia, a versão v5 do artigo da Epoch AI foi atualizada no arxiv, revelando que a OpenAI havia financiado integralmente o projeto e podia acessar a maior parte dos problemas difíceis e de suas soluções
Detalhes adicionais
- Já havia preocupações sobre esse tema logo após a atualização de dezembro, e recentemente surgiram mais informações relacionadas
- O FrontierMath divide a dificuldade em (a) nível de olimpíada (25%), (b) dificuldade intermediária (50%) e (c) nível em que especialistas precisam de várias semanas (25%)
- No anúncio de que o o3 alcançou 25%, o fato de não ter sido revelado quais níveis de dificuldade ele resolveu principalmente pode gerar interpretações equivocadas
- A OpenAI teve acesso a todos os problemas e soluções, mas presume-se que, por acordo verbal, esse dataset não tenha sido usado diretamente no treinamento
- Ainda assim, há críticas de que é difícil para qualquer pessoa saber exatamente como o modelo está sendo treinado internamente
Por que isso também é problemático
- Ter posse ou acesso aos problemas do FrontierMath pode ajudar indiretamente a melhorar o desempenho do modelo
- Em especial, surgem preocupações de que problemas difíceis não divulgados possam ser usados para refinar a validação do modelo ou técnicas de busca
- Não está claro se o anúncio de 25% realmente significa capacidade de resolver problemas difíceis ou se o resultado veio principalmente de problemas mais fáceis
Um dataset que pode aumentar capacidades mesmo sem treinamento explícito
- A estrutura interna do o3 não é bem divulgada, mas alguns outros estudos adotam uma abordagem de “escalar durante a fase de inferência”
- Foram apresentados estudos sobre aprender automaticamente avaliação de Chain-of-thought baseada em MCMC ou fortalecer a busca acoplando um modelo de recompensa de etapas intermediárias (PRM)
- Benchmarks difíceis como o FrontierMath podem ser úteis para validar esses modelos de recompensa
- Em outras palavras, mesmo sem uso direto no treinamento, ainda haveria espaço para usá-lo no ajuste de estratégias de busca do modelo ou técnicas de validação
- Se o objetivo for uma avaliação independente e justa, há quem defenda que o ideal seria avaliar uma única vez e não reutilizar o benchmark para outros fins
Preocupações com segurança em IA
- A Epoch AI é conhecida como uma organização que acompanha tendências de avanço da IA e se preocupa com segurança
- Entre os matemáticos que forneceram problemas para o FrontierMath, pode haver pessoas que não teriam contribuído se soubessem que isso seria usado para melhorar capacidades de IA
- No fim, a crítica é que a OpenAI acabou obtendo indiretamente problemas de pessoas que não desejavam isso para validar e desenvolver o modelo
- Essa falta de transparência gera preocupações do ponto de vista de segurança em IA e ética em pesquisa
Comentário de meemi, pesquisador de AI Safety
- O FrontierMath recebeu financiamento da OpenAI
- Há críticas de que isso não foi divulgado com transparência ao público antes de 20 de dezembro
- O contexto é que as versões iniciais no arxiv (v1–v4) não mencionavam apoio da OpenAI, e isso só passou a ser mencionado nas versões publicadas após 20 de dezembro
- Não está claro qual acordo a Epoch AI fez com a OpenAI, mas levanta-se a possibilidade de que o financiamento tenha sido mantido em sigilo até o momento do anúncio do o3 (20 de dezembro)
- É mencionado que os matemáticos que participaram da criação dos problemas não foram informados de forma ativa sobre o financiamento da OpenAI
- Os participantes contratados assinaram NDA e a segurança foi mantida de forma rigorosa, incluindo a proibição de compartilhar problemas e soluções por e-mail ou Overleaf
- Ainda assim, aponta-se que não ficou claramente explicado a essas pessoas nem o financiamento da OpenAI nem a possibilidade de uso dos dados
- Surgiu a alegação de que até alguns autores talvez nem soubessem que a OpenAI estava financiando o projeto
- Ao que tudo indica, a maioria das pessoas e dos participantes contratados entendia que “os problemas e respostas deste benchmark permanecerão totalmente privados e apenas a Epoch os utilizará”
- Atualmente, nem a Epoch AI nem a OpenAI declaram publicamente que “a OpenAI acessa os problemas ou as soluções”, mas há rumores de que a OpenAI de fato os utiliza
- Também se menciona que não está claro se existe um acordo explícito restringindo o uso desse dataset para treinamento
- Como resultado, existe uma visão crítica de que o financiamento e a possibilidade de uso dos dados deveriam ter sido divulgados claramente, e de que os contratados que criaram os problemas deveriam ter recebido informação suficiente
Comentário de Tamay, da Epoch AI
- Tamay, da Epoch AI, reconheceu diretamente o problema de transparência
- Havia uma condição contratual que impedia divulgar o envolvimento da OpenAI antes do lançamento do o3
- Depois, admitiu que houve falta de transparência e disse que os colaboradores deveriam ter recebido essa informação mais cedo
- Reconheceu como falha da própria organização o fato de não poder comunicar explicitamente a origem do financiamento e os direitos de acesso aos dados
- Promessa de melhorar a transparência em futuras colaborações
- Daqui em diante, buscarão fazer com que os colaboradores saibam com clareza, desde o início, a origem do financiamento, o acesso aos dados e a intenção de uso
- Para alguns matemáticos, foi dito que o financiamento vinha de um laboratório de pesquisa, mas isso não foi comunicado de forma sistemática
- Considera-se que o problema foi ter conduzido o trabalho sem revelar o nome do laboratório específico, ou seja, a OpenAI
- Foi mencionado que deveriam ter negociado com mais firmeza, desde o começo, para poder divulgar essa relação de colaboração
- A questão das restrições de divulgação até o lançamento do o3
- Por obrigação contratual, eles não puderam revelar a parceria com a OpenAI até perto do lançamento do o3
- Os matemáticos que criavam os problemas tinham o direito de saber para quem seu trabalho poderia ser repassado
- Houve arrependimento por não ter sido possível explicar isso adequadamente aos colaboradores por causa do contrato
- Acesso aos dados e possibilidade de uso em treinamento
- A OpenAI pode acessar uma parte considerável dos problemas e soluções do FrontierMath
- No entanto, afirma-se que existe um acordo verbal de que isso não será usado para treinamento
- Funcionários da OpenAI se referiram publicamente ao FrontierMath como um “strongly held out set”
- De fato, existe um conjunto holdout separado para validação independente, ao qual a OpenAI não pode acessar
- Com isso, busca-se evitar treinamento excessivo do modelo ou overfitting e manter uma medição objetiva de desempenho
- O propósito original do FrontierMath
- Desde o início, o FrontierMath foi planejado e apresentado como um projeto de avaliação
- Diz-se que a OpenAI também apoiou a decisão de manter um conjunto de teste efetivo
- Enfatiza-se que, tanto para a academia quanto para laboratórios de pesquisa, é importante garantir conjuntos de teste realmente não contaminados (não usados em treinamento)
- [Correção] Escopo do acesso da OpenAI aos dados
- Para reduzir mal-entendidos, esclarece-se que a OpenAI, no fim, não tem permissão de acesso ao conjunto holdout separado para validação independente
1 comentários
Comentários do Hacker News
Aponta-se que, apesar de ter havido um acordo verbal de que os dados não seriam usados no treinamento do modelo, esse tipo de acordo muitas vezes pode ser violado
Um cofundador da Epoch reconheceu que a OpenAI podia acessar os problemas e soluções do FrontierMath, mas mencionou que havia um acordo verbal para não usá-los no treinamento
Crítica às pessoas que acreditam na marketing da OpenAI sem questionar
Tamay, da Epoch AI, reconheceu que a empresa não foi mais transparente sobre a participação da OpenAI
Menciona-se que os resultados da OpenAI no benchmark perderam credibilidade e que outras empresas de IA tiveram a chance de obter resultados importantes no FrontierMath
Defende-se que, para verificar se LLMs ou IA são realmente inteligentes, é preciso provar que as perguntas não estavam incluídas no conjunto de treinamento
Aponta-se que, mesmo sem trapacear deliberadamente em benchmarks, fazer repetidamente o mesmo teste pode causar overfitting ou p-hacking
Expressa-se desconforto com o fato de a OpenAI induzir o público ao erro
Destaca-se que é cada vez mais provável que empresas de IA construam suas próprias avaliações, que os benchmarks públicos se esgotaram e que é necessário investir mais em benchmarks de fronteira
Afirma-se que os resultados de avaliação apresentados por empresas de IA não são confiáveis