O projeto FrontierMath financiado pela OpenAI

(lesswrong.com)

2 pontos por GN⁺ 2025-01-20 | 1 comentários | Compartilhar no WhatsApp

Recentemente, a OpenAI apresentou o novo modelo o3 e anunciou que alcançou um desempenho inovador na área de matemática
Em especial, chamou muita atenção por ter alcançado 25% no benchmark FrontierMath, no qual o modelo anterior conseguia apenas 2%
Após o anúncio, surgiram críticas sobre a falta de transparência no processo de construção desse benchmark
Isso pode trazer lições para futuras discussões sobre benchmarks de IA, avaliação e segurança

Visão geral do caso

Antes de novembro de 2024, a Epoch AI começou a construir o benchmark matemático FrontierMath
Problemas foram encomendados a matemáticos externos, com pagamentos de cerca de 300 a 1000 dólares
Na época, não estava claro quem financiava o trabalho nem quem poderia ver os problemas e as soluções
Em 7 de novembro de 2024, a Epoch AI publicou a primeira versão do artigo no arxiv, sem qualquer menção à fonte de financiamento
Em 20 de dezembro de 2024, a OpenAI apresentou o modelo o3 e anunciou que ele alcançou 25% no FrontierMath
No mesmo dia, a versão v5 do artigo da Epoch AI foi atualizada no arxiv, revelando que a OpenAI havia financiado integralmente o projeto e podia acessar a maior parte dos problemas difíceis e de suas soluções

Detalhes adicionais

Já havia preocupações sobre esse tema logo após a atualização de dezembro, e recentemente surgiram mais informações relacionadas
O FrontierMath divide a dificuldade em (a) nível de olimpíada (25%), (b) dificuldade intermediária (50%) e (c) nível em que especialistas precisam de várias semanas (25%)
No anúncio de que o o3 alcançou 25%, o fato de não ter sido revelado quais níveis de dificuldade ele resolveu principalmente pode gerar interpretações equivocadas
A OpenAI teve acesso a todos os problemas e soluções, mas presume-se que, por acordo verbal, esse dataset não tenha sido usado diretamente no treinamento
Ainda assim, há críticas de que é difícil para qualquer pessoa saber exatamente como o modelo está sendo treinado internamente

Por que isso também é problemático

Ter posse ou acesso aos problemas do FrontierMath pode ajudar indiretamente a melhorar o desempenho do modelo
Em especial, surgem preocupações de que problemas difíceis não divulgados possam ser usados para refinar a validação do modelo ou técnicas de busca
Não está claro se o anúncio de 25% realmente significa capacidade de resolver problemas difíceis ou se o resultado veio principalmente de problemas mais fáceis

Um dataset que pode aumentar capacidades mesmo sem treinamento explícito

A estrutura interna do o3 não é bem divulgada, mas alguns outros estudos adotam uma abordagem de “escalar durante a fase de inferência”
Foram apresentados estudos sobre aprender automaticamente avaliação de Chain-of-thought baseada em MCMC ou fortalecer a busca acoplando um modelo de recompensa de etapas intermediárias (PRM)
Benchmarks difíceis como o FrontierMath podem ser úteis para validar esses modelos de recompensa
Em outras palavras, mesmo sem uso direto no treinamento, ainda haveria espaço para usá-lo no ajuste de estratégias de busca do modelo ou técnicas de validação
Se o objetivo for uma avaliação independente e justa, há quem defenda que o ideal seria avaliar uma única vez e não reutilizar o benchmark para outros fins

Preocupações com segurança em IA

A Epoch AI é conhecida como uma organização que acompanha tendências de avanço da IA e se preocupa com segurança
Entre os matemáticos que forneceram problemas para o FrontierMath, pode haver pessoas que não teriam contribuído se soubessem que isso seria usado para melhorar capacidades de IA
No fim, a crítica é que a OpenAI acabou obtendo indiretamente problemas de pessoas que não desejavam isso para validar e desenvolver o modelo
Essa falta de transparência gera preocupações do ponto de vista de segurança em IA e ética em pesquisa

Comentário de meemi, pesquisador de AI Safety

O FrontierMath recebeu financiamento da OpenAI
Há críticas de que isso não foi divulgado com transparência ao público antes de 20 de dezembro
O contexto é que as versões iniciais no arxiv (v1–v4) não mencionavam apoio da OpenAI, e isso só passou a ser mencionado nas versões publicadas após 20 de dezembro
Não está claro qual acordo a Epoch AI fez com a OpenAI, mas levanta-se a possibilidade de que o financiamento tenha sido mantido em sigilo até o momento do anúncio do o3 (20 de dezembro)
É mencionado que os matemáticos que participaram da criação dos problemas não foram informados de forma ativa sobre o financiamento da OpenAI
Os participantes contratados assinaram NDA e a segurança foi mantida de forma rigorosa, incluindo a proibição de compartilhar problemas e soluções por e-mail ou Overleaf
Ainda assim, aponta-se que não ficou claramente explicado a essas pessoas nem o financiamento da OpenAI nem a possibilidade de uso dos dados
Surgiu a alegação de que até alguns autores talvez nem soubessem que a OpenAI estava financiando o projeto
Ao que tudo indica, a maioria das pessoas e dos participantes contratados entendia que “os problemas e respostas deste benchmark permanecerão totalmente privados e apenas a Epoch os utilizará”
Atualmente, nem a Epoch AI nem a OpenAI declaram publicamente que “a OpenAI acessa os problemas ou as soluções”, mas há rumores de que a OpenAI de fato os utiliza
Também se menciona que não está claro se existe um acordo explícito restringindo o uso desse dataset para treinamento
Como resultado, existe uma visão crítica de que o financiamento e a possibilidade de uso dos dados deveriam ter sido divulgados claramente, e de que os contratados que criaram os problemas deveriam ter recebido informação suficiente

Comentário de Tamay, da Epoch AI

Tamay, da Epoch AI, reconheceu diretamente o problema de transparência
- Havia uma condição contratual que impedia divulgar o envolvimento da OpenAI antes do lançamento do o3
- Depois, admitiu que houve falta de transparência e disse que os colaboradores deveriam ter recebido essa informação mais cedo
- Reconheceu como falha da própria organização o fato de não poder comunicar explicitamente a origem do financiamento e os direitos de acesso aos dados
Promessa de melhorar a transparência em futuras colaborações
- Daqui em diante, buscarão fazer com que os colaboradores saibam com clareza, desde o início, a origem do financiamento, o acesso aos dados e a intenção de uso
- Para alguns matemáticos, foi dito que o financiamento vinha de um laboratório de pesquisa, mas isso não foi comunicado de forma sistemática
- Considera-se que o problema foi ter conduzido o trabalho sem revelar o nome do laboratório específico, ou seja, a OpenAI
- Foi mencionado que deveriam ter negociado com mais firmeza, desde o começo, para poder divulgar essa relação de colaboração
A questão das restrições de divulgação até o lançamento do o3
- Por obrigação contratual, eles não puderam revelar a parceria com a OpenAI até perto do lançamento do o3
- Os matemáticos que criavam os problemas tinham o direito de saber para quem seu trabalho poderia ser repassado
- Houve arrependimento por não ter sido possível explicar isso adequadamente aos colaboradores por causa do contrato
Acesso aos dados e possibilidade de uso em treinamento
- A OpenAI pode acessar uma parte considerável dos problemas e soluções do FrontierMath
- No entanto, afirma-se que existe um acordo verbal de que isso não será usado para treinamento
- Funcionários da OpenAI se referiram publicamente ao FrontierMath como um “strongly held out set”
- De fato, existe um conjunto holdout separado para validação independente, ao qual a OpenAI não pode acessar
- Com isso, busca-se evitar treinamento excessivo do modelo ou overfitting e manter uma medição objetiva de desempenho
O propósito original do FrontierMath
- Desde o início, o FrontierMath foi planejado e apresentado como um projeto de avaliação
- Diz-se que a OpenAI também apoiou a decisão de manter um conjunto de teste efetivo
- Enfatiza-se que, tanto para a academia quanto para laboratórios de pesquisa, é importante garantir conjuntos de teste realmente não contaminados (não usados em treinamento)
[Correção] Escopo do acesso da OpenAI aos dados
- Para reduzir mal-entendidos, esclarece-se que a OpenAI, no fim, não tem permissão de acesso ao conjunto holdout separado para validação independente

1 comentários

GN⁺ 2025-01-20

Comentários do Hacker News

Aponta-se que, apesar de ter havido um acordo verbal de que os dados não seriam usados no treinamento do modelo, esse tipo de acordo muitas vezes pode ser violado
- Há ceticismo quanto ao fato de a OpenAI poder acessar os dados de benchmark e haver apenas um acordo verbal de que eles não seriam usados no treinamento
Um cofundador da Epoch reconheceu que a OpenAI podia acessar os problemas e soluções do FrontierMath, mas mencionou que havia um acordo verbal para não usá-los no treinamento
- Questiona-se a confiabilidade de acordos verbais e destaca-se que há muitas formas de a OpenAI obter uma vantagem indevida no benchmark enquanto tecnicamente cumpre o acordo
Crítica às pessoas que acreditam na marketing da OpenAI sem questionar
- Cita como exemplo o caso em que o demo do Sora incluiu edição manual, mas isso não foi mencionado
Tamay, da Epoch AI, reconheceu que a empresa não foi mais transparente sobre a participação da OpenAI
- Lamenta que a divulgação de informações fosse limitada por contrato e que deveria ter negociado com mais firmeza para oferecer transparência mais cedo aos contribuidores do benchmark
Menciona-se que os resultados da OpenAI no benchmark perderam credibilidade e que outras empresas de IA tiveram a chance de obter resultados importantes no FrontierMath
Defende-se que, para verificar se LLMs ou IA são realmente inteligentes, é preciso provar que as perguntas não estavam incluídas no conjunto de treinamento
- Se não se sabe se as perguntas ou respostas estavam no conjunto de treinamento, não se deveria afirmar que a IA é inteligente
Aponta-se que, mesmo sem trapacear deliberadamente em benchmarks, fazer repetidamente o mesmo teste pode causar overfitting ou p-hacking
- Explica-se que pode ser difícil determinar se pequenas mudanças são melhorias reais ou ruído, e que pesquisadores podem acreditar ter encontrado otimizações com base em ruído
Expressa-se desconforto com o fato de a OpenAI induzir o público ao erro
- Menciona-se que as ações do CEO vão arruinar a reputação do FrontierMath e da Epoch AI
Destaca-se que é cada vez mais provável que empresas de IA construam suas próprias avaliações, que os benchmarks públicos se esgotaram e que é necessário investir mais em benchmarks de fronteira
Afirma-se que os resultados de avaliação apresentados por empresas de IA não são confiáveis

O projeto FrontierMath financiado pela OpenAI

Visão geral do caso

Detalhes adicionais

Por que isso também é problemático

Um dataset que pode aumentar capacidades mesmo sem treinamento explícito

Preocupações com segurança em IA

Comentário de meemi, pesquisador de AI Safety

Comentário de Tamay, da Epoch AI

Leituras relacionadas

1 comentários

Comentários do Hacker News