Análise do o1 por Terence Tao

(mathstodon.xyz)

2 pontos por GN⁺ 2024-09-15 | 1 comentários | Compartilhar no WhatsApp

O matemático Terence Tao testou o novo modelo da família GPT da OpenAI, o1, em tarefas de pesquisa matemática e avaliou que ele é mais capaz que os modelos anteriores, mas ainda insuficiente para problemas de pesquisa de ponta
Em consultas matemáticas ambíguas, ele encontrou o teorema relevante, Cramer’s theorem, e produziu uma resposta satisfatória, mostrando uma melhora clara em relação às respostas alucinatórias dos GPTs anteriores
Em um problema difícil de análise complexa, só chegou à solução correta quando recebeu muitas dicas e direcionamento, revelando que a geração de ideias centrais ainda continua fraca
O experimento de formalização em Lean mostrou que a decomposição do problema em si era razoável, mas as informações sobre Lean e Mathlib estavam desatualizadas, deixando erros de código e problemas de confiabilidade nas chamadas de biblioteca
Tao considera que a IA pode primeiro preencher subtarefas tediosas e verificáveis e, quando combinada com assistentes formais de prova, aumentar bastante a produtividade da pesquisa matemática

Avaliação geral do GPT-o1

O novo modelo da família GPT da OpenAI, GPT-o1, realiza uma etapa inicial de raciocínio antes da execução do LLM
A versão à qual Tao teve acesso era um protótipo, e depois ele esclareceu que experimentou principalmente o modelo hoje chamado de preview version
No geral, ele é mais capaz do que iterações anteriores, mas ainda encontra dificuldades nas tarefas mais avançadas de pesquisa matemática

Experimento 1: consulta matemática ambígua e Cramer’s theorem

O primeiro experimento repetiu um teste feito no passado
A consulta era uma pergunta matemática formulada de modo ambíguo, que só podia ser resolvida ao encontrar na literatura o teorema apropriado, Cramer’s theorem
O GPT anterior mencionava alguns conceitos relacionados, mas os detalhes eram respostas sem sentido, próximas de alucinação
O novo modelo identificou Cramer’s theorem e, na visão de Tao, forneceu uma resposta totalmente satisfatória

Experimento 2: problema difícil de análise complexa

O segundo experimento entregou ao novo modelo um problema difícil de análise complexa para o qual Tao já havia pedido ajuda ao GPT-4 na redação de uma prova
O resultado foi melhor que o dos modelos anteriores, mas abaixo do esperado
- Quando recebia muitas dicas e direcionamento, conseguia chegar a uma solução correta e bem escrita
- Não conseguia gerar sozinho a ideia conceitual central
- Também cometia erros não triviais
Tao comparou a experiência a orientar “uma simulação estática de um pós-graduando mediano que não é totalmente incompetente”
Como os modelos anteriores se pareciam mais com “uma simulação estática de um pós-graduando realmente incompetente”, ele avaliou este modelo como uma melhora
Ele acredita que, com mais uma ou duas rodadas de melhora de desempenho e integração com ferramentas como pacotes de álgebra computacional e assistentes de prova, o sistema pode chegar ao nível de “uma simulação estática de um pós-graduando competente”
Nesse nível, ele pode se tornar bastante útil até em tarefas de nível de pesquisa

Experimento 3: tarefa de formalização em Lean

O terceiro experimento consistiu em fazer o novo modelo iniciar, em Lean, a derivação de uma forma do teorema dos números primos a partir de outra forma do mesmo teorema
A exigência não era a prova em si, mas dividir o problema em lemas auxiliares menores e formalizar suas proposições
O resultado foi promissor
- O modelo entendeu bem a tarefa
- Fez uma decomposição inicial razoável do problema
As limitações também ficaram claras
- Faltam nos dados de treinamento informações atualizadas sobre Lean e bibliotecas matemáticas
- O código continha vários erros
Tao considera que um modelo com esse nível de capacidade, ajustado especificamente para Lean e Mathlib e integrado a uma IDE, pode ser muito útil em projetos de formalização

Experimentos de busca semântica e geração de estratégias criativas

Em 2010, Tao perguntou no MathOverflow porque não conseguia encontrar o termo correto para “multiplicative integral”, e recebeu uma resposta satisfatória de especialistas humanos
Quando fez a mesma pergunta ao o1, recebeu uma resposta perfeita
No entanto, como esse post do MathOverflow pode ter feito parte dos dados de treinamento do modelo, isso talvez não seja uma avaliação precisa da capacidade de busca semântica
Ainda assim, em algumas consultas de busca semântica, ele mostrou nível comparável ao de sites de perguntas e respostas em termos de qualidade das respostas
Em outro experimento, Tao forneceu a parte inicial de um post recente de blog e pediu que o modelo encontrasse o elemento que faltava para transformar avanços parciais existentes em um problema de Erdos em uma solução completa
O resultado foi um pouco decepcionante
- O modelo sugeriu a mesma estratégia de pesquisas recentes, já reapresentada no texto do blog
- Não conseguiu propor variações criativas dessa estratégia
Tao considera que ferramentas baseadas em LLM têm alguma capacidade de gerar estratégias criativas de forma aleatória, mas esse aspecto ainda é fraco

Correção da analogia com pós-graduandos

Ao avaliar a capacidade das ferramentas de IA, Tao corrigiu que havia passado a impressão errada, e potencialmente prejudicial, de que estudantes de pós-graduação humanos poderiam ser classificados por um nível estático e unidimensional de “capacidade”
Ele considera que a habilidade de contribuir para um projeto de pesquisa já existente é apenas um dos vários aspectos da pós-graduação e uma parte relativamente pequena dela
Estudantes que se destacam em criatividade, independência, curiosidade, capacidade de explicação, intuição, especialização, ética de trabalho, organização e habilidades sociais podem se tornar matemáticos mais bem-sucedidos e influentes do que estudantes apenas habilidosos em tarefas técnicas atribuídas
Estudantes humanos aprendem e crescem ao longo do estudo, e áreas que no começo pareciam difíceis podem se tornar dominadas alguns anos depois
Em contraste, as ferramentas modernas de IA podem incorporar algum feedback nas respostas, mas modelos individuais não realizam crescimento real de longo prazo, então faz mais sentido avaliá-los por métricas estáticas de desempenho
Tao pediu desculpas por ter usado uma estrutura inadequada para julgar estudantes humanos a partir de uma mentalidade fixa

Utilidade como ferramenta de apoio à pesquisa e relação custo-benefício

O critério de comparação de Tao é o quanto o sistema consegue ajudar em subtarefas dentro de projetos complexos de pesquisa matemática conduzidos por matemáticos especialistas
Um pós-graduando competente pode trazer contribuições mais valiosas do que o esforço líquido necessário para adaptá-lo ao projeto e supervisioná-lo
As ferramentas atuais ainda exigem mais esforço para serem corretamente instruídas e para verificar seus resultados do que o valor do output útil obtido
- Tao estima hoje essa relação em algo como 2x~5x
Ele não vê motivo para descartar a possibilidade de que, em alguns anos, essa relação caia para menos de 1x
Quando ela ficar abaixo de 1x, isso pode desencadear uma adoção mais ampla da ferramenta no campo
Em algumas subtarefas específicas, ele considera que a relação já está abaixo de 1
- Busca semântica
  - Conversão de formatos de dados
  - Geração de código para cálculos numéricos que ajudam na exploração em pesquisa matemática

O que falta em Lean e Mathlib

Nos experimentos de Tao, o principal ponto que falta para o sistema se tornar útil como ferramenta de formalização é um meio de ancorar a saída no estado atual de Lean e Mathlib
Lean e Mathlib continuam evoluindo a cada mês
O modelo parece ter sido treinado em várias versões de Lean e Mathlib com mais de um ano de defasagem, e essas versões não são 100% compatíveis entre si
Como resultado, a sintaxe e as chamadas de biblioteca produzidas pelo modelo não são confiáveis
Mesmo assim, para alguém que conheça o estado atual de Lean e Mathlib, o resultado chega perto o suficiente para que a maioria dos pequenos erros possa ser corrigida manualmente

Automação verificável e assistentes formais de prova

O principal caso de uso que Tao tem em mente é resolver mais rapidamente problemas que matemáticos, em princípio, conseguiriam resolver com bastante trabalho manual
A ideia é que a IA preencha primeiro as etapas tediosas, e depois um especialista humano revise a saída
Nesse caso, mesmo sem demonstrar pensamento verdadeiramente original, a IA ainda pode aumentar bastante a produtividade
Isso pode até tornar viáveis projetos de pesquisa em escala maior do que a atualmente possível
Se essas ferramentas forem integradas a assistentes formais de prova, será possível avaliar automaticamente, com alto grau de confiança, a consistência de tarefas que exigem fornecer provas de proposições matemáticas
Tao considera que esse tipo de tarefa representa uma parte significativa das tarefas de nível de pesquisa

Perspectiva para o ecossistema de ferramentas de IA para pesquisa matemática

Tao espera o surgimento de um ecossistema de ferramentas de IA capaz de lidar com diferentes tarefas de pesquisa
Isso inclui trabalhos como busca na literatura, formalização de provas e resolução de pequenos subproblemas
Hoje, os LLMs proprietários generalistas muito grandes recebem a maior parte da atenção, mas em algum momento o custo marginal de dados e computação necessários para melhorias adicionais ou ajuste fino para aplicações específicas pode se tornar excessivamente caro
Modelos e conjuntos de dados mais leves e open source, desenvolvidos pela comunidade de pesquisa para necessidades sob medida, também podem desempenhar um papel importante
Modelos generalistas podem servir como uma interface amigável para coordenar ferramentas mais especializadas

1 comentários

GN⁺ 2024-09-15

Opiniões no Hacker News

Se o GPT for ajustado mais para assistentes de prova Lean, como foi para Python, acho que sua utilidade em matemática de nível de pesquisa vai aumentar
Trabalho em uma área relacionada a OR e o ChatGPT 4o absorveu literatura suficiente de OR para produzir formulações de programação inteira mista (MIP) bastante aproveitáveis para vários “formatos de problema”
Por exemplo, se você der um problema lógico como “colocar i itens em n baldes de acordo com a pontuação, mas quero preencher cada balde sequencialmente”, ele de fato cospe uma formulação matemática utilizável, que normalmente só precisa de pequenos ajustes
Ele também avisa sobre formulações fracas em que a lógica pode quebrar, o que é extremamente útil para evitar armadilhas
Claro que, se você não entende otimização MIP, é difícil usar bem para esse fim, e é preciso dividir o problema em partes pequenas para que o GPT consiga raciocinar passo a passo, mas para quem sabe fazer isso, US$ 20 por mês se pagam muito bem
Quando vejo gente no HN reclamando que LLMs pagos/bons, isto é, Sonnet 3.5 e GPT-4o, são inúteis, geralmente parece que ou não sabem usar de um jeito que aproveite os pontos fortes dos LLMs, ou esperam uma mágica de uma só tentativa por causa do hype, ou de fato a tecnologia não combina com a área delas
Para quem consegue explorar os pontos fortes dos LLMs e verificar erros, eles dão uma alavancagem considerável no trabalho
- Concordo totalmente quanto à utilidade
  O HN e a internet em geral viraram um mar de rebaixamento reflexivo e conversa fiada dizendo que LLMs são “inúteis”, mas, na prática, faz semanas que eu não escrevo diretamente nem uma linha de código
  Especifico em parágrafos o que quero, recebo orientação para contornar armadilhas e obtenho código que funciona com um loop simples de iteração
  Isso é uma habilidade aprendida de ponta a ponta, e os modelos, especialmente as ferramentas ao redor deles, já chegaram ao patamar necessário
  Basta aprender com persistência a trabalhar desse jeito e você entra em um mundo muito mais produtivo
  Edição: https://aider.chat/ + 3.5 Sonnet pago
- Também trabalho perto de OR, mas tive muito menos sorte para obter formulações MIP com o 4o
  Ele apresenta respostas plausíveis e explicações matemáticas escorregadias, mas as equações não funcionam e o raciocínio não se encaixa
  É como assistir a uma aula de matemática em que a prova está estranha e eu começo a achar que sou burro, até descobrir que o professor era um paciente com demência que fugiu e que, desde o começo, estava falando coisas sem sentido
  Ontem mesmo pedi ao o1 para verificar, via fluxo máximo, se existe um caminho simples de s até t passando por v, e ele propôs um algoritmo de aparência muito convincente que estava fundamentalmente quebrado
  A minha solução aproveitou algumas técnicas daquela tentativa fracassada, mas, mesmo com várias dicas, ele não encontrou uma resposta que funcionasse, continuou tentando encontrar apenas fluxo s→t e não percebeu que v→{s,t} era o ponto central
  Verificar esse raciocínio também é mentalmente exaustivo demais
  Respostas sutilmente erradas são mais difíceis de detectar e penalizar do que respostas obviamente erradas, a ponto de eu suspeitar que o RLHF tenha selecionado no sentido de embaçar o raciocínio
- Estou dando uma disciplina de MIP agora, então fiz ao 4o algumas das perguntas que passo aos alunos
  Ele conseguiu fornecer blocos básicos, como como modelar x!=y ou como formular o problema da mochila, mas, se eu fazia qualquer pergunta minimamente interessante que não fosse mera memorização de livro-texto, acho que nenhum modelo acertava
  Fico curioso para saber como você está obtendo respostas melhores
  Talvez seja porque, assim que vejo que a resposta está errada, eu a descarto e escrevo por conta própria
  Na verdade, acabei de pedir para ele formular e explicar x!=y quando x,y são variáveis inteiras no intervalo {1..9}; as restrições estavam corretas, mas a explicação estava errada
- Também trabalho com OR e, em otimização MILP, tive uma experiência completamente oposta
  Os resultados de pesquisa são parecidos: um grande artigo de survey publicado no começo deste ano mostrou que LLMs geralmente acertam problemas de livro-texto, mas ficam cada vez mais inúteis à medida que aumentam a complexidade e a novidade
  Os resultados são, na melhor hipótese, clichês; quando se entra no trabalho detalhado, eles viram armadilhas sutis que induzem a mal-entendidos
  Pergunte a um LLM o que uma determinada restrição faz ou, pior, peça para ele explicar o modelo matemático por trás do açúcar sintático proprietário do CPLEX, e ele vai alucinar a matemática, a sintaxe e a explicação
- Uma boa resposta à crítica reflexiva aos LLMs é: “isso não é exatamente o tipo de coisa que um papagaio estocástico diria?”
  Parte do HN é o tipo de gente que veria um cachorro falante escrever código em C e o descartaria porque há um erro de buffer overflow
Imagine voltar a 2019 e ler que a experiência de interagir com algo como Alexa era “mais ou menos parecida com aconselhar um estudante de pós-graduação mediano, mas não totalmente incompetente”
Para uma diferença de 5 anos, é impressionante
- Parece que a primeira profissão que a IA vai reduzir muito é a programação
  Em especial, contribuidores individuais excelentes, mas que trabalham remotamente, parecem estar em risco, e há um conflito de interesses evidente neste fórum
- Acho que o ponto importante é que a maioria das pessoas nem chega ao nível de inteligência de um “estudante de pós-graduação mediano, mas não totalmente incompetente”
  Um pós-graduando mediano em ciências, especialmente do tipo que não abandona e consegue se formar, é uma pessoa muito impressionante em comparação com a maioria de nós
  Ter uma inteligência desse nível como assistente o dia inteiro para “nós”, desde que o custo de tokens caiba no orçamento, é uma enorme melhoria de vida
- Também dá para imaginar voltar a 1950 e ler que o futuro seria conversar com bots para resolver lição de matemática
- Por isso acho que a era da IA não é hype, mas algo muito real
  Jensen disse que a IA chegou à era do iPhone
  Nos próximos 5 a 10 anos, não virá AGI nem ASI, qualquer que seja a definição que as pessoas usem, mas muitas vezes prefiro chamar a IA de inteligência assistiva ou inteligência aumentada
  Ela oferecerá valor suficiente para impulsionar as vendas atuais de computadores e smartphones por pelo menos 5 a 10 anos, ou por 3 a 4 ciclos de substituição
- Terry é um gênio capaz de extrair esse tipo de valor dos LLMs
  A pessoa média ainda não consegue fazer isso
  Tanto porque não sabe fazer bons prompts para o modelo quanto porque, para começo de conversa, os problemas da vida não são baseados em texto
O modelo o1 é realmente impressionante
Em um projeto de similaridade vetorial rápida, consegui uma melhoria significativa de velocidade em código Rust que já estava altamente otimizado, confirmada com benchmarks cuidadosos e validação de correção
Além disso, ele ajudou a reimaginar e conceitualizar uma nova medida de dependência estatística baseada na divergência de Jensen-Shannon, e ela funciona muito bem
Também criou uma implementação ultrarrápida de informação mútua normalizada, algo que eu originalmente queria colocar na biblioteca, mas para o qual não tinha encontrado uma abordagem suficientemente rápida em vetores grandes, como os de mais de 15.000 dimensões
Ele não entregou de início um código Rust perfeito que compilasse, mas, quando colei os avisos do compilador do VS Code, tentou mais uma vez e corrigiu todos os bugs
Em contraste, o GPT-4o muitas vezes precisava de dezenas de tentativas para corrigir erros de tipo do Rust, erros de lifetime/borrowing etc., e o Claude 3.5 Sonnet, estranhamente, era simplesmente burro quando o assunto era Rust
Não é só otimização de desempenho e código relativamente livre de bugs: a combinação de resolução criativa de problemas, vasto conhecimento essencial de matemática e algoritmos, síntese de resultados de pesquisas recentes e a capacidade de entender o que estou tentando fazer e de fato realizar isso faz com que ele pareça um verdadeiro divisor de águas
O diff das alterações no arquivo de código está aqui: https://github.com/Dicklesworthstone/fast_vector_similarity/...
- Grande parte do motivo para contratar uma pessoa pagando US$ 500 mil por ano é fazê-la trabalhar com sistemas legados enormes que os LLMs ainda não entendem
  Ainda assim, otimizar uma pequena biblioteca e implementar funções rápidas é uma grande melhoria na caixa de ferramentas de qualquer programador
- Agora temos um número em dinheiro para relacionar e usar como referência
Minha experiência com o o1 foi muito diferente e, pelos meus critérios, eu nem diria que está no nível de um “bom aluno de graduação”
Por exemplo, fiz uma pergunta bastante simples aqui, e ele ficou completamente confuso
https://moorier.com/math-chat-1.png
https://moorier.com/math-chat-2.png
https://moorier.com/math-chat-3.png
A conversa completa deve estar aqui: https://chatgpt.com/share/66e5d2dd-0b08-8011-89c8-f6895f3217...
- É anedótico, mas, para mim, o O1 foi pior que o 4o e o Claude 3.5 Sonnet
  Para piorar, é mais lento e também mais verboso
- Pensando em treinar um LLM em geometria, muita informação do material-fonte provavelmente está nas figuras que acompanham o texto
  Como este modelo não é multimodal, talvez ele não tenha sido treinado de forma alguma com as figuras anexas
  Seria bom se as pessoas verificassem conjuntos de problemas de geometria e conjuntos de problemas de análise para comparar a diferença
- Não sei por que fizeram ele falar como um atendente de suporte ao cliente
  A experiência ideal aqui é uma resposta curta e concisa, não uma resposta prolixa e bajuladora
- Fico curioso para saber se alguém descobriu qual era o erro no cálculo do volume do icosidodecaedro truncado
O que foi novo para mim é que “a experiência foi parecida com aconselhar um aluno de pós-graduação mediano, mas não completamente incompetente” se aplica a tantas áreas
Obtive muito valor usando LLMs para organizar e entender coisas
Em áreas que conheço muito bem, eles ajudam ao cuidar de uma enorme quantidade de pequenas tarefas
Como Terence apontou no terceiro experimento, quando você decompõe o problema, eles são bastante sólidos em preencher pequenas lacunas
Ainda assim, é preciso compreensão conceitual, e há também alguma técnica de prompt envolvida
Ao entrar em uma área que você não conhece, é preciso construir os prompts em camadas
Se a resposta for conhecida, é melhor começar por algo pequeno e específico e ir expandindo para fora; mesmo ao vir de fora para dentro, é melhor começar de forma específica e focada
Usei isso para penetrar nas camadas conceituais de temas muito complexos que eu desconhecia totalmente e depois validar os conceitos com especialistas do YouTube, artigos de pesquisa e fontes confiáveis; é uma ferramenta impressionante
- Minha experiência é a mesma
  Trato LLMs como um estagiário ou júnior que faz o trabalho de pesquisa braçal que eu não tenho condições de fazer pessoalmente
  É preciso supervisionar, ajudar e verificar os erros, mas no fim se obtêm resultados úteis
  Em termos de postura, acho que quem já supervisionou estagiários ou mentorou juniores consegue extrair valor mais facilmente de LLMs, especialmente dos modelos pagos
  Por outro lado, um colaborador individual experiente e solitário que não sabe extrair valor de pessoas, como eu também era no início da carreira, talvez consiga usá-los menos bem
“Ter que ser capaz de dar saltos matemáticos criativos como Terence Tao” parece um critério bem alto para uma IA
É parecido com uma entrevista de programação em que o entrevistador explica um problema que a equipe dele levou meses para resolver e depois fica decepcionado se você não consegue escrever a solução no quadro branco em 40 minutos, sem Google
- Pela experiência que tive trabalhando com pessoas como Terence Tao, eu não chego nem perto desse nível, mas elas procuram qualquer tipo de criatividade
  Qualquer coisa é aceita, não precisa necessariamente estar “no nível delas”
  Lendo o que ele escreveu e comparando com minha experiência, acho essa descrição imprecisa
  Isso também apareceu na palestra que ele deu na IMO no começo do ano: ele ficou impressionado com algumas interações, mas ainda sente que falta algum tipo de faísca criativa
- Não é preciso inferir um critério tão alto assim
  O que ele de fato disse é específico: “os resultados aqui foram um pouco decepcionantes... essencialmente, o modelo sugeriu algo como as estratégias que já haviam sido identificadas nos trabalhos mais recentes sobre o problema, e que eu havia reescrito em uma postagem no blog, mas não ofereceu variações criativas dessas estratégias”
  O ponto central é que a própria postagem do blog fazia parte da entrada do ChatGPT
  Além disso, ele já deixou claro que prevê um futuro em que isso será mais útil, mas que atualmente usa IA/ChatGPT apenas para organizar referências bibliográficas e escrever código simples no estilo “Hello World”
  Há várias alegações online de que ele usa ChatGPT o tempo todo em pesquisa, mas a parte que vai além de uso para programação parece não ser verdadeira
  Dito isso, “poder ajudar a pesquisa de Terence Tao” é, de fato, um critério alto
- Isso não foi observado só no caso de Terence Tao
  Se você tentar escrever com o ChatGPT um programa mais complexo que código de tutorial, ou um post básico de blog, ele tem falta de criatividade e o design do código também é péssimo
- Meu primeiro pensamento também foi exatamente esse
  Se alguém que talvez seja a pessoa viva com o maior QI atualmente fica impressionado, mas não totalmente satisfeito, porque um computador não produziu raciocínio matemático de nível Nobel, isso por si só é um indicador enorme
  Então o que um aluno de primeiro ano de doutorado em matemática deveria pensar?
  Em um texto anterior, Tao parece ter abordado isso indiretamente ao dizer, na prática, que “o o1 é quase como um aluno de pós-graduação”
É interessante que humanos também possam se beneficiar do raciocínio em formato de cadeia de pensamento
Na verdade, acho que todo estudante de matemática aumentaria muito sua competência se fosse obrigado a primeiro lembrar todas as definições e informações relevantes antes de usá-las
Na prática, até professores e matemáticos não fazem isso, porque recordar exige esforço e não queremos gastar mais esforço do que o necessário para resolver o problema
Se a lembrança falha, é preciso procurar a informação, o que exige ainda mais esforço; por isso, na prática, surge um forte incentivo a simplesmente “ir no feeling”
A IA não tem a barreira emocional contra desperdiçar esforço, então se torna uma raciocinadora melhor do que sua capacidade inata sugeriria
- Mostrar o processo de resolução em uma prova é parecido com um tipo de raciocínio de “cadeia de pensamento”, mas é um pouco diferente
  Ambos fazem dividir o processo em etapas, mantendo a lógica e evitando pular passos importantes
  Mas mostrar a resolução está mais próximo de provar o procedimento correto, enquanto o raciocínio de “cadeia de pensamento” faz recordar definições e conceitos relevantes ao longo do caminho, garantindo uma compreensão mais profunda
  Ambos têm o objetivo de evitar ir no feeling, mas a “cadeia de pensamento” se aprofunda mais no aspecto da lembrança, que humanos tendem a evitar
- Gosto muito desse ponto de vista
  Mesmo tendo visto tanta evidência de que a cadeia de pensamento ajuda LLMs, não pensei em usá-la mais comigo mesmo
  Claro que já faço isso em alguma medida, mas normalmente nem de longe tanto quanto um LLM
  Talvez seja por isso que a escrita seja frequentemente elogiada como uma excelente forma de pensar
  Escrever permite uma cadeia de pensamentos mais longa com menos esforço
- Eu achava que todo mundo fazia isso ao resolver um problema de matemática em que estava travado
  Estou falando de matemática de nível universitário, não de matemática escolar
  Quando ensinava, também sempre fazia os alunos voltarem às definições
  Eu não era extremamente bom em pesquisa matemática e parei depois do doutorado e do pós-doc, mas, pela minha experiência, pesquisa era ao mesmo tempo pensar profundamente sobre um problema, tentar entender o que está acontecendo e quebrá-lo de algum jeito, e também revisar tudo que se sabe relacionado ao problema e procurar problemas parecidos para ver se dava para roubar alguma ideia
Estou muito animado porque pretendo voltar a estudar matemática em breve como hobby de curiosidade independente
Desta vez poderei estudar apoiado em LLMs, o que parece que vai ser muito divertido
Por coincidência, assim como Terence Tao, eu também vinha fazendo perguntas de análise complexa a um LLM enquanto lia um livro-texto para entender melhor
A capacidade de interpretar perguntas matemáticas em formato aberto e encontrar rapidamente conexões conceituais distantes, úteis e relevantes, é impressionante
O professor Tao, medalhista Fields, naturalmente olha os LLMs atuais de matemática de cima para baixo como algo do nível de um “aluno de pós-graduação não completamente incompetente”, mas no meu nível atual de habilidade isso significa algo para o qual eu olho de baixo para cima
Um exemplo que me impressionou seis meses atrás: perguntei quais definições poderiam ser relaxadas para permitir fazer análise complexa também em variedades não orientáveis, como a garrafa de Klein; era uma questão em que eu pensava havia muito tempo, e o LLM percebeu imediatamente que as equações de Cauchy-Riemann ficariam globalmente inconsistentes
Em certo sentido, a convenção arbitrária de sinal em CR define uma orientação na variedade, e inverter a orientação da variedade é o mesmo que trocar i por -i
Agora entendo isso porque o LLM sugeriu que eu olhasse dessa forma
Claro, isso não é pensamento original do LLM; provavelmente é matemática que está escrita em algum livro avançado de pós-graduação altamente especializado em algum lugar
Mas para mim isso não importa
Perguntas desse tipo, nas quais mal sei por onde começar, são impossíveis de responder sem um LLM ou um especialista da área com nível de doutorado
Não há outra ferramenta que torne esse tipo de busca em nível semântico acessível; é uma ferramenta muito poderosa, mas pouco familiar, e estou pensando com cuidado em como aproveitá-la da melhor forma
- A sensação de usar uma espécie de mecanismo de busca semântica completa sobre quase todos os livros-texto do planeta parece um superpoder
  Seria ainda melhor se ele também conseguisse apontar a referência exata do livro-texto onde encontrou a resposta
- Como saber se essa resposta está certa ou não?
- Também fico me perguntando como medir esse tipo de desempenho
  Benchmarks são otimizados contra eles ou acabam entrando no treinamento, e não há como haver sinal suficiente no Chatbot Arena para esse tipo de consulta
  Acho que, em poucos meses, o usuário médio não vai conseguir distinguir diferenças de desempenho entre os principais modelos
Concordo totalmente com Terence Tao
Isso é um avanço real
Sempre acreditei que, se houver dados adequados para que um LLM aprenda a imitar o raciocínio, é possível melhorar seu desempenho
Mas ainda é correspondência de padrões, e suspeito que essa abordagem talvez não seja muito eficaz para produzir uma generalização verdadeira
Portanto, quando o o1 for disponibilizado ao público em geral, é bem provável que vejamos alucinações persistentes e raciocínios incorretos em problemas suficientemente novos ou complexos que vão além dos “programas de raciocínio” ou “padrões de raciocínio” que o modelo aprendeu na etapa de aprendizado por reforço
https://www.lycee.ai/blog/openai-o1-release-agi-reasoning
Para mim, o modelo o1 oscila entre bom e ruim
Por um lado, ele resolveu o jogo NYT Connections[0] em todos os dias em que testei[1], algo que outros modelos, incluindo o Claude Sonnet 3.5, não conseguiram
Por outro, assim como o GPT-4o, ele deixa passar detalhes importantes e alucina
Muitas vezes preciso guiá-lo e corrigi-lo para chegar à resposta certa, a ponto de às vezes eu pensar que teria sido mais fácil simplesmente fazer eu mesmo
Desta vez, é ainda pior porque leva de 20 a 60 segundos para esperar a resposta
Talvez as áreas em que o o1 se destaca sejam justamente coisas de que eu não preciso muito
Eu trabalho com engenharia de software, não com STEM tradicional, e o o1 ainda não é tão melhor a ponto de justificar a latência
Uma área que ainda não explorei é usá-lo para planos de implementação ou planos de mudança de arquitetura
Acho que ele pode ser melhor nisso, mas preciso apresentar o problema certo
[0] https://www.nytimes.com/games/connections
[1] https://chatgpt.com/share/66e40d64-6f70-8004-9fe5-83dd3653a5...

Análise do o1 por Terence Tao

Avaliação geral do GPT-o1

Experimento 1: consulta matemática ambígua e Cramer’s theorem

Experimento 2: problema difícil de análise complexa

Experimento 3: tarefa de formalização em Lean

Experimentos de busca semântica e geração de estratégias criativas

Correção da analogia com pós-graduandos

Utilidade como ferramenta de apoio à pesquisa e relação custo-benefício

Busca semântica

O que falta em Lean e Mathlib

Automação verificável e assistentes formais de prova

Perspectiva para o ecossistema de ferramentas de IA para pesquisa matemática

Leituras relacionadas

1 comentários

Opiniões no Hacker News