24 pontos por GN⁺ 2026-04-26 | 2 comentários | Compartilhar no WhatsApp
  • Artigo que defende que está se formando uma teoria científica capaz de caracterizar propriedades centrais do deep learning, como o processo de aprendizado, representações ocultas, pesos finais e desempenho
  • Apresenta cinco linhas de pesquisa como evidência principal (configurações idealizadas solucionáveis, limites tratáveis, leis matemáticas simples, teorias de hiperparâmetros e comportamentos universais)
  • Essa teoria foca na dinâmica do processo de aprendizado, descreve estatísticas agregadas grosseiras e enfatiza previsões quantitativas falseáveis
  • Propõe nomear esse novo arcabouço teórico da dinâmica do processo de aprendizado como "learning mechanics"
  • Resultados como deep linear network, NTK, mean-field e a distinção lazy-rich tornam possível tratar quantitativamente dinâmica de aprendizado, generalização, feature learning e scaling law
  • Prevê uma relação simbiótica com perspectivas estatísticas e information-theoretic, além de mechanistic interpretability, e examina a direção futura da teoria de deep learning

Principais argumentos do artigo

  • Está emergindo uma teoria científica (scientific theory) que caracteriza propriedades e estatísticas importantes do deep learning, como processo de aprendizado, representações ocultas, pesos finais e desempenho
  • Ao sintetizar as principais correntes atuais de pesquisa em teoria de deep learning, o artigo identifica cinco direções de pesquisa que sustentam a existência dessa teoria
    • (a) configurações idealizadas solucionáveis (solvable idealized settings): oferecem intuição sobre a dinâmica de aprendizado de sistemas realistas
    • (b) limites tratáveis (tractable limits): revelam insights sobre fenômenos fundamentais de aprendizado
    • (c) leis matemáticas simples (simple mathematical laws): capturam observáveis macroscópicos importantes
    • (d) teorias de hiperparâmetros (theories of hyperparameters): separam os hiperparâmetros do restante do processo de aprendizado, deixando um sistema mais simples
    • (e) comportamentos universais (universal behaviors): tornam claro quais fenômenos exigem explicação ao mostrar fenômenos compartilhados entre sistemas e configurações
  • A forma mais adequada de entender essa teoria emergente é como a dinâmica do processo de aprendizado, e o nome proposto é "learning mechanics"
  • Discute a relação com outras abordagens para construir teoria de deep learning, como a perspectiva estatística (statistical) e a perspectiva da teoria da informação (information-theoretic)
  • Em especial, prevê uma relação simbiótica entre learning mechanics e mechanistic interpretability

Introdução

  • O deep learning é extremamente poderoso, mas ainda falta um arcabouço científico que explique de forma integrada como ele funciona internamente
    • Redes neurais mostram desempenho sobre-humano em diversas tarefas, mas não existe uma teoria unificada que explique por que funcionam assim e como esse desempenho surge
    • Na prática, o treinamento real ainda depende muito mais de tentativa e erro do que de first principles, e a teoria tem papel limitado no trabalho cotidiano com deep learning
  • Com a era dos grandes modelos de linguagem e dos diffusion models, o mistério se aprofundou, mas uma teoria científica do deep learning realmente começou a tomar forma, e sua forma é mais próxima da mechanics do processo de aprendizado
  • O foco da teoria de deep learning mudou ao longo do tempo
    • No início, o centro era que funções os modelos podiam representar e como aprendiam a partir dos dados
    • Depois, o foco migrou para quando ocorre generalização com amostras finitas, com o desenvolvimento de classical learning theory, teoria de aprendizado computacional, teoria PAC e teoria clássica de otimização
    • Ao mesmo tempo, também se formou a tradição da statistical physics of machine learning, que trata do comportamento médio de modelos simples
  • Redes multicamadas, backpropagation, e a escalada massiva de dados e recursos computacionais expuseram os limites das teorias anteriores
    • Redes neurais têm estrutura não convexa e superparametrizada, diferente dos modelos simples e convexos tratados melhor pela teoria clássica
    • Elas aprendem representações internas estruturadas além de apenas reduzir o erro de aprendizado, e mostram regularidades em tarefas e escalas diferentes
  • Com essa mudança, a teoria de deep learning saiu de uma etapa que perguntava matematicamente o que era possível para uma etapa científica que descreve e prevê o comportamento de sistemas empíricos complexos
    • Por isso, é necessária uma abordagem científica que incorpore observações empíricas, busque princípios unificadores e identifique padrões recorrentes
    • O caminho futuro deve se parecer menos com o desenvolvimento de um campo puramente matemático e mais com o amadurecimento de uma área científica

O que é learning mechanics

  • O aprendizado em redes neurais pode ser visto de forma análoga à mechanics de objetos se movendo no espaço e no tempo
    • Assim como um objeto se desloca continuamente no espaço físico sob a ação de forças, o modelo se desloca no parameter space por meio de atualizações discretas
    • Assim como, na física, as forças surgem das interações entre componentes de um sistema, no deep learning o aprendizado é moldado pela interação entre parâmetros, conjunto de dados, tarefa e regra de aprendizado
  • Também há uma correspondência entre campos na física e o gradient no deep learning
    • Assim como um sistema físico se estabiliza em mínimos locais de um potencial determinado por interações internas e restrições externas, a rede neural também converge para mínimos locais da loss landscape criada pela arquitetura e pelos dados de treinamento
  • Essa analogia não é apenas retórica, mas se conecta às correntes de pesquisa em andamento
    • Assim como vários ramos da mechanics usam configurações interpretáveis, limites simplificados, estatísticas-resumo, análise de parâmetros do sistema e fenômenos universais, a learning mechanics também usa as mesmas ferramentas
    • Em especial, como continuum mechanics e statistical mechanics, que lidam com muitos elementos interagindo, também no deep learning é útil explicar estatísticas em um nível ampliado em vez de cada elemento isoladamente
  • Esse programa de pesquisa pode ser reunido sob o nome learning mechanics

Sete condições necessárias para learning mechanics

  • Fundamentalidade

    • É preciso desenvolver logicamente o treinamento de redes neurais a partir de first principles
    • Suposições sobre pesos, dinâmica e desempenho podem ser usadas como ferramentas em etapas intermediárias, mas no fim também devem ser explicadas por first principles
  • Caráter matemático

    • É preciso produzir afirmações quantitativas não ambíguas sobre propriedades importantes das redes neurais
    • Apenas descrições qualitativas não bastam para constituir uma mechanics
  • Capacidade preditiva

    • As afirmações devem poder ser verificadas por medições empíricas simples e reproduzíveis
    • Como o controle experimental sobre esses sistemas é muito alto, os principais avanços precisam poder ser validados claramente por experimentos
  • Abrangência

    • É preciso conectar processo de treinamento, representações internas e pesos finais em um único quadro
    • Em vez de tentar incluir todos os detalhes, deve-se escolher uma resolução apropriada que ofereça insight mesmo sacrificando parte dos detalhes
  • Intuitividade

    • Deve-se priorizar insights simples e esclarecedores acima da complexidade técnica
    • A teoria deve trazer a satisfação de dissipar o mistério do deep learning
  • Utilidade

    • Assim como a física serve de base para outras engenharias, ela deve servir de base científica para o deep learning aplicado
    • Isso inclui objetivos concretos como reduzir o ajuste de hiperparâmetros, ferramentas preditivas para design de datasets e base rigorosa para AI safety
  • Humildade

    • É preciso deixar claro o que a teoria explica bem e o que ela não consegue explicar
    • Mesmo uma mechanics aplicável ao deep learning realista pode falhar em casos pequenos, especiais e projetados manualmente; isso é visto como o preço por obter um quadro simples na região de interesse

Por que learning mechanics é importante

  • Razões científicas

    • O sucesso de engenharia das grandes redes neurais sugere que elas exploram princípios profundos de aprendizado e representação que ainda não foram compreendidos
    • São citados como precedentes casos em que a tecnologia veio antes da teoria, como a máquina a vapor e a termodinâmica, e o avião e a teoria aerodinâmica
    • Os princípios de aprendizado das redes neurais artificiais também podem iluminar a compreensão da inteligência biológica, com implicações para neurociência e ciência cognitiva
  • Razões práticas

    • Uma teoria madura de deep learning pode orientar design de modelos, otimização, escalonamento e implantação com princípios mais confiáveis
    • Em algumas áreas a teoria já começou a ter papel prático
      • empirical scaling laws
      • prescrições matemáticas para escalonamento de hiperparâmetros
      • optimizers e métodos de atribuição de dados projetados com motivação teórica
    • Uma teoria mais profunda e completa pode oferecer muito mais orientações desse tipo, tornando-as mais precisas e preditivas
  • Razões relacionadas à segurança

    • Para descrever, caracterizar e controlar sistemas de IA cada vez mais poderosos, é preciso tornar claras as variáveis, mecanismos e princípios de organização relevantes
    • É difícil regular uma tecnologia que não pode ser descrita com clareza, e uma teoria fundamental pode fornecer a clareza necessária para reliability, oversight e control
    • Em especial, levanta-se a possibilidade de contribuir para AI safety de uma forma que apoie mechanistic interpretability

Evidências de que a learning mechanics está surgindo

  • Os componentes centrais do deep learning são explícitos e mensuráveis
    • A arquitetura é dada por uma rede neural f(x; θ) definida como composição de transformações lineares e não lineares simples
    • Os dados são dados como um conjunto de amostras D = {(xi, yi)} vindas de uma distribuição geradora de dados desconhecida
    • A tarefa é definida por uma função objetivo L(θ) que mede o desempenho sobre o dataset
    • A regra de aprendizado é descrita, por exemplo, por atualizações baseadas em gradient como θ(t+1) = θ(t) −η∇L(θ(t)), além de inicialização e hiperparâmetros de otimização
  • Há muito pouco escondido no processo de aprendizado
    • Diferentemente de muitos sistemas complexos, o deep learning expõe diretamente as equations of motion que governam sua dinâmica
    • É possível registrar todos os weights, activations, gradients e losses, e a partir disso construir qualquer estatística desejada
    • É fácil projetar, reproduzir e validar experimentos, o que favorece a descoberta de regularidades empíricas e o teste rigoroso de previsões teóricas
  • O desafio central não é a opacidade, mas a complexidade
    • A interação entre architecture, data, task e learning rule produz dinâmicas de aprendizado não lineares, acopladas e de alta dimensionalidade
    • Há sensibilidade à escolha de hiperparâmetros, e a própria distribuição dos dados é difícil de caracterizar de forma simples
  • Ainda assim, por baixo dessa complexidade existem regularidades, e são apresentadas cinco observações que sustentam isso
    • (a) configurações idealizadas solucionáveis (solvable idealized settings)
    • (b) limites tratáveis (tractable limits)
    • (c) leis matemáticas simples (simple mathematical laws)
    • (d) teorias de hiperparâmetros (theories of hyperparameters)
    • (e) comportamentos universais (universal behaviors)

=== conteúdo do artigo omitido ===

  • Material introdutório adicional, perspectivas e questões em aberto estão disponíveis em learningmechanics.pub
  • O artigo tem 41 páginas

2 comentários

 
chickendreamtree 2026-05-06

A ideia é abordar e resolver isso pela dinâmica, mas eu questiono antes de tudo se será possível criar equações das quais se possa obter uma solução geral.

 
GN⁺ 2026-04-26
Comentários do Hacker News
  • Do ponto de vista de quem trabalha nessa área, este texto resumiu muito bem os temas de pesquisa mais discutidos no momento
    Em especial, os open problems do final praticamente cobrem as principais direções de pesquisa, então essa foi a parte mais útil
    Ver tanto ceticismo nos comentários mostra, infelizmente, como esse tipo de pesquisa quase não chega ao público
    Ainda não há muitos mecanismos para derivar matematicamente, de forma direta, o melhor desenho de rede, mas isso geralmente acontece porque os experimentos avançam mais rápido que a teoria e a explicação vem depois
    Mesmo assim, a pergunta sobre por que redes neurais funcionam melhor do que outros modelos já está bem perto de ter respostas bastante sólidas
    O problema é que essa nem era a pergunta que as pessoas realmente queriam responder, então agora parece que chegamos ao ponto de decidir o que devemos perguntar em seguida

    • Acho que estamos vivendo um período curioso em que a base informacional da deep learning está se consolidando rapidamente
      A pergunta sobre por que funciona está em grande parte resolvida, e o ponto central é minimizar de forma eficiente a perda irreversível de informação em relação ao noise floor
      A matemática aponta para caminhos mais eficientes, mas a indústria há anos desperdiça recursos insistindo apenas em modelos cada vez maiores
      Até um modelo 70B bem feito pode rodar em algo perto de 16GB sem perda de capacidade e ainda continuar treinando, mas o dinheiro continuou indo só para o bigger
      Agora a indústria mudou o foco para Agency e Long-horizon Persistence, e essa transição de uma calculadora preditiva para um sistema duradouro está mais próxima de um problema de termodinâmica de não equilíbrio
      Há matemática e leis que se aplicam diretamente à IA nesse ponto, e o princípio pelo qual um sinal persiste dentro do modelo e o princípio pelo qual um agente persiste acabam levando praticamente à mesma matemática
      Minha especialidade é justamente essa persistência, e às vezes é sinceramente frustrante ver a área de IA reaprendendo com dificuldade princípios básicos que outros campos já dominavam
      Por isso escrevo e compartilho documentos explicando como essa matemática funciona e como aplicá-la a cada domínio; depois de ler isso, em vez de ir no chute, dá para saber exatamente o que melhorar para aumentar a persistência
      Perguntas como por quantas horas um modelo consegue trabalhar parecem até bonitinhas; a questão realmente fundamental é outra
    • Se isso for verdade, é realmente uma ótima notícia
      De uma perspectiva clássica, os efeitos da superparametrização e de outras estruturas de redes neurais sinceramente não são muito intuitivos
      Reconheço que o double descent funciona empiricamente, mas ainda parece que isso não deveria acontecer
      Para quem gosta do Elements, do Hastie e outros, só o bias-variance tradeoff já faz parecer difícil chegar a esse tipo de resultado
      Isso me incomoda há anos, então qualquer avanço nessa direção seria extremamente útil, nem que seja no plano filosófico
      Ainda li só a introdução, mas o texto está muito bem escrito e esse programa de pesquisa merece bastante apoio
      Parece parecido com o caso de bagging e boosting, que no começo também tiveram sucesso empírico antes de terem teoria
    • Sempre me surpreende o número de pessoas que, ao falar de pesquisa para entender redes neurais, já começam dizendo que são uma black box e que entendê-las é impossível
      Provavelmente isso tem muito a ver com o modo como redes neurais passaram a ser descritas como o oposto de algo classicamente interpretável, como linear regression
      Como a engenharia anda rápido demais, também existe uma pressão forte para não esperar por pesquisas que não tragam resultado imediato
      Até mesmo pesquisadores de interpretabilidade parecem desistir rápido demais quando os resultados visíveis não aparecem logo
    • A pergunta por que redes neurais funcionam melhor do que outros modelos é interessante
      Se alguém tiver material de referência acessível até para não especialistas, eu adoraria conhecer
    • Não sei se dá para afirmar com certeza que redes neurais são melhores do que outros modelos
      É verdade que elas cobrem um conjunto muito maior de problemas em que ML tradicional tem dificuldade, como imagens, mas onde a comparação é equivalente eu sei que gradient boosting às vezes acaba indo melhor
  • O ponto que eu não entendo é este
    A ideia de redes neurais existe há décadas e quase não recebia atenção, mas depois de Attention Is All You Need, em 2017, a deep learning explodiu
    Eu sei que GPU acelera deep learning, mas fico pensando se o conceito de transformer em si não poderia ter sido tentado antes, mesmo com hardware muito mais lento

    • O verdadeiro ponto de inflexão foi o AlexNet, em 2012
      Como em https://en.wikipedia.org/wiki/AlexNet, o AlexNet mostrou um salto de desempenho de outra ordem na competição de classificação do ImageNet, e depois disso os grandes laboratórios de pesquisa em imagem migraram todos para deep CNN
      Em poucos anos, outras abordagens praticamente desapareceram das competições SOTA em visão, e depois as redes neurais profundas dominaram outras áreas de ML também
      A explicação convencional no fim é a combinação de dois fatores
      O primeiro é uma capacidade de computação incomparavelmente maior do que no passado, e o segundo são datasets muito maiores e de alta qualidade, como o ImageNet, cuidadosamente curados e rotulados à mão
      Attention foi especialmente útil para aprender relações complexas em sequências com estrutura de ordem relativamente livre, como texto, mas hoje muita gente vê arquitetura menos como a essência da aprendizagem e mais como uma opção de tradeoff quando faltam dados e compute
      No fim, como no https://en.wikipedia.org/wiki/Bitter_lesson, mais compute e mais dados frequentemente vencem um modelo mais inteligente que não escala bem
      Humanos têm algo como 10^11 neurônios, cães 10^9 e ratos 10^7, e o que chama a atenção é que todos esses números são enormes
      Mesmo uma inteligência limitada como a de um rato exige centenas de milhões de neurônios, e a inteligência parece só emergir depois de certo limiar de capacidade computacional
      Provavelmente isso acontece porque lidar com a complexidade intrínseca de ambientes de aprendizado complexos exige muitos parâmetros
      Em problemas simples ou altamente estruturados, por outro lado, há muitas técnicas que funcionam bem com poucos parâmetros ou até têm prova de otimalidade
      O que normalmente chamamos de aprendizado e inteligência pressupõe ambientes complexos, e essa complexidade exige, em essência, um grande número de parâmetros
    • A vitória grande e mais antiga da deep learning foi, na verdade, o AlexNet de 2012 em reconhecimento de imagem
      Aquilo dominou a competição e, em poucos anos, esse método virou praticamente o padrão para tarefas de imagem
      Acho que foi o Jeremy Howard, mas lembro de um texto por volta de 2017 perguntando quando surgiria em NLP um transfer learning tão eficaz quanto o que convnets já tinham conseguido em imagem
      O artigo de attention não passou a dominar o mundo imediatamente naquele ano; na época ainda faltava hardware e ainda não havia consenso de que escala resolveria tudo
      Levou quase mais 5 anos até o GPT-3 explodir, e só então começou a onda atual
      E muita gente subestima demais a escala de compute necessária para treinar esses monstros: com um único processador de 1GHz, treinar um modelo desse porte levaria algo como 100 milhões de anos
      Mesmo um modelo no nível do GPT-3 precisa de algo como 25 mil GPUs por vários meses, e com a memória limitada das GPUs de 10 anos atrás, treinar transformers grandes era praticamente impossível
      As antigas k80 tinham algo em torno de 12GB, enquanto H100/H200 hoje chegam à casa das centenas de GB, então dá para dizer que transformers grandes simplesmente não podiam ser construídos de verdade antes do começo dos anos 2020
      Também lembro dos gamers reclamando no fim da década de 2010 que os preços das GPUs disparavam por causa de ML
    • Como outras pessoas já disseram, a explosão de interesse começou quando deep convolutional networks mostraram que funcionavam para problemas de imagem
      O interessante é que, antes disso, redes neurais eram tratadas como algo pouco importante
      Quando fiz aula sobre isso por volta de 2000, esse era mais ou menos o clima
      Para reacender o interesse, aparentemente foi preciso reunir dados de treino enormes, como o ImageNet, e processadores rápidos
      Depois disso, vieram avanços sucessivos em arquiteturas específicas e o processo cresceu como uma bola de neve
      Para a comunidade mais ampla, o AlexNet parece o grande marco, mas dentro da academia a mudança de clima já vinha de 2 a 3 anos antes
      Eu já começava a ver, por volta de 2008–09, apresentações sobre redes neurais em workshops deixando de ser tratadas com desdém
    • Algo parecido aconteceu com matrizes
      Matrizes existem há 400 anos, mas a álgebra linear, especialmente a álgebra linear numérica, só explodiu depois que os computadores surgiram
      Antes, o padrão era resolver sistemas lineares pela teoria dos minors, mas com os computadores houve grande avanço em teorias como eliminação de Gauss e espaços de Krylov
    • Mesmo que o conceito de transformer pudesse ter sido usado antes em hardware mais lento, em pequena escala ele não produz os mesmos resultados
      As pessoas até imaginavam isso, mas não tinham hardware para implementar de verdade
      Simplificando, LLM é basicamente transformer mais uma quantidade gigantesca de dados, e para realmente treinar dados nessa escala era indispensável ter hardware forte o bastante
  • Acho interessante que estamos tentando entender uma ferramenta de aprendizado, o cérebro, usando outra ferramenta de aprendizado
    SGD já funciona muito bem, e deixá-lo algumas vezes melhor talvez não resolva a pergunta fundamental sobre o que a black box realmente faz
    Como o modo de aprender e aquilo que o modelo realmente faz são problemas diferentes, e nosso cérebro também é uma black box em vários sentidos, parece que falta uma ponte maior entre pesquisa de mecanismos de aprendizado, psicologia e ideias filosóficas sobre a natureza do pensamento e da linguagem

  • Isso é animador, mas acho o título meio exagerado
    Algo como vetores de ataque para entender o que a deep learning realmente faz seria mais preciso, embora menos chamativo
    Se isso puder levar a uma forma de medir quando sistemas de deep learning produzem alucinações, já teria um valor enorme
    Até isso acontecer, sistemas de deep learning só podem ser usados de forma limitada em tarefas em que falar bobagem cause pouco dano

    • Acho que o que mais atrapalha essa área são os mnemônicos carregados de esperança e a antropomorfização aplicados a LLMs
      Por exemplo, a própria palavra hallucination força um significado humano sobre a saída do LLM
      Do ponto de vista do funcionamento matemático real, alucinação é só mais uma saída, e não existe uma fronteira claramente definida entre ela e as outras saídas
    • Medir o momento em que sistemas de deep learning passam a alucinar é realmente um problema que vale muito a pena resolver
      Inclusive essa é minha principal linha de pesquisa, então posso estar enviesado
      A abordagem mais comum é OOD detection, mas eu venho achando há tempos que o próprio enquadramento do problema é instável
      Por isso, junto com colegas, tenho tentado uma abordagem mais fundamental medindo misspecification do modelo, mas o custo computacional é tão alto que o tema ainda está mais para nicho
      Em qualquer direção, ainda deve demorar até surgir uma ruptura de verdade
  • Isso me fez pensar que é conceitualmente parecido com vibecoding
    Primeiro você faz alguma coisa funcionar; entender por que funciona e como funciona é outra tarefa completamente diferente

  • Peraí, então vocês construíram algo que ainda não entendem nem sabem explicar direito e agora querem chamar isso de science?
    Há décadas vocês tomam emprestada terminologia da biologia, especialmente da neurobiologia, e no fim parece até que houve um lado meio copy paste, como macaco imitando macaco

  • Sinceramente, achei essas duas tentativas de teoria universal mais interessantes
    https://arxiv.org/abs/2510.12269
    https://www.mdpi.com/1099-4300/28/3/332
    Também tenho curiosidade sobre a conexão com fuzzy logic
    Redes neurais parecem raciocinar de maneira vaga, mas não sei bem como isso deveria ser chamado formalmente
    Durante anos houve tentativas de formalizar fuzzy reasoning, mas hoje parece que ninguém mais se importa com isso
    Minha impressão é que redes neurais e transformers são o OOP do ML
    São extremamente populares e funcionam muito bem na prática, mas o fundamento ainda é opaco; parece uma reexpressão, em uma linguagem nova, de algo que já era representável antes, só que é difícil apontar exatamente onde surge o ganho

  • Ainda não li o paper inteiro, mas achei o texto realmente envolvente e bastante reflexivo
    Tem muita coisa para digerir, mas é muito interessante ver tudo isso reunido num só lugar

  • Acho que o motivo pelo qual deep learning funciona tão bem em alto nível é, no fim, sua capacidade superior de continuar aprendendo com mais dados em comparação com outras abordagens
    Mas, sem a quantidade imensa de dados disponível hoje, a arquitetura não teria importado tanto assim
    Sem explicar os dois lados da equação modelo-dados ao mesmo tempo, parece difícil construir uma teoria científica sólida para perguntas como por que modelos de reasoning fazem inferência
    O modelo é um produto conjunto da arquitetura com os dados de treinamento
    No momento, isso ainda parece tão difícil quanto explicar como humanos ou animais aprendem coisas específicas a partir de volumes enormes de dados de entrada
    Nossa compreensão empírica deve melhorar, mas no nível fundamental isso talvez nem volte a se reduzir à ciência da computação
    Acho que o verdadeiro núcleo da complexidade está mais no lado dos gigadatasets do que na arquitetura

  • A teoria se torna decisivamente importante quando surge a necessidade de prever modos de falha
    Um sistema de apoio à decisão que acerta quase sempre, mas falha silenciosamente em casos extremos, pode ser mais perigoso do que um sistema mais simples com limites claramente conhecidos
    Entender os mecanismos de viés ajuda a distinguir quando o modelo está realmente confiante e quando está apenas fazendo pattern matching
    Essa diferença é especialmente importante em ambientes de alto risco