Estatística Bayesiana: três culturas

(statmodeling.stat.columbia.edu)

1 pontos por GN⁺ 2024-07-28 | 1 comentários | Compartilhar no WhatsApp

O debate sobre estatística bayesiana não é apenas uma questão de distribuição a priori; ele se estende à diferença entre Bayes subjetivo, objetivo e pragmático na forma como enxergam o modelo e o processo de revisão
O Bayes subjetivo é a abordagem tradicional: assume-se uma distribuição geradora dos dados, codifica-se a crença prévia sobre os parâmetros como distribuição a priori e segue-se para a inferência posterior
O Bayes objetivo entende que a inferência deve depender apenas do modelo assumido e dos dados, e que a distribuição a priori deve ser a menos informativa possível em um sentido teórico-informacional
O Bayes pragmático constrói um modelo de probabilidade conjunto para quantidades observadas e não observadas, condiciona nos dados, revisa o ajuste do modelo e as conclusões, e itera se necessário
Esse processo iterativo é mais próximo do design iterativo da engenharia e da forma geral de trabalho em machine learning, vendo a análise bayesiana menos como uma filosofia fixa e mais como um workflow real de modelagem

Distinção entre as três culturas Bayes

O Bayes subjetivo primeiro assume uma distribuição geradora dos dados, isto é, a verossimilhança (likelihood) vista como função dos parâmetros
Sob essa suposição, expressa crenças prévias sobre os parâmetros como distribuição a priori
Depois realiza a inferência posterior e tende a não revisitar o processo
Não está claro se de fato houve alguém que tenha seguido essa filosofia de forma estrita, nem se hoje alguém se classificaria como bayesiano subjetivo

Motivação do Bayes objetivo e a reference prior

O Bayes objetivo pode ser visto como uma filosofia surgida da combinação entre o desejo de usar testes de hipótese, especialmente com Bayes factor, e o “Bayesian cringe”
O artigo de 2009 sobre reference prior de Berger, Bernardo e Sun explica que a reference analysis produz inferência bayesiana objetiva
- As proposições inferenciais devem depender apenas do modelo assumido e dos dados disponíveis
- A distribuição a priori usada deve ser a menos informativa possível em um certo sentido teórico-informacional
Essa linha continua viva em conferências e em livros com “objective Bayes” no título
As priors amplas gamma(epsilon, epsilon) e normal(0, 10_000) usadas em exemplos do BUGS também vêm, em certa medida, dessa tradição

Bayes pragmático e as três etapas do BDA

A abordagem de Andrew Gelman pode ser chamada de Bayes pragmático
A primeira edição de Bayesian Data Analysis, de Gelman, Carlin, Stern e Rubin, idealiza o processo de análise de dados bayesiana em três etapas
- Definir um modelo probabilístico completo para o conjunto de quantidades observadas e não observadas, isto é, uma distribuição de probabilidade conjunta
- Condicionar nos dados observados para calcular e interpretar a distribuição posterior das quantidades não observadas de interesse
- Avaliar o ajuste do modelo, a validade das conclusões implicadas pela distribuição posterior e a sensibilidade às suposições de modelagem
Se houver problemas, altera-se ou amplia-se o modelo e repetem-se as mesmas três etapas
Aqui, o modelo probabilístico é um modelo conjunto que inclui tanto a distribuição a priori quanto a verossimilhança
A entrada é expressa mais como “knowledge” do que como “belief”
O processo de avaliar o quanto o modelo se ajusta aos dados e os resultados preditivos, e tentar de novo se houver problemas, mais tarde passou a ser chamado de “workflow”

Design iterativo familiar na engenharia e no machine learning

Esse método é o mesmo procedimento operacional padrão que, na engenharia, se chama design iterativo (iterative design)
Quase todo machine learning também é feito dessa forma
Para quem vem de ciência da computação e machine learning, o surpreendente é que os estatísticos nem sempre pensaram assim

A estratégia do BDA e evitar disputas filosóficas

Ao escrever a primeira edição de BDA, Andrew Gelman preferiu focar em realmente “fazer” ciência em vez de discutir longamente filosofia
Gelman e Rubin não deram um nome separado ao seu processo de design iterativo
Como é difícil definir com precisão as crenças filosóficas dos outros, e mais difícil ainda mudá-las por meio de debate, essa escolha parece sensata
É uma abordagem mais próxima de “show, don’t tell”: mostrar a metodologia por meio da modelagem real e da prática científica, em vez de pela disputa filosófica

Distribuição a priori e verossimilhança devem ser tratadas juntas

Parte da discussão é sobre distribuições a priori, mas a escolha da a priori não é mais subjetiva nem menos subjetiva do que a escolha da verossimilhança
O texto de Andrew Gelman “Straining on the gnat of the prior distribution while swallowing the camel that is the likelihood” resume essa visão
Filosoficamente, prefere-se tratar a priori e verossimilhança em termos epistemológicos de knowledge, em vez de “belief”
Esse enquadramento foi inicialmente oferecido por Laplace, explorado mais a fundo por John Stuart Mill e seguido por Gelman e outros em BDA

A linhagem do título e as duas culturas de Breiman

Em 1959, C.P. Snow escreveu “The two cultures”, sobre o contraste entre artes e ciências
Em 2001, L. Breiman escreveu o influente artigo “Statistical modeling: the two cultures”
O contraste de Breiman trata da diferença entre modelar explicitamente o processo gerador e usar modelos muito flexíveis que, em termos de machine learning, correspondem a modelos de alta capacidade
Breiman defendia decision forests em sua própria pesquisa, e essa abordagem ainda vence em competições do Kaggle onde não há dados suficientes para ajustar redes neurais modernas
O texto termina com a pergunta de se decision forests e neural networks se enquadram no caso que Andrew chama de “unfolding flower”

1 comentários

GN⁺ 2024-07-28

Opiniões no Hacker News

Vejo o autor dividindo os bayesianos em dois eixos: (1) quão informativa é a distribuição a priori, definida a partir de conhecimento ou crenças sobre o mundo; (2) se a forma funcional do modelo é ajustada iterativamente olhando para o ajuste e para a validade/utilidade da saída
Dessas combinações, ele chama três de informativa + iterativa = pragmática, informativa + não iterativa = subjetiva, não informativa + não iterativa = objetiva, mas o mais difícil de aceitar é justamente a célula não informativa + iterativa ficar vazia
Acho que a maioria das pessoas na indústria que se chamam de bayesianas entra nessa célula. A forma funcional do modelo, isto é, o processo gerador de dados pressuposto, obviamente deve e precisa ser melhorada iterativamente; e, em muitos casos, os dados são grandes o bastante para dominar a priori, então ela costuma ser não informativa ou fracamente informativa
Por isso, a coluna inteira de não iterativo parece um espantalho, mas o autor afirma explicitamente que ele também acreditava nisso até “ficar chocado ao descobrir que estatísticos não pensam assim”
- O não iterativo existe de fato, e não necessariamente só por motivos ruins. Melhorar um modelo iterativamente é para torná-lo melhor segundo algum critério, mas na pesquisa científica atuam fortemente incentivos distorcidos em torno de critérios de significância e resultados positivos
  Situações em que a análise muda conforme os dados, como no “jardim dos caminhos que se bifurcam”, também parecem ser uma causa direta da crise estatística e epistemológica da ciência atual. A iteração em si não é ruim, mas muitas vezes a função objetivo que está sendo otimizada é diferente daquilo que se deseja cientificamente
  Para pesquisadores científicos de verdade, ajustar o modelo iterativamente pode parecer uma espécie de conduta desonesta, e isso parece profundamente ligado à epistemologia defeituosa para a qual muitos campos convergiram: o enquadramento de que se p<0,05 é verdadeiro, caso contrário é falso
  Dito de outro modo, o número de graus de liberdade controlados pelo analista pode ser o núcleo do desconforto. No contexto bayesiano, quando se escolhe uma priori com base em crenças ou dados passados, o analista passa a ter um controle muito grande sobre como o resultado vai sair
  Por isso, acho que vários campos tenderam para um conjunto de testes “padrão” em vez de construir bons modelos estatísticos. Esses testes tiram a maioria dos botões de ajuste das mãos do analista e, em geral, funcionam de forma mais conservadora
- Não sou exatamente versado no lado bayesiano, mas fico me perguntando se métodos bayesianos não paramétricos entram na abordagem “não informativa + iterativa”
  Talvez eu esteja olhando para uma direção totalmente errada, mas não sei onde meu raciocínio ou entendimento descarrilou
- Curiosamente, pela minha experiência, quase todo o aprendizado de máquina moderno funciona como bayesianismo pragmático. Você encontra o ELBO, escolhe a moda mais recente de variável latente que melhor modela o domínio do problema e, hoje em dia, geralmente usa um Transformer e começa a rodar experimentos
Sinto saudade da época da faculdade em que os professores discutiam sem parar sobre bayesianos versus frequentistas
O texto é muito conciso e ainda explica por que até professores bayesianos diferiam em suas abordagens de pesquisa e análise. Eu não conhecia o terceiro campo, o dos bayesianos pragmáticos, mas ele certamente se conecta ao trabalho de um professor que era extremamente rigoroso ao fazer ajuste probabilístico e muitas iterações para acertar a priori e a função densidade de probabilidade conjunta
Recomendo muito a palestra de Andrew Gelman “Andrew Gelman - Bayes, statistics, and reproducibility (Rutgers, Foundations of Probability)” para cientistas de dados
- Link da palestra: https://youtu.be/xgUBdi2wcDI
- Para falar de forma um pouco provocadora sobre o debate frequentistas versus bayesianos, vejo essas três culturas assim
  O bayesianismo subjetivo é o espantalho que a academia frequentista gosta de atacar; o bayesianismo objetivo é a autoimagem ingênua que muitos acadêmicos bayesianos têm; e o bayesianismo pragmático é a abordagem adotada por profissionais que aplicam estatística a alguma coisa real — nos termos de Gelman, por pessoas que fazem ciência
- Recentemente também ouvi falar de estatística fiducial (Fiducial Statistics) como um terceiro campo. O episódio 581 do podcast Super Data Science, com o editor da Harvard Business Review, foi bem interessante
- No país de onde venho, a abordagem frequentista é em geral dominante, mas praticamente não há briga com os bayesianos, o que sempre achei curioso. No fim, é só um conjunto de teorias matemáticas e ferramentas; use o que for útil
  Ainda acho que a tendência dos americanos a não gostar da perspectiva frequentista se deve ao fato de ela exigir uma formação matemática mais forte
Sempre detestei a atmosfera de ter que decidir a que “clube” se pertence, de que “lado” se está. Também não gosto da ideia de que os problemas vistos na ciência hoje possam ser reduzidos a qual filosofia de inferência se adota
Em muitos aspectos, estou mais próximo de uma direção informacional; se tivesse que dizer, talvez eu fosse um bayesiano objetivo, mas na verdade não sou nem frequentista nem bayesiano
Essa divisão em “três culturas” parece um pouco um truque de mão. A cultura “pragmática” não é mutuamente exclusiva com o bayesianismo subjetivo ou objetivo, então ela não diz muito sobre como a priori deve ser especificada ou interpretada
Gelman talvez dissesse que um termo melhor seria algo como “flexibilidade”, mas aí continuam as perguntas de quando adotar uma abordagem objetiva, quando adotar uma subjetiva e por quê. Formalizar isso parece melhor do que deixá-lo como uma cortina de fumaça
Além disso, fazendo o papel de advogado do diabo, a cultura “pragmática” também mostra por que o bayesianismo parece suspeito. O fluxo de “escolher uma priori”, “ver quão bem ela se ajusta” e “iterar” pode parecer ajuste fino de modelo ou p-hacking
Sei que essa não é a intenção, e sei que não dá para modelar sem ajuste fino, mas, abordado desse jeito, a priori parece mais um grau de liberdade para empurrar levemente o resultado e pescar algo
Já escrevi e editei artigos de inferência bayesiana, e o problema nunca esteve na teoria sólida. Está em como as pessoas realmente a usam e abusam dela
Se você quer obter uma perspectiva adequada sobre os métodos frequentistas modernos, recomendo “In All Likelihood”, de Yudi Pawitawn
Nos capítulos iniciais, ele explica de forma bastante elegante a diferença entre os paradigmas frequentista e bayesiano, especialmente a força de modelos frequentistas bem projetados ou baseados em verossimilhança
Com algumas exceções, se os bayesianos de fato usam priors não informativos, o mesmo analista deveria chegar à mesma resposta usando um modelo bayesiano ou um modelo frequentista. Na área em que trabalho, também se diz que 99% dos pesquisadores que usam métodos bayesianos usam priors não informativos, então às vezes fico pensando se não estão usando Bayes só para parecer sofisticado e passar mais facilmente pela revisão por pares
Em modelos complexos, por exemplo com centenas ou milhares de parâmetros, pode ser extremamente difícil saber se um prior é realmente não informativo no contexto de um conjunto de dados específico. É preciso esperar o modelo rodar, e variar sistematicamente os priors leva um tempo enorme mesmo usando recursos de computação de alto desempenho
Além disso, em um ambiente bayesiano é fácil acabar “colando” por acaso, com um ou mais priors, um modelo que, no frequentismo, teria explodido com uma Hessiana que não é definida positiva e dado o diagnóstico de que “o modelo provavelmente é ruim ou complexo demais para o conjunto de dados”
Dá para zombar de modelos com esse nível de complexidade, mas em muitos contextos aplicados eles são a realidade. É o caso, por exemplo, de modelos espaço-temporais diante de problemas de “n grande”, ou de modelos integrados de avaliação pesqueira que fornecem informações sobre o estado dos recursos e a sustentabilidade
Por isso, embora eu ensine inferência bayesiana em nível de pós-graduação, minha principal queixa sobre estatística bayesiana é que ela pode ser mal utilizada com facilidade demais por não estatísticos e iniciantes. Isso é ainda mais verdadeiro agora que softwares muito flexíveis estão disponíveis também para não estatísticos, como biólogos
No geral, a afirmação de Gelman de que ambos os paradigmas são subjetivos e de que, no fundo, é “tartarugas até o fim”, isto é, a subjetividade está por baixo de tudo, é correta e algo com que concordo bastante
- Concordo com a recomendação de “In All Likelihood”, mas vale dizer também que o livro descreve uma terceira abordagem, que não se apoia nem em probabilidade subjetiva nem em probabilidade objetiva
- Se o problema é que não estatísticos e iniciantes podem facilmente usar mal a estatística bayesiana, a estatística frequentista não é assim também? :-)
Na minha opinião, probabilidade não é bem definida e é um conceito impossível de refutar. Ainda assim, empiricamente, parece modelar razoavelmente bem alguns aspectos do mundo. Mas será que ela não pode estar nos levando pelo caminho errado?
O que a frase p(X)=0.5, isto é, “a probabilidade do evento X é 0,5”, realmente significa? É uma proposição? Se for, ela é falseável? Como?
Se não for uma proposição, o que significa? Eu agradeceria se alguém com uma base teórica mais sólida explicasse. Tenho mais a dizer, mas antes gostaria de ouvir respostas de pessoas com um embasamento rigoroso
- Como teoria matemática, a probabilidade é bem definida. Probabilidade é uma aplicação de um tema maior, a teoria da medida, que também fornece a base teórica do cálculo
  Toda probabilidade é definida por três coisas: um conjunto; um conjunto de subconjuntos desse conjunto — em termos simples, uma forma de agrupar coisas; e uma função que envia esses subconjuntos para números entre 0 e 1. Para ser válida, a coleção de subconjuntos, também chamados de eventos, precisa satisfazer regras adicionais
  O exemplo p(X)=0.5 só quer dizer que alguma função atribui o valor 0,5 a algum subconjunto chamado X
  O motivo de isso parecer bom para modelar o mundo real está nas origens da teoria. Ela não surgiu do nada; foi criada porque se queria formalizar eventos do mundo real que pareciam aleatórios
- Pessoalmente, cheguei à conclusão de que a probabilidade só é um conceito bem definido e testável em situações em que se pode argumentar a partir de uma simetria exata específica
  Lançamentos de moeda, jogos de azar e muitos problemas de física estatística se encaixam nisso. Já na inferência, previsão e estimação do mundo real, a probabilidade é subjetiva e muito menos quantificável do que estatísticos, incluindo bayesianos, costumam pensar
  A probabilidade pode nos levar pelo caminho errado? Acho que sim. Tenho a sensação cada vez mais forte de que toda ciência que depende de testes estatísticos de hipóteses como principal método empírico é basicamente um enorme monte de lixo, e que a crise de reprodutibilidade é só a ponta do iceberg. Isso inclui economia, psicologia social, grandes partes da medicina, ciência de dados etc.
  Na maioria dos casos, vejo frases como p(X)=0.5 como proposições infalseáveis. Mesmo em algo como lançamento de moeda, em que é barato fazer muitos experimentos, é preciso rodar um milhão de vezes só para “confirmar” a probabilidade calculada com cerca de 1% de precisão. Pelos padrões das ciências exatas, isso é péssimo; e fica ainda pior quando as suposições são menos sólidas, o espaço amostral é mais complexo ou o custo de reprodução aumenta
- Probabilidade não é um conceito único, mas uma família de conceitos relacionados. A probabilidade epistêmica no bayesianismo subjetivo é um conceito diferente da probabilidade frequentista, embora, claro, sejam relacionados em alguns aspectos
  Quando se misturam definições mutuamente incompatíveis, não é surpresa que pareça um “conceito mal definido e infalseável”
  Do ponto de vista bayesiano subjetivo, p(X) é uma medida do grau de confiança que eu, ou alguma pessoa específica, tenho de que uma determinada proposição é verdadeira; do meu julgamento sobre o peso das evidências a favor e contra ela; ou do grau do meu conhecimento sobre sua verdade ou falsidade
  0,5 significa que não há confiança em nenhum dos lados, que não há evidências para nenhum dos lados ou que as evidências dos dois lados se anulam completamente, e que não há nenhum conhecimento sobre se a proposição é verdadeira
  Isso é uma proposição no mesmo sentido em que “o papa acredita que Deus existe” é uma proposição. Independentemente de Deus existir de fato ou não, é muito plausivelmente verdadeiro que o papa acredita nisso
  Portanto, uma afirmação sobre a minha crença é facilmente falseável pela minha introspecção; e uma afirmação sobre a crença de outra pessoa também é falseável se pudermos perguntar a ela, se ela estiver disposta a responder e se não houver motivo para achar que ela mentiria
- É verdade que uma afirmação específica como p(X=x)=a geralmente não pode ser refutada. Mas funções p inteiras podem ser comparadas entre si, e podemos dizer qual se ajusta melhor aos dados
  Por exemplo, suponha que Nate Silver e Andrew Gelman publiquem, cada um, probabilidades para todos os resultados de disputas nas eleições de novembro. Depois que os resultados saírem, não dá para dizer se uma probabilidade individual estava certa ou errada, mas dá para dizer quem foi mais preciso
- Se, em 1000 lançamentos de moeda, o resultado for 99% cara e 1% coroa, se você tiver certeza de que o mesmo processo foi usado em todos os lançamentos e tiver a oportunidade de apostar em coroa com pagamento de 50%, você apostaria?
  Essa é uma resposta prática que rejeita P(X)=0.5. E é possível tentar entender essa decisão prática por meio de alguma teoria. Além disso, como exatamente 0,5 é quase impossível, faz mais sentido verificar se está em um intervalo como (0.49, 0.51)
  O teorema central do limite diz que, ao realizar ensaios independentes, é possível obter a probabilidade de X e, no limite, o número médio de vezes em que X ocorre se aproxima de p(X)
  Mas “limite” significa um número infinito de ensaios, portanto nenhuma sequência inicial determina esse limite. É preciso escolher algum N grande como referência e calcular a média
  Mas isso é algo exclusivo da probabilidade? Se há uma frase sobre o mundo como “há uma árvore na posição G” e um procedimento para verificar essa frase, por exemplo “ir até G e procurar a árvore”, é possível dizer que esse procedimento necessariamente determina se a frase é verdadeira ou falsa? Sempre pode haver obstáculos, como “uma miragem que parece uma árvore”. Para excluir todos esses obstáculos, é preciso pressupor um processo de observação idealizado
  A idealização que funciona na verificação de probabilidades são observações independentes infinitas, e é isso que dá p(X)
  Não estou tentando defender o frequentismo; quero dizer que a necessidade de um ideal no processo de observação não deveria ser vista como um obstáculo esmagador. Claro, se houver um obstáculo de princípio, como a observação simultânea de posição e momento na mecânica quântica, talvez seja preciso abandonar o conceito de probabilidade
É preciso lembrar que o artigo polêmico de Breiman era sobre métodos generativos versus métodos discriminativos. Ou seja, a ideia era não começar a análise por como a geração dos dados poderia ser modelada, mas sim pela previsão
Desse fluxo surgiram métodos caixa-preta não generativos como árvores com boosting, bagging, random forests e XGBoost
Ainda hoje, a maioria das ferramentas clássicas de machine learning não é generativa
O bom da estatística bayesiana é que ela é subjetiva. Nem é preciso pertencer à escola subjetivista; você pode escolher a interpretação de acordo com seu próprio julgamento subjetivo
Vejo isso como uma força do bayesianismo. Qualquer trabalho estatístico é permeado pelos julgamentos subjetivos de indivíduos humanos. Não fugir desse fato imutável acaba sendo até mais objetivo
- A adequação de cada abordagem depende muito do que está sendo modelado e das consequentes consequências dos erros
Hacking bayesiano: encontrar a iteração que dá a maior significância ao próprio estudo
Onde o deep learning se encaixa?
- A crença tácita compartilhada pelos profissionais mencionados pelo autor é a de que eles tentam criar um modelo que corresponda a algum “processo de geração de dados” subjacente.
  Profissionais de machine learning podem usar modelos parecidos com os dos estatísticos bayesianos, ou até os mesmos modelos, mas tendem a avaliar o modelo com foco no desempenho preditivo — ou exclusivamente por ele —, mais do que por uma intuição sobre por que os dados têm aqueles valores.
  Vale ver o artigo clássico de Breiman “Two Cultures”, ao qual o título deste texto faz referência: https://projecteuclid.org/journals/statistical-science/volum...
- A maioria dos modelos deriva de princípios de machine learning, uma mistura de teoria clássica da probabilidade, estatística frequentista e bayesiana, além de muitos fundamentos de ciência da computação.
  Ainda assim, também houve avanços em inferência bayesiana e deep learning bayesiano; vale dar uma olhada em trabalhos com frameworks como o Pyro, construído sobre o PyTorch.
- Em alto nível, estatística bayesiana e deep learning compartilham o mesmo objetivo: ajustar os parâmetros do modelo.
  Em especial, a inferência variacional é uma família de técnicas que tornam esse tipo de problema computacionalmente viável. Ela aparece em vários lugares, de autoencoders variacionais a modelagem de espaço de estados em séries temporais e aprendizado por reforço.
  Se quiser aprender mais, recomendo o livro-texto de machine learning do Murphy: https://probml.github.io/pml-book/book2.html
- Redes neurais profundas são apenas modelos de dados muito complexos; o que determina se a abordagem é bayesiana ou frequentista é como se trata a estimação de seus parâmetros e a previsão de novos dados.
  Bayesianos atribuem uma distribuição aos parâmetros e então condicionam pelos dados para obter uma distribuição posterior; com base nela, obtêm uma distribuição preditiva posterior para novos dados.
  Já frequentistas veem os parâmetros como quantidades fixas e os estimam apenas pela verossimilhança. Por exemplo, usam máxima verossimilhança e também podem recorrer a artifícios como regularização; esses procedimentos também podem receber uma interpretação bayesiana.
- https://en.wikipedia.org/wiki/Statistical_learning_theory

Estatística Bayesiana: três culturas

Distinção entre as três culturas Bayes

Motivação do Bayes objetivo e a reference prior

Bayes pragmático e as três etapas do BDA

Design iterativo familiar na engenharia e no machine learning

A estratégia do BDA e evitar disputas filosóficas

Distribuição a priori e verossimilhança devem ser tratadas juntas

A linhagem do título e as duas culturas de Breiman

Leituras relacionadas

1 comentários

Opiniões no Hacker News