Tecnologias de inteligência artificial probabilística

(arxiv.org)

1 pontos por GN⁺ 2025-03-12 | 1 comentários | Compartilhar no WhatsApp

A inteligência artificial probabilística vai além de uma IA que apenas produz valores de previsão e trata de uma abordagem que infere a incerteza e a incorpora à tomada de decisão
A primeira parte do material se concentra em aprendizado de máquina probabilístico, distinguindo a incerteza epistêmica, que surge da falta de dados, da incerteza aleatória, que é difícil de reduzir, como ruído de observação
O material aborda modelagem probabilística por meio de Bayesian linear regression, Gaussian process models e Bayesian neural networks, e usa inferência aproximada quando inferência e previsão são computacionalmente difíceis
A parte final explica como a incerteza orienta a coleta de dados e a exploração em tomada de decisão sequencial, como active learning, Bayesian optimization e reinforcement learning
Como é um material voltado a um curso introdutório de pós-graduação de um semestre, é mais fácil acompanhar o conteúdo com conhecimentos de probabilidade, cálculo, álgebra linear e aprendizado de máquina básico

Problemas centrais tratados pela IA probabilística

Inteligência artificial se refere à ciência e à engenharia de sistemas artificiais que executam tarefas consideradas como exigindo alguns aspectos da inteligência humana, como jogar, traduzir idiomas e dirigir automóveis
Os avanços recentes em IA caminham junto com abordagens baseadas em aprendizado e em dados, e machine learning e deep learning ampliam a forma como sistemas computacionais percebem o mundo
Reinforcement learning tem apresentado resultados em jogos complexos como Go e em tarefas de robótica, como locomoção quadrúpede
Sistemas inteligentes precisam não apenas de valores de previsão, mas também da capacidade de inferir a incerteza dessas previsões e refletir isso na escolha de ações

Aprendizado de máquina probabilístico

A primeira parte é organizada em torno de abordagens de aprendizado de máquina probabilístico
A incerteza se divide em dois tipos
- Incerteza epistêmica (epistemic uncertainty): incerteza causada pela falta de dados e que pode ser reduzida com mais informação
- Incerteza aleatória (aleatoric uncertainty): incerteza intrinsecamente difícil de reduzir, como em observações e resultados ruidosos
Os principais modelos de inferência probabilística são os seguintes
- Bayesian linear regression
- Gaussian process models
- Bayesian neural networks
Como nesses modelos a inferência e a previsão frequentemente se tornam computacionalmente desafiadoras, o material também cobre métodos modernos de inferência aproximada

Uso da incerteza na tomada de decisão sequencial

A parte final foca em tarefas de tomada de decisão sequencial, nas quais é preciso coletar dados e escolher ações ao longo do tempo
Active learning e Bayesian optimization são abordagens de coleta de dados que propõem experimentos úteis para reduzir a incerteza epistêmica
Reinforcement learning é uma estrutura para modelar agentes que aprendem ações em ambientes incertos
O conteúdo passa pela formulação básica de Markov Decision Processes e segue até abordagens modernas de deep RL que usam aproximação funcional com redes neurais
Ao final, trata de abordagens de model-based RL que usam incerteza epistêmica e incerteza aleatória para orientar a exploração e também considerar segurança

Público-alvo e conhecimentos prévios

O material pode ser usado como curso introdutório de pós-graduação de um semestre sobre aprendizado de máquina probabilístico e tomada de decisão sequencial
Embora seja voltado a leitores de diferentes perfis, ele pressupõe os seguintes conhecimentos básicos
- Conceitos fundamentais de probabilidade
- Cálculo
- Álgebra linear
- Aprendizado de máquina básico, incluindo redes neurais
O Capítulo 1 faz uma introdução suave à inferência probabilística necessária para o restante do conteúdo e também revisa conceitos centrais de teoria da probabilidade
Na parte final do manuscrito, há um capítulo que revisa conceitos essenciais de base matemática adicional

Estrutura de estudo

O foco está nos conceitos e ideias centrais, e não em uma apresentação histórica
O material foi organizado para que o aprofundamento e o contexto histórico possam ser seguidos por meio das referências bibliográficas
Ao fim de cada capítulo, há exercícios
Os itens destacados com um ponto de interrogação no texto indicam exercícios
As soluções de todos os exercícios podem ser consultadas na parte final do manuscrito

1 comentários

GN⁺ 2025-03-12

Comentários do Hacker News

O artigo parece ter diagramas explicativos excelentes e ser uma visão geral de alta qualidade que percorre bem, matematicamente, o aprendizado de máquina sob a perspectiva probabilística
Recentemente, o livro didático gratuito e as aulas no YouTube do Zhao, Mathematical Foundation of Reinforcement Learning, também me impressionaram: https://github.com/MathFoundationRL/Book-Mathematical-Founda...
Se você não tiver muito tempo, vale a pena ao menos ver o diagrama de visão geral do sumário do Zhao, que funciona bem como um mapa conceitual da área inteira: https://github.com/MathFoundationRL/Book-Mathematical-Founda...
Se possível, também recomendo o vídeo de introdução
- A primeira aula é realmente muito boa. Não só pelo conteúdo, mas também pela forma como Zhao explica como encarar o aprendizado do ponto de vista de um estudante
Vi esse material há alguns dias, e há um bom motivo para lê-lo com seriedade: Andreas Krause vem fazendo pesquisas profundas e interessantes nas áreas de processos gaussianos e bandits
[1] https://scholar.google.com/scholar?start=10&q=andreas+krause...
- Krause é um dos grandes pesquisadores dessa área. Com base em outros trabalhos dele que li, também escreve bem, então parece valer a leitura
Pode ser uma pergunta boba, mas será que um LLM consegue informar a probabilidade da resposta que acabou de gerar? Quero dizer, se isso pode variar como em lógica difusa
Indo além, será que ele também consegue dizer o quanto confia em si mesmo? A probabilidade de essa probabilidade estar certa, algo como confiança ou lógica difusa intuicionista
Vi isso rapidamente na faculdade há muito tempo, e até fiz um interpretador Prolog em que cada termo tinha F+IF, isto é, probabilidade e coeficiente de confiança
- No estado padrão, acho difícil. Eu não confiaria nessa autoavaliação
  Se houver recursos computacionais suficientes, talvez dê para fazer beam search e usar o LLM para avaliar quantas das respostas geradas são substancialmente equivalentes, criando assim uma medida substituta de “confiança”
- Pelo que entendo, a resposta de um LLM é uma cadeia de tokens de maior probabilidade em cada posição. Pode haver formas mais complexas de gerar e selecionar candidatos, mas dá para pensar nisso como um processo de simplesmente escolher o maior valor
  Para simplificar, se tratarmos tokens como palavras, dá para ver a probabilidade de cada palavra na ordem da frase. Só não sei bem como avaliar isso como probabilidade da frase inteira ou probabilidade de veracidade
- Se você pedir “me diga em quantos % você acha que isso vai acontecer e por quê”, ele costuma produzir bastante contexto e raciocínio
  Não sou da área de matemática e sei que “probabilidade” tem um significado matemático mais complexo, mas, na perspectiva de “por que você acredita nisso com tanta força?”, achei que ele costuma dar explicações bem boas, com as quais dá para concordar ou discordar
  Se eu acrescento contexto extra que conheço, ele também refina a estimativa. Então hoje em dia trato LLMs como uma espécie de sistema de conexão de contexto, usando-os para ver se certos pontos parecem conectáveis antes de eu mesmo ligá-los diretamente
- Não tenho 100% de certeza do que exatamente você quer dizer, mas alguns provedores oferecem probabilidades de tokens: https://cookbook.openai.com/examples/using_logprobs
- Com as devidas modificações, é possível. Redes neurais bayesianas fornecem quantificação de incerteza
  A parte difícil é calibrar as previsões e decidir se vale mais a pena usar a capacidade do modelo para quantificar incerteza do que para construir um modelo maior, ainda que mais incerto
  https://en.wikipedia.org/wiki/Calibration_(statistics)
  Ex.: Efficient and Effective Uncertainty Quantification for LLMs (https://openreview.net/forum?id=QKRLH57ATT)
Para popularizar a interpretabilidade e permitir que até gamers explorem modelos, parece que seria preciso uma GUI para modelos. Basicamente, treinar outro modelo para transformar o LLM em uma forma 3D e colocá-lo em um mundo 3D compreensível para humanos
Num exemplo mais simples, dá para imaginar um LLM representado como um campo verde com objetos, em um espaço onde apenas humanos são agentes
Você está perto de um macaco e, ao ver uma boca mastigando ali perto, vai naquela direção, então o prompt atual vira “monkey chews”. Há uma seta próxima apontando para banana, outra mais distante para maçã e, muito longe no horizonte, uma apontando para pneu. Afinal, é raro um macaco mastigar um pneu
O que está perto seriam os tokens mais prováveis, e o que está longe, os menos prováveis; você poderia ver tudo de uma vez, como se estivesse no alto de uma colina. Acho que daria para criar uma IA desse tipo, estática e em forma de lugar, na qual só humanos são agentes
- Minha experiência alucinatória com Salvia aos 18 anos foi mais ou menos assim
  Minha mente virou uma loja de departamentos infinitamente grande, e cada corredor era um ramo de pensamento acontecendo ao mesmo tempo; acima de cada corredor havia uma lista de ingredientes em comum, preenchida com palavras, emoções e conceitos ligados àquele ramo
  O sistema de alto-falantes substituiu meu monólogo interno; eu já não tinha mais monólogo interno, mas ouvia meus pensamentos do lado de fora, como se fossem vozes de outras pessoas
  Caminhando por aqueles corredores, eu podia observar com assombro a gigantesca rede fractal de pensamentos simultâneos e interdependentes que meu cérebro criava em tempo real
- Ainda não parece que alguém encontrou uma boa forma de mapear espaços de alta dimensão em visualizações 4D
  Talvez por isso tokens e linguagem sejam tão úteis para humanos. Pode ser o análogo mais próximo que temos
Com material semelhante ou pelo menos parcialmente sobreposto, lembro de Introduction to Statistical Learning, de Gareth James e outros, como talvez a principal referência sobre este tema.
Este material pode até ser um pouco mais acessível, mas o outro tem exemplos em R/Python que ajudam bastante.
[1] https://www.statlearning.com/
- Não chega a tanto. ISLR é um livro bem básico, e este material aborda técnicas mais avançadas, como propagação de estimativas probabilísticas, em vez de estimativas pontuais.
  Sinceramente, hoje em dia eu já não recomendaria ISLR. Acho que ficou datado demais.
Parece que Kevin Murphy vai sair correndo para mudar o nome da própria série Probabilistic Machine Learning.
Achei interessante a forma como distingue entradas com ruído, processamento com ruído e cadeias com ruído.
A realidade ontológica não é um arranjo de estados, mas uma distribuição de potencialidades.
As potencialidades existem, e a probabilidade é a descrição matemática de sua distribuição. Toda propriedade é uma dimensão, isto é, um vetor. O estado é apenas uma medição temporária da resolução.
As potencialidades interagem por meio de interferência construtiva e destrutiva, e essa interferência se resolve em estado na medição momentânea chamada “agora”. Essa é uma proposição em que a necessidade colapsa.
A realidade ontológica não é um arranjo de estados, mas o processo de distribuição de potencialidades.
Gemini 2.0 Experimental 02-05 conseguiu ver este material com “apenas” 107K tokens.
É útil se você quiser ajuda para dividir o conteúdo e entendê-lo melhor.
https://aistudio.google.com
“Aproximação de Laplace” é um método rápido e grosseiro para transformar uma distribuição de probabilidade complexa em uma gaussiana simples, ou seja, uma curva em forma de sino.
Funciona encontrando o ponto mais alto, a moda, e ajustando a curvatura naquele ponto.
É rápido e fácil, mas pode ser muito impreciso e excessivamente confiante se a distribuição real não tiver formato de sino.
- Também dá para ver isso como usar apenas os dois primeiros termos da aproximação por série de Taylor no domínio logarítmico e descartar o restante.
Fiz esse curso na ETH Zurich e foi uma das minhas aulas favoritas. Gostei especialmente de como ele ensina a quantificar a incerteza e de como constrói os blocos iniciais do aprendizado por reforço.
Acho uma excelente leitura para cientistas de dados e engenheiros de machine learning. Este documento são as notas daquela disciplina.

Tecnologias de inteligência artificial probabilística

Problemas centrais tratados pela IA probabilística

Aprendizado de máquina probabilístico

Uso da incerteza na tomada de decisão sequencial

Público-alvo e conhecimentos prévios

Estrutura de estudo

Leituras relacionadas

1 comentários

Comentários do Hacker News