1 pontos por GN⁺ 2024-08-01 | 1 comentários | Compartilhar no WhatsApp

A verdade sobre regressão linear

  • Introdução

    • Este documento é baseado em notas de aula escritas no outono de 2015, quando foi ministrada a disciplina 36-401, Regressão Moderna
    • Pode ser útil para quem aprende ou ensina regressão linear
    • Reduz a dependência, presente na teoria tradicional, de ruído gaussiano e de modelos lineares corretamente especificados, enfatizando técnicas mais intensivas computacionalmente, porém mais robustas
  • Texto completo em PDF

    • Arquivo de dados
    • Código R de cada capítulo
    • Visão geral atual
  • Predição ótima

    • Introdução à modelagem estatística
    • Dicas sobre o modelo de regressão linear simples e estimação
  • Método dos mínimos quadrados para regressão linear simples

    • Método da máxima verossimilhança para regressão linear simples
    • Diagnóstico e correção de regressão simples
    • Inferência sobre parâmetros
    • Inferência preditiva para modelos lineares simples
    • Interpretação de parâmetros após transformação
    • Teste F, R^2 e outras observações
    • Regressão linear simples em forma matricial
  • Regressão linear múltipla

    • Diagnóstico e inferência em regressão linear múltipla
    • Regressão polinomial e categórica
    • Multicolinearidade
    • Testes e intervalos de confiança
    • Interações
    • Outliers e pontos influentes
    • Seleção de modelos
    • Revisão
    • Mínimos quadrados ponderados e generalizados
    • Seleção de variáveis
    • Árvores
    • Bootstrap I
    • Bootstrap II

Resumo do GN⁺

  • Este documento apresenta uma abordagem moderna para regressão linear, enfatizando métodos computacionais mais robustos para superar limitações teóricas tradicionais
  • Cobre de forma abrangente desde fundamentos de modelagem estatística e análise de regressão até tópicos avançados
  • Em especial, inclui temas importantes na prática, como multicolinearidade, seleção de variáveis e bootstrap
  • Este documento pode ser útil para estudantes ou profissionais que estudam estatística e ciência de dados
  • Um projeto semelhante em funcionalidade é "Advanced Data Analysis from an Elementary Point of View"

1 comentários

 
GN⁺ 2024-08-01
Comentários do Hacker News
  • A maioria das pessoas não entende bem regressão linear

    • Todos os testes estatísticos comuns são modelos lineares
    • Modelos lineares são lineares em relação aos parâmetros, não em relação à resposta
    • Se você escolher uma base de splines apropriada, muitas relações não lineares entre preditores e resposta podem ser modeladas com um modelo linear
    • Pelo teorema de Taylor, relações lineares podem ser uma boa aproximação de relações não lineares
  • Fiz uma disciplina de estatística na CMU há 10 anos e foi bom aprender R

    • A grande fraqueza da regressão linear é que ela funciona em pequenos conjuntos de dados educacionais, mas é difícil de aplicar a dados reais
  • Ridge Regression é útil para resolver problemas de multicolinearidade

    • Hoje em dia ela é ensinada como uma técnica de regularização para evitar overfitting, mas originalmente era usada para ajustar de forma equilibrada os pesos entre preditores altamente correlacionados
  • Gostaria de aprender como pesquisadores quantitativos da Citadel usam regressão linear

    • Fico curioso sobre quais resultados teóricos eles consideram importantes
  • Aprendi regressão linear várias vezes na graduação

    • A otimalidade pode ser provada por meio da teoria estatística e da probabilidade
  • No doutorado, lido principalmente com problemas de regressão usando modelos de deep learning

    • Seria bom se houvesse uma forma de aplicar provas e teoremas rigorosos dos modelos lineares clássicos a modelos de regressão com deep learning
  • "Data Analysis from an Elementary Point of View", de Shalizi, é um bom livro introdutório

    • Foca em modelos lineares e aditivos, além de simulação
    • 90% do livro é inútil sem computador, mas essa é a realidade moderna
  • A técnica mais importante em regressão é reconhecer o intercepto

    • Quando se incluem termos de interação, é importante entender o significado do intercepto
    • Por exemplo, em um modelo linear simples com variáveis de idade e diagnóstico de autismo, é preciso entender o que o intercepto representa
  • Como alguém que ensina regressão com XGBoost, achei este texto muito útil e acessível

    • Especialmente o capítulo 6, sobre diagnóstico visual, está muito bem escrito
  • Embora isso não seja mencionado neste texto, regressão linear também apresenta o fenômeno de Double Descent, comum em deep learning

    • Para isso, é preciso introduzir regularização
  • Gostaria de saber se alguém conhece uma forma de converter este PDF para um formato otimizado para mobile