- O motivo de a reta de regressão linear por mínimos quadrados parecer mais inclinada do que o real em dados de teste simples é a característica do processo de geração dos dados
- O modelo de regressão segue a forma ( Y = \beta_0 + \beta_1 X + \varepsilon ) sob a suposição de que o termo de erro é independente de X
- À medida que a variância do erro aumenta, a dispersão dos dados cresce na direção vertical, e a direção do componente principal da PCA fica progressivamente mais próxima da vertical
- Em contrapartida, quando a variância de X é muito maior do que o erro, a PCA e a reta de regressão OLS praticamente coincidem
- Essa diferença existe porque PCA e OLS têm objetivos distintos (maximização da variância vs. minimização do erro) e, dependendo da forma da distribuição dos dados, produzem resultados visualmente diferentes
Modelo de regressão e processo de geração dos dados
- O OLS simples (método dos mínimos quadrados) tem a forma ( Y = \beta_0 + \beta_1 X + \varepsilon ), partindo da suposição de que X e o termo de erro (\varepsilon) são independentes
- Quando o termo de erro é 0, todos os pontos ficam sobre a reta de regressão, e a direção do componente principal da PCA coincide com a reta de regressão
- Ao adicionar erro, a variância aumenta na direção vertical, e a PCA reflete essa dispersão escolhendo como componente principal uma direção com inclinação mais acentuada
Quando a variância do erro é dominante
- Na relação ( \operatorname{Var}(Y) = \beta_1^2 \operatorname{Var}(X) + \operatorname{Var}(\varepsilon) ),
se ( \operatorname{Var}(\varepsilon) \gg \beta_1^2 \operatorname{Var}(X) ), então a maior parte da variação se concentra na direção vertical
- Nesse caso, a direção do componente principal da PCA se torna quase vertical, ou seja, parece mais inclinada do que a reta de regressão
- Por outro lado, se ( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) ), PCA e OLS quase coincidem
Elipse de covariância e forma da distribuição
- A elipse de covariância (covariance ellipse) representa bem a forma dos dados apenas quando ( (X, Y) ) segue uma distribuição normal conjunta
- Mesmo quando a distribuição de X muda para binomial, uniforme, bimodal, triangular etc.,
se a variância de X for grande, PCA e reta de regressão coincidem; se o erro for grande, a PCA se desloca na direção vertical
- A elipse indica a direcionalidade dos dados, mas não representa com precisão a densidade nem a forma real da distribuição
Natureza de X e considerações de modelagem
- No código, a função
make_y_from_x gera Y como função linear de X com ruído gaussiano IID, de acordo com as suposições do OLS
- X não precisa necessariamente ser uma variável aleatória; também pode assumir valores fixos definidos pelo desenho experimental
- A elipse de covariância trata X e Y de forma simétrica, mas o processo real de geração dos dados é assimétrico
Resumo essencial
- ( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) ): PCA e OLS coincidem
- ( \operatorname{Var}(\varepsilon) \gg \operatorname{Var}(X) ): a PCA se desloca para a direção vertical
- X não precisa necessariamente ser uma variável aleatória nem seguir distribuição normal
- PCA foca na direção da variância, enquanto OLS foca na minimização do erro de previsão, por isso os resultados aparecem de forma diferente
1 comentários
Comentários do Hacker News
Já a abordagem em que visualmente há ruído tanto em X quanto em Y é chamada de Total Least Squares (TLS)
Por isso, ele ensinava que em geral é melhor preferir a regressão de Deming (Deming regression)
Por exemplo, em um sensor amostrado a 1 kHz, o ruído do próprio sensor é muito maior que o jitter de clock do MCU
Se a variância de x for muito pequena, delta fica grande e o modelo pode ter má condição numérica
Por exemplo, em conversores analógico-digitais, o tempo é estável por causa do oscilador a cristal, mas o valor medido não é
Poderiam existir outras potências, como primeira, terceira, quarta etc.; por que os quadrados sempre aparecem?
Se a distribuição dos erros for diferente, outras funções de perda podem ser mais apropriadas
Por exemplo, a Huber loss age como quadrática para erros pequenos e linear para erros grandes, sendo robusta a outliers
Para as fórmulas detalhadas, veja as páginas 352–353 de Convex Optimization, de Boyd & Vandenberghe
Além disso, a ANOVA se baseia no teorema de Pitágoras, então os termos quadráticos são essenciais
O teorema de Gauss–Markov garante que esse estimador é não viesado e de variância mínima
Expoentes menores que 1 têm a propriedade estranha de preferir um erro grande a vários erros pequenos
Já os quadrados são matematicamente fáceis de tratar e também têm boas propriedades numéricas na regressão linear simples
Termos de ordem mais alta, como quarta potência ou superiores, têm muitos ótimos locais e derivadas mais complicadas, o que reduz a simplicidade computacional
absnão é diferenciável perto de 0, a quarta potência é sensível demais ao ruído, e a terceira potência quebra a linearidade da variânciaNão é fácil apresentar uma perspectiva realmente nova
É interessante mais como observação matemática
O primeiro minimiza a soma dos quadrados das distâncias na direção do eixo Y; o segundo minimiza a soma dos quadrados das distâncias ortogonais até a reta
Descobri isso em aula e fiquei confuso. Pensei se normalização poderia resolver
Para verificar a inclinação correta, vale olhar se, em um x específico, os resíduos (residuals) ficam equilibrados dos dois lados
Por exemplo, se você gerar dados como y = 1.5x + noise, a reta de regressão recupera bem a inclinação 1.5, embora visualmente possa parecer estranha
A pergunta no StackExchange quer saber por que, mesmo sem erro em X, a reta de regressão não coincide com o eixo da elipse de 3σ
Esta resposta mostra um exemplo em que o erro em X é 0