Por que um ajuste linear por mínimos quadrados parece ter viés quando aplicado a dados simples

(stats.stackexchange.com)

1 pontos por GN⁺ 2026-01-06 | 1 comentários | Compartilhar no WhatsApp

O motivo de a reta de regressão linear por mínimos quadrados parecer mais inclinada do que o real em dados de teste simples é a característica do processo de geração dos dados
O modelo de regressão segue a forma ( Y = \beta_0 + \beta_1 X + \varepsilon ) sob a suposição de que o termo de erro é independente de X
À medida que a variância do erro aumenta, a dispersão dos dados cresce na direção vertical, e a direção do componente principal da PCA fica progressivamente mais próxima da vertical
Em contrapartida, quando a variância de X é muito maior do que o erro, a PCA e a reta de regressão OLS praticamente coincidem
Essa diferença existe porque PCA e OLS têm objetivos distintos (maximização da variância vs. minimização do erro) e, dependendo da forma da distribuição dos dados, produzem resultados visualmente diferentes

Modelo de regressão e processo de geração dos dados

O OLS simples (método dos mínimos quadrados) tem a forma ( Y = \beta_0 + \beta_1 X + \varepsilon ), partindo da suposição de que X e o termo de erro (\varepsilon) são independentes
Quando o termo de erro é 0, todos os pontos ficam sobre a reta de regressão, e a direção do componente principal da PCA coincide com a reta de regressão
Ao adicionar erro, a variância aumenta na direção vertical, e a PCA reflete essa dispersão escolhendo como componente principal uma direção com inclinação mais acentuada

Quando a variância do erro é dominante

Na relação ( \operatorname{Var}(Y) = \beta_1^2 \operatorname{Var}(X) + \operatorname{Var}(\varepsilon) ),
se ( \operatorname{Var}(\varepsilon) \gg \beta_1^2 \operatorname{Var}(X) ), então a maior parte da variação se concentra na direção vertical
Nesse caso, a direção do componente principal da PCA se torna quase vertical, ou seja, parece mais inclinada do que a reta de regressão
Por outro lado, se ( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) ), PCA e OLS quase coincidem

Elipse de covariância e forma da distribuição

A elipse de covariância (covariance ellipse) representa bem a forma dos dados apenas quando ( (X, Y) ) segue uma distribuição normal conjunta
Mesmo quando a distribuição de X muda para binomial, uniforme, bimodal, triangular etc.,
se a variância de X for grande, PCA e reta de regressão coincidem; se o erro for grande, a PCA se desloca na direção vertical
A elipse indica a direcionalidade dos dados, mas não representa com precisão a densidade nem a forma real da distribuição

Natureza de X e considerações de modelagem

No código, a função make_y_from_x gera Y como função linear de X com ruído gaussiano IID, de acordo com as suposições do OLS
X não precisa necessariamente ser uma variável aleatória; também pode assumir valores fixos definidos pelo desenho experimental
A elipse de covariância trata X e Y de forma simétrica, mas o processo real de geração dos dados é assimétrico

Resumo essencial

( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) ): PCA e OLS coincidem
( \operatorname{Var}(\varepsilon) \gg \operatorname{Var}(X) ): a PCA se desloca para a direção vertical
X não precisa necessariamente ser uma variável aleatória nem seguir distribuição normal
PCA foca na direção da variância, enquanto OLS foca na minimização do erro de previsão, por isso os resultados aparecem de forma diferente

1 comentários

GN⁺ 2026-01-06

Comentários do Hacker News

A regressão linear, isto é, Ordinary Least Squares (OLS), assume que há ruído apenas em Y e que X é exato
Já a abordagem em que visualmente há ruído tanto em X quanto em Y é chamada de Total Least Squares (TLS)
- Olhando a figura de Total Least Squares na Wikipedia, dá para entender isso intuitivamente
- Se você trocar x e y e recalcular a inclinação, dá para ter uma noção do que o TLS faz
Há algum tempo, um professor de QuantSci perguntou: “cite um cenário de coleta em que não haja absolutamente nenhum erro nos dados de x”
Por isso, ele ensinava que em geral é melhor preferir a regressão de Deming (Deming regression)
- Na maioria dos dados de sensores, o ruído no eixo Y é muito maior do que no eixo X
  Por exemplo, em um sensor amostrado a 1 kHz, o ruído do próprio sensor é muito maior que o jitter de clock do MCU
- Na regressão de Deming, delta (δ) é a razão entre a variância de y e a variância de x
  Se a variância de x for muito pequena, delta fica grande e o modelo pode ter má condição numérica
- Na minha área, o jitter de medição dos dados X é inferior a 10 ns, então na prática o erro é desprezível
- OLS é BLUE (Best Linear Unbiased Estimator), e isso é especial porque é o estimador linear de variância mínima
- Na maioria das séries temporais, o ruído na medição do tempo é desprezível, mas em outras variáveis, como coordenadas de GPS, podem surgir efeitos de acoplamento complexos
A regressão linear modela apenas o ruído em Y, mas a elipse/autovetores da PCA consideram o ruído em X e em Y
- É interessante que, em muitos sistemas, o ruído em Y seja maior do que em X
  Por exemplo, em conversores analógico-digitais, o tempo é estável por causa do oscilador a cristal, mas o valor medido não é
- Ao analisar dados para obter uma linha de tendência, surge a dúvida se não seria melhor usar a direção do autovetor da PCA
- Seria interessante treinar uma rede neural assumindo que há ruído tanto na entrada quanto na saída
- Se soubéssemos que Y é n vezes mais ruidoso que X, fico curioso se daria para usar essa informação para obter um ajuste melhor
Faz muito tempo que não lido com estatística, e não entendo por que se usa necessariamente quadrados (squares)
Poderiam existir outras potências, como primeira, terceira, quarta etc.; por que os quadrados sempre aparecem?
- Minimizar a soma dos quadrados fornece a estimativa de máxima verossimilhança (MLE) quando se assume que os erros seguem distribuição normal iid
  Se a distribuição dos erros for diferente, outras funções de perda podem ser mais apropriadas
  Por exemplo, a Huber loss age como quadrática para erros pequenos e linear para erros grandes, sendo robusta a outliers
  Para as fórmulas detalhadas, veja as páginas 352–353 de Convex Optimization, de Boyd & Vandenberghe
  Além disso, a ANOVA se baseia no teorema de Pitágoras, então os termos quadráticos são essenciais
- A média minimiza a norma L2; portanto, se você olhar OLS do ponto de vista de variáveis aleatórias, o L2 aparece naturalmente como forma de estimar o valor esperado condicional E[Y|X]
  O teorema de Gauss–Markov garante que esse estimador é não viesado e de variância mínima
- A primeira potência não produz solução única. Por exemplo, com os três pontos (0,0), (1,0), (1,1), qualquer a entre 0 e 1 gera a mesma soma de erros
  Expoentes menores que 1 têm a propriedade estranha de preferir um erro grande a vários erros pequenos
  Já os quadrados são matematicamente fáceis de tratar e também têm boas propriedades numéricas na regressão linear simples
- O verbete Least Squares da Wikipedia resume várias abordagens
  Termos de ordem mais alta, como quarta potência ou superiores, têm muitos ótimos locais e derivadas mais complicadas, o que reduz a simplicidade computacional
- Em resumo: abs não é diferenciável perto de 0, a quarta potência é sensível demais ao ruído, e a terceira potência quebra a linearidade da variância
A maior parte do conteúdo desta thread já está bem organizada em discussões no StackExchange
Não é fácil apresentar uma perspectiva realmente nova
- As respostas do StackExchange já são bastante completas
  É interessante mais como observação matemática
- Ainda assim, trazer esse tipo de tema aqui faz sentido porque permite uma conversa mais livre do que no StackExchange
- Talvez seja uma resposta madura demais para este fórum
Least Squares e PCA minimizam funções de perda diferentes
O primeiro minimiza a soma dos quadrados das distâncias na direção do eixo Y; o segundo minimiza a soma dos quadrados das distâncias ortogonais até a reta
- Então por que a reta de mínimos quadrados parece inclinada para baixo? A direção parece arbitrária
- Fica mais fácil entender se você enxergar mínimos quadrados como um processo de ajuste a uma distribuição gaussiana
Se você faz regressão de y em função de x e depois de x em função de y, obtém duas retas diferentes
Descobri isso em aula e fiquei confuso. Pensei se normalização poderia resolver
- Mas a forma correta de remover esse viés não é normalização, e sim usar uma técnica de regressão independente de coordenadas
Só para organizar a terminologia: um modelo de mínimos quadrados fornece previsões com erro médio igual a 0, ou seja, previsões estatisticamente não viesadas, independentemente de x ter ruído ou não
Ao olhar o resultado de uma regressão, a reta pode parecer visualmente errada, mas na prática o modelo pode estar correto
Para verificar a inclinação correta, vale olhar se, em um x específico, os resíduos (residuals) ficam equilibrados dos dois lados
Por exemplo, se você gerar dados como y = 1.5x + noise, a reta de regressão recupera bem a inclinação 1.5, embora visualmente possa parecer estranha
- Comparar gráficos de resíduos deixa isso mais claro
Esse problema costuma ser chamado de Regression Dilution (link da Wikipedia)
- Mas Regression Dilution se refere ao caso em que a reta de regressão fica viesada por causa de erro nos dados de X
  A pergunta no StackExchange quer saber por que, mesmo sem erro em X, a reta de regressão não coincide com o eixo da elipse de 3σ
  Esta resposta mostra um exemplo em que o erro em X é 0

Por que um ajuste linear por mínimos quadrados parece ter viés quando aplicado a dados simples

Modelo de regressão e processo de geração dos dados

Quando a variância do erro é dominante

Elipse de covariância e forma da distribuição

Natureza de X e considerações de modelagem

Resumo essencial

Leituras relacionadas

1 comentários

Comentários do Hacker News